随着科技的日新月异,人工智能在商业领域的成就令人瞩目,其在公益领域的潜力也日益显现。一部名为《听见世界》的公益短片在网络上广受关注,它不仅触动了观众的情感,更展示了复旦眸思大模型如何利用先进科技为视障群体打开新世界的大门。
在开发多模态大模型的过程中,研究人员发现,经过数亿张图片训练的眸思大模型,不仅能精确描述自然环境,甚至对罕见场景也有出色表现,仿佛“拥有了眼睛”。这一发现激发了团队将图像转化为语音的灵感,旨在为盲人群体提供行走、寻物等场景下的巨大帮助。
复旦大学自然语言处理实验室与视觉与学习实验室协同开发了复旦眸思多模态大模型,并同步启动了听见世界项目。项目由桂韬、纪焘、张奇、黄萱菁、邱锡鹏、吴祖煊、姜育刚等专家主导,近20名博士和硕士研究生共同参与,实现了学术研究与实际应用的紧密结合。
听见世界APP依托安卓平台,支持低配手机,其核心功能——声音描述,均源自于复旦眸思大模型。软件根据不同模式(如街道行走、物品寻找、自由问答和电视介绍)预设特定提示,为盲友提供全方位的辅助服务。例如,在街道行走模式下,摄像头捕捉实时画面,模型识别交通状况,生成语音指导,使盲友能够安全出行。
研发团队致力于降低服务成本,通过政府支持、NGO组织、智算中心及硬件厂商的合作,计划实现听见世界APP的免费使用。桂韬副研究员表示,眸思项目旨在帮助1800万视障人士重拾生活的色彩,这是技术进步在促进社会公平与包容性方面的重大贡献。公司董事长智振强调,听见世界定位为公益项目,同时加速眸思大模型的商业化进程,以惠及更广泛的用户群。
听见世界不仅是一个技术创新的产物,更是科技与人文关怀的交汇点。它通过复旦眸思大模型的力量,为视障群体打开了新的可能性,展现了科技在提升生活质量、促进社会包容性方面的重要作用。随着项目的不断推进,我们期待看见更多科技创新与公益事业的深度融合,共同创造一个更加包容、更加美好的世界。