揭秘听见世界APP：人工智能公益助盲，复旦眸思大模型打破视觉界限

萝卜看点
2024-02-06 00:00:00 3080

+关注

科技与公益的融合：听见世界的探索与实践

随着科技的日新月异，人工智能在商业领域的成就令人瞩目，其在公益领域的潜力也日益显现。一部名为《听见世界》的公益短片在网络上广受关注，它不仅触动了观众的情感，更展示了复旦眸思大模型如何利用先进科技为视障群体打开新世界的大门。

创新源头：复旦眸思大模型的觉醒

在开发多模态大模型的过程中，研究人员发现，经过数亿张图片训练的眸思大模型，不仅能精确描述自然环境，甚至对罕见场景也有出色表现，仿佛“拥有了眼睛”。这一发现激发了团队将图像转化为语音的灵感，旨在为盲人群体提供行走、寻物等场景下的巨大帮助。

产学研用的紧密合作

复旦大学自然语言处理实验室与视觉与学习实验室协同开发了复旦眸思多模态大模型，并同步启动了听见世界项目。项目由桂韬、纪焘、张奇、黄萱菁、邱锡鹏、吴祖煊、姜育刚等专家主导，近20名博士和硕士研究生共同参与，实现了学术研究与实际应用的紧密结合。

应用场景：听见世界的魔力

听见世界APP依托安卓平台，支持低配手机，其核心功能——声音描述，均源自于复旦眸思大模型。软件根据不同模式（如街道行走、物品寻找、自由问答和电视介绍）预设特定提示，为盲友提供全方位的辅助服务。例如，在街道行走模式下，摄像头捕捉实时画面，模型识别交通状况，生成语音指导，使盲友能够安全出行。

未来展望：公益项目，让生活更美好

研发团队致力于降低服务成本，通过政府支持、NGO组织、智算中心及硬件厂商的合作，计划实现听见世界APP的免费使用。桂韬副研究员表示，眸思项目旨在帮助1800万视障人士重拾生活的色彩，这是技术进步在促进社会公平与包容性方面的重大贡献。公司董事长智振强调，听见世界定位为公益项目，同时加速眸思大模型的商业化进程，以惠及更广泛的用户群。