2012年,科大讯飞发布了全球首个中文语音识别DNN系统,将语音识别准确率提升至80%,此后十年间,语音识别技术取得了巨大进步,应用范围也越来越广泛。如今,实时转写功能已经成为日常生活的一部分,但在七年前,这一功能几乎无法实现。
2015年,25岁的万根顺加入了科大讯飞。初来乍到的他还是个新手,但多年来他见证了语音识别技术的革新,从参与者成长为该领域的主导者。万根顺回忆起刚加入公司时的情景,形容自己是个“菜鸟”。然而,在接下来的七年里,他稳步成长,最终成为科大讯飞语音识别研究部门的负责人,负责从参与DFCNN语音识别方案的研发到新一代语音识别技术的落地。
保持技术领先地位是每个科大讯飞员工的信念,这种精神也深深影响着万根顺。他不仅亲身经历了技术的飞跃,还深刻理解了团队合作的重要性。2016年,万根顺作为新人加入DFCNN语音识别方案项目攻关,见证了这一新系统的诞生。DFCNN语音识别方案在过往RNN系统的基础上,整体效果提升了15%以上,尤其是在语音识别效率、口语化处理和噪音降噪方面有了显著改善。
在科大讯飞,技术创新并非一蹴而就。万根顺在项目攻关期间,目睹了团队成员的积极讨论和协作。这种开放的工作氛围不仅促进了技术的进步,也让万根顺学会了如何更好地分析数据和解决问题。他通过细致的数据分析,发现了一些细微的问题,并通过增加韵律信息解决了这些问题,提高了识别准确性。
随着时间的推移,万根顺逐渐成长为一名技术骨干。2017年,他作为技术负责人,持续优化DFCNN语音识别方案,并推动新一代语音识别框架的落地。2019年,基于ED框架的语音识别方案成功应用于输入法、讯飞听见、办公本和录音笔等多个产品中。ED框架是科大讯飞第三代语音识别方案,从2018年至2020年,经过长期的创新和研发,实现了更高的识别效率和更好的用户体验。
2021年,万根顺开始负责无监督训练在语音识别中的应用研究。这项技术的应用大大减少了针对不同场景设计的语音识别模型所需的训练数据。今年,科大讯飞发布的“唇形+语音”的多模态语音交互技术正是这一研究成果的体现。此外,科大讯飞还研发了一套抑郁症定量筛查系统和老年认知障碍筛查系统,将多模态交互技术应用于医疗领域。
万根顺从一名新人成长为技术骨干的过程并非一蹴而就。科大讯飞为新员工提供了全面的培训和支持,包括导师制和轮岗机制。导师会为新员工提供详细的规划和指导,帮助他们快速适应工作环境。轮岗机制则让员工掌握更全面的知识,从而更好地进行创新。
如今,万根顺已经成为了新人的导师。他认为,给新人更多的机会和挑战,而不是简单的边缘工作,是培养人才的关键。他强调,要引导新人思考并分享自己的观点,达成共识后再执行,这样可以大大提高工作效率。
在科大讯飞的七年里,万根顺不仅取得了职业上的成就,还收获了家庭的幸福。他在这里结识了自己的妻子,两人都是科大讯飞的研究人员。这段经历让他深刻体会到,只有不断创新和努力,才能在科技领域取得成功。