6月24日,2023年度国家科学技术奖在京揭晓,共评选出250个项目。记者注意到,在本次国家科学技术奖各获奖项目中,与人工智能、大模型技术相关联的项目明显增加,涉及多语种智能语音、智能车联网、智慧高速、超级计算等应用场景。其中,“多语种智能语音关键技术及产业化”项目获2023年度国家科技进步奖一等奖,也是过去十年来人工智能领域的首个国家科学技术进步奖一等奖。
自深度学习引发全球人工智能浪潮以来,语音交互、自然语言、机器视觉等基础技术获得大发展。在诸多技术中,多语种智能语音技术对于支撑人机交互、人类语言互通及国家安全等需求具有重大战略意义,但也面临着如何突破复杂场景“鸡尾酒会”效应典型难题,以及如何基于自主可控的平台、实现国产软硬件的语音产业链自主可控等问题。
据介绍,在“多语种智能语音关键技术及产业化”项目中,实现了四大关键技术突破。项目中,科大讯飞联合中国科学技术大学、清华大学、华为等高校及企业通过多通道语音信号时空分离建模方法和多维度语音属性解耦表征方法,实现语音信号中内容、噪声等高度耦合的多维属性特征解耦,提升复杂场景下语音识别准确率。
同时,基于多语种通用音素体系和基本语言单元,构建了多语种统一音素韵律体系,提升了小语种语音系统性能。
此外,以语音语义互增强的鲁棒口语理解技术,和多源知识增强的可信文本生成技术,提升了复杂场景和深层次的语义理解准确率。
“这个项目突破了复杂场景语音技术大规模使用门槛,实现了语音技术从中英文到多语种的拓展。”项目相关负责人透露,这一技术成果不仅可应用于会议场合,还首次实现智能语音在国产芯片上的训练和推理性能,也在中国品牌“走出去”中发挥了关键推动作用。
据了解,项目提出了硬件亲和的变长输入算子融合和联合统一量化感知训练技术,解决了智能语音技术硬件平台的“卡脖子”问题。
目前,该技术已支持了华为等主流手机厂商和奇瑞、比亚迪、长安等主机厂,出海产品多语种问题,并在智能软硬件方面开创了翻译机、办公本、智能录音笔等智能硬件新品类。
“通用人工智能时代,多语种智能语音关键技术中的创新可以和大模型技术相互补充、促进。”专家表示,大模型技术可以在复杂语义理解、长文本建模能力上进一步提升语音识别、合成和翻译的效果,同时基于其强大的语义理解、知识问答、多轮对话、多模态建模能力,也能进一步大幅提升智能语音技术的使用场景和应用价值,支撑实现语音同传、自动客服、辅学答疑、家庭医生、虚拟员工、陪伴机器人、服务机器人等等未来智能产品创新。