科大讯飞董事长刘庆峰：人工智能与VR结合具有源头相关性

云栖网 2022-11-14 10:35 来源：中国电子报

云栖网：11月12日，由工业和信息化部、江西省人民政府共同主办的2022世界VR产业大会在南昌开幕。在开幕演讲中，科大讯飞股份有限公司董事长刘庆峰在题为“以人工智能赋能虚拟现实产业”的演讲中表示，当前，人工智能与虚拟现实技术呈现融合发展态势，两者有着天然的联系，已经呈现出你中有我、我中有你的趋势。

人工智能与虚拟现实技术呈现融合发展态势

“人工智能与虚拟现实的结合具有天然的源头相关性。数字经济是未来经济的重要引擎，虚拟和现实结合、线上和线下相结合是数字经济发展的大势所趋。”刘庆峰认为，人工智能可以为虚拟现实深度赋能，智能运算让机器运算能力和存储力远超人类，感知让计算机能看会说，像人一样自动交流，让机器具备认知的能力，能理解、会思考，具备学习推理和决策的能力。

在刘庆峰看来，人工智能技术是虚拟现实的重要支撑，助力虚拟现实产业发展。当前，人工智能与虚拟现实技术呈现融合发展态势，两者有着天然的联系，已经呈现出你中有我、我中有你的趋势。人工智能对虚拟现实的赋能作用体现在三个方面：一是虚拟对象智能化，虚拟人的智能行为将更多地出现在各种虚拟环境和虚拟现实应用中；二是交互方式智能化，智能交互将综合视觉、听觉、嗅觉等感知通道，带来全新的交互体验，让虚拟现实真正“化虚为实”；三是虚拟现实内容研发与生产智能化，人工智能将提升虚拟现实制作工具、开发平台的智能化及自动化水平，提升建模效率和虚拟现实内容生产力。人工智能与虚拟现实两种技术的融合发展将开辟新一代信息技术产业新的增长源泉。

智能人机交互在三方面实现突破

智能人机交互是虚拟现实的核心能力，特别是在人工智能与元宇宙结合方面，元宇宙需要更智能的人机交互突破，用户需要在未来虚拟世界中体验到与真实世界一样的工作和交流感受，因此需要人工智能在交互方面有所突破。

“在虚拟现实技术中，实现智能人机交互有三个关键要素——多模感知能力、深度理解能力和多维表达能力。” 刘庆峰指出，“这三个要素决定我们能听得懂、看得到、触摸得到的多模感知能力，能不能在虚拟世界和真实世界中一样有真实的感知，面对物体、人物与环境进行深度理解，理解之后再进行多维表达，以完成我们相关的工作。”

刘庆峰介绍，在多模感知能力方面，科大讯飞的语音交互技术可以把听到的语音转变为文字。由于每个人声音不一样，它在自然世界和虚拟世界中都能通过语音快速感知。在今年两会期间，34个地方代表团全面使用了讯飞听见，对两会代表、委员发言进行实时转写，记录1476万字发言，平均准确度达到96%，语音识别准确度远超人工速记员。在语音识别和图文识别技术上，基于科大讯飞最新的算法突破，可以实现文字的识别和对物体的理解，再加上图像识别后，就可以把语音、手势、肢体语言以及面部表情等融合在一起。当前，以语音为辅，以肢体语言、动作为交互的时代正在到来，科大讯飞把多模态识别系统引入进来，在语音识别的基础上，结合人脸识别、嘴部的唇语识别，把多种维度的感知结合成为多模态系统，显著提升复杂场景识别效果。

在深度理解能力方面，科大讯飞的认知智能技术不断突破并实现规模应用。刘庆峰举例说，科大讯飞阅读理解系统在Squad比赛中的效果首次超过人类平均水平；在OpenBookQA科学知识推理挑战赛中，科大讯飞单模型全球首超人类平均水平；讯飞智医助理在国家临床执业医师考试笔试中取得456分，超过96.3%的人类医师考生，在全球首次通过测试；科大讯飞的作文评阅技术达到人工专家水平，2022年已经服务于12个省高考作文阅卷和雅思作文阅卷。

在多维表达能力方面，刘庆峰表示，科大讯飞的语音合成已经实现从超过普通人发音水平到高表现力个性化。虚拟主播已广泛用于媒体传播，虚拟主播在主流媒体和各类场景中广泛使用。科大讯飞通过个性化真人捏脸系统，可以快速实现虚拟人生产。虚拟客服、虚拟医生、虚拟老师、虚拟员工，以及虚拟志愿者、虚拟偶像等，可以在虚拟现实中对人类产生更切实的帮助。今年，数字员工正在加速进入到人机协同新阶段，利用人工大脑，再结合IT工作流程的自动化，可以迅速完成人们在日常办公和生产中的财务、电子合同管理、招聘等方面的工作。