从核心技术到应用场景,从家庭生活到工作生产,从现实世界到虚拟世界,iFlytek正在勾勒数字世界的新未来。在过去的一年里,iFlytek在多模感知、深度理解和多维表征方面取得了重大技术突破。这些最新技术如何在任何智能时代开启人机交互的下一个可能性?

iFlytek董事长看到IT产业从第五次浪潮发展到第六次浪潮,预测“基于语音、键盘触控互补、肢体语言动作互补的人机交互时代即将到来”。“在万物智能化的时代,更智能的人机交互是核心竞争力。XiFlying输入法总经理程坤表示,人工智能技术是人机交互迭代升级的驱动力。复杂多样的界面,复杂多样的输入场景,复杂多样的用户需求,将同时加速人机交互的变化。面对新的问题,信息飞行输入法提供了丰富的技术来提供解决方案。

依靠高噪声识别技术的支持,智能飞行输入方式可以在各种高噪声场景中“听清楚”,如家庭、汽车、邻里、公共交通、多人说话等,“更好地了解你”。此次智能手机输入方式采用Conformer Encoder音频编码和全语言专家系统,可支持中文和20多种方言之间无切换语音识别。换句话说,由于采用了通用、无需切换的语音,人类与各种设备之间的交互挑战取得了新的突破。此外,离线方言语音识别技术和多语种识别技术的不断突破,语音输入场景进一步拓宽。程坤表示,“看到语音交互的增长,看到越来越多的用户感知,相信在万物智能化时代,人工智能的输入方式将有助于构建更大的用户价值。自Input方法12.0发布以来,它基于Input服务与用户需求之间的深层联系。新版本在提高识别率的同时,不需要切换方言,进一步降低了语音输入的门槛。习惯说方言或有口音的用户可以自由使用母语的语音输入,而无需在相同的识别模式下切换相应的方言。例如,四川“老人叫你吃Gaga”,上海“阿拉上海人智伐”,合肥“从肥东到肥西,买了一只老鸡”,字里行间弥漫着家乡烟花的气息。互联网的快速发展将世界联系在一起,互联网上的语言交换也越来越频繁。此前,智能飞行输入方式支持12种主流外语,但增加了荷兰、土耳其、印度尼西亚、马来、菲律宾等语言的语音输入,总共达到30种语言,满足各国母语人士的需求,使交流更加顺畅。从“拼字典”到“拼云计算”再到“拼服务”,输入方式的目的是改善人机交互体验。随着人工智能技术的普及,今天的输入方式不断迭代,不仅可以帮助用户完成基本的“打字”,还可以“读懂”用户的心思,甚至可以“适应”不同的输入场景。新版本的定制AI智能输入引擎不仅为用户提供准确的偏好内容,还能区分聊天、音乐、综艺、电影、电视、生活服务等不同场景,主动提供智能候选,让指尖输入更加便捷。

值得注意的是,Tektech的多模传感已经达到行业领先水平。例如,手势识别不仅可以进行简单的动作,还可以进行手写识别,从而在单个摄像头上达到一流的效果。这意味着,在虚拟世界中,你可以把物理键盘的形状放在一边,通过简单的写作和绘画来输出信息。

还有一种具有实际应用的眼睛识别技术,不伸出手,不张开嘴,眼睛可以看到键盘上的按键,准确打字,让每个人都能体验到不久的将来的人机交互。随着时代的发展,输入方式逐渐从手机平台中分离出来,走向独立,扎根于其他终端平台,呈现出更加丰富的形态。新的“新输入”完全由人工智能技术增强,进一步拉近了我们与用户的距离。