新智驾写在前面的话:
汽车产业正在面临着前所未有的变革,
已有的汽车想象、旧的供应链体系、旧的思维范式,逐渐远去;汽车行业开始进去艰难的转型时期;汽车销量高速增长的黄金年代已经难以复制,新一代的汽车人对于智能化的理解更深刻,也希冀于将科技的变量持续渗透至四个轮子。
为此,我们已经看到新型的车内交互方式正在催生,语音操控、手势交互、拟人化交互、人脸识别、从一屏走向多屏、各种CP、SP的整合,都是成为今天探索车联网的重要尝试手段;此外,DMS( Driver Monitoring System 驾驶者监控系统)也悄然渗透至部分车型,对驾驶者的状态进行监控。
无论是人机交互方式、还是线上线下的整合,驾驶者精神状态监控等等,都是从不同的维度探索最大的驾驶乐趣,保障驾驶安全。
这些探索者都对汽车有着深厚的感情,同时深深相信和在乎一些价值,这些价值也融入了产品当中,走向市场。
10月26日-10月27日,由苏州市人民政府主办,苏州市相城区政府、高铁新城管委会、雷锋网新智驾承办的2019年全球智能驾驶峰会将在苏州举行,共同摸索新的智能网联时代,汽车将如何发生变化。
更多详细议程,点击文末“阅读原文”或点击雷锋网(公众号:雷锋网)(公众号:雷锋网)官网查看:https://gair.leiphone.com/gair/ad2019
“小威,小威。你好,博越。你好,小狮子……”
看着一长串车机唤醒词,一位车企研发人士发出感叹,它们太相似了。
不过,也正是这些大同小异的唤醒词,共同推开了汽车人机交互的大门。截至目前,人机交互技术已经贯穿车企、科技公司和语音服务商。包括吉利GKUI、比亚迪DiLink、长安In-Call、宝马iDrive、别克eConnect和背后的斑马智行、腾讯车联、小度车载OS,以及更上游的语音方案供应商科大讯飞、Nuance等均在投身其中。
从最开始的按键,到触屏,再到语音指令、手势控制、触控面板、人脸识别等,汽车人机交互的技术形式正在不断丰富,今后或许还会加入眼球或者脑波控制也未可知,这些技术已成为时下最火热的概念。
让渡车辆控制权
最初,人机交互并不像今天一样招人喜欢。
雷锋网(公众号:雷锋网)新智驾了解到,第一款互联网汽车上汽旗下荣威RX5上市后,有人坐在副驾上喊“你好,斑马”时发现,车机并没有作出灵敏的回应,当时他应该是沮丧的,车子并没有想象中的聪明。
参与这款车的设计人后来解释称,为了行车安全,当时的人机交互技术仅允许驾驶员使用,而副驾不被允许控制车机,以防止他们干扰驾驶。毕竟谁也说不好,让每个人都能控制汽车的部分功能后会有什么风险。
伴随着交互技术的迅速迭代,最新的荣威RX5车型已经不仅放开了副驾的语音控制,甚至还放开到了整舱空间。设计者的胆子更大了,车企希望将一部分车辆控制权让渡给驾乘体验。
更有一些车企开始在使用空间上寻找不同。雷锋网新智驾近日体验奇瑞旗下exeed星途车机时发现,这款车的车机已经可以实现不同区域的语音控制,坐在主驾和副驾可以分别控制左右两侧车窗玻璃的开启和关闭。
多种交互技术并路发展,最主流的要属语音交互技术,这也是多家车企以唤醒词的作为启动车机控制的深层原因。
“出于驾驶安全的需要,司机双手与视线均不应主动脱离驾驶操作,因此信息表意清晰、交互流畅自然、技术较为成熟的语音交互成为了主流方式。”斑马网络战略官季栋辉向雷锋网新智驾解释。
他表示,目前语音识别技术在密闭空间的准确率已经很高,可以流畅无误地完成驾驶场景中的交互需求。另外,混合语音技术、硬件的发展使得语音识别技术能够以高性价比的方式在汽车平台实现,达到性能与成本的平衡。
从功能实现看,语音交互技术目前主要支持地图导航、音乐播放、控制汽车部件(如车窗)、车家互联等功能,这些大多属于娱乐或生活功能。
至于何时可以通过语音直接控制行车如启动车辆和泊车等功能,季栋辉认为,语音介入驾驶域的控制,需要功能安全、整车电子电气架构设计和冗余设计的综合考虑。同时,语音直接进行车控对驾驶者带来的价值也比较有限。所以并非技术上不能实现,而是这么做的收益和开发成本如何平衡的问题。
各有侧重
一块十多寸的中控屏内,芯片、导航、语音方案、音视频、游戏、摄像头等不断集成到一起,通过交互技术实现自动调节座椅或音乐播放等智能驾驶体验,看上去很酷,然而车企的想象力远不止于此。
理想ONE最初的人机交互形象是一个笑脸,在后来的不断调试完善中,笑脸有时会转换成一个时钟。因为设计者和驾乘用户后来逐渐觉得,一直有个笑脸在中控屏上有点怪异。蔚来的人机交互机器人NOMI承担功能指令输入和输出,除了是问题反馈的入口,它还可以扮演一个有些呆萌的聊天对象角色。
“NOMI本身结合了包括智能语音识别ASR,基于深度神经网络的自然语义理解,智能发声引擎等传统意义上的人工智能技术。在此基础上,NOMI还有一套结合了硬件和车身感知能力的情感引擎,通过这套情感引擎配合语音交互的能力,NOMI才能在ES8和ES6上给予用户有温度有情感的交互体验。”蔚来产品管理总监李天舒向雷锋网新智驾表示。
整个使用过程中,车里还会出现AI助手形象,有的车企采用了狮子的动画设计,有的采用了实体化的小型机器人,从功能到逐渐走向情感,这些形象在走拟人化路线的同时,也在考虑如何更自然地被人们所接受。
事实上,对于车企来说,设计人机交互的过程更多是对人们日常生活的思考,为了实现有效的交互,设计部会和软件工程、电子电气等部门共同加入进来,头脑风暴、跨部门沟通成为常规动作。但如果拆开细看交互的各项功能,人们或许会发现,不同车机系统的重心其实是不一样的,甚至不时还会伴随着一些争议。
比如,腾讯车联系统里的车载微信最近成为热门,但一片热议的同时,也有人担心信息隐私的问题,认为在车内直接读取微信消息会非常尴尬。对于不断迭代的斑马智行系统来说,导航夜行模式、360全景增强辅助驾驶等能力可谓引领了潮流,但它又时常面临不够开放的质疑。
一位车企内部人士还向雷锋网新智驾表示,他认为在稳定性方面,TI+Linux是一套经典的车规级案例,安卓加高通是消费市场的经典案例,系统的匹配度和适用性是相对较强的。
走向多模交互
那么,究竟什么样的人机交互是有效的?
理论上,这要从两个层面看,一是用户必须接受和喜爱。但他们通常只关注流畅与否和能听懂多少能粗略的指标。另一层门则涉及到科技公司的衡量指标。
以斑马智行系统团队对语音交互的衡量指标为例,主要包括语音识别(ASR)的识别率、唤醒相关指标(唤醒率、误唤醒率)、响应时间、功耗、自然语言处理(NLP)的准确率、语音合成(TTS)的用户接纳度等,以及对话系统是否能满足用户各种交互需求如汽车场景的需求满足、娱乐场景的聊天、信息获取等功能。
“语音交互涉及语音和交互两个层面的技术,语音包括降噪等技术已经趋于同质化了,差别越来越小,交互上的挑战仍然很大。”一位蓦然认知内部人士向雷锋网新智驾表示,问题主要在于“以上下文理解为核心的多模交互”,它本质上属于自然语言理解的范畴,如何把多种信号(语音,图像等)转化为统一的语言或者符号表示,并利用统一的算法模型来进行连贯的交互(比如自然的对话)学习和训练,只有极少数公司才有类似技术,而且各自的技术方向也可能都不同。
季栋辉持有同样的观点,他认为,就像人和人之间面对面交流时会以语言为主,语音交互之外还会辅助以肢体和表情等形式,它们正在悄然发展。随着AI技术的发展和融合算法的进步,人和车的交互还会朝着多模交互的方向发展,以语音交互为基础,通过触屏、按键、旋钮、肢体等交互增加车内人车交互的默契感。
李天舒也表示,随着人工智能、语音识别、机器视觉技术的不断成熟,用户与车的交互更接近于人与人的交互是一个大方向。其中,语音交互肯定是会扮演越来越重要的角色。当然,人机交互是一个很大的概念,其中肯定还会涉及到视觉甚至触摸方面的交互技术。
雷锋网新智驾了解到,与传统汽车产业协作不同的是,Tier1更侧重于系统的集成和整体模块的交付,而车企在涉足人工智能和语音识别领域时,更多采用的是和专业AI公司合作的形式,将对方的能力整合到自己的产品中去。
“我们目前和多家车企在上下文连贯的多模态交互上保持着持续的合作,并且在快速进行对话服务的落地,主要是落地在智能车机上。另外,我们也通过植入多种硬件来为车企的展厅和4S店提供整体数字化营销解决方案。”上述蓦然认知内部人士告诉雷锋网新智驾。