2021年6月17日-19日,由中国汽车工业协会主办的第11届中国汽车论坛在上海嘉定举办。站在新五年起点上,本届论坛以“新起点 新战略 新格局——推动汽车产业高质量发展”为主题,设置“1场闭门峰会+1个大会论坛+2个中外论坛+12个主题论坛”,全面集聚政府主管领导、全球汽车企业领袖、汽车行业精英,共商汽车强国大计,落实国家提出的“碳达峰、碳中和”战略目标要求,助力构建“双循环”新发展格局。其中,在6月19日上午举办的主题论坛“智能座舱创新技术论坛”上,地平线副总裁、车载智能交互产品总经理张宏志发表了主题演讲。以下内容为现场演讲实录:
今天前面韩老师、华为的邓老师都讲了,分两个阶段看,永远都会把事情分成功能、智能,比如说手机,机器人也是一样的。
智能化能把服务以主动化的方式推送给到人,这是和以前的机器产生截然不一样的。以前的机器是一种功能的堆砌,是由人所设计出来的是固定功能的事情。所有的能力、所有的服务全部是由你来发起的,人要他做什么。
但是接下来的时候很大的区别和改变点,不管是深度学习还是宽度学习,机器会产生自主意识。因为机器给你所有内容、所有服务是基于它的理解,但是决策依然是在你这里。
像加拿大人恐惧的文化,在于当人失去了决策权力和决策能力以后,机器所做的很多决策对人所产生的影响将更加深远。
做人机交互设计时、智能座舱设计时,地平线的观点是应该锚着最后的点设计,锚着“第三生活空间”来设计,而不是在于把车的功能堆砌和完善出来。
目前来讲有两点:
第一,当前到底处于哪个时代?为什么不能说现在是智能化空间,不能让我成为智能化的合作体、协作体的原因。
地平线认为主要是技术限制了这件事情。有三点原因:
(1)比较大的计算力芯片。
(2)需要非常多非常成熟的相关算法。
(3)产生的数据、需要的数据、处理的数据超越于移动互联网。
可能需要更多GPU训练,更多数据存储,更多机房,更大的带宽。在这几个因素上都会产生限制。
现在大家更多提到的是多模交互,不管是多模感知,通过异构数据放在一起感知它,还是通过人与人的交互方式和机器交互?现在全部都集中在多模交互的阶段,最大的特征和特质在于所有提供给你的功能和服务,都是被设计师、产品经理提前预设好的。能够给你的差异性感觉是TDS的预期,可能是策略的排序优先级高低权重的差别点,难以做到伴随着数据的不断输入、群体性数据的输入而产生一定推理作用。
人类现在的所有产品设计、交互设计习惯于设计功能,这是这么多年的教育经验,没有足够强的站在上帝视角的设计机器人。本质角度更倾向于把自己作为“上帝”,创造新的生命体、归集的生命体,最大的特质是让归集的生命体自己学习自己晋华。
过去这几年和汽车行业不断合作,向车企、客户提供座舱解决方案时发现几点:
(1)最容易被用户和客户所接受的是在于把车上的功能变得智能,比如说空调、座椅、氛围灯智能,车身功能接口以及和环境做匹配关系,把不智能的设备、功能变得智能。这点最受用户的欢迎和喜欢,因为是最浅层次的满足点。
像今天在这个时候这个季节,上车很难不开空调,必然按空调。但空调主动地按下去换成机器智能化地按下去你会很满意,你对24度26度的敏感度没有那么高。但大冬天开不开窗户很敏感,抽烟的时候必然要开窗户,智能化水平反而要求更高。
(2)人和机器很大的问题是关系问题,谁做主、谁决策、谁推荐的关系问题。这时候很长一段时间人和机器共同在驾驶那款车,而那时候会影响安全。双方如何交互共同做决策变成了关键问题,更大程度上要通过人和机器的交互过程变得更安全,否则就没有交互,完全是机器自己去开,是在用L4、L5的要求在要求现有车上的智能化功能。
(3)座舱能把精神通过主动感知和连接服务,连接到网络世界中去,而智能化的最大价值在于现在处于网络连接的世界,可以通过手机把自己连接到网络,智能化的价值在于提高连接效率。
看一下地平线对技术性的理解,机器的核心价值在于主动化服务,现在所有的开发是基于给数据用神经网络结构的方法学习规律,而规律本身被学习出来后是机器可以主动服务人的基础。从2020年开始,人机交互趋势会发生非常变革性的改变,在于要往情感化方向、更加简单,并且以推理为中心所产生的交互方式。
不管是地平线交互的长安的UNI-T、UNI-K,还是广汽的AION Y,感知能力都在增强,车的感知远远超越手机,车本身所提供的感知接口丰富度是所有智能化设备中很强的。海外不管是奔驰还是宝马,全部是冲着这个方向在走。
对地平线来讲,地平线的观点是不应该再重复地把手机APP功能做更多详细化的设计和改版,让它适应于车上的屏幕。而在于要重构用的功能、内容和服务,把它全部重新连接到新的网络中去,而新的网络很大的特征是要具备推理能力。
肯定是突破性的创新,不会是渐进式的,核心整个行业应该做的事情是建立起智能大脑,让机器学习人的习惯,取得更快的进步。
列一下关系图,核心来讲在于大脑能够把推理这件事情做的更好,推理很大的特征是可以把人的时间释放出来,让人可以从事更有价值的事情。更多交互是以机器发起的这一轮进行交互,并不是由人进行交互。不管人的眼神交互、手势交互、语音交互,很大的价值在于进行第二轮决策和确认,以及对机器所做推荐的修正。
在未来好的人机交互是什么样的?应该是趋近于零的。行业的评估方法是机车和用户交互了多少次,大家一直把次数变得非常多来变成评判标准,这件事情被写上了研发、产品、设计师的KPI要求里,领导用这个东西来卡奖金、卡考核。
但越来越智能体数字应该趋向于零,现在坐在车上,车的空调自动被打开了,你才不愿意和车做交互,因为你没必要调空调。但是站在考核的角度来讲,必然是“先生我把空调给你打开了,请问25度合适于您吗?”这种感觉无非是你去饭店吃饭,今天点什么菜?辣的不辣的?有没有忌口,喝不喝啤酒,喝冰的喝凉的?喝什么?你花了20分钟和服务员掰扯完之后会发现算了,我去隔壁那家,很简单,把你们主要的菜给我推荐几个,我吃好就好了。
人不太愿意和机器过多产生交互,毕竟人和机器人是两个物种的事情,机器还是属于低级的物种,我们不愿意和蝼蚁的事情产生过多的连接和情感交互,因为它是更强的辅助。
从可实现性的角度来讲归纳成为智能化三要素,所有用户最关心的是车载AI场景应用,但场景应用需要算法,需要开发工具,需要底层计算架构的支持,需要底层芯片的算力支撑。这个系统解决的时候可以总结成三点:
(1)需要不断增长的算力,计算资源永远是不够的,如同电力系统、石油系统一样。
(2)算法。算力永远是不够的,所以算法、软件必然要跟硬件比较深度的结合设计,满足高效率问题。
(3)数据。伴随着智能化时代的来临,所需要的数据将会是非常大量的,但果人类花自己的时间不断处理数据,这就变成大家现在听的高效的话,人有多人工,它就有多智能。这是悖论的事情,根本角度是机器自己处理数据,自动化训练算法,这是解决问题的根本。
提的目标是每年对数据处理的成本以50%的成本往下降,这样才能满足爆发性数据对智能化系统的相关要求,如果数据处理不过来的话,智能化系统进化速度就会慢。
发展趋势的判断,所有的智能化以接入传感器为核心,需要接入麦克风、摄像头、激光雷达等传感器设备,传感器所输出的数据在不断增强。
比如说2023年座舱类摄像头将从DMS的角度进入500万,从OMS的角度进入800万,而麦克风数量至少是4麦克以上的。
这么多传感器和传感器像素数的增长,并且伴随着算法的增长。统计了一下,行业内在手机上以及客户的需求,赫然发现对座舱深度学习算法的需求在端侧将达到150个,通过简单的计算可以得到一点,座舱所需要的AI计算算法将会在上百T。
地平线核心观点认为要先解决算力问题,解决“地”足够丰富、足够厚实才能种出庄稼。大算力计算芯片能把生产力解决掉、释放出来。
就算有了很好的算力,需要足够好的开发工具,开发工具最大的特征是能够数据半标注、全自动标注、算法自动化训练和测试。这样这样的情况系统的进化速度才是足够快的。
地平线的想法在于把开发工具和社区开发平台做开放,满足大家在芯片上尽快把我们认知到的150多个算法开发出来,尽快迭代,看一下人机交互系统到底能进入什么样的智能化水平,再次进入下一轮迭代修正它。
基于芯片和算法提供全车智能化感知给到上层应用部分,上层应用部分能拿到环境数据进行推理,并进行多轮对话的节奏。
这是接下来发展的Roadmap,端侧算法数量在爆发式增长,2022年将会有上百个端侧算法跑在车载上。到2023年将达到150多个算法,而2023年和L3级别相配合的车将会给用去营造出来“第三空间”,那时候有些时间已经被释放出来了,那部分释放的时间只要有足够智能化的座舱,把那部分的时间发挥足够的价值,人的交互就会体现出空间。
谢谢各位!
(注:本文根据现场速记整理,未经演讲嘉宾审阅)