商汤绝影许亮：和汽车"商量" 创建舱内场景新生态世界报资讯

(资料图片仅供参考)

网易汽车4月21日报道4月18日，以“拥抱汽车行业新时代”为主题的2023第二十届上海国际汽车工业展览会正式拉开帷幕。网易汽车邀请各位高端行业精英走进访谈间，共同探讨汽车产业转型下的品牌破局与新生，把脉行业发展新趋势。今天来到网易汽车访谈间的是商汤绝影智能车舱副总裁许亮。

商汤绝影智能车舱副总裁许亮

以下为访谈实录：

网易汽车：各位网友大家好，这里是2023年上海车展网易汽车访谈间的现场，今天我们有幸邀请到的是商汤绝影智能车舱副总裁许亮，许先生您好，跟我们的网友打个招呼吧。

许亮：大家好，我是来自于商汤绝影的许亮。

网易汽车：这次上海车展商汤绝影特别打造了一个智能的未来展示舱，您可以给我们介绍一下有哪些亮点吗？

许亮：其实我们为什么叫未来展示舱？因为在整个商汤绝影的发展过程中，我们最近的研发有了重大突破，所以我们这次上海展览给大家带来了更多的新的产品体验。所以围绕着智能车舱我们有两个方面的阐述，一个是我们在这里面加了很多新品发布的最新功能，包括我们的六大新品，像我们的air touch，就是隔空手势，包括我们的AR K歌，在座舱里面去唱卡拉OK，包括我们的智能屏保，还有一些娱乐的全新功能，都带来了现场。整个我们座舱里面是把这些新品融入到了我们接下来可能会实现大规模产业化的这样一个创新的体现。第二是大家知道，最近人工智能的大模型这个领域内是非常火的，那我们商汤科技在4月10号也举办了技术交流日，公布了我们最新的日日新大模型体系，围绕这个模型我们有很多垂直领域内的细分的应用。比如说像我们语言大模型、包含多轮的对话能力，叫做商量，商量商量都能解决。其实在座舱内，我们今年就把这样一个多轮对话的体系商量带到了座舱内，大家感兴趣可以到我们现场去体验。除了这个以外，在内容生成方面，我们推出了这个产品叫秒画，秒画就是在很短的时间内，用一些关键词就可以生成一些跟关键词非常贴切的图片。我们也把这样的能力带到了我们的座舱内，这个就是将最新的研发成果和我们的座舱相结合，我相信这两类创新在我们的未来座舱内都可以看到，也欢迎大家到我们的展台来。

网易汽车：我也了解到已经有很多车型搭载了我们商汤绝影智能车舱产品，有没有哪些车型可以给我们举一两个例子呢？

许亮：那非常多了，首先我是非常高兴的，因为智能汽车的发展也给了我们人工智能企业快速把我们的创新成果落到汽车内，实现产业化的基础。在过去几年内，我们商汤绝影一共开发了三十多款全新的产品，为智能汽车座舱特别定制的产品。在此过程中我们也得到了很多客户的认可，我们为国内三十多家客户提供了不同的解决方案。那么以这次车展为例，像我们重要的合作伙伴之一蔚来汽车，他就有很多新品发布，以ES7为例，这上面有很多的解决方案都是我们商汤绝影提供的。大家知道蔚来是非常注重客户体验的车企，那在我们开发这样的座舱产品视觉算法的时候，我们更多会考虑它的用户需求和产品定义。比如我们在里面会实现管柱自标定这样的一个全新的技术，因为我们的相机是固定在方向盘管柱上面的，那么在整个转动方向盘的过程中，我们必须保证算法的可靠性，这个在行业内其实都是很优秀的。

除了这个以外呢，比如说我们另外的合作伙伴像长安，长安逸达（参数丨图片）的产品，其实我们每年除了提供完整的智能车舱的驾驶员的保护系统之外，我们还创新的把我们的健康检测系统，就是用相机来判定驾驶员的健康状态，比如他的心率、呼吸频率，整个在驾驶过程中给你一些保护，如果发现一些异常情况就会给你一些提醒，或者说及时的就医。除了这个以外，我们也有比较炫酷的像手势，包括美颜相机这样的产品，也带到了长安逸达上面去。类似的案例非常多，我们最重要的一点就是，人工智能的发展速度非常快，我们这三十多种创新的产品真正是找到了一些比较好的合作伙伴，实现了大规模的产业化落地。我相信在接下来的两到三年之内，我们会在市面上看到越来越多的产品搭载了我们商汤绝影的解决方案，这是非常令人高兴的事。

网易汽车：刚才您也提到了一个唇语唇动的识别功能，能跟我们网友们介绍一下这个功能是怎么体现的吗？

许亮：唇语唇动相对来说在行业内还是比较新的，我可以简单讲一下它的背景和目标，以及它的技术原理。从背景上来讲，我们现在座舱内的交互体验大规模的采用了语音识别的技术，这个技术的产业化发展已经十几年了，相对比较成熟了。但是这个中间有一个比较大的痛点，就是我们在开车过程中，如果我窗户降下来背景噪音比较大，或者说舱内频繁有人说话互相干扰的时候，它的语音识别相对来说就会有降低精度的可能。我们做过一些简单的测算，在一些背景噪音比较大的情况下，它的召唤率可能只有40%，为了提高用户的进一步交互体验，需要去解决这个痛点，所以就给唇语唇动带来了这样一个新的机会。

那唇语唇动的价值是，比如说我们可以识别到座舱内的位置，具体是哪一个位置的人在说话？包括他说了什么话？这个其实是有很多交互的。以驾驶员为例，即使旁边有很大的噪音，或者说是窗外的风噪、胎噪很大，召唤率40%多的时候，我们加上唇语唇动的识别，加上语音的识别这样一个技术，我们可以把我们的召唤率提升到80%以上。在一些特定情况下，常用的快速短语我们甚至可以做到90%以上，这个就可以大大的提高我们的产品力。

最后讲一下我们的原理，其实唇语唇动的技术就是应用人工智能深度学习的算法，其实它分成唇动检测和唇语检测两类。那么唇动检测就是我们检测到座舱内，以驾驶员为例，他嘴唇在变化，有说话的起始时间点，到他说话结束的时间点，我们检测到了唇语，那就说明他在说话，那么这就是第一个模型要完成的任务，叫做唇动模型。第二个就是这段时间内，所有的内容我们都会用另外一个唇语的模型来做检测，来判定你在中间说了什么话。这个技术其实还是有一定的难度，你也知道其实我们中国的语言使用环境，一个是受方言的局限性，因为大家会有一些方言夹杂在说话的过程中。第二个每个人在说话的过程中，他的口腔开张程度也不太一样，语速也不太一样，所以说我们需要有训练大量的模型，有大量的数据让我们的模型变得更准。在这个过程中，将我们现在支持座舱内的三十多种拓展到八十多种，这是我们的目标，有很多种常见的短语都可以实现精准的识别，当下行业存在的对现有的语音识别不足的问题，我们提供了更好的解决方案。

网易汽车：其实现在市面上智能座舱产品也特别多，您觉得我们商汤绝影的优势，或者差异化的优势是怎么样的？

许亮：其实AI相对来说，虽然时间不长，但是大家都觉得这是一个重要的赛道，我相信这个智能学习的视觉技术作为一个公司的主营产品，甚至在座舱内去做布局，还是有很多企业都做了尝试。我觉得在这样的一个环境中，大家的目标都是一致的，怎么样利用快速的AI行业发展的最新技术，把它变成一个座舱内可实现的产品，同时实现产业化。你会发现在这个过程中，我们商汤绝影就建立了三种优势，第一个是我们自己的创新体系，因为商汤科技是亚洲最大的人工智能软件公司，我们的产品线非常丰富，同时我们自己本身对创新的速度和效率都有很高的要求。你会看到在过去几年内，我们绝影一共发布了三十多种新产品，这个速度是非常快的。我们认为一个非常好的创新体系和带来的创新速度，这个是我们获得客户认可的第一步。第二你也知道，汽车的产品它更多是要求一些工程化的内容，所以从创新的实现到整个实现汽车大规模的产业化，中间有一个非常重要的工业化的过程。那么这个工业化里面覆盖到了你的体系、流程、交付、测试等方方面面的环节，所以我们整个商汤绝影在建立座舱这个业务，包括团队的起始时间，我们就把这些内容的建设作为重要的一点。你会发现在过去几年内，我们是行业内第一家完成各种体系认证的公司，帮助我们从模型到产业化路径。

第三个我认为比较重要的一点是说，商汤绝影在推进业务的过程中秉承的理念是合作共赢，其实商汤科技的价值观是正信恒勇合，所以我们在跟所有的客户合作过程中，我们更多的是想到客户现在的需求是什么？我们有什么办法利用我们的技术帮他做一些提升？我们是一个合作共赢的理念，很多的客户就愿意跟我们合作，他们会有很多个性化的需求和个性化的产品定义，用我们的研发资源和我们的能力去帮助完成这样一个性能的提升。在这样的过程中建立了很好的基础，客户就愿意跟我们合作。那我相信这也是我们渐渐的走向市场，成为一个市场主流的玩家，甚至引领这个市场最重要的一个环节。

网易汽车：现在整个行业都在讲行泊一体、舱驾一体，智能座舱能在这些方面发挥怎样的作用？

许亮：这个从两个角度去看，一个是从技术角度，就是我们知道智能座舱在最近几年相对比较火，最重要的原因是我们座舱内的电子架构发生了一个比较大的变化。我们是从传统的MCA的架构转变为域控的架构，在这个里面关于智能汽车出来了两个最重要的架构，一个就是智能座舱，一个就是智能驾驶。

但是这两个追求的目标和它的应用场景是不一样的，比如说以座舱为例，座舱更追求它产品的多样性，我们要保证速度。这些类似于互联网的生态，手机的生态，是不是能够跟车上做迁移和融合？让我在手机上体验到的功能，在座舱内都能体验到，这个我们叫用户体验，在这个过程中追求的是速度和多样性。

但是智能驾驶不一样，智能驾驶更多的是考虑安全性，所以它会考虑我们在行车过程中，怎么样保证我们的车安全驾驶是我们的最核心理念，所以对它的软件算法也好，对它的硬件架构也好，都会提很多跟安全相关的要求。所以这样的架构就决定了在过去的一段时间内，所有的行业的智能驾驶和智能座舱是分开去发展的，因为你的目标不一样。车厂其实也是两个组织，我们在行业内同时去支持两个业务的玩家，也是按照不同的需求去配置的。那我觉得现在出现了一个新的机会，为什么？因为现在一个是座舱的算法芯片，这是咱们看的第二点，就是座舱的芯片、算力有了大量的突也破，给了自动驾驶和智能座舱两域融合的一个硬件基础。

第二在整个发展过程中，大家对于这个行业的经验有了很高的积累。那我们会觉得我在做自动驾驶的解决方案的算法和决策依据的时候，我需不需要更多的知道座舱内有几个人？是老人还是小孩儿？甚至说有没有一些特殊群体？现在的状况是否适合采取紧急的制动？所以这个过程中你会发现，有大量的场景融合出来了，所以我们现在在看到很多的车厂在思考，两域融合带来的最大的价值，是怎么把座舱内的精确的感知信号作为一个输入，给到自动驾驶，帮助它形成一个大脑的概念，决定所有的驾驶行为。比如举个简单的例子，如果我们检测到座舱内有低龄儿童或者年龄比较大的老人，其实不太适合采用激进的驾驶模式，因为对这类人群更需要舒适的乘坐体验。但在传统驾驶方式过程中，我们可能不太会针对人群去做区分，那么我相信域控融合接下来肯定是一个重大的趋势。

如果从决定来说呢，我们最大的优势是说，我们除了提供座舱的很多视觉的产品，我们在自动驾驶这个领域也提供了很多的解决方案，像L2+的解决方案。那我们在同时处理两个解决方案的内容，我们其实都有一些比较好的产品思路和产品的实践，一旦真的走向两域融合的时候，我们商汤绝影在其中还是可以为行业做出更多贡献的。

网易汽车：我最后一个问题是目前Chat GPT的概念和技术都比较火，在您看来未来它和汽车行业能有怎样的融合？以及有怎样的趋势？以及您觉得智能车舱的未来发展趋势会是怎样的？还有哪些想象空间？

许亮：这个想象空间，其实这是一个非常开放的话题，最近这段时间Chat GPT也非常火，在中国领域内很多公司都在尝试着往大模型方向去研发，那我们商汤其实在这里也有很深的积累，我们是从2019年开始研发我们的大模型。比如说我们视觉类的大模型，现在可以做到320亿参数，在2022年我们把我们视觉大模型做了发布的时候，在行业内其实纯视觉领域内还是有很多的领先性，那我们在自然语言类的大模型上，最新的研发成果，就是我们刚才提到的技术交流日上我们推出的“日日新”大模型体系，在行业内都是非常领先的。除了这个以外，我们还发布了大量的内容生成类的模型，就刚才提到像秒画这样的功能。在行业的发展过程中，首先是一个AI行业技术的突破，带来了很多应用的场景。比如说我们以聊天类的机器人为例，我们叫Chat类的机器人，那么这个机器人它的产品是什么？如果你发现一个人工智能的设备具备了多人对话的价值，它能够回答你问到的所有跟知识类相关的问题，甚至可以帮助你创作，比如说帮你写诗，帮你写一些比较好的这种故事，甚至帮你整理会议记要，那你会发现你的生活、生态完全改变了。这也就是整个行业内为什么为之欣喜，觉得这样的一个时代如果真的来临了，它会颠覆掉，甚至说大大的提升我们现有的很多的产品体系、产品架构。

那么以座舱为例，咱们回到座舱，视觉类的大模型、语言类的大模型一旦进到座舱内，像Chat类的我们叫商量，我们针对座舱内的场景就完全的形成了一个新的生态。就是现有的座舱大家都知道，我们的交互体验更多是半主动式的，就是我给了一个指令，这个车载的大脑会帮你做执行，我觉得冷了，你把我温度调高一点，我觉得热了，你把温度调低一点，这是半指令式的。但是你没有办法问这个车，比如说勾股定理是什么？什么是葫芦娃的故事？这些车载很多时候是不能回答你的，因为这中间带了一些知识和内容生成的故事。所以在这个点上，一旦像我们商量这样的语言大模型能够进入到座舱内，它就会颠覆掉现有的生态。我们会发现座舱内有了一个全新的伙伴，它能够陪伴你每次的驾驶，能够帮你推荐很多你喜欢的美食，推荐你感兴趣的知识，甚至说我遇到疑问我可以向他求助，或者心情好的时候，让它帮我讲几个小笑话，讲一些诗词。那这样的一个生态就会彻底颠覆掉我们现在的所有认知，我觉得这个生态一旦来临，会有很多的想象空间。

所以整个行业都是非常期待大模型能够进入到座舱内，我们商汤绝影这次最大的优势就是我们不知道是不是第一个，但是我们是把我们语言类的大模型商量和我们内容生成的秒画，这样一个制图的大模型真正的带到座舱内，而且实现了我们的智能化，我相信大家如果感兴趣的话，可以到我们的展台去看一下。

网易汽车：非常感谢您的分享，我也收获很多，那我们这一时段的采访就到这里，谢谢您！

许亮：谢谢大家！