集微网消息,在日前一次媒体专访中,“深度学习之父”杰弗里·辛顿曾畅想了ChatGPT等新一代AI大模型被运用于终端家电中的情景:“因此,我认为会有一个阶段,一旦某个AI系统训练完毕,我们会将其运行在非常低功耗的系统上。所以,如果你想让你的烤面包机能和你对话,你需要一个只花费几美元的芯片,而且它能运行像ChatGPT这样的程序。”


(相关资料图)

在刚刚结束的中国家电及消费电子博览会(AWE 2023)上,一家中国芯片企业,已经让这样的梦想照进了现实。

在以智能科技为主题的新国际博览中心W3馆,北京探境科技有限公司(简称“探境科技”)的展位上人流络绎不绝,集微网还看到不少家电厂商现场自报家门主动寻求合作。现场展出的端侧AI语音识别芯片解决方案,无需繁琐的配网和触控操作,一句指令就能让空调、风扇、灯具“随心而动”,特别是其新一代产品Voitist 811(简称VOI811),基于ChatGPT同源的语义理解技术,无需记忆命令词即可准确识别用户意图,为参观者带来了堪称惊艳的人机交互体验,也令人看到了AI“赋智”端侧应用的全新可能性。

(2023AWE探境科技展台)

端侧智能化的“第一性原理”

智能家居等端侧场景怎样实现智能化?

很长时间以来,这似乎是一个无需被追问的话题,从系统厂商到上游模组、方案商、芯片供应商,都习惯于因循着既有路径埋头奔跑,在WIFI/蓝牙、大屏、APP等软硬件元素上相互“内卷”,实际效果却差强人意。“中看不中用”的产品体验,也大大抑制了相关产业链的发育,成为公众笑料的冰箱大屏广告,恰是智能家居尴尬现状的一个缩影。

正如埃隆·马斯克所言,我们总是倾向于比较,对别人已经做过或者正在做的事情,我们也都跟风去做。这样发展的结果,只能产生细小的迭代发展,甚至不经意间背离使用者的“初心”。

假如端侧场景的智能化存在着一个“第一性原理”,那么人机交互的简单、自然、直接,无疑是其本质要求,面对从2.4G信道到云端叠床架屋的多重技术、商业模式挑战,产业界亟待“另辟蹊径”,探境科技在端侧AI语音识别上的实践,初步展现了令人兴奋的前景。

从动物到人类,声音往往是信息交互的核心载体,智能家居这一场景,显然也非常适合以语音进行人机交互与控制,不过传统基于统计学习技术的语音识别模型受算法及端侧芯片功耗、算力的约束,往往只能支持有限的命令词识别,乃至需要联网以云端资源提高性能,回到了配网、下载注册APP的老路,“即插即用”的应用潜力被技术瓶颈所束缚。

探境科技此次展出的新一代芯片VOI811,则突破性地采用了ChatGPT同源的Transformer模型,支持较语音识别更高级的自然语意处理(NLP)功能,且较NLP领域以往的LSTM等模型相比,Transformer以基于位置的自注意机制取代了对时序信息的依赖,从而大幅改善了模型对算力资源的使用效率,已经在不同任务上展现出一系列强悍能力。基于Transformer模型,搭载VOI811的设备无需用户记忆特定关键词,其自然叙述的控制意图即可被准确理解。

(探境科技新一代芯片VOI811)

众所周知,应用Transformer的大型语言模型(LLM,Large Language Model)训练推理,动辄需要上万颗高性能GPU支撑,要在端侧实现同源的算法架构绝非易事,探境科技凭借在AI算法和AI芯片上的软硬件全栈技术能力,最终在业界领先实现了端侧离线部署的“奇迹”。

探境算法专家透露,算法组的同仁为此进行了经年累月的细致打磨,结合智能家居等目标落地场景特点针对性优化,并结合了知识图谱、知识增强等前沿工程技术,而在硬件方面,VOI811采用了自研的SFA(存储优先,Storage First Architecture)架构NPU,针对AI计算“高差异、高并发、高耦合”特性,以存储驱动计算,打破存储墙,在同等条件下数据访问可降低10-100倍,28nm工艺条件下,系统能效比超过4T OPS/W,计算资源利用率超过80%,DDR带宽占用率降低5倍,支持FFT/MFCC/AEC硬件加速。

值得一提的是,VOI811还可实现多意图识别,即一句指令可包含双重意图,如空调场景下,“调制冷模式,20度”,就可以代替遥控器或APP多个操作动作,交互的灵活性、鲁棒性相较以往语音识别芯片解决方案也堪称颠覆式体验。

(基于811芯片的NLP方案特点)

在探境芯片专家看来,公司能够在产品落地上快人一步,主因是算法、算力、数据上三位一体的核心能力,除了上文已经谈到、业界少见的软硬件全栈自研模式,探境科技在场景数据的积累上也有着自己的独到”法宝”,从收集采样、清洗分类再到训练,已经形成高效运行的闭环机制。

基于全栈能力的协同设计、协同优化,不仅使探境科技产品性能参数可以做到更优,也使下游模组、系统厂商少了一分“后顾之忧”,规避了一些案例中软硬件供应商相互“甩锅”的弊病。

逆势而上何以可能

除了产品技术上的诸多独到之处,探境科技对应用场景和用户需求的深刻洞察,也给集微网留下了深刻印象。

当前流行的智能家居蓝牙/WIFI SoC产品方案,在终端消费者处实际使用情况普遍不尽如人意,绝大部分产品在入户后,所谓智能功能就沦为摆设。原因在于用户侧背负了过重的负担,如要启用相关功能往往需要用户主动进行步骤繁琐的配网操作,“七国八制”的定制APP从用户体验角度而言不啻于噩梦,对隐私稍有敏感性的用户,也很难信任一个个陌生开发者的APP安装到自己手机,突兀出现在冰箱、音箱上的所谓“第三屏”、“第四屏”,所提供的内容对用户来说更是累赘而非收益。

相比之下,基于语音的家居智能化,或许是更优选的路径,作为人工智能赛道里堪称覆盖面最广的一个领域,语音可以广泛运用于各种智能化的升级场景下,需要通过遥控器、APP或者物理按键操作的控制意图,均可适用于声控,探境CEO鲁勇感言:“从务虚的角度来看这个事情,我们正在经历一个人类从操纵物体必须要接触的时代,迈向可以比较远距离操控,整个生活生产方式会发生一个巨大的变化”。

而在语音交互产品中,传统联网式产品如智能音箱,在消费者心智中也同样存在隐私安全顾虑,曾经备受公众关注的亚马逊智能音箱Alexa“黑客门”,也佐证了这样的顾虑并非杞人忧天。鲁勇表示:“涉及到语音,这个东西它本身就能听懂你说话。那么大家很自然地会想到,我在屋里面做的任何事情它都在听,如果这个东西是联网的,我天生就会产生不信任,离线在这里有天然的优势”,而免除了配网操作,从用户体验上来说,“插上就能用,打开就能有,这种体验就是人工智能真正到人身边了,而且是安全的”。

基于上述洞察所形成的VOI811等产品差异化特性,也的确得到了下游厂商的热烈反响,笔者在展位现场所见所闻,已然预示了VOI811商业成功的前景。

据鲁勇介绍,该公司AI语音识别芯片累计出货量目前已达到千万量级,覆盖品类广泛,在灯具等细分市场已经建立起优势地位,新一代VOI811芯片送样测试后,下游厂商对这一内部集成了LDO和多种控制通信接口的产品普遍给出了高度评价,其高性能、高灵活性、高集成度的特点,可帮助智能家电、智能车载、智能音箱、人机交互等产品制造商大幅节约产品开发周期及研发、物料成本。

以客户需求为中心,探境科技还依托其软硬件全栈研发能力,配套VOI811打磨了多套Turnkey参考设计模板,使内部技术力量不强的二线乃至白牌厂商,也能够实现新产品快速上市。

当下的白电、消电产业周期中,探境科技的高速成长显得尤为可贵,在笔者看来,这样的逆势成长可谓水到渠成。正是因为市场进入存量“内卷”的平台期,使得供应商在同质化价格战中“蒙头狂奔”之外,有更强的紧迫感“抬头看路”,审视现有主流技术方案和形态的弊端,寻找差异化的产品卖点和业务增长点,更积极尝试不同的技术方案,从而为创新打开机遇窗口。

瞄准未来机遇,探境将始终坚持离线语音控制这一端侧设备交互技术路线,进一步完善其针对高、中、低不同层次市场需求的产品线布局,助力上亿乃至更大出货量级的传统家电产业智能化升级。

结语

约瑟夫·熊彼特在其“创造性破坏”理论中,曾对经济周期与创新涌现的镜像关系做了深刻的总结。而探境科技对端侧设备语音人机交互的洞察与探索,以及下游消电、家电厂商的热烈反响,恰可作为一个有关产业创新周期的生动注脚。

随着离线AI语音控制方案可以预见的加速普及,智能家居消费者,也将很快感受到梦想照进现实的惊艳。

推荐内容