伴随着物联网时代的到来,语音交互已然成为人与机器“交流”的重要环节。以语音为切入口的布局端成为了许多科技公司的必争之地。
但语音赛道也有其鲜明的行业特征:首先,语音的交互流程、交互逻辑较之于图像更为复杂,决定了其产品应用商业落地的复杂性与难度更高,用户对于产品性能期待值更高;其次,从国内市场看,图像相对于语音赛道而言,拥有更为确定性的场景应用,作为语音公司而言,要生存,也意味着更加考验团队的“市场刨食”能力。
与此同时,由于语音场景碎片化现状,对于行业玩家,不仅需要在技术方面提前布局,反复打磨,更需具备灵敏的商业嗅觉,提前发现并布局市场机遇。
一个行业越是“纷繁复杂”,越能考验身处行业中企业的定力和底气。在语音赛道中,有这样一家专注语音AI技术的公司——云知声,其历经8年的打磨,在语音赛道上探索出自己的生存法则和市场嗅觉。
8年的时间,云知声也从曾经的默默无闻,逐渐成长为行业领军企业,不仅在技术且在商业化道路方面,也呈领跑趋势。而在近期,云知声正式向上交所提交IPO招股书材料,公司正向“科创板AI语音第一股”发起冲击。
敢为人先
如何判断一家AI公司的路走的正确与否呢?云知声提供了一个很好的研究范本——看一家企业的路对不对,主要是看其在关键时刻的那几步走的对不对,而不是看其大多数时间和其他人做了多少相同的事。
“算力、算法、数据”是构建人工智能核心技术的基础要素,其中带领AI产业驶离深水区,实现真正产业落地的关键之一就在于算法侧供给提升。在这一方向上,云知声于2012年率先将深度神经网络(DNN)应用于商业语音识别系统,并在后续的人工智能浪潮中持续进行前沿算法的商业实践。
基于公司先人一步将DNN引入语音领域,在后续的人工智能浪潮中持续进行前沿算法的商业实践,例如,后来涌现的卷积神经网络(CNN)、回归神经网络(RNN)、端到端序列建模、生成对抗网络(GAN)、注意力转换模型(Transformer)、双向编码表征转换模型(BERT)、知识蒸馏(KD)、自监督学习(SSL)等主流技术方法,云知声都是业界最早的产业实践者之一。
而从现在绝大多数企业的选择来看,DNN已经成为了主流选择。也就是说,云知声当时超前的技术预判后来被证实是正确的。
除了率先拥抱DNN外,云知声的另一个关键一步就是2015年启动自主造芯。
据了解,为了进一步降低智能语音交互方案的功耗、提升其唤醒的灵敏性,进而满足更多物联网设备加载语音交互功能的需求,云知声自2015年起,前瞻性布局人工智能语音芯片,着手开发uDSP处理器和DeepNet IP技术。
在此基础上,云知声于2018年率先交付人工智能语音芯片——“雨燕”,后于2019年陆续推出车规级芯片“雪豹”和面向家居领域的第二款升级版芯片“蜂鸟”系列,并启动具备“图像+语音”多模态交互功能的芯片“海豚”的研发,持续领跑同业。
需要注意的是,当前越来越多的AI语音公司不约而同地闯入造芯新赛道,从算法出发“软硬兼施”已然成为一条必走之途,但也显得语音AI市场变得异常竞争激烈。与之相比,云知声所推出的芯片又是否具备在这场竞争中“脱颖而出”的品质?
芯片性能优越
以云知声当前的主力芯片产品之一“蜂鸟”为例,根据灼识咨询研究结果,其与同期其他市场参与者主力产品相比,“蜂鸟”在语音处理效率和商用成本方面均具有明显优势。
具体而言,“蜂鸟”芯片采用先进的DSP+神经网络+MCU的异构设计,异构设计相较传统的通用CPU架构,一方面可以大幅度提高芯片的运行效率,另一方面可以减少芯片面积以及功耗。其浮点运算能力和定点运算能力可分别达到16MAC/时钟周期、32MAC/时钟周期,均领先于相同面积下同类芯片的性能。
此外,“蜂鸟”芯片内部集成1.5MBSRAM,搭载云知声自有语音识别算法,可实现远场5m距离,准确率>98%的远场语音识别,相比相同竞争对手所需RAW容量减少近一半,这在对成本敏感竞争激烈的语音芯片市场是至关重要的。
同时为了最大限度提高芯片的集成度,“蜂鸟”芯片在芯片内部集成了FLASH,实现了真正意义上的单芯片语音解决方案。