欢迎加入

搜索结果

当前位置:首页 > 搜索结果

物联网风口不知不觉的形成,努力撞上了机遇

语音交互,作为继按键、触屏之后人机主要的交互模式之一,已经逐渐成为物联网应用中的高频率出现的技术板块。但技术概念和技术本身落地,还是有一定差距的,为此小编在知乎上查询:目前能够实现的语音交互的主流技术有哪些?其中有一个回答是:研究一下科大讯飞的技术,就明白了。恰巧,此次在中国智能家居国际峰会的活动现场,我们就遇到了科大讯飞智能家居总监卢尧,特此进行了关于语音交互技术的相关探讨。

联动原素:“当前语音交互技术普遍已经达到怎样的程度呢?”

卢:“大家普遍的技术情况这不太清楚,但目前智能音箱的主要玩家,他在有关语音技术层面上,3到5米这段远距离识别率普遍都会达到97%以上,我们提的专业术语是称为远场识别,它用的这个技术模型和阿尔法狗战胜李世石的那套模型是一样的,深层神经网络,大家都是用同样的计算模型,看谁喂养的数据多,谁模型修正出来就更好,用户体验效果就会更好,用的人就会更多,良性循环。而后还有很多其他能力,比如我说了一段话能代表什么意思,那就是语义分析,那就是后面大家在做的事情,但前面已经能够做到蛮精准的了。”

联动原素:“和现有的交互方式相比,语音交互会在物联网发展中起到什么样的作用呢?”

卢:“手机的交互形式,像按键、触屏这些已经渐渐变成我们的使用负担,每天都需要查看各种信息、APP,不断的需要双手操作,甚至现在人们都离不开手机,因此大家会呼唤全新的交互方式出现,而语音交互是最能够表现人们主观意图,是人类特有的从小学习的交互方式,而这项技术想要商用也是挺难的,像讯飞做这部分十几年,我们为广大开发者提供服务,在这过程中有许多特殊的需要定制化的服务,都需要从基础数据研究开始。”

联动原素:“在这些定制化的需求中,会有哪几个经常被提及?能提几个实际例子吗?”

卢:“比如说定制唤醒词,不同品牌和产品都会需要定制一个他们自己的唤醒词,这是需要一个声场修正,我们高识别率的声场修正需要两个月的时间,声场修正后唤醒词的唤醒率就比较高,达到大概95%以上,你叫它就会答应,这就会带来用户体验上的提升。还有就是不同领域的数据收入,拿海底捞为例,我们有四十多个同事修正了一年半才做完了海底捞80%的菜单名词,这就是为什么大家不太了解讯飞的原因,我们一直都在做基础数据研究,讯飞能站在这个风口上和大家聊天绝非偶然,我们要做的这些事情也实属必然,我们经常自嘲努力撞上了机遇。”

联动原素:“那这些定制化的案列最后会逐渐形成标准化的产品吗?毕竟只有标准化后价格会降低。”

卢:“我们也试图在做一个标准化的产品,这就是讯飞为什么会做一个魔飞麦克风阵列,其实很多人都会问讯飞是支持别人做智能音箱的,为什么自己开始做产品了,这是因为我们支持了大量的开发者之后,双方团队都付出了巨大的努力,但因为某些设定无法将体验效果最大化,就像产品形态不一定是一个音箱、机器人,也有可能就是一个拾音单元,这个拾音单元可以在一个360度的环境当中,自由的、准确的拾音。我们在做的时候,就是抱着想告诉大家语音识别技术的这类产品应该怎么做的心态,还有就是我们也想知道在硬件和软件进行整合部署的时候,过程中到底会有哪些坑。

其实在很早很早之前许多技术就已经不是问题了,真正是需要让用户有用的好的产品和服务,硬推技术是不行的,你如果有好的技术,那就运用到实地的场景当中去,不要再说你的技术有多好多,找到刚需的应用场景远胜于我们去谈论技术。”

文章来源:联动原素