智能音箱研究报告|语音交互功能详解

2014,11,亚马逊低调发布智能音箱Echo,经过半年内测,于2015正式发布。当年销量250万台,16年销量520万台,超越传统音箱龙头Sonos,成为线上音箱行业霸主,一度占据细分智能音箱市场99%的份额。继亚马逊智能音箱Echo获得市场强烈反响后,谷歌于2017年5月发布google home,苹果于2017年在WWDC发布智能音箱HomePod,国内厂商JD.COM与科大讯飞合作推出叮咚音箱...一度,国际互联网和硬件巨头纷纷加入争夺语音交互流量入口的战局,催生了一波AI落地潮。

智能音箱已经成为全球增长最快的消费级硬件。自2017年6月苹果home pod发布以来,从下半年开始,每个月都有一两家科技公司发布智能音箱新品或二代、三代产品。到目前为止,国内科技巨头BAT和小米,老牌电器制造商联想和苏宁,语音技术公司科大讯飞和Spirits,硬件技术初创公司Mobvoi和若奇都已通过自研或合作进入市场。

智能音箱的爆发离不开语音技术的支持,掌握语音技术的厂商有两类。一是互联网巨头,如Amzon、谷歌、BAT、苹果和微软,二是专门从事语音交互技术的制造商,如科大讯飞和Spirits。语音技术厂商通过自主研发软硬件产品或技术输出,赋能传统智能音箱厂商、内容和互联网服务商,获取用户和数据,建立平台生态。

1.阿姆松·亚历山大

基本信息:Amzon Alexa是亚马逊的智能虚拟助手和开放平台。2010开始研发,2014 11与Echo同步发布。Alexa具有语音技术的能力,通过运行名为“技能”的独立程序(类似于在手机中的操作系统上运行一个app)来实现不同的功能应用,支持音乐播放、语音购物、智能家居控制、智能通讯等一系列功能。由于其先发优势和大量的落地产品,alexa在产品搭载量和智能水平上已经远远超越其他科技厂商(CNET在CES2017中的统计)。

开放性:Alexa 2065438+2005年6月,亚马逊向第三方开发者开放了Alexa,并发布了Alexa Skills Kit(ASK)和Alexa Voice Service (AVS)两套开发工具包,让开发者更容易开发Alexa的“技能”;它还有一个由alexa创立的风险投资基金,用于支持语音交互领域的初创企业,以及大学生发展竞赛Alexa prize。从2014发布时的29个以上技能,到今天的近4w技能,由于积极的开放政策和不断优化的开发工具,Alexa拥有了远超其他技术厂商的海量技能。

适用范围:截至目前,Amzon Alexa已在全球38个国家上线(国内尚未上线),覆盖英、德、法、意、西、日6种语言(暂不支持中文)。除了自身的echo系列音箱产品,Alexa还赋能sonos、联想、哈曼卡顿等音箱产品,amzon fire TV等智能电视,amzon fire、华为mate9、HTC等平板电脑和智能手机,华硕、惠普、联想等笔记本和PC,智能冰箱、智能灯、智能开关等智能家居产品,智能耳机、智能手表等可穿戴设备,以及福特、宝马。

2.谷歌助手

基本信息:Google assistant是Google的虚拟助手,于2016年5月在Google开发者大会上正式发布。它支持语音交互,安装在谷歌的智能手机和智能音箱中。

开放性:2016年2月,Google在Google上推出了开发者平台Actions,2017年4月,发布了面向第三方开发者开发Google assistant应用的SDK(软件开发工具包),进一步扩大了对智能汽车和其他智能家居设备的支持。谷歌助手支持语音输入和视觉响应,可以通过设备的摄像头识别物体和收集视觉信息。

适用范围:目前谷歌助手已经支持英语、日语、法语、德语、西班牙语等八种语言。预计到2018年底支持30多种语言,覆盖95%的安卓手机(暂时不支持中文)。除了自家的Google home系列音箱和Pixel系列智能手机,Google assistant还赋能索尼、诺基亚等智能手机,松下、LG、Sonos等智能电视、智能机顶盒和智能音箱产品,联想、英杰华等电脑,沃尔沃等智能汽车产品。

3.微软Cortana

基本信息:Cortana是微软的虚拟智能助手,于2015年6月正式发布,逐步应用于搭载windows操作系统和Android/ios系统的移动设备。Cortana有语音交互功能,使用bing的搜索引擎信息回答问题。它可以调用应用程序,查询天气,推荐餐厅和景点,控制智能家居。

开放性:在2017的build开发者大会上,微软退出了cortana技能开发平台,允许第三方开发者为Cortana开发技能。

适用范围:截至目前,cortana支持中文(简单/复杂)、英文、德文、法文、日文等近10种语言。Cortana已经集成到很多微软产品中,比如Edge浏览器、windows10、车载系统、Skype(微软的即时通讯服务),并使微软能够与哈曼卡顿的智能音箱invoke合作。

4.苹果siri

基本信息:Siri(语音解释和识别界面)是苹果的虚拟助手。Siri成立于2007年。起初,Siri只是iOS平台上的一个应用。2010年4月苹果收购Siri并重新开发后,Siri成为苹果设备的内置软件,2011重新发布,只允许在iOS和macOS中运行。Siri支持语音交互,可以完成数据搜索、天气查询、设置闹钟等多项服务。

开放性:在2016年6月的苹果开发者大会上开放了Siri接口,在IOS开发平台中加入了Sirikit,支持开发者调用Siri显示应用内容。Siri目前没有独立的技能开发平台。

适用范围:截至目前,Siri支持中文(简繁)、英文、法文、德文、意大利文等20多种语言,赋能苹果全系列产品,如iPhone、iPad、iPod、Apple watch、mac等。

1.科大讯飞

基本信息:科大讯飞,成立于1999,是中国最大的智能语音技术制造商。在智能语音技术领域有长期的研究和积累,在中文语音合成、识别、评价等多项技术上有国际领先的成果。与中国官方关系密切,堪称“中国声音产业国家队”。科大讯飞在中国语音技术市场的占有率超过70%,语音合成产品的市场占有率也达到70%以上。

开放性:科大讯飞开放平台是全球首个提供移动互联网智能语音交互能力的科大讯飞开放平台。基于科大讯飞开放平台的科大讯飞输入法、林西语音助手、AI+教育、AI客服、AI医疗(语音电子病历、医学影像辅助诊断系统、智能助手等。)、小翻译机、飞鱼智能车载系统、家庭场景中的科大讯飞Morph麦克风系统等产品广泛用于人工智能。

应用范围:科大讯飞支持34种语言,包括中国各地的方言。目前已赋能长虹、海信、康佳等国产大牌智能电视,GlassX、ZWatch等可穿戴设备,奥迪、宝马、奔驰、通用、福特、SAIC、广汽、长安、吉利、长城、奇瑞等国内外智能汽车,智能音箱(JD.COM丁咚音箱)、聊天机器人(小鱼在家)。窗帘、空调等智能家居产品为滴滴打车、高德地图、QQ阅读等6万多个app提供智能语音交互服务,涵盖聊天交流、工具、视频、新闻、导航等生活方方面面。

2.百度dueros小度

基本信息:DuerOS是百度的对话式人工智能系统,于2017年7月在百度AI开发者大会上正式发布。DuerOS拥有影音娱乐、信息查询、生活服务、出行路况等10类200多项能力。用户可以实现不同场景下的命令控制、信息查询、知识应用、寻址导航、日常聊天、智能提醒以及各种O2O生活服务。同时支持第三方开发者的能力接入。

开放性:DuerOS开放平台包括智能设备开放平台和技能开放平台,分别适用于不同类型的硬件厂商和开发者。为了方便“入门”,百度发布了面向个人、产品厂商、特殊厂商的DuerOS套件,整合了包括音智科技、先声互联、Intel、Rockchip在内的第三方解决方案,并推出了技能商店APP“小度家”。

应用范围:DuerOS支持普通话、英语、粤语、四川话等多种语言。,并已赋能智能音箱、电视、ice等小家电及智能家居产品、智能手机、手表等便携设备、车机、智能后视镜等智能车载产品,累计容量5000万台,日活超654.38+00万,du eros 654.38+06万。

3.萧艾开放平台萧艾同学

基本情况:萧艾开放平台(原水滴平台)于2065438+2007年5月对外开放语音能力和SDK。基于小米的硬件生态和海量数据,提供全球领先的语音识别、NLP等人工智能技术,为开发者提供一站式人工智能服务。

适用范围:萧艾开放平台能力已融入小米软硬件产品,如小米电视、小米ai音箱、小米金夫'米小北',赋能小米生态链8500万物联网连接设备,虚拟助手萧艾同学的日活跃用户也达到10万。

4.AliGenie语音开发者平台天猫精灵

基本信息:AliGenie开放平台于2007年6月17日和6月12日在云起大会上发布。由阿里巴巴人工智能实验室发起,面向企业/机构/创业者/开发者,以API或SDK的形式分享阿里巴巴在人工智能领域积累的技术。目前拥有涵盖视听娱乐、新闻资讯、购物外卖的线上平台。

应用范围:AliGenie开发者平台主要包括精灵技能市场、硬件开放平台、行业解决方案三部分,全面赋能智能家居、制造、零售、酒店、航空等服务场景。

5.腾讯云肖伟

基本信息:腾讯云的智能服务系统和智能服务开放平台,帮助智能硬件厂商实现语音人机交互和音视频服务能力。从2012开始,微信AI团队将语音输入、语音识别、语义分析技术等功能应用于微信。腾讯云肖伟以微信的语音技术为底层能力,因此命名为“肖伟”,于2017年6月在腾讯“云+未来”峰会上正式发布。

适用范围:腾讯云肖伟包括硬件开放平台、技能开放平台、服务机器人(智能客服)平台,结合腾讯社交关系链,覆盖家庭、汽车、运动、酒店、儿童陪读教育等多个场景。

6.Spirit DUI开放平台

基本信息:Spirits于2007年在英国剑桥成立。它的创始人都来自剑桥。2008年回到中国,定居苏州。是国内为数不多的拥有人机对话技术的公司,也是全球为数不多的拥有自主产权、集成中英文语音技术的公司。2065438+2007年9月,Spirits正式发布DUI(对话用户界面)开放平台,以任务型对话为核心,具备聊天和回答问题功能,打造人性化交互。DUI作为全链路智能对话的开放平台,开放基于Spirits智能语音语言技术的对话功能,提供GUI定制、版本管理、私有云部署等开发服务。

DUI有四大系统:清囊(服务和R&D支持)、天极(大数据)、魏紫(丰富的第三方资源)、玲珑(终端解决方案和环境)。DUI平台接入了丰富的第三方内容,内置了国内最专业的语音语言技能商店。具有深度数据可视化、个性化定制、零门槛操作。开发者可以通过DUI实现全链路的高度定制,几乎每个模块都可以定制。

应用范围:平台已覆盖汽车、家居、机器人、故事机、手机助手等多个应用场景。提供智能汽车、智能家居、智能机器人等解决方案,赋能天猫精灵X1、小米AI音箱萧艾同学、联想智能音箱、小米Die 70步智能后视镜等前沿智能产品。

1.移动电话

Mobvoi是谷歌投资的中国人工智能公司,由硅谷华裔科学家李志飞于2012年回国创办。拥有自主研发的语音识别、语义分析、垂直搜索、基于视觉的ADAS、机器人SLAM等核心技术。代表性的软硬件产品有智能手表Ticwatch、车载智能后视镜Ticmirror、智能音箱Tichome、Mobvoi语音助手APP以及魔眼中的高级驾驶辅助系统Ticeye。

2.猎户座星空

猎户星空拥有一整套远场语音技术,自主研发的全链路远场语音交互系统“猎户语音OS”赋能喜马拉雅“潇雅”音箱,美的、海尔、博联、海尔友家、欧瑞博等智能家居产品。小米AI音箱和小米电视也采用了猎户星空的TTS(语音合成)技术和ASR(语音识别)技术。猎户星空自带音箱鲍晓AI音箱,连接微信支付、银联支付,集成区块链技术。

2017年,猎户星空还获得了微软百万名人识别大赛限制类(仅使用大赛提供的数据)第一名,这是公认的人脸识别世界杯。2065438+2008年3月21日,猎户星空正式发布人工智能领域机器人产品矩阵,落地接待、销售、儿童陪伴等多个场景。同时发布猎户的机器人平台Orion OS,集成了自研多芯片系统、摄像头+视觉算法、麦克风阵列、猎户TTS、室内导航平台、七轴机械手,形成完整的机器人技术链。Orion OS已经与微软、搜狗、高通、英伟达和锤子科技建立了战略合作伙伴关系。

3 .若琪Rokid

Rokid公司成立于2014年7月,隶属于杭州班苓科技有限公司,总部位于中国杭州,在北京和旧金山设有R&D中心,致力于机器人领域的研究,专注于远程定向拾音/语音语义识别、人脸/手势识别、声音和投影系统等核心技术。Rokid,现有PEBBLE月石智能音箱、AR眼镜Rokid Glass、智能机器人ALIEN等产品。Rokid智能家居机器人在2016和2017连续两年获得CES国际消费电子展创新奖。

4.聚集熵智能深度大脑

深脑于2012成立于上海,致力于人工智能产品的研发。核心团队是来自国内外著名高校的技术研究人才,为超过100家厂商提供深度人机对话能力,与三星、华为、联想、中兴达成深度合作。2014年,DeepBrain发布了国内首款智能音箱——小智超级音箱,比Echo的推出早了半年。其语义技能平台已入驻数千开发者,开发了超过1000个基于智能家居的语义技能。

5.搜狗之声

搜狗由搜狐公司于2004年8月3日创立,域名为Sogou.com,目的是增强搜狐的搜索能力。2013年9月,腾讯向搜狗注资,将其搜索服务和输入法业务注入搜狗。2017,11,搜狗在纽交所上市,腾讯目前持有搜狗45.37%的股份。搜狐在搜狗的持股比例为39.21%。搜狗语音技术的研究始于2012,于2013年6月在搜狗语音云开放平台正式上线。它连接了搜狗的所有产品,包括输入法和地图,并推出了搜狗语音助手。和Siri一样,搜狗语音助手在手机上提供的交互体验无法让用户产生足够的依赖,产品利用率不高。2016年8月,搜狗发布语音交互引擎“尹稚”。2017年2月,与四维图新、格非合作推出格非智能车联网G8ⅱ软硬件解决方案,为2018年3月发布的小米电视4A提供ASR语音识别能力,为会议平板厂商Vision发布。

销量和市场份额对智能音箱产品来说意义非凡。因为智能语音技术刚刚落地,极度依赖用户数据的馈给,用的越多就能越聪明。

据笔者估算,截至2018 Q1,智能音箱全球市场份额如下。Amzon凭借先发优势和丰富的产品,占据了71%的市场,而Google凭借完整的低中高产品矩阵和用户群,抢占了12%的市场。天猫和小米分别凭借电商体系、智能家居生态和低价爆款策略占据了6%和4%的市场份额。JD.COM较早涉足智能音箱。苹果的homepod在今年2月9日正式发布,定价偏高,仍占1%,其他品牌均占3%。

作为智能音箱品类的开创者,Amzon不断优化音箱产品的新能力,持续创新。从场景和形态出发,小而低价的echo dot、带屏幕音箱的echo show、带闹钟音箱的echo spot相继推出。不仅有促销爆款,还有高端品类防御。拥有高、中、低档完善的产品矩阵,各款车型累计销量超过3000万辆。是目前唯一一家销量突破千万的智能音箱厂商,引领全球智能音箱市场。

由JD.COM和科大讯飞联合创办的玲珑科技推出了叮咚音箱。作为国内较早的智能音箱厂商,JD.COM从2015年5月开始销售一系列新品。整体产品线类似于Amzon,不断探索更多的形式和场景,不断提供更多的定制化功能,用儿童教育音箱切割早教市场。随着小米、阿里和百度的强势进入,JD.COM也推出了高端屏幕扬声器丁咚PALY和低价位的丁咚mini2,以抢占国内市场。

2016年5月,在Amzon几乎垄断智能音箱市场的时候,谷歌进入市场,推出了Google home,凭借其优雅的设计、基于谷歌搜索引擎的智能问答以及价格差异,一度占据了20%以上的市场。并且在2017,10推出了低价的Google home mini和高价的Google home max,持续支持更多新技能和场景:接入更多智能家居设备,支持500w菜谱抢占厨房,支持语音购物。

小米作为国内领先的智能家居生态建设者,产品涵盖耳机、移动电源、手环、插座、血压计、空气净化器、净水器、运动相机、平衡车、电池、床头灯、电饭煲等智能家居设备。小米于2016年底开始研发虚拟助手萧艾同学,并于2017年9月正式发布智能音箱萧艾同学。除了小米之家强大的生态背景之外,萧艾同学也因为其机智的人事受到了极大的关注。2018小米推出Q萌版萧艾同学mini加入国内低价冲动战。

阿里非常重视新技术的研发。17年7月,天猫精灵x1发布。同时,负责阿里消费级AI产品研发的阿里巴巴人工智能实验室揭牌成立。17年6月,云起大会正式宣布成立达摩院,招募各关键技术领域的专家,进行基础科学、AI芯片、颠覆性技术创新等方面的研究。3月18,天猫精灵M1 cookies和火眼支架上线,6月天猫精灵方糖上线,继续探索更多音箱形状和花式输出AI技术,包括图像识别、人脸识别、物体检测和情感反馈。同时提高产品性价比,坚守音箱低价冲动的战场。依托阿里强大的电商网络,天猫精灵已经成为国内销量最大的智能音箱品牌。

2017年2月,百度全资收购渡鸦科技,10月165438+发布渡鸦智能音箱,外形新颖,色彩丰富,可拆卸点阵触摸板。定价1699对抗高端音箱Sonos、Bose、哈曼卡顿。18年初,联合老牌音响厂商DOSS推出了DOSS智能音箱。3月和6月,国内首款智能视频音箱以在家599元、in 89元的低价上市,在JD.COM和天猫销售。凭借着超高的性价比,在国产音箱价格战中还是有一席之地的。

除了有看得见销量的主流智能音箱,国内外还有很多智能音箱产品。比如微软和哈曼卡顿联合推出的invoke搭载微软Cortana,Line和高通联合推出的Clova,以及国内中小创业团队的一系列智能音箱,Mobvoi的Tichome,喜马拉雅的潇雅音箱等等。随着智能音箱市场的逐渐成熟,各种音箱要么找到自己的位置,要么变得沉寂。

智能音箱除了提供核心内容资源的消费功能,还深挖家庭场景,开放平台,吸引第三方开发者,提供越来越多的技能。领先的智能音箱行业Amzon Echo已经拥有超过3w的技能。从技能增长梯度来看,2016开始爆发,随着Echo销量的增加,还在上升。拥有超过3w技能的Amzon比其追随者更像一个语音操作系统。

就像智能手机操作系统的app,在海量的语音操作系统技能中,真正得到关注的只有少数,大量技能成为僵尸技能,无人问津。所以其他智能音箱品牌,只要覆盖高频和核心功能,提供更多的资源、家居控制和创意功能,就不用怕Amzon恐怖的技能号。

智能音箱产品功能大同小异,主要分为内容技能、工具技能、互动娱乐三大方向;功能面向核心场景、核心人群的核心功能倾向逐渐显现。

用户关注度高的功能主要有音乐、电影、生活助手、智能家居、游戏娱乐,其次是教育内容、好玩搞笑、新闻、新闻、财经功能;

工具技能用户口碑低,但不可替代;互动娱乐技能可替代性强,口碑和体验好的功能更受欢迎;内容技能的评价是偶数,重点是优质资源的可获得性。

从易趣、沃尔玛、JD.COM和天猫等电子商务平台的用户评论数据中提取。

用户体验总结:

1)智能音箱产品整体普及率很高,用户接受度较高。评价矩阵是5星好评的70 ~ 80%;

2)用户对音箱产品的唤醒、识别、分析等基本语音性能的感知差异不大(可能是因为个人拥有的音箱品牌数量不足1,对比不明显);对音质、内容资源的丰富性和“智能(智力和乐趣)”敏感。

3)老人和孩子对音箱的满意度和喜爱度是重要的消费决策因素。

4)海外用户对音质要求更高,对音箱的使用场景区分更清晰。他们倾向于针对不同的住宅场景配备多个音箱产品,对于是否自带电池没有太多要求。国内用户对音质要求和识别水平不足,期望自带电池方便移动。

5)用户期望唤醒词可以定制,内容资源更加丰富,资源和内容相互连接。

1)音箱销量:2017年智能音箱全球出货量3,200 W台,其中Amzon和Google瓜分市场比例约为9:1。Amzon音箱销量已经超过2000w,发行量和活跃设备数量在全球遥遥领先。到2018年4月底,国内厂商销量由天猫和小米领衔,订单在200w,而百度、腾讯等创业公司都在10w W以下..拥有生态闭环和技术平台的大厂商,有“高性价比分销”的趋势,低价占领快速用户市场。据科纳仕公司分析公司保守预测,2065年438+08年全球音箱销量将增长至5630台,美国作为主战场的销量将达到3840台,中国作为第二大市场的销量将达到440万台。

2)功能覆盖:智能音箱产品功能同质化明显,主要分为内容技能、工具技能、互动娱乐三大方向;拥有生态闭环和技术平台的大型厂商,正在把以语音技术为核心的AI技术平台打造成为Android/ios风格的操作系统,吸引更多智能硬件厂商和独立开发者入驻;鉴于技术水平没有明显差距,技能开发者的可转移性,技术和技能都不会是取胜的关键因素。

3)用户反馈:智能音箱产品整体市场接受度较高,评价矩阵70~80%5星好评;用户对语音交互基本性能的感知差异不大,如唤醒成功率、识别、分析等,但对音质、内容资源丰富度、智能、说话人兴趣等维度比较敏感。与此同时,用户的期望值还在不断提升,对音箱产品提出了越来越个性化的要求。