語音識(shí)別技術(shù)的進(jìn)步,使語音正成為可被計(jì)算機(jī)所接受的一種數(shù)據(jù)接口,也是計(jì)算機(jī)輸入最有效率的一種形式,由此,人機(jī)交互的方式將發(fā)生變革。
近來,國內(nèi)、外媒體時(shí)常會(huì)提到一款智能語音產(chǎn)品——Echo,根據(jù)Amazon公布的最新消息顯示,語音交互的代表——Echo的累計(jì)出貨量已經(jīng)超過1000萬臺(tái),在美國家庭的滲透率達(dá)到5%。
這個(gè)小圓筒機(jī)器人體內(nèi)的家伙“ Alexa”的技能已經(jīng)超過了10000項(xiàng),分分鐘秒殺Siri——時(shí)刻聽你說話,不用按按鈕觸發(fā);通過藍(lán)牙來播放音樂;從Amazon Prime上語音購買任何東西;可以語音追蹤你的包裹而且你不用等到Echo的喚醒燈亮起來再說話。
根據(jù)Alexa Skills Marketplace 的數(shù)據(jù),Alexa10000 項(xiàng)技能中,被使用最多的Top 10技能是:
① 歷史上的今天:是從 history.com網(wǎng)站收集來的每日歷史知識(shí)。
② 睡前小故事:可以設(shè)置孩子們的名字,為他們講一個(gè)大約一分鐘的睡前故事。
③~⑤ 環(huán)境聲音:雷聲、海浪和雨聲。這個(gè)技能只播放環(huán)境聲音。
⑥ Jeopardy! J6:是一個(gè)來自電視節(jié)目的每日腦筋急轉(zhuǎn)彎。
⑦ Ditty:會(huì)根據(jù)你的話語,做成一首歌。歌曲可以選擇快節(jié)奏或慢節(jié)奏,或基于某個(gè)主題。
⑧二十題挑戰(zhàn):在20個(gè)問題之內(nèi)讓你猜測動(dòng)物、植物等。
⑨ 好奇心:分享各種知識(shí)。
⑩ Inspire Me:提供每日格言。
另外,Echo最強(qiáng)大的技能是遠(yuǎn)距離語音識(shí)別和噪聲抑制,你在家里任何一個(gè)地方呼喚Echo,即使有噪音,它都能聽到,最遠(yuǎn)距離可達(dá)12米!這下Siri真的被啪啪啪打臉了??蓱z的Siri只能在近距離且安靜的環(huán)境中才能被你調(diào)戲。
VoiceLabs估計(jì),2015年以語音為主要交互方式的智能硬件出貨量為170萬臺(tái),2016年的出貨量達(dá)到650萬臺(tái),預(yù)計(jì)2017年將有2450萬臺(tái)智能語音設(shè)備送到消費(fèi)者手上,累計(jì)出貨量將達(dá)到3300萬臺(tái),市場規(guī)模超過200億美元。從圖中可以很明顯的看出,以語音為主要交互方式的智能設(shè)備出貨量的增速非??欤^3倍。
美國市場在該領(lǐng)域比較典型的就是Echo和Google Home,中國市場有Rokid和叮咚。
Rokid是一家面向C端用戶,提供新型家庭機(jī)器人助手和智能家庭產(chǎn)品的公司,其主打產(chǎn)品為Rokid家庭智能機(jī)器人以及即將正式出售的便攜款Rokid.Pebble。 而叮咚則是由一款智能音箱產(chǎn)品。這兩款產(chǎn)品都是以語音為主要交互方式的智能設(shè)備。另外,不管是美國還是中國,廠商都有一個(gè)野心——想做一款入口級(jí)產(chǎn)品,即智能家居控制中心(盡管目前中美兩國都還處于早期探索階段)。
在 Echo 流行之前,已有一家叫 Nest 的公司將智能硬件普及到美國的很多家庭中。從“2016年中美用戶安裝智能家居系統(tǒng)的家庭數(shù)量對(duì)比圖”可以很明顯的看出,中國目前的智能家居產(chǎn)品的覆蓋率還非常非常低,距離美國有15倍的差距。而只有智能家居產(chǎn)品的覆蓋率達(dá)到一定程度,類似于Echo這種智能音箱的“語音控制智能家居產(chǎn)品”的功能才有用武之地,否則只會(huì)是一個(gè)多余的功能擺設(shè)。當(dāng)然,不管是中國還是美國,也都在等這塊市場成熟,顯然中國等待的時(shí)間還會(huì)更長,小米等廠商的智能家居布局之路“任重而道遠(yuǎn)”。
美國用戶已經(jīng)養(yǎng)成了為內(nèi)容付費(fèi)的習(xí)慣,他們非常重視版權(quán)保護(hù)。雖然從去年開始,中國的內(nèi)容或者知識(shí)付費(fèi)被提到很多,但是讓用戶、尤其是普通用戶養(yǎng)成為內(nèi)容付費(fèi)的習(xí)慣還有很長的路要走。目前由于國內(nèi)智能家居市場還遠(yuǎn)沒有成熟,所以用戶對(duì)通過智能語音設(shè)備控制智能家居的需求度還很低,更多的用戶會(huì)拿這些設(shè)備去聽音樂、聽故事或者是書籍等。但是由于近來版權(quán)收緊,這些智能語音設(shè)備廠商要么與版權(quán)方在資源上有合作,要么就需要為版權(quán)付費(fèi),然而設(shè)備廠商又無法通過內(nèi)容從C端用戶身上收到錢,這就很尷尬了。
所以,國內(nèi)廠商目前還處于非常早期的探索階段。即使“渠道+技術(shù)”優(yōu)勢(shì)都已經(jīng)具備,但是做得還是不溫不火,這與國內(nèi)大環(huán)境和用戶習(xí)慣有非常大的關(guān)系。即使是在美國,Echo目前常用的功能也就是播放音樂、控制智能燈、定鬧鐘、讀新聞等。這些常用功能和控制智能家居,成為入口級(jí)產(chǎn)品的野心相差還是非常遠(yuǎn)的。在美國尚且如此,在中國就更不用說了。
Echo的成績前面也已經(jīng)提過了,目前的數(shù)據(jù)非常亮眼,所以我們也有必要來總結(jié)和復(fù)盤一下,為什么Echo能取得如此好的成績。
第一、Amazon對(duì)Echo的支持力度和決心非常大。Echo的內(nèi)部研發(fā)工作從2011年就已經(jīng)開始,并且之前在硬件(Kindle等)方面就已經(jīng)有一定的積淀,隨后吸收了語音識(shí)別公司Nuance的部分員工,并且還收購了兩家語音技術(shù)公司Yap和Evi。等到Echo正式面市的時(shí)候,Amazon又不惜投入重金在各大渠道為Echo宣傳和促銷,同時(shí)還將Echo放在Amazon電商網(wǎng)站的顯眼位置,從而獲得了巨大的流量。而Echo的研發(fā)團(tuán)隊(duì)也在不斷擴(kuò)大,目前整個(gè)團(tuán)隊(duì)已經(jīng)超過1000人。除此之外,Amazon的CEO貝索斯對(duì)于產(chǎn)品近乎嚴(yán)苛的要求,例如:要求將Echo的反應(yīng)時(shí)間控制在1秒。
第二、Echo尋找到了一個(gè)正確的“引爆點(diǎn)”來激發(fā)消費(fèi)者的購買欲。超過 40% 的早期測試者說他們使用 Echo 主要目的是聽音樂。然后研發(fā)小組加倍投入精力,把音樂設(shè)計(jì)為 Echo 的主要功能之一。在人工智能還處于“弱智”階段時(shí),以“智能音箱”的邏輯切入,用戶可以通過語音來播放音樂,能夠降低用戶的期望值。并且Echo是第一款能通過語音(遠(yuǎn)距離拾音)來控制設(shè)備的產(chǎn)品,正如iPhone面市時(shí)的觸摸屏方式,對(duì)人機(jī)交互方式做出了一定的變革,能夠給用戶帶來新意和好奇感。再加上價(jià)格也不算很貴(最高價(jià):179.99美元,約合1250人民幣;最低價(jià):49.99美元,約合345人民幣),所以用戶會(huì)很愿意去嘗試。
第三、圍繞語音交互設(shè)計(jì)產(chǎn)品。Echo只提供語音一種交互方案,除了揚(yáng)聲器和麥克風(fēng),Echo沒有其它交互接口。Echo“強(qiáng)迫”用戶使用語音與設(shè)備互動(dòng),教育用戶,培養(yǎng)用戶的使用習(xí)慣。
第四、硬件設(shè)備(Echo)+軟件服務(wù)(Alexa),打造生態(tài)體系,建立數(shù)據(jù)壁壘。Echo成為Amazon將智能硬件產(chǎn)品鋪到千家萬戶的“殺手锏”,Echo的數(shù)據(jù)表現(xiàn)也讓人們看到了以語音為交互方式的智能硬件時(shí)代已經(jīng)到來,這就為Amazon開放基于Alexa的軟硬件開發(fā)者平臺(tái)提供了良好的基礎(chǔ)。Alexa Skills呈現(xiàn)出爆發(fā)式的增長,目前的Skills已經(jīng)超過10000種。同時(shí),接入Alexa的智能硬件設(shè)備也在快速增長,比如:華為美國版Mate 9手機(jī)就內(nèi)嵌了Alexa語音系統(tǒng)等。整個(gè)生態(tài)體系的搭建離不開最初Echo的推出。而Echo的大規(guī)模鋪貨以及生態(tài)體系的搭建,又能為Amazon帶來大規(guī)模的數(shù)據(jù),尤其是專業(yè)領(lǐng)域的真實(shí)場景數(shù)據(jù)和實(shí)時(shí)數(shù)據(jù),從而將Alexa訓(xùn)練得更加“聰明”。
另外,Amazon Echo和Google Home還沒有進(jìn)入國內(nèi),一方面由于中文語音/語義識(shí)別和文化差異導(dǎo)致,另一方面中國的防火墻將國外廠商給“無情”地?fù)踉诹送饷?。那么,國?nèi)市場中目前主要的廠商/產(chǎn)品就是Rokid和叮咚了,同時(shí)也還有不少潛在進(jìn)入者,就目前整個(gè)市場階段來看,還處于非常早期的教育用戶和培育市場階段,各廠商當(dāng)下最重要是要找到中國市場的“引爆點(diǎn)”或者是應(yīng)用場景,同時(shí)去打磨產(chǎn)品,等待這塊市場的爆發(fā)。所以現(xiàn)在談競爭還為時(shí)尚早。
微軟和蘋果據(jù)傳一直在研發(fā)類似于Echo和Google Home的產(chǎn)品,但是這兩家巨頭也可能從其他角度切入市場。例如微軟的HoloLens VR頭顯,目前也支持語音控制VR體驗(yàn);蘋果的無線耳機(jī)AirPods,支持通過Siri來控制。在推出的短短一個(gè)月內(nèi),蘋果AirPods就占據(jù)了美國無線耳機(jī)26%的市場份額。而三星在2016年8月也被曝出正在做類似于Echo的智能音箱,并且其新品Scoop的設(shè)計(jì)圖還在網(wǎng)上被曝光,但直到現(xiàn)在該產(chǎn)品也沒有正式面市。同時(shí),三星也在2016年10月收購了AI助手系統(tǒng)Viv公司,而其聯(lián)合創(chuàng)始人正是“Siri之父”。并且在2017年3月,三星在 Galaxy S8 問世之前,率先公布了內(nèi)置于手機(jī)之中的人工智能助理 Bixby。
可以看到,不管是國內(nèi)還是國外,巨頭們都紛紛在語音交互市場搶奪賽道。尤其是面向C端用戶提供以語音為基礎(chǔ)的智能硬件市場,巨頭林立,創(chuàng)業(yè)公司涉足會(huì)面臨非常大的壓力,但是面向C端用戶的市場想象空間更大,如果創(chuàng)業(yè)公司能夠找到具體的落地場景和應(yīng)用,并且對(duì)于團(tuán)隊(duì)、資金、技術(shù)、資源等各方面都足夠自信,或者能夠伴上“干爹”,涉足C端市場也是很好的選擇。但目前對(duì)于國內(nèi)的大多數(shù)創(chuàng)業(yè)公司來說,針對(duì)B端客戶或者是垂直行業(yè)輸出解決方案是更好的選擇。這樣可以避開巨頭的直面競爭,在技術(shù)發(fā)展早期段彌補(bǔ)產(chǎn)業(yè)的薄弱環(huán)節(jié),現(xiàn)金流情況會(huì)更好。
另外,語音和視覺目前還被分得比較開,但是長遠(yuǎn)來看,語音和視覺在AI領(lǐng)域一定會(huì)統(tǒng)一,因?yàn)檫@更符合人的自然習(xí)慣。這也是為什么VR/AR會(huì)火的重要原因,VR/AR最后也會(huì)將語音統(tǒng)一進(jìn)去。