高速前進的中國造就了近1億的中產(chǎn)階級家庭,這一億家庭年平均收入在30萬到70萬人民幣左右,智能家居市場的發(fā)展依賴于這部分消費群體,預示著中國智能家居市場的潛力巨大。智能家居市場真正的發(fā)展方向是家庭消費和服務——每年的市場可以達到50萬億,其中有10%通過線上進行。如果企業(yè)能夠更方便、更快捷和更精準的幫助消費者進行家庭消費、提供服務,那么它將獲得巨大的成功。
通過對智能家居市場發(fā)展趨勢的思考,發(fā)現(xiàn)三個比較明顯的趨勢。
1、物理入口。目前最主要的入口依賴智能手機,這個入口是非常擁擠的,一個非常明顯的趨勢就是,整個消費和服務的接入是分散到各個智能設備的。未來每一個硬件都是一個獨立的APP。你發(fā)現(xiàn)冰箱里面沒有飲料的時候,你不需要拿出手機,解鎖,打開APP等購買,這個用戶體驗是很差的。你可以直接一句話告訴冰箱,下午給我送一打啤酒過來。
2、交互方式。最傳統(tǒng)的是鍵盤和觸摸屏。隨著人工智能的發(fā)展,語音技術也將很快的普及到我們的生活中。但我們認為,在不遠的將來會有一個更為重要、更為重量級的方式,那就是通過視覺的交互。因為現(xiàn)在大家可以看到,不管是通過觸控還是通過語音進行交互,其實都是人類主動決策、機器被動接受的過程。而視覺是主動交互。視覺交互。那就是機器主動決策——人類不需要關注很多家庭的事情了,連命令都不用下,機器就能在最合適的時間完成服務。舉個例子,現(xiàn)在已經(jīng)有上門洗衣的服務了,我們可以想象一下,將來家里面在陽臺上放一個大的籃子,把臟衣服扔進去,陽臺有一個攝像頭,看到這個籃子里面的衣服累計到一定程度的時候,自動的聯(lián)系上門的洗衣服務,全程不用人類操心。將來的消費以及服務會更多的是通過AI主動推薦的模式,這個里面帶來的市場商業(yè)機會是會遠遠大于傳統(tǒng)模式的。因為視覺相比語音和觸控是更高維的溝通方式,它能收集到的信息遠大于觸控和語音這樣的二維方式帶來的信息。
智能家居市場喧鬧了很多年,并未迎來真正的爆發(fā),原因有哪些?
第一個是應用場景分散,有安全、娛樂、家庭服務、健康、教育等非常多的場景,另外家里面的智能設備過于分散,比如家電,玩具、機器人、攝像頭等等,所有這些分散的應用場景和電子設備會導致當我們把它們智能化的時候,很難快速復制。
第二是技術。家庭場景很復雜,需要能處理語音和圖像,做到很好的感知、認知,技術挑戰(zhàn)直到今天仍然很大。
第三是數(shù)據(jù)。數(shù)據(jù)的搜集和分析是一個很難的過程,首先,家里面每個場景都是高度分散化的,每個家庭的需求也是不一樣的。其次,只拿到大數(shù)據(jù)是遠遠不夠的,因為即使家里安裝上很多的傳感器,搜集到很多的數(shù)據(jù),但是這些數(shù)據(jù)絕大部分都是垃圾數(shù)據(jù),如果不停的把這些數(shù)據(jù)上傳到云端處理,會占用巨大的帶寬和云端處理資源,不具備可操作性。所以我們搜集數(shù)據(jù)的時候,我們要思考,不僅僅要搜集數(shù)據(jù),而且要搜集真正有價值的數(shù)據(jù)。但是這個事情并不是這么容易做到的。
第四是真正的用戶體驗很難。我們服務的對象是人,對于體驗的要求很高。我們現(xiàn)在人工智能的技術得到了很快的發(fā)展,但尚不能真正讓人感覺到交互方式和服務方式非常自然。
人工智能在智能生活上的普及,一定不是一蹴而就的事情,需要一段時間的慢慢積累。
如何應對智能家居的這些挑戰(zhàn)
第一,應用場景分散的問題,我們認為要抓住其中的主要矛盾,和不變量,就是“人”,我們現(xiàn)在智能家居這個領域就應該把人做透。比如安全問題,現(xiàn)在家里面裝很多攝象頭主要的目的是為了安全,而安全其實核心是什么呢?最主要的是想知道家里有沒有人,是家里人還是陌生人,以及這個人的行為,他做的行為是安全的行為還是不安全的,比如小孩子進入廚房,會不會點煤氣灶,這些都是不安全的行為。所有應用場景都是圍繞人。比如娛樂,家庭服務、健康、教育等等,就不一一舉例了,我們地平線做的就是從人臉,到人的行為分析,到人周圍環(huán)境,以及這個人的語音和設備的交互,我們主要的核心點就是圍繞人,把這個技術做好,支撐巨大的分散的智能家居的需求。
第二個是技術上的挑戰(zhàn),人的交互方式和獲取信息的方式其實是一個融合的方式,單獨的語音和圖像,或者單獨的其他任何傳感器,都不能涵蓋所有的應用場景。所以一定是要圖像+語音。另外視覺是高維高價值的,80%的價值信息來自于圖像,只有20%來自于語音,在技術上要完成對智能家居最好體驗的布局,必須把圖像和語音的技術融合,單獨的做語音或圖像都是缺位的。
第三個數(shù)據(jù)的挑戰(zhàn)。要獲取有價值的數(shù)據(jù),怎么獲取呢?這個本身是不容易做到的,我們的思路也是比較清晰,就是做嵌入式的人工智能“端+云”的方式。端側呢,現(xiàn)在我們談到所謂的人工智能創(chuàng)業(yè)公司也好,大公司也好,他們其實更多的是在云上做,但是端上有不可取代的價值。主要是幾個方面,第一,端是不依賴于網(wǎng)絡的,不管是在家里,還是哪里,大家會發(fā)現(xiàn)家里的無線網(wǎng)絡覆蓋很難做到完美,如果是在樓下,或者是在移動的場景中,網(wǎng)絡的全覆蓋更是一個很難的事情,特別是當你牽涉到一些智能圖像處理的時候,你很難實時地把圖像傳到云端再處理回來,這個時候實時性沒有了。第二,端上可以對數(shù)據(jù)進行選擇,只把有價值的數(shù)據(jù)傳到云端。比如我陽臺上有一個洗衣服的籃子,我就只關注這個里面衣服滿的時候,這個狀態(tài)我傳到云端。如果這個里面衣服沒有滿,99%的時間,這些數(shù)據(jù)是毫無意義的,就拋棄了。必須采用一個端+云的方式,這樣才有可能真正的做到最高效,而且是最有性價比的智能服務。
有了端上的智能以后,在云端可以做很多的事情,一個是可以用數(shù)據(jù)迭代模型,持續(xù)的優(yōu)化用戶的體驗;另外是每一個硬件,將來都是和手機的形態(tài)一樣,他在上面都可以下載很多的智能APP,這個硬件可能已經(jīng)脫離了原來的形態(tài)了,你買回來的時候可能是一個家電,也可能是一個機器人,但是隨著智能的升級,他可以具備很多全新的屬性和功能。
當我們真的有了這個大數(shù)據(jù),也對人的喜好有了了解以后,這個就不局限在家里了,當我們到任何一個地方都可以通過云端升級本地的智能設備,讓他們變成像家里一樣最懂我的環(huán)境。將來的智能家居市場一定是端+云的架構。
第四個,真正的用戶體驗,這是非常難的事情。舉個例子,語音,不僅要支持遠場和近場,識別一些帶口音的普通話,甚至是方言。還要考慮實際應用中,如果很多人同時講話的時候,家里很多語音設備的識別率就會下降的比較厲害。所以當我們做技術時,一定要考慮實際的使用場景。圖像也是一樣,比如人臉識別,如果你離的很近,確實識別得很好,但是如果離得比較遠,如果是走動的狀態(tài)下,如果是背光的情況下,怎么辦?這些都要解決,只有這樣用戶體驗才能真正好,消費者才真正的愿意使用這個技術,這個市場才能真正的起來。另外一個,我們的技術更多還要努力讓攝像頭做到主動的服務,要懂用戶,只有懂用戶才能使用戶得到好的體驗。
語音交互推動家居智能化向縱深發(fā)展