|
||||
綜述:最為iPhone4s最大的賣點,“Siri”近期成為了大家關注的焦點。而同“Siri”交流則成為了眾多iPhone4s用戶最Happy的事情。
Siri,苹果新發布的手機iPhone 4S的語音助手功能,正在成為大家熱議的話題,而我們預言,它極有可能開啟個人電腦類產品應用的新篇章,人機交互將真正進入大家的生活。
智慧誘人的Siri帶來人機交互熱
一場並不那麼精彩的發布會,苹果的iPhone 4S發布了。大家對iPhone 4S在硬件端缺乏創新很失望。不過,敏銳的我們發現了Siri這一功能,這個基於語音交互的助手功能將成為iPhone 4S的最大賣點。
事情的發展正如我們預料的那樣,現在,Siri語音助手已經成為全球熱議的話題,iPhone 4S熱賣,而且用戶發現Siri能夠幫助我們通過語音輕松完成很多事情,比如:閱讀並回復短信、介紹餐廳(位置、名稱)、詢問天氣、設置鬧鍾、查看日程等。
不過大家更著迷於她的神奇:買iPhone 4S後用戶都衝著Siri那優美的女聲提出各種稀奇古怪的問題來看她的反應。這些問題甚至包括了“你穿的什麼衣服”,“生命的意義是什麼”,甚至有不少人衝著她嚷嚷“我愛你”。讓人驚嘆的是,Siri完全理解這些問題,且懂得如何婉轉而詼諧地回答,且知道如何在法律范疇內引導大家的行為。針對前面兩個問題,她的回答是“你怎麼總是要問我這個呢”;“生命:一種原則或力量,被認為是獨特動態存在的基礎。我想我也算是一種生命”。而對於“我愛你”之類的告白,Siri則會說“我希望你不會對別的手機也這樣說”。她甚至能夠對連續性的問題給出符合人類邏輯的不同回答。有人連續向Siri“求婚”三次,第一次Siri回答:“聽起來很甜蜜,不過我還有什麼可以幫你的嗎?”第二次回答:“讓我們只做朋友,好嗎?”第三次Siri乾脆攤牌了:“我的用戶協議沒有包括和你結婚,我很抱歉。”
很顯然,Siri是智慧的,智慧得令人驚嘆、智慧得誘惑,智慧得令人愛。難怪在iPhone 4S熱銷缺貨的同時,黑客都在致力於將智慧且誘人的Siri移植到其他iOS設備上。視頻網站上,關於Siri問答的視頻也被瘋狂點擊。而大量開發類似軟件的廠商,也在近期跳出來表示他們的軟件也很好……
一場人機交互熱正在到來!
Siri現在成了最熱門的應用,事實上,它正在引領人機交互的大潮
Siri背後的技術
Siri的神奇和強大,是如何實現的?有人說她的背後是“印度雲”,用戶在語音提問時,iPhone 4S就偷偷接通了遠在印度的CALL CENTER(呼叫中心),那邊的印度工程師瘋狂地打字回答,iPhone 4S端再轉換為語音回給用戶——當然,這只是個玩笑。
Siri的背後,其實是眾多技術的結合,總體來看是兩大類:人工智能和雲計算。如果非要綜合描述成一個概念,則是“ 計算技術 ”,而這一計算技術又是很多類技術整合而成的。下面,我們來對Siri進行一個大概的技術分拆(目的是讓大家理解分類的技術,Siri的每個部分不一定就是采用的下文所舉例的技術)。
首先,在前端(面向用戶)的,是用戶交互技術(從表象來看,也就是我們平時所說的人機交互),主要是語音識別及語音合成技術。語音識別技術把用戶的口語轉化成文字,其中需要強大的語音知識庫,因此需要用到雲計算。而語音合成則是把返回的文字結果重新轉化成語音輸出,這一步理論上本地就能完成。
其次是後臺技術,這纔是重角兒。這些技術的目的就是處理用戶的請求,並返回最匹配的結果。因為請求類型超多,且千奇百怪,要處理好可不簡單。基本的結構可能是分析用戶的輸入(已轉化為文本),根據輸入類型,分別采用對應的後臺進行處理。這些對應的後臺包括:①以Google為代表的網頁搜索技術;②以Wolfram Alpha為代表的知識搜索技術(或知識計算技術,百度框計算與之有些類似);③以維基百科為代表的知識庫技術(包括其他百科,如電影百科等);④以Yelp(可以理解為國外的大眾點評網)為代表的問答以及推薦技術。當然,未來也許還會有更多的後臺技術。
例如,當你詢問某個酒店在哪裡時,Google的網頁搜索和地圖搜索就會派上用場;當你要詢問NVIDIA是什麼時,維基百科的信息就會被直接調用;而你要了解附近哪些餐館各自有什麼特色時,谷歌和Yelp就會同時起作用。
總體來說,Siri不是某一種獨立的技術,而是將若乾現有技術進行了整合。這些技術並非革命性的,但當它們整合後,在用戶面前就展現出了神奇的一面。
語音人機交互的技術模型
為什麼是手機
如果你比較喜歡研究各種計算技術,以上技術你應該不會陌生。說白了,很多人都或多或少地用過以上提到的技術,只是因為停留在應用層面,沒有把它們技術化罷了。無論是語音識別、語音合成,還是各種後臺計算技術,其實PC上都有。那麼,為什麼它在智能手機上一炮而紅?
整合,是一個原因,也是很重要的原因。在目前的科技公司中,對技術分類得非常詳盡,每個公司都在某一個領域鑽研得非常深,但想到要把它們整合起來的公司並不多。 Siri做到了,喬布斯看到了,並把它收購了,專為自己所用(再次贊一下已逝去的喬布斯的眼力)。
另外, “給出回應”也是重要原因。其實語音識別並進行相應的動作,這一點很多廠商都在做,也有很多產品。例如桌面Windows系統和Windows Phone系統上就有語音控制和語音搜索功能。但是它缺乏智能的語言反饋,更沒有想到要把這種反饋合成為誘人的人聲來回應用戶——這兩點中,語音合成技術不算難,但很多廠商都沒想到。
最後,也是最關鍵的原因: 智能手機是隨身攜帶的。它的硬件雖然已經“PC化”,比較強大,但輸入依舊是個麻煩事兒,而基於語音的交互恰好是最理想的解決方案。另外,智能手機還有很多PC不具備的特性:例如地理位置定位、聯系人列表、人們總是通過它在移動中解決問題。這些,也都為語音交互提供了更多更豐富的功能點。這一切因素的整合,促成了Siri,也促成了她在智能手機上的一炮而紅。