人工智能中的語音識別,有可能要威脅到速記這個職業了。
35天時間裡,微軟人工智能與研究部門的一個研究團隊,將其語音識別系統的詞錯率(WER)提高了兩次,達到了人類專業速記員水平。
當地時間10月18日,微軟人工智能與研究部門的研究員和工程師發表了一篇論文《Achieving Human Parity in Conversational Speech Recognition》。論文表明,微軟的對話語音識別技術在產業標准Switchboard語音識別基准測試中實現了詞錯率(word error rate, 簡稱WER)低至5.9%,首次達成與人類專業速記員持平,並且要優於絕大多數人的表現。同時,也刷新了自己的一個月前創造的6.3%的記錄。
詞錯率5.9%是什麼概念?在行業標准Switchboard語音識別任務測試中,人類對照組(由專業速記員組成)將對話語音轉錄成文字,目前有記錄的最低詞錯率就是5.9%,這就意味著微軟的語音識別系統的語音識別能力已經高於世界上絕大多數人,而與人類專業高手持平,創造了一項新的世界紀錄。
微軟首席語音科學家黃學東是這一研究的參與者之一,他在接受媒體采訪時說:『在對話語音識別中,我們已經實現了和人類同等的水平,這是一個歷史性的突破,意味著有史以來第一次有計算機能像人類一樣識別對話中的每一個單詞。並且,我們團隊花了不到一年時間就實現了這個目標,這遠遠超出大家的期望。』
在微軟公布論文前一周,IBM在舊金山舉辦的國際語音交流和技術大會Interspeech上, 宣稱他們取得了6.6% 的詞錯率。20年前,最好的研究系統的詞錯率是 43%。
『要是在五年前,我是絕對不敢相信我們可以實現這個目標的。』微軟人工智能與研究部門的微軟全球執行副總裁沈向洋博士說。
未來,微軟有望利用這一語音識別系統增強自己的消費和企業產品。比如像Xbox這樣的消費娛樂設備、即時語音-文本速錄輔助工具及Cortana這樣的個人數字助理。
雖然已經達到了人類專業水平,但這並不意味著微軟的語音識別系統能完美地識別每一個詞匯。微軟語音和對話研究組負責人Geoffrey Zweig舉例說,計算機將『have』誤聽為『is』、將『a』誤聽為『the』的錯誤率,和人類從同樣對話中出現誤聽的錯誤率是一樣的。
此外,計算機雖然能識別、轉錄,但要真正做到像人類一樣理解語音、語言,還有很長的路要走。Zweig說,研究者正在努力確保語音識別能在更真實的生活環境中良好地工作。這些環境包括具有很多背景噪聲的地方,比如聚會場所或是在高速路上駕駛的時候。『下一個前沿是從識別走向理解。』Zweig說。