在過去的20年中,谷歌向公眾提供了大量的信息,從文本、照片和視頻到地圖和其他內容。但是,世界上有許多信息是通過語音傳達的。然而,即使我們使用錄音設備來記錄對話、訪談、演講等內容中的重要信息,但要在以后的幾個小時的記錄中解析、識別和提取感興趣的信息還是很困難的。
因此,谷歌創建了Recorder,這是一種新型音頻記錄應用程序,它利用機器學習的最新發展來轉錄對話,以檢測和識別記錄的音頻類型(從音樂或語音等廣泛的類別到特定的聲音,例如掌聲,笑聲和吹口哨),并為錄音編制索引,以便用戶可以快速找到并提取感興趣的片段。所有這些功能都完全在設備上運行,而無需互聯網連接。
轉錄
該應用程序使用自動語音識別模型實現轉錄語音,該模型可以準確轉錄長時間錄音(幾個小時),同時還可以通過將單詞映射到語音識別模型計算出的時間戳來索引會話。這使用戶可以單擊轉錄中的一個單詞,并從錄音中的該點開始播放,或者搜索一個單詞并跳到錄音中所說的確切點。

將聲音分類
呈現記錄是有用的,并且允許人們搜索特定的單詞,有時根據特定的時間點或聲音在視覺上搜索記錄的各個部分更為有用。為了實現這一點,Recorder還將視聽音頻表示為彩色波形,其中每種顏色與不同的聲音類別相關聯。這是通過將研究與使用CNN來分類音頻聲音(例如,識別狗叫聲或樂器演奏)和先前發布的數據集進行音頻事件檢測以對各個音頻幀中的明顯聲音事件進行分類相結合來完成的。
當然,在大多數情況下,許多聲音可以同時出現。為了以一種非常清晰的方式可視化音頻,我們決定為每個波形條上色,以一種顏色表示代表給定時間段內最主要的聲音(在我們的示例中為50ms條)。彩色波形使用戶可以了解在特定記錄中捕獲了哪種類型的內容,并可以更輕松地瀏覽不斷增長的音頻庫。這為用戶帶來了錄音的可視化表示,并且還使他們能夠搜索錄音中的音頻事件。

程序還支持滑動窗口功能,該功能以50ms的間隔處理部分重疊的960ms音頻幀,并輸出一個S型得分矢量,表示該幀中每個受支持的音頻類別的概率。為了結合最大的系統精度并報告正確的聲音分類,開發者對S形得分應用了線性化處理并結合了閾值處理機制。這種以較小的50ms偏移量分析960ms窗口內容的過程,可以以比單獨分析連續的960ms大窗口切片更不容易出錯的方式來精確確定開始時間和結束時間。

由于該模型獨立地分析每個音頻幀,因此在音頻類別之間可能易于快速抖動。這可以通過將自適應大小的中值濾波技術應用于最新的模型音頻類輸出來解決,從而提供平滑的連續輸出。該過程實時連續運行,要求它滿足非常嚴格的功耗限制。
建立標簽
錄制完成后,Recorder會建議應用程序認為三個標簽來代表最重要的內容,從而使用戶能夠快速撰寫有意義的標題。

為了能夠在錄制結束時立即建立這些標簽,Recorder在轉錄錄制內容時會對其進行分析。首先,Recorder會計算單詞出現的次數及其在句子中的語法作用。標識為實體的術語用大寫字母表示。然后,我們使用設備上的詞性標注器(一種根據句子的語法作用標記句子中每個單詞的模型)來檢測用戶似乎更容易記住的普通名詞和專有名詞。記錄器使用支持unigram和bigram的先驗分數表術語提取。為了生成分數,我們使用會話數據訓練了增強型決策樹,并利用了文本特征(例如文檔詞的頻率和特異性)。最后,對無意義的詞和臟話進行過濾,并輸出頂部標簽。

Recorder將我們最近在設備上進行的機器學習研究中的一些工作納入了有用的功能,并在設備上運行模型以確保用戶隱私。機器學習調查和用戶需求之間的積極反饋循環揭示了使我們的軟件變得更加有用的令人興奮的機會。我們對未來的研究感到興奮,它將使每個人的想法和對話更加容易訪問和搜索。