• 正文
  • 相關推薦
申請入駐 產業(yè)圖譜

智能交互的盡頭是聊天?

2022/06/10
325
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

-Hi Siri,今天天氣怎么樣?

-今天天氣晴,18℃至27℃,空氣質量指數(shù)36,優(yōu)。

手機、手表、音箱等智能設備極大地便利了我們的生活,隨著語音交互設備的發(fā)展,智能交互依然面臨很多挑戰(zhàn)。

我們每天要說成百上千句話,長短不一。即便是一些轉瞬即逝的口頭語,也可以成為傳達自我意識的載體,向他人準確傳達信息。可語言似乎是人類群體特有的專利,在過往的時間中,想借助語言與其他物種、物體建立清晰明確溝通關系的可能性無限趨近于零,直到智能語音技術的出現(xiàn)。

作為最早落地的人工智能技術之一,AI語音技術已經得到了長足的發(fā)展。如今,智能語音技術已經被廣泛集成的就是家居產品之中。在即將到來的萬物互聯(lián)時代,以語音交互為主的智能設備無疑將極具競爭力與吸引力。仔細一想,一眾充滿科技感與未來感的智能設備,將天然具備人類最熟悉的“原始交互方式”,也頗有些化繁為簡、返璞歸真的意味。

語音交互設備的“助聽器”——ASR

在復雜環(huán)境中,我們總是可以忽略或弱化無關噪聲,集中注意力進行溝通,但語音交互設備在如此環(huán)境中只會無所適從,不免陷入“交互尚未開始,便已結束”的囧境。故此,設備擁有對各類“聲學場景”的聲源信號進行處理、優(yōu)化功能的必要性不言而喻。而借助降噪NS、語音增強SE等技術,可以對聲學場景中的非語音噪音信號進行抑制,從含有噪音的語音信號中提取純凈語音,提升語音識別效果,讓語音交互設備可以分辨、傾聽出目標聲音,進而為后續(xù)的語音交互掃清障礙。

語音識別技術(ASR)的加持下,語音交互設備能對聲音信號進行特征提取,提取而出的“特征”會作為參數(shù),為模型計算做準備。簡單理解就是將語音信息數(shù)字化,再通過相應的模型對數(shù)字化信息進行計算。后續(xù)通過聲學模型計算得出相應的音素(即把聲音轉成音素),其目的是根據音素來找到對應的漢字或者單詞,最終轉換成設備可以理解的文本。

語音交互設備的“聲卡”——TTS

 

基于語音合成技術(TTS),語音交互設備可對文本逐句分析,進行詞匯、語法的和語義的分析,以確定句子的低層結構和每個字的所對應的音素組成,包括文本的斷句、字詞切分、多音字處理以及數(shù)字處理等。

在內置芯片神經網絡技術的支持下,語音交互設備可把處理好的文本所對應的單字或短語從語音合成庫中提取,使語言學描述轉化成言語波形,即把文字智能地轉化為自然語音流。至此,一次完整的語音交互便成功完成。當然,在特有的智能語音控制器作用下,文本輸出的語音音律將會更加流暢,使得聽者在聽取信息時感覺自然、毫無機器語音輸出的冷漠與生澀感。

寫在最后

誠然,已普遍應用于智能家居設備中的語音交互技術仍面臨諸多挑戰(zhàn),在設備喚醒率、識別率、誤報率、環(huán)境降噪等方面仍有改進的空間。但毫無疑問,在未來語音作為人類最自然、最便捷的溝通方式,將會成為所有設備和產品至關重要的入口和人與機器之間的通信紐帶,而強邏輯、無視覺或者弱視覺的智能語音技術也會找到更多用武之地。

安富利

安富利

安富利(Avnet)創(chuàng)立于1921年,總部位于美國亞利桑那州鳳凰城,是財富500強企業(yè)。公司的業(yè)務網絡遍布世界各地,在全球擁有300余家辦事處,為遍布全球140個國家的超100萬客戶提供全方位的技術支持和供應鏈服務。

安富利(Avnet)創(chuàng)立于1921年,總部位于美國亞利桑那州鳳凰城,是財富500強企業(yè)。公司的業(yè)務網絡遍布世界各地,在全球擁有300余家辦事處,為遍布全球140個國家的超100萬客戶提供全方位的技術支持和供應鏈服務。 收起

查看更多

相關推薦

登錄即可解鎖
  • 海量技術文章
  • 設計資源下載
  • 產業(yè)鏈客戶資源
  • 寫文章/發(fā)需求
立即登錄

安富利助您將今日構思轉化為明日科技。我們幫助初創(chuàng)企業(yè)設計和制造,讓這些技術夢想家準備好成長為新的大型企業(yè);也為需要全球供貨的合同制造商和OEM制造商提供優(yōu)質產品與支持。