• 正文
    • 01.真人對話體驗升級版文小言語音交互更絲滑
    • 02.全新互相關注意力打造極低訓推成本優(yōu)勢
    • 03.直擊語音交互難點百度端到端語音語言大模型放大招
    • 04.結語:百度語音語言大模型出鞘開啟低本高效新篇
  • 相關推薦
申請入駐 產(chǎn)業(yè)圖譜

百度端到端語音語言大模型破局出圈,對話超逼真、成本最高降90%,1秒極速響應

04/02 16:18
218
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

作者 | ?程茜

編輯 | ?漠影

懂方言、能帶情感對話的文小言來了,可免費體驗。

語音交互又被玩出新花樣?!

智東西4月2日報道,本周一,百度發(fā)布業(yè)界首個基于全新互相關注意力(Cross-Attention)的端到端語音語言大模型,已首發(fā)上線文小言,可免費體驗。

用幾個關鍵詞概括新升級的文小言就是:語音交互超逼真、超低時延、超低成本。

超逼真指的是,搭載語音語言大模型的文小言,既能聽得懂重慶、廣西、河南、廣東、山東等特色方言,還能實現(xiàn)情感飽滿對話;超低時延是其對話中可將用戶等待時長從行業(yè)常見的3-5秒降低至1秒左右,幾乎與真人對話無異;超低成本指在電話語音頻道的語音問答場景中,調(diào)用成本較行業(yè)均值下降約50%-90%。

百度語音首席架構師賈磊透露,該模型可以部署到L20卡上,在滿足語音交互延遲要求的情況下,雙L20卡的并發(fā)可以做到幾百以上。目前,語音語言大模型的訓練流程便捷,基本上基于文心大模型幾百片卡優(yōu)化一周就可以實現(xiàn),且本身的優(yōu)化工作也并不復雜。

相比于大模型在語音交互場景的應用,這一語音語言大模型的獨特之處是什么?又是如何做到最高降低90%的調(diào)用成本?其背后的創(chuàng)新點該如何解讀?智東西與百度語音首席架構師賈磊進行了深入交流,試圖找到這些問題的答案。

01.真人對話體驗升級版文小言語音交互更絲滑

大模型在語音交互場景的發(fā)展,正朝著更自然、低延遲、高擬真的語音交互體驗演進。而這一更為擬人化的交互體驗,我們在新升級的文小言上窺到了雛形,搭載了端到端語音語言大模型的文小言,已經(jīng)化身情感陪伴、全能助手。

首先,文小言已經(jīng)集成了包含天氣查詢、日歷查詢、單位換算、股票股價等信息查詢的38個垂類助手,可以看出這些特殊場景下,語音交互的效率要遠高于文本交互。其次,文小言對于時效性和非時效性問題均能應對,百科查詢、時政知識類時效性問答內(nèi)容,文小言可以進行實時檢索,并做到精準的指令跟隨,降低幻覺;常識問答等非時效性問題也不在話下。

最后,也是語音交互與文本最大的區(qū)別所在,文小言可以與用戶進行情感自然充沛的交流,并能做到快速響應反饋,實現(xiàn)逼真擬人的交互效果。話不多說,來看看文小言的實際效果。語音識別的一大難點莫過于方言識別。方言的發(fā)音特點豐富多樣,同一方言在不同地區(qū)可能存在發(fā)音差異,甚至同一個字在不同語境下發(fā)音也有所不同。這使得語音識別系統(tǒng)難以準確捕捉和解析所有的發(fā)音變體,增加了識別的難度。

當下的文小言,已經(jīng)可以應對重慶、廣西、河南、廣東、山東各地特色方言,其不僅聽得懂,還能使用對應的方言進行回復。語音交流還有一大特點就是需要多輪交互,例如下面的例子中,文小言既從成年、幼年不同維度給出了分辨虎皮鸚鵡的方法,還在用戶打斷提出新問題時,及時給予正確的反饋。即使回復中包含分辨虎皮鸚鵡性別、需要從某一固定特征辨別等諸多要素,文小言也給出了簡明扼要的答案,并且在最后還提醒用戶可以邊觀察邊記錄。

此外,人機交互往往伴隨著中途打斷的情況,如用戶獲得了自己想要的核心信息或者對其目前輸出的內(nèi)容不滿意等等,當用戶打斷語音播放進行輸入時,語音識別系統(tǒng)可能會因為環(huán)境噪音、用戶發(fā)音不清晰或與之前的語音內(nèi)容混淆等原因,出現(xiàn)誤識別的情況。在面對小朋友多次打斷的情況下,文小言可以準確識別出其“換一個故事”的需求,并且當小朋友說出“媽媽已經(jīng)講過”時,并不是機械選擇更換故事,而是適時給出有情感的回復,營造出自然對話的氛圍。

文小言這一情感飽滿的交互形式,也使得其在知識問答等助手場景下,向著陪伴場景下的應用外延。當用戶提到“我的心情有點不好”,文小言的語音帶有擔心等,并引導用戶說出自己心情不好的原因,進一步進行開導。

02.全新互相關注意力打造極低訓推成本優(yōu)勢

不同于語言模型,語音語言大模型的核心差異點就是可以產(chǎn)生情感。

賈磊談道,文本大模型只產(chǎn)生文字,而語音語言大模型可以有情感,其關鍵就是語音語言大模型架構圖中的兩個特殊環(huán)節(jié),TN韻律和人設、風格情感控制,這是為語音合成而準備,可以讓大模型在生成答案的同時擁有適配內(nèi)容的情感,這也是百度此次端到端語音語音大模型的關鍵創(chuàng)新點所在。

具體來看,其關鍵創(chuàng)新點有4個。

首先,這是百度發(fā)布的業(yè)界首個基于Cross-Attention跨模態(tài)的語音語言大模型;其二是該模型將Encoder和語音識別結合,使得KV計算節(jié)省到1/10;第三是Encoder和語音合成結合,輸出內(nèi)容可進行情感控制;最后是高效的全查詢注意力EALLQA,使得KV cache降低到幾十分之一。

在此基礎上,該模型實現(xiàn)了識別文本一體化、文本合成一體化,這些相互耦合的技術在系統(tǒng)性端到端打通之上,使得模型在快速問答、快速理解的基礎上,能實現(xiàn)自然、逼真、情感豐富的交互體驗。

賈磊解釋說,聲學模型也是語音模型,只是通常大語言模型都是文字連接。因此在整合語音識別和大語言模型的過程中,研究人員將大語言模型中的Encoder和語音識別的過程融合共享,達到降低語音交互硬延遲的目的,其創(chuàng)新性引入跨模態(tài)建模,從Self-Attention切換到Cross-Attention,完成了語音識別和大語言模型的融合。

百度提出用Cross-Attention來解決語音、語言跨模態(tài)的難題。這一過程中,由于現(xiàn)存Attention技術在Cross-Attention的語音語言建模中存在速度方面的局限性,百度研發(fā)了適合Cross-Attention的EALLQA技術,采用隱式RNN兩級位置編碼,訓練時在128空間上的MHA,推理在模型各層共享的512空間上的MQA,以達到充分利用有限訓練資源,降低推理成本的目的。

模型基礎訓練中,百度基于Self-Attention的成熟的文心語言的預訓練模型,采用自蒸餾方式進行post-train來訓練Cross-Attention端到端語音語言大模型。

事實上,在語音模型中,KV cache和KV計算的壓力遠大于文本模型。賈磊解釋說,語音識別相對于文本大模型的本質(zhì)差異就是,句首第一個token決定了語音識別的延遲。對于文本大模型,其可以在用戶輸入一段文字后等待2~3秒鐘給出答案,而語音語言大模型中,用戶對于回復延遲的可容忍度更低,他們希望在0.5~1秒內(nèi)聽到答案。

在此基礎上,端到端語音語言大模型實現(xiàn)了低成本訓練、低成本高速推理。除此以外,語音語言大模型還需要快速響應、有情感的回應,這就是其另一項關鍵技術發(fā)力的場景——流式逐字的LLM驅(qū)動的多情感語音合成。賈磊談道,多輪有情感地持續(xù)溝通才能讓人有欲望繼續(xù)交流。

基于流式逐字的方式,其語音合成是看到一個字蹦一個字,大模型可以幫助語音合成輸出其需要的文本歸一化輸出、韻律停頓輸出、情感輸出,使得語音合成的過程像人說話時一樣流動起來,其根據(jù)文本輸出自適配的情感覆蓋可達17種。

此外,語音識別中還有一大痛點是,其無法判斷用戶說話的起點和終點,而大模型加持可以使其基于語義分析用戶說的話是否已經(jīng)結束,語義不完整需繼續(xù)等待。

賈磊進一步解釋道,語音場景被激活需要極地交互成本、極快交付速度、聰明富有情感的人性化的問答。百度將語音識別和大模型一體化,解決了預存預取、猶豫、內(nèi)容理解和快速問答的問題,將文本合成一體化與大模型融合,輸出語音和中所需的韻律情感,解決了合成中的上下文理解和情感控制問題。這就使得語音場景的應用潛力大幅提升。

03.直擊語音交互難點百度端到端語音語言大模型放大招

大模型不斷優(yōu)化在語音的穩(wěn)健性、自然度和說話人相似度方面顯著提升,但此前的技術路徑仍有許多痛點,這也是百度聚焦于端到端語音語言大模型的原因。

相比于人和人之間的交流,大語言模型響應速度慢,用戶需要等待一段時間才能得到回復。此外,語音交流往往伴隨著多輪對話交互,而模型完成口語化多輪交互的難度極大,且相比于文本,用戶使用語音交互的場景更多,其交互量激增會導致大模型應用成本上升,大規(guī)模應用普及的難度也會隨之增高。

而在傳統(tǒng)語音交互路線上,又會受限于上下文記憶、噪音場合、猶豫發(fā)問和打斷之間的準確響應。

因此這成為語音交互領域的一個核心矛盾點,語音交互的便捷性決定了其有大規(guī)模應用的潛力,而這些痛點又正在阻礙其普及。賈磊認為,語音和文本兩個跨模態(tài)之間相互關聯(lián)的化學反應,就是未來大模型在特定領域找到突破口的關鍵。

語音語言模型的出現(xiàn)是質(zhì)變,其創(chuàng)新合成技術使得模型不需要看到一句話的整個文本,而是看到一個字的文本就可以合成一個字,在此基礎上,百度挖掘到了獨特的應用場景。他舉了一個例子,如詢問天氣時,用戶獲得了天氣的溫度區(qū)間就可以快速打斷問下一個問題,其好處就是大幅降低了模型的使用成本,而文本模型想要實現(xiàn)如此高效應用就需要強大的硬件,但語音語言模型可以使用低成本的硬件就能實現(xiàn)高效并發(fā)。

與此同時,從整個語音交互領域來看,大模型語音識別部分的準確度已經(jīng)大幅提升,賈磊認為更多在于速度、成本、回答準確度的一種比拼,當下成本降低,就是大規(guī)模使用跨模態(tài)語音交互的關鍵。

賈磊說:“成本降低是技術進步的必然方式?!?百度語音語言大模型的極低成本也就意味著大規(guī)模工業(yè)化的可能,AI落地應用是2025大模型產(chǎn)業(yè)發(fā)展的核心,而該模型就是解決語音問題的關鍵。

百度在語音識別領域的積累由來已久。

2018年,百度語音發(fā)布的Deep Peak 2模型突破了沿用十幾年的傳統(tǒng)模型,大幅提升各場景下識別準確率。2019年初,百度語音技術團隊公布在線語音領域全球首創(chuàng)的流式多級的截斷注意力模型SMLTA, 相對準確率提升15%。2021年,百度發(fā)布基于歷史信息抽象的流式截斷conformer建模技術——SMLTA2,解決了Transformer模型應用于在線語音識別任務時面臨的問題。

這些技術創(chuàng)新已經(jīng)應用于汽車、消費電子、手機等諸多領域。此次,為了推動語音語言模型的規(guī)?;瘧?,目前,百度已經(jīng)將其上線文小言并免費開放,并且計劃4月上線到開放平臺,后續(xù)將接入呼叫中心、音箱等業(yè)務線上

賈磊提到:“科學可能有國界,但沒有公司邊界?!焙罄m(xù),百度將端到端語音語言大模型開放出來,就是想推動大語言模型在語音領域的應用,有利于整個行業(yè)和生態(tài)的發(fā)展。

04.結語:百度語音語言大模型出鞘開啟低本高效新篇

便捷高效、自然友好、廣泛應用于多場景的語音交互在數(shù)字化時代地位至關重要,但從目前的實際效果來看,語音交互在識別的準確度等方面已經(jīng)有了很大提升,現(xiàn)在業(yè)界的競爭焦點集中于其識別的速度、成本以及回答的準確度。

這樣的背景下,百度端到端語音語言大模型的發(fā)布進一步突破了成本,且提出了全新技術路徑,將語音交互的行業(yè)競爭推上了新的高度。與此同時,百度將其上線到開放平臺,將加速大模型在語音交互場景的應用與普及。

相關推薦