首頁|必讀|視頻|專訪|運(yùn)營(yíng)|制造|監(jiān)管|大數(shù)據(jù)|物聯(lián)網(wǎng)|量子|低空經(jīng)濟(jì)|智能汽車|特約記者
手機(jī)|互聯(lián)網(wǎng)|IT|5G|光通信|人工智能|云計(jì)算|芯片|報(bào)告|智慧城市|移動(dòng)互聯(lián)網(wǎng)|會(huì)展
首頁 >> 移動(dòng)互聯(lián)網(wǎng) >> 正文

聲網(wǎng)劉斌:RTE 演進(jìn)助力 AI Agent 應(yīng)用落地

2024年12月20日 14:57  CCTIME飛象網(wǎng)  

12月11日,聲網(wǎng) COO 劉斌出席由量子位舉辦的 MEET2025智能未來大會(huì),并帶來了主題演講,他分享了在實(shí)時(shí)多模態(tài)的趨勢(shì)下,RTE 的演進(jìn)如何助力 AI Agent 應(yīng)用落地,并認(rèn)為 RTE 將成為生成式 AI 時(shí)代 AI 基礎(chǔ)設(shè)施的關(guān)鍵部分。

在 GenAI 時(shí)代,RTE 與 AI Agent 有什么關(guān)系?劉斌首先分享了兩個(gè)事件,其一,今年10月初,聲網(wǎng)的兄弟公司 Agora 作為語音 API 合作者出現(xiàn)在了 OpenAI 發(fā)布的 Realtime API 公開測(cè)試版中。其二,10月底的 RTE2024實(shí)時(shí)互聯(lián)網(wǎng)大會(huì)中,聲網(wǎng)也宣布與 MiniMax 正在打磨國內(nèi)首個(gè) Realtime API。通過這兩個(gè)事件反映出當(dāng)下大模型的交互正在走向?qū)崟r(shí)多模態(tài)。

實(shí)時(shí)音視頻成為對(duì)話式 AI Agent 的關(guān)鍵一環(huán)

劉斌認(rèn)為,在多模態(tài)模型推出后,對(duì)話的方式與原來純文本交互不同,會(huì)從異步變?yōu)閷?shí)時(shí)雙工交互,實(shí)現(xiàn)了很大的飛躍。但在最終應(yīng)用落地的過程中,依然存在很多客戶痛點(diǎn),比如在實(shí)際應(yīng)用場(chǎng)景中,用戶的設(shè)備通常無法像發(fā)布會(huì)演示的那樣一直處于固定網(wǎng)絡(luò)與物理環(huán)境下,大部分Conversational AI Agent 的使用場(chǎng)景是隨機(jī)的,也就是可能會(huì)發(fā)在 Anytime Anywhere,比如在開車送完孩子上學(xué)之后,這就對(duì)大模型實(shí)時(shí)語音對(duì)話中的低延時(shí)傳輸、網(wǎng)絡(luò)優(yōu)化等提出了考驗(yàn)。一般來說,延遲在 1.7 秒內(nèi)會(huì)讓人感覺自然,2 秒多、 3 秒則會(huì)讓人覺得卡頓、反應(yīng)慢。

其次在模型交互中能否支持智能打斷以及主動(dòng)交互也是用戶非常關(guān)注的一個(gè)關(guān)鍵點(diǎn)。要做到這些,除了模型能力,在應(yīng)用落地方面,需要端到端的能力支持,不僅需要成熟的 VAD 技術(shù)來實(shí)現(xiàn)自由打斷,更需要一整套的音頻高級(jí)算法來支撐實(shí)現(xiàn)優(yōu)雅打斷,從而實(shí)現(xiàn)用戶體驗(yàn)最好的人模對(duì)話,當(dāng)然也需要應(yīng)對(duì)不同的物理環(huán)境、復(fù)雜的網(wǎng)絡(luò)環(huán)境、PC、手機(jī)以及各類 IoT 終端等。

聲網(wǎng)作為全球?qū)崟r(shí)互動(dòng)云行業(yè)的開創(chuàng)者,在音視頻領(lǐng)域積累了深厚的技術(shù)優(yōu)勢(shì)與場(chǎng)景實(shí)踐,通過將 RTE 與 GenAI 結(jié)合,推出了聲網(wǎng) Conversational AI Agents ,旨在幫助開發(fā)者與企業(yè)解決 Agent 應(yīng)用落地的一系列痛點(diǎn),快速構(gòu)建適配自己業(yè)務(wù)場(chǎng)景的 AI 實(shí)時(shí)語音對(duì)話服務(wù)。

語音對(duì)話延遲低至500ms:針對(duì)大模型語音交互中普遍存在響應(yīng)時(shí)間長(zhǎng)的痛點(diǎn),聲網(wǎng)自研的 SD-RTN™ 實(shí)時(shí)傳輸網(wǎng)絡(luò)可以實(shí)現(xiàn)全球范圍的低延時(shí)音視頻傳輸,目前可做到語音對(duì)話延遲低至 500ms,并進(jìn)一步通過更快速的 LLM 推理首字耗時(shí)、低延遲流式 TTS、同機(jī)部署等一系列技術(shù)手段,保證對(duì)話的實(shí)時(shí)性與流暢性,達(dá)到近似人與人之間日常對(duì)話停頓與間隔。

支持智能打斷:開發(fā)者在構(gòu)建 AI 應(yīng)用場(chǎng)景時(shí),會(huì)將能否支持隨時(shí)打斷也成為衡量大模型智能化的重要指標(biāo)。聲網(wǎng)自研的 AI VAD 技術(shù),適應(yīng)人類對(duì)話的停頓、語氣和對(duì)話節(jié)奏,支持 AI 對(duì)話過程中隨時(shí)打斷。同時(shí),聲網(wǎng)的解決方案還深度優(yōu)化 AI 角色,最大程度保留情緒情感等關(guān)鍵信息,超擬人真實(shí)音色豐富通話體驗(yàn)。

支持30000+移動(dòng)終端:在大模型的應(yīng)用落地中,不同的終端設(shè)備、操作系統(tǒng)等也會(huì)帶來不一樣的體驗(yàn),聲網(wǎng)的音視頻 SDK 經(jīng)過不斷的迭代升級(jí),可以支持 30 多個(gè)平臺(tái)框架、30000 多終端機(jī)型及各種操作系統(tǒng),包括各類 IoT 設(shè)備終端;

領(lǐng)先的音頻處理:在人與人音視頻通話的過程中,環(huán)境噪音是經(jīng)常遭遇的一大痛點(diǎn),影響溝通效率。在 GenAI 場(chǎng)景中,環(huán)境噪音同樣無法避免。聲網(wǎng)具備業(yè)界領(lǐng)先的音頻3A能力,提供 AI 回聲消除、AI 智能降噪、背景人聲過濾、音樂檢測(cè)/過濾、主講人聲紋鎖定等自研音頻技術(shù),即使在商場(chǎng)、地鐵站等嘈雜環(huán)境中,也能保證 AI 對(duì)話過程不受影響。

靈活可擴(kuò)展的 AI Agent 架構(gòu):開發(fā)者在構(gòu)建 AI 應(yīng)用時(shí),往往會(huì)根據(jù)自身的喜好或者業(yè)務(wù)場(chǎng)景選擇不同的組件搭配 AI Agent。對(duì)此,聲網(wǎng)的解決方案采用了靈活可擴(kuò)展的 AI Agent架構(gòu),兼容市場(chǎng)主流的 ASR、LLM 和 TTS 技術(shù),并具備工作流編排能力,幫助開發(fā)者與企業(yè)根據(jù)特定需求定制和擴(kuò)展 AI 驅(qū)動(dòng)的實(shí)時(shí)互動(dòng)體驗(yàn)。

RTE 成為 GenAI 時(shí)代 AI Infra 的關(guān)鍵部分

在與大模型廠商合作的過程中,聲網(wǎng)也發(fā)現(xiàn)想要提升大模型落地的實(shí)用性,現(xiàn)有 RTE 技術(shù)棧和基礎(chǔ)設(shè)施仍有大量改進(jìn)空間。劉斌表示,只有通過不斷的演進(jìn),大模型才有機(jī)會(huì)在各種場(chǎng)景、形態(tài)下大規(guī)模參與到和人的語音對(duì)話中,大模型也將基于云、設(shè)備端、邊緣的多維度參與與協(xié)作;谶@些能力的改進(jìn)和普及,未來 RTE 將成為 GenAI 時(shí)代 AI 基礎(chǔ)設(shè)施(AI Infra)的關(guān)鍵部分。

同時(shí),Gen AI 也在驅(qū)動(dòng) RTE 實(shí)時(shí)互動(dòng)的技術(shù)變革與體驗(yàn)革新,在人與人的實(shí)時(shí)互動(dòng)中,聲網(wǎng)一直致力于實(shí)現(xiàn)從 QoS 服務(wù)質(zhì)量到 QoE 體驗(yàn)質(zhì)量的技術(shù)變革,在體驗(yàn)層面也從“聽得到“變?yōu)椤奥牭们濉薄6谌伺c AI 的實(shí)時(shí)互動(dòng)中,為了進(jìn)一步增強(qiáng)體驗(yàn),RTE 的技術(shù)變革也演變?yōu)?AI QoE 甚至多模態(tài) AI QoE,這背后就包含了聲網(wǎng)自研的 AI VAD 能力、降噪能力及網(wǎng)絡(luò)優(yōu)化等一系列技術(shù)能力,以使得人與 AI 的對(duì)話更符合實(shí)際情況,大模型也從理解內(nèi)容,變成理解對(duì)話人的心理、情緒,最終理解對(duì)話時(shí)的人類意圖,最后實(shí)現(xiàn)從“聽得懂“到“聽「得心」”的體驗(yàn)革新。

在 GenAI 時(shí)代,聲網(wǎng)的產(chǎn)品體系也在不斷加強(qiáng),劉斌也進(jìn)一步介紹了聲網(wǎng)的 AI RTE 產(chǎn)品矩陣,包括 Linux Sever SDK、AI VAD 能力、AI Agent Service 等都在做補(bǔ)充與優(yōu)化。

最后劉斌還介紹了聲網(wǎng) RTE + AI 能力全景圖,包括 RTE+AI 生態(tài)能力、聲網(wǎng) AI Agent、Conversational AI Agents 解決方案等,全面的展現(xiàn)了聲網(wǎng)對(duì) RTE+AI 的整體思考,致力于成為 GenAI 時(shí)代 AI 基礎(chǔ)設(shè)施的關(guān)鍵部分。

編 輯:T01
飛象網(wǎng)版權(quán)及免責(zé)聲明:
1.本網(wǎng)刊載內(nèi)容,凡注明來源為“飛象網(wǎng)”和“飛象原創(chuàng)”皆屬飛象網(wǎng)版權(quán)所有,未經(jīng)允許禁止轉(zhuǎn)載、摘編及鏡像,違者必究。對(duì)于經(jīng)過授權(quán)可以轉(zhuǎn)載,請(qǐng)必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性,并完整標(biāo)注作者信息和飛象網(wǎng)來源。
2.凡注明“來源:XXXX”的作品,均轉(zhuǎn)載自其它媒體,在于傳播更多行業(yè)信息,并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)。
3.如因作品內(nèi)容、版權(quán)和其它問題,請(qǐng)?jiān)谙嚓P(guān)作品刊發(fā)之日起30日內(nèi)與本網(wǎng)聯(lián)系,我們將第一時(shí)間予以處理。
本站聯(lián)系電話為86-010-87765777,郵件后綴為cctime.com,冒充本站員工以任何其他聯(lián)系方式,進(jìn)行的“內(nèi)容核實(shí)”、“商務(wù)聯(lián)系”等行為,均不能代表本站。本站擁有對(duì)此聲明的最終解釋權(quán)。
相關(guān)新聞              
 
人物
中國移動(dòng)副總經(jīng)理張冬:5G揚(yáng)帆開新篇,數(shù)智遠(yuǎn)航啟新程
精彩專題
2024通信業(yè)年終盤點(diǎn)
2024數(shù)字科技生態(tài)大會(huì)
2024年度中國光電纜優(yōu)質(zhì)供應(yīng)商評(píng)選活動(dòng)
2024全球6G發(fā)展大會(huì)
CCTIME推薦
關(guān)于我們 | 廣告報(bào)價(jià) | 聯(lián)系我們 | 隱私聲明 | 本站地圖
CCTIME飛象網(wǎng) CopyRight © 2007-2024 By CCTIME.COM
京ICP備08004280號(hào)-1  電信與信息服務(wù)業(yè)務(wù)經(jīng)營(yíng)許可證080234號(hào) 京公網(wǎng)安備110105000771號(hào)
公司名稱: 北京飛象互動(dòng)文化傳媒有限公司
未經(jīng)書面許可,禁止轉(zhuǎn)載、摘編、復(fù)制、鏡像