成年双人啦啦操全套软件,免费A∨一区二区三区AV

12月11日，聲網(wǎng) COO 劉斌出席由量子位舉辦的 MEET2025智能未來大會(huì)，并帶來了主題演講，他分享了在實(shí)時(shí)多模態(tài)的趨勢(shì)下，RTE 的演進(jìn)如何助力 AI Agent 應(yīng)用落地，并認(rèn)為 RTE 將成為生成式 AI 時(shí)代 AI 基礎(chǔ)設(shè)施的關(guān)鍵部分。

在 GenAI 時(shí)代，RTE 與 AI Agent 有什么關(guān)系?劉斌首先分享了兩個(gè)事件，其一，今年10月初，聲網(wǎng)的兄弟公司 Agora 作為語音 API 合作者出現(xiàn)在了 OpenAI 發(fā)布的 Realtime API 公開測(cè)試版中。其二，10月底的 RTE2024實(shí)時(shí)互聯(lián)網(wǎng)大會(huì)中，聲網(wǎng)也宣布與 MiniMax 正在打磨國內(nèi)首個(gè) Realtime API。通過這兩個(gè)事件反映出當(dāng)下大模型的交互正在走向?qū)崟r(shí)多模態(tài)。

實(shí)時(shí)音視頻成為對(duì)話式 AI Agent 的關(guān)鍵一環(huán)

劉斌認(rèn)為，在多模態(tài)模型推出后，對(duì)話的方式與原來純文本交互不同，會(huì)從異步變?yōu)閷?shí)時(shí)雙工交互，實(shí)現(xiàn)了很大的飛躍。但在最終應(yīng)用落地的過程中，依然存在很多客戶痛點(diǎn)，比如在實(shí)際應(yīng)用場(chǎng)景中，用戶的設(shè)備通常無法像發(fā)布會(huì)演示的那樣一直處于固定網(wǎng)絡(luò)與物理環(huán)境下，大部分Conversational AI Agent 的使用場(chǎng)景是隨機(jī)的，也就是可能會(huì)發(fā)在 Anytime Anywhere，比如在開車送完孩子上學(xué)之后，這就對(duì)大模型實(shí)時(shí)語音對(duì)話中的低延時(shí)傳輸、網(wǎng)絡(luò)優(yōu)化等提出了考驗(yàn)。一般來說，延遲在 1.7 秒內(nèi)會(huì)讓人感覺自然，2 秒多、 3 秒則會(huì)讓人覺得卡頓、反應(yīng)慢。

其次在模型交互中能否支持智能打斷以及主動(dòng)交互也是用戶非常關(guān)注的一個(gè)關(guān)鍵點(diǎn)。要做到這些，除了模型能力，在應(yīng)用落地方面，需要端到端的能力支持，不僅需要成熟的 VAD 技術(shù)來實(shí)現(xiàn)自由打斷，更需要一整套的音頻高級(jí)算法來支撐實(shí)現(xiàn)優(yōu)雅打斷，從而實(shí)現(xiàn)用戶體驗(yàn)最好的人模對(duì)話，當(dāng)然也需要應(yīng)對(duì)不同的物理環(huán)境、復(fù)雜的網(wǎng)絡(luò)環(huán)境、PC、手機(jī)以及各類 IoT 終端等。

聲網(wǎng)作為全球?qū)崟r(shí)互動(dòng)云行業(yè)的開創(chuàng)者，在音視頻領(lǐng)域積累了深厚的技術(shù)優(yōu)勢(shì)與場(chǎng)景實(shí)踐，通過將 RTE 與 GenAI 結(jié)合，推出了聲網(wǎng) Conversational AI Agents ，旨在幫助開發(fā)者與企業(yè)解決 Agent 應(yīng)用落地的一系列痛點(diǎn)，快速構(gòu)建適配自己業(yè)務(wù)場(chǎng)景的 AI 實(shí)時(shí)語音對(duì)話服務(wù)。

語音對(duì)話延遲低至500ms：針對(duì)大模型語音交互中普遍存在響應(yīng)時(shí)間長(zhǎng)的痛點(diǎn)，聲網(wǎng)自研的 SD-RTN™ 實(shí)時(shí)傳輸網(wǎng)絡(luò)可以實(shí)現(xiàn)全球范圍的低延時(shí)音視頻傳輸，目前可做到語音對(duì)話延遲低至 500ms，并進(jìn)一步通過更快速的 LLM 推理首字耗時(shí)、低延遲流式 TTS、同機(jī)部署等一系列技術(shù)手段，保證對(duì)話的實(shí)時(shí)性與流暢性，達(dá)到近似人與人之間日常對(duì)話停頓與間隔。

支持智能打斷：開發(fā)者在構(gòu)建 AI 應(yīng)用場(chǎng)景時(shí)，會(huì)將能否支持隨時(shí)打斷也成為衡量大模型智能化的重要指標(biāo)。聲網(wǎng)自研的 AI VAD 技術(shù)，適應(yīng)人類對(duì)話的停頓、語氣和對(duì)話節(jié)奏，支持 AI 對(duì)話過程中隨時(shí)打斷。同時(shí)，聲網(wǎng)的解決方案還深度優(yōu)化 AI 角色，最大程度保留情緒情感等關(guān)鍵信息，超擬人真實(shí)音色豐富通話體驗(yàn)。

支持30000+移動(dòng)終端：在大模型的應(yīng)用落地中，不同的終端設(shè)備、操作系統(tǒng)等也會(huì)帶來不一樣的體驗(yàn)，聲網(wǎng)的音視頻 SDK 經(jīng)過不斷的迭代升級(jí)，可以支持 30 多個(gè)平臺(tái)框架、30000 多終端機(jī)型及各種操作系統(tǒng)，包括各類 IoT 設(shè)備終端;

領(lǐng)先的音頻處理：在人與人音視頻通話的過程中，環(huán)境噪音是經(jīng)常遭遇的一大痛點(diǎn)，影響溝通效率。在 GenAI 場(chǎng)景中，環(huán)境噪音同樣無法避免。聲網(wǎng)具備業(yè)界領(lǐng)先的音頻3A能力，提供 AI 回聲消除、AI 智能降噪、背景人聲過濾、音樂檢測(cè)/過濾、主講人聲紋鎖定等自研音頻技術(shù)，即使在商場(chǎng)、地鐵站等嘈雜環(huán)境中，也能保證 AI 對(duì)話過程不受影響。

靈活可擴(kuò)展的 AI Agent 架構(gòu)：開發(fā)者在構(gòu)建 AI 應(yīng)用時(shí)，往往會(huì)根據(jù)自身的喜好或者業(yè)務(wù)場(chǎng)景選擇不同的組件搭配 AI Agent。對(duì)此，聲網(wǎng)的解決方案采用了靈活可擴(kuò)展的 AI Agent架構(gòu)，兼容市場(chǎng)主流的 ASR、LLM 和 TTS 技術(shù)，并具備工作流編排能力，幫助開發(fā)者與企業(yè)根據(jù)特定需求定制和擴(kuò)展 AI 驅(qū)動(dòng)的實(shí)時(shí)互動(dòng)體驗(yàn)。

RTE 成為 GenAI 時(shí)代 AI Infra 的關(guān)鍵部分

在與大模型廠商合作的過程中，聲網(wǎng)也發(fā)現(xiàn)想要提升大模型落地的實(shí)用性，現(xiàn)有 RTE 技術(shù)棧和基礎(chǔ)設(shè)施仍有大量改進(jìn)空間。劉斌表示，只有通過不斷的演進(jìn)，大模型才有機(jī)會(huì)在各種場(chǎng)景、形態(tài)下大規(guī)模參與到和人的語音對(duì)話中，大模型也將基于云、設(shè)備端、邊緣的多維度參與與協(xié)作�；谶@些能力的改進(jìn)和普及，未來 RTE 將成為 GenAI 時(shí)代 AI 基礎(chǔ)設(shè)施(AI Infra)的關(guān)鍵部分。

同時(shí)，Gen AI 也在驅(qū)動(dòng) RTE 實(shí)時(shí)互動(dòng)的技術(shù)變革與體驗(yàn)革新，在人與人的實(shí)時(shí)互動(dòng)中，聲網(wǎng)一直致力于實(shí)現(xiàn)從 QoS 服務(wù)質(zhì)量到 QoE 體驗(yàn)質(zhì)量的技術(shù)變革，在體驗(yàn)層面也從“聽得到“變?yōu)椤奥牭们濉薄６谌伺c AI 的實(shí)時(shí)互動(dòng)中，為了進(jìn)一步增強(qiáng)體驗(yàn)，RTE 的技術(shù)變革也演變?yōu)?AI QoE 甚至多模態(tài) AI QoE，這背后就包含了聲網(wǎng)自研的 AI VAD 能力、降噪能力及網(wǎng)絡(luò)優(yōu)化等一系列技術(shù)能力，以使得人與 AI 的對(duì)話更符合實(shí)際情況，大模型也從理解內(nèi)容，變成理解對(duì)話人的心理、情緒，最終理解對(duì)話時(shí)的人類意圖，最后實(shí)現(xiàn)從“聽得懂“到“聽「得心」”的體驗(yàn)革新。

在 GenAI 時(shí)代，聲網(wǎng)的產(chǎn)品體系也在不斷加強(qiáng)，劉斌也進(jìn)一步介紹了聲網(wǎng)的 AI RTE 產(chǎn)品矩陣，包括 Linux Sever SDK、AI VAD 能力、AI Agent Service 等都在做補(bǔ)充與優(yōu)化。

最后劉斌還介紹了聲網(wǎng) RTE + AI 能力全景圖，包括 RTE+AI 生態(tài)能力、聲網(wǎng) AI Agent、Conversational AI Agents 解決方案等，全面的展現(xiàn)了聲網(wǎng)對(duì) RTE+AI 的整體思考，致力于成為 GenAI 時(shí)代 AI 基礎(chǔ)設(shè)施的關(guān)鍵部分。

聲網(wǎng)劉斌：RTE 演進(jìn)助力 AI Agent 應(yīng)用落地