11月1日上午消息,在Convo AI & RTE 2025 第十一屆實時互聯網大會上,聲網創始人兼CEO趙斌宣布,聲網年度服務分鐘數首次突破1萬億分鐘,標志著RTE技術已成為不可或缺的關鍵基礎設施。與此同時,視頻高清化比例在過去兩年增長超過10倍,海外市場720p以上分辨率流量占比已超80%,WebRTC全球搜索熱度呈現爆發式增長,這標志著實時互動行業正迎來新一輪創新熱潮。

生成式AI發展過程中,基礎設施日趨完善的同時,當前產業依然面臨著從“連通”到“對話”的本質挑戰。當交互對象從“人與人”擴展到“人與AI”,實時互動在環境感知與交互自然度上仍存在明顯缺陷。行業數據顯示,僅21%的用戶對現有AI對話體驗滿意,部分服務的用戶流失率高到“不可接受”。究其根源,人類對話中僅有7%的信息來自語言內容,超過90%的信息感知依賴于語調、表情和肢體語言等非語言要素。
而要實現真正的“類人對話”,企業必須系統性攻克低延遲響應、自然打斷、上下文管理、情感理解與表達等復雜挑戰。趙斌指出,對話式AI正驅動RTE從能夠“正常對話”到“聲情并茂”的關鍵躍遷,為RTE行業帶來一個不可估量的全新市場。
Deepgram和Opus Research調研顯示,67%的企業已將語音AI智能體置于戰略核心位置,84%的企業計劃在未來一年增加相關投入。在開發者生態中,全球范圍內也正掀起一場實時語音技術的新浪潮,對話式AI與語音智能體創業公司呈現爆發式增長態勢。Y Combinator近期的孵化團隊中,語音智能體公司占比顯著提升;聲網對話式 AI 相關用量在2025年第三季度實現151%的環比增長,這一切都展現出強勁的市場需求。