對話式 AI 的核心職責是聽懂人類講話的內容和情感,并以語音對話的方式作出回應, 然后重復這個循環。
當前,幾乎所有的J聯對話式 AI 產品都普遍采用相似的架構:對話式 AI Agent 服務部署于云端,協調端到端語音對話(Speech-to-Speech)的交互閉環,整體采用 RTC 技術實現超低延遲雙全工人機對話。支持行業主流 AI 模型接入,并通過 LLM 函數調用或結構化輸 出連接后端系統。
整個循環流程如下:
◇ 用戶設備麥克風捕獲語音信號,編碼后經實時傳輸網絡傳輸至云端代理程序
◇ 將用戶語音實時轉換(ASR)為高準確率的文字,作為 LLM 的輸入
◇ 文本被整合為上下文提示(Prompt),由大語言模型(LLM) 進行推理生成響應。
◇ LLM 生成的文本發送至文本轉語音(TTS) 模型合成音頻
◇ 合成音頻通過實時傳輸網絡傳回用戶設備完成交互
對話式 AI 的整個服務全部在云端運行,包括 ASR、LLM 和 TTS。從長遠來看,人們期望 有更多的 AI 服務可以在端側運行,但云端仍是未來很長一段時間的Z佳方案。
◇ 對話式 AI 程序需調用高性能模型(ASR、LLM、TTS)以實現低延遲的復雜流程。當 前終端設備算力不足,無法在可接受延遲內運行Z優模型。
◇ 當前,仍有大量商用場景用戶是需要通過電話進行呼叫的,在此類場景中,服務無 法部署到用戶的終端設備上,也迫使服務集中于云端。
◇ 對話式 AI 需要跨終端使用,也導致云端部署成為Z高效的方案。
如果你正在開發一個對話式 AI 產品或應用,你可能已經發現對話式 AI 并沒有想象中的 簡單,我們會面臨并思考以下問題:
◇ 對話式 AI 該選擇哪些大語言模型和 TTS?
◇ 如何降低人機對話的端到端延遲?
◇ 如何讓 AI 對話與人類一樣自然?
◇ 如何在長會話中管理對話上下文?
◇ 如何將對話式 AI 集成到現有應用中?
◇ 如何評估對話式 AI 的性能表現?
![]() |
| 機器人底盤 Disinfection Robot 消毒機器人 講解機器人 迎賓機器人 移動機器人底盤 商用機器人 智能垃圾站 智能服務機器人 大屏機器人 霧化消毒機器人 展廳機器人 服務機器人底盤 具身智能教育機器人 智能配送機器人 導覽機器人 |