使用 Gemini 3.1 Flash Live 构建实时对话代理

今天,我们通过Google AI Studio中的Gemini Live API发布Gemini 3.1 Flash Live。Gemini 3.1 Flash Live 帮助开发者构建实时语音和视觉代理,这些代理不仅能处理周围世界,还能以对话速度响应。

这是延迟、可靠性和更自然对话的重大转变,为下一代以语音为先的人工智能提供了所需的质量。

体验更高的延迟、可靠性和质量

对于实时交互,每一毫秒的延迟都会剥夺用户期望的自然对话流畅。新模型更好地理解语气、重点和意图,使客服人员能够实现关键改进:

  • 在嘈杂的现实环境中,更高的任务完成率:我们显著提升了模型在实时对话中触发外部工具和传递信息的能力。通过更好地区分相关语音与环境声音(如交通声或电视声)的区别,模型更有效地过滤掉背景噪音,保持对指令的可靠性和响应性。
  • 更好的跟随教学:对复杂系统指令的遵守率显著提升。即使对话出现意外转折,您的代理人也会始终遵守运营范围。
  • 更自然、低延迟的对话:最新型号在延迟方面有所提升,比2.5 Flash原生音频更能有效识别音高和节奏等声学细节,使实时对话更加流畅自然。
  • 多语言能力:该模型支持90多种语言,实现实时多模态对话。

构建不断扩展的集成生态系统

Live API 专为生产环境设计,但现实系统需要处理从直播视频流到点播电话的多样化输入。

对于需要WebRTC扩展或全球边缘路由的系统,我们建议探索合作伙伴的集成,以简化实时语音和视频代理的开发流程。

  • LiveKit — 使用Gemini Live API配合LiveKit代理。
  • Pipecat by Daily — 利用 Gemini Live 和 Pipecat 创建实时 AI 聊天机器人。
  • Fishjam by Software Mansion ——用 Fishjam 创建实时视频和音频流媒体应用。
  • Vision Agents 按流——用 Vision Agents 构建实时语音和视频 AI 应用。
  • Voximplant — 通过 Voximplant 连接 Live API 的入站和出站调用。
  • Firebase AI SDK ——使用 Firebase AI 逻辑开始使用 Gemini Live API。

开始使用Live API

Gemini 3.1 Flash Live 从今天起通过 Gemini API 和 Google AI Studio 提供。开发者可以使用 Gemini Live API 将模型集成到他们的应用程序中。

https://youtube.com/watch?v=XV5bhkDpL7U

浏览我们的开发者文档,了解如何构建实时代理:

  • Gemini Live API 文档:探索多语言支持、工具使用与函数调用、会话管理(用于管理长时间对话)以及临时令牌等功能。
  • Gemini Live API 示例:从中汲取灵感,了解你今天可以用该模型构建的语音体验。
  • Gemini Live API 技能:为编程代理提供学习和构建 Live API 的技能。

开始使用谷歌生成式人工智能SDK

import asyncio
from google import genai

client = genai.Client(api_key="YOUR_API_KEY")

model = "gemini-3.1-flash-live-preview"
config = {"response_modalities": ["AUDIO"]}

async def main():
    async with client.aio.live.connect(model=model, config=config) as session:
        print("Session started")
        # Send content...

if __name__ == "__main__":
    asyncio.run(main())

原创文章,作者:ROCKYCOO,如若转载,请注明出处:https://aiyixun.com/%e4%bd%bf%e7%94%a8-gemini-3-1-flash-live-%e6%9e%84%e5%bb%ba%e5%ae%9e%e6%97%b6%e5%af%b9%e8%af%9d%e4%bb%a3%e7%90%86/

喜欢 (0)
ROCKYCOO的头像ROCKYCOO
上一篇 7小时前
下一篇 6小时前

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注