基于 Gemini Live 和 LiveKit 的雷朋元眼镜实时多模态 AI

想象一下,走在街上,问你的眼镜你在看什么植物,几乎实时地得到回复。结合Gemini Live APILiveKitMeta Wearables SDK的组合,这不再是科幻小说,而是你今天就能打造的东西。

https://platform.twitter.com/embed/Tweet.html?id=2016031645003088280

在本文中,我们将介绍如何设置一个具备视觉功能的AI代理,通过安全的WebRTC代理连接到Meta Ray-Ban眼镜。

建筑

该设置包含多层,以确保可穿戴设备与AI之间的低延迟、安全通信:

  1. Meta Ray-Ban眼镜:通过蓝牙连接手机,捕捉视频和音频。
  2. 手机(Android/iOS):作为网关,通过WebRTC连接到LiveKit云。
  3. LiveKit 云:作为 Gemini Live API 的安全高性能代理。
  4. Gemini Live API:通过WebSockets处理数据流,实现实时多模态交互。
基于 Gemini Live 和 LiveKit 的雷朋元眼镜实时多模态 AI

后端:构建 Gemini Live 代理

我们使用 LiveKit 代理框架作为 Gemini Live API 的安全 WebRTC 代理。该代理加入LiveKit房间,收听音频,并处理眼镜中的视频流。

设置助理

我们代理的核心是 。我们用它来与双子座接口。关键是,我们允许代理人“看见”。AgentSessiongoogle.beta.realtime.RealtimeModelvideo_inputRoomOptions

@server.rtc_session()
async def entrypoint(ctx: JobContext):
    ctx.log_context_fields = {"room": ctx.room.name}

    session = AgentSession(
        llm=google.beta.realtime.RealtimeModel(
            model="gemini-2.5-flash-native-audio-preview-12-2025",
            proactivity=True,
            enable_affective_dialog=True
        ),
        vad=ctx.proc.userdata["vad"],
    )

    await session.start(
        room=ctx.room,
        agent=Assistant(),
        room_options=room_io.RoomOptions(
            video_input=True,
        )
    )
    await ctx.connect()
    await session.generate_reply()

通过设置 ,代理会自动请求房间内的视频轨,这里指的是眼镜发出的1FPS流。video_input=True

运营代理

要启动您的代理进入开发模式并通过 LiveKit Cloud 实现全球访问,只需运行:

uv run agent.py dev

LiveKit文档中查找完整的Gemini Live视觉代理示例。


连接与认证

要将前端连接到LiveKit,你需要一个短命的访问令牌。

CLI 令牌生成

在测试和演示中,您可以使用LiveKit CLI快速生成令牌:

lk token create \
  --api-key <YOUR_API_KEY> \
  --api-secret <YOUR_API_SECRET> \
  --join \
  --room <ROOM_NAME> \
  --identity <PARTICIPANT_IDENTITY> \
  --valid-for 24h

在生产环境中,你应始终从安全的后端发放令牌,以保护你的 API 机密安全。


前端:Meta 可穿戴设备集成

这个例子针对的是安卓设备(比如谷歌Pixel)。你需要Meta Wearables Toolkit和具体的示例项目。

  • 克隆示例:获取Android客户端的示例
  • 配置 local.properties:根据 Meta SDK 的要求添加你的 GitHub 令牌。
  • 更新连接详情:在 中,将服务器URL和令牌替换为你的LiveKit信息:StreamScreen.kt
// streamViewModel.connectToLiveKit
connectToLiveKit(
    url = "wss://your-project.livekit.cloud",
    token = "your-generated-token"
)
  • 运行应用:通过USB连接设备,并从Android Studio部署。

结论

通过通过LiveKit将Meta可穿戴设备与Gemini Live桥接,我们打造了一个强大且低延迟的视觉AI体验。该架构具备可扩展性和安全性,为下一代可穿戴AI应用奠定基础。

资源

原创文章,作者:ROCKYCOO,如若转载,请注明出处:https://aiyixun.com/%e5%9f%ba%e4%ba%8e-gemini-live-%e5%92%8c-livekit-%e7%9a%84%e9%9b%b7%e6%9c%8b%e5%85%83%e7%9c%bc%e9%95%9c%e5%ae%9e%e6%97%b6%e5%a4%9a%e6%a8%a1%e6%80%81-ai/

喜欢 (0)
ROCKYCOO的头像ROCKYCOO
上一篇 7小时前
下一篇 7小时前

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注