基于 Gemini Live 和 LiveKit 的雷朋元眼镜实时多模态 AI

想象一下，走在街上，问你的眼镜你在看什么植物，几乎实时地得到回复。结合Gemini Live API、LiveKit和Meta Wearables SDK的组合，这不再是科幻小说，而是你今天就能打造的东西。

https://platform.twitter.com/embed/Tweet.html?id=2016031645003088280

在本文中，我们将介绍如何设置一个具备视觉功能的AI代理，通过安全的WebRTC代理连接到Meta Ray-Ban眼镜。

建筑

该设置包含多层，以确保可穿戴设备与AI之间的低延迟、安全通信：

Meta Ray-Ban眼镜：通过蓝牙连接手机，捕捉视频和音频。
手机（Android/iOS）：作为网关，通过WebRTC连接到LiveKit云。
LiveKit 云：作为 Gemini Live API 的安全高性能代理。
Gemini Live API：通过WebSockets处理数据流，实现实时多模态交互。

后端：构建 Gemini Live 代理

我们使用 LiveKit 代理框架作为 Gemini Live API 的安全 WebRTC 代理。该代理加入LiveKit房间，收听音频，并处理眼镜中的视频流。

设置助理

我们代理的核心是。我们用它来与双子座接口。关键是，我们允许代理人“看见”。AgentSessiongoogle.beta.realtime.RealtimeModelvideo_inputRoomOptions

@server.rtc_session()
async def entrypoint(ctx: JobContext):
    ctx.log_context_fields = {"room": ctx.room.name}

    session = AgentSession(
        llm=google.beta.realtime.RealtimeModel(
            model="gemini-2.5-flash-native-audio-preview-12-2025",
            proactivity=True,
            enable_affective_dialog=True
        ),
        vad=ctx.proc.userdata["vad"],
    )

    await session.start(
        room=ctx.room,
        agent=Assistant(),
        room_options=room_io.RoomOptions(
            video_input=True,
        )
    )
    await ctx.connect()
    await session.generate_reply()

通过设置，代理会自动请求房间内的视频轨，这里指的是眼镜发出的1FPS流。video_input=True

运营代理

要启动您的代理进入开发模式并通过 LiveKit Cloud 实现全球访问，只需运行：

uv run agent.py dev

在LiveKit文档中查找完整的Gemini Live视觉代理示例。

连接与认证

要将前端连接到LiveKit，你需要一个短命的访问令牌。

CLI 令牌生成

在测试和演示中，您可以使用LiveKit CLI快速生成令牌：

lk token create \
  --api-key <YOUR_API_KEY> \
  --api-secret <YOUR_API_SECRET> \
  --join \
  --room <ROOM_NAME> \
  --identity <PARTICIPANT_IDENTITY> \
  --valid-for 24h

在生产环境中，你应始终从安全的后端发放令牌，以保护你的 API 机密安全。

前端：Meta 可穿戴设备集成

这个例子针对的是安卓设备（比如谷歌Pixel）。你需要Meta Wearables Toolkit和具体的示例项目。

克隆示例：获取Android客户端的示例。
配置 local.properties：根据 Meta SDK 的要求添加你的 GitHub 令牌。
更新连接详情：在中，将服务器URL和令牌替换为你的LiveKit信息：StreamScreen.kt

// streamViewModel.connectToLiveKit
connectToLiveKit(
    url = "wss://your-project.livekit.cloud",
    token = "your-generated-token"
)

运行应用：通过USB连接设备，并从Android Studio部署。

结论

通过通过LiveKit将Meta可穿戴设备与Gemini Live桥接，我们打造了一个强大且低延迟的视觉AI体验。该架构具备可扩展性和安全性，为下一代可穿戴AI应用奠定基础。

资源

原创文章，作者：ROCKYCOO，如若转载，请注明出处：https://aiyixun.com/%e5%9f%ba%e4%ba%8e-gemini-live-%e5%92%8c-livekit-%e7%9a%84%e9%9b%b7%e6%9c%8b%e5%85%83%e7%9c%bc%e9%95%9c%e5%ae%9e%e6%97%b6%e5%a4%9a%e6%a8%a1%e6%80%81-ai/

基于 Gemini Live 和 LiveKit 的雷朋元眼镜实时多模态 AI

建筑

后端：构建 Gemini Live 代理

设置助理

运营代理

连接与认证

CLI 令牌生成

前端：Meta 可穿戴设备集成

结论

资源

相关推荐

Fishjam.io 如何利用Gemini Live构建了一个多扬声器AI游戏

使用 Gemini 3.1 Flash Live 构建实时对话代理

世界，您好！

发表回复