Rokid AI眼镜：连接现实与数字的桥梁，探索下一代智能应用开发

@[toc]

前言：当AI遇上AR，未来触手可及

增强现实（AR）技术长久以来都被视为下一代计算平台，它承诺将数字信息无缝叠加到物理世界之上，从而彻底改变我们与信息交互的方式。然而，要将这一愿景变为现实，离不开一个强大、易用且充满活力的开发生态。Rokid AI眼镜及其配套的SDK，正是这样一个旨在赋能开发者的平台，它为我们打开了通往“空间互联网”时代的大门。

本文将聚焦于AI Glasses实践应用，以一个具体的工业场景——AI工业装配助手为例，深入探讨如何利用Rokid平台提供的能力，从概念构思、工作流设计到核心技术实现，完整地构建一个具有商业价值和实践意义的AI眼镜应用。

第一章：Rokid平台概览：开发者的利器

在深入实践之前，我们首先需要理解我们手中的“利器”——Rokid平台。它主要由两部分构成：

硬件终端：Rokid AI眼镜它不仅是一副轻便的智能眼镜，更是一个集成了高清摄像头、高分辨率显示屏、麦克风阵列和多种传感器的强大感知设备。它为我们提供了观察世界、聆听世界并与之交互的第一视角。
软件核心：Rokid SDKsRokid为开发者提供了功能丰富的软件开发工具包（SDK），允许我们访问和控制眼镜的各项硬件功能。根据应用架构的不同，我们可以将其分为：
- 纯眼镜端应用开发（Glass App）：所有逻辑和计算都在眼镜上完成，适合轻量级、高实时性的应用。
- 手机与眼镜协同应用开发（Mobile + Glass App）：利用手机强大的计算能力处理复杂任务（如AI模型推理），并将结果实时呈现在眼镜端，是目前兼顾性能、功耗与灵活性的主流开发模式。

本文的实践将主要基于“手机与眼镜协同”的模式展开。

第二章：实践应用构想：AI工业装配助手

在复杂的工业制造领域，人工装配环节往往面临着效率、准确性和培训成本的多重挑战。一个新手工人需要花费大量时间学习复杂的装配流程，而即便是熟练工，也可能因为一时的疏忽导致代价高昂的错误。

为了解决这一痛点，我们基于 Rokid CXR-M SDK 强大的端云协同能力与 CXR-S SDK 的消息互通机制，构建了 “AI工业装配助手”。

核心功能定义：

“AI工业装配助手”并非一个简单的显示屏，而是一个具备环境感知与实时反馈能力的智能系统。它利用眼镜端的摄像头作为“眼睛”，手机端的算力作为“大脑”，眼镜端的显示屏作为“交互界面”。

AI 智能触发 (AI Scene Trigger)：利用 CXR-M SDK 的 AiEventListener，工人无需触摸手机，只需长按眼镜上的按键即可唤醒助手，进入“装配检测模式”。这对于戴着手套操作的工人至关重要。
视觉识别与纠错 (Visual Recognition)：通过 openGlassCamera 和 takeGlassPhoto 接口，系统实时获取工人视角的图像。结合手机端运行的轻量级 AI 模型（如 TFLite），应用能自动识别当前装配的部件是否正确（例如：是否拿错了螺丝型号，或者排线接口是否对齐）。
沉浸式指导 (Custom View Display)：基于 CXR-M SDK 的 自定义页面场景 (Custom View) 能力，应用可以将数字化的装配步骤、警告信息以 JSON 布局的形式直接渲染在眼镜屏幕上。工人无需低头查阅手册，真正做到“所见即所得”。
全流程语音交互 (ASR & TTS)：利用 SDK 提供的 ASR（语音识别）与 TTS（语音合成）接口，工人可以通过语音指令（如“下一步”）控制流程，系统也能通过语音播报操作结果（如“检测通过”），实现双向的自然交互。

第三章：AI工作流设计：基于SDK的端云协同

要实现上述功能，我们需要构建一个严密的逻辑闭环。基于 CXR-M SDK 提供的 API，我们设计了如下的工作流：

工作流解析：

感知与触发（眼镜端 → 手机端）：
- 动作：工人长按眼镜侧面的按键。
- SDK 响应：眼镜端发送信号，手机端通过 CXR-M SDK 的 setAiEventListener 监听到 onAiKeyDown 事件，应用随即启动识别流程。
采集与上传（手机端）：
- 动作：应用请求获取当前视野画面。
- SDK 响应：手机端调用 aiOpenCamera (对应 openGlassCamera) 开启相机流，随后调用 takePhoto (对应 takeGlassPhoto) 获取高质量的 WebP 格式图片数据。
计算与决策（手机端）：
- 动作：手机应用将接收到的 ByteArray 图片数据送入预加载的 AI 模型进行推理。
- 逻辑：模型判断当前步骤完成情况（如：置信度 > 0.9 则判定成功）。
呈现与交互（手机端 → 眼镜端）：
- 动作：根据 AI 结果，动态生成 UI 描述数据。
- SDK 响应：
  * 若需更新视觉界面：调用 openCustomView 或 updateCustomView 发送 JSON 格式的布局描述，在眼镜端渲染出“绿色对勾”或“红色警告”及下一步文字指引。
  * 若需语音反馈：调用 sendTTSContent 播放合成语音。

流程图:

1graph TD
2    A["用户：长按眼镜按键"] -->|onAiKeyDown| B("手机端：监听到AI事件")
3    B --> C{"相机是否开启?"}
4    C -- No --> D["SDK: openGlassCamera"]
5    C -- Yes --> E["SDK: takeGlassPhoto"]
6    D --> E
7    E -->|PhotoResultCallback| F["手机端：获取WebP图片"]
8    F --> G["手机端：AI模型推理"]
9    G -->|识别结果| H{"结果判定"}
10    H -- 成功 --> I["构造JSON: 显示下一步"]
11    H -- 错误 --> J["构造JSON: 显示警告"]
12    I --> K["SDK: updateCustomView"]
13    J --> K
14    K --> L["眼镜端：刷新UI显示"]
15

第四章：应用架构解析：MVVM的最佳实践

在正式深入代码实现之前，我们有必要先探讨一下应用的“骨架”——软件架构。对于功能复杂的AR应用而言，一个清晰、可扩展的架构至关重要。本项目将采用Google官方推荐的**MVVM（Model-View-ViewModel）**架构模式。

为什么选择MVVM？

职责分离（Separation of Concerns）：MVVM将UI（View）、业务逻辑与数据（ViewModel）、数据源（Model/Repository）清晰地分离开来。在本应用中，View层专注于眼镜端场景呈现与用户交互，而ViewModel负责处理来自眼镜和手机的各种数据流、执行业务判断，两者互不干扰。
生命周期感知（Lifecycle-Aware）：AR应用经常需要在onResume, onPause等生命周期事件中启动或停止相机、传感器等耗电模块。ViewModel与Android的生命周期组件库（Lifecycle）天然集成，可以安全地管理数据，避免因Activity/Fragment重建导致的数据丢失和内存泄漏。
可测试性（Testability）：由于业务逻辑集中在ViewModel中，并且不直接依赖于任何UI组件，我们可以轻松地对其进行单元测试，从而保证核心功能的稳定可靠。

本项目的MVVM分层：

View (Activity/Fragment/眼镜端场景页面)：负责展示眼镜端的自定义页面或提词器场景、绘制UI元素、响应用户的语音与按键操作，并将这些操作事件通知给ViewModel。
ViewModel：作为View和Model之间的桥梁。它从Model层获取数据（如装配步骤），处理来自View的用户输入，执行核心业务逻辑（如判断操作是否正确），并持有需要展示在UI上的状态（如当前高亮的部件）。
Model (Repository/Manager)：负责数据的获取和管理。在本项目中，它将封装与 CXR-M SDK（手机端） 和 CXR-S SDK（眼镜端） 的交互逻辑。例如，在手机端，Model层会初始化CxrApi，管理蓝牙和Wi-Fi P2P连接，并处理与眼镜之间基于Caps和二进制数据的消息收发。在眼镜端，Model层则会使用CXRServiceBridge来订阅和发送消息。

通过采用MVVM架构，我们可以构建一个结构清晰、易于维护和扩展的“AI工业装配助手”应用。

第五章：技术实现深度解析

本章将基于Rokid SDK，展示“AI工业装配助手”部分核心功能的伪代码实现，以揭示其技术细节。

5.1 详细环境搭建

一个稳定可靠的应用始于正确的项目配置。下面，我们将分步详解搭建一个基于CXR-M和CXR-S的Rokid AR应用开发环境的全过程。

1. 配置Maven仓库源

首先，我们需要让Gradle能够找到Rokid的SDK库。在项目根目录下的 settings.gradle.kts (或 settings.gradle) 文件中，添加Rokid的公共Maven仓库地址。

1// settings.gradle.kts
2dependencyResolutionManagement {
3    repositoriesMode.set(RepositoriesMode.FAIL_ON_PROJECT_REPOS)
4    repositories {
5        google()
6        mavenCentral()
7        // 添加Rokid官方Maven仓库
8        maven { url = uri("https://maven.rokid.com/repository/maven-public/") }
9    }
10}
11

2. 添加核心SDK依赖

接下来，在你的手机端应用（CXR-M）和眼镜端应用（CXR-S）的 build.gradle.kts 文件中，分别添加必要的SDK依赖。

手机端 (app/build.gradle.kts):

1// build.gradle.kts (Module: app)
2android {
3    defaultConfig {
4        minSdk = 28
5    }
6}
7
8dependencies {
9    // CXR-M SDK: 负责手机与眼镜之间的连接、通信和协同
10    implementation("com.rokid.cxr:client-m:1.0.1-20250812.080117-2")
11    
12    // TensorFlow Lite: 用于在手机端高效运行AI模型
13    implementation 'org.tensorflow:tensorflow-lite:2.9.0'
14    implementation 'org.tensorflow:tensorflow-lite-gpu:2.9.0'
15    
16    // Android架构组件，用于构建MVVM架构
17    implementation 'androidx.lifecycle:lifecycle-viewmodel-ktx:2.5.1'
18    implementation 'androidx.lifecycle:lifecycle-runtime-ktx:2.5.1'
19}
20

眼镜端 (glass_app/build.gradle.kts):

1// build.gradle.kts (Module: glass_app)
2android {
3    defaultConfig {
4        minSdk = 28
5    }
6}
7
8dependencies {
9    // CXR-S SDK: 提供眼镜端数据通道、消息收发等能力
10    implementation("com.rokid.cxr:cxr-service-bridge:1.0-20250519.061355-45")
11    
12    // Android架构组件
13    implementation 'androidx.lifecycle:lifecycle-viewmodel-ktx:2.5.1'
14    implementation 'androidx.lifecycle:lifecycle-runtime-ktx:2.5.1'
15}
16

3. 声明应用权限

为了让应用能正常工作，我们需要在手机端的 app/src/main/AndroidManifest.xml 文件中声明必要的权限。CXR-M SDK需要蓝牙、Wi-Fi和网络权限来与眼镜建立连接。

1<?xml version="1.0" encoding="utf-8"?>
2<manifest xmlns:android="http://schemas.android.com/apk/res/android"
3    package="com.example.ar_assembly_helper">
4
5    <!-- Wi-Fi状态权限 -->
6    <uses-permission android:name="android.permission.ACCESS_WIFI_STATE" />
7    <uses-permission android:name="android.permission.CHANGE_WIFI_STATE" />
8    <!-- 网络状态权限 -->
9    <uses-permission android:name="android.permission.ACCESS_NETWORK_STATE" />
10    <uses-permission android:name="android.permission.CHANGE_NETWORK_STATE" />
11    <!-- 蓝牙权限 -->
12    <uses-permission android:name="android.permission.BLUETOOTH" />
13    <uses-permission android:name="android.permission.BLUETOOTH_ADMIN" />
14    <!-- Android 12+ 需要新的蓝牙权限 -->
15    <uses-permission android:name="android.permission.BLUETOOTH_SCAN" />
16    <uses-permission android:name="android.permission.BLUETOOTH_CONNECT" />
17    <!-- 位置权限，蓝牙扫描需要 -->
18    <uses-permission android:name="android.permission.ACCESS_FINE_LOCATION" />
19    <uses-permission android:name="android.permission.ACCESS_COARSE_LOCATION" />
20    <!-- 互联网权限 -->
21    <uses-permission android:name="android.permission.INTERNET" />
22
23    <application
24        ...>
25        ...
26    </application>
27</manifest>
28

完成以上三步，我们的项目就具备了开发Rokid AR应用的基础环境。同时，别忘了在代码中处理Android 6.0以上的动态权限申请。

5.2 核心功能实现

1. AI 场景事件监听（手机端）

当工人在眼镜端长按按键时，手机端通过 AiEventListener 接收事件并启动业务逻辑：

1private val aiEventListener = object : AiEventListener {
2    override fun onAiKeyDown() {
3        // 用户触发了AI助手，开始采集与识别流程
4        startAssemblyCheck()
5    }
6    
7    override fun onAiExit() {
8        // 退出AI场景，清理资源
9        stopAssemblyCheck()
10    }
11
12    override fun onAiKeyUp() {}
13}
14
15// 注册监听器
16CxrApi.getInstance().setAiEventListener(aiEventListener)
17

2. 视觉采集与处理（手机端）

在 startAssemblyCheck() 中，我们需要获取眼镜摄像头的画面：

1// 1. 开启眼镜相机流 (分辨率与质量需根据实际带宽调整)
2CxrApi.getInstance().openGlassCamera(640, 480, 80)
3
4// 2. 拍照获取单帧图片进行分析
5CxrApi.getInstance().takeGlassPhoto(640, 480, 80, object : PhotoResultCallback {
6    override fun onPhotoResult(status: ValueUtil.CxrStatus?, photo: ByteArray?) {
7        if (status == ValueUtil.CxrStatus.RESPONSE_SUCCEED && photo != null) {
8            // 将WebP格式的 photo 数据送入 AI 模型
9            val recognitionResult = aiModel.predict(photo)
10            
11            // 根据结果更新眼镜端显示
12            updateGlassesDisplay(recognitionResult)
13        }
14    }
15})
16

3. 构建装配助手界面 (JSON)

利用 Custom View 功能，我们定义一个包含“步骤标题”和“操作指引”的界面。请注意，图片资源（如 icons）需要先通过 sendCustomViewIcons 下发，且仅显示绿色通道。

初始化界面 JSON (initial_view.json):

1{
2  "type": "LinearLayout",
3  "props": {
4    "layout_width": "match_parent",
5    "layout_height": "match_parent",
6    "orientation": "vertical",
7    "gravity": "center",
8    "backgroundColor": "#FF000000"
9  },
10  "children": [
11    {
12      "type": "TextView",
13      "props": {
14        "id": "tv_step_title",
15        "layout_width": "wrap_content",
16        "layout_height": "wrap_content",
17        "text": "等待指令...",
18        "textSize": "20sp",
19        "textColor": "#FF00FF00",
20        "marginBottom": "20dp"
21      }
22    },
23    {
24      "type": "ImageView",
25      "props": {
26        "id": "iv_status_icon",
27        "layout_width": "50dp",
28        "layout_height": "50dp",
29        "name": "icon_waiting" 
30      }
31    }
32  ]
33}
34

4. 动态更新指引（手机端 -> 眼镜端）

当 AI 识别出当前是“第3步：安装主板”时，我们只需发送增量更新指令：

1// 构造更新用的 JSON 数组
2val updateJson = """
3[
4  {
5    "action": "update",
6    "id": "tv_step_title",
7    "props": {
8      "text": "第3步：对齐主板螺孔"
9    }
10  },
11  {
12    "action": "update",
13    "id": "iv_status_icon",
14    "props": {
15      "name": "icon_arrow_right"
16    }
17  }
18]
19"""
20
21// 发送更新指令
22CxrApi.getInstance().updateCustomView(updateJson)
23

第六章：健壮性与性能优化

一个能在真实工业环境中稳定运行的应用，除了实现核心功能外，还必须在健壮性和性能上进行精雕细琢。

异常处理与连接管理：手机与眼镜之间的无线连接可能会因距离、电磁干扰等因素而中断。我们必须在 CXR-M SDK 和 CXR-S SDK 中实现连接状态的监听回调。例如，在手机端，应为CxrApi.getInstance().initBluetooth和initWifiP2P提供BluetoothStatusCallback和WifiP2PStatusCallback。在眼镜端，则要设置CXRServiceBridge.StatusListener。一旦检测到断连，应立即：
1. 在UI上向用户给出明确提示（如“连接已断开，正在尝试重连...”）。
2. 启动一个带有超时和重试次数限制的自动重连机制，可以调用CxrApi.getInstance().connectBluetooth进行重连。
3. 在重连成功后，同步双方的状态，确保应用能从中断处无缝恢复。
避免UI线程阻塞：手机端的AI模型推理是一个计算密集型任务。如果直接在主线程（UI线程）中处理接收到的消息，会造成应用界面卡顿甚至ANR（Application Not Responding）。正确的做法是使用Kotlin协程或传统的ExecutorService将整个“接收数据 -> 预处理 -> 模型推理 -> 后处理 -> 发送指令”的流程切换到后台线程池中执行。

1// MobileAppViewModel.kt (优化后)  
2viewModelScope.launch(Dispatchers.IO) {  
3    CxrApi.getInstance().takeGlassPhoto(width, height, quality, object : PhotoResultCallback {  
4        override fun onPhotoResult(status: ValueUtil.CxrStatus?, photo: ByteArray?) {  
5            val updatedContent = buildUpdatedJson(/* 模型输出与步骤 */)  
6            CxrApi.getInstance().updateCustomView(updatedContent)  
7        }  
8    })  
9}

优化数据传输：拍照得到的 WebP 图片与媒体文件传输同样需要控制体积与频率。较大数据量的同步建议优先使用 Wi‑Fi P2P。在应用层可根据链路状况进行降采样与有损压缩，以降低数据量并提升稳定性。

通过上述优化，我们可以将一个“能用”的原型，提升为一个“好用”的、具备工业级稳定性的应用。

第七章：挑战与展望

尽管Rokid平台为我们提供了强大的工具，但在开发真实世界的AI眼镜应用时，仍面临一些挑战：

算力与功耗的平衡：如何在有限的功耗预算下，实现更复杂的AI功能，是所有可穿戴设备面临的共同挑战。算法优化和硬件能效比的提升是未来的关键。
网络连接的稳定性：对于“手机-眼镜”协同应用，两者间的无线连接必须保证极低的延迟和高可靠性，否则将严重影响用户体验。
AI模型的泛化能力：在多变的工业环境中，光照、角度、遮挡等因素都会影响AI模型的识别精度。开发出更鲁棒、泛化能力更强的模型至关重要。

展望未来，随着端侧AI芯片性能的飞速发展和5G网络的普及，我们有理由相信，未来的AI眼镜将拥有更强的独立计算能力，能够承载更复杂的应用场景。从工业制造到医疗手术，从文化教育到日常生活，AI眼镜将作为我们感官的延伸和智慧的增强，真正成为连接物理与数字世界的桥梁。

第八章：结语

从一个解决实际问题的构想出发，通过精心的AI工作流设计，再到利用Rokid SDK进行扎实的技术开发，我们一步步将“AI工业装配助手”这个概念变为了一个可行的技术方案。这个过程充分展示了Rokid AI眼镜作为开发平台的巨大潜力。

《Rokid AI眼镜：连接现实与数字的桥梁，探索下一代智能应用开发》是转载文章，点击查看原文。