环境搭建与零代码应用
Grove Vision AI (V2) 支持 IIC、UART、SPI、Type-C 等多种接口,可轻松与 XIAO、树莓派、BeagleBoard、ESP 系列等主控板连接。比如与 XIAO 系列结合,可通过 Arduino IDE 或 MicroPython 访问推理结果,并便捷连接云端或本地服务器(如 Home Assistant)。
通过 I2C Grove 接口,Grove Vision AI V2 可与任意主控板无缝连接。

除性能外,功耗也是一大亮点。与 XIAO ESP32S3 Sense 跑 Swift-YOLO Tiny 96x96 对比,Grove Vision AI V2 性能更高(30 FPS vs 5.5 FPS),但功耗更低(0.35 W vs 0.45 W)。

摄像头安装
准备好 Grove Vision AI (V2) 与摄像头后,可通过 CSI 排线连接如 树莓派 OV5647 摄像头模块。
连接时请注意排针方向,确保插入正确,勿反插。

SenseCraft AI Studio
SenseCraft AI Studio 是一款强大的平台,支持多种设备(如 XIAO ESP32S3 Sense、Grove Vision AI V2)运行丰富的 AI 模型。本实验将演示如何在 Grove Vision AI V2 上部署 AI 模型并预览推理结果,同时介绍关键概念、设置及性能优化方法。

模型也可通过 SenseCraft Web Toolkit 部署,这是 SenseCraft AI Studio 的简化版。
可先用 Web Toolkit 快速体验,或直接进入 SenseCraft AI Studio 获取更多资源。
SenseCraft Web-Toolkit
SenseCraft Web Toolkit 是 SSCMA (Seeed SenseCraft Model Assistant)中的可视化模型部署工具,支持多平台一键部署,无需编程,界面友好。
该工具基于 Himax AI Web Toolkit,也可
本地下载
,解压后双击 index.html
即可运行。

本实验建议直接在线体验:
- 用 Chrome 浏览器打开 SenseCraft-Web-Toolkit
- 用 Type-C 线连接 Grove Vision AI (V2) 到电脑
- 若已连接 XIAO,按下图选择:

- 选择设备/端口,点击
[Connect]
:

注:WebUSB 工具在 Safari 等部分浏览器下可能无法正常使用,建议用 Chrome。
可体验 Seeed Studio 预置的多种基础视觉模型。鼠标悬停可查看模型名称、描述、类别(图像分类、目标检测、姿态/关键点检测)、算法(如 YOLO V5/V8、FOMO、MobileNet V2 等)及指标(准确率或 mAP)。

点击模型并按 [Send]
可直接部署,也可上传自定义模型。
如需详细操作指引,见 SenseCraft AI 平台官方文档 。
体验 CV AI 模型
目标检测
目标检测是计算机视觉的核心技术之一,能在图片或视频帧中识别并定位多个对象(通常用边框表示)。与图像分类只给整张图片打标签不同,目标检测能识别多对象及其精确位置,广泛应用于自动驾驶、安全监控、增强现实等场景。
主流架构有 YOLO、SSD、FOMO、Faster R-CNN 等。
我们选择现成的 Person Detection(行人检测)模型,基于 Swift-YOLO 算法训练。

模型上传成功后,右侧 Preview 区域可实时预览摄像头画面,点击顶部 [Device Log]
可在串口监视器查看推理详情。

在 SenseCraft AI Studio,Device Logger 始终可见。
摄像头对准单人时,模型只检测到一个“框”。模块会持续输出两行信息:

perf(性能):显示各阶段延迟(ms)
- 预处理(图像采集与裁剪):7ms
- 推理(模型延迟):76ms(13 fps)
- 后处理(显示与数据叠加):<0ms
boxes:检测到的对象框信息。本例仅 1 个。
- 框坐标(x, y, w, h):(245, 292,449,392),对象(person,标签 0),置信度 .89
多人人像时,每人一个框:

SenseCraft AI Studio 下推理延迟(48ms)低于 Web Toolkit(76ms),因部署实现不同。

功耗
Swift-YOLO 模型运行时峰值功耗 410 mW。
预览设置
Settings 可调节两项以优化识别效果:
- Confidence:模型判定为有效检测的最小置信度。阈值高则误报少但漏检多,阈值低则检测多但误报也多。
- IoU:预测框与真实框重叠度(Intersection over Union),用于判定检测是否为真阳性。调节 IoU 可平衡精度与召回率。

建议多试不同 Confidence 和 IoU 阈值,找到适合实际场景的最佳平衡。
姿态/关键点检测
姿态或关键点检测可识别图像/视频中对象(如人体、面部等)的特定关键点,实现姿态、动作、手势等分析。广泛应用于增强现实、人机交互、体育分析、健康监测等领域。
与目标检测只定位对象不同,姿态检测可精确到各部位细节。主流架构有 OpenPose、AlphaPose、PoseNet 等。深度学习发展让姿态检测越来越高效、实时。
我们来体验 Pose/Keypoint Detection 应用。

在 Preview 区域点击 [Stop]
停止当前推理,选择模型并点击 [Send]
上传。上传成功后,右侧实时预览摄像头画面,串口监视器可见推理详情。

YOLOV8 Pose 模型基于 COCO-Pose 数据集 ,含 20 万张图片,标注 17 个关键点。
以下为单人推理截图(便于分析):
- 1 个框(与目标检测类似),坐标 (113, 119, 67, 208),推理结果 (90),标签 (0)
- 17 组 4 个数字,分别为 17 个“关节”坐标,‘0’ 为鼻子,‘1’、‘2’ 为眼睛,‘15’、‘16’ 为脚等

更深入了解姿态估计项目,见: Exploring AI at the Edge! - Pose Estimation 。
图像分类
图像分类是计算机视觉基础任务,将整张图片归为若干预设类别之一。常用于图片检索、社交平台内容管理、自动驾驶环境感知等。
主流架构有 CNN(如 AlexNet、VGGNet、ResNet),在 ImageNet 等数据集上表现优异。
我们也来体验图像分类应用。

该示例在 SenseCraft ToolKit 可用,AI Studio 也有其他分类模型。
模型上传成功后,右侧 Preview 区域实时预览摄像头画面,串口监视器可见推理详情。

推理结果为分数和类别。

如 [99, 1] 表示类别 1(Person),置信度 0.99。该模型为二分类,类别 0 为“无人物”或“背景”。推理延迟 15ms,约 70fps。
功耗
Mobilenet V2 0.35 模型下,Grove Vision AI V2 峰值电流 [email protected] ,功耗 420mW。
同模型在 XIAO ESP32S3 Sense 上,功耗 523mW,延迟 291ms。

体验更多 SenseCraft AI Studio 模型
可在 SenseCraft AI WebPage 下载更多公开模型。例如运行 Swift-YOLO 检测红绿灯: 交通灯检测模型 :

该模型推理延迟约 86 ms,平均功耗 420 mW。
图像分类项目实战
下面用 SenseCraft AI Studio 完成一个完整的图像分类项目。

在 SenseCraft AI Studio 打开 训练 标签页:

默认用 WebCam 训练 Classification
模型。我们选择 Grove Vision AI V2,点击绿色 [Connect]
,弹窗选择端口,点击蓝色 [Connect]
。

此时可实时预览 Grove Vision AI V2 采集的图像。
项目目标
首先明确目标。比如分类两个简单物体:玩具 box
和 wheel
,还需采集无物体的 background
类别。

数据采集
建议按字母顺序创建类别:
- 类别 1:background
- 类别 2:box
- 类别 3:wheel

选择类别,持续按下预览区下方绿色按钮采集图片,采集结果显示在样本区。

采集后可检查并删除不合格图片。

每类采集约 50 张图片,进入训练步骤:
训练
确认设备为 Grove Vision AI V2
,点击 [Start Training]
开始训练。

测试
训练完成后可预览推理结果。
注意:此时模型未运行在设备上,仅用设备采集图片,训练模型在 Studio 端实时推理。

接下来将模型真正部署到设备:
部署
在 [Deploy to device]
选择训练好的模型,选 Grove Vision AI V2:

Studio 会跳转到 Vision Workplace
,确认部署,选择端口并连接:

模型刷写后自动重启,设备开始运行模型。Device Logger 可见推理延迟约 8 ms,即 125 FPS。
可调节模型置信度:

Grove Vision AI V2 跑图像分类模型时峰值电流 [email protected] ,功耗 420mW。
模型保存
可在 SenseCraft AI Studio 保存模型,便于后续部署。回到 Training
标签页,点击 [Save to SenseCraft]
:

总结
本实验全面体验了 Seeed Studio Grove Vision AI Module V2 在多种计算机视觉任务中的卓越表现,展现了其作为嵌入式机器学习平台的强大能力。
性能卓越:Grove Vision AI V2 搭载 Himax WiseEye2 芯片(双核 Arm Cortex-M55 + ARM Ethos-U55 NPU),在多项 CV 任务中表现突出:
- 图像分类:推理仅 15 ms(67 FPS)
- 目标检测(行人):推理 48~76 ms(21~13 FPS)
- 姿态检测:17 关键点实时检测 121 ms(8 FPS)
能效领先:Grove Vision AI V2 功耗极低,远优于传统嵌入式平台:
- Grove Vision AI V2:80 mA(410 mW,60+ FPS)
- XIAO ESP32S3:同类任务 523 mW(3+ FPS)
实用性强:涵盖数据集采集、模型训练、部署、离线推理全流程,适合实际项目落地。
开发友好:SenseCraft AI Studio 支持零代码部署与自定义集成,预训练模型丰富,适合初学者与进阶开发者。
Grove Vision AI V2 代表了边缘 AI 硬件的重大进步,为工业、物联网、教育等领域带来专业级视觉能力,且能效极高,极大降低了 AI 部署门槛。
要点回顾
本实验表明,复杂的计算机视觉应用不再局限于云端或高功耗硬件(如树莓派、Jetson Nano),而可在边缘高效运行。
可选配 XIAO Vision AI Camera :集成 Grove Vision AI V2、XIAO ESP32-C3 控制器与 OV5647 摄像头,3D 打印外壳一体化设计:

资源
- SenseCraft AI Studio 使用说明
- SenseCraft-Web-Toolkit 官网
- SenseCraft AI Studio
- Himax AI Web Toolkit
- Himax 示例代码