环境搭建与零代码应用

Grove Vision AI (V2) 支持 IIC、UART、SPI、Type-C 等多种接口,可轻松与 XIAO、树莓派、BeagleBoard、ESP 系列等主控板连接。比如与 XIAO 系列结合,可通过 Arduino IDE 或 MicroPython 访问推理结果,并便捷连接云端或本地服务器(如 Home Assistant)。

通过 I2C Grove 接口,Grove Vision AI V2 可与任意主控板无缝连接。

图 1: Grove Vision AI V2 与主控板连接实物图
图 1: Grove Vision AI V2 与主控板连接实物图

除性能外,功耗也是一大亮点。与 XIAO ESP32S3 Sense 跑 Swift-YOLO Tiny 96x96 对比,Grove Vision AI V2 性能更高(30 FPS vs 5.5 FPS),但功耗更低(0.35 W vs 0.45 W)。

图 2: 性能与功耗对比图
图 2: 性能与功耗对比图

更多对比详见 2024 MCU AI Vision Boards: Performance Comparison

摄像头安装

准备好 Grove Vision AI (V2) 与摄像头后,可通过 CSI 排线连接如 树莓派 OV5647 摄像头模块

连接时请注意排针方向,确保插入正确,勿反插。

图 3: 摄像头排线连接示意图
图 3: 摄像头排线连接示意图

SenseCraft AI Studio

SenseCraft AI Studio 是一款强大的平台,支持多种设备(如 XIAO ESP32S3 Sense、Grove Vision AI V2)运行丰富的 AI 模型。本实验将演示如何在 Grove Vision AI V2 上部署 AI 模型并预览推理结果,同时介绍关键概念、设置及性能优化方法。

图 4: SenseCraft AI Studio 主界面
图 4: SenseCraft AI Studio 主界面

模型也可通过 SenseCraft Web Toolkit 部署,这是 SenseCraft AI Studio 的简化版。

可先用 Web Toolkit 快速体验,或直接进入 SenseCraft AI Studio 获取更多资源。

SenseCraft Web-Toolkit

SenseCraft Web Toolkit 是 SSCMA (Seeed SenseCraft Model Assistant)中的可视化模型部署工具,支持多平台一键部署,无需编程,界面友好。

该工具基于 Himax AI Web Toolkit,也可 本地下载 ,解压后双击 index.html 即可运行。

图 5: Himax AI Web Toolkit 界面
图 5: Himax AI Web Toolkit 界面

本实验建议直接在线体验:

  • 用 Chrome 浏览器打开 SenseCraft-Web-Toolkit
  • 用 Type-C 线连接 Grove Vision AI (V2) 到电脑
  • 若已连接 XIAO,按下图选择:
图 6: 设备选择界面
图 6: 设备选择界面
  • 选择设备/端口,点击 [Connect]
图 7: 端口连接界面
图 7: 端口连接界面

注:WebUSB 工具在 Safari 等部分浏览器下可能无法正常使用,建议用 Chrome。

可体验 Seeed Studio 预置的多种基础视觉模型。鼠标悬停可查看模型名称、描述、类别(图像分类、目标检测、姿态/关键点检测)、算法(如 YOLO V5/V8、FOMO、MobileNet V2 等)及指标(准确率或 mAP)。

图 8: 模型库界面
图 8: 模型库界面

点击模型并按 [Send] 可直接部署,也可上传自定义模型。

如需详细操作指引,见 SenseCraft AI 平台官方文档

体验 CV AI 模型

目标检测

目标检测是计算机视觉的核心技术之一,能在图片或视频帧中识别并定位多个对象(通常用边框表示)。与图像分类只给整张图片打标签不同,目标检测能识别多对象及其精确位置,广泛应用于自动驾驶、安全监控、增强现实等场景。

主流架构有 YOLO、SSD、FOMO、Faster R-CNN 等。

我们选择现成的 Person Detection(行人检测)模型,基于 Swift-YOLO 算法训练。

图 9: 目标检测模型界面
图 9: 目标检测模型界面

模型上传成功后,右侧 Preview 区域可实时预览摄像头画面,点击顶部 [Device Log] 可在串口监视器查看推理详情。

图 10: 推理实时画面
图 10: 推理实时画面

在 SenseCraft AI Studio,Device Logger 始终可见。

摄像头对准单人时,模型只检测到一个“框”。模块会持续输出两行信息:

图 11: 推理结果串口输出
图 11: 推理结果串口输出

perf(性能):显示各阶段延迟(ms)

  • 预处理(图像采集与裁剪):7ms
  • 推理(模型延迟):76ms(13 fps)
  • 后处理(显示与数据叠加):<0ms

boxes:检测到的对象框信息。本例仅 1 个。

  • 框坐标(x, y, w, h):(245, 292,449,392),对象(person,标签 0),置信度 .89

多人人像时,每人一个框:

图 12: 多人人像检测效果
图 12: 多人人像检测效果

SenseCraft AI Studio 下推理延迟(48ms)低于 Web Toolkit(76ms),因部署实现不同。

图 13: Studio 推理延迟对比
图 13: Studio 推理延迟对比

功耗

Swift-YOLO 模型运行时峰值功耗 410 mW。

预览设置

Settings 可调节两项以优化识别效果:

  • Confidence:模型判定为有效检测的最小置信度。阈值高则误报少但漏检多,阈值低则检测多但误报也多。
  • IoU:预测框与真实框重叠度(Intersection over Union),用于判定检测是否为真阳性。调节 IoU 可平衡精度与召回率。
图 14: 推理参数设置界面
图 14: 推理参数设置界面

建议多试不同 Confidence 和 IoU 阈值,找到适合实际场景的最佳平衡。

姿态/关键点检测

姿态或关键点检测可识别图像/视频中对象(如人体、面部等)的特定关键点,实现姿态、动作、手势等分析。广泛应用于增强现实、人机交互、体育分析、健康监测等领域。

与目标检测只定位对象不同,姿态检测可精确到各部位细节。主流架构有 OpenPose、AlphaPose、PoseNet 等。深度学习发展让姿态检测越来越高效、实时。

我们来体验 Pose/Keypoint Detection 应用。

图 15: 姿态检测模型界面
图 15: 姿态检测模型界面

在 Preview 区域点击 [Stop] 停止当前推理,选择模型并点击 [Send] 上传。上传成功后,右侧实时预览摄像头画面,串口监视器可见推理详情。

图 16: 多人舞蹈姿态检测效果
图 16: 多人舞蹈姿态检测效果

YOLOV8 Pose 模型基于 COCO-Pose 数据集 ,含 20 万张图片,标注 17 个关键点。

以下为单人推理截图(便于分析):

  • 1 个框(与目标检测类似),坐标 (113, 119, 67, 208),推理结果 (90),标签 (0)
  • 17 组 4 个数字,分别为 17 个“关节”坐标,‘0’ 为鼻子,‘1’、‘2’ 为眼睛,‘15’、‘16’ 为脚等
图 17: 单人姿态关键点推理结果
图 17: 单人姿态关键点推理结果

更深入了解姿态估计项目,见: Exploring AI at the Edge! - Pose Estimation

图像分类

图像分类是计算机视觉基础任务,将整张图片归为若干预设类别之一。常用于图片检索、社交平台内容管理、自动驾驶环境感知等。

主流架构有 CNN(如 AlexNet、VGGNet、ResNet),在 ImageNet 等数据集上表现优异。

我们也来体验图像分类应用。

图 18: 图像分类模型界面
图 18: 图像分类模型界面

该示例在 SenseCraft ToolKit 可用,AI Studio 也有其他分类模型。

模型上传成功后,右侧 Preview 区域实时预览摄像头画面,串口监视器可见推理详情。

图 19: 图像分类推理实时画面
图 19: 图像分类推理实时画面

推理结果为分数和类别。

图 20: 推理结果串口输出
图 20: 推理结果串口输出

[99, 1] 表示类别 1(Person),置信度 0.99。该模型为二分类,类别 0 为“无人物”或“背景”。推理延迟 15ms,约 70fps。

功耗

Mobilenet V2 0.35 模型下,Grove Vision AI V2 峰值电流 [email protected] 功耗 420mW

同模型在 XIAO ESP32S3 Sense 上,功耗 523mW,延迟 291ms。

图 21: XIAO ESP32S3 推理功耗对比
图 21: XIAO ESP32S3 推理功耗对比

体验更多 SenseCraft AI Studio 模型

可在 SenseCraft AI WebPage 下载更多公开模型。例如运行 Swift-YOLO 检测红绿灯: 交通灯检测模型

图 22: 交通灯检测模型界面
图 22: 交通灯检测模型界面

该模型推理延迟约 86 ms,平均功耗 420 mW。

图像分类项目实战

下面用 SenseCraft AI Studio 完成一个完整的图像分类项目。

图 23: 项目流程图
图 23: 项目流程图

在 SenseCraft AI Studio 打开 训练 标签页:

图 24: 训练界面
图 24: 训练界面

默认用 WebCam 训练 Classification 模型。我们选择 Grove Vision AI V2,点击绿色 [Connect],弹窗选择端口,点击蓝色 [Connect]

图 25: 设备连接界面
图 25: 设备连接界面

此时可实时预览 Grove Vision AI V2 采集的图像。

项目目标

首先明确目标。比如分类两个简单物体:玩具 boxwheel,还需采集无物体的 background 类别。

图 26: 分类目标示意图
图 26: 分类目标示意图

数据采集

建议按字母顺序创建类别:

  • 类别 1:background
  • 类别 2:box
  • 类别 3:wheel
图 27: 类别创建界面
图 27: 类别创建界面

选择类别,持续按下预览区下方绿色按钮采集图片,采集结果显示在样本区。

图 28: 采集图片界面
图 28: 采集图片界面

采集后可检查并删除不合格图片。

图 29: 数据清理界面
图 29: 数据清理界面

每类采集约 50 张图片,进入训练步骤:

训练

确认设备为 Grove Vision AI V2,点击 [Start Training] 开始训练。

图 30: 训练过程界面
图 30: 训练过程界面

测试

训练完成后可预览推理结果。

注意:此时模型未运行在设备上,仅用设备采集图片,训练模型在 Studio 端实时推理。

图 31: 推理预览界面
图 31: 推理预览界面

接下来将模型真正部署到设备:

部署

[Deploy to device] 选择训练好的模型,选 Grove Vision AI V2:

图 32: 模型部署界面
图 32: 模型部署界面

Studio 会跳转到 Vision Workplace,确认部署,选择端口并连接:

图 33: 部署确认界面
图 33: 部署确认界面

模型刷写后自动重启,设备开始运行模型。Device Logger 可见推理延迟约 8 ms,即 125 FPS

可调节模型置信度:

图 34: 推理结果与置信度调节
图 34: 推理结果与置信度调节

Grove Vision AI V2 跑图像分类模型时峰值电流 [email protected] 功耗 420mW

模型保存

可在 SenseCraft AI Studio 保存模型,便于后续部署。回到 Training 标签页,点击 [Save to SenseCraft]

图 35: 模型保存界面
图 35: 模型保存界面

总结

本实验全面体验了 Seeed Studio Grove Vision AI Module V2 在多种计算机视觉任务中的卓越表现,展现了其作为嵌入式机器学习平台的强大能力。

性能卓越:Grove Vision AI V2 搭载 Himax WiseEye2 芯片(双核 Arm Cortex-M55 + ARM Ethos-U55 NPU),在多项 CV 任务中表现突出:

  • 图像分类:推理仅 15 ms(67 FPS)
  • 目标检测(行人):推理 48~76 ms(21~13 FPS)
  • 姿态检测:17 关键点实时检测 121 ms(8 FPS)

能效领先:Grove Vision AI V2 功耗极低,远优于传统嵌入式平台:

  • Grove Vision AI V2:80 mA(410 mW,60+ FPS)
  • XIAO ESP32S3:同类任务 523 mW(3+ FPS)

实用性强:涵盖数据集采集、模型训练、部署、离线推理全流程,适合实际项目落地。

开发友好:SenseCraft AI Studio 支持零代码部署与自定义集成,预训练模型丰富,适合初学者与进阶开发者。

Grove Vision AI V2 代表了边缘 AI 硬件的重大进步,为工业、物联网、教育等领域带来专业级视觉能力,且能效极高,极大降低了 AI 部署门槛。

要点回顾

本实验表明,复杂的计算机视觉应用不再局限于云端或高功耗硬件(如树莓派、Jetson Nano),而可在边缘高效运行。

可选配 XIAO Vision AI Camera :集成 Grove Vision AI V2、XIAO ESP32-C3 控制器与 OV5647 摄像头,3D 打印外壳一体化设计:

图 36: XIAO Vision AI Camera 外观
图 36: XIAO Vision AI Camera 外观

资源

文章导航

章节内容

这是章节的内容页面。

章节概览

评论区