TsingtaoAI基于VLA的多模态具身智能实验实训套装及实训方案

 

一、 行业背景

具身智能作为人工智能领域的新兴方向,为机器人与环境交互赋予了全新的内涵和能力,它不再局限于传统的编程式指令执行,而是朝着像人类一样理解和适应环境的方向发展。

在具身智能的发展历程中,多模态VLA大模型的出现成为了关键的推动力量。VLA大模型具有海量的参数和强大的语言理解、知识表示能力,能够为机器人的行为决策提供更丰富的信息和更智能的指导。3D 视觉为机器人带来了前所未有的感知能力,它能够精确地获取环境的深度信息,构建出三维空间模型。与传统的 2D 视觉相比,3D 视觉可以让机器人更准确地识别物体的形状、位置和姿态,无论是在室内环境中识别家具的布局,还是在工业场景中抓取复杂形状的工件,3D 视觉都提供了关键的感知支持。

高校作为培养未来科技人才的摇篮,需要紧跟这一前沿趋势,开展具身智能实训课程。通过将QwenVL多模态模型和DeepSeek推理模型与具备 3D 视觉的机器人相结合,为学生搭建一个实践平台,使他们能够深入理解通用具身智能的原理和应用。这不仅有助于培养学生在人工智能和机器人领域的专业技能,还能激发他们的创新思维,为未来的科研和产业发展储备人才,满足社会对具身智能相关技术日益增长的需求。

二、总体架构介绍

本实训方案围绕「多模态输入 -> 感知与理解 -> 行动执行 -> 反馈学习」的闭环过程展开。通过多模态数据的融合(包括听觉、视觉、触觉等),并结合Qwen-VL、DeepSeek模型和深度学习算法,方案实现了对自然语言指令的理解、物体识别和抓取、路径规划以及任务执行的完整流程。主要模块如下:

1、 多模态感知层

a. 包括语音识别模块、视觉感知模块、以及触觉传感模块。

b. 语音识别:通过LLM内置的语音识别工具,如Whisper或开源的AppBuilder SDK,将语音指令转化为文字,并利用自然语言处理技术进一步解析指令。

c. 视觉感知:采用3D深度相机(Gemini 336L和Femto Bolt iToF等),用于物体识别、三维定位和空间建图,为机械臂提供环境感知支持。

d. 触觉传感:在机械臂末端安装力矩传感器,检测机械臂与物体接触时的力反馈,确保安全抓取并提升执行精度。

2、 多模态理解与决策层

e. 使用DeepSeek处理自然语言指令,解析指令意图并生成相应的执行任务。

f. 结合视觉和语音信息,构建多模态融合模型,实现对复杂指令的精准理解,支持类似“把绿色积木放到红色方块上”这样的复杂命令。

g. 多模态语义融合:将语音、视觉信息和触觉数据汇总,通过DeepSeek分析,输出物体的位置坐标、目标坐标,并转换为机械臂的操作指令。

3、 行动执行层

h. 执行层包括任务规划模块、运动控制模块和机械臂操作模块。

i.  任务规划模块:利用逆运动学解算模块将物体坐标转化为电机的转动角度。根据DeepSeek生成的操作步骤进行任务分解,并发送给机械臂执行。

j.  运动控制模块:依托高精度自由度机械臂,机械臂能够根据指令进行精确运动和抓取。控制算法支持拖动示教、碰撞即停等功能,保障操作的安全性和灵活性。

k.  实时反馈与修正:借助触觉传感器和视觉实时反馈,调整机械臂的运动轨迹和抓取力度,以确保任务的高精度和稳定性。

4、 学习反馈层

l. 利用多模态学习框架(如深度强化学习DRL)实时优化执行路径和抓取策略,使系统在执行过程中能够自主学习和优化。

通过自动化的错误反馈机制,收集任务执行过程中产生的错误信息和成功经验,利用强化学习算法在仿真环境中反复训练,提升系统的决策能力和任务执行成功率。

m. 将实训过程中的各项数据进行记录,提供给参与实训的本科生和研究生进行分析和复盘,以便提升学生们对学习反馈层的理解。

日前,该“具身智能高校实训解决方案-从AI大模型+机器人到通用具身智能”基于华为技术有限公司AI框架昇思MindSpore,完成并通过昇腾相互兼容性技术认证。

三、技术方案实现概览

1、 语音与视觉协同处理:

语音指令通过DeepSeek解析为动作指令,并通过视觉感知模块定位目标物体。视觉模块通过3D相机构建环境的三维模型,并实时跟踪物体位置。语音和视觉数据通过多模态大模型进行融合,以实现指令的准确传达和物体的精确定位。

2、 路径规划与逆运动学求解:

通过多模态输入的坐标信息,路径规划模块利用逆运动学算法生成机械臂的关节角度路径。该过程不仅考虑目标位置,还要确保路径的碰撞避免及效率优化。

3、 多传感器融合技术:

通过深度学习算法,将3D视觉数据与触觉反馈实时融合,能够显著提升机械臂的抓取和放置精度。这种方法利用视觉传感器捕获物体的颜色和纹理信息,同时通过触觉传感器获取物体表面的接触点位置和方向。在此基础上,算法能够实时修正机械臂的运动路径,优化避障和目标捕捉能力,实现精确操作。

4、 强化学习的训练与优化:

在仿真环境中,我们可以通过强化学习技术对机械臂的抓取策略和路径规划算法进行预训练和优化。这种方法可以显著提高机械臂在实际操作中的精度和稳定性,同时降低失败率。通过仿真训练,我们可以模拟不同的环境和障碍物设置,让机械臂在虚拟环境中学习如何有效地避开障碍并准确抓取目标。这样,当机械臂在现实世界中执行任务时,它已经具备了一定的经验和策略,能够更加稳定和精确地完成抓取和放置操作。

四、教学实训与科研应用场景

1、 任务分解与流程执行:

如“沏茶”任务可以分解为多个子任务:取杯、取茶、注水等。每个子任务的执行路径和动作参数通过多模态大模型生成和优化。学生可以深入理解自然语言指令到实际执行动作的整个流程。

2、 多模态数据的融合与处理:

学生将有机会使用语音、视觉和触觉等多模态数据进行分析和训练,深入理解多模态数据融合的优势及其在具身智能中的应用。

3、 自主学习和策略优化:

通过强化学习框架的应用,学生可以研究如何利用深度学习进行策略优化,提升机械臂在动态环境中的适应能力。

4、 前沿技术研究:

结合多模态大模型与机器人控制技术,为高校在机器人领域提供前沿研究的支撑。学生可在视觉-语言-动作模型、任务规划等领域探索新的研究方法,进一步推动具身智能的技术进步。

五、实训方案优势

1、 真实场景模拟:

通过3D视觉和触觉传感实现环境感知和任务执行,学生可以体验从仿真到真实场景的任务转移过程,提升其实践操作能力。

2、 创新性与前沿性:

系统整合了当前最前沿的DeepSeek、多模态融合、深度学习和3D视觉等技术,符合当前具身智能的最新发展方向。

3、 高度模块化与灵活扩展:

硬件和软件模块高度集成,可根据实际需求更换3D相机、传感器及大模型等,使平台具有高度的扩展性。

六、面向专业

本实训解决方案面向相关专业的应用型本科和高职。主要面向的专业包括:

1.  自动化类:自动化、轨道交通信号与控制、机器人工程、智能装备与系统、工业智能、智能工程与创意设计等;

2.  计算机类:计算机科学与技术、软件工程、网络工程、物联网工程、智能科学与技术、空间信息与数字技术、电子与计算机工程、数据科学与大数据技术、电影制作、服务科学与工程、虚拟现实技术等;

3.  电气类:电气工程及其自动化、电气工程与智能控制、电动载运工程、电机电器智能化等;

4.  电子信息类:电子信息工程、通信工程、微电子科学与工程、光电信息科学与工程、信息工程、集成电路设计与集成系统、医学信息工程、电磁场与无线技术、电子信息科学与技术、应用电子技术教育、人工智能、智能测控工程和智能视觉工程等;

5.  机械类:机械工程、机械设计制造及其自动化、机械电子工程、过程装备与控制工程、车辆工程、微机电系统工程、机电技术教育、智能制造工程、智能车辆工程、仿生科学与工程、新能源汽车工程、智能交互设计、工程和农林智能装备工程等;

6.  交通运输类:交通运输、交通工程、轮机工程、飞行技术、交通设备与控制工程、船舶电子电气工程、轨道交通电气与控制、智慧交通和智能运输工程等;

7.  航空航天类:航空航天工程、飞行器设计与工程、飞行器制造工程、飞行器动力工程、飞行器适航技术、飞行器控制与信息工程、无人驾驶航空器系统工程、智能飞行器技术、空天智能电推进技术等;

8.  兵器类:武器系统与工程、武器发射工程、探测制导与控制技术、信息对抗技术和智能无人系统技术等;

9.  其他专业:农业机械化及其自动化、农业电气化、农业智能装备工程、智慧建筑与建造、公安视听技术、未来机器人、交叉工程、智能医学工程、智能影像工程、大数据管理与应用、物流工程、测控技术与仪器、智能感知工程、海洋机器人、智慧海洋技术和智能海洋装备等。

七、硬件产品清单

方案特点

系统集成3D深度相机(Gemini336L)+ER mycobot280协作机械臂与Jetson Nano套装的教学演示功能开发、常规操作与设备管理流程,确保系统在3D视觉理解、NLP、物体抓取与放置、动作表现及任务执行等方面达到高标准的性能和可靠性,从而提升用户体验和市场竞争力。

主要功能:AI协作机器人:集成人工智能、大模型技术与机械臂硬件的智能设备,具备多模态感知和自主操作能力。末端执行器:机械臂末端用于执行特定任务的工具或装置,如夹具、吸盘等。

多模态视觉语言大模型:结合视觉和语言处理能力的人工智能模型,支持复杂的图像理解与自然语言交互。

Agent智能体:用于任务编排与优化的智能软件模块,负责机械臂的动作规划与执行。

1、3D深度相机-Gemini336L

Gemini 336L是奥比中光新一代全场景双目3D相机-Gemini 330系列的旗舰产品,能适应最广泛的场景需求。Gemini 336L搭载奥比中光最新自研的先进深度引擎芯片MX6800,配备高性能主被动融合成像系统,具备出色的环境适应性,能够在户外、室内、夜晚、白昼等不同光照条件以及复杂多变的动态环境中稳定输出高质量深度数据,精准还原场景和物体的3D信息,广泛适用于AMR、巡检机器人、协作机械臂等机器人和AI视觉应用场景。

2、ER mycobot280协作机械臂与Jetson Nano套装

ER myCobot 280 Jetson Nano 采用 NVIDIA® Jetson Nano™ 核心开发版作为主控,内置Ubuntu Mate 20.04 操作系统,无需额外搭配PC主控,直接链接显示器、键盘、鼠标即可使用,是快速构建机械臂 机器视觉与机器人应用、控制逻辑开发、机器人融合开发、ROS仿真实验课堂的首选助手,帮助您快速开始六轴机械臂学习与应用。内置 NVIDIA JETSON NANO,为设备提供了强大的图像处理能力。提供标准的末端2D摄像头模组,eye in hand 应用开发方便快捷。通用 Ubuntu Mate 20.04 操作系统,集成 myBlockly、Python、ROS 1\2等多种开发控制环境,支持扩展 数十种末端控制配件,极大地扩展了机器人场景应用能力。内置自主研发的机器人运动控制算法,支持角度、坐标、电位值、 弧度值多种控制模式,便于⽤户理解机器人复杂的工作原理和机器⼈应用原理。myCobot 280 系列机械臂产品开源驱动库提供超90+机器人控制接⼝,1:1还原工业机器人基础控制接口,让用户编程体验更加接近真实的工业机器人开发应用。支持开发应用配合,可以扩展多种如 PC、工控机、嵌入式设备主控,适合多种应用场景。产品支持十余个配件,包含底座、末端扩展、周边产品等,多配件叠加可以完成复杂项目应用,满足商业化展会展示,如机器人应用模型展示、教育教学套装展示、工业4.0的应用场景展示等。

产品特点

大模型机械臂融合

大模型技术与机械臂的深度融合,是TsingtaoAI的核心竞争力所在,代表了自动化领域的重大技术突破。通过集成多模态视觉语言大模型,TsingtaoAI实现了机械臂在视觉、语言及感知层面的全面智能化升级,赋予其更强的智能感知与决策能力。多模态大模型融合视觉信息、语言理解与环境感知,可在复杂场景中实时识别并解析图像、声音、文本等多种输入信号,使机械臂不仅能感知环境,更能理解任务需求,进而做出精准反应。这一融合让机械臂操作更灵活、更人性化,用户可通过自然语言命令与之交互,无需复杂编程或手动操作。

多模态视觉语言大模型还增强了机械臂的适应性与自主学习能力,使其能在不同环境中自我调整与优化。通过实时分析处理来自传感器、深度相机及语音输入的多维数据,机械臂可精准响应任务需求,并在执行过程中持续优化操作策略,提升工作效率

持续升级的技术保障

不断更新优化的大模型算法,为产品的持续升级提供无限可能,确保用户始终能享受到前沿技术服务。随着人工智能和深度学习领域的迅猛发展,大模型算法持续优化创新,不仅提升机械臂的智能化水平,还能随时契合最新行业需求与技术趋势。通过定期软件更新与算法迭代,用户可不断获得更强大的功能与更高的工作效率,这一优势极大地延长了产品生命周期,保障用户在使用过程中的技术前瞻性。

开源助力二次开发

提供开源源代码,鼓励用户开展二次开发与创新,充分彰显其卓越的可扩展性。借助开源平台,用户可自由访问、修改代码,并依据自身需求定制个性化功能与应用,为不同场景下的自动化需求提供定制化解决方案。这一开源特性使本产品在基础功能之上,具备更高灵活性,能够快速响应市场与技术变化。

丰富接口拓展应用:配备丰富的接口与开发资源,极大增强了可扩展性,方便用户集成其他硬件设备或软件系统,进一步拓展产品应用范围。通过灵活的硬件接口与各类功能性 API 接口,用户可将本产品与多种传感器、执行器、外部控制系统及第三方软件平台集成。这不仅简化了不同应用场景下的部署流程,还使产品能在多种应用中提供定制化自动化解决方案。

八、实现案例

实现案例一:物体识别理解和动作执行

实现案例二:机器人沏茶倒茶

以最具挑战性的沏茶任务为例:

通过语音输入,大模型进行语义理解,转化成系统需要执行指令集

两台3D深度相机分别从不同角度拍摄场景,并进行自主学习;

机械臂根据大模型所生成的指令集开始执行对应的动作

机械臂在深度相机支持下实现茶具定位、动作引导,最终完成置茶、冲泡、倒茶、奉茶全流程。

九、高校实训服务套装

系统模块 技术参数 交付物 数量
3D深度相机-Gemini336L 核心参数
1. 适用环境
o 全场景:室内 & 室外
2. 工作范围
o 最大范围:0.17 - 20m+
o 推荐范围:0.25 - 6.0m
3. 深度技术
o 双目视觉
o 基线长度:95 mm
4. 空间相对精度
o ≤ 0.8%(1280×800 @ 2m & 90%×90% ROI)
o ≤ 1.6%(1280×800 @ 4m & 80%×80% ROI)
传感器与性能
1. IMU
o 支持
2. UVC相机
o 支持(彩色相机)
3. 彩色相机规格
o 视场角(FoV):94° × 68°
o 分辨率@帧率:1280 × 800 @ 60fps(最高)
o 图像格式:YUYV & MJPEG
o 快门类型:Global Shutter
4. 深度相机规格
o 视场角(FoV):90° × 65° @ 2m(1280×800)
o 分辨率@帧率:1280 × 800 @ 30fps(最高)
物理与环境
1. 供电
o 建议:DC 5V & ≥ 1.5A
o 平均功耗:< 3 W
2. 工作温度
o -10°C 至 50°C
3. 防护等级
o IP65(防尘防水)
4. 尺寸与重量
o 整机尺寸:124 mm × 29 mm × 27 mm
o 整机重量:133 g
接口与安装
1. 数据接口
o USB 3.0 & USB 2.0 Type-C(数据及供电)
2. 多机同步
o 专用 8-pin 接口
3. 安装方式
o 底部:1 × 1/4-20 UNC 螺孔
o 背面:2 × M4 螺孔
软件支持
• SDK:Orbbec SDK
硬件 10件
ER mycobot280协作机械臂与Jetson Nano套装 自由度: 6
最大工作半径(mm):280
最大负载(g):250
净重(g):1030
重复定位精度(mm):± 0.5
寿命时长(h): 500
电源接口INPUT:DC 8.4 – 14V
USB: USB 3.0*1 USB 2.0*2
辅控:ESP32
主控 :JetsonNano2G
网口:*1
蓝牙:2.4G/5G
视频 : HDMI*1
输入端口(INPUT) :2,3,4,5,6,7,9,11,12,13,16,17,18,19,20,21,22,23,24,25,26,27
输出端口(OUTPUT) : 同输入共用
固定孔位:乐高+螺丝
自由移动:支持
关节运动:支持
笛卡尔运动:支持
轨迹录制:支持
无线控制:支持
Linux:支持
ROS 1:支持
Python:支持
myblockly:支持
mystudio:支持
串口控制协议:支持
TCP/IP:支持
硬件 10件
套件附件 自适应夹爪*1、垂直吸泵*1、灰色G型底座*1 硬件 10件
大模型等相关算法和实训环境 不限于以下开发环境和算法模型:
开发环境:树莓派4B或Ubuntu 20.04等;语音识别API:AppBuilder-SDK短语音识别(极速版)等;语音合成API:AppBuilder-SDK短文本在线合成(PaddleSpeech-TTS)等;大语言模型API:DeepSeek、Qwen等;多模态视觉语言大模型API:DeeSeek-vl2、Yi-Vision、Qwen-VL、CogVLM2、InternVL、Grounding DINO等;
交付物技术资源包:SDK API使用说明文档、3D视觉技术教程。
源代码与模型文件:交付DEMO工程源代码和文件。
软件和算法
实践项目与评估:机器人实训实验全流程示例DEMO工程源代码,示例文件、代码文件及使用说明文档。
交付形式电子文档:所有代码相关的材料、技术指南和使用说明均以PDF、word、PPT等通用格式提供。部分提供在线访问权限,确保学生可以随时查阅最新资料。
1套
具身智能与大模型 第一章
1. 具身智能前沿讲座。具身智能前沿发展,具身智能概述,具身智能与大模型关系,Embodied AI和GAI概述,DeepSeek 大模型在具身智能中应用,场景应用。
2. 具身智能基本原理。具身智能整理框架:语音识别、视觉感知以及触觉传感识别的工作原理,ViT技术,多模态融合感知技术,数据对齐技术与视觉感知技术;自然语言处理与人机交互技术:自然语言理解与生成,自然语言与执行动作的交互。
第二章
3. 具身感知原理。物体感知、行为感知、场景感知实现识别与特征提取,动作意图的理解;学习DeepSeek模型的部署和优化方法,包括语言模型 LLM,BERT, GPT 系列模型比较,Transformer 架构;大模型开发基础:大模型的训练与应用、大模型实操与 API 调用、提示工程技术;RAG 基础与架构:RAG 基础与架构、文档切分常见算法、向量数据库常见算法。
第三章
1.具身推理原理。多模态融合推理(视觉-语言关联,感知-行为关联)学习 DeepSeek-3D 场景理解的任务规划:动作序列规划,路径优化,决策优化;3D 视觉感知的工作原理及技术特点。进一步实现不同场景下的 3D 数据采集与实时分析,通过集成后的数据融合算法与处理方法, 识别形状复杂的物体, 结合大模型算法生成空间语义信息,提升物体定位精度。
第四章
1.具身执行原理:智能体 Agent 的控制与执行;学习模仿学习,执行控制、强化学习的基本原理;具身智能体 Agent 开发:Agent 开发基础、ReAct 框架与剖析 Agent 核心部件;智能设备与小参数模型:智能设备上的模型优化基础、 模型在智能设备上的部署、 边缘计算中的大模型应用;智能体 Agent 的控制与执行技术: 智能体控制算法与应用, 协作机器人控制策略, 智能体精度与稳定性调优,使用反馈控制技术提升动作的准确性。
第五章
1.具身智能反馈优化:基于大模型的分布式推理与反馈优化;高效的微调方法(参数高效、内存高效),使用 DeepSeek-Tuning 工具包进行 LoRA 微调;大模型推理优化,推理过程的概述与常见挑战,模型推理的性能瓶颈分析,多机多卡分布式推理的必要性与优势,MindIE 简介与多模态推理,推理优化的前沿技术与研究调技术。
第六章
1.具身智能综合设计:工业制造领域智能分拣 Agent 构建。介绍工业制造中智能分拣的需求, 定义具体应用场景。 进行数据准备与预处理, 模型选择与训练,智能分拣 Agent 架构设计,集成与测试,性能评估与优化,视觉定位(YOLOv6+DeepSeek-Vision 融合)与决策逻辑(DeepSeek-LLM 生成可解释的分拣策略);AIGC 应用开发实践课程-多模态大模型应用开发: AIGC 相关的理论和技术, 包括视觉大模型和多模态大模型的原理及应用。
第七章
交流讨论与感想
环境感知与建模: 利用大模型对传感器数据进行高效处理和分析, 机器人能够实时构建周围环境的精确三维模型,为后续的路径规划和避障提供有力支持。
智能导航算法: 结合大模型的强化学习算法, 训练出了能够在复杂环境中灵活导航的机器人。这些机器人能够根据实时路况调整行进路线,确保任务的顺利完成。
人机交互体验: 借助大模型在自然语言处理方面的优势, 实现了机器人与操作人员之间的流畅对话,极大提升了用户体验和工作效率。
协作机器人的开发, 协作机器人作为新一代工业机器人, 强调与人类工人的安全协同作业。在这一领域,主要聚焦于通过具身智能提升机器人的灵活性与适应性。
智能抓取与装配: 利用大模型对物体形状、 重量及材质等信息的快速识别与处理, 协作机器人能够准确抓取并灵活装配各种工件,大幅提高了生产效率和质量。自适应学习能力: 通过引入深度学习技术, 我们使协作机器人具备了自适应学习能力。
它们能够在实际工作中不断积累经验,自动优化作业策略以应对复杂多变的生产环境。
课程
交付物课程设计与实训材料:每个课程一套详细的课程大纲、教案、实训指导书和代码文档。
交付形式所有课程材料、技术指南和实验说明均以PDF、word、PPT等通用格式提供,部分提供在线访问权限,确保学生可以随时查阅最新资料。
建议18课时(可根据学校需求进行时长的增加或压缩),每课时30-40分钟
具身智能与大模型培训教学实验 实验 1-环境搭建与语音交互实验
实验内容:安装运行环境,安装语音识别、视觉感知环境,用于物体识别、三维定位和空间建图,为机械臂提供环境感知支持。 调用 DeepSeek-Whisper API 实现实时语音转文本,测试机械臂语音指令和自然语言指令下的动作反应。
实验 2- 基于具身感知的物体识别与抓取
学习语音、 视觉、 文本三模态数据融合交互学习的算法, 学习大模型算法, 实现机器人对语音指令的识别与理解,实现物体识别并进行抓取 3D 数据的预处理方法,提升物体定位与抓取的准确性和鲁棒性。
实验 3-多模态融合推理(基于人机对话语音交互的任务调度)
设计语音指令并编写指令解析代码, 根据语音指令进行任务规划和动作执行, 测试机械臂在自然语言指令下的动作反应;
通过多任务处理和优先级调度算法,改进语音识别与理解的准确性和鲁棒性;
实现视觉与语言的匹配和动作响应,测试机械臂对语言指令的响应与反馈;
通过 DeepSeek-Agent 任务调度,实现复杂任务规划与视觉引导。
实验 4-具身智能体 Agent 的搭建与控制执行
进行 DeepSeek-Agent 开发,Agent 核心功能模块实现与性能测试评估;
编程实现智能体(机械臂)的高精度抓取与安全避障智能体控制接口编程;
推理环境配置,分布式推理所需的硬件与软件环境搭建,基于 NCCL 和 Horovod 的分布式推理框架互进行推理演练。
实验 5:基于推理的优化执行(大模型的分布式推理实操与动作执行优化)使用 ROS 和 C++编程控制机械臂,控制机械臂实现复杂的动态交互,实现复杂轨迹规划与误差补偿,进行系统鲁棒性分析与优化。
通过多机多卡进行推理的性能分析与优化, 在特定任务下的 llama3.1 405B 模型分布式推理,部署 DeepSeek-MoE-16x8B 模型,使用 ROS 和 C++编程控制机械臂,控制机械臂实现复杂的动态交互,实现复杂轨迹规划与误差补偿,进行系统鲁棒性分析与优化
实验 6:工业制造产品智能分拣系统开发
系统需求分析与设计:学员根据所学知识,分析智能分拣系统的需求, 并设计系统架构。
模型训练与调优: 学员使用提供的数据集训练模型,并进行参数调优, 以提高分拣准确率。
智能分拣 Agent 实现:学员利用 LLM 和 ReAct 框架,实现一个能够响应分拣指令的智能Agent。
系统集成与测试:学员将训练好的模型和智能 Agent 集成到系统中,进行整体测试。
性能评估与报告撰写:学员评估系统性能, 并撰写实验报告, 总结学习成果和经验教训。
实验课程
交付物课程设计与实训材料:每个课程一套详细的课程大纲、教案、实训指导书和代码文档。
交付形式所有课程材料、技术指南和实验说明均以PDF、word、PPT等通用格式提供,部分提供在线访问权限,确保学生可以随时查阅最新资料。
建议10课时(可根据学校需求进行时长的增加或压缩),每课时30-40分钟
师资培训 具身智能与3D视觉技术的融合应用
培训课程大纲及体系架构详解
机器人抓取任务实战演示
实训流程及操作指南
创新实践项目的探索与实施
实训过程中的关注点与风险规避
线上或线下授课 3课时

说明:

1. 包含税金(1个点专票)、运费,含一次上门技术支持调试和师资培训;如果需要更高点的发票,需要在价格基础上增加相应税点。

2. 包括两年云端服务费用(LLM的API),上限50万次/月,语音ASR和TTS模型每月上限3000次

3.本方案共10套设备,支持40人左右学生的同步实训(4人一组,每组需要学生至少带1台笔记本电脑);

4.以上课程和实验面向应用型本科,高职需另外定制。

5.如果要容纳更多学生实训,需要增加硬件设备,软件算法和实训课程费用不增加。

6.另外定制实验和课程的话,课时数和课程内容均可根据面向专业、学生基础及学校需求进行定制开发,课程单价不变。

十、软件配置

智能体大模型

深度求索DeepSeek-R1大语言模型,通义千问Qwen2.5-VL-Max视觉语言模型,实现动作编排和视觉理解功能,支持16种指令操作。 

开发环境

开发环境基于 Python 3.10,具有稳定性高、开发效率强等优势,特别适用于处理多模态视觉和语言大模型,支持自然语言处理和视觉理解功能。Python 作为广泛应用的开发语言,能够高效处理数据分析、图像处理、音频处理、机器学习等多种任务,为项目提供灵活和可扩展的开发框架。

以下是本开发环境中使用的关键软件包:

  • numpy==1.26.4:提供高效的数值计算功能。

  • opencv-python:用于计算机视觉任务,如图像处理和视频分析。

  • appbuilder-sdk:为开发提供便捷的工具和接口。

  • Pillow:强大的图像处理库。

  • qianfan:提供相关的服务和支持。

  • pyaudio:需先执行 sudo apt-get install portaudio19-dev 进行依赖安装,再通过 pip install pyaudio 安装,用于音频处理。

  • pybind11==2.11.0 和 pybind11-global==2.11.0:用于 Python 与 C++ 的交互。

  • plyfile:用于处理 PLY 文件格式。

  • open3d:用于三维数据处理和可视化。

  • openai:可用于调用 OpenAI 的相关服务。

  • redis:高性能的键值对存储数据库,可用于缓存和数据存储。

大模型 API 调用

○在深度求索DeepSeek官方平台上购买API服务https://platform.deepseek.com/usage。

○文字识别(ASR)和语音合成 (TTS) 模型:百度AppBuilder-SDK短语音识别(极速版),百度AppBuilder-SDK短文本在线合成(PaddleSpeech-TTS)

十一、实现功能

多模态指令执行

精准动作控制

  • 指定关节坐标运动:支持依据用户输入的末端执行器关节坐标(x, y, z),精确控制机械臂到达指定位置,满足高精度操作需求。此功能可确保机械臂在执行任务时实现精准定位,适用于如装配、焊接等对精度要求极高的工作场景。

  • LED 灯颜色调节:机械臂配备可调节的 LED 灯,用户能够根据实际需求设置不同的灯光颜色。该功能一方面可用于状态指示,通过不同颜色直观显示机械臂的工作状态,如红色代表故障、绿色代表正常工作;另一方面可作为创意展示元素,提升交互体验和视觉效果。

  • 生动动作执行:为增强互动性和趣味性,机械臂能够执行点头、摇头、跳舞等多种生动动作。这些动作不仅能带来轻松有趣的交互体验,还能帮助学生更好地理解机械臂的运动控制和程序编写方式。

  • 功能操作指令

  • 吸泵开关控制:机械臂配备吸泵控制系统,用户可通过指令灵活开关吸泵,实现物体的抓取和释放操作。这一功能广泛应用于物料搬运、自动化装配等场景,能有效提升工作生产效率,可轻松应对各种物料的搬运需求。

  • 多模态抓取功能:结合深度相机与大模型的视觉理解能力,机械臂可精准识别并抓取不同形状、材质的物体。通过视觉感知精准定位物体,再利用吸盘完成抓取操作,使其能够适应搬运、装配等复杂任务需求。

  • 拖动示教功能:允许用户手动引导机械臂运动,机械臂会自动记录运动轨迹并在后续自动复现。该功能极大简化了编程过程,即使没有编程经验的用户也能方便地进行任务编程,降低了操作门槛。

  • 等待时间设置:在执行复杂任务时,用户可在指令中插入等待时间,灵活控制动作序列中的停顿,确保动作按顺序执行,或为其他操作提供必要的缓冲,实现更复杂的任务流程。

  • 机械臂放松功能:在需要调整机械臂姿态或进行维护时,用户可使用此指令让机械臂各个关节放松,使其处于松弛状态,方便进行调整和维护操作,保障设备的正常运行。

  • 俯视姿态拍照:可将机械臂的末端执行器移动到指定的俯视角度,用于图像采集或其他视觉检测任务。适用于质量检测、图像识别等多种应用场景,为相关工作提供准确的图像数据支持。

Agnet人机交互

创新性地采用基于自然语言处理的大模型与机械臂相结合的智能 Agent 人机交互模式,旨在为用户打造简便直观的交互体验。通过这种交互方式,用户无需掌握复杂编程技能或操作命令,仅需运用自然语言下达指令,机械臂便能迅速理解并精准执行。

自然语言指令操控

基于自然语言的人机交互方式,让用户能够通过简洁易懂的自然语言指令控制机械臂。诸如 “抓取红色苹果”“将工件搬运到指定位置” 等指令,机械臂均可理解并准确执行。系统内置的大模型凭借先进的NLP算法,能够精准解析指令中的关键目标、动作及位置信息,将自然语言指令高效转换为具体的动作指令,极大提升了用户体验,显著降低操作门槛。

智能体动作编排

智能体 Agent 作为系统的核心调度模块,承担着将用户输入的自然语言指令解析为一系列机械臂具体动作的重任。以用户指令 “将蓝色球放到右侧的架子上” 为例,智能体将依循以下步骤执行:

  • 任务分解:把复杂指令拆解为诸如 “抓取蓝色球” 和 “移动到右侧架子” 等单一动作,使任务执行更具条理性。

  • 动作编排:依据任务优先级以及实际场景状况,合理规划动作执行顺序,保障每一步操作高效完成。通过这种任务解析与动作编排机制,系统得以准确领会用户需求,并高效执行复杂操作,使机械臂的动作编排与路径规划更为智能、高效。智能体 Agent 借助任务解析、动态路径规划、多智能体协作以及持续优化等技术,在多样化应用场景中展现出卓越的执行能力,大幅提升任务效率,同时确保操作的安全性与精确性。

多模态融合助力精准操作

系统融合多模态大模型的视觉理解能力,赋予机械臂强大的图像识别与信息感知功能。通过视觉与语言两种模态的深度整合,机械臂能够精准识别图像中的物体、场景信息及特征属性,并结合自然语言指令实现精确操作。例如:面对一堆物品,当用户发出 “抓取蓝色圆形物体” 的指令时,系统能够快速从图像中定位目标物体的颜色、形状和位置,生成精准的抓取路径并高效执行任务。这种视觉与语言深度融合的特性,使机械臂在复杂环境下依然能够精准、高效地完成任务,显著提升操作的智能化与实用性。

十二、可扩展的应用场景(实验实训需定制)

工业分拣场景

在工业分拣领域,本具身智能机器人开发套件凭借其多模态大模型的视觉理解能力,可精准识别不同形状、尺寸和材质的零部件。例如,在电子制造工厂的零部件分拣环节,面对大量外观相似的电子元件,套件中的机械臂能借助深度相机获取视觉信息,通过大模型快速分析并准确抓取目标元件,实现高效分拣。这为高校相关专业,如自动化、机械工程等,提供了丰富的创新实验课题。

学生可以研究如何优化大模型的识别算法,提高分拣准确率;探索机械臂运动路径规划,提升分拣效率;开展实验,实现不同类型工业机器人在分拣任务中的协同作业,从而培养学生在工业自动化领域的创新实践能力。在课程方面,可开设 “工业机器人智能分拣应用” 实验课程,让学生深入学习工业分拣流程、机器人编程以及大模型在工业场景中的应用。

农作物采摘场景

农作物采摘往往面临劳动强度大、人力成本高的问题。本开发套件能够大显身手,以草莓采摘为例,其机械臂在多模态大模型和视觉系统的协同下,可识别草莓的成熟度、位置和形状。通过精准的动作控制,轻柔地采摘草莓,避免损伤果实。对于高校农业工程、机器人工程等专业,这为学生提供了创新实验机会。

学生可以针对不同农作物的生长特性和采摘要求,改进机械臂的末端执行器设计;利用大模型优化视觉识别算法,适应复杂的农田环境光照变化;开展实验研究如何实现机器人在农田中的自主导航与采摘任务规划。

在课程设置上,可设立 “农业机器人应用技术”实验 实验课程,涵盖农作物生长特性分析、机器人视觉感知与控制、农业场景下的机器人编程等内容,让学生全面掌握农业机器人技术在农作物采摘中的应用。

物流运输场景

物流运输环节包含仓储、分拣、搬运等多个复杂流程。本具身智能机器人开发套件能实现从货架上精准分拣物料,并搬运至指定位置。例如在物流仓库中,机械臂可依据多模态大模型获取的定位和语义信息,快速从众多货物中分拣出目标物品,再由移动底盘配合完成搬运。对于高校物流管理、自动化专业的学生而言,可围绕此开展创新实验。

比如研究如何运用大模型优化物流机器人的任务调度算法,提高仓库物流效率;实验不同类型物流机器人与套件的协同作业模式;探索利用大模型实现物流运输过程中的智能路径规划,降低运输成本。高校还可开设 “物流机器人与智能仓储系统” 实验课程,教授物流流程优化、机器人系统集成以及大模型在物流场景中的应用等知识,培养学生在智慧物流领域的专业素养。

生产制造场景

在生产制造领域,本开发套件可助力完成装配、焊接等高精度任务。以电子产品装配为例,机械臂能依据大模型解析的产品装配图纸和工艺要求,精准控制各关节运动,将微小零部件准确装配到位。对于高校机械制造、电子信息工程等专业,这为学生提供了绝佳的创新实践平台。

学生可以通过实验改进大模型对复杂装配工艺的理解和执行能力;研究如何提升机械臂在装配过程中的精度控制和稳定性;开展项目探索多台套件在自动化生产线上的协同工作模式。高校可开设 “智能生产制造与机器人应用” 实验课程,涵盖生产制造工艺、机器人编程与控制、大模型驱动的智能制造技术等内容,使学生掌握生产制造领域的前沿技术与创新应用。

十三、实验手册节选

十四、AI实训课程大纲案例-应用型本科

第一章

  1. 具身智能前沿讲座。具身智能前沿发展,具身智能概述,具身智能与大模型关系,Embodied AI和GAI概述,DeepSeek 大模型在具身智能中应用,场景应用。

  2. 具身智能基本原理。具身智能整理框架:语音识别、视觉感知以及触觉传感识别的工作原理,ViT技术,多模态融合感知技术,数据对齐技术与视觉感知技术;自然语言处理与人机交互技术:自然语言理解与生成,自然语言与执行动作的交互。

3.实验 1-环境搭建与语音交互实验

实验内容:安装运行环境,安装语音识别、视觉感知环境,用于物体识别、三维定位和空间建图,为机械臂提供环境感知支持。 调用 DeepSeek-Whisper API 实现实时语音转文本,测试机械臂语音指令和自然语言指令下的动作反应。

第二章

  1. 具身感知原理。物体感知、行为感知、场景感知实现识别与特征提取,动作意图的理解;学习DeepSeek模型的部署和优化方法,包括语言模型 LLM,BERT, GPT 系列模型比较,Transformer 架构;大模型开发基础:大模型的训练与应用、大模型实操与 API 调用、提示工程技术;RAG基础与架构:RAG 基础与架构、文档切分常见算法、向量数据库常见算法。

2.实验 2- 基于具身感知的物体识别与抓取

学习语音、 视觉、 文本三模态数据融合交互学习的算法,学习大模型算法, 实现机器人对语音指令的识别与理解,实现物体识别并进行抓取 3D 数据的预处理方法,提升物体定位与抓取的准确性和鲁棒性。

第三章

1.具身推理原理。多模态融合推理(视觉-语言关联,感知-行为关联)学习 DeepSeek-3D 场景理解的任务规划:动作序列规划,路径优化,决策优化;3D 视觉感知的工作原理及技术特点。进一步实现不同场景下的 3D 数据采集与实时分析,通过集成后的数据融合算法与处理方法, 识别形状复杂的物体,结合大模型算法生成空间语义信息,提升物体定位精度。

2.实验 3-多模态融合推理(基于人机对话语音交互的任务调度)

设计语音指令并编写指令解析代码,根据语音指令进行任务规划和动作执行,测试机械臂在自然语言指令下的动作反应;

通过多任务处理和优先级调度算法,改进语音识别与理解的准确性和鲁棒性;

实现视觉与语言的匹配和动作响应,测试机械臂对语言指令的响应与反馈;

通过 DeepSeek-Agent 任务调度,实现复杂任务规划与视觉引导。

第四章

1.具身执行原理:智能体 Agent 的控制与执行;学习模仿学习,执行控制、强化学习的基本原理;具身智能体 Agent 开发:Agent 开发基础、ReAct 框架与剖析 Agent 核心部件;智能设备与小参数模型:智能设备上的模型优化基础、模型在智能设备上的部署、边缘计算中的大模型应用;智能体Agent的控制与执行技术:智能体控制算法与应用,协作机器人控制策略, 智能体精度与稳定性调优,使用反馈控制技术提升动作的准确性。

2.实验 4-具身智能体 Agent 的搭建与控制执行

进行 DeepSeek-Agent 开发,Agent 核心功能模块实现与性能测试评估;

编程实现智能体(机械臂)的高精度抓取与安全避障智能体控制接口编程;

推理环境配置,分布式推理所需的硬件与软件环境搭建,基于 NCCL 和 Horovod 的分布式推理框架互进行推理演练。

第五章

1.具身智能反馈优化:基于大模型的分布式推理与反馈优化;高效的微调方法(参数高效、内存高效),使用 DeepSeek-Tuning 工具包进行 LoRA 微调;大模型推理优化,推理过程的概述与常见挑战,模型推理的性能瓶颈分析,多机多卡分布式推理的必要性与优势,MindIE 简介与多模态推理,推理优化的前沿技术与研究调技术。

2.实验 5:基于推理的优化执行(大模型的分布式推理实操与动作执行优化)使用 ROS 和 C++编程控制机械臂,控制机械臂实现复杂的动态交互,实现复杂轨迹规划与误差补偿,进行系统鲁棒性分析与优化。

通过多机多卡进行推理的性能分析与优化, 在特定任务下的 llama3.1 405B 模型分布式推理,部署 DeepSeek-MoE-16x8B 模型,使用 ROS 和 C++编程控制机械臂,控制机械臂实现复杂的动态交互,实现复杂轨迹规划与误差补偿,进行系统鲁棒性分析与优化

第六章

1.具身智能综合设计:工业制造领域智能分拣 Agent 构建。介绍工业制造中智能分拣的需求, 定义具体应用场景。进行数据准备与预处理, 模型选择与训练,智能分拣 Agent 架构设计,集成与测试,性能评估与优化,视觉定位(YOLOv6+DeepSeek-Vision 融合)与决策逻辑(DeepSeek-LLM 生成可解释的分拣策略);AIGC 应用开发实践课程-多模态大模型应用开发:AIGC 相关的理论和技术,包括视觉大模型和多模态大模型的原理及应用。

2.实验 6:工业制造产品智能分拣系统开发

系统需求分析与设计:学员根据所学知识,分析智能分拣系统的需求,并设计系统架构。

模型训练与调优:学员使用提供的数据集训练模型,并进行参数调优,以提高分拣准确率。

智能分拣 Agent 实现:学员利用 LLM 和 ReAct 框架,实现一个能够响应分拣指令的智能Agent。

系统集成与测试:学员将训练好的模型和智能 Agent 集成到系统中,进行整体测试。

性能评估与报告撰写:学员评估系统性能,并撰写实验报告,总结学习成果和经验教训。

第七章

交流讨论与感想

环境感知与建模:利用大模型对传感器数据进行高效处理和分析,机器人能够实时构建周围环境的精确三维模型,为后续的路径规划和避障提供有力支持。

智能导航算法:结合大模型的强化学习算法,训练出了能够在复杂环境中灵活导航的机器人。这些机器人能够根据实时路况调整行进路线,确保任务的顺利完成。

人机交互体验:借助大模型在自然语言处理方面的优势,实现了机器人与操作人员之间的流畅对话,极大提升了用户体验和工作效率。

协作机器人的开发,协作机器人作为新一代工业机器人,强调与人类工人的安全协同作业。在这一领域,主要聚焦于通过具身智能提升机器人的灵活性与适应性。

智能抓取与装配:利用大模型对物体形状、重量及材质等信息的快速识别与处理,协作机器人能够准确抓取并灵活装配各种工件,大幅提高了生产效率和质量。自适应学习能力:通过引入深度学习技术,我们使协作机器人具备了自适应学习能力。它们能够在实际工作中不断积累经验,自动优化作业策略以应对复杂多变的生产环境。

十五、获奖及认证

十六、实训现场

关于TsingtaoAI

TsingtaoAI通过对前沿先进具身机器人与协作机器人的算法和智能体开发,搭建面向自动化工厂的具身智能实训平台,可以让企业在实际大规模产线决策建设前,进行预研实训,以让企业获得更快接入超级AI工厂的能力。

TsingtaoAI基于PBL的项目式实训理念,自研VLA的多模态具身智能实验实训套装、LLM的AIGC应用开发实训平台、基于LLM大模型的AI通识素养课数字人助手、一站式机器学习/深度学习/大模型AI训练实训平台和基于大语言模型的AIGC案例学习平台,为央国企、上市公司、外资企业、政府部门和高校提供AI&具身智能实训道场建设服务。

Product & Case.

产品与案例