企业动态|TsingtaoAI晋级“雄才杯”2025创新创业大赛决赛


本方案提出以DeepSeek大模型为核心,结合3D视觉感知与多模态融合技术,构建“端到端”的具身智能实训平台,解决高校在机器人教学与科研中“理论脱离实践”的痛点。
系统采用“多模态输入→感知与理解→行动执行→反馈学习”的闭环架构,深度融合语言、视觉与物理交互:
-
语音识别:集成Whisper与AppBuilder SDK,支持中英文语音指令实时转译(识别精度≥95%);
-
3D视觉感知:采用Orbbec Gemini 335L与Femto Bolt iToF深度相机,实现毫米级精度(深度误差≤2%)的物体识别、三维定位(精度±1mm)及语义分割;
-
触觉反馈:机械臂末端配备六维力矩传感器(量程0-50N·m),实时监测抓取力(分辨率0.01N)并动态调整夹持策略。
-
DeepSeek语义解析:通过指令分解(如“沏茶”任务→取杯、注水等子任务)生成动作序列;
-
多模态融合模型:基于Transformer架构,融合视觉点云(PCL)、语音文本(NLP)与触觉数据(Force-Torque),构建场景语义图(Scene Graph),支持复杂指令(如“将绿色积木置于红色方块左侧10cm处”)的精准解析。
-
路径规划:基于RRT*(快速探索随机树)与逆运动学(IK)算法,生成无碰撞轨迹(规划时间≤50ms);
-
机械臂控制:采用高精度协作机械臂(如mycobot 320-M5,重复定位精度±0.03mm),支持拖动示教与阻抗控制,实现动态避障与柔性抓取。
-
DRL:在PyBullet仿真环境中预训练抓取策略(PPO算法),迁移至实体机械臂实现零样本适配;
-
多模态数据闭环:通过动作Success Rate与Force Error反馈,持续优化决策模型参数。
-
多模态感知层:
-
多模态理解与决策层:
-
行动执行层:
-
学习反馈层:
3.1 多模态语义对齐
提出VLA融合框架,通过跨模态注意力机制对齐语言指令与视觉特征:
-
语言-视觉映射:利用CLIP模型提取文本与图像的联合嵌入,实现“红色茶杯”“方形托盘”等语义概念的跨模态检索;
-
动作-环境耦合:基于3D场景重建(TSDF体积融合算法),生成6D物体姿态(SE(3))与抓取点热力图(GraspNet),指导机械臂完成精准操作。
3.2 实时分布式推理
-
边缘计算优化:在NVIDIA Jetson Orin Nano(算力40 TOPS)部署DeepSeek模型,支持多机多卡分布式推理(延迟≤200ms);
-
模型轻量化:采用LoRA技术微调大模型,参数量压缩至原模型10%,适配边缘设备资源限制。
3.3 安全与鲁棒性保障
-
动态避障策略:结合RGB-D相机的点云数据与机械臂雅可比矩阵,实时计算碰撞锥(Collision Cone),触发紧急制动(响应时间≤10ms);
-
力控自适应:基于阻抗控制模型(F=KpΔx+KdΔvF=KpΔx+KdΔv),动态调整末端执行器刚度系数(Kp∈[100,2000]N/mKp∈[100,2000]N/m),适应易碎物体抓取。
4.1 教学实训模块
-
实验1:3D视觉标定与Eye-to-Hand,实现相机坐标系与机械臂基坐标系的精确转换;
-
实验3:多模态物体抓取,结合YOLOv8-3D检测模型与GQ-CNN抓取预测网络。
-
实验9:工业分拣系统开发,集成DeepSeek与ReAct框架,实现基于语义的工件分类;
-
实验10:AIGC创意任务生成,通过Stable Diffusion生成指令序列,驱动机械臂完成艺术绘画。
-
基础实验:
-
高阶项目:
4.2 科研创新方向
-
视觉-语言-动作一体化模型:探索ViLa架构在开放世界中的零样本泛化能力;
-
跨模态终身学习:设计增量式训练策略,使系统持续适应新物体与新任务。
-
真实场景复现:通过3D视觉与触觉反馈模拟工业4.0环境(如无序分拣、柔性装配),缩短“仿真→实机”迁移周期;
-
前沿技术集成:深度融合DeepSeek、3D视觉、DRL等关键技术,支持高校在具身智能领域的“顶会论文级”研究;
-
模块化扩展:硬件支持Orbbec/Femto相机互换,软件兼容ROS2与MindSpore框架,适配不同学科需求。
本方案已通过华为昇腾兼容性认证,并在华中科技大学、北京邮电大学等高校落地。后续也将会与龙芯中科等国产信创厂商打通兼容,助力培养具备“认知-决策-执行”全栈能力且自主可控的复合型人才,为AGI的终极目标提供技术储备与人才基石。
