企业动态|TsingtaoAI晋级“雄才杯”2025创新创业大赛决赛

 
2月27日,“雄才杯”2025创新创业大赛启动仪式暨京津冀赛区初赛在雄安新区成功举办。活动现场,新一代信息技术、现代生命科学和生物技术、新材料3个赛道上,100余个创新创业团队项目负责人围绕项目核心竞争力、创新商业模式及行业发展前景等方面进行路演展示。评审专家组从技术创新性、产业模式、市场前景、团队实力等多个维度对路演项目进行综合评分。3个赛道得分排前30%的优质项目进入决赛。在新一代信息技术赛道,TsingtaoAI带来的“基于DeepSeek的具身智能实训”项目,从55个项目中脱颖而出,顺利晋级全国决赛。
 
 

output.png

 

关于TsingtaoAI
基于DeepSeek的具身智能实训解决方案

本方案提出以DeepSeek大模型为核心,结合3D视觉感知与多模态融合技术,构建“端到端”的具身智能实训平台,解决高校在机器人教学与科研中“理论脱离实践”的痛点。

 

 

 

系统采用“多模态输入→感知与理解→行动执行→反馈学习”的闭环架构,深度融合语言、视觉与物理交互:

  1. 语音识别:集成Whisper与AppBuilder SDK,支持中英文语音指令实时转译(识别精度≥95%);

  2. 3D视觉感知:采用Orbbec Gemini 335L与Femto Bolt iToF深度相机,实现毫米级精度(深度误差≤2%)的物体识别、三维定位(精度±1mm)及语义分割;

  3. 触觉反馈:机械臂末端配备六维力矩传感器(量程0-50N·m),实时监测抓取力(分辨率0.01N)并动态调整夹持策略。

  1. DeepSeek语义解析:通过指令分解(如“沏茶”任务→取杯、注水等子任务)生成动作序列;

  2. 多模态融合模型:基于Transformer架构,融合视觉点云(PCL)、语音文本(NLP)与触觉数据(Force-Torque),构建场景语义图(Scene Graph),支持复杂指令(如“将绿色积木置于红色方块左侧10cm处”)的精准解析。

  1. 路径规划:基于RRT*(快速探索随机树)与逆运动学(IK)算法,生成无碰撞轨迹(规划时间≤50ms);

  2. 机械臂控制:采用高精度协作机械臂(如mycobot 320-M5,重复定位精度±0.03mm),支持拖动示教与阻抗控制,实现动态避障与柔性抓取。

  1. DRL:在PyBullet仿真环境中预训练抓取策略(PPO算法),迁移至实体机械臂实现零样本适配;

  2. 多模态数据闭环:通过动作Success Rate与Force Error反馈,持续优化决策模型参数。

 

  1. 多模态感知层:

  2. 多模态理解与决策层:

  3. 行动执行层:

  4. 学习反馈层:

 

 
 
 
核心技术突破
 
 

 

 

3.1 多模态语义对齐

提出VLA融合框架,通过跨模态注意力机制对齐语言指令与视觉特征:

  • 语言-视觉映射:利用CLIP模型提取文本与图像的联合嵌入,实现“红色茶杯”“方形托盘”等语义概念的跨模态检索;

  • 动作-环境耦合:基于3D场景重建(TSDF体积融合算法),生成6D物体姿态(SE(3))与抓取点热力图(GraspNet),指导机械臂完成精准操作。

 

3.2 实时分布式推理

  • 边缘计算优化:在NVIDIA Jetson Orin Nano(算力40 TOPS)部署DeepSeek模型,支持多机多卡分布式推理(延迟≤200ms);

  • 模型轻量化:采用LoRA技术微调大模型,参数量压缩至原模型10%,适配边缘设备资源限制。

 

3.3 安全与鲁棒性保障

  • 动态避障策略:结合RGB-D相机的点云数据与机械臂雅可比矩阵,实时计算碰撞锥(Collision Cone),触发紧急制动(响应时间≤10ms);

  • 力控自适应:基于阻抗控制模型(F=KpΔx+KdΔvF=KpΔx+KdΔv),动态调整末端执行器刚度系数(Kp∈[100,2000]N/mKp∈[100,2000]N/m),适应易碎物体抓取。

 

 

 
 
 
教学与科研应用场景
 
 

 

 

4.1 教学实训模块

  • 实验1:3D视觉标定与Eye-to-Hand,实现相机坐标系与机械臂基坐标系的精确转换;

  • 实验3:多模态物体抓取,结合YOLOv8-3D检测模型与GQ-CNN抓取预测网络。

  • 实验9:工业分拣系统开发,集成DeepSeek与ReAct框架,实现基于语义的工件分类;

  • 实验10:AIGC创意任务生成,通过Stable Diffusion生成指令序列,驱动机械臂完成艺术绘画。

  • 基础实验:

  • 高阶项目

 

4.2 科研创新方向

  • 视觉-语言-动作一体化模型:探索ViLa架构在开放世界中的零样本泛化能力;

  • 跨模态终身学习:设计增量式训练策略,使系统持续适应新物体与新任务。

 

 

 
 
 
方案优势与适配场景
 
 

 

 

  1. 真实场景复现:通过3D视觉与触觉反馈模拟工业4.0环境(如无序分拣、柔性装配),缩短“仿真→实机”迁移周期;

  2. 前沿技术集成:深度融合DeepSeek、3D视觉、DRL等关键技术,支持高校在具身智能领域的“顶会论文级”研究;

  3. 模块化扩展:硬件支持Orbbec/Femto相机互换,软件兼容ROS2与MindSpore框架,适配不同学科需求。

 

本方案已通过华为昇腾兼容性认证,并在华中科技大学、北京邮电大学等高校落地。后续也将会与龙芯中科等国产信创厂商打通兼容,助力培养具备“认知-决策-执行”全栈能力且自主可控的复合型人才,为AGI的终极目标提供技术储备与人才基石。

TsingtaoAI依托高水平的产学研团队,将DeepSeek大模型与机器人技术深度耦合,面向高校实验室,打造“教学-科研-产业”三位一体的具身智能教育生态。通过实训课程与进阶实验,学生可系统性掌握从多模态感知到自主决策的全链条技术,为AI与机器人领域输送具备创新能力的领军人才。
 

 

Product & Case.

产品与案例