师资培训｜DeepSeek⼤模型与具⾝智能专项技术培训成功举办

2025年4月北京——工业和信息化部电子工业标准化研究院联合北京博创鑫鑫教育科技和TsingtaoAI，于2025年4月11日至14日在北京成功举办“人工智能从业人员‘应用集成设计开发工程师’暨DeepSeek大模型与具身智能专项培训”。本次培训吸引了来自全国高等院校、科研机构及企业的近20多名教师、科研人员和研究生参与。

聚焦前沿技术，赋能行业创新

培训以DeepSeek大模型与具身智能为核心，围绕多模态感知、人机交互、智能体开发等前沿领域展开，结合理论与实践，打造了多层次、多维度的课程体系。课程内容涵盖：

具身智能基础与多模态感知技术：深入解析语音识别、视觉感知、触觉传感等模块的融合应用；
大模型开发与优化：系统学习DeepSeek模型的部署、微调及分布式推理技术；
智能体与机器人控制：通过协作机器实操，掌握任务规划、动作执行与反馈优化；
创新应用实践：探索文本生成图像、视频生成、语音交互等场景化应用，激发技术创意。

产学研深度融合，师资力量雄厚

本次培训由清华大学、北京大学、中科院等顶尖高校及企业的专家团队联合授课。中科院计算机博士蔡老师、资深算法专家肖老师等领衔主讲，结合自身在机器人开发、多模态大模型领域的丰富经验，为学员提供了从理论到实践的全方位指导。培训采用“多模态输入→感知与理解→行动执行→反馈学习”的闭环教学模式，通过3D视觉、触觉传感与深度相机等先进设备，模拟真实场景，显著提升了学员的实践能力。

课程大纲

时间：

第一天上午

授课内容：

1. 具身智能学习导论

具身智能的发展概述

具身智能与大模型关系

具身智能（Embodied AI）和通用人工智能（GAI）概述

具身智能关键技术和领域

DeepSeek大模型在具身智能中的定位：MoE架构、128K长上下文、多模态扩展能力

DeepSeek-R1机器人基础模型技术解析（对比LLaMA、GPT系列）

2. 多模态感知层

语音识别模块、视觉感知模块、以及触觉传感模块

Vision Transformer (ViT)技术

多模态融合感知技术

数据对齐技术

视觉感知：DeepSeek-Vision的ViT-XXL架构在物体识别中的应用

数据对齐：基于DeepSeek-Embedding的多模态特征对齐技术

3. 自然语言处理与人机交互技术

自然语言理解与生成的基本原理

语言数据的收集、标注与模型训练

自然语言与执行动作的交互

实验

实验1：多模态感知层

语音识别：通过LLM内置的语音识别工具，Whisper或开源的AppBuilder SDK将语音指令转化为文字

视觉感知：采用3D深度相机（Orbbec Gemini 335L和Femto Bolt iToF），用于物体识别、三维定位和空间建图，为机械臂提供环境感知支持。

实验2：语音交互实验，人机对话与任务调度

测试机械臂在自然语言指令下的动作反应

根据语音指令进行任务规划和动作执行

调用DeepSeek-Whisper API实现实时语音转文本

时间：

第一天下午

授课内容：

4. 大模型与多模态模型基础

大模型与多模态模型概述

LLaMA模型及其应用开发-学习LLaMA模型的部署和优化方法

大模型之模型架构：语言模型LLM,BERT, GPT系列模型比较,Transformer架构

大模型开发基础：大模型的训练与应用、大模型实操与API调用、提示工程技术；

RAG基础与架构：RAG基础与架构、文档切分常见算法、向量数据库常见算法；

模型微调与私有化大模型：开源模型介绍、模型微调基础、GPU与算力、高效微调技术-LoRA

模型架构：DeepSeek-MoE的稀疏化训练原理

高效推理：DeepSeek-Inference引擎的INT4量化技术

5. 多模态大模型开发

多模态大模型基础

多模态模型项目剖析

多模态大模型开发的技术与关键技术

DeepSeek-VL多模态模型技术解析（视觉-语言联合表征学习）

实验

实验2：多模态模型实操：物体识别与抓取

环境搭建与硬件连接

使用3D相机、麦克风等设备采集多模态数据

使用语音、视觉、文本三模态数据进行交互实验

利用大模型算法，实现机器人对语音指令的识别与理解

基础任务实现：使用语音指令控制机械臂，实现物体识别并进行抓取

3D数据的预处理方法，提升物体定位与抓取的准确性和鲁棒性

使用相机进行体积视频捕捉和场景重建

基于视觉反馈的多步任务规划

使用DeepSeek-VL实现"语音指令→视觉识别→动作生成"端到端流程

时间：

第二天上午

授课内容：

6. 3D视觉与物体识别技术

3D视觉感知的工作原理及技术特点

实现不同场景下的3D数据采集与实时分析

系统集成后的数据融合与处理方法

深度相机识别形状复杂的物体

结合大模型算法生成空间语义信息，提升物体定位精度

DeepSeek-3D场景理解模型

7. 视觉-语言-动作模型简介

多模态数据的标注与融合算法

结合3D场景重建实现视觉-语言互动

基于场景语义理解调整任务规划

使用大模型算法生成动作序列，并实现视觉引导

DeepSeek-Agent框架

实验

实验3：语音交互实验:人机对话与任务调度

设计语音指令并编写指令解析代码

测试机械臂在自然语言指令下的动作反应

根据语音指令进行任务规划和动作执行

多任务处理和优先级调度算法

分析并改进语音识别与理解的准确性和鲁棒性

实验4：视觉-语言-动作融合模型，实现场景交互

实现视觉与语言的匹配和动作响应

测试机械臂对语言指令的响应与反馈

调试在不同条件下的任务执行稳定性

多模态交互应用开发

复杂任务规划与视觉引导

DeepSeek-Agent任务调度

时间：

第二天下午

授课内容：

8. 智能体Agent开发

Agent开发基础、自定义工具、深入浅出ReAct框架、深度剖析Agent核心部件

Agent案例分享和前沿应用

智能设备与小参数模型：智能设备上的模型优化基础、模型在智能设备上的部署、边缘计算中的大模型应用

9. 智能体控制技术

智能体Agent基本概念、常见架构和组件

智能体协作机器人概述

智能体控制算法与应用

协作机器人控制策略

智能体精度与稳定性调优

使用反馈控制技术提升动作的准确性

实验

实验5: 智能体Agent的搭建与应用

Agent架构设计
核心功能模块实现
性能测试和评估

实验6：编程实现智能体（机械臂）的高精度抓取与安全避障智能体控制接口编程

使用ROS和C++编程控制机械臂

控制机械臂实现复杂的动态交互

实现复杂轨迹规划与误差补偿

系统鲁棒性分析与优化

DeepSeek-Agent开发

时间：

第三天上午

授课内容：

10.大模型微调

大模型的基础技术理解

主流的底座模型

前沿的指令微调技术

高效的微调方法（参数高效、内存高效）

各类常用的对齐技术等

使用DeepSeek-Tuning工具包进行LoRA微调

11.大模型推理优化

推理过程的概述与常见挑战

模型推理的性能瓶颈分析

多机多卡分布式推理的必要性与优势

MindIE简介与多模态推理

MindIE架构与工作原理

多模态推理的挑战与解决方案

推理优化的前沿技术与研究调技术

实验

实验7：llama3.1 405B模型的分布式推理实操

推理环境配置

分布式推理所需的硬件与软件环境搭建

基于NCCL和Horovod的分布式推理框架

推理演练

分布式推理流程解析与实操

通过多机多卡进行推理的性能分析与优化

实操：在特定任务下的llama3.1 405B模型分布式推理

部署DeepSeek-MoE-16x8B模型

时间：

第三天下午

授课内容：

12.具身智能综合设计：工业制造领域智能分拣Agent构建

需求分析与场景定义：介绍工业制造中智能分拣的需求，定义具体应用场景。

数据准备与预处理：讲解如何收集和处理用于训练智能分拣系统的数据，包括图像数据的标注和处理。

模型选择与训练：介绍适用于智能分拣任务的模型，如卷积神经网络（CNN）和目标检测模型，并讲解如何训练这些模型。

智能分拣Agent架构设计：阐述如何结合大语言模型（LLM）和ReAct框架，设计一个能够理解和执行分拣任务的智能Agent。

集成与测试：说明如何将训练好的模型集成到智能分拣系统中，并进行实际测试。

性能评估与优化：讲解如何评估智能分拣系统的性能，并根据评估结果进行优化。

视觉定位（YOLOv6+DeepSeek-Vision融合）

决策逻辑（DeepSeek-LLM生成可解释的分拣策略）

13.AIGC应用开发实践课程-多模态大模型应用开发

AIGC相关的理论和技术，包括视觉大模型和多模态大模型的原理及应用

AIGC工具，如ChatGPT、DALL-E等技术介绍、应用案例分析

实验：

实验8：工业制造产品智能分拣系统开发

系统需求分析与设计：学员根据所学知识，分析智能分拣系统的需求，并设计系统架构。

模型训练与调优：学员使用提供的数据集训练模型，并进行参数调优，以提高分拣准确率。

智能分拣Agent实现：学员利用LLM和ReAct框架，实现一个能够响应分拣指令的智能Agent。

系统集成与测试：学员将训练好的模型和智能Agent集成到系统中，进行整体测试。

性能评估与报告撰写：学员评估系统性能，并撰写实验报告，总结学习成果和经验教训。

实验9：AIGC应用

AIGC中文本生成图像、图像生成图像、视频生成、语音生成、音乐生成等领域的应用实践

用DeepSeek-Video实现操作过程可视化报告生成

授课讲师介绍

肖老师，资深算法专家

拥有超过15年的算法研究与实践经验。曾在世界五百强企业英特尔公司担任算法高级架构师，担任中国电子系统技术有限公司的算法Leader，高性能计算技术专家，是一位经验丰富且技术精湛的资深AI基础设施操盘手。拥有超过十年的高性能计算喝算法研究和实践经验，曾在英特尔公司担任高性能计算架构师，并在多家500强企业中担任高性能计算和系统架构负责人。头部机器人公司担任视觉算法总架构师，直接参与了移动复合机器人和协作机器人的开发工作，通过引入大模型技术，成功地赋予了机器人自主导航、环境感知和决策规划的能力。并在高性能计算、人工智能和深度学习领域有着丰富的项目经验和卓越的技术能力，特别擅长高性能计算、图像处理、计算机视觉以及大规模计算系统的设计与优化，获得多项专利和荣誉。华中科技大学硕士，曾在多个国家重点实验室及顶尖企业从事高性能计算及算法研发工作，领导并参与了多个重大项目的开发和实施。

工作经历

2006年，英特尔上海国际实验室，高性能计算系统架构设计，大型并行图形系统的架构与设计开发；

2009年，头部安全公司，并发与安全架构和视频监控系统设计，公安安全系统的架构设计与开发；

2012年，大型通信集团，大型应急通信系统和视频安全监控设计，确保了系统的安全性和可靠性；

2016年，大数据公司，企业家数据的数据安全和系统安全设计，多家公司设计和实施了信息化安全管理方案，大规模数据的分析和优化；

2019年，大型央企，GPU、CUDA与算力平台：深入研究并应用了GPU和CUDA技术，开发了多种高效的深度学习模型，广泛应用于图像和视频分析、目标检测和分类等领域；应用调优与性能监测：在项目管理和研发过程中，带领团队完成了多个智能视频分析引擎和智能办公引擎的开发，擅长对复杂算法进行性能优化和实时监测，确保系统的高效运行；算力调度管理与网络调优：在多个大型项目中，成功实现了算力调度管理系统的设计与实施，具备出色的网络调优能力，能够优化高性能计算环境下的资源利用率和系统稳定性。

2022.10，头部机器人公司，移动复合机器人和协作机器人的开发，移动复合机器人的开发，在移动复合机器人的研发过程中，我主要负责了智能导航与控制系统的设计与实现。通过引入大模型技术，我们成功地赋予了机器人自主导航、环境感知和决策规划的能力。

环境感知与建模：利用大模型对传感器数据进行高效处理和分析，机器人能够实时构建周围环境的精确三维模型，为后续的路径规划和避障提供有力支持。
智能导航算法：结合大模型的强化学习算法，我们训练出了能够在复杂环境中灵活导航的机器人。这些机器人能够根据实时路况调整行进路线，确保任务的顺利完成。
人机交互体验：借助大模型在自然语言处理方面的优势，我们实现了机器人与操作人员之间的流畅对话，极大提升了用户体验和工作效率。

协作机器人的开发，协作机器人作为新一代工业机器人，强调与人类工人的安全协同作业。在这一领域，我主要聚焦于通过具身智能提升机器人的灵活性与适应性。

智能抓取与装配：利用大模型对物体形状、重量及材质等信息的快速识别与处理，协作机器人能够准确抓取并灵活装配各种工件，大幅提高了生产效率和质量。
自适应学习能力：通过引入深度学习技术，我们使协作机器人具备了自适应学习能力。它们能够在实际工作中不断积累经验，自动优化作业策略以应对复杂多变的生产环境。

专业能力

并行计算和高性能计算；

深度学习模型设计和优化；

多模态大模型应用设计；

GPU与CUDA编程；

城市大脑与智能交通；

工业机器人和复合机器人大模型；

数据挖掘与运行优化；

国产信创环境适配优化；

专利

基于生成式深度学习模型的文本识别模型的生成方法以及装置 (CN202110447608.9)  ；

大型语义分析方法及装置 (CN202110499308.5)  ；

奖项:  荣获2021年度集团优秀解决方案奖  ；

授课经历

重庆大学：深度学习模型在大型物流场景的应用；

头部能源上市公司：大型时序数据预测模型的应用；

头部音视频公司：图形和视频大模型的应用；

百度合作：分拣实训和智能眼实训；

985高校：机器学习与数据挖掘分析；

主讲课程

《高性能图形图像计算与算法》

《计算机视觉中的图像处理技术》

《视觉和多模态大模型应用》

《具身智能与多模态大模型应用》

《机器学习中的知识自学习与数据优化挖掘》

《大规模分布式系统设计与实现》

《GPU、CUDA与算力模型应用实战》

《华为昇腾芯片下的大模型迁移和训练课程》

蔡老师多模态技术专家

中科院计算机博士，北京邮电大学计算机学院，硕导。多年来一直致力于多模态内容分析，多模态大模型研究工作，并在该领域取得了一系列创新性的研究成果，积累了丰富的相关经验和技术。在国际重要刊物和著名学术会议上已发表和录用论文17篇，其中发表SCI论文10篇，发表EI会议论文7篇。以第一作者发表和录用论文7篇，其中SCI检索期刊论文5篇，EI检索会议论文2篇。论文发表在IEEE TCSVT（CCF-B）、Pattern Recognition（CCF-B）、Neural Computing and Applications（CCF-C）、Neurocomputing（CCF-C）、Multimedia Tools and Applications（CCF-C）等国际期刊，以及国际顶级会议NeurIPS（CCF-A）、AAAI（CCF-A）、ACM MM（CCF-A）和知名国际会议ICME（CCF-B）、ICASSP（CCF-B）等。作为骨干人员先后参加了多个国家级和省部级科研项目，包括国家自然科学基金、省部级重点研发项目等，并主持了多个企事业单位（中科院软件所，华为）横向合作项目。具有超强的项目管理能力和高效的项目执行力。

关于TsingtaoAI

TsingtaoAI拥有一支高水平的产学研一体的AI产品开发团队，核心团队主要来自清华大学、北京大学、中科院、北京邮电大学、复旦大学、中国农业大学、华中科技大学、美团、京东、百度、中国技术创业协会和三一重工等产研组织。TsingtaoAI核心团队擅长面向教育领域的LLM和AIGC应用开发。公司拥有近10项LLM/AIGC相关的知识产权。TsingtaoAI自研基于LLM大模型的AIGC应用开发实训平台、基于AI大模型的具身智能实训解决方案、面向CS类的AI训练实训平台等产品方案，为高校提供实训解决方案、师资研修和实验实训课程开发服务。

Product & Case.

产品与案例

넳 넲

首页 ꄲ 师资培训｜DeepSeek⼤模型与具⾝智能专项技术培训成功举办

ꄴ前一个：无

ꄲ后一个：无

产品中心

课程资源

联系我们

商务合作

微信公众号