【金钻就业计划】Part2-AIGC应用开发实践课程:多模态大模型应用开发

课程简介

本课程旨在系统讲解AIGC（AI Generated Content）相关的理论和技术，并配套相关的实验案例。主要内容包括视觉大模型和多模态大模型的原理及应用，涉及文本生成图像、图像生成图像、视频生成、语音生成、音乐生成等领域。课程共64学时，每学时40分钟，其中理论技术课程32学时，实验案例课程32学时。适用于AI/CS/IT相关专业本科生的教学。

课程目标

掌握大模型技术的基本概念及发展历程。
理解并应用面向理解任务和生成任务的多模态大模型。
学习并掌握大模型的预训练、微调、评估、压缩、推理与部署相关技术。
掌握大模型在安全性方面的知识。

课程内容

第一部分：大模型技术概述

第一章：大模型技术概述

大模型爆发式发展
大模型是如何炼成的
Transformer的应用
Self-Attention
Transformer精讲

第二章：大模型的基础知识

神经网络基础
- 神经元与层
- 前向传播与反向传播
- 激活函数与损失函数
大规模数据集的构建与管理
- 数据清洗与预处理
- 数据增强技术（Augmentation）
- 数据集划分和评估
- 数据安全和隐私保护
- 数据标注与管理工具
计算资源与分布式训练
- GPU与TPU的使用
- 分布式训练框架（如Horovod）
- 混合精度训练（Mixed Precision Training）

第二部分：面向理解任务的多模态大模型

第三章：多模态大模型概述

多模态学习的概念与意义
- 概念：多模态数据（文本、图像、视频等）的融合与学习
- 意义：增强模型的理解能力与应用范围
多模态数据的获取与处理
- 数据集介绍：COCO、Visual Genome、YouTube-8M等
- 数据对齐与配对技术

第四章：CLIP模型原理

CLIP模型简介
- 模型结构：双塔结构（Text Encoder + Image Encoder）
- 训练目标：对比学习（Contrastive Learning）
CLIP的训练方法与架构
- 文本编码器：基于Transformer的架构
- 图像编码器：基于ResNet的架构
- 对比学习损失函数（Contrastive Loss）
CLIP在图像与文本理解中的应用
- 图像检索与分类
- 文本引导的图像生成

第五章：VATT模型原理

VATT模型简介
- 模型结构：基于Transformer的多模态模型
- 训练目标：自监督学习与多模态对齐
VATT的训练方法与架构
- 视频编码器：基于3D CNN的架构
- 文本编码器：基于Transformer的架构
- 多模态对齐损失函数
VATT在视频与文本理解中的应用
- 视频检索与分类
- 文本引导的视频生成

第六章：ALIGN模型原理

ALIGN模型简介
- 模型结构：双塔结构（Text Encoder + Image Encoder）
- 训练目标：对比学习与多模态对齐
ALIGN的训练方法与架构
- 文本编码器：基于BERT的架构
- 图像编码器：基于EfficientNet的架构
- 对比学习损失函数
ALIGN在图像与文本理解中的应用
- 图像检索与分类
- 文本引导的图像生成

案例一：基于CLIP模型的智能广告生成系统

实验目的：

理解CLIP模型的结构与原理
掌握图像与文本的对齐与生成技术
实现智能广告生成系统

第一课时：CLIP模型基础与数据准备

理论章解：CLIP模型结构与原理
数据准备：收集与处理广告图像与文本数据
实践操作：数据预处理与特征提取

第二课时：模型训练与优化

理论章解：对比学习与损失函数
模型训练：使用预处理数据训练CLIP模型
实践操作：训练过程中的参数调整与优化

第三课时：广告生成系统开发

理论章解：文本引导图像生成技术
系统开发：实现基于CLIP的智能广告生成系统
实践操作：系统集成与功能测试

第四课时：系统评估与应用

理论章解：模型评估方法与指标
系统评估：对生成的广告进行效果评估
实践操作：优化系统并部署应用

案例二：基于VATT模型的视频检索系统

实验目的：

理解VATT模型的结构与原理
掌握视频与文本的对齐与检索技术
实现智能视频检索系统

第一课时：VATT模型基础与数据准备

理论章解：VATT模型结构与原理
数据准备：收集与处理视频与文本数据
实践操作：数据预处理与特征提取

第二课时：模型训练与优化

理论章解：自监督学习与多模态对齐
模型训练：使用预处理数据训练VATT模型
实践操作：训练过程中的参数调整与优化

第三课时：视频检索系统开发

理论章解：多模态检索技术
系统开发：实现基于VATT的智能视频检索系统
实践操作：系统集成与功能测试

第四课时：系统评估与应用

理论章解：模型评估方法与指标
系统评估：对视频检索系统进行效果评估
实践操作：优化系统并部署应用

第三部分：面向生成任务的多模态大模型

第七章：基础扩散模型原理

扩散模型的基本概念
- 定义：基于扩散过程的生成模型
- 过程：噪声添加与去噪
扩散模型的训练过程
- 前向过程（Forward Process）：逐步添加噪声
- 反向过程（Reverse Process）：逐步去噪
关键技术点
- 噪声分布选择
- 去噪网络架构设计

第八章：DDPM模型原理

DDPM模型简介
- 模型结构：基于U-Net的去噪网络
- 训练目标：最大化去噪过程的似然
DDPM的架构与训练方法
- 前向过程与反向过程的细节
- 去噪网络的设计与优化
DDPM在图像生成中的应用
- 高质量图像生成
- 应用案例分析

第九章：DDIM模型原理

DDIM模型简介
- 模型结构：基于改进的扩散过程
- 训练目标：提升生成效率与质量
DDIM的架构与训练方法
- 改进的前向过程与反向过程
- 去噪网络的优化与调整
DDIM在图像生成中的应用
- 高效图像生成
- 应用案例分析

第十章：Stable Diffusion模型原理

Stable Diffusion模型简介
- 模型结构：基于稳定扩散过程
- 训练目标：平衡生成质量与计算成本
Stable Diffusion的架构与训练方法
- 前向过程与反向过程的稳定设计
- 去噪网络的优化策略
Stable Diffusion在图像生成中的应用
- 应用领域与案例分析

案例三：基于DDPM模型的高质量图像生成

实验目的：

理解DDPM模型的结构与原理
掌握图像生成技术
实现高质量图像生成系统

第一课时：DDPM模型基础与数据准备

理论章解：DDPM模型结构与原理
数据准备：收集与处理图像数据
实践操作：数据预处理与特征提取

第二课时：模型训练与优化

理论章解：扩散过程与去噪网络
模型训练：使用预处理数据训练DDPM模型
实践操作：训练过程中的参数调整与优化

第三课时：图像生成系统开发

理论章解：图像生成技术
系统开发：实现基于DDPM的高质量图像生成系统
实践操作：系统集成与功能测试

第四课时：系统评估与应用

理论章解：模型评估方法与指标
系统评估：对图像生成系统进行效果评估
实践操作：优化系统并部署应用

案例四：基于Stable Diffusion模型的影视特效生成

实验目的：

理解Stable Diffusion模型的结构与原理
掌握影视特效生成技术
实现智能影视特效生成系统

第一课时：Stable Diffusion模型基础与数据准备

理论章解：Stable Diffusion模型结构与原理
数据准备：收集与处理影视特效数据
实践操作：数据预处理与特征提取

第二课时：模型训练与优化

理论章解：扩散过程与去噪网络
模型训练：使用预处理数据训练Stable Diffusion模型
实践操作：训练过程中的参数调整与优化

第三课时：影视特效生成系统开发

理论章解：特效生成技术
系统开发：实现基于Stable Diffusion的智能影视特效生成系统
实践操作：系统集成与功能测试

第四课时：系统评估与应用

理论章解：模型评估方法与指标
系统评估：对影视特效生成系统进行效果评估
实践操作：优化系统并部署应用

第四部分：兼顾理解和生成任务的多模态大模型

第十一章：VL-T5模型原理

VL-T5模型简介
- 模型结构：基于T5的多模态扩展
- 训练目标：同时处理理解与生成任务
VL-T5的架构与训练方法
- 文本编码器与图像编码器的融合设计
- 训练策略与损失函数
VL-T5在理解与生成任务中的应用
- 多模态问答系统
- 文本生成图像的应用案例

第十二章：Unified VLP模型原理

Unified VLP模型简介
- 模型结构：统一的多模态预训练架构
- 训练目标：统一处理多种任务
Unified VLP的架构与训练方法
- 多任务学习策略
- 模型训练与优化技术
Unified VLP在理解与生成任务中的应用
- 多任务学习的应用案例

第十三章：BLIP-2模型原理

BLIP-2模型简介
- 模型结构：基于BERT与Transformer的多模态架构
- 训练目标：提升理解与生成性能
BLIP-2的架构与训练方法
- 多模态对齐与融合技术
- 训练策略与优化方法
BLIP-2在理解与生成任务中的应用
- 多模态生成与理解的应用案例

案例五：基于VL-T5模型的智能教育问答系统

实验目的：

理解VL-T5模型的结构与原理
掌握智能教育问答系统的开发技术
实现智能教育问答系统

第一课时：VL-T5模型基础与数据准备

理论章解：VL-T5模型结构与原理
数据准备：收集与处理教育问答数据
实践操作：数据预处理与特征提取

第二课时：模型训练与优化

理论章解：多模态融合技术
模型训练：使用预处理数据训练VL-T5模型
实践操作：训练过程中的参数调整与优化

第三课时：智能教育问答系统开发

理论章解：问答系统技术
系统开发：实现基于VL-T5的智能教育问答系统
实践操作：系统集成与功能测试

第四课时：系统评估与应用

理论章解：模型评估方法与指标
系统评估：对问答系统进行效果评估
实践操作：优化系统并部署应用

第五部分：知识增强的多模态大模型

第十四章：ERNIE-ViL模型原理

ERNIE-ViL模型简介
- 模型结构：基于知识增强的多模态架构
- 训练目标：提升知识表达与融合能力
ERNIE-ViL的架构与训练方法
- 知识图谱的引入与应用
- 模型训练与优化策略
ERNIE-ViL在知识增强与多模态学习中的应用
- 知识问答与推理
- 应用案例分析

案例六：基于ERNIE-ViL模型的智慧医疗系统

实验目的：

理解ERNIE-ViL模型的结构与原理
掌握智慧医疗系统的开发技术
实现智慧医疗系统

第一课时：ERNIE-ViL模型基础与数据准备

理论章解：ERNIE-ViL模型结构与原理
数据准备：收集与处理医疗数据
实践操作：数据预处理与特征提取

第二课时：模型训练与优化

理论章解：知识增强技术
模型训练：使用预处理数据训练ERNIE-ViL模型
实践操作：训练过程中的参数调整与优化

第三课时：智慧医疗系统开发

理论章解：医疗系统技术
系统开发：实现基于ERNIE-ViL的智慧医疗系统
实践操作：系统集成与功能测试

第四课时：系统评估与应用

理论章解：模型评估方法与指标
系统评估：对智慧医疗系统进行效果评估
实践操作：优化系统并部署应用

第六部分：大模型的预训练与微调

第十五章：大模型的预训练

预训练的基本概念
- 定义：大规模无监督学习过程
- 目标：学习通用特征表示
预训练的技术细节与挑战
- 数据集选择与准备
- 训练策略与优化技术
案例分析：BERT、GPT-3等模型的预训练方法

第十六章：大模型的微调技术

微调的基本概念
- 定义：在特定任务上进行有监督学习
- 目标：适配特定任务需求
loRA技术详解
- 技术简介：低秩适应（Low-Rank Adaptation）
- 目标：通过低秩矩阵分解进行高效微调
- 应用实例：在特定任务上的快速微调与性能提升
Dreambooth技术详解
- 技术简介：基于生成对抗网络（GANs）的微调技术
- 目标：通过生成对抗网络进行高质量的微调
- 应用实例：图像生成与图像增强任务中的应用
ControlNet技术详解
- 技术简介：控制神经网络
- 目标：在预训练模型中引入控制信号，实现特定任务微调
- 应用实例：在复杂任务中的控制与调优

案例七：基于Unified VLP模型的智慧工厂监控系统

实验目的：

理解Unified VLP模型的结构与原理
掌握智慧工厂监控系统的开发技术
实现智慧工厂监控系统

第一课时：Unified VLP模型基础与数据准备

理论章解：Unified VLP模型结构与原理
数据准备：收集与处理工厂监控数据
实践操作：数据预处理与特征提取

第二课时：模型训练与优化

理论章解：多任务学习策略
模型训练：使用预处理数据训练Unified VLP模型
实践操作：训练过程中的参数调整与优化

第三、四课时：智慧工厂监控系统开发

理论章解：监控系统技术
系统开发：实现基于Unified VLP的智慧工厂监控系统
实践操作：系统集成与功能测试

第七部分：大模型的评估、压缩、推理与部署

第十七章：大模型的评估

评估指标与方法
- 评估指标：精度、召回率、F1分数等
- 评估方法：交叉验证、混淆矩阵等
大模型评估的挑战与解决方案
- 数据不均衡问题
- 评估时间与资源消耗

第十八章：大模型的压缩技术

模型压缩的基本概念
- 定义：减少模型参数与计算量
- 目标：提升模型的推理速度与部署效率
模型剪枝技术
- 技术简介：移除冗余参数
- 实施方法：结构化剪枝与非结构化剪枝
- 案例分析：经典模型压缩实例
模型量化技术
- 技术简介：减少模型参数的位宽
- 实施方法：定点量化与混合精度量化
- 案例分析：模型量化的应用实例
模型蒸馏技术
- 技术简介：教师模型与学生模型的知识转移
- 实施方法：软标签与硬标签的蒸馏
- 案例分析：经典蒸馏模型

第十九章：大模型的推理与部署

推理与部署的基本概念
- 推理定义：模型在实际应用中的预测过程
- 部署定义：将模型应用到生产环境
大模型的推理优化技术
- 优化策略：减少计算复杂度与加速推理过程
- 案例分析：经典推理优化技术
大模型的部署方案与案例
- 部署工具与平台：TensorFlow Serving、ONNX、Triton Inference Server等
- 部署案例：实际应用中的部署实例

案例八：基于BLIP-2模型的智能音乐生成系统

实验目的：

理解BLIP-2模型的结构与原理
掌握智能音乐生成技术
实现智能音乐生成系统

第一课时：BLIP-2模型基础与数据准备

理论章解：BLIP-2模型结构与原理
数据准备：收集与处理音乐数据
实践操作：数据预处理与特征提取

第二课时：模型训练与优化

理论章解：多模态对齐与融合技术
模型训练：使用预处理数据训练BLIP-2模型
实践操作：训练过程中的参数调整与优化

第三课时：智能音乐生成系统开发

理论章解：音乐生成技术
系统开发：实现基于BLIP-2的智能音乐生成系统
实践操作：系统集成与功能测试

第四课时：系统评估与应用

理论章解：模型评估方法与指标
系统评估：对音乐生成系统进行效果评估
实践操作：优化系统并部署应用

第八部分：大模型的安全性

第二十章：大模型的安全性

大模型的安全性挑战
- 面临的威胁：对抗攻击、数据泄露等
- 安全性评估：安全测试与漏洞扫描
大模型的对抗攻击与防御技术
- 对抗攻击技术：对抗样本生成、白盒攻击与黑盒攻击
- 防御技术：对抗训练、鲁棒性增强技术
大模型的隐私保护技术
- 隐私保护方法：差分隐私、联邦学习
- 案例分析：隐私保护的实际应用

第九部分：课程总结与展望

第二十一章：课程总结与未来展望

课程内容回顾
- 各模块重点知识总结
- 学生学习成果展示
未来研究方向与应用前景
- 大模型在各领域的应用前景
- 未来技术的发展趋势

讲师介绍

肖红正多模态大模型资深算法讲师

肖红正，资深算法专家，拥有超过15年的算法研究与实践经验。曾在世界五百强企业英特尔公司担任高级系统架构师，担任中国电子系统技术有限公司的算法Leader，带领团队在智慧城市和能源行业领域进行多模态大模型产品研发，获得多项专利和荣誉。

教育背景

2002 - 2009: 华中科技大学计算机应用本科和硕士

可讲主题及培训内容

计算机视觉与图像处理
1. 图像降噪与增强处理
2. 2D和3D目标检测与分类
3. 激光雷达与相机数据融合
深度学习与机器学习
1. 深度学习模型设计与优化
2. 机器学习算法及应用
3. 数据挖掘与运行优化
AI/多模态大模型应用开发
1. 智能零售柜技术应用
2. 工业机器人和复合机器人
3. 城市大脑与智能交通

个人资质

专利:
- 一种文本识别模型的生成方法以及装置 (CN202110447608.9)
- 一种语义分析方法及装置 (CN202110499308.5)
奖项:
- 荣获2021年度集团优秀解决方案奖
技术能力:
- 精通C/C++，熟悉Python等编程语言
- 深刻理解Linux系统和软件工程化
- 具备软硬件一体化产品研发能力
- 擅长多模态大模型、计算机视觉、机器学习和深度学习技术

主要项目经验

智能零售柜和送货机器人: 通过2D+3D深度学习算法实现商品识别与结算，准确率达99%。
工业移动检测机器人: 基于多传感器融合技术，实现高精度缺漏检测与姿态检测。
城市大脑项目: 实现复杂场景下的2D和3D人脸识别与多目标追踪系统，提升城市管理智能化水平。

陈老师 AIGC大模型应用开发资深讲师

拥有超过10年的软件开发和系统架构经验，专注于Python、Java语言教学及人工智能生成模型（AIGC）方向。现任TsingtaoAI研发及实训项目负责人，曾担任北京正己基业教育科技有限公司的架构师。陈鑫讲师以其深厚的技术背景和丰富的实践经验，致力于通过高质量的培训课程帮助学员提升专业技能。

教育背景

2005.09—2008.07 天津大学计算机科学与技术硕士
2001.09—2005.07 山东大学计算机科学与技术学士

可讲主题及培训内容

Python编程与应用
1. Python基础语法与数据结构
2. 高级编程技巧与实战案例
Java语言高级应用
1. Java高级编程
2. 企业级Java应用开发
机器学习与神经网络
1. 机器学习基础
2. 深度学习与神经网络
AIGC生成多模态模型
1. 基于Python的AIGC模型实现
2. AIGC在实际项目中的应用
系统架构设计
1. 企业级系统架构设计原则
2. 分布式系统与微服务架构

培训及项目案例

GreedyAI实训项目：通过一系列系统的培训课程，帮助学员掌握Python和Java的高级编程技巧，并将所学知识应用于实际项目中，提高学员的实战能力。
武昌职业技术学院精英班项目实训：针对职业院校学生的实训项目，通过项目驱动的学习方法，提升学生的编程技能和项目实践能力。
湖北生物职业技术学院毕业提升班项目实训：为毕业生提供专项培训，帮助他们在毕业后能够迅速适应工作岗位的要求，提高就业竞争力。
运道智能物流平台：领导开发并实施了智能物流平台，通过先进的技术手段，提高物流运作效率，获得客户的高度认可。
掌合云工厂智能平台：负责智能平台的架构设计与开发，实现了工厂生产管理的智能化，提高了生产效率和管理水平。

关于TsingtaoAI

TsingtaoAI拥有一支高水平的产学研一体的AI产品开发团队，核心团队主要来自清华大学、北京大学、中科院、北京邮电大学、复旦大学、中国农业大学、美团、京东、百度、中国技术创业协会和三一重工等产研组织。 TsingtaoAI核心团队专长于算力、行业LLM/AIGC应用的产品研发，面向企业的大语言模型应用落地等业务，如面向智能客服、教育、人力资源、电商和轨道交通等行业领域的LLM和AIGC应用开发。公司拥有近10项LLM/AIGC相关的知识产权。

TsingtaoAI自研基于LLM大模型代码能力的AIGC应用开发实训平台、面向CS专业的AI训练实训平台和基于大语言模型的AIGC案例学习平台，聚焦虚拟现实、金融科技、医药健康、高端装备、新能源、新材料、节能环保、文化创意、农业科技和食品科技等关键行业，通过链接全球数以千计的关键领域的AI科学家和工程师，为央国企、上市公司、外资企业、政府部门和高校提供AI企业内训和高校实训服务。

Product & Case.

产品与案例

넳 넲

首页 ꄲ 所有文章 ꄲ 【金钻就业计划】Part2-AIGC应用开发实践课程:多模态大模型应用开发

ꄴ前一个：无

ꄲ后一个：无

产品中心

课程资源

联系我们

商务合作

微信公众号

训练营名称	培训周期	培训内容	服务客户
Nvidia全系技术栈培训-技术架构、智算平台、算力中心建设	14天	详尽解析英伟达技术体系，包括DGX、HGX、GPU技术及IB网络架构，及其在智算平台中的应用。不论是面向AI开发框架的深入了解，还是大模型的端到端调优，线上及线下双模式培训都将提供丰富的实操经验。让企业在英伟达系统中，提升大模型性能，优化智算中心的设计与运维，精通存储和网络基础设施的构建。	华胜天成
从训练到推理，LLM大模型技术培训	6天	内容全面揭示大模型技术的核心原理与应用。深入探讨大模型从理论到实践的每一个环节，包括大模型的理论基础、关键技术如分布式并行计算、训练加速技术，以及推理优化技术。	中国石油数据中心
AIGC赋能灯塔工厂建设	2天	探索AIGC技术在灯塔工厂中的应用，提升参训者对AIGC工具的操作熟练度及实操能力。通过介绍AIGC技术的基本原理和发展历程，使学员了解其在产线中的转型潜力和实际效益。	隆基绿能
AI科普：搜索技术培训	1天	理解搜索技术的发展历程；掌握核心搜索技术的基本原理；认识到搜索技术的现代应用与探索方向。	百度
AIGC在供应链金融的应用	5天	深入理解AI及其大模型技术的基础知识，尤其是AIGC的核心原理和功能，并能够识别出AI技术在金融、物流、供应链管理和商贸等相关行业中的应用潜力和价值。学习并实践使用AIGC工具和相关软件，在特定的业务场景中针对金融、物流、供应链和商贸行业进行操作，从而能够利用AI技术为其行业创造价值。通过多个真实的行业案例，参与者将深入了解AIGC如何在金融、物流、供应链和商贸等行业中被成功应用，并能够从中提炼出成功应用AI技术的关键因素和策略。	京东物流
AIGC实战应用训练营	6天	了解AIGC技术发展趋势及应用场景；掌握有效对话AI方法和技巧；掌握AI在高效学习、智能办公、AI图像处理等应用场景的方法和技巧，提升核心竞争力。	知乎
AIGC初级美术设计	4天	理解AIGC技术的重要性和价值，以及其与商业决策、管理和创新的关系；深入理解GPT模型以及Midjourney工具的应用；掌握使用AIGC技术进行各类美术设计的技巧和方法。	环球网校
AIGC金融科技训练营	2天	全面理解AIGC的背景、基本原理和发展趋势，掌握AIGC的基本概念和基础知识；了解AIGC对金融行业的深远影响；详细解析如何在面临AIGC带来的挑战和机遇时，如何灵活应对和有效利用。	广发银行
职场猛人必杀技：1天提升10倍AIGC生产力	1天	1天时间，掌握使用最主流的AIGC工具来提升运营、产品、销售等部门的工作效率和成效，包括ChatGPT、MidJourney等主流工具。	中央财经大学、百炼智能、Gonex等

【金钻就业计划】Part2-AIGC应用开发实践课程:多模态大模型应用开发

课程简介

课程目标

课程内容

第一部分：大模型技术概述

第二部分：面向理解任务的多模态大模型

案例一：基于CLIP模型的智能广告生成系统

案例二：基于VATT模型的视频检索系统

第三部分：面向生成任务的多模态大模型

案例三：基于DDPM模型的高质量图像生成

案例四：基于Stable Diffusion模型的影视特效生成

第四部分：兼顾理解和生成任务的多模态大模型

案例五：基于VL-T5模型的智能教育问答系统

第五部分：知识增强的多模态大模型

案例六：基于ERNIE-ViL模型的智慧医疗系统

第六部分：大模型的预训练与微调

案例七：基于Unified VLP模型的智慧工厂监控系统

第七部分：大模型的评估、压缩、推理与部署

案例八：基于BLIP-2模型的智能音乐生成系统

第八部分：大模型的安全性

第九部分：课程总结与展望

讲师介绍

肖红正 多模态大模型资深算法讲师

教育背景

可讲主题及培训内容

个人资质

主要项目经验

陈老师 AIGC大模型应用开发资深讲师

教育背景

可讲主题及培训内容

培训及项目案例

相关案例

关于TsingtaoAI

肖红正多模态大模型资深算法讲师