【金钻就业计划】Part2-AIGC应用开发实践课程:多模态大模型应用开发
课程简介
本课程旨在系统讲解AIGC(AI Generated Content)相关的理论和技术,并配套相关的实验案例。主要内容包括视觉大模型和多模态大模型的原理及应用,涉及文本生成图像、图像生成图像、视频生成、语音生成、音乐生成等领域。课程共64学时,每学时40分钟,其中理论技术课程32学时,实验案例课程32学时。适用于AI/CS/IT相关专业本科生的教学。
课程目标
- 掌握大模型技术的基本概念及发展历程。
- 理解并应用面向理解任务和生成任务的多模态大模型。
- 学习并掌握大模型的预训练、微调、评估、压缩、推理与部署相关技术。
- 掌握大模型在安全性方面的知识。
课程内容
第一部分:大模型技术概述
第一章:大模型技术概述
- 大模型爆发式发展
- 大模型是如何炼成的
- Transformer的应用
- Self-Attention
- Transformer精讲
第二章:大模型的基础知识
- 神经网络基础
- 神经元与层
- 前向传播与反向传播
- 激活函数与损失函数
- 大规模数据集的构建与管理
- 数据清洗与预处理
- 数据增强技术(Augmentation)
- 数据集划分和评估
- 数据安全和隐私保护
- 数据标注与管理工具
- 计算资源与分布式训练
- GPU与TPU的使用
- 分布式训练框架(如Horovod)
- 混合精度训练(Mixed Precision Training)
第二部分:面向理解任务的多模态大模型
第三章:多模态大模型概述
- 多模态学习的概念与意义
- 概念:多模态数据(文本、图像、视频等)的融合与学习
- 意义:增强模型的理解能力与应用范围
- 多模态数据的获取与处理
- 数据集介绍:COCO、Visual Genome、YouTube-8M等
- 数据对齐与配对技术
第四章:CLIP模型原理
- CLIP模型简介
- 模型结构:双塔结构(Text Encoder + Image Encoder)
- 训练目标:对比学习(Contrastive Learning)
- CLIP的训练方法与架构
- 文本编码器:基于Transformer的架构
- 图像编码器:基于ResNet的架构
- 对比学习损失函数(Contrastive Loss)
- CLIP在图像与文本理解中的应用
- 图像检索与分类
- 文本引导的图像生成
第五章:VATT模型原理
- VATT模型简介
- 模型结构:基于Transformer的多模态模型
- 训练目标:自监督学习与多模态对齐
- VATT的训练方法与架构
- 视频编码器:基于3D CNN的架构
- 文本编码器:基于Transformer的架构
- 多模态对齐损失函数
- VATT在视频与文本理解中的应用
- 视频检索与分类
- 文本引导的视频生成
第六章:ALIGN模型原理
- ALIGN模型简介
- 模型结构:双塔结构(Text Encoder + Image Encoder)
- 训练目标:对比学习与多模态对齐
- ALIGN的训练方法与架构
- 文本编码器:基于BERT的架构
- 图像编码器:基于EfficientNet的架构
- 对比学习损失函数
- ALIGN在图像与文本理解中的应用
- 图像检索与分类
- 文本引导的图像生成
案例一:基于CLIP模型的智能广告生成系统
实验目的:
- 理解CLIP模型的结构与原理
- 掌握图像与文本的对齐与生成技术
- 实现智能广告生成系统
第一课时:CLIP模型基础与数据准备
- 理论章解:CLIP模型结构与原理
- 数据准备:收集与处理广告图像与文本数据
- 实践操作:数据预处理与特征提取
第二课时:模型训练与优化
- 理论章解:对比学习与损失函数
- 模型训练:使用预处理数据训练CLIP模型
- 实践操作:训练过程中的参数调整与优化
第三课时:广告生成系统开发
- 理论章解:文本引导图像生成技术
- 系统开发:实现基于CLIP的智能广告生成系统
- 实践操作:系统集成与功能测试
第四课时:系统评估与应用
- 理论章解:模型评估方法与指标
- 系统评估:对生成的广告进行效果评估
- 实践操作:优化系统并部署应用
案例二:基于VATT模型的视频检索系统
实验目的:
- 理解VATT模型的结构与原理
- 掌握视频与文本的对齐与检索技术
- 实现智能视频检索系统
第一课时:VATT模型基础与数据准备
- 理论章解:VATT模型结构与原理
- 数据准备:收集与处理视频与文本数据
- 实践操作:数据预处理与特征提取
第二课时:模型训练与优化
- 理论章解:自监督学习与多模态对齐
- 模型训练:使用预处理数据训练VATT模型
- 实践操作:训练过程中的参数调整与优化
第三课时:视频检索系统开发
- 理论章解:多模态检索技术
- 系统开发:实现基于VATT的智能视频检索系统
- 实践操作:系统集成与功能测试
第四课时:系统评估与应用
- 理论章解:模型评估方法与指标
- 系统评估:对视频检索系统进行效果评估
- 实践操作:优化系统并部署应用
第三部分:面向生成任务的多模态大模型
第七章:基础扩散模型原理
- 扩散模型的基本概念
- 定义:基于扩散过程的生成模型
- 过程:噪声添加与去噪
- 扩散模型的训练过程
- 前向过程(Forward Process):逐步添加噪声
- 反向过程(Reverse Process):逐步去噪
- 关键技术点
- 噪声分布选择
- 去噪网络架构设计
第八章:DDPM模型原理
- DDPM模型简介
- 模型结构:基于U-Net的去噪网络
- 训练目标:最大化去噪过程的似然
- DDPM的架构与训练方法
- 前向过程与反向过程的细节
- 去噪网络的设计与优化
- DDPM在图像生成中的应用
- 高质量图像生成
- 应用案例分析
第九章:DDIM模型原理
- DDIM模型简介
- 模型结构:基于改进的扩散过程
- 训练目标:提升生成效率与质量
- DDIM的架构与训练方法
- 改进的前向过程与反向过程
- 去噪网络的优化与调整
- DDIM在图像生成中的应用
- 高效图像生成
- 应用案例分析
第十章:Stable Diffusion模型原理
- Stable Diffusion模型简介
- 模型结构:基于稳定扩散过程
- 训练目标:平衡生成质量与计算成本
- Stable Diffusion的架构与训练方法
- 前向过程与反向过程的稳定设计
- 去噪网络的优化策略
- Stable Diffusion在图像生成中的应用
- 应用领域与案例分析
案例三:基于DDPM模型的高质量图像生成
实验目的:
- 理解DDPM模型的结构与原理
- 掌握图像生成技术
- 实现高质量图像生成系统
第一课时:DDPM模型基础与数据准备
- 理论章解:DDPM模型结构与原理
- 数据准备:收集与处理图像数据
- 实践操作:数据预处理与特征提取
第二课时:模型训练与优化
- 理论章解:扩散过程与去噪网络
- 模型训练:使用预处理数据训练DDPM模型
- 实践操作:训练过程中的参数调整与优化
第三课时:图像生成系统开发
- 理论章解:图像生成技术
- 系统开发:实现基于DDPM的高质量图像生成系统
- 实践操作:系统集成与功能测试
第四课时:系统评估与应用
- 理论章解:模型评估方法与指标
- 系统评估:对图像生成系统进行效果评估
- 实践操作:优化系统并部署应用
案例四:基于Stable Diffusion模型的影视特效生成
实验目的:
- 理解Stable Diffusion模型的结构与原理
- 掌握影视特效生成技术
- 实现智能影视特效生成系统
第一课时:Stable Diffusion模型基础与数据准备
- 理论章解:Stable Diffusion模型结构与原理
- 数据准备:收集与处理影视特效数据
- 实践操作:数据预处理与特征提取
第二课时:模型训练与优化
- 理论章解:扩散过程与去噪网络
- 模型训练:使用预处理数据训练Stable Diffusion模型
- 实践操作:训练过程中的参数调整与优化
第三课时:影视特效生成系统开发
- 理论章解:特效生成技术
- 系统开发:实现基于Stable Diffusion的智能影视特效生成系统
- 实践操作:系统集成与功能测试
第四课时:系统评估与应用
- 理论章解:模型评估方法与指标
- 系统评估:对影视特效生成系统进行效果评估
- 实践操作:优化系统并部署应用
第四部分:兼顾理解和生成任务的多模态大模型
第十一章:VL-T5模型原理
- VL-T5模型简介
- 模型结构:基于T5的多模态扩展
- 训练目标:同时处理理解与生成任务
- VL-T5的架构与训练方法
- 文本编码器与图像编码器的融合设计
- 训练策略与损失函数
- VL-T5在理解与生成任务中的应用
- 多模态问答系统
- 文本生成图像的应用案例
第十二章:Unified VLP模型原理
- Unified VLP模型简介
- 模型结构:统一的多模态预训练架构
- 训练目标:统一处理多种任务
- Unified VLP的架构与训练方法
- 多任务学习策略
- 模型训练与优化技术
- Unified VLP在理解与生成任务中的应用
- 多任务学习的应用案例
第十三章:BLIP-2模型原理
- BLIP-2模型简介
- 模型结构:基于BERT与Transformer的多模态架构
- 训练目标:提升理解与生成性能
- BLIP-2的架构与训练方法
- 多模态对齐与融合技术
- 训练策略与优化方法
- BLIP-2在理解与生成任务中的应用
- 多模态生成与理解的应用案例
案例五:基于VL-T5模型的智能教育问答系统
实验目的:
- 理解VL-T5模型的结构与原理
- 掌握智能教育问答系统的开发技术
- 实现智能教育问答系统
第一课时:VL-T5模型基础与数据准备
- 理论章解:VL-T5模型结构与原理
- 数据准备:收集与处理教育问答数据
- 实践操作:数据预处理与特征提取
第二课时:模型训练与优化
- 理论章解:多模态融合技术
- 模型训练:使用预处理数据训练VL-T5模型
- 实践操作:训练过程中的参数调整与优化
第三课时:智能教育问答系统开发
- 理论章解:问答系统技术
- 系统开发:实现基于VL-T5的智能教育问答系统
- 实践操作:系统集成与功能测试
第四课时:系统评估与应用
- 理论章解:模型评估方法与指标
- 系统评估:对问答系统进行效果评估
- 实践操作:优化系统并部署应用
第五部分:知识增强的多模态大模型
第十四章:ERNIE-ViL模型原理
- ERNIE-ViL模型简介
- 模型结构:基于知识增强的多模态架构
- 训练目标:提升知识表达与融合能力
- ERNIE-ViL的架构与训练方法
- 知识图谱的引入与应用
- 模型训练与优化策略
- ERNIE-ViL在知识增强与多模态学习中的应用
- 知识问答与推理
- 应用案例分析
案例六:基于ERNIE-ViL模型的智慧医疗系统
实验目的:
- 理解ERNIE-ViL模型的结构与原理
- 掌握智慧医疗系统的开发技术
- 实现智慧医疗系统
第一课时:ERNIE-ViL模型基础与数据准备
- 理论章解:ERNIE-ViL模型结构与原理
- 数据准备:收集与处理医疗数据
- 实践操作:数据预处理与特征提取
第二课时:模型训练与优化
- 理论章解:知识增强技术
- 模型训练:使用预处理数据训练ERNIE-ViL模型
- 实践操作:训练过程中的参数调整与优化
第三课时:智慧医疗系统开发
- 理论章解:医疗系统技术
- 系统开发:实现基于ERNIE-ViL的智慧医疗系统
- 实践操作:系统集成与功能测试
第四课时:系统评估与应用
- 理论章解:模型评估方法与指标
- 系统评估:对智慧医疗系统进行效果评估
- 实践操作:优化系统并部署应用
第六部分:大模型的预训练与微调
第十五章:大模型的预训练
- 预训练的基本概念
- 定义:大规模无监督学习过程
- 目标:学习通用特征表示
- 预训练的技术细节与挑战
- 数据集选择与准备
- 训练策略与优化技术
- 案例分析:BERT、GPT-3等模型的预训练方法
第十六章:大模型的微调技术
- 微调的基本概念
- 定义:在特定任务上进行有监督学习
- 目标:适配特定任务需求
- loRA技术详解
- 技术简介:低秩适应(Low-Rank Adaptation)
- 目标:通过低秩矩阵分解进行高效微调
- 应用实例:在特定任务上的快速微调与性能提升
- Dreambooth技术详解
- 技术简介:基于生成对抗网络(GANs)的微调技术
- 目标:通过生成对抗网络进行高质量的微调
- 应用实例:图像生成与图像增强任务中的应用
- ControlNet技术详解
- 技术简介:控制神经网络
- 目标:在预训练模型中引入控制信号,实现特定任务微调
- 应用实例:在复杂任务中的控制与调优
案例七:基于Unified VLP模型的智慧工厂监控系统
实验目的:
- 理解Unified VLP模型的结构与原理
- 掌握智慧工厂监控系统的开发技术
- 实现智慧工厂监控系统
第一课时:Unified VLP模型基础与数据准备
- 理论章解:Unified VLP模型结构与原理
- 数据准备:收集与处理工厂监控数据
- 实践操作:数据预处理与特征提取
第二课时:模型训练与优化
- 理论章解:多任务学习策略
- 模型训练:使用预处理数据训练Unified VLP模型
- 实践操作:训练过程中的参数调整与优化
第三、四课时:智慧工厂监控系统开发
- 理论章解:监控系统技术
- 系统开发:实现基于Unified VLP的智慧工厂监控系统
- 实践操作:系统集成与功能测试
第七部分:大模型的评估、压缩、推理与部署
第十七章:大模型的评估
- 评估指标与方法
- 评估指标:精度、召回率、F1分数等
- 评估方法:交叉验证、混淆矩阵等
- 大模型评估的挑战与解决方案
- 数据不均衡问题
- 评估时间与资源消耗
第十八章:大模型的压缩技术
- 模型压缩的基本概念
- 定义:减少模型参数与计算量
- 目标:提升模型的推理速度与部署效率
- 模型剪枝技术
- 技术简介:移除冗余参数
- 实施方法:结构化剪枝与非结构化剪枝
- 案例分析:经典模型压缩实例
- 模型量化技术
- 技术简介:减少模型参数的位宽
- 实施方法:定点量化与混合精度量化
- 案例分析:模型量化的应用实例
- 模型蒸馏技术
- 技术简介:教师模型与学生模型的知识转移
- 实施方法:软标签与硬标签的蒸馏
- 案例分析:经典蒸馏模型
第十九章:大模型的推理与部署
- 推理与部署的基本概念
- 推理定义:模型在实际应用中的预测过程
- 部署定义:将模型应用到生产环境
- 大模型的推理优化技术
- 优化策略:减少计算复杂度与加速推理过程
- 案例分析:经典推理优化技术
- 大模型的部署方案与案例
- 部署工具与平台:TensorFlow Serving、ONNX、Triton Inference Server等
- 部署案例:实际应用中的部署实例
案例八:基于BLIP-2模型的智能音乐生成系统
实验目的:
- 理解BLIP-2模型的结构与原理
- 掌握智能音乐生成技术
- 实现智能音乐生成系统
第一课时:BLIP-2模型基础与数据准备
- 理论章解:BLIP-2模型结构与原理
- 数据准备:收集与处理音乐数据
- 实践操作:数据预处理与特征提取
第二课时:模型训练与优化
- 理论章解:多模态对齐与融合技术
- 模型训练:使用预处理数据训练BLIP-2模型
- 实践操作:训练过程中的参数调整与优化
第三课时:智能音乐生成系统开发
- 理论章解:音乐生成技术
- 系统开发:实现基于BLIP-2的智能音乐生成系统
- 实践操作:系统集成与功能测试
第四课时:系统评估与应用
- 理论章解:模型评估方法与指标
- 系统评估:对音乐生成系统进行效果评估
- 实践操作:优化系统并部署应用
第八部分:大模型的安全性
第二十章:大模型的安全性
- 大模型的安全性挑战
- 面临的威胁:对抗攻击、数据泄露等
- 安全性评估:安全测试与漏洞扫描
- 大模型的对抗攻击与防御技术
- 对抗攻击技术:对抗样本生成、白盒攻击与黑盒攻击
- 防御技术:对抗训练、鲁棒性增强技术
- 大模型的隐私保护技术
- 隐私保护方法:差分隐私、联邦学习
- 案例分析:隐私保护的实际应用
第九部分:课程总结与展望
第二十一章:课程总结与未来展望
- 课程内容回顾
- 各模块重点知识总结
- 学生学习成果展示
- 未来研究方向与应用前景
- 大模型在各领域的应用前景
- 未来技术的发展趋势
讲师介绍
肖红正 多模态大模型资深算法讲师
肖红正,资深算法专家,拥有超过15年的算法研究与实践经验。曾在世界五百强企业英特尔公司担任高级系统架构师,担任中国电子系统技术有限公司的算法Leader,带领团队在智慧城市和能源行业领域进行多模态大模型产品研发,获得多项专利和荣誉。
教育背景
- 2002 - 2009: 华中科技大学 计算机应用 本科和硕士
可讲主题及培训内容
- 计算机视觉与图像处理
- 图像降噪与增强处理
- 2D和3D目标检测与分类
- 激光雷达与相机数据融合
- 深度学习与机器学习
- 深度学习模型设计与优化
- 机器学习算法及应用
- 数据挖掘与运行优化
- AI/多模态大模型应用开发
- 智能零售柜技术应用
- 工业机器人和复合机器人
- 城市大脑与智能交通
个人资质
- 专利:
- 一种文本识别模型的生成方法以及装置 (CN202110447608.9)
- 一种语义分析方法及装置 (CN202110499308.5)
- 奖项:
- 荣获2021年度集团优秀解决方案奖
- 技术能力:
- 精通C/C++,熟悉Python等编程语言
- 深刻理解Linux系统和软件工程化
- 具备软硬件一体化产品研发能力
- 擅长多模态大模型、计算机视觉、机器学习和深度学习技术
主要项目经验
- 智能零售柜和送货机器人: 通过2D+3D深度学习算法实现商品识别与结算,准确率达99%。
- 工业移动检测机器人: 基于多传感器融合技术,实现高精度缺漏检测与姿态检测。
- 城市大脑项目: 实现复杂场景下的2D和3D人脸识别与多目标追踪系统,提升城市管理智能化水平。
陈老师 AIGC大模型应用开发资深讲师
拥有超过10年的软件开发和系统架构经验,专注于Python、Java语言教学及人工智能生成模型(AIGC)方向。现任TsingtaoAI研发及实训项目负责人,曾担任北京正己基业教育科技有限公司的架构师。陈鑫讲师以其深厚的技术背景和丰富的实践经验,致力于通过高质量的培训课程帮助学员提升专业技能。
教育背景
- 2005.09—2008.07 天津大学 计算机科学与技术 硕士
- 2001.09—2005.07 山东大学 计算机科学与技术 学士
可讲主题及培训内容
- Python编程与应用
- Python基础语法与数据结构
- 高级编程技巧与实战案例
- Java语言高级应用
- Java高级编程
- 企业级Java应用开发
- 机器学习与神经网络
- 机器学习基础
- 深度学习与神经网络
- AIGC生成多模态模型
- 基于Python的AIGC模型实现
- AIGC在实际项目中的应用
- 系统架构设计
- 企业级系统架构设计原则
- 分布式系统与微服务架构
培训及项目案例
- GreedyAI实训项目:通过一系列系统的培训课程,帮助学员掌握Python和Java的高级编程技巧,并将所学知识应用于实际项目中,提高学员的实战能力。
- 武昌职业技术学院精英班项目实训:针对职业院校学生的实训项目,通过项目驱动的学习方法,提升学生的编程技能和项目实践能力。
- 湖北生物职业技术学院毕业提升班项目实训:为毕业生提供专项培训,帮助他们在毕业后能够迅速适应工作岗位的要求,提高就业竞争力。
- 运道智能物流平台:领导开发并实施了智能物流平台,通过先进的技术手段,提高物流运作效率,获得客户的高度认可。
- 掌合云工厂智能平台:负责智能平台的架构设计与开发,实现了工厂生产管理的智能化,提高了生产效率和管理水平。
相关案例
训练营名称 |
培训周期 |
培训内容 |
服务客户 |
Nvidia全系技术栈培训-技术架构、智算平台、算力中心建设 |
14天 |
详尽解析英伟达技术体系,包括DGX、HGX、GPU技术及IB网络架构,及其在智算平台中的应用。不论是面向AI开发框架的深入了解,还是大模型的端到端调优,线上及线下双模式培训都将提供丰富的实操经验。让企业在英伟达系统中,提升大模型性能,优化智算中心的设计与运维,精通存储和网络基础设施的构建。 |
华胜天成 |
从训练到推理,LLM大模型技术培训 |
6天 |
内容全面揭示大模型技术的核心原理与应用。深入探讨大模型从理论到实践的每一个环节,包括大模型的理论基础、关键技术如分布式并行计算、训练加速技术,以及推理优化技术。 |
中国石油数据中心 |
AIGC赋能灯塔工厂建设 |
2天 |
探索AIGC技术在灯塔工厂中的应用,提升参训者对AIGC工具的操作熟练度及实操能力。通过介绍AIGC技术的基本原理和发展历程,使学员了解其在产线中的转型潜力和实际效益。 |
隆基绿能 |
AI科普:搜索技术培训 |
1天 |
理解搜索技术的发展历程;掌握核心搜索技术的基本原理;认识到搜索技术的现代应用与探索方向。 |
百度 |
AIGC在供应链金融的应用 |
5天 |
深入理解AI及其大模型技术的基础知识,尤其是AIGC的核心原理和功能,并能够识别出AI技术在金融、物流、供应链管理和商贸等相关行业中的应用潜力和价值。学习并实践使用AIGC工具和相关软件,在特定的业务场景中针对金融、物流、供应链和商贸行业进行操作,从而能够利用AI技术为其行业创造价值。通过多个真实的行业案例,参与者将深入了解AIGC如何在金融、物流、供应链和商贸等行业中被成功应用,并能够从中提炼出成功应用AI技术的关键因素和策略。 |
京东物流 |
AIGC实战应用训练营 |
6天 |
了解AIGC技术发展趋势及应用场景;掌握有效对话AI方法和技巧;掌握AI在高效学习、智能办公、AI图像处理等应用场景的方法和技巧,提升核心竞争力。 |
知乎 |
AIGC初级美术设计 |
4天 |
理解AIGC技术的重要性和价值,以及其与商业决策、管理和创新的关系;深入理解GPT模型以及Midjourney工具的应用;掌握使用AIGC技术进行各类美术设计的技巧和方法。 |
环球网校 |
AIGC金融科技训练营 |
2天 |
全面理解AIGC的背景、基本原理和发展趋势,掌握AIGC的基本概念和基础知识;了解AIGC对金融行业的深远影响;详细解析如何在面临AIGC带来的挑战和机遇时,如何灵活应对和有效利用。 |
广发银行 |
职场猛人必杀技:1天提升10倍AIGC生产力 |
1天 |
1天时间,掌握使用最主流的AIGC工具来提升运营、产品、销售等部门的工作效率和成效,包括ChatGPT、MidJourney等主流工具。 |
中央财经大学、百炼智能、Gonex等 |
关于TsingtaoAI
TsingtaoAI拥有一支高水平的产学研一体的AI产品开发团队,核心团队主要来自清华大学、北京大学、中科院、北京邮电大学、复旦大学、中国农业大学、美团、京东、百度、中国技术创业协会和三一重工等产研组织。 TsingtaoAI核心团队专长于算力、行业LLM/AIGC应用的产品研发,面向企业的大语言模型应用落地等业务,如面向智能客服、教育、人力资源、电商和轨道交通等行业领域的LLM和AIGC应用开发。公司拥有近10项LLM/AIGC相关的知识产权。
TsingtaoAI自研基于LLM大模型代码能力的AIGC应用开发实训平台、面向CS专业的AI训练实训平台和基于大语言模型的AIGC案例学习平台,聚焦虚拟现实、金融科技、医药健康、高端装备、新能源、新材料、节能环保、文化创意、农业科技和食品科技等关键行业,通过链接全球数以千计的关键领域的AI科学家和工程师,为央国企、上市公司、外资企业、政府部门和高校提供AI企业内训和高校实训服务。