AIGC应用开发实践课程-多模态大模型应用开发

 
 
 
课程简介
 
 

本课程旨在系统讲解AIGC(AI Generated Content)相关的理论和技术,并配套相关的实验案例。主要内容包括视觉大模型和多模态大模型的原理及应用,涉及文本生成图像、图像生成图像、视频生成、语音生成、音乐生成等领域。课程共64学时,每学时40分钟,其中理论技术课程32学时,实验案例课程32学时。适用于AI/CS/IT相关专业本科生的教学。

 
 
课程目标
 
 

1. 掌握大模型技术的基本概念及发展历程。

2. 理解并应用面向理解任务和生成任务的多模态大模型。

3. 学习并掌握大模型的预训练、微调、评估、压缩、推理与部署相关技术。

4. 掌握大模型在安全性方面的知识。

 
 
课程内容
 
 
第一部分:大模型技术概述

 

第一章:大模型技术概述

  • 定义:大规模预训练模型(Pre-trained  Large Model)

  • 特点:大规模参数量、广泛适用性、高性能

  • 重要特性:预训练与微调、架构多样性、计算资源与优化

  • 从单任务模型到多任务模型

  • 从单模态模型到多模态模型

  • 重要里程碑:BERT、GPT、T5、CLIP、DALL-E等

  • 自然语言处理(NLP)(问答系统、机器翻译、文本生成)

  • 计算机视觉(CV)(视频修复、图像生成、视觉问答)

  • 多模态融合应用(自动驾驶、医疗辅助诊断)

  • 大模型的定义与基本概念

  • 大模型的发展历程

  • 大模型的应用领域与前景

第二章:大模型的基础知识

  • 神经元与层

  • 前向传播与反向传播

  • 激活函数与损失函数

  • 数据清洗与预处理

  • 数据增强技术(Augmentation)

  • 数据集划分和评估

  • 数据安全和隐私保护

  • 数据标注与管理工具

  • GPU与TPU的使用

  • 分布式训练框架(如Horovod)

  • 混合精度训练(Mixed  Precision Training)

  • 神经网络基础

  • 大规模数据集的构建与管理

  • 计算资源与分布式训练

 

第二部分:面向理解任务的多模态大模型

 

第三章:多模态大模型概述

  • 概念:多模态数据(文本、图像、视频等)的融合与学习

  • 意义:增强模型的理解能力与应用范围

  • 数据集介绍:COCO、Visual Genome、YouTube-8M等

  • 数据对齐与配对技术

  • 多模态学习的概念与意义

  • 多模态数据的获取与处理

第四章:CLIP模型原理

  • 模型结构:双塔结构(Text Encoder+Image Encoder)

  • 训练目标:对比学习(Contrastive  Learning)

  • 文本编码器:基于Transformer的架构

  • 图像编码器:基于ResNet的架构

  • 对比学习损失函数(Contrastive  Loss)

  • 图像检索与分类

  • 文本引导的图像生成

  • CLIP模型简介

  • CLIP的训练方法与架构

  • CLIP在图像与文本理解中的应用

第五章:VATT模型原理

  • 模型结构:基于Transformer的多模态模型

  • 训练目标:自监督学习与多模态对齐

  • 视频编码器:基于3D CNN的架构

  • 文本编码器:基于Transformer的架构

  • 多模态对齐损失函数

  • 视频检索与分类

  • 文本引导的视频生成

  • VATT模型简介

  • VATT的训练方法与架构

  • VATT在视频与文本理解中的应用

第六章:ALIGN模型原理

  • 模型结构:双塔结构(Text Encoder       + Image Encoder)

  • 训练目标:对比学习与多模态对齐

  • 文本编码器:基于BERT的架构

  • 图像编码器:基于EfficientNet的架构

  • 对比学习损失函数

  • 图像检索与分类

  • 文本引导的图像生成

  • ALIGN模型简介

  • ALIGN的训练方法与架构

  • ALIGN在图像与文本理解中的应用

 

案例一:基于CLIP模型的智能广告生成系统

实验目的:

  • 理解CLIP模型的结构与原理

  • 掌握图像与文本的对齐与生成技术

  • 实现智能广告生成系统

第一课时:CLIP模型基础与数据准备

  • 理论章解:CLIP模型结构与原理

  • 数据准备:收集与处理广告图像与文本数据

  • 实践操作:数据预处理与特征提取

第二课时:模型训练与优化

  • 理论章解:对比学习与损失函数

  • 模型训练:使用预处理数据训练CLIP模型

  • 实践操作:训练过程中的参数调整与优化

第三课时:广告生成系统开发

  • 理论章解:文本引导图像生成技术

  • 系统开发:实现基于CLIP的智能广告生成系统

  • 实践操作:系统集成与功能测试

第四课时:系统评估与应用

  • 理论章解:模型评估方法与指标

  • 系统评估:对生成的广告进行效果评估

  • 实践操作:优化系统并部署应用

 

案例二:基于VATT模型的视频检索系统

实验目的:

  • 理解VATT模型的结构与原理

  • 掌握视频与文本的对齐与检索技术

  • 实现智能视频检索系统

第一课时:VATT模型基础与数据准备

  • 理论章解:VATT模型结构与原理

  • 数据准备:收集与处理视频与文本数据

  • 实践操作:数据预处理与特征提取

第二课时:模型训练与优化

  • 理论章解:自监督学习与多模态对齐

  • 模型训练:使用预处理数据训练VATT模型

  • 实践操作:训练过程中的参数调整与优化

第三课时:视频检索系统开发

  • 理论章解:多模态检索技术

  • 系统开发:实现基于VATT的智能视频检索系统

  • 实践操作:系统集成与功能测试

第四课时:系统评估与应用

  • 理论章解:模型评估方法与指标

  • 系统评估:对视频检索系统进行效果评估

  • 实践操作:优化系统并部署应用

 

第三部分:面向生成任务的多模态大模型

 

第七章:基础扩散模型原理

  • 定义:基于扩散过程的生成模型

  • 过程:噪声添加与去噪

  • 前向过程(Forward  Process):逐步添加噪声

  • 反向过程(Reverse  Process):逐步去噪

  • 噪声分布选择

  • 去噪网络架构设计

  • 扩散模型的基本概念

  • 扩散模型的训练过程

  • 关键技术点

第八章:DDPM模型原理

  • 模型结构:基于U-Net的去噪网络

  • 训练目标:最大化去噪过程的似然

  • 前向过程与反向过程的细节

  • 去噪网络的设计与优化

  • 高质量图像生成

  • 应用案例分析

  • DDPM模型简介

  • DDPM的架构与训练方法

  • DDPM在图像生成中的应用

第九章:DDIM模型原理

  • 模型结构:基于改进的扩散过程

  • 训练目标:提升生成效率与质量

  • 改进的前向过程与反向过程

  • 去噪网络的优化与调整

  • 高效图像生成

  • 应用案例分析

  • DDIM模型简介

  • DDIM的架构与训练方法

  • DDIM在图像生成中的应用

第十章:Stable Diffusion模型原理

  • 模型结构:基于稳定扩散过程

  • 训练目标:平衡生成质量与计算成本

  • 前向过程与反向过程的稳定设计

  • 去噪网络的优化策略

  • 应用领域与案例分析

  • Stable      Diffusion模型简介

  • Stable      Diffusion的架构与训练方法

  • Stable      Diffusion在图像生成中的应用

 

案例三:基于DDPM模型的高质量图像生成

实验目的:

  • 理解DDPM模型的结构与原理

  • 掌握图像生成技术

  • 实现高质量图像生成系统

第一课时:DDPM模型基础与数据准备

  • 理论章解:DDPM模型结构与原理

  • 数据准备:收集与处理图像数据

  • 实践操作:数据预处理与特征提取

第二课时:模型训练与优化

  • 理论章解:扩散过程与去噪网络

  • 模型训练:使用预处理数据训练DDPM模型

  • 实践操作:训练过程中的参数调整与优化

第三课时:图像生成系统开发

  • 理论章解:图像生成技术

  • 系统开发:实现基于DDPM的高质量图像生成系统

  • 实践操作:系统集成与功能测试

第四课时:系统评估与应用

  • 理论章解:模型评估方法与指标

  • 系统评估:对图像生成系统进行效果评估

  • 实践操作:优化系统并部署应用

 

案例四:基于Stable Diffusion模型的影视特效生成

实验目的:

  • 理解Stable      Diffusion模型的结构与原理

  • 掌握影视特效生成技术

  • 实现智能影视特效生成系统

第一课时:Stable Diffusion模型基础与数据准备

  • 理论章解:Stable      Diffusion模型结构与原理

  • 数据准备:收集与处理影视特效数据

  • 实践操作:数据预处理与特征提取

第二课时:模型训练与优化

  • 理论章解:扩散过程与去噪网络

  • 模型训练:使用预处理数据训练Stable      Diffusion模型

  • 实践操作:训练过程中的参数调整与优化

第三课时:影视特效生成系统开发

  • 理论章解:特效生成技术

  • 系统开发:实现基于Stable      Diffusion的智能影视特效生成系统

  • 实践操作:系统集成与功能测试

第四课时:系统评估与应用

  • 理论章解:模型评估方法与指标

  • 系统评估:对影视特效生成系统进行效果评估

  • 实践操作:优化系统并部署应用

 

第四部分:兼顾理解和生成任务的多模态大模型

 

第十一章:VL-T5模型原理

  • 模型结构:基于T5的多模态扩展

  • 训练目标:同时处理理解与生成任务

  • 文本编码器与图像编码器的融合设计

  • 训练策略与损失函数

  • 多模态问答系统

  • 文本生成图像的应用案例

  • VL-T5模型简介

  • VL-T5的架构与训练方法

  • VL-T5在理解与生成任务中的应用

第十二章:Unified VLP模型原理

  • 模型结构:统一的多模态预训练架构

  • 训练目标:统一处理多种任务

  • 多任务学习策略

  • 模型训练与优化技术

  • 多任务学习的应用案例

  • Unified VLP模型简介

  • Unified VLP的架构与训练方法

  • Unified VLP在理解与生成任务中的应用

第十三章:BLIP-2模型原理

  • 模型结构:基于BERT与Transformer的多模态架构

  • 训练目标:提升理解与生成性能

  • 多模态对齐与融合技术

  • 训练策略与优化方法

  • 多模态生成与理解的应用案例

  • BLIP-2模型简介

  • BLIP-2的架构与训练方法

  • BLIP-2在理解与生成任务中的应用

 

案例五:基于VL-T5模型的智能教育问答系统

实验目的:

  • 理解VL-T5模型的结构与原理

  • 掌握智能教育问答系统的开发技术

  • 实现智能教育问答系统

第一课时:VL-T5模型基础与数据准备

  • 理论章解:VL-T5模型结构与原理

  • 数据准备:收集与处理教育问答数据

  • 实践操作:数据预处理与特征提取

第二课时:模型训练与优化

  • 理论章解:多模态融合技术

  • 模型训练:使用预处理数据训练VL-T5模型

  • 实践操作:训练过程中的参数调整与优化

第三课时:智能教育问答系统开发

  • 理论章解:问答系统技术

  • 系统开发:实现基于VL-T5的智能教育问答系统

  • 实践操作:系统集成与功能测试

第四课时:系统评估与应用

  • 理论章解:模型评估方法与指标

  • 系统评估:对问答系统进行效果评估

  • 实践操作:优化系统并部署应用

 

第五部分:知识增强的多模态大模型

 

第十四章:ERNIE-ViL模型原理

  • 模型结构:基于知识增强的多模态架构

  • 训练目标:提升知识表达与融合能力

  • 知识图谱的引入与应用

  • 模型训练与优化策略

  • 知识问答与推理

  • 应用案例分析

  • ERNIE-ViL模型简介

  • ERNIE-ViL的架构与训练方法

  • ERNIE-ViL在知识增强与多模态学习中的应用

 

案例六:基于ERNIE-ViL模型的智慧医疗系统

实验目的:

  • 理解ERNIE-ViL模型的结构与原理

  • 掌握智慧医疗系统的开发技术

  • 实现智慧医疗系统

第一课时:ERNIE-ViL模型基础与数据准备

  • 理论章解:ERNIE-ViL模型结构与原理

  • 数据准备:收集与处理医疗数据

  • 实践操作:数据预处理与特征提取

第二课时:模型训练与优化

  • 理论章解:知识增强技术

  • 模型训练:使用预处理数据训练ERNIE-ViL模型

  • 实践操作:训练过程中的参数调整与优化

第三课时:智慧医疗系统开发

  • 理论章解:医疗系统技术

  • 系统开发:实现基于ERNIE-ViL的智慧医疗系统

  • 实践操作:系统集成与功能测试

第四课时:系统评估与应用

  • 理论章解:模型评估方法与指标

  • 系统评估:对智慧医疗系统进行效果评估

  • 实践操作:优化系统并部署应用

 

第六部分:大模型的预训练与微调

 

第十五章:大模型的预训练

  • 定义:大规模无监督学习过程

  • 目标:学习通用特征表示

  • 数据集选择与准备

  • 训练策略与优化技术

  • 预训练的基本概念

  • 预训练的技术细节与挑战

  • 案例分析:BERT、GPT-3等模型的预训练方法

第十六章:大模型的微调技术

  • 定义:在特定任务上进行有监督学习

  • 目标:适配特定任务需求

  • 技术简介:低秩适应(Low-Rank       Adaptation)

  • 目标:通过低秩矩阵分解进行高效微调

  • 应用实例:在特定任务上的快速微调与性能提升

  • 技术简介:基于生成对抗网络(GANs)的微调技术

  • 目标:通过生成对抗网络进行高质量的微调

  • 应用实例:图像生成与图像增强任务中的应用

  • 技术简介:控制神经网络

  • 目标:在预训练模型中引入控制信号,实现特定任务微调

  • 应用实例:在复杂任务中的控制与调优

  • 微调的基本概念

  • loRA技术详解

  • Dreambooth技术详解

  • ControlNet技术详解

 

案例七:基于Unified VLP模型的智慧工厂监控系统

实验目的:

  • 理解Unified VLP模型的结构与原理

  • 掌握智慧工厂监控系统的开发技术

  • 实现智慧工厂监控系统

第一课时:Unified VLP模型基础与数据准备

  • 理论章解:Unified VLP模型结构与原理

  • 数据准备:收集与处理工厂监控数据

  • 实践操作:数据预处理与特征提取

第二课时:模型训练与优化

  • 理论章解:多任务学习策略

  • 模型训练:使用预处理数据训练Unified VLP模型

  • 实践操作:训练过程中的参数调整与优化

第三、四课时:智慧工厂监控系统开发

  • 理论章解:监控系统技术

  • 系统开发:实现基于Unified VLP的智慧工厂监控系统

  • 实践操作:系统集成与功能测试

 

第七部分:大模型的评估、压缩、推理与部署

 

第十七章:大模型的评估

  • 评估指标:精度、召回率、F1分数等

  • 评估方法:交叉验证、混淆矩阵等

  • 数据不均衡问题

  • 评估时间与资源消耗

  • 评估指标与方法

  • 大模型评估的挑战与解决方案

第十八章:大模型的压缩技术

  • 定义:减少模型参数与计算量

  • 目标:提升模型的推理速度与部署效率

  • 技术简介:移除冗余参数

  • 实施方法:结构化剪枝与非结构化剪枝

  • 案例分析:经典模型压缩实例

  • 技术简介:减少模型参数的位宽

  • 实施方法:定点量化与混合精度量化

  • 案例分析:模型量化的应用实例

  • 技术简介:教师模型与学生模型的知识转移

  • 实施方法:软标签与硬标签的蒸馏

  • 案例分析:经典蒸馏模型

  • 模型压缩的基本概念

  • 模型剪枝技术

  • 模型量化技术

  • 模型蒸馏技术

第十九章:大模型的推理与部署

  • 推理定义:模型在实际应用中的预测过程

  • 部署定义:将模型应用到生产环境

  • 优化策略:减少计算复杂度与加速推理过程

  • 案例分析:经典推理优化技术

  • 部署工具与平台:TensorFlow       Serving、ONNX、Triton       Inference Server等

  • 部署案例:实际应用中的部署实例

  • 推理与部署的基本概念

  • 大模型的推理优化技术

  • 大模型的部署方案与案例

 

案例八:基于BLIP-2模型的智能音乐生成系统

实验目的:

  • 理解BLIP-2模型的结构与原理

  • 掌握智能音乐生成技术

  • 实现智能音乐生成系统

BLIP-2模型基础与数据准备

  • 理论章解:BLIP-2模型结构与原理

  • 数据准备:收集与处理音乐数据

  • 实践操作:数据预处理与特征提取

第二课时:模型训练与优化

  • 理论章解:多模态对齐与融合技术

  • 模型训练:使用预处理数据训练BLIP-2模型

  • 实践操作:训练过程中的参数调整与优化

第三课时:智能音乐生成系统开发

  • 理论章解:音乐生成技术

  • 系统开发:实现基于BLIP-2的智能音乐生成系统

  • 实践操作:系统集成与功能测试

第四课时:系统评估与应用

  • 理论章解:模型评估方法与指标

  • 系统评估:对音乐生成系统进行效果评估

  • 实践操作:优化系统并部署应用

 

第八部分:大模型的安全性

 

第二十章:大模型的安全性

  • 面临的威胁:对抗攻击、数据泄露等

  • 安全性评估:安全测试与漏洞扫描

  • 对抗攻击技术:对抗样本生成、白盒攻击与黑盒攻击

  • 防御技术:对抗训练、鲁棒性增强技术

  • 隐私保护方法:差分隐私、联邦学习

  • 案例分析:隐私保护的实际应用

  • 大模型的安全性挑战

  • 大模型的对抗攻击与防御技术

  • 大模型的隐私保护技术

 

第九部分:课程总结与展望

 

第二十一章:课程总结与未来展望

  • 各模块重点知识总结

  • 学生学习成果展示

  • 大模型在各领域的应用前景

  • 未来技术的发展趋势

  • 课程内容回顾

  • 未来研究方向与应用前景

 
 
讲师介绍
 
 
 
 
 
肖红正 多模态大模型资深算法讲师

 

个人介绍

肖红正,资深算法专家,拥有超过15年的算法研究与实践经验。曾在世界五百强企业英特尔公司担任高级系统架构师,担任中国电子系统技术有限公司的算法Leader,带领团队在智慧城市和能源行业领域进行多模态大模型产品研发,获得多项专利和荣誉。

 

教育背景

2002 - 2009: 华中科技大学 计算机应用 本科和硕士

可讲主题及培训内容

1.计算机视觉与图像处理

a.图像降噪与增强处理

b.2D和3D目标检测与分类

c.激光雷达与相机数据融合

2.深度学习与机器学习

a.深度学习模型设计与优化

b.机器学习算法及应用

c.数据挖掘与运行优化

3.AI/多模态大模型应用开发

a.智能零售柜技术应用

b.工业机器人和复合机器人

c. 城市大脑与智能交通

 

个人资质

专利:

一种文本识别模型的生成方法以及装置(CN202110447608.9)

一种语义分析方法及装置 (CN202110499308.5)

 

奖项

荣获2021年度集团优秀解决方案奖

 

技术能力

精通C/C++,熟悉Python等编程语言

深刻理解Linux系统和软件工程化

具备软硬件一体化产品研发能力

擅长多模态大模型、计算机视觉、机器学习和深度学习技术

 

主要项目经验

智能零售柜和送货机器人:通过2D+3D深度学习算法实现商品识别与结算,准确率达99%。

工业移动检测机器人: 基于多传感器融合技术,实现高精度缺漏检测与姿态检测。

城市大脑项目: 实现复杂场景下的2D和3D人脸识别与多目标追踪系统,提升城市管理智能化水平。

 

陈鑫 AIGC大模型应用开发资深讲师

 

个人介绍

陈鑫,拥有超过10年的软件开发和系统架构经验,专注于Python、Java语言教学及人工智能生成模型(AIGC)方向。现任TsingtaoAI研发及实训项目负责人,曾担任北京正己基业教育科技有限公司的架构师。陈鑫讲师以其深厚的技术背景和丰富的实践经验,致力于通过高质量的培训课程帮助学员提升专业技能。

 

教育背景

2005.09—2008.07 天津大学      计算机科学与技术 硕士

2001.09—2005.07 山东大学      计算机科学与技术 学士

 

讲主题及培训内容

1.Python编程与应用

a.Python基础语法与数据结构

b.高级编程技巧与实战案例

2.Java语言高级应用

a.Java高级编程

b.企业级Java应用开发

3.机器学习与神经网络

a.机器学习基础

b.深度学习与神经网络

4.AIGC生成多模态模型

a.基于Python的AIGC模型实现

b.AIGC在实际项目中的应用

5.系统架构设计

a.企业级系统架构设计原则

b.分布式系统与微服务架构

 

培训及项目案例

1.GreedyAI实训项目:通过一系列系统的培训课程,帮助学员掌握Python和Java的高级编程技巧,并将所学知识应用于实际项目中,提高学员的实战能力。

2.武昌职业技术学院精英班项目实训:针对职业院校学生的实训项目,通过项目驱动的学习方法,提升学生的编程技能和项目实践能力。

3.湖北生物职业技术学院毕业提升班项目实训:为毕业生提供专项培训,帮助他们在毕业后能够迅速适应工作岗位的要求,提高就业竞争力。

4.运道智能物流平台:领导开发并实施了智能物流平台,通过先进的技术手段,提高物流运作效率,获得客户的高度认可。

5.掌合云工厂智能平台:负责智能平台的架构设计与开发,实现了工厂生产管理的智能化,提高了生产效率和管理水平。

 

 
 
相关案例
 
 

 

 

 

 

Product & Case.

产品与案例