企业内训｜大模型实战技术深度研修-某智算厂商研发中心

课程概要

本课程深入研修LLM大模型在实际应用中的技术实现和优化策略。通过迁移与适配、训练与调优、推理优化以及综合应用与案例分析四个模块，系统地探讨大模型的核心理论、关键技术和实践操作。课程内容涵盖模型迁移的理论与实操、预训练与微调策略、推理性能优化方法，以及大模型在工业界和学术界的实际应用案例。学员将通过实践演练，掌握如何在多模态数据集上实现模型的迁移、训练、调优和推理优化，并通过真实项目的综合实操强化对大模型技术的理解与应用。

内训目标

增强大模型迁移与适配的技能：通过学习模型迁移和适配的理论基础和实操方法，掌握如何选择适合的预训练模型，进行微调与参数优化，实现从图像识别到文本生成的跨模态迁移。

提升大模型训练与调优能力：深入理解大模型的预训练与持续预训练过程，掌握多 GPU/TPU 环境下的大规模训练策略，以及通过参数调优和持续预训练提升模型性能的技巧。

优化推理性能与资源利用：学习如何配置分布式推理环境，运用最新的推理优化技术和策略，显著提升推理速度和性能，降低计算资源消耗。

课程准备及说明

授课前1周，讲师会对授课需要的硬件资源和软件环境给出详细的说明和教程文档。学员根据环境要求和教程文档提前准备好相应的硬件资源和软件环境。

课时安排

一共4天，每天6-7小时。

课程大纲方案

第一天：大模型的迁移与适配

1.1 课程导入与目标介绍

课程简介与学习目标。
大模型在当前技术环境下的重要性。
课程涉及的主要工具和框架概述。

1.2 模型迁移与适配概述

模型迁移的理论基础。
多模态大模型的定义与应用场景。
迁移学习的技术原理与实践意义。
相关前沿论文与技术趋势解析。

1.3 多模态大模型迁移的实操演练

如何选择适合的预训练模型进行迁移。
模型的微调与适配，涵盖参数调整与数据集扩展。
实操：从图像识别到文本生成的跨模态迁移。
实操：不同场景下的模型适配与迁移策略。

演练环境准备：基于多模态数据集的构建与预处理。
迁移演练：

1.4 问题讨论与疑难解答

学员针对迁移过程中遇到的问题进行讨论。
讲师总结迁移中的关键要点与常见问题的解决方案。

第二天：大模型训练与调优

2.1 训练与调优基础概念回顾

预训练与微调的区别与联系。
大模型的预训练过程概述。
参数调优的重要性与常见策略。

2.2 大模型预训练与持续预训练的深入讲解

数据集的选择与准备。
预训练模型架构的选择与修改。
多GPU/TPU环境下的大规模预训练策略。
实操：构建与运行预训练任务。

增量数据对模型性能的影响。
持续预训练的场景与方法。
实操：基于增量数据的持续预训练演练。

预训练过程分析：
持续预训练：

2.3 SFT与DPO的实操演练

SFT的原理与应用场景。
实操：如何通过SFT提升模型的特定任务性能。
实操：数据标签化与SFT流程的优化。

DPO的基本概念与理论基础。
实操：通过DPO实现对模型输出的偏好调整。
实操：DPO在多模态模型中的应用案例。

SFT的理论与实践：
DPO的理论与实践：

2.4 训练与调优过程中的常见问题与解决方案

模型过拟合与欠拟合问题的识别与应对。
学习率的调整与优化策略。
参数调优中的常见陷阱与规避方法。

第三天：大模型推理优化

3.1 推理优化的基础理论与实践意义

推理过程的概述与常见挑战。
模型推理的性能瓶颈分析。
多机多卡分布式推理的必要性与优势。

3.2 llama3.1 405B模型的分布式推理实操

分布式推理所需的硬件与软件环境搭建。
基于NCCL和Horovod的分布式推理框架。

分布式推理流程解析与实操。
通过多机多卡进行推理的性能分析与优化。
实操：在特定任务下的llama3.1 405B模型分布式推理。
性能调优与推理时间的压缩策略。

推理环境配置：
推理演练：

3.3 基于MindIE的大模型推理实操

MindIE架构与工作原理。
多模态推理的挑战与解决方案。
实操：配置并运行基于MindIE的多模态模型推理任务。
实操：优化推理性能，减少资源占用。

MindIE简介与多模态推理：

3.4 推理优化的前沿技术与研究

推理效率提升的最新技术趋势。
相关前沿论文的深度解读。
性能调优的创新方法与工具。

第四天：综合应用与案例分析

4.1 综合应用案例介绍与分析

典型大模型应用场景介绍。
成功案例分析：大模型在工业界与学术界的应用。
大模型的部署与运维挑战。

4.2 真实项目的实操演练

结合前几日学习内容，选择一个真实项目进行综合实操。
项目目标设定与工作流程规划。

数据准备与预处理。
模型训练与调优。
模型推理与性能优化。
项目展示与结果分析。

项目选题与规划：
实操演练：

4.3 总结与展望

课程回顾与知识点总结。
学员展示项目成果与经验分享。
未来技术趋势展望与技能提升路径建议。
答疑解惑与课程反馈。

授课讲师介绍

张老师大模型算法/AI Infra开发专家

北京邮电大学，网络与交换国家重点实验室，计算机科学与技术硕士。某互联网大厂高级工程师，深度学习框架开发与性能调优专家horovod,spark,iceberg,hudi 等系列源码贡献者，“Tim 在路上”公众号主理人。

专业能力

熟悉深度学习框架，模型性能调优，有过深度学习框架开发调优经验。

熟悉 GPU, NPU, CUDA, CANN, Nccl, IB 等底层原理与工程实践。

熟悉数据湖/数据引擎的开发优化，例如针对SparkSQL 源码级优化开发。

陈老师 AI智算技术专家

教育背景

硕士学位 | 天津大学专业领域：大模型/高性能计算

研究方向：分布式计算、深度学习模型优化、GPU加速计算。

专业领域

华为昇腾技术栈: 深入掌握华为昇腾AI计算平台，包括昇腾算子开发、HCCL集合通信优化、智算集群建设与性能调优。

智算集群建设与优化: 专注于大规模智算集群的设计、部署、设备选型、网络配置及系统集成，提升集群性能和稳定性。

深度学习与高性能计算: 研究和应用分布式训练框架、优化技术，进行大规模计算任务的高效处理。

网络与系统集成: 在复杂网络环境下进行系统集成，确保数据传输的高效性与系统的稳定性。

AI开发框架: 熟悉多种AI开发框架，包括NCE fabric、NCE insight fabric、MindX和ModelArts平台的高阶使用。

学术成就

论文发表: 在国际顶级期刊上发表多篇高影响力研究论文，涉及高性能计算与AI模型优化领域，包括：

《IEEE Transactions on Neural Networks and Learning Systems》：论文集中于深度学习技术在高性能计算中的应用。

《Frontiers in Immunology》：研究了GPU加速技术在生物信息学中的应用。

专利：

“图像分类方法及装置”：改进了图像分类的准确性和处理速度。

“神经网络模型的训练方法及装置”：优化了神经网络模型的训练效率。

国际会议: 多次在国际学术会议上发表演讲，涵盖AI、深度学习和高性能计算领域。

代表性项目经验

GFDX智算集群项目

负责内容: 主导智算集群的整体设计与交付，包括设备选型、系统集成和网络设备配置。负责优化集群性能以满足高负载计算需求。

实际项目交付经验: 成功实施了62.5P的智算集群交付，确保系统的高效能和稳定性。

首都在线智算集群项目

负责内容: 主导智算集群的设计与部署，负责设备选型、集群网络架构设计和HCCL集合通信的优化配置。

实际项目交付经验: 成功交付了80P的智算集群项目，实现了高效的数据处理和计算能力。

北京昇腾人工智能计算中心

负责内容: 领导整个智算集群项目的建设与交付，包括设备选型、系统集成、网络设备配置与调优，以及昇腾平台的算子开发与优化。

实际项目交付经验: 主导了100P的智算集群交付，显著提升了计算能力和系统性能，满足了大规模AI应用需求。

教学与培训经验

昇腾技术培训: 为多家企业和研究机构提供昇腾技术栈的定制化培训，涵盖昇腾算子开发、HCCL通信优化、智算集群建设等内容。

教学方法: 善于将复杂的理论知识与实际应用相结合，通过案例分析与实践操作，帮助学员在短时间内掌握核心技术，并能在实际项目中独立应用。

赵老师，资深大模型算法专家

北京邮电大学本硕连读，拥有扎实的人工智能理论知识和丰富的项目实践经验。在字节跳动和中国银行担任算法工程师，现在在AI科技公司负责大语言模型（LLM）落地项目。已构建自研训练框架，可适配ChatGLM1&2、Baichuan1&2、Qwen14B等主流开源模型的全参/lora/Qlora微调，支持各种训练指标可视化，方便对比实验；已构建训练数据生成流程，基于不同业务需求进行训练数据处理；已构建推理服务，基于自训模型及推理服务成功在APP上线与用户交互。

过往授课课程

Python编程与大数据应用
ChatGLM与其他LLM的部署、训练与微调
LangChain框架深度解析与实践
多模态处理与多模态大语言模型实践
知识图谱技术在大数据中的应用
大模型（LLM）数据预处理与特征工程

LLM培训案例

课程内容：讲解LLM的基础原理、部署策略以及微调技巧，帮助学生在实际项目中应用LLM。
培训效果：提高了学员对LLM的理解和实际操作能力，促进了项目的顺利进行。

课程内容：为技术团队提供LLM模型与多模态AIGC联合应用，利用LLM能力助力多模态生成。
培训效果：提升了团队的多模态生成技术水平，增强了企业在AIGC领域的竞争力。

中信银行：LLM Driving课程
广汽如祺：AIGC大模型应用开发技能培训

个人资质

精通Python、Go语言，具有丰富的后端开发经验，涉及数据库、kafka、高并发处理等。
具备深厚的大模型、NLP、RAG、思维链CoT、语音识别（ASR）和语音测评（GOP）技术背景，曾基于kaldi和conformer+transformer框架开发相关服务。
熟悉主流开源大语言模型的全参/lora/Qlora微调技术，并能够根据不同业务需求进行定制化训练数据处理。

发表论文与发明专利

发表论文：《基于多模态大语言模型的智能客服系统研究》《大模型在金融行业的应用与实践》
发明专利：一种用于金融风险预测的多模态大语言模型；基于LLM的智能语音交互系统。

其他项目经验

项目内容：负责后端开发，涉及数据库管理、kafka消息队列、高并发处理等技术。
项目成果：提高了系统的稳定性和处理效率，满足了高并发需求。

项目内容：基于kaldi框架训练语音测评模型，实现服务端和手机端本地化推理。
项目成果：该服务成功应用于用户APP的中英文口语练习，实现了自动化打分评价。

项目内容：基于conformer+transformer框架训练端到端模型，实现服务端离线识别和流式识别。
项目成果：该服务成功应用于客服系统和语音审核场景，提高了识别准确率和效率。

‍客户反馈

Python&Go语言后端开发
语音测评（GOP）服务
语音识别（ASR）服务

部分授课课件

景行 LLM和多模态技术研发专家

中科院计算机博士，现任北京邮电大学计算机学院硕导，多模态内容分析及多模态大模型研究领域的专家。景行博士在多模态数据处理、机器学习和人工智能方面拥有丰富的研究经验和技术成果，致力于推动大模型技术在多个行业的应用，积累了深厚的理论基础和实践经验。

教育背景

2016.09—2020.06 中国科学院大学计算机科学与技术博士

可讲主题及培训内容

多模态内容分析技术与应用
大模型架构设计、优化与部署
计算机视觉与深度学习
自然语言处理与多模态融合
智能推荐系统与个性化服务
数据挖掘与机器学习

培训案例

中国电信：主持“大数据平台优化及开发应用实战”培训，提升了电信网络运维及开发团队的大数据应用实践能力，优化了多个数据分析应用软件的性能。
华为技术有限公司：开展“智能推荐系统与个性化服务”培训，提升华为研发团队在大数据处理和个性化推荐系统设计上的技术水平。
中科院软件研究所：负责“多模态内容分析技术及应用”培训，促进了科研团队在多模态数据处理和分析方面的技术提升。
京东集团：进行“计算机视觉与深度学习”培训，帮助京东AI团队在图像识别、物品分类等方面实现了技术突破。

个人资质

高级工程师职称
多模态内容分析及大模型技术专家
IEEE高级会员
ACM会员
发表SCI论文10篇，EI会议论文7篇
作为项目负责人主持国家自然科学基金、省部级重点研发项目多项

发表论文与发明专利

发表在《IEEE Transactions on Circuits and Systems for Video Technology》的论文“Multimodal Content Analysis and Applications”
发表在《Pattern Recognition》的论文“Advanced Techniques in Image Recognition”
发表在《Neural Computing and Applications》的论文“Neural Networks in Multimodal Data Processing”
发表在《Neurocomputing》的论文“Deep Learning Models for Multimodal Data”
发表在《Multimedia Tools and Applications》的论文“Tools and Techniques for Multimedia Data Processing”
发表在NeurIPS、AAAI、ACM MM等顶级会议的多篇论文