【企业内训】从训练到推理,LLM大模型技术培训-YQ集团

    本培训为某汽车厂商IT团队做的LLM大模型技术内训,内容全面揭示大模型技术的核心原理与应用。深入探讨大模型从理论到实践的每一个环节,包括大模型的理论基础、关键技术如分布式并行计算、训练加速技术,以及推理优化技术。通过线上线下结合的培训模式,不仅能够掌握构建和优化大规模语言模型的方法,还将通过实际案例学习如何在不同的业务场景中应用。

培训对象:YQ集团车联网部AI团队及其他业务线相关工程师30人;

培训时长:理论培训20小时,4周伴随辅导;

赋能方式:线上和线下结合;

课程大纲

一、大模型技术原理介绍(10小时)

[通识] 大模型通识课-人工智能技术概览

[背景] 人工智能与大模型

[脉络] 语言模型技术演进

[原理] Transformer 网络

[热点] 基于Transformer网络的语言模型

[应用] 大模型提示工程及工程应用

[特性] 大模型特性及典型应用场景

[提示工程] prompt编写指导原则与技巧

[应用] 利用prompt构建对话数据(self-prompt)

[应用] prompt 与 自动化测试

[应用] prompt 与 代码生成

二、大模型训练关键技术(20小时)

[技术总览] 大模型关键技术-技术总览

[总览] 预训练语言模型学习范式

[原理] 构建大语言模型关键技术与流程

[实践] 如果构建超大规模语言模型

[并行技术] 大模型关键技术-分布式并行技术

[分布式]分布式并行计算

[集合通信]集合通信技术(MPI/NCCL)

[并行技术]并行原理(dp/tp/pp/sp/ep)

[混合并行] 混合并行与自动并行

[训练加速] 大模型关键技术-训练加速

[通信] 训练中通信优化技术(overlap)

[计算] 混合精度计算(amp)

[显存]零冗余优化器(zero1/2/3/offloading)

[显存]重计算技术(recompute)

[运行时] 算子融合技术(flashatten/fused)

[系统]系统优化(IO/网络/fen)

[训练实战] 大模型训练优化实战

[pretrain] 大模型预训练技术要点

[sft]大模型finetune训练

[adapter]大模型高效微调

[框架] 开源框架选择与案例讲解

[课堂后实践-1] llama 7b 预训练 or fine-tune (2选1)

伴随实践:(每周线上答疑1次,案例研讨1次,一共2周)

1. 如何选择基准大模型?

2. 如何评测模型指标?

3. 如何高效扩展上下文长度?

4. 如何构造finetune数据集?

5. 如何评测模型量化效果?

三、大模型推理优化技术(20小时)

[推理] 大模型推理-AI编译器和工具链

[原理] AI主流编译器及原理(TVM/MLIR/XLA)

[跨平台] 跨平台模型移植

[应用] 性能调优技术(子图优化/算子融合)

[推理] 大模型推理-推理分析优化

[原理]模型原网络结构及推理特点、推理难点

[优化技术]推理优化技术:

l 计算优化:算子融合,FlashAttention,AI 编译器(TVM)

l 显存优化:Paged Attention,int8 KV cache,int8/int4 Weights-only

l 通信优化:通信量化、通信/计算 Overlap

l 调度优化:Continious Batch 技术

l 模型压缩:量化,剪枝

l StreamLLM

[推理] 大模型推理-开源方案解析

LLM 模型推理常用开源方案:

l Fastertransformer

l TensorRT-LLM

l IMDeploy

l vLLM

l MLC-LLM

[推理] 大模型推理-优化部署案例

[模型]baichuan 网络结构介绍

[框架]部署框架优化技术解析

[部署]如何将推理引擎部署为一个服务

[评估] 效果评估

[课堂后实践-2] baichuan 7b 推理部署

伴随实践:(每周线上答疑1次,案例研讨1次)

1. 如何选择基准大模型? 

2. 如何评测模型指标?

3. 如何高效扩展上下文长度?

4. 如何构造finetune数据集?

5. 如何评测模型量化效果

师资能力

➢ 大模型算法及AI引擎专家

➢ 有AI大模型实践及底层代码经验

➢ 知名互联网大厂机器学习平台算法及大模型负责人

➢ 既精通大模型训练优化技术,又拥有千亿参数大模型的完整训练实践

➢ 主流AI框架 《Deepspeed》《Megatron-LM》《ColossalAI》代码分支维护和贡献者

➢ 擅长方向:Transformer 及 MoE 模型架构优化、大模型训练及优化技术、大模型偏好对齐技术、集合通信与高性能计算、 AI混合并行训练引擎、深度学习训练及推理加 速、超大规模聚类GPU技术、大规模机器学习平台架构。

培训目标

通过培训学员具备大模型使用、训练、工程化、语音服务能力,具体目标如下:

◼ 掌握大模型理论基础知识

◼ 掌握大模型关键技术原理及技巧

◼ 掌握大模型推理优化的技术原理及开源方案

◼ 掌握工程及代码(llama 7b 混合并行预训练)案例

◼ 掌握项目及代码(baichuan 7b 推理部署)案例

 

附:LLM大模型技术知识结构

附:培训现场照片

Product & Case.

产品与案例