企业内训|基于华为昇腾910B算力卡的大模型部署和调优-上海某央企智算中心

 

近日上海,TsingtaoAI为某央企智算中心交付华为昇腾910B算力卡的大模型部署和调优课程。课程深入讲解如何在昇腾NPU上高效地训练、调优和部署PyTorchTransformer模型,并结合实际应用场景,探索如何优化和迁移模型至昇腾NPU平台。课程涵盖从模型预训练、微调、推理与评估,到性能对比、算子适配、模型调优等一系列关键技术,帮助学员深入理解昇腾NPU的优势及其与主流深度学习框架(如PyTorch、Deepspeed、MindSpore)的结合应用。

 

课程还讲解了RHLF机制、Deepspeed分布式训练、MindIE多模型服务化部署等高阶应用,探索如何在昇腾NPU上高效实现中文文本生成推理任务及性能测试。课程提供关于模型调参、随机种子设置、精度验证等方面的最佳实践,确保学员在面对实际项目时能够高效处理多种挑战。

 
培训安排

 

4天,每天6小时

 

培训目标

1. 掌握昇腾NPU的配置与优化方法:学员将深入理解昇腾NPU的硬件架构,学会如何在昇腾NPU平台上配置和优化PyTorch以及其他深度学习框架。

2. 实现PyTorch与Transformer模型的训练与推理:通过实践,学员将学会如何在昇腾NPU上进行Transformer模型的预训练、微调和推理,并对比GPU与NPU平台上的性能差异。

3. 解决算子适配与性能瓶颈:学员将掌握如何检测和优化模型算子,解决昇腾NPU与标准深度学习库之间的兼容性问题,确保高效运行。

4.引入RHLF机制与强化学习优化:课程将介绍如何在昇腾NPU上实现和优化RHLF机制,并探索其在生成任务中的实际应用。

5.Deepspeed在昇腾NPU上的应用:学员将学会如何在昇腾NPU平台上使用Deepspeed进行分布式训练,提升大规模模型训练的效率。

6.MindIE的多模型服务化部署:讲解如何在昇腾NPU上部署和优化MindIE框架,进行中文文本生成任务的推理和性能测试。

7.科学的超参数调优方法:本课程将为学员提供一套系统的超参数调整方法,帮助学员解决常见的训练问题,如梯度爆炸、损失波动等。

 

部分课件
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

 

 

课程大纲
第1章 昇腾NPU环境配置与基础性能优化
 

1.1昇腾NPU硬件架构介绍与优势

l  昇腾NPU硬件架构概述

l  昇腾NPU的优势与使用场景

1.2昇腾NPU驱动与环境配置

l  安装与配置昇腾驱动

l  配置Python环境与相关依赖

l  MindSpore与CANN的安装与配置

1.3基础性能评估与Profile分析

l  使用昇腾的性能评估工具进行初步性能分析

l  如何通过Profile工具分析硬件资源利用情况和瓶颈

第2章 PyTorch与Transformer模型在昇腾NPU上的适配
 

2.1PyTorch与昇腾NPU的兼容性

l  昇腾NPU对PyTorch的支持情况

l  安装PyTorch并进行配置,支持NPU加速

l  解决常见的兼容性问题

2.2Transformer模型的预训练与微调

l  在昇腾NPU上使用PyTorch进行Transformer模型的训练

l  预训练与微调方法与技巧

l  性能优化:如何利用NPU加速训练与推理

2.3前向对齐与精度对比

l  如何在英伟达GPU与昇腾NPU之间迁移模型

l  前向对齐的方法与实践

l  模型权重与中间层精度对比

l  数据集对齐、模型结构对齐、训练参数对齐

2.4训练与推理性能测试与优化

l  昇腾NPU上模型的训练与推理性能评估

l  性能调优与优化方法(包括批量大小、学习率等)

第3章 算子适配与模型性能调优
 

3.1算子适配检测与优化

l  昇腾NPU上的算子适配检测工具

l  如何检测模型中使用的算子是否被NPU支持

l  必要时如何进行算子重写或优化

3.2模型性能调优

l  如何使用昇腾工具(如MindSpore)进行调优

l  训练超参数的优化(如学习率调整、正则化等)

l  针对不同问题(如梯度爆炸、loss波动等)的调优方法

3.3精度验证与调优后模型验证

l  如何验证调优后模型与基础模型的性能差异

l  使用Profile与测试集对比Loss值和精度

第4章 引入RHLF机制与强化学习
 

4.1RHLF机制简介与应用场景

l  RHLF的概念

l  在NLP与生成模型中的应用

4.2在昇腾NPU上实现RHLF

l  RHLF算法的基本实现

l  如何将RHLF机制集成到昇腾NPU上的Transformer模型中

l  性能与效果评估

第5章 Deepspeed与分布式训练在昇腾NPU上的应用
 

5.1Deepspeed简介与基本功能

l  Deepspeed的功能和优势

l  如何配置Deepspeed进行分布式训练

5.2在昇腾NPU上运行Deepspeed

l  昇腾NPU与Deepspeed的兼容性分析

l  如何在昇腾NPU环境下应用Deepspeed进行大规模训练

l  性能评估与调优

第6章 MindIE与中文本生成场景化推理的性能测试
 

6.1MindIE框架介绍与应用场景

l  MindIE在中文本生成中的应用

l  如何在昇腾NPU上高效运行MindIE

6.2中文本生成推理性能测试

l  在昇腾NPU上进行中文本生成的性能测试方法

l  性能瓶颈分析与优化

6.3MindIE的多模型服务化部署

l  如何实现MindIE模型的多模型服务化部署

l  性能优化与可扩展性

第7章 随机种子设置与模型训练一致性
 

7.1随机种子的设置与影响

l  在深度学习模型训练中,随机种子设置的影响

l  如何设置Python与NPU环境中的随机种子

7.2在昇腾NPU中确保训练一致性

l  如何确保每次训练结果的一致性(避免梯度消失、爆炸等问题)

l  使用随机种子控制模型训练中的随机性

第8章 模型调参科学方法与优化
 

8.1调参的基本原则与策略

l  超参数调优的基本策略

l  如何选择合适的超参数搜索方法(如网格搜索、随机搜索等)

8.2针对性调整超参数应对loss波动与梯度爆炸

l  梯度爆炸与梯度消失问题的解决方案

l  如何根据不同的模型和数据集调整学习率、批量大小等

8.3使用Profile工具优化模型参数

l  如何通过Profile工具检查并优化训练过程中的性能瓶颈

第9章 多模型管理与服务化部署
 

9.1多模型服务化部署概述

l  多模型部署的必要性与挑战

l  如何构建支持多模型并发推理的服务架构

9.2在昇腾NPU上进行多模型推理部署

l  如何利用昇腾NPU的高效推理性能进行多模型并发服务部署

l  负载均衡与资源管理

9.3MindSpore与Deepspeed的多模型部署实践

l  MindSpore与Deepspeed结合的多模型推理服务架构

第10章 常见问题与解决方案
 

10.1迁移与兼容性问题

l  从GPU到NPU迁移过程中常见问题与解决方案

10.2算子未支持问题解决方案

l  如何处理昇腾NPU中未支持的算子

10.3性能优化工具使用指南

l  如何使用昇腾的MindStudio与Profiling工具进行性能调优

 

收集学员问题与对应章节

1.  如何在昇腾NPU服务器中使用PyTorch+Transformer方式进行模型的预训练、微调、推理和评估。

对应章节:第2章:PyTorch与Transformer模型在昇腾NPU上的适配。

2. 同一模型,从英伟达GPU服务器迁移到昇腾NPU前,需要对性能进行评估和对比,如何进行前向对齐,对模型权重和中间层进行精度对比,如何在数据集对齐、模型结构对齐、训练参数对齐的前提下,进行loss一致性验证。

对应章节:第2章:PyTorch与Transformer模型在昇腾NPU上的适配

a. 第3章:算子适配与模型性能调优

3. 在昇腾NPU上跑模型前,如何进行算子适配的检测。

对应章节:第3章:算子适配与模型性能调优。

4.在模型中引入RHLF机制的能力,还未掌握。

对应章节:第4章:引入RHLF机制与强化学习优化

5.验证且评估模型调优后,是否比基础模型好的能力,还未掌握。

对应章节:第3章:算子适配与模型性能调优。第9章:模型调参科学方法与优化。

6. Deepspeed怎么应用在华为昇腾体系上?并介绍相关成功落地案例。

对应章节:第5章:Deepspeed与分布式训练在昇腾NPU上的应用。

7.MindIE中文本生成场景化推理的性能测试的实现方式还未完全掌握。

对应章节:第6章:MindIE与中文本生成场景化推理的性能测试。

8.MindIE如何开启多模型服务化部署?

对应章节:第9章:多模型管理与服务化部署。

9.在模型调参方面,是否有一套科学成体系的参数调整优先级,可以应对loss值波动大,梯度爆炸等问题。

对应章节:第9章:模型调参科学方法与优化。

10.在昇腾NPU环境中如何设置随机种子数,以确保在相同参数下模型表现是相似的?

对应章节:第7章:随机种子设置与模型训练一致性

 

 
关于 TsingtaoAI

TsingtaoAI 企业内训业务线专注于提供 LLM、具身智能、AIGC、智算和数据科学领域的企业内训服务,通过深入业务场景的案例实战和项目式培训,帮助企业应对 AI 转型中的技术挑战。其培训内容涵盖 AI 大模型开发、Prompt 工程、数据分析与模型优化等最新前沿技术,并结合实际应用场景,如智能制造、金融科技和智能驾驶等。通过案例式学习和 PBL 项目训练,TsingtaoAI 能够精准满足企业技术团队的学习需求,提升员工的业务能力和实战水平,实现 AI 技术的高效落地,为企业创新和生产力提升提供强有力的支持。

 

 

Product & Case.

产品与案例