ToC课程｜AI算力集群技术高级课程：从基础到优化的全面技术研修

本研修课程旨在为AI算力集群技术人员提供全面深入的技术培训，涵盖InfiniBand（IB）网络基础与配置、英伟达GPU技术与应用、数据存储与管理、Kubernetes与AI训练、推理部署与优化、云计算运维、GPU编程与优化实战、脚本编写与自动化深入、算力集群调优与维护等方面的内容。课程内容设计全面系统，既涵盖理论基础，又包含大量实战案例，帮助学员全面提升技术能力和实际操作水平。

面向人群

AI算力集群技术人员
高性能计算（HPC）技术人员
数据中心网络与存储管理员
云计算运维工程师
GPU编程开发人员
AI算力开发人员
具有一定技术基础，希望提升AI集群管理与优化技能的从业人员

学习目标

掌握InfiniBand网络的基础知识、配置方法和管理工具，理解其在高性能计算和AI训练中的应用场景。
深入了解英伟达GPU的架构与特性，熟练掌握CUDA编程技术和性能优化方法。
熟悉现代数据存储技术与管理方法，能够高效管理和预处理大型数据集。
学会在Kubernetes环境下搭建和管理AI训练环境，掌握自动化管理与性能监控技巧。
掌握AI模型的推理部署与性能优化技术，能够在实际项目中应用相关工具和策略。
深入理解云计算运维的最佳实践，包括资源管理、安全与合规性、多云与混合云架构等。
提升高级GPU编程与优化实战能力，能够高效实现复杂算子和异步编程。
熟练编写和优化Python与Shell脚本，实现自动化任务和系统管理。
掌握算力集群的架构设计、性能评估与调优方法，能够解决实际工作中的常见问题。

培训大纲

1. IB 网络基础与配置

IB 网络定义与背景
设计目的及优势对比：InfiniBand vs. 以太网
使用场景：高性能计算（HPC）、数据中心、AI 训练等

核心组件：交换机、主机通道适配器（HCA）
拓扑结构设计：Fat-Tree、Dragonfly
集群网络架构案例分析

实训部分

故障检测与诊断方法

1. 网络连接问题

问题: 一个节点无法与其他节点建立IB连接。

2. 性能问题

问题: 在IB网络中观察到低于预期的性能。

3. 数据包丢失

问题: 在IB网络中发现数据包丢失。

4. 网络配置问题

问题: 新增节点后，网络出现配置不一致的问题。

5. 交换机故障

问题: 一个或多个交换机出现故障，导致网络分区。

6. 多路径问题

问题: 在使用多路径的情况下，某些节点间的通信不稳定。

7. 安全问题

问题: 网络面临未经授权的访问或恶意攻击。

8. 配置冲突

问题: 网络中存在配置冲突，导致通信中断。

网络配置基础与管理
OpenSM 和 OFED：安装与使用
性能监控工具：ibdiagnet、ibstat

IB 网络概述与原理
IB 网络组件与架构
IB 网络配置与管理工具

2. 英伟达 GPU 技术与应用

介绍Triton如何支持跨不同架构的高效执行
强调TensorRT在模型推理加速中的作用。

引入新的cuBLAS版本，包括对更高效线性代数运算的支持。
介绍最新的cuDNN版本及其对深度学习模型的支持。

强调最新版本的性能分析工具如何帮助开发者更有效地调试和优化代码。
引入最新的CUDA编程接口和工具，例如改进的并发性和异步操作支持。

Hopper架构中的内存层次结构
HBM3e显存技术
CUDA编程模型的最新发展
新的CUDA特性，如统一内存、动态并行性等。

NVIDIA Hopper 架构概述
流多处理器（SM）：设计与工作原理
Tensor Cores：工作原理与应用场景
NVLink 与 NVSwitch：高带宽互连技术
NVLink-C2C 互连技术
介绍Hopper架构的关键特点，如先进的台积电4N工艺、超过800亿个晶体管、新的Tensor Core设计等。

强调Transformer引擎对于生成式AI和大规模语言模型的支持。
介绍NVLink-C2C在Hopper架构中的应用，以及它如何与Grace CPU相结合，提供高性能计算解决方案。

编程接口与工具

GPU 硬件架构
CUDA 核心：工作原理与优势
内存架构：显存、共享内存、寄存器
CUDA 12.x及更高版本特性
Nsight Systems 和 Nsight Compute 的最新版本
cuDNN 8.x 及更高版本
cuBLAS 11.x 及更高版本
TensorRT 8.x 及更高版本
Triton 编译器和运行时

卷积神经网络的加速
循环神经网络的优化
常见编程错误与调试技巧
讨论卷积层的优化方法，如使用cuDNN进行卷积操作。
介绍如何利用Tensor Cores和混合精度计算提高训练效率。

展示如何利用CUDA Streams和事件同步来加速RNN的前向传播和反向传播。
探讨如何利用NVIDIA NVLink和NVLink-C2C来加速跨GPU的数据传输。
并行计算原理与模型
CUDA 编程基础
核函数（Kernel）编写与执行
线程与块的组织结构
实战示例：

实时视频分析与目标检测
大规模文本数据处理与语言模型训练
案例分析与性能提升
最佳实践：使用混合精度训练加速收敛速度

内存管理与数据传输

线程调度与负载均衡

深度学习训练加速
计算机视觉与自然语言处理
性能优化
CUDA 生态系统：cuBLAS、cuDNN、TensorRT
Profiling 工具：Nsight Compute、Nsight Systems

GPU 虚拟化的概念与优势
NVIDIA vGPU 技术介绍
vGPU 的配置与管理
vGPU 在云环境中的应用案例

英伟达 GPU 架构与特性
GPU 编程基础与 CUDA 入门
GPU 加速计算案例分析
GPU 虚拟化技术

3. 数据的存储与管理

存储技术概述：对象存储、块存储、文件存储
分布式存储系统：Ceph、GlusterFS
数据生命周期管理

数据分发与版本控制
数据集的高效读取与缓存策略
数据集的切分与标签管理
使用 TensorFlow Datasets 或 PyTorch Datasets 等工具进行数据管理

数据存储技术
数据管理与预处理

4. Kubernetes与AI训练

Kubernetes 架构与核心组件
Pod、Service、Deployment 等资源对象
自动伸缩与滚动更新

使用 K8S 管理 GPU 资源
NVIDIA GPU Operator 介绍
AI 训练作业的自动化管理

构建 AI 训练管道
使用 Kubeflow 进行模型训练
性能监控与日志收集

Kubernetes 基础
AI 训练环境搭建
K8S 上的 AI 训练实践

5. 推理部署与优化

模型部署策略：单机、多机
TensorFlow Serving、Triton Inference Server
服务端点的管理和监控

模型量化与剪枝
图优化技术：TensorFlow Lite、ONNX Runtime
异构计算优化：CPU+GPU、TPU

推理服务部署
推理性能优化

6. 云计算的运维

微服务架构与 AI
CI/CD 流水线与模型版本管理
使用容器化技术部署 AI 模型

根据需求选择合适的云服务
配置实例类型、存储选项、网络设置等
云服务中的 GPU 资源管理

成本管理与预算控制
资源监控与报警
弹性与扩展策略

数据安全与加密
身份验证与授权
安全审计与日志记录

多云环境的优势与挑战
混合云架构设计
灾难恢复与备份策略

云原生 AI 架构
云服务选择与配置
云资源管理与优化
云安全与合规性
多云与混合云架构

7. GPU编程与优化实战

内存层次结构：L1、L2 缓存、共享内存、全局内存
异步内存拷贝与数据传输
占位符内存分配
线程合作：Warp 同步、Coalesced Memory Accesses
高效使用共享内存

减少分支分歧
使用原子操作
高效矩阵运算：矩阵乘法优化
复杂数据结构操作：树遍历、图算法

异步操作：cudaMemcpyAsync、cudaStreamCreate
流与事件管理：cudaStreamSynchronize、cudaEventRecord
异步错误处理

使用 Nsight Systems 进行性能分析
使用 Nsight Compute 进行内核分析
性能瓶颈识别与解决策略

使用 cuDNN 进行卷积神经网络加速
使用 cuBLAS 进行线性代数运算加速
使用 cuSPARSE 进行稀疏矩阵运算加速
使用 Thrust 库进行通用并行算法

高级 CUDA 编程
复杂算子实现
异步编程与流管理
性能分析与调优
CUDA C++ 与 Python 接口

8. 脚本编写与自动化深入

使用tensorflow或pytorch训练简单的模型，并使用fabric进行模型的远程部署。
使用pandas处理CSV文件，实现数据清洗和转换。
使用numpy进行数值计算和统计分析。

构建自动化部署流水线，使用fabric或invoke来远程部署代码。
使用pytest进行自动化测试。
自动化任务
数据处理
机器学习应用

编写脚本自动收集和分析日志文件，使用awk和sed进行日志过滤和汇总。
使用logrotate进行日志轮换和归档。
使用ansible自动部署基础环境，如安装软件包、配置服务。
使用make构建自动化任务，如编译代码、打包部署等。

编写脚本来监控CPU、内存和磁盘使用情况，并发送邮件通知。
使用cron定期执行系统健康检查脚本。
Shell 脚本调试与测试
Shell 脚本最佳实践
系统监控
环境部署
日志管理

调试技巧：使用调试器、日志记录
性能优化：减少 I/O 操作、并行处理
错误处理与异常捕获

持续集成与持续部署 (CI/CD)

Python 脚本语言
Shell 脚本语言深入
脚本调试与优化
最佳实践

9. 算力集群调优与维护

高可用性与容错设计
扩展性与弹性架构
硬件选择与配置：服务器选型（CPU、GPU、内存、存储）
网络布局：IB 网络与以太网混合架构

集群操作系统与管理软件：Slurm
工作负载管理与调度

计算性能：FLOPS、IOPS
网络性能：带宽、延迟
存储性能：吞吐量、IOPS
评估工具与方法：HPC 性能基准测试、iperf、fio

硬件层面的调优：CPU 与内存优化、GPU 性能调优
软件层面的调优：操作系统与驱动优化、应用程序调优
实际案例分享：典型集群调优案例分析
常见问题与解决方案

计算性能：FLOPS、IOPS
网络性能：带宽、延迟
存储性能：吞吐量、IOPS
评估工具与方法：HPC 性能基准测试、iperf、fio

硬件层面的调优：CPU 与内存优化、GPU 性能调优
软件层面的调优：操作系统与驱动优化、应用程序调优
实际案例分享：典型集群调优案例分析
常见问题与解决方案

算力集群架构与设计
软件栈设计
集群性能评估方法
集群调优策略与实践
工作负载管理与调度
集群性能评估方法
集群调优策略与实践

课时安排

课程	日期	授课时间
第一节课	2024年9月28日	9点到12点
第二节课	2024年9月28日	14点到16点
第三节课	2024年10月5日	9点到12点
第四节课	2024年10月5日	14点到16点
第五节课	2024年10月6日	9点到12点
第六节课	2024年10月6日	14点到16点
第七节课	2024年10月7日	9点到12点
第八节课	2024年10月7日	14点到16点
第九节课	2024年10月8日	9点到12点
第十节课	2024年10月8日	14点到16点
第十一节课	2024年10月19日	9点到12点
第十二节课	2024年10月19日	14点到16点
第十三节课	2024年10月26日	9点到12点
第十四节课	2024年10月26日	14点到16点
第十五节课	2024年11月2日	9点到12点
第十六节课	2024年11月2日	14点到16点
第十七节课	2024年11月9日	9点到12点
第十八节课	2024年11月9日	14点到16点
第十九节课	2024年11月16日	9点到12点
第二十节课	2024年11月16日	14点到16点

常见问题

Q：是否有基础要求？

A：需要编程基础的同学，报名会赠送3节前导课程。有编程类相关工作经验的，想转赛道的同学。完全无编程经验的不适合。

Q：学习这个课程对硬件有哪些要求？

A：需要NVIDIA显卡或者GPU云服务器，至少2GB以上显存，8GB显存更佳。

Q：上课形式和课时量是怎样的呢？

A：共7周，每周直播课程时长大概5小时。直播的录播视频会上传到学习平台方便大家回看，但为了更好的学习效果，建议各位学员提前预留好时间，准时参加直播。

Q：课程回放视频的观看期限是多久？

A：本期课程视频永久有效，其中包含“学习期”和“结课期”两个阶段。学习期：指我们为同学们提供直播授课的阶段。在此期间，学员可以观看课程回放视频，并享受相应的学习服务，比如课程群助教答疑等。结课期：本课程最后一节直播课之日后第二个自然日起为结课期，课程回放视频永久有效。在此期间，学员可随时观看课程视频，但不再享受其他课程服务。

Q：可以跟老师互动交流吗?

A：我们会建立课程学习群，群内可以互动交流。同时，大家还可以在直播授课期间向老师提问。

Q：报名缴费后可以退款吗？

A：报名缴费后7个自然日内，可无条件申请退款，超出7个自然日，就不再办理退款啦。退款流程预计为10个工作日。

Q: 如何开发票，签合同？

A：我们可以为学员开具正规的发票和合同。请联系报名老师。

Q：价格说明

A：价格为商品或服务的参考价，并非原价，该价格仅供参考，具体成交价格根据商品或服务参加优惠活动，或拼团等不同情形发生变化，最终实际成交价格以订单结算页价格为准。

课程讲师

陈老师 AI智算技术专家

现任北京科委研究员，天津大学计算机科学与技术专业硕士学位。在数据中心运维、NVIDIA GPU技术、算力集群调优等领域有着丰富的研究和实战经验。研究方向涵盖了高性能计算、深度学习、图像处理等多个领域，尤其专注于GPU加速计算、算力集群优化与维护，以及IB网络的配置与管理。发表了多篇高影响力论文，并参与了多个国家级研究项目。

学术成就

发表多篇国际期刊论文，如《IEEE Transactions on Neural Networks and Learning Systems》、《Frontiers in Immunology》等。
拥有多项专利，如“图像分类方法及装置、神经网络模型的训练方法及装置”等。
多次在国际学术会议上作报告，如Radiological Society of North America (RSNA) 会议等。

代表性项目经验

高性能计算中的Transformer网络：开发了一种新型Transformer网络，用于非侵入性预测EGFR突变状态，发表在《IEEE Transactions on Neural Networks and Learning Systems》上。

教学经验：在算力技术教学方面有着丰富的经验，曾为多家知名企业和研究机构提供技术培训，内容涉及GPU编程、高性能计算、算力集群优化等多个方面。善于将复杂的理论知识与实际应用相结合，通过案例分析和实践操作帮助学员掌握核心技术。

肖红正高性能计算技术专家

现任中国电子系统技术有限公司高性能计算技术专家，是一位经验丰富且技术精湛的资深AI基础设施操盘手。他拥有超过十年的高性能计算、算法研究和实践经验，曾在英特尔公司担任高性能计算架构师，并在多家500强企业中担任高性能计算和系统架构负责人。他在高性能计算、人工智能和深度学习领域有着丰富的项目经验和卓越的技术能力，特别擅长高性能计算、图像处理、计算机视觉以及大规模计算系统的设计与优化。

华中科技大学硕士，曾在多个国家重点实验室及顶尖企业从事高性能计算及算法研发工作，领导并参与了多个重大项目的开发和实施。以下是他在课程内容方面的相关经历和技术优势：

技术能力

算力集群规划与设计：具备丰富的高性能计算系统架构设计经验，曾在英特尔公司负责图形芯片组件和底层协议的开发，精通大规模分布式系统的设计与实现。
GPU、CUDA与算力模型：在多年的算法研究中，深入研究并应用了GPU和CUDA技术，开发了多种高效的深度学习模型，广泛应用于图像和视频分析、目标检测和分类等领域。
应用调优与性能监测：在项目管理和研发过程中，带领团队完成了多个智能视频分析引擎和智能办公引擎的开发，擅长对复杂算法进行性能优化和实时监测，确保系统的高效运行。
算力调度管理与网络调优：在多个大型项目中，成功实现了算力调度管理系统的设计与实施，具备出色的网络调优能力，能够优化高性能计算环境下的资源利用率和系统稳定性。
安全保障：在数据安全和系统安全方面有丰富的经验，曾为多家公司设计和实施了信息化安全管理方案，确保了系统的安全性和可靠性。