高性能计算环境下的算力集群规划与优化-实战技术培训
课程介绍
本课程旨在为数据中心的运维工程师、IT工程师提供一套全面且深入的培训,涵盖从算力集群的规划与设计、POC环境的搭建,到GPU、CUDA、算力模型、应用调优、应用性能监测、算力调度管理、网络调优和安全保障等多个关键领域。整个课程注重实操,旨在提升学员的动手能力,使其能够在实际工作中高效地管理和优化高性能计算环境。
知识范围
-
IB网络的概述与原理
-
IB网络的传输协议与数据传输原理
-
深入讲解InfiniBand的传输协议,包括RC、UC和UD,并解释数据传输机制。
-
描述IB网络的硬件架构,包括交换机、路由器、HCA和TCA等。
-
IB网络的故障诊断与排除
-
实操环节,教授如何诊断和解决IB网络中可能出现的问题。
-
IB网络基础
-
NVIDIA GPU架构与特性
-
介绍GPU的基本概念和CUDA编程模型。
-
提供CUDA编程的基础知识和入门指导。
-
GPU内部结构与性能优化关键点
-
分析GPU加速计算的实际案例,包括性能提升和应用场景。
-
讲解如何优化CUDA程序的性能,以及CUDA生态系统中的各种工具和库。
-
GPU加速计算与案例分析
-
高级CUDA库与工具链详解
-
性能优化与CUDA生态系统
-
算力集群架构与设计
-
软件栈设计与集群性能评估
-
集群性能调优的高级技巧与实践
-
集群性能调优
-
高性能计算领域的实际案例分享
-
项目实践指导与实践
-
项目成果展示与总结
-
高性能计算领域的技术发展趋势
内训目标
-
掌握IB网络的基本概念、架构和配置方法,能够在实际工作中有效地构建和管理IB网络。
-
熟悉NVIDIA GPU的架构与特性,掌握CUDA编程基础,能够使用GPU加速计算,提高应用性能。
-
了解算力集群的规划与设计原则,掌握集群性能评估与调优的方法和工具。
-
提升学员的实际动手能力,通过项目实践和案例分析,使其能够在工作中高效解决实际问题。
预期效果
-
学员将能够独立规划和设计高效的算力集群,搭建并管理POC环境。
-
能够在GPU、CUDA和算力模型的应用中进行有效的调优,提高应用性能。
-
掌握应用性能监测、算力调度管理和网络调优的技术,确保高性能计算环境的稳定和高效运行。
-
提升实际操作技能,通过项目实践积累宝贵经验,能够在工作中灵活应对各种技术挑战。
培训时长及形式
12天,每天6小时,一共72小时。线上培训。
面向人群
数据中心和算力运维等领域的技术工程师。
课程大纲
第1天:IB网络基础与架构
-
定义、历史、标准和组织
-
架构概览:硬件、软件和协议
-
数据传输机制:QoS、VLs和信用基础的拥塞控制
-
协议栈:SA、RC、UC、UD
-
性能指标:带宽、延迟和吞吐量
-
上午:IB网络概述
-
下午:IB网络原理
第2天:IB网络传输协议与数据传输原理
-
协议特点、适用场景和性能比较
-
数据包结构和传输流程
-
信用机制详解
-
拥塞控制算法:VL Arbitration和FDR/EDR
-
上午:深入RC、UC和UD协议
-
下午:数据传输机制
第3天:IB网络硬件架构
-
交换机、路由器、HCA、TCA的详细分析
-
硬件选择和配置最佳实践
-
拓扑设计:Fat Tree、Clos等
-
全天:硬件组件与架构设计
第4天:IB网络故障诊断与排除
-
诊断工具介绍:InfiniBand Diagnostics Tool
-
故障模拟与排查流程
-
性能监控和优化策略
-
全天:实操演练
第5天:NVIDIA GPU架构与特性
-
微架构、多级并行、内存层次
-
特性:CUDA核心、流处理器、纹理单元
-
并行计算与图形渲染
-
产品线概述和选型指南
-
上午:GPU架构详解
-
下午:GPU特性与应用
第6天:CUDA编程基础
-
线程、块、网格、内存层次
-
编程流程和API概览
-
环境搭建、简单程序编写
-
性能优化基础:内存访问和线程管理
-
上午:CUDA编程模型
-
下午:CUDA入门指导
第7天:GPU内部结构与性能优化关键点
-
内存访问模式:全局、共享、常量、纹理
-
线程和块的组织技巧
-
Nsight Systems、Nsight Compute、Visual Profiler
-
上午:GPU性能优化关键点
-
下午:CUDA性能分析工具
第8天:GPU加速计算与案例分析
-
科学计算、图像处理、机器学习
-
调优技巧:循环展开、向量化、内存合并
-
上午:GPU加速计算案例分析
-
下午:CUDA程序性能调优
第9天:高级CUDA库与工具链
-
cuBLAS、cuDNN、cuFFT、cuSOLVER
-
nvcc、nvprof、Nsight
-
上午:高级CUDA库详解
-
下午:CUDA工具链与性能分析
第10天:算力集群规划与设计
-
节点设计、网络拓扑、资源管理
-
操作系统、中间件、应用程序集成
-
性能评估工具和方法
-
上午:算力集群架构设计
-
下午:软件栈设计与集群性能评估
第11天:集群性能调优与实践
-
系统级调优:CPU、内存、存储
-
应用级调优:MPI、OpenMP、线程并行
-
实践案例和调优技巧
-
全天:集群性能调优策略与实践
第12天:项目实践与案例分享
-
项目选择、规划、实施
-
成果演示、技术讨论、经验分享
-
异构计算、量子计算、云计算与边缘计算
-
上午:项目实践指导
-
下午:项目成果展示与总结
-
晚上:高性能计算领域的技术发展趋势
讲师介绍
岳远航 算力集群技术专家
毕业于普林斯顿大学,拥有数学与应用数学以及计算机科学与技术双学位。现任腾讯集团研究院特聘研究员、四川省工业与信息库专家库专家、成都市发改委智库专家。曾任谷歌AI开发工程师。具备深厚的数学、GPU算力集群和计算机科学知识,专注于技术创新领域,拥有丰富的技术培训经验(Nvidia、浪潮等),尤其在IB网络、NVIDIA GPU技术及算力集群调优方面有深入的研究和实践经验。课程内容涵盖从基础理论到实际应用,帮助学员掌握前沿技术,提升数据中心及高性能计算环境的运维能力。
研究方向
-
数学与算法研究:开发和优化算法,解决复杂的数学问题和实际应用问题。
-
计算机科学应用:结合计算机科学与技术知识,推动软件开发、系统架构设计以及大数据分析等领域的发展。
-
IB网络技术与应用:IB网络的原理、配置与管理,提升高性能计算环境的网络效率。
-
NVIDIA GPU技术与并行计算:GPU架构与CUDA编程,应用GPU加速技术提高计算性能。
-
算力集群调优与维护:高效算力集群的设计与优化策略,提升集群性能和运维能力。
陈鑫 AI智算技术专家
现任北京科委研究员,985大学计算机科学与技术专业硕士学位。在数据中心运维、NVIDIA GPU技术、算力集群调优等领域有着丰富的研究和实战经验。研究方向涵盖了高性能计算、深度学习、图像处理等多个领域,尤其专注于GPU加速计算、算力集群优化与维护,以及IB网络的配置与管理。发表了多篇高影响力论文,并参与了多个国家级研究项目。
学术成就
-
发表多篇国际期刊论文,如《IEEE Transactions on Neural Networks and Learning Systems》、《Frontiers in Immunology》等。
-
拥有多项专利,如“图像分类方法及装置、神经网络模型的训练方法及装置”等。
-
多次在国际学术会议上作报告,如Radiological Society of North America (RSNA) 会议等。
代表性项目经验
高性能计算中的Transformer网络:开发了一种新型Transformer网络,用于非侵入性预测EGFR突变状态,发表在《IEEE Transactions on Neural Networks and Learning Systems》上。
教学经验:在算力技术教学方面有着丰富的经验,曾为多家知名企业和研究机构提供技术培训,内容涉及GPU编程、高性能计算、算力集群优化等多个方面。善于将复杂的理论知识与实际应用相结合,通过案例分析和实践操作帮助学员掌握核心技术。
肖红正 高性能计算技术专家
现任中国电子系统技术有限公司高性能计算技术专家,是一位经验丰富且技术精湛的资深AI基础设施操盘手。他拥有超过十年的高性能计算喝算法研究和实践经验,曾在英特尔公司担任高性能计算架构师,并在多家500强企业中担任高性能计算和系统架构负责人。他在高性能计算、人工智能和深度学习领域有着丰富的项目经验和卓越的技术能力,特别擅长高性能计算、图像处理、计算机视觉以及大规模计算系统的设计与优化。
华中科技大学硕士,曾在多个国家重点实验室及顶尖企业从事高性能计算及算法研发工作,领导并参与了多个重大项目的开发和实施。以下是他在课程内容方面的相关经历和技术优势:
技术能力
-
算力集群规划与设计:具备丰富的高性能计算系统架构设计经验,曾在英特尔公司负责图形芯片组件和底层协议的开发,精通大规模分布式系统的设计与实现。
-
GPU、CUDA与算力模型:在多年的算法研究中,深入研究并应用了GPU和CUDA技术,开发了多种高效的深度学习模型,广泛应用于图像和视频分析、目标检测和分类等领域。
-
应用调优与性能监测:在项目管理和研发过程中,带领团队完成了多个智能视频分析引擎和智能办公引擎的开发,擅长对复杂算法进行性能优化和实时监测,确保系统的高效运行。
-
算力调度管理与网络调优:在多个大型项目中,成功实现了算力调度管理系统的设计与实施,具备出色的网络调优能力,能够优化高性能计算环境下的资源利用率和系统稳定性。
-
安全保障:在数据安全和系统安全方面有丰富的经验,曾为多家公司设计和实施了信息化安全管理方案,确保了系统的安全性和可靠性。
过往培训案例
TsingtaoAI拥有一支高水平的产学研一体的AI产品开发团队,核心团队主要来自清华大学、北京大学、中科院、北京邮电大学、复旦大学、中国农业大学、美团、京东、百度、中国技术创业协会和三一重工等产研组织。TsingtaoAI核心团队专长于算力、行业LLM/AIGC应用的产品研发,面向企业的大语言模型应用落地等业务,如面向智能客服、教育、人力资源、电商和轨道交通等行业领域的LLM和AIGC应用开发。公司拥有近10项LLM/AIGC相关的知识产权。
TsingtaoAI自研基于LLM大模型代码能力的AIGC应用开发实训平台、面向CS专业的AI训练实训平台和基于大语言模型的AIGC案例学习平台,聚焦虚拟现实、金融科技、医药健康、高端装备、新能源、新材料、节能环保、文化创意、农业科技和食品科技等关键行业,通过链接全球数以千计的关键领域的AI科学家和工程师,为央国企、上市公司、外资企业、政府部门和高校提供AI企业内训和高校实训服务。