IB网络、Nvidia GPU和算力集群技术内训方案

 

 

 
课程介绍

本课程旨在为数据中心运维工程师和IT工程师提供深入的技术培训,涵盖IB网络、英伟达GPU及算力集群调优等关键领域。通过详细的理论讲解与实际案例分析,学员将全面掌握IB网络的配置与管理、NVIDIA GPU的架构与编程、以及算力集群的优化与维护技巧,提升整体系统性能和效率。

 
内训目标
  1. 深入理解IB网络的原理与架构,熟练掌握其配置与管理工具。

  2. 掌握NVIDIA GPU的硬件架构及CUDA编程技术,能够应用于实际项目。

  3. 学会设计高效的算力集群架构,并通过性能评估和调优实践,提高集群的整体性能。

 
培训时长及形式

3天,每天6小时,一共18小时。线上培训。

 
面向人群

数据中心和算力运维等领域的技术工程师。

 
课程大纲

1. IB网络基础与配置

  • IB网络概述与原理

  • IB网络的定义和背景

  • 设计目的及优势对比:InfiniBand vs. 以太网

  • 传输协议与数据传输原理

  • 使用场景:高性能计算(HPC)、数据中心、AI训练等

  • IB网络组件与架构

  • IB网络的核心组件

  • 交换机(Switch):功能、配置与选型

  • 路由器(Router):工作原理与配置方法

  • 主机通道适配器(HCA):工作原理、类型及安装配置

  • 构建高效网络架构

  • 拓扑结构设计:Fat-Tree、Mesh、Dragonfly等

  • 拓扑结构对性能的影响

  • 集群网络架构案例分析

  • IB网络配置与管理工具

  • 网络配置基础

  • 网络地址分配与管理

  • 连接管理与故障排除

  • 常用配置工具

  • OpenSM(Subnet Manager):功能、配置与管理

  • OFED(OpenFabrics Enterprise Distribution):安装与使用

  • 网络监控与管理

  • 性能监控工具:PerfTop、ibdiagnet、ibstat等

  • 故障检测与诊断方法

 2. 英伟达GPU技术与应用

  • 英伟达GPU架构与特性

  • GPU硬件架构详解

  • CUDA核心:工作原理与优势

  • 内存架构:显存、共享内存、寄存器

  • 流多处理器(SM):设计与工作原理

  • 关键技术特性

  • Tensor Cores:工作原理与应用场景

  • NVLink与NVSwitch:高带宽互连技术

  • GPU产品线概述

  • 不同系列GPU的特点与应用场景(Tesla、Quadro、GeForce)

  • GPU编程基础与CUDA入门

  • 基础的GPU编程概念

  • 并行计算原理与模型

  • GPU vs. CPU计算特点

  • CUDA编程基础

  • CUDA架构与编程模型

  • 核函数(Kernel)编写与执行

  • 线程与块的组织结构

  • 实战示例

  • 向量加法、矩阵乘法等基本示例代码分析

  • 常见编程错误与调试技巧

  • GPU加速计算案例分析

  • 实际应用案例

  • 深度学习训练加速:案例分析与性能提升

  • 科学计算:分子动力学、气候模拟等

  • 性能优化

  • 内存优化:显存管理与数据传输

  • 并行化优化:线程调度与负载均衡

  • CUDA生态系统

  • cuBLAS、cuDNN、TensorRT等加速库

  • Profiling工具:Nsight Compute、Nsight Systems

3. 算力集群调优与维护

  • 算力集群架构与设计

  • 集群架构设计原则

  • 高可用性与容错设计

  • 扩展性与弹性架构

  • 硬件选择与配置

  • 服务器选型:CPU、GPU、内存、存储

  • 网络布局:IB网络与以太网混合架构

  • 软件栈设计

  • 集群操作系统与管理软件:Slurm、Kubernetes等

  • 工作负载管理与调度

  • 集群性能评估方法

  • 性能评估指标

  • 计算性能:FLOPS、IOPS等

  • 网络性能:带宽、延迟

  • 存储性能:吞吐量、IOPS

  • 评估工具与方法

  • HPC性能基准测试:HPL、SPEC HPC等

  • 网络性能测试:iperf、MPI Benchmarks

  • 存储性能测试:fio、Iometer

  • 集群调优策略与实践

  • 硬件层面的调优

  • CPU与内存优化:NUMA、内存分配策略

  • GPU性能调优:CUDA优化、显存管理

  • 软件层面的调优

  • 操作系统与驱动优化

  • 应用程序调优:并行化、负载均衡

  • 实际案例分享

  • 典型集群调优案例分析

  • 常见问题与解决方案

 
讲师介绍

岳远航 算力集群技术专家

 

毕业于普林斯顿大学,拥有数学与应用数学以及计算机科学与技术双学位。曾任谷歌AI开发工程师。具备深厚的数学、GPU算力集群和计算机科学知识,专注于技术创新领域,拥有丰富的技术培训经验(Nvidia、浪潮等),尤其在IB网络、NVIDIA GPU技术及算力集群调优方面有深入的研究和实践经验。课程内容涵盖从基础理论到实际应用,帮助学员掌握前沿技术,提升数据中心及高性能计算环境的运维能力。

 

研究方向

数学与算法研究:开发和优化算法,解决复杂的数学问题和实际应用问题。

计算机科学应用:结合计算机科学与技术知识,推动软件开发、系统架构设计以及大数据分析等领域的发展。

IB网络技术与应用:IB网络的原理、配置与管理,提升高性能计算环境的网络效率。

NVIDIA GPU技术与并行计算:GPU架构与CUDA编程,应用GPU加速技术提高计算性能。

算力集群调优与维护:高效算力集群的设计与优化策略,提升集群性能和运维能力。

 

陈鑫 AI智算技术专家

 

现任北京科委研究员,浙江大学计算机科学与技术专业博士学位。在数据中心运维、NVIDIA GPU技术、算力集群调优等领域有着丰富的研究和实战经验。研究方向涵盖了高性能计算、深度学习、图像处理等多个领域,尤其专注于GPU加速计算、算力集群优化与维护,以及IB网络的配置与管理。发表了多篇高影响力论文,并参与了多个国家级研究项目。

 

学术成就

发表多篇国际期刊论文,如《IEEE Transactions on Neural Networks and Learning Systems》、《Frontiers in Immunology》等。

拥有多项专利,如“图像分类方法及装置、神经网络模型的训练方法及装置”等。

多次在国际学术会议上作报告,如Radiological Society of North America (RSNA) 会议等。

 

代表性项目经验

高性能计算中的Transformer网络:开发了一种新型Transformer网络,用于非侵入性预测EGFR突变状态,发表在《IEEE Transactions on Neural Networks and Learning Systems》上。

教学经验:在算力技术教学方面有着丰富的经验,曾为多家知名企业和研究机构提供技术培训,内容涉及GPU编程、高性能计算、算力集群优化等多个方面。善于将复杂的理论知识与实际应用相结合,通过案例分析和实践操作帮助学员掌握核心技术。

 

肖红正 高性能计算技术专家

 

现任中国电子系统技术有限公司高性能计算技术专家,是一位经验丰富且技术精湛的资深AI基础设施操盘手。他拥有超过十年的高性能计算喝算法研究和实践经验,曾在英特尔公司担任高性能计算架构师,并在多家500强企业中担任高性能计算和系统架构负责人。他在高性能计算、人工智能和深度学习领域有着丰富的项目经验和卓越的技术能力,特别擅长高性能计算、图像处理、计算机视觉以及大规模计算系统的设计与优化。

 

华中科技大学硕士,曾在多个国家重点实验室及顶尖企业从事高性能计算及算法研发工作,领导并参与了多个重大项目的开发和实施。以下是他在课程内容方面的相关经历和技术优势:

 

技术能力

  1. 算力集群规划与设计:具备丰富的高性能计算系统架构设计经验,曾在英特尔公司负责图形芯片组件和底层协议的开发 ,精通大规模分布式系统的设计与实现。

  2. GPU、CUDA与算力模型:在多年的算法研究中,深入研究并应用了GPU和CUDA技术,开发了多种高效的深度学习模型,广泛应用于图像和视频分析、目标检测和分类等领域。

  3. 应用调优与性能监测:在项目管理和研发过程中,带领团队完成了多个智能视频分析引擎和智能办公引擎的开发,擅长对复杂算法进行性能优化和实时监测,确保系统的高效运行。

  4. 算力调度管理与网络调优:在多个大型项目中,成功实现了算力调度管理系统的设计与实施,具备出色的网络调优能力,能够优化高性能计算环境下的资源利用率和系统稳定性。

  5. 安全保障:在数据安全和系统安全方面有丰富的经验,曾为多家公司设计和实施了信息化安全管理方案,确保了系统的安全性和可靠性。

 

张东伟 AI与高性能计算领域资深讲师

 

复旦大学硕士,研究领域:高性能计算、深度学习、人工智能、GPU编程

 

专注于GPU编程和AI领域的资深讲师。在复旦大学获得硕士学位,并在高性能计算和深度学习领域拥有丰富的研究经验。在学术界和工业界都取得了显著的成就,尤其在利用GPU加速机器学习算法和高性能计算环境优化方面进行了深入的探索和实践。

 

致力于将最前沿的技术知识传递给学员,通过结合理论与实际操作,使学生能够在工作中高效地应用所学知识。

 

10年间在多所知名大学和研究机构担任讲师,教授《计算机组成原理》、《数据结构与算法》、《深度吧学习基础》、《高性能计算导论》、《GPU编程与优化》等课程。注重实操教学,通过项目实践和案例分析,帮助学生深入理解和掌握GPU编程和高性能计算的核心技术。

 

曾多次主持和参与高性能计算领域的大型培训项目,帮助企业和科研机构提升其计算资源的利用效率和算法性能优化水平。

 

研究成果已发表在多个国际顶级会议和期刊上,包括《IEEE Transactions on Parallel and Distributed Systems》、《International Conference on Machine Learning》、《Journal of Parallel and Distributed Computing》等。积极参与开源社区,贡献了多个GPU加速的机器学习库,并开发了多项高性能计算的优化工具。

 

 
相关案例

 

关于TsingtaoAI
 
 
 
 
 

TsingtaoAI拥有一支高水平的产学研一体的AI产品开发团队,核心团队主要来自清华大学、北京大学、中科院、北京邮电大学、复旦大学、中国农业大学、美团、京东、百度、中国技术创业协会和三一重工等产研组织。TsingtaoAI核心团队专长于算力、行业LLM/AIGC应用的产品研发,面向企业的大语言模型应用落地等业务,如面向智能客服、教育、人力资源、电商和轨道交通等行业领域的LLM和AIGC应用开发。公司拥有近10项LLM/AIGC相关的知识产权。

 

TsingtaoAI自研基于LLM大模型代码能力的AIGC应用开发实训平台、面向CS专业的AI训练实训平台和基于大语言模型的AIGC案例学习平台,聚焦虚拟现实、金融科技、医药健康、高端装备、新能源、新材料、节能环保、文化创意、农业科技和食品科技等关键行业,通过链接全球数以千计的关键领域的AI科学家和工程师,为央国企、上市公司、外资企业、政府部门和高校提供AI企业内训和高校实训服务。

 

Product & Case.

产品与案例