企业内训|Nvidia智算中心深度技术研修-某智算厂商研发中心
此企业内训课程“Nvidia智算中心的深度技术研修”专为某智算厂商研发中心设计,内容涵盖了从基础设施构建到高性能计算优化的全方位技术要点。课程为期七天,分模块详细讲解了NV算力资源的网络架构、存储优化、智算集群的建设与自动化管理、NCCL通信优化及分布式训练进阶等内容,结合大量实际案例,深入探讨各类技术在智算中心中的应用与最佳实践。通过该课程,学员将全面掌握高效构建和管理智算平台的技能,为企业的AI和大数据应用提供强有力的技术支持。
掌握NV算力资源的网络架构与关键技术:了解Nvidia计算平台下的高性能网络解决方案,学习如何设计和优化NVLink、Infiniband等网络架构,提高网络流量管理与数据传输效率。
优化大模型的存储与计算性能:通过学习GPUDirectStorage等技术,掌握大模型训练和推理阶段的存储需求及优化策略,提升数据读写速度和存储系统性能。
高效建设智算集群:学习基于Nvidia GPU的集群硬件选型与设计原则,掌握从集群建设、配置到实施的全流程管理技能,确保高效的集群构建和运维。
实现集群的自动化部署与管理:通过掌握Ansible、Puppet等自动化工具,提升大规模集群环境下的部署与管理效率,确保集群的稳定性和可扩展性。
掌握NCCL集合通信优化与分布式训练技术:学习Nvidia NCCL通信库的优化方法及在分布式训练中的应用,提升模型训练效率和系统整体性能。
一共7天,每天6-7小时。
第一天:NV基础设施关键技术
1.1NV算力资源的网络关键技术和解决方案
-
介绍基于Nvidia算力资源的网络架构,涵盖NvidiaMellanox的高性能网络解决方案。
-
详细分析Infiniband和以太网在NV算力集群中的应用,比较其在性能、扩展性和成本上的差异。
-
探讨网络流量管理与优化技术,分析网络拥塞管理的典型案例。
-
NV算力资源的网络架构:
-
NVLink和PCIe总线在高性能计算中的应用。
-
远程直接内存访问(RDMA)技术在提升网络传输效率中的作用。
-
结合典型案例,分析网络带宽瓶颈及解决方案。
-
高效数据传输技术:
1.2基于NV算力资源的网络组网设计
-
讨论基于Nvidia算力资源的多种网络组网架构,包括星型、树型、环形和混合架构。
-
基于实际案例讲解组网设计过程中的注意事项和最佳实践。
-
介绍高性能计算集群中拓扑结构设计的要点,特别是在大规模集群中的应用。
-
分析如何在Nvidia算力环境中设计具有高扩展性和高可用性的网络架构。
-
讨论冗余设计在确保网络稳定性中的作用,结合案例进行分析。
-
组网架构设计:
-
可扩展性与冗余设计:
1.3大模型全流程中存储的要求
-
探讨大模型在训练和推理阶段的存储需求,包括数据集存储、模型参数存储和临时数据存储。
-
结合Nvidia的GPUDirectStorage技术,分析如何优化存储系统以满足大模型的需求。
-
介绍高性能存储架构的设计要点,涵盖分布式存储系统、对象存储、文件系统的选择与配置。
-
结合实际案例,讲解存储系统在性能、扩展性、可靠性等方面的优化策略。
-
大模型存储需求分析:
-
存储架构规划与性能优化:
1.4基于NV算力存储容量和性能规划、基于NV算力存储解决方案
-
详细介绍如何根据大模型的规模和数据量,规划合理的存储容量,避免资源浪费和性能瓶颈。
-
分析Nvidia算力环境中常见的存储容量规划方法,结合案例进行详细解释。
-
讨论如何通过多级缓存、数据压缩和分片等技术手段,提升存储系统的整体性能。
-
结合Nvidia的存储解决方案,介绍如何优化I/O性能,确保数据的高效存取。
-
存储容量规划:
-
存储性能优化:
第二-三天:基于英伟达GPU建设的智算集群建设
2.1英伟达环境的万卡集群建设交付案例
-
介绍万卡集群建设中常用的硬件选型,包括NvidiaA100、H100GPU,Infiniband网络设备及高性能存储设备。
-
结合典型案例分析硬件选型对集群性能的影响。
-
详细讲解从需求分析、硬件选型、集群设计到实施的全过程。
-
结合实际项目案例,分析在集群建设中常见的问题及其解决方案。
-
集群硬件选型与规划:
-
集群建设流程:
2.2大规模IB参数网建设与自动化
-
详细讲解Infiniband网络在大规模集群中的应用,包括拓扑设计、网络配置及性能优化。
-
结合案例分析如何在实际部署中优化IB网络的参数配置以提升网络性能。
-
介绍大规模IB网络的自动化部署工具和技术,包括Ansible、Puppet等配置管理工具的使用。
-
探讨如何通过自动化工具实现集群的高效管理与运维,结合实际案例讲解自动化管理的最佳实践。
-
IB网络的设计与部署:
-
自动化部署与管理:
2.3硬集、软集工作流程及注意事项
-
介绍硬集(硬件集群)与软集(软件集群)的基本概念及其应用场景。
-
结合实际案例分析在不同场景下选择硬集或软集的优势和挑战。
-
详细讲解硬集和软集的配置、部署与管理流程。
-
讨论在集群交付过程中常见的注意事项,结合实际案例进行分析。
-
硬集与软集的概念与区别:
-
硬集与软集的工作流程:
2.4交付验收标准及评审注意事项
-
介绍智算集群交付的标准流程,包括功能验收、性能测试及文档交付。
-
结合实际案例分析在集群交付过程中可能遇到的问题及应对策略。
-
详细讲解在集群交付评审过程中应关注的关键点,包括系统稳定性、性能指标达标情况及文档完整性等。
-
结合案例分析如何在评审过程中发现潜在问题并及时解决。
-
集群交付验收流程:
-
评审标准与注意事项:
第四天:基于英伟达环境的智算中心测试方案与标准
3.1智算集群整体测试方案
-
详细讲解智算集群的软硬件测试方案,包括GPU性能测试、网络带宽测试、存储性能测试等。
-
结合案例分析如何制定合理的测试方案,确保测试结果的准确性和可靠性。
-
介绍在智算集群中部署大模型的常见问题和解决方案。
-
结合案例进行单机多卡、多机多卡的模型部署与运行实践操作演示,分析常见问题及解决方案。
-
软硬件测试方案:
-
模型部署与运行操作实践:
3.2智算集群交付测试标准
-
介绍智算集群的基线功能和性能测试标准,包括计算性能、网络性能、存储性能的测试方法和评估标准。
-
结合实际案例分析在基线测试过程中可能遇到的问题及其解决方案。
-
详细讲解智算集群的模型测试流程,包括模型加载、训练、推理等环节的测试标准和操作步骤。
-
结合实际案例进行单机测试和集群测试的实操演练,分析测试中常见的瓶颈及优化方法。
-
介绍智算集群的稳定性测试方法,涵盖长时间负载测试、故障注入测试等。
-
结合案例讲解MFU(MeanFailureUnits)测试的意义和操作方法,分析如何通过MFU测试提高系统的可靠性。
-
基线功能性能测试:
-
模型测试全流程实操:
-
稳定性和MFU测试:
第五天:英伟达NCCL集合通信优化方案
4.1NCCL背景与理论知识
-
介绍NvidiaCollectiveCommunicationsLibrary(NCCL)的基本原理和应用场景。
-
详细讲解NCCL在分布式计算中的作用,分析其在不同通信模式下的性能表现。
-
讲解NCCL中的标准通信原语(如AllReduce、Broadcast、Reduce、AllGather等)的实现原理。
-
结合实际案例分析在不同场景下选择合适的通信原语进行优化的策略。
-
NCCL概述:
-
标准通信原语实现:
4.2NCCL环境变量含义与优化方案
-
详细介绍NCCL的主要环境变量,如NCCL_ALGO、NCCL_PROTO、NCCL_NTHREADS等,并分析其对性能的影响。
-
结合实际案例讲解如何通过调整环境变量优化NCCL的通信性能。
-
讨论在不同硬件配置和网络架构下的NCCL优化策略,涵盖带宽优化、延迟优化等方面。
-
结合案例进行NCCL性能调优的实操演练,分析优化前后的性能提升效果。
-
NCCL环境变量解析:
-
NCCL优化方案:
4.3NCCLPlugin概念与实现
-
介绍NCCLPlugin的概念及其在提升通信性能中的作用。
-
详细讲解NCCLPlugin的标准实现方案(如SHARP),分析其在实际应用中的性能表现。
-
结合实际案例进行NCCLPlugin的配置与调试操作,分析常见问题及其解决方案。
-
讨论如何通过自定义NCCLPlugin实现特定场景下的性能优化。
-
NCCLPlugin概述:
-
NCCLPlugin实操演练:
第六天:英伟达分布式训练与微调进阶
5.1主流深度学习框架与分布式训练框架能力介绍
-
介绍当前主流深度学习框架(如Pytorch、TensorFlow)的基本特点及其在分布式训练中的应用。
-
分析不同框架在分布式训练中的性能表现,结合实际案例进行对比。
-
详细讲解Megatron-LM、NeMo、DeepSpeed等分布式训练框架的功能特点及应用场景。
-
结合实际案例分析在大规模分布式训练中的框架选择策略及其性能优化方法。
-
深度学习框架概述:
-
分布式训练框架介绍:
5.2分布式并行策略与调优技术
-
介绍数据并行、模型并行的基本原理和应用场景。
-
结合实际案例分析在不同场景下选择合适的并行策略进行性能优化的最佳实践。
-
详细讲解分布式训练中的常见调优技术,如梯度裁剪、混合精度训练、学习率调节等。
-
结合实际案例进行分布式训练的调优实操演练,分析调优前后的性能变化。
-
数据并行与模型并行:
-
调优技术与实操演练:
第七天:英伟达融合算子优化技术与实战
6.1英伟达CUDA与融合算子技术介绍
-
介绍CUDA编程的基本概念和核心技术,分析其在高性能计算中的应用。
-
详细讲解CUDA中的关键概念,如线程块、网格、共享内存等,结合实际案例进行分析。
-
介绍融合算子技术的原理及其在提高计算效率中的作用。
-
结合实际案例分析在不同应用场景下如何通过融合算子技术实现性能优化。
-
CUDA基础知识:
-
融合算子与核心算子技术:
6.2英伟达Profiling工具与案例分析
-
介绍Nvidia的Profiling工具(如NsightCompute、NsightSystems)的功能特点及应用场景。
-
详细讲解如何通过Profiling工具分析CUDA程序的性能瓶颈,结合实际案例进行演示。
-
结合实际案例进行CUDA程序的性能分析与调优,详细讲解在Profiling过程中常见的问题及其解决方案。
-
Profiling工具介绍:
-
案例分析与性能调优:
6.3融合算子优化技术实战
-
介绍主流预训练模型、推理模型中常用的融合算子库,如cuDNN、TensorRT等。
-
结合实际案例分析在不同应用场景下的融合算子优化技术,探讨如何通过自定义算子实现特定场景下的性能提升。
-
详细讲解如何在Nvidia环境下开发自定义融合算子,涵盖开发流程、调试方法及性能优化策略。
-
结合实际案例进行自定义融合算子的实操演练,分析自定义算子对整体性能的提升效果。
-
覆盖场景与算子库介绍:
-
自定义融合算子实操演练:
北京邮电大学,网络与交换国家重点实验室,计算机科学与技术硕士。某互联网大厂高级工程师,深度学习框架开发与性能调优专家horovod,spark,iceberg,hudi等系列源码贡献者,“Tim在路上”公众号主理人。
专业能力
熟悉深度学习框架,模型性能调优,有过深度学习框架开发调优经验。
熟悉GPU,NPU,CUDA,CANN,Nccl,IB等底层原理与工程实践。
熟悉数据湖/数据引擎的开发优化,例如针对SparkSQL源码级优化开发。
复旦大学硕士,研究领域:高性能计算、深度学习、人工智能、GPU编程
职业履历
上海拓途信息技术有限公司技术高级工程师2010年-2015年
-
为华为代理商提供技术支持,负责包括网络设备、存储系统及相关软硬件集成的实施和运维。
-
参与多个项目的技术方案设计与实施,确保了客户在网络性能和系统稳定性方面的满意度。
-
在项目中深入理解客户需求,提供定制化的技术解决方案,有效提高了客户的系统效率。
万物新生集团技术副总裁2015年-2022年
-
深入研究并应用英伟达的软硬件技术,带领团队解决了多个复杂的客户需求。
-
负责智算集群的规划和部署,显著提升了集团在AI训练、推理和数据处理方面的能力。
-
主导了英伟达相关技术的推广与应用,促进了企业内部对高性能计算和AI技术的接受和应用。
上海迪赛申科技有限公司创始人兼CEO2022年-至今
-
自主创业,成立了上海迪赛申科技有限公司,专注于基于英伟达GPU的智算集群建设。
-
负责公司业务的全面管理和技术方向的把控,尤其在智算集群建设、NV算力存储规划及大规模IB网络自动化部署领域取得显著成果。
-
公司成功交付多个基于英伟达技术的智算集群项目,为客户提供了高效可靠的计算和存储解决方案。
专业能力
-
英伟达GPU技术:精通NVIDIAGPU的架构与应用,包括A100、H100等核心产品,能够为AI训练、推理及高性能计算提供优化的解决方案。
-
智算集群规划与实施:丰富的智算集群规划与实施经验,尤其在大规模集群建设、网络架构设计及性能优化方面具备独到见解。
-
NV算力存储解决方案:深刻理解并能灵活运用NV算力存储技术,确保高性能计算环境中数据存储的效率和可靠性。
-
大规模IB网络自动化:在InfiniBand(IB)网络架构及其自动化管理方面具备深厚的专业知识,能够构建和管理复杂的网络系统。
-
项目管理与交付:具备丰富的项目管理经验,能够有效确保项目按时按质交付,并在项目评审中获得客户的高度认可。
项目经验
项目一:基于英伟达GPU的高校AI训练集群建设
-
项目背景:某高校希望建设一个用于AI训练和科学研究的高性能计算平台,要求系统具备高扩展性、低延迟和高吞吐量。
-
解决方案:采用NVIDIAA100GPU,配置32个GXA100系统,并通过MellanoxInfiniBand网络实现节点间的高效通信。使用NetAppAFFA800存储系统,结合NVIDIAGPUDirectStorage优化数据传输路径,显著提升了数据读写速度。
-
**项目成果**:系统成功交付并通过验收,运行稳定,能够高效处理复杂的AI训练任务,极大提升了高校科研能力。基准测试结果显示,集群在深度学习模型训练任务中的效率提升了50%以上。
项目二:企业级AI推理与大数据分析平台
-
项目背景:某大型企业需要一个支持实时推理和大数据分析的计算平台,要求系统具备高可用性、高扩展性,并能够处理海量数据。
-
解决方案:采用NVIDIAH100GPU,配置64个DGXH100系统,并结合PureStorageFlashBlade存储系统,提供快速的数据存取。使用NVIDIAMagnumIO优化存储和计算间的数据传输效率,部署NVIDIATritonInferenceServer以实现高效的多模型推理。
-
项目成果:项目按时交付并通过验收,系统在多任务并发处理下保持了高效性能,并在推理速度和大数据分析速度方面达到了客户预期。该系统使企业的数据处理效率提高了40%,有效支持了业务决策的实时性。
-
项目三:国家级超算与AI融合计算中心
-
项目背景:某国家级科研机构计划建设一个融合HPC和AI的超级计算中心,以支持前沿科学研究和大规模AI模型的训练。
-
解决方案:采用NVIDIAA100GPU,部署了512个DGXSuperPOD系统,使用WekaIO超高性能存储系统确保数据吞吐量。通过NVIDIAQuantum-2InfiniBand交换机实现超高带宽、低延迟的网络连接,结合BrightClusterManager进行集群管理与自动化部署。
-
项目成果:项目成功交付,系统在综合性能测试中表现优异,HPC和AI任务的运行效率显著提高。系统通过了严格的性能基准测试,成为国家级科研项目的核心计算平台,大幅提升了该机构的科研效率。
职业成就与荣誉
-
NVIDIA技术认证专家:在GPU计算、AI训练与推理、数据中心优化等领域获得NVIDIA认证。
-
创业成就:成功创立并运营上海迪赛申科技有限公司,在业界树立了良好的技术和服务口碑。
-
项目管理奖项:多次获得客户和合作伙伴的项目管理和技术贡献奖项,项目交付质量和客户满意度在业内享有盛誉。
正高,大学客座教授,中国人工智能学会可拓学专委会理事,国家知识产权局专家,省学科带头人,市领军和拔尖人才,全球五百强毕马威特聘顾问。长期致力于技术创新领域,在全国7个省市做技术培训。课程内容涵盖从基础理论到实际应用,帮助学员掌握前沿技术,提升数据中心及高性能计算环境的运维能力。专注于技术创新领域。全国累计培训企业和单位突破100余场,培训学员人数5000人次。有着几百余天的授课经验。与腾讯项目长期签约。主持3个课题并获一等奖,获国家授权专利1项。在核心期刊、省级期刊公开发表高质量论文12篇。评标专家。智库研究员。项目管理技术杂志专家评委,熟悉运营商D-ICT项目管理相关工作。参与制定行业标准。长期致力于技术培训授课,致力于NV基础设施关键技术,致力于基于英伟达GPU建设的智算集群建设,拥有16年项目和项目群、项目组合、风险管理等方面工作实战经验,擅长产品设计、系统集成、通信工程、生产制造、金融投资、工程投资、政府领域的企业管理培训与教练辅导技术。
专业能力
熟悉云计算、移动互联网和大数据等行业热点发技术
在核心期刊上发表12篇高质量专业技术论文
主持3个课题并获得市三等奖
申报1项国家专利
精通LTE技术原理和网络规划优化,精通LTE网络维护和优化工作,负责开发LTE终端网络测试软件,具有丰富的LTE项目实施经验。熟悉通信工程施工的的各个环节。
主讲课程内容
NV基础设施关键技术
基于英伟达GPU建设的智算集群建设含设备选型
基于英伟达环境的智算中心测试方案与标准
英伟达NCCL集合通信优化方案
英伟达分布式训练与微调进阶
英伟达融合算子优化技术与实战
基于华为昇腾环境的智算集群建设交付含设备选型
基于昇腾环境的智算中心测试方案与标准
昇腾算子开发相关
华为HCCL集合通信相关
昇腾智算集群网络设备相关
项目交付管理
DICT项目全流程管理
DICT关键技术与行业应用
通信行业分析与投资机遇
行业信息化落地方案
5G技术基础知识与组网
5G网络商业模式发展与业务展望
新时代下运营商经营策略
智慧城市和智能小区行业发展
无线通信基本原理
移动通信网络规划
基站站点的勘察设计和施工规范
LTE技术基本原理
LTE网络规划和建设
LTE网络维护
LTE网络优化
LTE信令协议和参数
VOLTE和网络间互操作
LTE业务与移动互联网业务
通信企业技术类内训师培训
熟悉政府行业项目运作机制,关注政策并具有产业趋势分析能力,结合国标和行标从产业全局高度看算力技术和智算中心的发展,同时熟悉政府和央国企行文方式,有较强的规划材料、申报材料编写和讲解能力。本人有多年从事技术管理及咨询实践的工作经验,熟悉政府、央国企数字化转型发展要求,精通云计算、数字化转型、智算中心、算力技术相关领域技术特点和发展趋势,对工作充满热情,热爱思考和学习,在工作繁忙中还笔耕不辍,写了多本专业书籍和数字化转型方面的书籍,抗压心理素质好。
著作和奖项
《云原生基础架构》译者2018年出版
《企业私有云建设指南》作者2019年出版
《油气行业数字化转型》编者2020年出版
《数字化管理师能力评价与培养》作者2024年10月即将出版
荣获阿里云MVP、腾讯云TVP、华为云MVP
工作履历
1、中科天机技术有限公司CTO兼技术总监(2024年4月至今)
负责湖北安陆智算中心技术平台的规划、建设和运营技术支持,包括整体智算的组网、集群的设计及部署、智算存储的设计及部署,并对智算平台整体技术把关,对疑难问题进行排查和处理。
负责北京石景山智算平台的规划、建设和运营技术支持,包括整体智算中心的组网、集群的设计及部署、分布式存储的设计及部署,并对智算平台整体的方案汇报和技术把关,对前期点亮的200P算力进行部署和调优。
负责金融业智算行业解决方案的调研编写和规划、技术支持,包括智算集群的组网、集群的设计及部署、分布式存储的设计及部署,并对行业整体的方案汇报和技术把关。对接了某些银行的智能技术部并进行了技术和方案上的合作共建。
2、北京鸿雪信息科技有限公司CTO兼首席咨询师(2021年10月至2024年3月)
参与多项国家标准、团体标准、行业标准的研讨和编纂,联合信通院专家、参编企业专家共同召开标准编纂项目启动会和研讨会,与院所、参编企业等专家共同讨论标准名称、标准框架、标准指标等内容范围,结合各项标准展开咨询和评估测试。
参加信通院多项智算中心算力标准研讨,对接信通院和北京通信管理局拉通北京算力互联互通平台的验证和测试。申报算力浦江行动计划,对接信通院华东分院和上海通信管理局,拉通算力浦江相关算力标准的建设和研讨,帮助公司申请到算力浦江的专委会成员单位。
主导并负责数字化转型成熟度平台IT能力咨询评估---中国电信集团主导并负责数字化转型成熟度平台IT能力咨询评估-云智平台化-中移信息主导并负责数字化转型成熟度业务IT能力咨询评估-智慧财务-广东移动、中海物业主导并负责数字化转型成熟度业务IT能力咨询评估-业务中台评估-中移信息主导并负责数字化转型成熟度业务IT能力咨询评估-智慧采购-中移信息主导并负责数字化转型成熟度业务IT能力咨询评估-智慧管理-中移信息主导并负责数字化转型成熟度业务IT能力咨询评估-客户服务体验-云南移动主导并负责云原生技术架构成熟度能力咨询评估-中移苏研主导并负责电信核心应用系统现代化建设水平咨询评估-江苏移动
工作业绩:完成数字化转型成熟度、智慧财务、业务中台、智慧采购、智慧管理、客户服务体验、云原生技术架构、应用现代化咨询评估,深入客户现场调研,形成了数字化转型咨询和评估方案,结合客户的问题针对提出整改提升的具体能力提升建议和解决方案,帮助客户持续提升数字化转型能力,并取得良好数字化转型实践效果。结合咨询实践,反哺到标准和指标优化,进一步丰富和完善了标准,为标准的落地和推广应用奠定了坚实的基础。同时在工作中不断完善和丰富了面向行业咨询的经验,为拓展不同行业客户积累了丰富的经验和能力。
3、昆仑数智科技数字化能力中心技术总监兼数字化咨询师
参与中油瑞飞数字化转型的顶层规划与设计
负责咨询国家管网西南管道数字化转型的顶层规划与设计、智慧管网的规划
负责咨询长庆油田的数字化转型规划与项目设计
负责咨询大庆油田采油九厂的数字化转型与项目设计
参与昆仑数智数字化平台的整体规划与设计
参与昆仑数智数据中台的整体规划与设计
负责并梳理昆仑数智数字化产品与解决方案
工作业绩:
完成中油瑞飞数字化转型的顶层规划与设计,深入业务板块调研,形成了18个数字
化场景的项目卡片,持续推进公司运营管理和业务的数字化转型,初步取得良好数字化转型效果。在集团内部,参与长庆油田、大庆油田及西南管道的数字化顶层规划与设计,积累了丰富的咨询经验,并在转型中不断思考和沉淀,形成了自己的数字化转型方法论,并和信通院合作完成了数字化成熟度评估模型和指标体系,促进了数字化转型,为集团整体的数字化转型打下了基础。2020年9月,与信通院合作发布油气行业数字化白皮书,编辑并出版第一本《油气行业数字化转型》书籍,在能源业界有一定影响。
云计算事业部系统架构师2014年5月至2019年4月
参与中石油F12云计算平台的IAAS规划部署和测试及上线
参与中石油F9灾难恢复系统一二期的规划设计及部署实施上线
参与中石油F12云计算平台的PAAS规划设计与部署上线
2015年负责中石油和INTEL软件定义存储的4家厂商产品的联合测试和评估2016负责测试评估阿里企业专有云1130版,阿里专有云平台技术评估负责人2016负责测试和评估华为的FusionSphere云操作系统基础管理软件
2017参与测试信息安全F14项目海量日志的大数据采集和评估系统
2018参与云统一运维体系建设和实施规划
2019参与中石油F12云计算平台2.0的规划和设计熟悉服务器、存储、网络等硬件产品和功能特性,对企业云计算、高性能计算、软件定义数据中心等解决方案比较熟悉;
熟悉kubernetes和容器技术及架构,部署及运维
4、北京同方鼎欣技术有限公司2012年11月至2014年4月
IT技术一部高级运维兼移动项目负责人
负责北京移动KM\MOA\统一知识社区项目的运维和管理
负责生产系统的Unix\linux优化配置、运维支撑与安全
负责智算中心数据迁移、灾备项目的规划、方案设计
参与中国移动广州南方基地私有云知识社区项目的规划设计和集成部署
熟悉IBM的WEBSPHERE/IHS/MQ软件
熟悉ORACLE,熟悉LINUX/SHELL/DB2/MYSQL/MONGODB的部署、配置与优化。