大模型训练与智能数据标注-实战技术课程

 
 
 
实战技术课程
 
 

 

课程概述
 

《大模型训练与智能数据标注-实战技术课程》是一门全面且深入的课程,专为立志成为AI训练师的学员设计。课程内容涵盖了从数据采集、数据清洗、数据标注,到大模型训练和智能系统运维的全流程。通过理论讲解与实战操作相结合的方式,帮助学员掌握AI训练师所需的各项技能。

 

本课程注重大模型训练的最新技术和前沿应用,结合当前AIGC和LLM技术的发展趋势,系统地介绍了大模型在各类实际业务场景中的应用。课程内容涵盖了从数据采集与处理,到大模型训练的全流程,旨在通过详细具体的教学和实操练习,使学员能够真正掌握AI训练师所需的技能,提升其就业竞争力。

 

课程设计紧密结合实际工作场景,通过丰富的案例分析与实战操作,帮助学员在学习过程中不断积累实际操作经验。课程还特别设置了就业指导部分,提供从简历书写、面试技巧到职业发展规划的全面指导,帮助学员顺利步入职场,实现职业目标。

 

 
学习目标
 
 
  1. 掌握数据采集、清洗、整理、分类和统计等基础操作,理解各环节的重要性和实践意义。

  2. 熟悉文本、视觉和语言数据标注的基本原则和方法,掌握不同数据类型的标注工具和技术。

  1. 深入学习并掌握Scrapy、BeautifulSoup、Selenium等数据采集工具的使用方法,能够结合实际业务场景进行高效数据采集。

  2. 掌握Pandas在数据清洗与处理中的应用,熟练处理缺失值、数据去重、数据类型转换等常见数据问题。

  1. 熟练使用Amazon SageMaker Ground Truth、英特尔计算机视觉标注工具(CVAT)、X-AnyLabeling和PaddleX等自动化标注工具。

  2. 能够利用Hugging Face Transformers、GPT-4、EfficientDet、YOLO等大模型进行高效的文本、视觉和语言数据标注和分类。

  1. 系统学习大模型训练的理论知识与实操技巧,掌握PyTorch和TensorFlow等主流框架的使用方法。

  2. 熟悉大模型训练的各个环节,包括数据准备、模型训练、模型评估与优化。

  3. 掌握SFT训练和专项训练的方法与技巧,能够根据业务需求定制大模型训练方案。

  1. 熟悉智能系统的基本构成和操作方法,掌握智能系统在实际工作中的应用场景。

  2. 掌握智能系统的维护、故障排除、数据管理和系统更新的全流程管理方法,确保智能系统的高效运行和数据的安全管理。

  1. 通过系统的学习和实战操作,全面提升学员在智能数据标注和大模型训练领域的专业技能和实战经验。

  2. 针对AI训练师岗位的实际需求,提供定向培养方案和就业指导,帮助学员在激烈的就业市场中脱颖而出。

 

  1. 全面理解智能数据标注和大模型训练的基础知识和应用场景:

  2. 熟练使用先进的数据采集与处理工具:

  3. 掌握最新的自动化数据标注技术和工具:

  4. 掌握大模型训练技术

  5. 掌握智能系统的运维与管理:

  6. 提升就业竞争力,满足市场需求:

 

面向职业
 

AI训练师

 

适合人群
 

1. 学历/工作背景一般

本科及以下学历,行业零基础,渴望从事AI行业相关工作,提升自身竞争力。

2. 应届毕业生

希望尽快获得就业机会,掌握AI训练师相关技能。

3. 对口行业从业者

具备AI行业背景,希望深耕AI训练领域,提升专业水平。

 

课程形式
 

在线直播或线下授课均可,一共56课时,每课时40分钟。

 

课程大纲
 

一、课程引言

第1课时:课程背景与目标

  • 介绍课程的背景和目的

  • 阐述人工智能训练师的角色与职责

  • AIGC/LLM在智能数据标注中的重要性

 

二、智能数据采集与处理

第2课时:业务数据采集基础

  • 数据采集的重要性和意义

  • 数据采集设备和工具介绍

  • 业务背景知识的梳理

  • 数据采集方法的分类与选择

  • 人工标注、自动标注、合成数据

第3课时:业务数据采集实操

  • 设备和工具的具体使用方法

  • 数据库内业务数据采集实例演示

  • 使用Scrapy、BeautifulSoup和Selenium进行数据爬取

  • 合成数据和生成式数据的应用

第4课时:数据整理与归类

  • 数据整理的规范和方法

  • 数据处理的要求解析

第5课时:数据汇总技巧

  • 数据汇总的规范和方法

  • 实例讲解业务数据汇总过程

第6课时:数据清洗基础

  • 数据清洗的重要性和意义

  • 数据清洗工具的介绍

  • 文本、视觉、语言数据清洗概述

第7课时:数据清洗实操

  • 文本数据的清洗方法与实操

  • 视觉和语言数据的清洗方法与实操

  • 使用Pandas进行数据清洗

第8课时:数据分类基础

  • 分类工具的介绍

  • 数据分类的基本原则和方法

第9课时:数据分类实操

  • 文本数据的分类方法与实操

  • 视觉和语言数据的分类方法与实操

第10课时:数据统计基础

  • 数据统计工具的介绍

  • 数据统计的基本原则和方法

第11课时:数据统计实操

  • 文本数据的统计方法与实操

  • 视觉和语言数据的统计方法与实操

第12课时:数据处理综合

  • 综合数据处理案例分析

  • 数据处理常见问题与解决方案

第13课时:数据处理实操

  • 综合数据的处理方法与实操

  • 业务数据的整理和汇总实操

第14课时:数据采集和清洗复习

  • 重点知识回顾与练习

  • 数据采集和清洗疑难点讲解

 

三、智能数据标注

第15课时:数据标注基础

  • 数据标注的基本概念和原则

  • 文本、视觉、语言数据标注简介

  • 人工标注、自动标注、合成数据

  • AIGC技术爆炸对标注效率的影响

第16-17课时:文本/视觉/语言数据标注

  • 各类数据标注工具的介绍与实操演示

  • Hugging Face Transformers: 提供数千个预训练模型,支持文本标注

  • 利用GPT-4生成标注数据

  • 使用EfficientDet进行图像目标检测标注

  • 利用YOLO进行实时视频帧标注

第18课时:数据标注规范

  • 数据标注的详细规范

  • 各类数据标注的标准要求

第19-20课时:文本/视觉/语言数据标注实操

  • 详细的操作步骤与实例分析

  • 使用SAM(Segment Anything Model)进行图像分割标注

  • 利用Amazon SageMaker Ground Truth进行自动化标注

  • 使用英特尔计算机视觉标注工具(CVAT)进行点云标注和连续帧标注

  • 应用X-AnyLabeling进行多模型自动化标注

  • 使用PaddleX进行大模型半监督学习

第21课时:数据标注质量控制

  • 数据标注质量控制方法

  • 标注数据的审核与修正流程

第22-23课时:标注数据分类与统计

  • 分类工具和方法的介绍与实操

  • 统计工具和方法的介绍与实操

第24-25课时:标注数据统计实操

  • 文本、视觉、语言数据的统计实操演示

第26课时:数据统计质量控制

  • 质量控制方法与审核要求

第27-28课时:综合标注和分类

  • 综合案例分析与实战演练

第29-30课时:标注与分类质量提升

  • 提高标注与分类准确性的方法

  • 质量评估与改进策略

第31-32课时:标注与分类综合提升

  • 综合能力的提升与实操演练

  • 复杂问题的解析与解决方案

 

四、大模型训练

第33课时:大模型训练基础

  • 大模型的定义与原理

  • 常见大模型的介绍及应用场景

  • 模型训练的基本流程与方法

第34课时:模型训练数据准备

  • 数据收集与处理的最佳实践

  • 数据增强与数据平衡技术

  • 模型训练数据的质量评估与优化

第35课时:大模型训练实操

  • 使用PyTorch/TensorFlow进行模型训练

  • 常见模型训练框架与工具的介绍

  • 训练过程中的参数调整与优化策略

第36课时:模型评估与调优

  • 模型评估指标与方法

  • 模型调优技巧与实操

  • 使用交叉验证与超参数优化提升模型性能

第37课时:模型对话系统训练

  • 对话系统的基本原理与构建方法

  • 对话数据的收集与标注

  • 利用预训练模型进行对话系统训练

第38课时:模型对话系统评估与优化

  • 对话系统的评估指标与方法

  • 对话系统的优化与调试策略

  • 常见对话系统的实战案例分析

第39课时:SFT训练

  • SFT训练目标与实战技巧

  • 阶段数据训练方式与数据构造

  • BADCASE处理方法与优化策略

第40课时:专项训练

  • 专项能力训练与数据构造原理

  • 为模型提供优质专项数据的实操技巧

  • 专项训练的实战案例解析

第41课时:大模型评估与优化

  • 大模型的评估方式与评测准则

  • 评估规则撰写与测试集产出

  • 模型评估报告的撰写与案例分析

第42课时:大模型训练综合实战

  • 综合大模型训练案例分析

  • 模型训练过程中的常见问题与解决方案

  • 模型训练实战演练与经验分享

 

五、智能系统运维

第43课时:智能系统基础

  • 智能系统的定义与构成

  • 智能系统的基础知识与原理

第44课时:智能系统操作

  • 智能系统的界面介绍与基本操作

  • 智能系统的启动与关闭流程

第45课时:智能系统应用

  • 智能系统在实际工作中的应用场景

  • 常见智能系统应用实例展示

第46课时:智能系统维护

  • 智能系统维护的重要性与方法

  • 定期维护的内容与流程

第47课时:智能系统故障排除

  • 常见故障类型及其排除方法

  • 故障排除实例分析与总结

第48课时:智能系统数据管理

  • 智能系统数据的记录与管理

  • 数据记录的重要性与目的

  • 数据记录的方法与步骤

  • 数据管理的规范和方法

  • 数据存储、备份与恢复的策略

  • 数据安全性和隐私保护的措施

第49课时:智能系统更新

  • 智能系统更新与升级方法

  • 系统更新的目的与意义

  • 系统更新的类型与方式

  • 更新前的准备工作

  • 系统更新的常见问题及解决方案

第50课时:智能系统综合维护

  • 综合智能系统的维护与管理

  • 维护管理的流程与方法

  • 实例分析智能系统的综合维护

  • 综合维护的定义与范围

  • 展示综合维护过程中的关键步骤与操作

 

六、就业指导

第51课时:简历书写内容指导

  • 优质简历的编写技巧

  • 如何突出个人技能与项目经验

第52-53课时:大厂高薪面试求职指南

  • 大厂面试流程与注意事项

  • 面试技巧与常见问题应对策略

第54-55课时:模拟面试

  • 针对性模拟面试

  • 面试反馈与改进建议

第56课时:职业发展规划

  • 如何在AI训练师行业中长期发展

  • 未来职业路径规划与发展策略

 

课程部分技术细节介绍

智能数据采集与处理

  • 工具使用:详细介绍Scrapy、BeautifulSoup、Selenium等数据采集工具的使用方法,结合实际业务场景演示数据采集流程。

  • 数据清洗与整理:深入讲解Pandas在数据清洗与处理中的应用,覆盖缺失值处理、数据去重、数据类型转换等操作。

  • 数据分类与统计:使用Python中的Pandas和NumPy库,以及专业统计软件如SPSS和Stata进行数据分类与统计的实操演练。

智能数据标注

  • 自动化标注工具:介绍最新的自动化标注工具和技术,包括Amazon SageMaker Ground Truth、英特尔计算机视觉标注工具(CVAT)、X-AnyLabeling和PaddleX等。

  • 大模型应用:详细讲解如何利用Hugging Face Transformers、GPT-4、EfficientDet、YOLO等大模型进行文本、视觉和语言数据的标注和分类。

  • 质量控制与优化:数据标注质量控制方法,标注流程的自动化与优化,通过案例分析提升标注质量和效率。

大模型训练

模型训练框架:

  • PyTorch: 深入讲解如何使用PyTorch进行大模型训练。包括模型构建、数据加载、训练循环、模型评估等。

  • TensorFlow: 演示如何使用TensorFlow进行大模型训练。包括静态计算图和动态图的使用、模型训练与调优、模型部署等。

模型训练过程:

  • 数据准备: 详细介绍数据准备的最佳实践。包括数据收集、数据增强、数据平衡、数据拆分等。

  • 模型训练: 演示模型训练的具体过程。包括模型架构设计、损失函数选择、优化器配置、训练参数调整等。

  • 模型评估与调优: 介绍模型评估的指标和方法。包括准确率、精确率、召回率、F1值等。教授如何通过超参数调优、交叉验证、早停等方法提升模型性能。

专项训练与应用:

  • 对话系统训练: 详细介绍对话系统的构建与训练。包括对话数据的收集与标注、预训练模型的应用、对话系统的优化与评估等。

  • SFT训练: 讲解SFT训练目标与实战技巧。包括阶段数据训练方式、数据构造、BADCASE处理方法等。

  • 专项能力训练: 演示如何进行模型的专项能力训练。包括专项数据的构造原理、优质数据的提供方法、专项训练的实战案例解析。

智能系统运维

  • 系统维护与更新:介绍智能系统的维护与更新方法,包括定期维护、故障排除、数据管理和系统更新的流程。

  • 数据管理与安全:数据存储、备份与恢复的策略,数据安全性和隐私保护的措施,确保智能系统的高效运行和数据的安全管理。

 

讲师介绍
 

肖红正 CV计算机视觉算法资深讲师

肖红正,资深算法专家,拥有超过15年的算法研究与实践经验。曾在世界五百强企业英特尔公司担任高级系统架构师,目前担任中国电子系统技术有限公司的算法Leader,带领团队在智慧城市和能源行业领域进行模型产品研发,获得多项专利和荣誉。

教育背景

  • 2002 - 2009: 华中科技大学 计算机应用 本科和硕士

可讲主题及培训内容

  1. 图像降噪与增强处理

  2. 2D和3D目标检测与分类

  3. 激光雷达与相机数据融合

  1. 数据采集和处理

  2. 数据标注

  3. 智能系统运维

  1. 深度学习模型设计与优化

  2. 机器学习算法及应用

  3. 数据挖掘与运行优化

  1. 智能零售柜技术应用

  2. 工业移动检测机器人

  3. 城市大脑与智能交通

  1. 计算机视觉与图像处理

  2. 人工智能训练师-智能数据标注

  3. 深度学习与机器学习

  4. 人工智能应用

个人资质

  • 一种文本识别模型的生成方法以及装置 (CN202110447608.9)

  • 一种语义分析方法及装置 (CN202110499308.5)

  • 荣获2021年度集团优秀解决方案奖

  • 精通C/C++,熟悉Python等编程语言

  • 深刻理解Linux系统和软件工程化

  • 具备软硬件一体化产品研发能力

  • 擅长计算机视觉、机器学习和深度学习技术

  • 专利:

  • 奖项:

  • 技术能力:

主要项目经验

  • 智能零售柜: 通过2D+3D深度学习算法实现商品识别与结算,准确率达99%。

  • 工业移动检测机器人: 基于多传感器融合技术,实现高精度缺漏检测与姿态检测。

  • 城市大脑项目: 实现复杂场景下的2D和3D人脸识别与多目标追踪系统,提升城市管理智能化水平。

 

陈老师 AIGC大模型应用开发资深讲师

陈老师,拥有超过10年的软件开发和系统架构经验,专注于Python、Java语言教学及人工智能生成模型(AIGC)方向。现任TsingtaoAI研发及实训项目负责人,曾担任北京正己基业教育科技有限公司的架构师。陈老师以其深厚的技术背景和丰富的实践经验,致力于通过高质量的培训课程帮助学员提升专业技能。

教育背景

  • 2005.09—2008.07 天津大学 计算机科学与技术 硕士

  • 2001.09—2005.07 山东大学 计算机科学与技术 学士

可讲主题及培训内容

  1. Python基础语法与数据结构

  2. 高级编程技巧与实战案例

  1. 数据采集和处理

  2. 数据标注

  3. 智能系统运维

  1. 机器学习基础

  2. 深度学习与神经网络

  1. 基于Python的AIGC模型实现

  2. AIGC在实际项目中的应用

  1. 企业级系统架构设计原则

  2. 分布式系统与微服务架构

  1. Python编程与应用

  2. 人工智能训练师-智能数据标注

  3. 机器学习与神经网络

  4. AIGC生成模型

  5. 系统架构设计

培训及项目案例

  1. GreedyAI实训项目:通过一系列系统的培训课程,帮助学员掌握Python和Java的高级编程技巧,并将所学知识应用于实际项目中,提高学员的实战能力。

  2. 武昌职业技术学院精英班项目实训:针对职业院校学生的实训项目,通过项目驱动的学习方法,提升学生的编程技能和项目实践能力。

  3. 湖北生物职业技术学院毕业提升班项目实训:为毕业生提供专项培训,帮助他们在毕业后能够迅速适应工作岗位的要求,提高就业竞争力。

  4. 运道智能物流平台:领导开发并实施了智能物流平台,通过先进的技术手段,提高物流运作效率,获得客户的高度认可。

  5. 掌合云工厂智能平台:负责智能平台的架构设计与开发,实现了工厂生产管理的智能化,提高了生产效率和管理水平。

 

汶生 AI商业产品资深专家

TsingtaoAI、GreedyAI、AIGC-Labs业务负责人;

曾任力晟鸿吉(国高新)创始人CEO,培高商业(B轮)副总裁;

中国农业大学硕士;

青岛市人工智能专家委员会委员;

中国技术创业协会校企融合专委会常务委员。

擅长领域

AIGC、ChatGPT、AI垂直大模型应用、智能客服、AIGC+HR、AIGC+教育、产教融合、AIGC+营销、AI商业运营、校企合作、校园市场营销等

产品成果

基于ChatGLM的智能客服产品;

面向HR人士的AIGC应用平台;

基于MidJourney和ChatGPT的AIGC-Labs学习和应用平台;

教育领域(辅助教师备课和教学)大模型应用产品;

基于数隐产业图谱的数据流通服务平台;

AICCE算法工程师职业竞争力测评平台;

清泉测评-Meta3.0元力测评平台;

昊华能源智慧党建学习平台;

校咖邦校园自媒体内容分发平台;

校咖邦校园营销触控屏感应系统控制集成电路;

校咖邦校园营销触控屏主机控制集成电路;

相关研究

《基于胜任力模型的AI算法工程师的人才测评指标体系构建》

关于TsingtaoAI
 
 
 
 
 

TsingtaoAI拥有一支高水平的产学研一体的AI产品开发团队,核心团队主要来自清华大学、北京大学、中科院、北京邮电大学、复旦大学、中国农业大学、美团、京东、百度、中国技术创业协会和三一重工等产研组织。TsingtaoAI核心团队专长于算力、行业LLM/AIGC应用的产品研发,面向企业的大语言模型应用落地等业务,如面向智能客服、教育、人力资源、电商和轨道交通等行业领域的LLM和AIGC应用开发。公司拥有近10项LLM/AIGC相关的知识产权。

 

TsingtaoAI自研基于LLM大模型代码能力的AIGC应用开发实训平台、面向CS专业的AI训练实训平台和基于大语言模型的AIGC案例学习平台,聚焦虚拟现实、金融科技、医药健康、高端装备、新能源、新材料、节能环保、文化创意、农业科技和食品科技等关键行业,通过链接全球数以千计的关键领域的AI科学家和工程师,为央国企、上市公司、外资企业、政府部门和高校提供AI企业内训和高校实训服务。

 

 

 

Product & Case.

产品与案例