【AI实训平台】基于LLM的AIGC应用开发实训平台建设方案

一、方案背景及现状分析

1.1 就业冰火两重天:AIGC人才缺口巨大,传统岗位人满为患

GenAI技术的突破,正在引发产业革命。IDC数据显示,2022年全球AI总投资规模为1,324.9亿美元,并有望在2027年增至5,124.2亿美元,年复合增长率为31.1%。聚焦生成式AI,IDC调查发现,到 2027 年45% 的企业将掌握并使用生成式 AI 来共同开发数字产品和服务,从而使收入增长比竞争对手翻一番。IDC预测,全球生成式AI市场年复合增长率或达85.7%,到2027年全球生成式AI市场规模将接近1500亿美元。

麦肯锡报告称,到2030年,中国的AI人才供应只有市场需求的三分之一,人才缺口将达400万。

 

另一方面,经济环境急转直下,传统职业陷入困境。学生如果在技能方面不作调整,生存压力更甚。AIGC大模型开启智能化时代,AI领域就业前景广阔。企业急需AIGC技术精英,业务专才,薪资更是水涨船高。

1.2 传统AI/CS/IT相关专业实训平台的局限性

传统的AI/CS/IT专业建设和人才培养模式存在着诸多问题,例如:

  • 师资力量不足: 高校缺乏足够的 LLM 和 AIGC 方面的专家,难以满足快速变化的技术发展需求。

  • 课程设置滞后: 高校的 LLM/AIGC 课程设置相对滞后,缺乏对前沿技术的深入研究和教学。

  • 实践机会不足: 许多高校缺乏足够的实验室设施和项目资源,无法为学生提供足够的实践机会。

  • 产学结合不紧密: 高校与 LLM/AIGC 企业之间的合作还不够紧密,学生在毕业后缺乏实际工作的经验和适应能力。

二、 TsingtaoAI AIGC 应用开发实训平台,赋能高校 AIGC 人才培养

2.1 TsingtaoAI AIGC应用开发实训平台:革新人才培养模式

TsingtaoAI以最新的LLM/AIGC职业教育发展需求为基本出发点,立足于专业建设和人才培养的协同发展,面向全国高等院校推出 “教、学、练” 融合的 AIGC 应用开发实训平台建设方案。该方案颠覆传统实训模式,将理论学习与实践应用紧密结合,为学生提供全面的 AIGC 应用开发学习体验。

2.2 TsingtaoAI AIGC应用开发实训平台:核心优势

2.2.1 “教、学、练”一体化,打造完整的实训体验

TsingtaoAI AIGC应用开发实训平台不仅仅是工具集合,而是融合了教学、学习、练习三大环节,为学生提供完整的 AIGC 应用开发学习体验。平台支持多种主流的 LLM 模型,例如:OpenAI、Azure OpenAI Service、Anthropic、Hugging Face Hub、Replicate、Xinference、OpenLLM、讯飞星火、文心一言、通义千问、Minimax、ZHIPU(ChatGLM) 等,并支持 JinaAI、ZHIPU(ChatGLM) 等 Embedding 模型供应商。

2.2.2 低代码开发模式,降低学习门槛,激发学习兴趣

平台采用低代码开发模式,让学生无需编写大量的代码,就能快速搭建生产级的生成式 AI 应用,激发更多学生学习 AIGC 的兴趣。即使是非 CS专业的同学,也能参与到 AI 应用的定义和数据运营过程中。平台提供开箱即用的组件和框架,以及直观的 Prompt 编排界面,帮助学生快速上手,完成各种 AI 应用的构建。

2.2.3 来自产业的实训项目,提升就业竞争力

平台的实训项目全部是基于产业的商业化 AIGC 项目,经过角色拆解、任务拆解、代码拆解、部署流程拆解等过程,将其标准化为教师可以带领学生完成的实训内容,真正帮助学生接触产业前沿技术和工作内容,提升就业竞争力。平台提供的项目案例涵盖多种行业,例如:智能客服、文本生成、图像生成、视频生成、语音合成等,帮助学生快速熟悉真实工作场景,积累实战经验。

2.2.4 智能化管理,提升学习效率和管理效率

平台提供流程化的 AI 产品开发、项目管理、人员管理、知识管理、智能运维等一站式功能,整个的实训流程和实际企业的开发流程基本一致,让受训学员可以快速进入到 LLM/AIGC 相关的项目中就业。平台还提供 自动化的任务分配和进度追踪,以及可视化的数据分析和项目管理功能,帮助教师了解学生的学习情况,并提高教学管理效率。

2.3 平台的技术领先性

  • 支持主流 LLM 模型: 平台支持主流的 LLM 模型供应商,并提供丰富的工具和组件,例如 RAG 引擎、Agent 框架、流程编排工具,可以帮助用户快速搭建 LLM 应用。

  • 领先的模型微调技术: 平台提供先进的 模型微调技术、提示工程技术、分布式训练技术 等,帮助用户构建更加高效、智能的 AI 应用。

  • 强大的功能与易用性: 平台提供 开箱即用的组件和框架,以及 直观的 Prompt 编排界面,帮助学生快速上手,完成各种 AI 应用的构建。平台还提供了 灵活的流程编排功能 和 易用的界面和 API,为学生节省了许多重复的工作,使其可以专注在产品探索和创新上。

  • 与行业标杆的对比: 与传统实训平台相比,TsingtaoAI AIGC 应用开发实训平台更易用、更灵活、更贴近产业需求。平台采用的技术和算法与行业标杆保持一致,例如:Transformer 架构、Attention 机制、预训练语言模型、向量数据库等。

2.4 平台的经济效益和社会价值

  • 帮助高校节省成本:平台的低代码开发模式,以及灵活的部署方式,帮助高校节省实训室建设成本和硬件投入,实现轻量级投入,获得最大的实训收益。

  • 提高教学效率:平台的智能化管理功能,帮助教师更高效地管理项目和学生,提高教学效率。

  • 提升人才培养质量:平台提供的真实产业场景实训项目和丰富的 LLM 技术课程,帮助学生快速掌握行业所需的技能,提升就业竞争力。

  • 创造更大的社会价值:平台培养出的优秀人才,能够快速适应 AIGC 行业发展,为社会创造更大的价值。

2.5 面向专业和人群

面向开设编程课程(包括选修课)的所有AI/CS/IT及相关的理工科或信息技术类专业,包括计算机、人工智能、软件、物联网、电子信息、自动化、统计、数学、信息系统等相关专业。适合应用型本科和高职院校。

2.6 建设目标

让受训学员自己构建出企业级的LLM/AIGC应用,具备进入LLM/AIGC项目就业的真实能力。

三、 解决方案及介绍

平台建设分为 AI 应用开发平台(AI 编排工作室)、实训项目课程平台、私有化部署的大模型LLM 大模型课程和 AIGC 实训项目课程 5个部分,具体内容如下:

产品架构图

AI应用开发技术实现方式

3.1 平台功能介绍

3.1.1 AI 应用开发平台(AI 编排工作室)

  • 多模型支持:无缝集成了国内主流的专有和开源的大语言模型,兼容 OpenAI API 的模型,满足各种应用场景的需求。

  • Prompt IDE用于制作提示、比较模型性能以及向基于聊天的应用程序添加其他功能的直观界面。

  • 灵活的 Agent 框架:支持用户定义基于 LLM 功能调用或 ReAct 的 Agent,并可以为这些 Agent 添加预构建或自定义工具,进一步扩展其功能。

  • 直观的工作流和接口设计:提供一个可视化的工作流设计界面,用户可以通过图形化的方式构建和测试复杂的 AI 工作流。这种设计减少了对提示词技术和模型推理能力的依赖,提升了系统的可解释性、稳定性和容错性。

  • 企业级 LLMOps:提供企业级的 LLMOps 平台,能够监控和优化生成 AI 应用的推理过程,记录日志、注释数据,并进行模型微调,确保持续改进。

  • RAG Pipeline:RAG管道支持从文档中提取信息并进行检索,适用于各种文档格式,如 PDF、PPT 等,提供可靠的数据管道以增强应用的性能。

  • 后端即服务(BaaS)解决方案:提供全面的后端 API,使开发者能够将 AI 功能轻松集成到现有产品中,无需复杂的后端开发和部署过程。

3.1.2 实训项目课程平台

3.2 平台参数

3.2.1 AIGC应用开发平台参数

1. 系统功能需求

⾼效的AI模型推理能⼒

系统应⽀持⾄少 10 商业语⾔模型,包括 国内主流开源模型,且应能够在新模型发布后的一周内完成接⼊。

多模态⽀持

推理延迟:每个模型的推理延迟应不超过 200毫秒,在100个并发请求下,系统响应时间应不超过 500毫秒

⽀持⾄少 2 多模态技术(例如,ASR 模型和富⽂本⽣成),并在多模态推理中保持⼀致的⾼性能表现。

2. 数据管理与检索

检索性能

系统应⽀持多种索引⽅式,包括关键词索引和⽂本向量索引。在处理 100万条 ⽂档规模的知识库时,检索延迟不超过 300毫秒

混合检索:系统应⽀持混合检索模式,且混合检索的响应时间不应超过 400毫秒

索引与数据处理能⼒

系统需⽀持 20 以上不同⽂档格式的处理,如 TXT、Markdown、PDF、HTML、DOC、CSV 等,且每⽇⾃动清洗和索引的⽂档应达到 10万条

3. ⽤户交互与对话管理

对话管理容量

系统应⽀持 1000个并发对话 的上下⽂管理,并能保存和回溯⾄少 10 对话记录。

响应延迟:对话系统在⾼并发场景下的响应时间应不超过 200毫秒

多渠道集成

系统应⽀持⾄少 5 外部渠道的⽆缝集成,包括⽹⻚、移动应⽤和 API 集成。

4. 安全性与合规性

数据安全

系统应符合 ISO 27001 标准或同等的安全标准,⽀持 256AES加密 ⽤于数据传输和存储的安全保障。

访问控制

系统应⽀持⾄少 4 的⻆⾊权限控制,能够管理 1000个⽤户 的访问权限。

5. 系统性能与运维⽀持

⾼可⽤性

系统应具备 99.9% 的⾼可⽤性,⽀持⾃动化故障恢复,并能在 30 内恢复关键服务。

系统应⽀持 500个并发⽤户 的稳定访问。

⽇志与监控

系统应具备实时⽇志记录能⼒,能够每⽇处理 100万条 ⽇志,并保留 365 的⽇志记录。

6. 集成与兼容性

API 性能

系统应⽀持 RESTful API,API 请求的响应时间应不超过 200毫秒,⾼负载情况下不超过 400毫秒

系统应能够与 10 第三⽅服务⽆缝集成,并通过插件机制⽀持功能扩展。

数据库兼容性

系统应⽀持⾄少 5 向量数据库,包括 Qdrant、Weaviate、Milvus 等,处理 10亿条 向量数据的存储与检索任务。

7. ⽤户体验与团队协作

协作管理

系统应⽀持 50个团队 的协作,每个团队⾄少⽀持 100名成员 的权限管理和⼯作空间管理。

调试与测试

系统应提供可视化调试⼯具,⽀持逐个⼯作流节点的调试,并在 5 内返回调试结果,⽀持历史记录保存和回溯。

3.2.2 实训项目课程平台功能参数

主要功能包括:

分类贯穿资源素材、线上课程,便于归纳以及快速筛选,分类支持无限级拓展。

支持视频、图片、课件资源,用来组成课程相关内容。

创建企业中部门架构,以便进行课程的批量指派,支持无限级分类拓展。

学员账号在后台手动创建,或者下载学员模板批量导入。

创建并指派课程给学习部门后,该部门的学员将在学员端看到该课程,并可以进行学习。

管理员登录:可在后台“管理人员”中创建多个管理员账号并赋予相关权限。

首页概览:

数据信息:今日学习学员、总学员数、线上课数等。

快捷操作:添加学员、上传视频、线上课程、新建部门。

使用手册:链接到官网使用手册。

今日学习排行:统计展示今日学习前10的学员排行。

资源统计:统计已上传的资源数量。

资源管理

支持视频、图片、课件资源。

可以在创建线上课“添加课时”时选择视频课程,也可以在“添加附件”中选择已上传的课件资源。

播放器支持播放 H.264 编码标准的 mp4 视频。

线上课

课程分类:新建线上课前请先在“分类管理”中创建分类,支持一个课程属于多个分类。

课程名称:课程的标题名称。

课程属性:分为必修课和选修课。

指派部门:选择该课程指派的部门范围,只有属于指派部门中的学员才可以看到该课程。在开源版本中,指派给父级部门不会自动包含子级部门,如需指派父级部门下所有部门,可以同时选择父级部门以及子级部门。

课程封面:系统内置三张课程封面,也可以手动上传课程封面。

课时章节:分为有章节和无章节课程。

添加课时:选择已上传的视频资源。

展开更多选项,包含课程简介、课程附件。

课程简介:课程的文字描述。

课程附件:可添加已上传的课件资源。

编辑课程

课程创建完成后,如想修改课程信息,点击课程列表中的“更多-编辑”,修改课程基本信息。

如想修改课程排序,点击课程列表中的“更多-编辑”,可以修改课程上架时间,课程上架时间越晚,课程展示排序越靠前。

如想修改课程的课时列表,点击课程列表中的“更多-课时”,增删修改课程的课时列表。

课程学习明细

点击线上课列表后面“学员”按钮,查看该课程的学员学习明细。

学员管理

添加学员:支持手动添加学员或LDAP集成同步。学员列表中,点击目标学员右侧的“学习”按钮查看该学员的最近30日学习时长以及所有课程学习明细。

部门学员进度:可在学员管理列表中,选择目标部门,点击“部门学员进度”按钮,查看该部门的学员学习明细。

网站设置

PC学员端logo:可在此处上传PC学员端的网站logo。

API访问地址:填写PlayEdu程序服务运行的API地址。

PC学员端地址:填写PC学员端的完整IP或域名。

H5学员端地址:填写移动端H5的完整IP或域名。

学员端标题:自定义PC学员端的网页标题。

学员端标题:自定义学员端页脚一句话。

播放设置

禁止拖动进度条:打开后全局视频课程首次学习时禁止拖拽进度条。

播放器跑马灯:打开后播放器会随机出现跑马灯水印,以防录屏传播。

跑马灯内容:自定义跑马灯文字内容和变量。

播放器封面:自定义全局播放器封面。

学员设置

默认头像:自定义新学员的默认头像。

MinIo存储:需要使用前完成配置,配置详情请参考《运维手册》。

LDAP配置:如果已经在使用LDAP统一认证,可通过此配置一键同步组织架构,配置详情请参考《运维手册》。

学员登录

学员账号默认为管理员后台添加的学员邮箱账号。

如果开启并成功同步了LDAP通讯录,需要登录UID账号。

账号密码连续多次输入错误,系统会暂时锁定登录。

学员端首页

学员登录成功后,可以在首页查看总体课程进度、学习时长、课程列表、课程学习进度。

课程列表仅展示指派范围中包含此学员的课程。

在课程列表上方,学员可以根据**课程属性、学习状态、课程分类来筛选目标课程。

首页底部一句话可在后台管理“系统配置”的“网站设置”自定义添加。

学习进度统计规则

1.学习进度=已学完课时数/总课时数;

2.学习时长小于10秒不计入学习时长统计;

3.当学习时长大于10秒小于一个课时,此时系统判断课程学习进度均为1%;

学习详情

学习详情页展示课程封面、课程标题、课程属性、课程介绍、课程目录、课程附件、课程章节、课程学习进度、课时学习进度。

以上属性均可在后台编辑线上课时自定义添加。

学习进度统计规则

1.课程进度=已学完课时数/总课时数;

2.学习时长小于10秒不计入进度统计,也不记录为上次学习定位锚点;

3.当学习时长大于10秒小于一个课时,此时系统判断课程学习进度均为1%;

学员端视频播放器默认封面、播放器跑马灯、首次学习禁止拖拽进度条等配置可在后台“系统配置”的“播放设置”中全局自定义。

个人中心

学员端导航栏右上角为个人中心

支持更换头像、修改密码、退出登录。

如果该学员属于多个部门,可以点击“部门”切换部门。

学员姓名修改,忘记账号密码可以联系管理员在后台学员信息中操作。

3.3 私有化部署的开源大模型

3.3.1 开源LLM大语言模型:通义千问Qwen2.5 72B

Qwen2.5 72B是阿里巴巴集团Qwen团队研发的大语言模型,目前已通过国家网信办算法备案。目前,大语言模型已升级至Qwen2.5版本。Qwen具备自然语言理解、文本生成、工具使用、角色扮演、作为AI Agent进行互动等多种能力。

最新版本Qwen2.5 72B有以下特点:

  • 易于使用的仅解码器稠密语言模型有基模型和指令微调模型两种变体;

  • 利用最新的数据集进行预训练,包含多达 18T tokens ;

  • 在遵循指令、生成长文本、理解结构化数据(例如,表格)以及生成结构化输出特别是 JSON 方面有了显著改进;

  • 更加适应多样化的系统提示,增强了角色扮演的实现和聊天机器人的背景设置;

  • 支持最多达 128K tokens 的上下文长度,并能生成多达 8K tokens 的文本。

  • 支持超过 29 种语言,包括中文、英文、法文、西班牙文、葡萄牙文、德文、意大利文、俄文、日文、韩文等。

3.3.2 多模态开源大模型: Qwen2-VL 72B

  1. 领先的多分辨率和比例图像理解能力: Qwen2-VL 在视觉理解基准测试中实现了业界顶尖性能,包括 MathVista、DocVQA、RealWorldQA 和 MTVQA 等。这表明其在处理不同分辨率和比例的图像时具备卓越的理解能力。

  2. 支持超过20分钟的视频理解: 借助在线流媒体功能,Qwen2-VL 能够对长度超过20分钟的视频进行高质量理解,支持基于视频的问答、对话生成、内容创作等应用。

  3. 可操控移动设备和机器人等智能代理: 凭借复杂推理和决策能力,Qwen2-VL 可与移动设备、机器人等集成,实现基于视觉环境和文本指令的自动化操作。

  4. 多语言支持: 为了服务全球用户,除英语和中文外,Qwen2-VL 现支持识别图像中的多种语言文本,包括大多数欧洲语言、日语、韩语、阿拉伯语等。

3.4 LLM 大模型课程

以下是为CS/AI专业本科生设计的AI课程大纲,包括2门课程,分别是《大语言模型原理及应用实践》和《AIGC应⽤开发实践》。每门课程64课时,理论32课时+实践32课时。

3.4.1 大语言模型方向课程:《大语言模型原理及应用实践》

理论32课时+实践32课时,10个以上PPT,实验指导书8个。

课程主要围绕大语言模型技术的核心知识点展开,重点介绍背景与基础知识、大语言模型架构、预训练、微调与对齐(P-tuning、Lora、RLHF)、推理与部署、大模型应用技术(RAG、Agent)等部分。

为帮助学生更好地理解和掌握大语言模型技术,能够快速上手相关的科研与工程项目,本课程为每个核心知识点配备有趣的实验案例,并给出详细的步骤讲解。

课程内实验案例包括:

1)法律领域大模型构建:基于中国法律知识数据使用LoRA等技术微调Gemma大模型,实现法律知识问答和法条推理功能,并基于Streamlit框架实现用户交互界面,方便用户与微调后的模型以自然语言进行法律知识问答,以及根据用户的案情描述进行法条推理。案例要求至少包含构建法律知识数据集、数据预处理、Gemma大模型原理介绍、LoRA微调LLM、模型推理、WebUI构建。实验时长4课时。

2)金融领域大模型构建:基于金融数据使用QLoRA等技术微调Llama3大模型,使其具备金融知识问答、解读年报、深度金融分析的能力,能够回答用户提出的金融专业问题,以及对年报信息进行分析,并搭建WebUI界面与用户的交互。案例要求至少包含金融知识数据集构建、数据预处理、Llama3大模型原理介绍、QLoRA技术的使用、模型推理、基于Gradio构建WebUI。实验时长4课时。

3)大模型量化:基于GPTQ、AWQ、llama.cpp等技术对大模型进行量化处理,并测试量化后模型的性能。案例要求至少包含对齐数据准备、GPTQ、AWQ、llama.cpp量化技术的原理介绍、参数配置、量化后模型的推理及性能测试。实验时长4课时。

4)农业领域大模型应用:基于检索增强生成(RAG)技术构建农业知识库,在农业知识库中检索用户输入信息的上下文来优化Prompt,并输入给大模型,实现农业知识问答系统,问答内容包含作物栽培技巧、病虫害防治措施、土壤改良建议。案例要求至少包含农业语料收集与清洗、文档加载、文本分割、Embedding、Faiss向量数据库、向量相似度计算、Rerank、模型部署与推理、WebUI构建。实验时长4课时。

5)医疗领域大模型应用:基于大语言模型(LLM)+ GraphRAG构建医学知识图谱,模型能够根据用户查询信息精准做出回答实现医学知识问答功能;能够根据用户病情描述识别潜在病症与治疗建议实现智能线上问诊功能;能够帮助用户快速阅读医学文献实现医学文献摘要功能。案例要求至少包含医学数据收集与清洗、GraphRAG安装、图索引构建、全局查询、局部查询、大语言模型本地部署(vllm)、Embedding模型部署等知识点。实验时长4课时。

6)工业制造领域Agent构建:利用铸造产品数据集训练CNN分类模型,实现工业铸造产品缺陷识别工具(Tool),并通过大语言模型(LLM)和LangChain中的ReAct框架创建工业铸造产品缺陷识别智能体(Agent),Agent根据用户输入的图片自主进行思考、观察、行动,最终完成铸造产品缺陷识别的任务。案例要求至少包含训练工业铸造产品缺陷识别模型、LLM本地部署、ReAct框架的原理与运行机制、提示模板设计。实验时长4课时。

7)课程大纲包括课程基本信息、课程教学目标、课程教学内容和要求、课程教学方法、课程考核、本课程与其他课程联系与分工、建议教材及教学参考书七个部分。

3.4.2 多模态大模型方向课程:《AIGC应⽤开发实践》

理论32课时+实践32课时,20个PPT,实验指导书8个。

课程旨在系统讲解AIGC相关的理论和技术,并配套相关的实验案例,提供包括大模型技术概述、面向理解任务的多模态大模型、面向生成任务的多模态大模型、兼顾理解和生成任务的多模态大模型、知识增强的多模态大模型、大模型的预训练与微调、大模型的评估压缩推理与部署、大模型的安全性、课程总结等课程内容,提供基于CLIP模型的智能广告生成系统、基于VATT模型的视频检索系统、基于Stable Diffusion模型的影视特效生成、基于VL-T5模型的智能教育问答系统等共计8个配套实验。

课程内实验案例包括:

1) 包括基于CLIP模型的智能广告生成系统:利用先进的图像与文本匹配技术,实现自动化创作个性化高相关度广告内容,提升营销效率与用户体验。

2) 包括基于VATT模型的视频检索系统:该实验融合视觉、音频、文本及时序信息,实现精准高效的视频内容搜索与定位,从而优化视频检索的用户体验。

3) 包括基于DDPM模型的高质量图像生成:通过深度学习与强化学习的结合,从而可生成细腻逼真的图像,推动数字艺术与视觉内容创作的新边界。

4) 包括基于Stable Diffusion模型的影视特效生成:通过扩散模型的微调,可生成影视特效画面,从而革新视觉效果制作,快速渲染逼真特效,加速影视后期制作,引领影视艺术新潮流。

5) 包括基于VL-T5模型的智能教育问答系统:融合视觉与自然语言理解技术,可实现精准解答学习疑问,助力个性化教育,提升学习效率。

6)包括 基于ERNIE-ViL模型的智慧医疗系统:通过深度融合视觉与语言知识,精准辅助医疗决策,提升诊疗效率与质量,引领健康医疗新未来。

7) 包括基于Unified VLP模型的智慧工厂监控系统:集成视觉与自然语言处理技术,实时监控生产流程,优化资源配置,提升工厂智能化管理水平。

8)包括 基于BLIP-2模型的智能音乐生成系统:融合多模态学习,自动创作个性化旋律与和声,开启音乐创作新纪元。

3.4.3 课程配套

1)PPT课件

《大语言模型原理与应用实践》课程包含十章PPT课件,涉及内容为认识大语言模型、大语言模型基础、大语言模型的主流架构、稀疏结构大模型、大语言模型训练技术、人类对齐、大语言模型推理与部署、检索增强生成技术、智能体、大语言模型评估;

《AIGC应用开发实践课程:多模态大模型应用开发》课程包含二十一章PPT课件,涉及大模型技术概述、大模型的基础知识、多模态大模型概述、CLIP模型原理、VATT模型原理、ALIGN模型原理、基础扩散模型原理、DDPM模型原理、DDIM模型原理、Stable Diffusion模型原理、VL-T5模型原理、Unified VLP模型原理、BLIP-2模型原理、ERNIE-ViL模型原理、大模型的预训练、大模型的微调技术、大模型的评估、大模型的压缩技术、大模型的推理与部署、大模型的安全性、课程总结与未来展望。

2)实验指导书

《大语言模型原理与应用实践》实验指导书包含8个;

《AIGC应用开发实践课程:多模态大模型应用开发》实验指导书包含8个。

3)实验相关资料

《大语言模型原理与应用实践》实验案例提供实验环境和实验指导手册。包含源码、实验目的、实验内容、实验数据、实验知识点、实验时长、实验环境介绍、实验分析、实验过程详解(模型和数据下载、代码构建与分析、实验结果);

《AIGC应用开发实践课程:多模态大模型应用开发》实验案例提供实验环境和实验指导手册。包含源码、实验目的、实验内容、实验数据、实验知识点、实验时长、实验环境介绍、实验分析、实验过程详解(模型和数据下载、代码构建与分析、实验结果)。

3.5 AIGC实训项目课程

AIGC实训项目课程完全从商业化场景出发,全部都是真实投入市场中的项目。根据不同行业对于人才的需求,对这些真实的项目进行里程碑和任务拆解、教学环节的标准化设置等及教研工作,从商业产品变成培养符合企业实际用人需求的实训项目。

实训项目可以根据不同专业和方向进行定制,以符合该专业的培养方向。这里列举几个已经成熟的实训项目案例。以下实训项目课程,每个项目课时数为18课时。

3.5.1 如何训练出专属于“你”的问答机器人

本实训课程旨在指导学员通过AI应用开发平台,训练一个专属于自己的问答聊天机器人。课程将涵盖从数据准备、模型训练到实际部署的整个流程,并结合实际案例,帮助学员掌握关键技术要点和操作方法。通过本课程的学习,学员将能够独立构建并优化一个高效的问答聊天机器人,满足特定业务需求。

(1)数据准备:

数据收集:如何收集并整理问答数据,包括文本数据的预处理和标注。

数据格式:平台要求的数据格式和导入方法。

(2)模型训练:

模型选择:选择适合的预训练模型并进行初始化。

模型训练:通过平台的界面或API,训练模型并监控训练过程。

参数调整:优化训练参数,提高模型性能。

(3)模型评估与优化:

评估方法:使用验证集评估模型性能,常见评估指标(如准确率、召回率)。

错误分析:分析模型错误,找出改进方向。

模型优化:通过数据增强、超参数调整等方法优化模型。

(4)模型部署:

部署方式:在平台上部署训练好的模型。

集成应用:将聊天机器人集成到实际应用中,如网站、微信小程序等。

(5)维护与迭代:

持续学习:通过收集用户反馈,持续改进和更新模型。

版本管理:管理模型版本,确保稳定性和可控性。

3.5.2 不用代码创建Midjourney提示词机器人

本课程旨在指导学生如何使用AI应用开发平台在无需编写任何代码的情况下创建一个Midjourney提示词机器人。学员将通过实际操作,学会如何配置和部署一个自动生成提示词的机器人,并理解其背后的技术逻辑。课程设计既适合技术小白,也适合有一定技术背景但希望简化开发流程的同学。

(1)创建项目

项目设置:如何在AI实训平台上创建一个新项目。

项目名称与描述:定义项目名称和描述,确保项目定位明确。

模板选择:选择合适的模板(如Midjourney提示词机器人模板)。

(2)配置机器人

触发条件:定义机器人触发的条件。

关键词匹配:设置触发机器人响应的关键词或短语。

事件触发:配置基于特定事件(如用户输入)触发的逻辑。

响应配置:设置机器人如何响应用户输入。

固定回复:配置固定的文本回复。

动态生成:利用平台自然语言处理能力动态生成提示词。

API集成:如果需要,配置与外部API的集成。

API调用设置:详细说明如何配置API调用,包括请求URL、请求参数和处理响应。

数据解析与处理:解释如何解析API返回的数据,并将其用于生成提示词。

(3)测试与调试

实时测试:在平台上进行实时测试,确保机器人按预期工作。

输入测试:输入不同的测试用例,观察机器人的响应是否准确。

输出验证:验证机器人生成的提示词是否符合预期。

问题排查:介绍常见问题及其解决方法。

关键词未匹配:如何调整关键词匹配逻辑。

API调用失败:如何检查和修正API配置问题。

(4)部署与维护

部署机器人:将配置好的机器人部署到实际应用环境中。

发布流程:详细步骤,包括选择部署环境和发布操作。

监控与优化:如何监控机器人的运行状态并进行优化。

日志查看:利用平台提供的日志功能跟踪机器人的运行情况。

性能优化:根据实际运行情况调整和优化机器人的配置。

3.5.3 构建一个Notion AI助手

本实训课程旨在指导学生如何使用AI应用开发平台,通过零代码实现构建一个Notion AI助手。学生将学习如何通过用户界面进行设置、配置和部署AI助手,掌握如何集成AI助手到Notion中,以提升生产力和工作效率。课程包含理论讲解和实际操作两部分,确保学员能够在课程结束后独立构建和维护自己的Notion AI助手。

(1)创建新的AI应用

如何在AI开发平台创建新的AI应用

配置应用的基本信息,如名称和描述

选择适当的AI模型和语言设置

(2)定义数据源

配置Notion作为数据源

设置Notion API密钥和访问权限

定义从Notion中提取数据的方式和数据格式

(3)训练AI模型

导入和准备训练数据

配置AI模型的训练参数

训练和优化AI模型

检查和验证训练结果,调整模型参数以提高准确性

(4)设置交互界面

配置AI助手的交互界面

设置用户输入和输出格式

定义对话流程和逻辑,包括多轮对话和条件分支

(5)集成到Notion

将AI助手集成到Notion的工作空间

在Notion中配置AI助手的触发方式,如命令或按钮

测试AI助手在Notion中的表现和功能

(6)监控和维护

配置实时监控和日志记录

分析用户交互数据,识别和解决常见问题

定期更新和优化AI模型,确保其准确性和有效性

3.5.4 创建一个带有业务数据的官网AI智能客服

本实训课程将指导学生如何根据业务数据,在几分钟内创建一个AI聊天机器人。本课程将通过详细的步骤和实用的案例演示,使学员能够掌握如何快速部署一个AI聊天机器人,以提升企业的客户服务效率和质量。课程结束后,学员将能够独立创建和优化AI聊天机器人,并将其应用于实际业务场景中。

(1)数据准备

数据收集:如何收集企业内部的业务数据,包括客户常见问题、产品信息、服务流程等。

数据格式:确保数据格式的一致性,推荐使用JSON、CSV等常见数据格式。

数据清洗:清洗和规范化数据,删除重复和无用信息,保证数据的准确性和完整性。

(2)配置数据源

数据源接入:将收集到的业务数据导入到平台,支持多种数据源接入方式,如直接上传文件、连接数据库、调用API等。

数据映射:将业务数据映射到平台的知识图谱,确保数据在平台中的结构化和可查询性。

(3)模型训练

选择模型:选择适合业务需求的AI模型,平台提供多种预训练模型供选择。

模型训练:根据导入的数据进行模型训练,详细步骤包括训练参数的设置、训练过程的监控和结果的分析。

模型优化:通过调整训练参数、增加数据样本等方法,优化模型的准确性和响应速度。

(4)聊天机器人配置

机器人个性化:设置聊天机器人的基本信息,包括名称、头像、欢迎语等。

对话流程设计:设计机器人的对话流程,确保能够处理多种客户需求和问题。

自定义回复:为常见问题配置自定义回复,提高机器人回答的准确性和客户满意度。

(5)测试与部署

功能测试:对聊天机器人进行全面的功能测试,确保其能够正常运行,处理各种预期和异常情况。

用户反馈收集:设置用户反馈机制,通过用户的反馈持续优化机器人性能。

上线部署:将测试通过的聊天机器人上线部署到企业的客服系统中,支持多渠道接入,如网站、微信、APP等。

3.5.5 使用全套开源工具构建LLM应用实战:调用Baichuan开源模型能力

本课程旨在通过实际案例,指导学员如何使用全套开源工具构建大型语言模型(LLM)应用程序。课程将涵盖从环境搭建、数据处理到模型训练和部署的完整流程。通过本课程,学员将掌握构建LLM应用的核心技术,学会在不同场景下灵活运用这些技术,并能够独立完成一个LLM应用的构建和优化。

(1)环境搭建

操作系统要求:支持Linux、MacOS和Windows,推荐使用Ubuntu。

依赖工具安装:包括Python、Git、Docker、Node.js等的安装和配置。

虚拟环境配置:使用工具如virtualenv或conda创建和管理Python虚拟环境。

(2)数据处理

数据收集与清洗:如何收集高质量的训练数据,并进行预处理(如去除噪声、文本规范化等)。

数据标注:使用工具如Label Studio进行数据标注,包括文本分类、实体识别等任务。

数据存储与管理:使用数据库(如MySQL、MongoDB)或文件系统存储和管理数据。

(3)模型训练

选择模型:根据应用场景选择合适的预训练模型(如BERT、GPT等)。

模型微调:使用开源工具(如Hugging Face Transformers)进行模型微调,调整超参数以优化性能。

分布式训练:利用多GPU或多节点进行分布式训练,加速模型训练过程。

(4)模型评估

评估指标:使用准确率、召回率、F1-score等指标评估模型性能。

交叉验证:通过交叉验证方法提高模型的泛化能力。

错误分析:对模型的错误预测进行分析,找出改进方向。

(5)模型部署

部署方式:介绍常见的部署方式,如本地部署、云端部署(AWS、GCP、Azure等)和边缘部署。

API服务:使用Flask、FastAPI等框架将模型部署为API服务。

容器化部署:使用Docker将模型和依赖打包成容器,并使用Kubernetes进行容器编排和管理。

(6)性能优化

模型压缩:使用剪枝、量化等技术压缩模型,以减少内存占用和推理时间。

缓存策略:在模型推理过程中使用缓存技术,加速响应速度。

异步处理:采用异步请求处理方式,提高系统的并发处理能力。

3.5.6 将AI开发平台接入微信生态

本课程将指导学生如何基于开发的AI应用案例,集成到微信中。学员将学习到如何使用AI开发平台的功能,通过零代码实现与微信的集成,并了解具体的技术细节与步骤。本课程适合具有一定技术背景但不熟悉AI开发平台的学生。

(1)创建AI项目

项目初始化

在平台上创建新项目,命名并描述项目用途。

选择适合的模板或从空白项目开始。

配置消息处理逻辑

编写消息处理逻辑,定义如何处理不同类型的消息(文本、图片、语音等)。

使用平台提供的函数和API,实现消息解析与回复。

(2)集成微信公众平台

获取微信接口权限

确认已通过微信公众平台的开发者认证。

获取服务器Token,用于验证消息真实性。

配置接口URL

在微信公众平台设置服务器地址(URL),与AI项目的Webhook地址对应。

验证服务器地址配置,确保消息能够正确传递。

消息加解密

实现微信消息的加解密,确保消息在传输过程中的安全性。

使用平台提供的工具函数,简化加解密流程。

(3)测试与调试

测试消息传递

在微信中发送测试消息,验证消息能够成功传递到项目。

检查项目的日志与调试信息,排查潜在问题。

调试消息处理逻辑

调试平台中的消息处理代码,确保逻辑正确实现。

使用断点与日志打印,分析消息处理流程中的问题。

(4)部署与维护

项目部署

确认项目配置无误,准备上线。

部署项目到生产环境,确保微信用户能够正常使用。

监控与维护

监控项目运行状态,及时处理异常情况。

定期更新与维护项目,根据用户反馈进行改进。

3.5.7 企业级实训项目:从LangChain接入ChatGPT到制作股票分析AI团队

GenAI介绍

1、什么是GenAI:学员将对GenAI有个直观的了解

2、什么是LangChain:学员将了解什么是LangChain,以及学习LangChain的好处

3、如何获得免费的 OpenAI API 密钥:学员将学会如何获得免费OPENAI API KEY

4、课程编译环境设定:学员将设定好课程需要的Python语言和配置文档

LangChain

1、LangChain如何连接LLM大语言模型:学员将学习如何用LangChain连接OpenAI API,并得到OpenAI的回复

2、LangChain三大Package:学员将学习LangChain三大Package它们是做什么,以及导入的时候有什么需要注意

3、Prompt Template 提示词模板:学员将了解什么是Prompt以及如何使用提示词模板训练LLM

4、Few Shot Prompt Template 少量示例提示模板:学员将了解什么是Few Shot Prompt Template 少量示例提示模板,以及如何使用它

5、Chain链条Primitive基本单元与Utility Chain工具链条:学员将学会如何使用Utility Chain去克服LLM的计算弱点

6、通用链条SequentialChain顺序链:学员将学习如何使用通用链条,以及实现SequentialChain顺序链链接多条Chain

7、如何为LLM添加记忆:学员将学会如何为LLM添加记忆

RAG检索增强生成

1、何谓RAG:学员将了解为什么需要RAG,RAG是什么

2、如何加载PDF和搜索网页信息:学员将学会如何在Langchain加载PDF和网页信息,并使用Google API搜索

3、Text Splitter文本分割器:学员会学会如何使用Text Splitter,以及如何定义Chunk的大小

4、Chunking分块大小怎么决定:学员将了解如何大概估算Chunk分块大小

向量数据库

1、Embedding与Chroma向量数据库的创建:学员将学习如何创建Embedding,什么是Embedding,它有什么用,以及如何创建向量数据库

2、Chroma向量数据库相似度搜索:学员将学会如何使用Chroma向量数据库相似度搜索

3、如何使用Ollama安装的本地LLM搜索Chroma向量数据库:学员将学会如何使用Ollama安装的本地LLM搜索Chroma向量数据库

4、如何使用LLM摘要总结Chroma检索信息:学员将学会如何使用LLM摘要总结Chroma检索信息

5、如何初始化FAISS与RetrievalQA的使用:学员将学习如何初始化FAISS,以及如何使用RetrievalQA检索回答用户提问

6、如何保存与加载FAISS并制表查看FAISS中的文档:学员将学习如何保存与加载FAISS,并制表查看FAISS中的文档

7、如何在FAISS中添加和删除文档:学员将学会如何在FAISS中添加和删除文档

如何制作AI Agent智能体&AI Agent团队

1、如何使用LCEL:学员将学会如何使用LCEL

2、创建AI智能体:学员将学习如何创建AI智能体

3、AI Agent如何使用LangChain自带工具:学员将学会AI Agent如何使用LangChain自带工具

4、创建AI团队:学员将学习如何创建第一个AI团队

5、股票分析AI团队制作-Crew&Agents&Tasks:从第一步开始构建股票分析团队程序的架构和它的运行逻辑

6、股票分析AI团队制作-定义Agents与Tasks:学员将学会如何定义股票分析AI团队中的Agents与Tasks

7、股票分析AI团队制作-添加上网搜索工具:学员将学会如何为股票分析师添加上网搜索工具

8、股票分析AI团队制作-得出是否买入股票建议:学员将学会如何让股票分析师得出是否买入股票的建议。

3.5.8 企业级实训项目:人机对话大师:打造流畅AI互动系统,实现无缝交流

课程介绍

1、课程目标

2、文本编辑器与Python语言的安装

3、工具介绍

如何实现Speech to text语音转文字功能

1、Speech-To-Text实时语音转文字功能制作:学员将学习如何设置和导入需要用到的库和模块到VSCode当中

2、Speech-To-Text 翻译功能:学员将学习Speech-To-Text 翻译功能

3、Speech-To-Text 模型的参数选择:学员将学会如何实现Speech-To-Text 模型的参数选择

4、Speech-To-Text 合并聊天记录:学员将学会如何Speech-To-Text 合并聊天记录

如何使用LLM大语言模型处理/回复用户提问

1、Ollama大语言模型处理问题:学员将学会如何使用Ollama大语言模型回答用户提问

2、如何实现ChatGPT与Groq的接入:学员将学会如何实现ChatGPT与Groq的接入

如何实现Text to speech文字转语音

1、如何Text to Speech 文字转语音:学员将学会如何Text to Speech 文字转语音

2、如何处理长句子语音流:学员将学会如何处理长句子语音流

3、如何分割长文章并转换为流媒体

如何制作TalkingAI语音AI

1、TalkingAI 根据Prompt模板设置Groq模型:学员将学会如何在TalkingAI 根据Prompt模板设置Groq模型

2、TalkingAI LLM连接语音转文字功能:学员将学会如何在TalkingAI LLM连接语音转文字功能

3、TalkingAI 完成AI语音到LLM文字回应:学员将学会如何在TalkingAI 完成AI语音到LLM文字回应

4、TalkingAI 完成AI语音输出:学员将学会如何在TalkingAI 完成AI语音输出

移植AI语音对话程式到网页App

1、移植Python程序网页App展示

2、Streamlit初认识 -文字,输入,选项元素

3、Streamlit进阶 - 逻辑, Chat, Form功能

4、TalkingAI 连接 Streamlit:学员将学会如何处理TalkingAI 连接 Streamlit的错误

5、Streamlit实时聊天机器人问题修复

语音AI扩展功能

1、如何制作根据网站内容回答问题的语音AI系统

2、如何将网页内容分割保存在VectorStore当中:学员将学会如何将网页内容分割保存在VectorStore当中

3、如何根据相关性回答用户提问:学员将学会如何根据相关性回答用户提问

4、语音AI扩展功能:学员将了解如何构思在语音AI系统中添加网页RAG功能

5、如何用LCEL连接网站数据:学员将学会如何用LCEL连接网站数据获取数据和Prompt等

6、语音AI系统错误修复:学员将学会如何修复语音AI系统错误

关于TsingtaoAI

TsingtaoAI拥有一支高水平的产学研一体的AI产品开发团队,核心团队主要来自清华大学、北京大学、中科院、北京邮电大学、复旦大学、中国农业大学、美团、京东、百度、中国技术创业协会和三一重工等产研组织。 TsingtaoAI核心团队专长于算力、行业LLM/AIGC应用的产品研发,面向企业的大语言模型应用落地等业务,如面向智能客服、教育、人力资源、电商和轨道交通等行业领域的LLM和AIGC应用开发。公司拥有近10项LLM/AIGC相关的知识产权。

TsingtaoAI自研基于LLM大模型代码能力的AIGC应用开发实训平台、具身智能高校实训解决方案、面向CS专业的AI训练实训平台和基于大语言模型的AIGC案例学习平台,聚焦虚拟现实、智能驾驶、金融科技、医药健康、高端装备、新能源、新材料、节能环保、文化创意、农业科技和食品科技等关键行业,通过链接全球数以千计的关键领域的AI科学家和工程师,为央国企、上市公司、外资企业、政府部门和高校提供AI企业内训和高校实训服务。

 

Product & Case.

产品与案例