【金钻就业计划】Part1-编程与AI基础知识结构
本内容是金钻就业计划Part1的知识结构梳理,此阶段的目标是掌握必要的AI技术基础,这里包括Python、数据分析、数据结构与算法、深度学习、机器学习入门和自然语言处理入门等。
本部分采用任务式和项目式的学习模式,学习资料+助教全程陪伴的学习方式。以任务制形式学习,根据每位学员的基础情况,定制不同的学习任务,完成任务并通关后进入下一个环节。
通过其中一门课程的学习,让学员至少掌握基本的编程能力和AI基础,形成基本的技术思维,为下一步的学习打下基础。
Python零基础入门
节数 |
主题 |
大纲 |
1 |
课程介绍及 Python 环境搭建 |
课程介绍 MAC/Win 版 Python 基础环境安装 MAC/Win 版 IDE-PyCharm 安装 代码应该怎么去学习 |
2 |
Python 基础与运算 |
Python 中的数据类型 布尔型变量 基本运算符 赋值运算符 进制运算 位运算 条件控制 |
3 |
字符串 |
声明字符串 字符串的操作 字符串切片 字符串成员运算 转义字符 字符串格式化输出 字符串的内建函数 |
4 |
组类型 |
访问列表 嵌套列表 元组 集合 集合运算 字典 |
5 |
条件与循环 |
条件语句 成员运算符 真假值的判断 身份运算符 循环 循环中的 break |
6 |
Python 项目的组织结构 |
工程结构 编码规范 特殊模块 导包路径 |
7 |
函数 |
函数参数 默认参数 函数返回值 递归 递归查找 特殊函数 变量的作用域 |
8 |
正则表达式 |
正则表达式 元字符 反义代码 限定符 组匹配 贪婪与非贪婪 |
9 |
爬虫项目案例 |
速成 HTML Xpath BuautifulSoup 介绍 Scrapy 基础环境与使用逻辑 定位 爬虫 定位页面元素 分别定位 处理抓取信息 数据处理 调试程序 |
商业数据分析
第一章:数据分析导论
数据是什么?数据能做什么?
优秀的数据分析师的三个特点
数据分析工具简介
Excel简介及优劣势分析
Python简介及优劣势分析
数据的变异性、规律性和客观性使数据成为驱动决策的最佳工具
数据分析的四大步骤是什么
第二章:项目初探-员工薪水探索性分析
企业级开发环境Jupyter的安装与基本使用
代码开发技巧与思路
企业级数据处理流程的代码实现
数据运算;多类型文件处理
主要知识点:技术大神的导包规范、函数的本质、代码的逻辑;Pandas的多类型文件处理、Python处理Excel的方法与细节;Pandas的数据迭代运算逻辑、使用Pandas进行数据处理的常用函数区域数据访问的多种方法
项目:项目数据来源为摩拜共享单车,主要进行的是骑行时间分析。时间格式作为企业级数据分析项目中一定会遇到的一种格式,而时间的处理也成为了数据分析师不得不面对而又头疼的一种数据格式。在这个项目中,我们会对时间格式转时间戳和时间戳转时间格式以及时间的运算进行重点练习。
第三章:如何像数据分析师一样思考
互联网营销活动数据分析的基本模型
描述性统计指标的Excel处理(以用户画像为例)
用Excel分析数据之间的相关关系(以波士顿矩阵的四象限分析法为例)
用Excel进行预测性分析(以电商零售销量预测案例为例)
不同类型的数据分析(描述性统计、诊断性分析、预测性分析、仿真模拟)
描述性分析:通过计算数据的集中性特征和波动性特征以了解数据的基本情况(平均数、标准差、分布规律、可视化方法)
诊断性分析:深入挖掘问题根源,识别依赖关系,找出影响因子(多变量回归中如何找到关键性变量)
预测性分析:用来说明未来可能发生的事情(线性回归、逻辑回归)
仿真模拟:利用数学仿真来模拟各种条件下产生的结果(以零售仓储备货案例为例)
数据可视化的基5大本原则(图表类型、坐标轴、数据细节、颜色使用、维度展现)
第四章:数据的科学运算与数据探索性分析
数据探索的目的与方法
NumPy数据运算的技巧:一维与多维的理解;常用运算方法与技巧;什么是降维与如何操作降维;多种降维方法的磁盘级区别;什么是广播运算与广播运算的操作
企业中脏数据的常见处理方法:脏数据的分类与产生原因;企业中多数据源的数据产生场景;使用Pandas进行各类脏数据的处理与操作
特殊的数据-日期:时间格式与时间戳;时间戳的原理与时间换算;使用Pandas进行时间的运算
项目:此项目数据来源为摩拜共享单车,主要进行的是骑行时间分析。时间格式作为企业级数据分析项目中一定会遇到的一种格式,而时间的处理也成为了数据分析师不得不面对而又头疼的一种数据格式。在这个项目中,我们会对时间格式转时间戳和时间戳转时间格式以及时间的运算进行重点练习。
第5章:不做只懂技术不懂业务的“工具人”
为什么数据分析师不能只懂技术?(以b站用户分层案例进行讲解)
不是越高级、越复杂的技术就是好技术(以蒙特卡罗模拟+亚马逊电子书案例进行讲解)
数据分析师与一线业务运营者的区别是什么?
数据分析项目入门课——bilibili站内CPC广告优化
bilibili广告系统相关背景及数据介绍(feeds广告、banner广告、卡片广告)
CPC广告投放系统的要素介绍(关键词、单次点击竞价、单日预算等)
bilibili站内CPC广告业务场景与优化问题介绍(广告ROI较低,投放不精准)
bilibili站内CPC广告业务优化思路及数据分析过程(客单价、订单量、单个订单平均广告花费交叉分析)
CPC广告优化在复杂业务环境下需要考虑的要素(恶意点击、由图片加载失败导致的曝光失败、广告主品牌权重、广告主与流量主的品牌匹配度等)
第6章:数据分析与自动化办公必备利器:数据可视化
为什么需要数据可视化
颜色主题的设置原则
数据可视化常用图形及其应用场景
如何用图形讲好故事
概览最火图形库Matplotlib
使用Matplotlib进行各种常用图形绘制
图绘制的关键步骤:数据获取、颜色配置、添加说明、多图堆叠、网格与轴等
中文的处理
颜色生成器开发:什么是RGB与RGBA;颜色的组成
项目:本项目采用特斯拉股价数据作为项目练习数据,项目包含价格分布绘制、股价走向绘制、时间拆分、交易量分析等多个知识点
第7章:数据分析项目实战(一):电商平台订单报表分析
互联网电商平台数据分析的一般思路
bilibili会员购平台业务背景介绍(平台定位、商品介绍、用户介绍)
bilibili会员购平台相关数据介绍(订单数据)
订单数据的数据分析基本思路——制作可视化报表
可视化报表涉及到的Python知识点讲解(文件读取,数据处理,数据可视化技术)
b站会员购订单数据的宏观分类与分析思路(待支付、已支付、已发货订单数据分类,不同分类的数据分析要点)
b站会员购订单数据的微观分类与分析思路(订单下单时间的小时、分钟分类,不同分类的数据分析要点)
b站会员购订单数据多表格数据的汇总与分析(周订单波动分析、一周不同时间用户购物习惯差异分析)
b站会员购订单数据针对用户属性判别的分析(下单时间+客单价→用户活跃时间+购买能力→用户身份(学生/社会人))
b站会员购订单数据针对地区品牌渗透度判别的分析(送货地区+客单价→地区品牌渗透都+地区用户购买力→头部市场/长尾市场地区划分)
订单可视化报表与用户画像的关系(引出下个章节的相关内容)
结合该章节内容介绍相关就职岗位(电商运营、零售商数据分析员、新零售运营)
第8章:使用正则进行数据的复杂筛选
企业中文本数据的产生及处理技巧
常见文本数据抽取与格式校验:企业应用软件如何进行手机号的格式验证 网站注册时如何进行合法邮箱格式验证
文本数据抽取的必备技能:正则表达式到底是什么
为什么要学习正则表达式及其应用场景
正则表达式的知识点组成:元字符的奥秘;反义与反义代码;限定匹配与限定符;分组的基本概念与分组匹配;后向引用;贪婪与非贪婪
第9章:数据分析项目实战(二):用户画像体系
互联网电商平台入驻商数据分析的一般思路(强调数据来源的广度与业务辅助的深度)
亚马逊相关数据介绍(前台用户review数据+订单数据)
电商运营的杀手锏——用户画像体系
什么是用户画像体系(用户属性数据+用户行为数据)
为什么要搭建用户画像体系(帮助电商平台入驻方获知自身的品牌定位和产品定位,同时梳理用户的搜索行为习惯)
互联网业务数据分析的杀手锏——用户画像体系
用户画像在互联网业务中的应用场景和业务价值
获客:如何进行拉新,通过更精准的营销获取客户
粘客:个性化推荐,搜索排序,场景运营等
留客:流失率预测,分析关键节点降低流失率
用户的基本属性:性别、年龄、受教育程度、地域分布等
用户的行为属性:下单时间、促销敏感度、评论敏感度
用户的偏好属性:用户的加购数据
用户画像涉及到的Python知识点讲解(文件读取,地图可视化,数据可视化技术,爬虫抓取技术)
如何搭建亚马逊美国市场用户画像体系
用户地区分布分析(帕累托图,找到二八分布的头部市场)
用户购买习惯分析(折线图,找到不同地区用户的购物高峰时间帮助品牌商进行价格实时调整实现利润最大化,电商价格歧视相关概念及技术介绍)
价格地区分布分析(地图可视化,与用户地区分布分析结合进行交叉分析,找到长尾市场中的高客单价潜在市场)
用户画像对于多品牌矩阵运营的帮助(多电商入驻商店铺定位分析+市场分析)
用户画像对于用户搜索习惯的分析(review数据进行词频分析,同时将review数据的词频分析与产品链接标题的词频分析相匹配,最终找到潜力市场)
用户画像对于电商团队管理的帮助(量化运营人员运营成果,避免纯KPI考虑的弊端)
结合该章节内容介绍相关就职岗位(电商平台用户运营、电商入驻商数据分析师、垂直电商平台数据分析师、渠道商数据分析师、互联网公司用户研究员、广告投放师)
第10章:全链路的自动化汇报
自动化办公中的海量数据与海量文件处理:多层文件夹与文件的识别;递归与深层递归;什么是栈与栈溢出
数据分析涉及的网络知识:网络协议划分与企业开发的应用场景;网络分层中的7层与5层;邮件协议的组成
邮件自动发送:邮件的组成;邮件中各组件的添加
漂亮的邮件格式的组成:使用HTML进行邮件格式书写/nHTML的标签书写
项目:此项目要进行的是基于用户行为的用户价值分析,此数据来源为阿里巴巴淘宝用户行为数据,我们将会根据用户点击、收藏、加购物车、支付等行为结合RFM用户分层分析方法对用户进行价值分析,项目包含了数据筛选、清洗、可视化、分析等多个环节,是逐渐开始完整的企业级数据分析项目的开始。
数据结构与算法
节数 |
主题 |
大纲 |
1 |
概述 |
什么是数据结构 逻辑结构 物理结构 什么是算法 算法性质 好算法的性质 时间复杂度 空间复杂度 |
2 |
表 |
线性表 顺序表的实现 顺序表的操作 链接表 顺序表和链接表的实现 哈希表、哈希函数 开放定址法 单独链表法 哈希表的容量 |
3 |
栈与队列 |
栈的实现和操作 栈的顺序表实现 栈的链接表实现 队列的实现和操作 双端队列和 Python 中的 deque |
4 |
树与二叉树 |
树的基本概念 二叉树的基本概念 无序树与有序树 满二叉树、完全二叉树 二叉搜索树、平衡二叉树 设计二叉树、二叉树遍历 树树林 构建哈夫曼树 |
5 |
优先队列与堆 |
优先队列的基本概念 优先队列的常见操作 优先队列的线性表实现 堆的基本概念 堆的插入删除操作 堆的 Python 实现 |
6 |
图 |
图的概念和性质 图的分类、表示、遍历 连接图 最小生成树 Kruskal 算法 Prim 算法 最短路径 Dijkstra 算法 Floyd 算法 |
7 |
排序算法 |
冒泡排序 插入排序 选择排序 堆排序 归并排序 希尔排序 快速排序 计数排序 桶排序 基数排序 |
8 |
贪心算法与动态规划 |
贪心算法的基本概念 背包问题 集合覆盖问题 动态规划的基本概念 爬楼梯问题 |
人工智能与机器学习基础
节数 |
主题 |
大纲 |
1 |
什么是人工智能 |
什么是人工智能 人工智能和商业分析 人工智能应用场景 |
2 |
机器学习与深度学习 |
什么是机器学习 什么是深度学习 常用的工具 计算机视觉、自然语言处理以及语音 |
3 |
机器学习基础概念 |
监督学习和无监督学习 回归和分类问题 样本、特征与标签 训练数据和测试数据 |
4 |
编写第一个 AI 程序 |
机器学习的建模流程 数据的探索 数据预处理及特征工程 构建回归模型 验证模型效果 |
5 |
AI 的学习路径 |
必备知识 专业知识学习路径 关于 AI 学习的误区 |
6 |
过拟合 |
什么是过拟合 如何防止过拟合 L1与L2正则 正则与先验的关系 |
深度学习
节数 |
主题 |
小节 |
大纲 |
1 |
神经网络 |
理解神经网络 |
神经网络与深度学习 神经网络与大脑 神经网络中的神经元 |
不同类型的激活函数 |
线性激活函数 非线性激活函数 |
||
多层神经网络的前向传播 |
多层神经网络形态 拥有一层隐含层的神经网络 多层神经网络 |
||
学习模型的参数-反向传播算 法 |
深度神经网络的损失函数 反向传播算法 |
||
关于深度神经网络 |
从浅层到深层模型 其他常见的深度网络结构 |
||
2 |
Pytorch 的使用 |
Pytorch 介绍 |
常见的深度学习框架 PyTorch 框架的崛起 PyTorch 与 Tensorflow 多方位比较 |
Tensors 与 Autograd |
Tensor 的创建 Tensor 的操作 Tensor 与 Numpy 之间的转换 模型中的前向传播与反向传播利用Autograd 计算梯度 |
||
构建神经网络模型 |
数据的构造 模型的构造 优化器选择和配置 主函数部分 完整的程序 |
||
3 |
RNN 与 LSTM |
RNN 模型的必要性 |
时间序列模型 数据类型 RNN 的应用 |
RNN 详解 |
RNN细节 语言模型与 RNN |
||
RNN 的梯度问题 |
梯度问题 长序列依赖 Gradient Clipping |
||
LSTM 与 GRU |
LSTM 介绍 双向 LSTM GRU RNN 的不同结构 |
||
4 |
案例学习 |
基于 LSTM 的 THUCNews 新闻标题分类算法实践 基于 BiLSTM+Attention 的情感分析实践 |
自然语言处理基础
节数 |
主题 |
小节 |
大纲 |
1 |
自然语言处理概述 |
什么是自然语言处理 |
什么是自然语言处理 为什么自然语言处理难 从一个简单的机器翻译说起 |
自然语言处理的应用 |
智能问答系统 文本生成 机器翻译 情感分析 聊天机器人 虚假新闻检测 文本主题分类 信息抽取 |
||
自然语言处理核心技术 |
自然语言处理技术的三个维度 分词 词性分析 语义理解 命名实体识别 依存文法分析 句法分析 |
||
2 |
分词、词 的标准 化、过滤 |
文本分析流程与分词 |
文本分词流程 分词工具的使用 最大匹配算法 考虑语义的一种分词方法 |
停用词与词的标准化 |
词的过滤 词的标准化 |
||
拼写纠错 |
拼写纠错与编辑距离 循环词库的问题及改进方法 |
||
3 |
文本表示 |
文本表示基础 |
单词的表示 句子的表示 tf-idf向量 文本相似度 |
词向量 |
计算单词之间的相似度 单词的表示 从独热编码到词向量 基于词向量的相似度比较 词向量的含义 从词向量到句子向量 |
||
4 |
词向量技 术 |
SkipGram 模型详解 |
训练词向量的核心思想 SkipGram 的目标函数 SkipGram 的负采样 |
其他词向量技术 |
矩阵分解法 Glove 向量 高斯词嵌入 词向量总结 论文解读:基于SkipGram的Airbnb房屋推荐 |
||
5 |
语言模型 |
语言模型基础 |
什么是语言模型 计算语言模型的概率 马尔科夫假设 |
语言模型的训练与评估 |
不同的语言模型 语言模型的训练 困惑度 Perplexity |
||
语言模型的平滑 |
训练语言模型时的问题 Add-one Smoothing Add-K Smoothing Interpolation |
||
6 |
隐马尔科 夫模型 (HMM) |
HMM 基础 |
时间序列数据 Coin Toss POS |
HMM 中的参数及 Inference 细节 |
HMM 中的参数 基于维特比算法的预测 |
||
HMM 中的参数估计 |
Incomplete 和 Complete Case HMM 的参数求解 |
||
7 |
无向图模 型与标记 偏置 |
有向图与无相图模型 |
生成模型与判别模型 有向图与无向图 有向图与无向图中的联合概率 |
MEMM 及标记偏置 |
HMM 的一些缺点 从HMM到MEMM 标记偏置问题 从MEMM到CRF |
||
8 |
Linear-C RF 模型 |
Log-Linear 模型与逻辑回 归 |
Log-Linear 模型 从 Log-Linear 模型到逻辑回归 |
Linear-CRF |
CRF Inference Problem Linear-CRF 与参数估计 |
||
9 |
案例学习 |
基于tf-idf+SVM的多标签分类方法及其在新闻Tag生成上的实践 基于 word2vec 词嵌入技术及其在个性化推荐中的实践 |