admin 管理员组

文章数量: 887032


2024年1月26日发(作者:linux命令分为)

大数据分析师培训课程标准

1 课程概况

1.1课程名称

大数据分析师

1.2课程定义

本课程面向信息技术行业数据分析从业人员,培养其精通大数据分析方法

和大数据分析工具,能从业务理解、数据理解、数据准备、建立模型、模型评

估、模型优化等多个操作环节中挖掘数据潜在价值,能够帮助企业更清晰地了

解内部现状和外部竞争环境、了解目标客户,从而做出风险评判和决策,提高

企业盈利的能力。

1.3课程等级

本课程共设三个等级,分别为:初级、中级、高级。

1.4能力要求

具有较强的学习能力、研究分析能力;具有一定的理解、判断和表达能力;

具有较强的分析解决问题的能力和沟通能力。

1.5普通受教育程度

高中及以上文化程度(或同等学历)。

1.6课程培训要求

1.6.1培训期限

初级课程不少于线上或线下 80标准学时;中级课程不少于线上或线下 120

标准学时;高级课程不少于线上或线下 160标准学时。

1.6.2培训教师

承担初级、中级理论知识或专业能力培训任务人员,应具有相关课程培训

经验1-3年。

承担高级理论知识或专业能力培训任务人员,应具有相关课程培训经验 5

年以上,或具有相关职业高级专业技术等级、相关专业高级职称二者之一。

1.6.3培训场所设备

理论知识培训应有可容纳30人以上学员的教室,并配有满足教学需要的网

1

络环境和学习软件、设施等。培训所需软件:Excel、MySQL、Power BI等。

2 基本要求

2.1专业守则

(1)遵纪守法,爱岗敬业

(2)精益求精,勇于创新

(3)诚实守信,恪守职责

(4)遵守规程,安全操作

(5)认真严谨,忠于职守

2.2基础知识

2.2.1基础理论知识

(1)操作系统基本知识

(2)计算机网络基本知识

(3)编程基础知识

(4)数据结构与算法基本知识

(5)数据库基本知识

(6)软件工程基本知识

(7)大数据基本知识

2.2.2技术基础知识

(1)大数据系统环境安装、配置和调试知识

(2)大数据平台架构知识

(3)软件应用开发知识

(4)接口开发与功能模块设计知识

(5)数据采集与数据预处理知识

(6)数据计算与数据指标知识

(7)常用数据分析与挖掘方法

(8)常用数据报表与可视化技术方法

(9)数据管理知识

(10)数据运营及技术指导知识

2

3 课程内容要求

本标准对初级、中级、高级大数据分析师的专业能力要求依次递进,高级

别涵盖低级别的要求。

3.1初级

课程模块 培训内容

1.1数据

分析概要

专业能力要求 相关知识要求

1.1.1能掌握数据分析基本概念 1.1.1数据分析基本概念

1.1.2能掌握数据分析流程 1.1.2数据分析流程

1.1.3能掌握数据分析应用场景 1.1.3数据分析应用场景

1.数据分

析基础

1.2.1 Excel基本概念

1.2.1能使用Excel获取外部数 1.2.2获取文本数据

据 1.2.3从数据库获取数据

1.2.2能使用Excel进行数据处 1.2.4排序、筛选与分类汇

理 总

1.2 Excel

1.2.3能使用Excel函数进行数 1.2.5数组公式

数据分析技

据处理 1.2.6日期和时间函数

1.2.4能使用Excel数据透视表 1.2.7数学函数、统计函数、

和透视图进行数据统计分析 文本函数、逻辑函数

1.2.5能使用Excel进行数据可 1.2.8透视表、透视图操作

视化 1.2.9对比分析、趋势分析

1.2.10数据可视化

1.3.1能安装配置MySQL 1.3.1关系型数据库

1.3.2能操作MySQL数据库、表、 1.3.2 MySQL安装配置

1.3 MySQL

1.3.3表结构及DDL

关系等

数据库基础

1.3.3能使用SQL语句完成数据 1.3.4数据类型及DML

的增、删、改、查操作

2.1.1能理解数据可视化基本概

2.1认识

数据可视化

2.1.2能掌握数据可视化工具

1.3.5复杂查询及实际案例

2.1.1数据可视化基本概念

2.1.2数据可视化工具

2.数据可

视化分析

2.2.1能使用PowerBI进行数据 2.2.1数据获取

2.2.2数据集成

获取、集成

2.2 Power 2.2.2能使用PowerBI进行数据 2.2.3数据清洗

BI数据分析清洗、规约、变换 2.2.4数据规约

2.2.3能使用DAX语言进行数据 2.2.5数据变换

2.2.6 DAX语言数据建模

建模

3

2.3.1能使用条形、柱状、雷达

和漏斗图进行对比分析

2.3.2能使用饼状、环形、瀑布

和树状图进行结构分析

2.3 Power

2.3.3能使用散点和折线图进行

BI数据可视

相关分析

2.3.4能使用表、箱线图进行描

述性分析

2.3.5能使用仪表、KPI

Indicator、子弹图进行KPI分析

2.3.1可视化设计概念

2.3.2对比分析(条形图、

柱形图、雷达图、漏斗图)

2.3.3结构分析(饼图、环

形图、瀑布图、树状图)

2.3.4相关分析(散点图、

折线图)

2.3.5描述性分析(表、箱

线图)

2.3.6KPI分析(仪表、KPI

Indicator、子弹图)

2.4.1 Power BI数据分析报

表的基本概念、类型、原则、

结构

2.4.2数据分析的背景与目

2.4.3 Power BI报表整合

2.4 Power 2.4.1能完成PowerBI数据分析

BI数据分析报表

报表 2.4.2能完成数据报表部署

3.数据分

析实战

3.1综合

项目实战

3.1.1能用Excel、Power BI等

工具连接不同数据源

3.1.2能用Excel、Power BI等 3.1.1连接数据源

工具进行数据预处理 3.1.2数据预处理

3.1.3能用Excel、Power BI等 3.1.3数据可视化分析

工具进行业务数据分析

3.1.4能用Excel、Power BI等

工具完成最终可视化展示

3.1.4数据报表制作与部署

3.2中级

课程模块 培训内容 专业能力要求

1.1.1能掌握Python基本数据类

1.1.2能掌握Python数据结构

1.1.3能编写Python流程控制

1.1 Python

1.1.4能编写自定义函数

编程基础

1.1.5能编写面向对象的类和对

1.1.6能读写文件和编写常用操

相关知识要求

1.1.1 Python基础知识

1.1.2 Python数据结构

1.1.3程序流程控制语句

1.1.4函数

1.1.5面向对象编程

1.1.6文件基础

1.数据采

1.2.1能使用Python获取静态网 1.2.1 Python爬虫环境与爬

1.2 Python

页数据 虫

数据采集

1.2.2能使用Python获取动态网 1.2.2网页前端基础

4

页数据 1.2.3静态网页爬取

1.2.3能使用Python进行模拟登 1.2.4 HTTP请求与解析网页

录 1.2.5动态网页

1.2.4能使用Scrapy框架获取数 1.2.6逆向分析爬取动态网

据 页

1.2.7 Selenium库爬取动态

网页

1.2.8登录(表单、Cookie、

Selenium)

1.2.9 Scrapy爬虫

2.1.1读写不同数据源数据

2.1.2 DataFrame常用操作

2.1.1能使用Python识别与处理 2.1.3转换与处理时间序列

数据异常值、缺失值和重复值

数据

2.1.2能使用Python完成数据变 2.1.4使用分组聚合进行组

2.1数据

处理

换、标准化、离散化等操作 内计算

2.1.3能使用Python完成数据维 2.1.5创建透视表与交叉表

规约、数值规约、特征构造等操作 2.1.6合并数据

2.1.4能使用Python完成数据检 2.1.7清洗数据(重复值、

索、数据排序等操作 异常值、缺失值)

2.1.8标准化数据

2.1.9转换数据

2.大数据

分析与挖

2.2数据

分析

2.2.1能使用Python完成数据质 2.2.1数据质量分析、关联

量分析、关联分析、特征分析 分析、特征分析

2.2.2能使用Python进行线性回 2.2.2线性回归、岭回归等

归、岭回归 回归预测

2.2.3能使用Python进行决策 2.2.3决策树、逻辑回归、

树、逻辑回归、支持向量机、贝叶支持向量机、贝叶斯等分类预

斯等分类预测 测

2.2.4能使用Python进行K均值 2.2.4 K均值聚类、密度聚

聚类、密度聚类、期望最大化聚类类、期望最大化聚类等聚类分

等聚类分析 析

2.2.5能使用Python进行回归模 2.2.5回归模型、分类模型、

型、分类模型、聚类模型的模型评聚类模型的模型评估及参数

估及参数调优

调优

2.3.1能使用Matplotlib、 2.3.1 Matplotlib数据可视

Seaborn、pyecharts等绘图模块或化基础

工具绘制柱状图、散点图、饼图 2.3.2 Matplotlib绘图基础

2.3.2能根据业务需求调整绘图

语法与常用参数

参数

2.3.3常见图表类型实现

2.3.3能根据业务需求和数据可

(柱状图、散点图、饼图、箱

视化结果,撰写相应的数据分析报线图)

2.3数据

可视化

5

告 2.3.4 Seaborn数据可视化

进阶

2.3.5 Seaborn绘图基础

2.3.6 pyecharts交互式数

据可视化

2.3.7 pyecharts绘图逻辑

3.1.1能用Python连接不同数据

3.1.2能用Python进行数据预处

3.数据分

析实战

3.1综合

项目实战

理 3.1.1数据建模

3.1.3能用Python进行业务数据 3.1.2模型调优

建模

3.1.4能用Python完成最终可视

化展示

3.3高级

课程模块 培训内容 专业能力要求 相关知识要求

1.1软件

安装

1.平台管理

1.1.1能实现Linux系统集群搭 1.1.1 Linux系统集群搭建与

建与基础配置 基础配置

1.1.2能配置Hadoop相关组件或 1.1.2 Hadoop相关组件或框

框架 架配置

1.1.3能配置Python集成开发环 1.1.3 Python集成开发环境

境 配置

1.2.1能实现架构选型 1.2.1架构选型

1.2.2能实现架构设计与优化 1.2.2架构设计与优化

1.2.3能实现大数据平台到业务 1.2.3大数据平台到业务系

系统的端到端解决方案 统的端到端解决方案

2.1.1能根据业务需求基于 2.1.1数据预处理(数据清

Python进行数据清洗、变换、合并、洗、变换、合并、校验、特征

校验、特征分析等操作

2.1.2能根据业务需求基于

Python正则表达式处理文本

2.1.3能根据业务需求基于

分析等)

2.1.2正则表达式

2.1.3中文自然语言处理基

1.2架构

管理

2.大数据分 2.1数据

析与挖掘 处理

Python实现文本分词、去停用词、 2.1.4文本分词

词性标注与命名实体识别 2.1.5去停用词

2.1.6词性标注

2.1.4能根据业务需求基于

Python实现文本向量化、文本特征 2.1.7命名实体识别

计算、文本特征标准化 2.1.8文本向量化

2.1.5能根据业务需求基于 2.1.9文本特征计算

Python完成网络在线语料库获取 2.1.10文本特征标准化

6

2.1.11网络在线语料库获取

2.2.1能掌握线性模型、神经网

络等分类与回归算法原理,并根据

业务需求基于Python构建相应模

2.2.1线性模型、神经网络等

分类与回归算法原理与

2.2.2能掌握K均值聚类、密度

Python实现

聚类等聚类算法原理,并根据业务

2.2.2 K均值聚类、密度聚类

需求基于Python构建相应模型

等聚类算法原理与Python实

2.2.3能掌握关联规则的算法原

理,并根据业务需求基于Python

2.2.3关联规则的算法原理

构建相应模型

与Python实现

2.2.4能掌握智能推荐、时序模

2.2.4智能推荐、时序模式等

式等算法原理,并根据业务需求基

算法原理与Python实现

于Python构建相应模型

2.2.5 Python实现文本分类

2.2.5能根据业务需求基于

2.2.6 Python实现文本聚类

Python完成文本分类、聚类等文本

2.2.7基于Python的词典、

挖掘任务

主题模型的文本情感分析实现

2.2.6能根据业务需求基于

Python的词典、主题模型等方法完

成文本情感分析任务

2.2模型

构建

2.3.1能使用Python实现模型评

2.3模型 价与优化

优化与部署 2.3.2能够实现模型部署

2.3.3能够实现模型维护

3.1.1能使用Python实现语音、

图像、文本等数据的探索分析

3.1.2能使用Python实现语音、

3.1数据

处理

2.3.1模型评价

2.3.2模型优化

3.1.1语音、图像、文本等数

据的探索分析

3.深度学习

实战

3.1.2语音、图像、文本等数

图像、文本等数据的清洗

据清洗

3.1.3能使用Python实现语音、

3.1.3语音、图像、文本等数

图像、文本等数据的标准化

据标准化

3.1.4能使用Python实现语音、

3.1.4语音、图像、文本等数

图像、文本等数据的特征选择与构

据的特征选择与构造

3.2.1能熟悉卷积神经网络、循 3.2.1深度学习概念

环神经网络、长短时记忆网络等算 3.2.2常见神经网络原理与

法流程并能够根据业务需求基于

实现

3.2模型 TensorFlow实现相应模型构建 3.2.3卷积神经网络

构建 3.2.2能使用TensorFlow完成图 3.2.4循环神经网络

像处理、图像识别、语音识别、自 3.2.5长短时记忆网络

然语言处理等

3.2.6深度学习常见任务实

3.2.3能使用TensorFlow搭建长现

7

短时记忆网络模型,完成文本分

类、情感分析等

3.2.7图像处理

3.2.8图像识别、语音识别

3.2.4能使用TensorFlow搭建序 3.2.9文本分类

列到序列模型完成语音翻译、中英 3.2.10情感分析

文翻译等 3.2.11语音翻译、中英文翻

3.3模型

3.3.1能使用TensorFlow等深度

学习框架实现模型搭建

3.3.2能使用TensorFlow等深度 3.3.1模型部署

3.3.2模型维护 优化与部署学习框架实现模型评价与优化

3.3.3能实现业务系统的模型部

署与维护

4.数据分析 4.1综合

实战 项目实战

4.1.1能使用TensorFlow连结不

同数据源

4.1.2能使用TensorFlow进行数 4.1.1数据建模与模型调优

据预处理

4.1.3能使用TensorFlow进行业

务数据建模

4.1.2分析文档撰写

8

4 考核权重表

4.1理论知识权重表

级别

课程模块

基本

要求

专业道德

基础知识

数据分析基础

数据可视化分析

理论

知识

要求

数据采集

大数据分析与挖掘

平台管理

深度学习实战

数据分析实战

合计

20

100

25

100

初级(%)

5

15

30

30

-

-

-

中级(%)

5

10

-

-

30

30

-

高级(%)

5

10

-

-

-

40

20

15

10

100

4.2实操能力权重表

级别

课程模块

数据分析基础

数据可视化分析

实操

能力

要求

数据采集

大数据分析与挖掘

平台管理

深度学习实战

数据分析实战

合计

初级(%)

30

30

-

-

-

-

40

100

中级(%)

-

-

25

30

-

-

45

100

高级(%)

-

-

-

35

15

25

25

100

9

附录

1术语和定义

国家、行业标准界定的以及下列术语和定义适用于本文件。

(1)

数据 data

信息的可再解释的形式化表示,以适用于通信、解释或处理。

[GB/T5271.1-2000,定义 01.01.02]

(2)

大数据 big data

具有体量巨大、来源多样、生成极快、且多变等特征并且难以用传统数据

体系结构有效处理的包含大量数据集的数据。

[GB/T 35295-2017,定义 2.1.1]

(3)

关系数据库 relational database

数据按关系模型来组织的数据库。

(4)

[GB/T5271.17-2010,定义 17.04.05]

机器学习 machine learning

功能单位通过获取新知识或技能,或通过整理已有的知识或技能来改进其

性能的过程。

[GB/T5271.31-2006,定义 31.01.02]

(5)

数据处理 data processing

数据操作的系统执行。

(6)

[GB/T5271.1-2000,定义 01.01.06]

数据管理 data management

在数据处理系统中,提供对数据的访问、执行或监视数据的存储,以及控

制输入输出操作等功能。

[GB/T5271.1-2000,定义 01.08.02]

(7)

分析 analytics

根据信息合成知识的过程。

[GB/T 35295-2017,定义 2.1.48]

(8)

数据挖掘 data mining

从大量的数据中通过算法搜索隐藏于其中信息的过程。

10

[GB/T 33745-2017,定义 2.5.3]

(9) 可视化(用于计算机图形) visualization (in computer graphics)

为帮助人们理解,采用计算机图形和图像处理技术来表现各个过程或对象

的模型或特性的做法。

[GB/T 5271.13-2008,定义 13.01.07]

(10)操作系统 operating system

控制程序执行的软件,它能提供诸如资源分配、目录调度、输入输出控制

及数据管理的服务。

[GB/T5271.1-2000,定义 01.04.08]

(11)算法 algorithm

为解决问题严格定义的有限的有序规则集。

[GB/T5271.1-2000,定义 01.05.05]

(12)深度学习 deep learning

深度学习是机器学习的分支,是一种以人工神经网络为架构,对数据进行

表征学习的算法。

(13)自然语言 natural language

一种其规则是基于当前的用法且无需特别规定的语言。

[GB/T5271.1-2000,定义 01.05.08]

2参考文献

[1] GB/T 35589-2017《信息技术大数据技术参考模型》相关知识

[2] GB/T 35295-2017《信息技术大数据术语》相关知识

[3] GB/T 38673-2020《信息技术大数据大数据系统基本要求》相关知识

[4] GB/T 37721-2019《信息技术大数据分析系统功能要求》相关知识

[5] GB/T 37722-2019《信息技术大数据存储与处理系统功能要求》相关

知识

[6] GB/T 36073-2018《数据管理能力成熟度评估模型》相关知识

11


本文标签: 数据 模型 使用 分析 进行