admin 管理员组

文章数量: 887021


2023年12月16日发(作者:判断手机号码的正则表达式)

第22卷第5期重庆科技学院学报(自然科学版)2020年10月常用的三种分类算法及其比较分析肖铮(四川工商职业技术学院,成都611830)摘要:做好数据分析处理工作,必需掌握几种分类算法。介绍了决策树算法、朴素贝叶斯算法和最近

邻算法的基本思想和分类流程,给出了应用实例,比较分析了它们各自具有的优势和存在的局限。

采用数据挖掘技术进行大数据分析要选择最合适的算法,才能获得更有效的结果(关键词:数据挖掘%决策树算法;朴素贝叶斯算法%最近邻算法中图分类号:TP301

文献标识码:A

文章编号:1673

-1980

(2020

)05

-0101

-061.〔基本思想和分类过程决策树算法在决策分类时整个过程都非常清

数据挖掘就是通过算法从海量数据中搜索获取

有用知识和信息的过程。数据挖掘的任务主要表现

为预测和描述:预测性任务就是根据其他属性的值

晰。在判断类别时,首先通过计算选择一个属性,把

来预测特定属性的值;描述性任务就是概括数据中

它放在决策树的顶端,称它为根节点;接下来从这个

潜在的联系模式(如相关性、趋势、聚类、轨迹和异

点分出若干个分支,任何一个分支都代表一个不同

的分类特征,每个分支的另一端都连接一个新的点,

称为决策点。在这些决策点上可以重复上述步骤,

常等)。分类属于预测任务。分类算法的目的就是

构造一个分类函数或者分类模型,然后由这个模型

把数据库中的数据映射到某一个给定的类别中⑷(

决策

最终到达某个点而不能继续往下分时停止。于是,

法、

素 法

邻 法可以根据最终点的个数和属性来判断样本的类别。这里以ID3算法为例。它是先计算信息爛,然

后计算信息增益,最后根据增益的大小进行分类。的分类算法。下面,我们将结合实例对这3种算法

进行比较分析。1决策树算法决策树算法是数据挖掘中常见且实用的分类方

如果以I(D.)表示V的信息量,以P(D.)表示V

的发生概率,则/(V)

=

)

log2

F(V)(1

)法,经常被用于规则提取和分类预测等领域。J.

R.

Quinlan于1979年提出并在之后逐渐修正完善的

ID3算法[2],是经典的决策树算法。后来有学者在

若出现*个事件,彼此间没有关联,并且不会同

时满足某一要求,则可推导出公式:*ID3的基础之上推出了效率更高、适用范围更广的

C4.5算法,它既适用于分类问题,又适用于回归问

IV

,V

,V,…,V”)

=

%

I(V)==1题。近几年,有南京大学周志华教授提出的“选择

性集成”[3]概念被学术界所接受,并有基于遗传算

法的选择性集成算法GASEN

-

b用于集成C4.

5决

策树⑷(收稿日期:2020

-

06

-

06%P(V)10g2

P

i

"

"(V)”1(2

)决策树决策时,假设s为样本集合,|s|为样本

数,

且 成

类,将这

类的大基金项目:四川省高等教育人才培养质量和教学改革项目“基于人工智能的个性化教育人才培养模式的构建和研究”(JG2018

-1168)

%教育部科技发展中心产学研创新基金项目“基于大数据和人工智能的个性化教育关键技术研究”(2018A03007)

%中国轻工业联合会教育工作分会2019年课题“基于人工智能技术的技能创新平台研究与实践”

(QGJY2019020)

%四川工商职业技术学院教育教学类课题“’智能+

'时代教育人才培养模式的构建和研究”

!2019JY04)作者简介:肖铮(1983

& ),男,硕士,副教授,研究方向为人工智能、大数据、软件工程(-101

-


本文标签: 分类 算法 决策树 教育 研究