大数据时代,你应该知道的7种常用的数据挖掘方法

数据挖掘又称数据库中的知识发现,是目前人工智能和数据库领域研究的热点问题。

所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。

通俗地讲,数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的但又是潜在有用的信息和知识的过程。

利用数据挖掘进行数据分析常用的方法主要有分类、回归分析、聚类、关联规则、特征、变化和偏差分析、Web页挖掘等,它们分别从不同的角度对数据进行挖掘。

今天,小编带领大家一起认识这些基本的数据挖掘方法。

1.分类

分类是找出数据库中一组数据对象的共同特点并按照分类模式将其划分为不同的类,其目的是通过分类模型,将数据库中的数据项映射到某个给定的类别,用于预测数据对象的离散类别。

主要分类方法有决策树、KNN法(K-Nearest Neighbor)、SVM法、VSM法、Bayes法、神经网络等。

2.回归分析

回归分析,一个统计预测模型,用以描述和评估应变量与一个或多个自变量之间的关系;反映的是数据库中属性值在时间上的特征,产生一个将数据项映射到一个实值预测变量的函数,发现变量或属性间的依赖关系。 其主要研究问题包括数据序列的趋势特征、数据序列的预测以及数据间的相关关系等。

主要表现:

  • (1) 判别自变量是否能解释因变量的显著变化—-关系是否存在。
  • (2) 判别自变量能够在多大程度上解释因变量—-关系的强度。
  • (3) 判别关系的结构或形式—-反映因变量和自变量之间相关的数学表达式。
  • (4) 预测自变量的值。
  • (5) 当评价一个特殊变量或一组变量对因变量的贡献时,对其自变量进行控制。

3.聚类

聚类,顾名思义就是按照相似性和差异性,把一组对象划分成若干类,并且每个类里面对象之间的相似度较高,不同类里面对象之间相似度较低或差异明显。

与分类不同的是聚类不依靠给定的类别对对象进行划分。

4.关联规则

关联规则是描述数据库中数据项之间所存在的关系的规则,可以从一件事情的发生,来推测另外一件事情的发生,即隐藏在数据间的关联或相互关系,从而更好地了解和掌握事物的发展规律等等。

关联规则数据挖掘中最经典的案例就是沃尔玛的啤酒和尿布的故事。在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,而他们中有30%~40%的人同时也为自己买一些啤酒,于是沃尔玛将啤酒与尿布一起销售,提高了啤酒的销售额。

 5.特征

特征分析是从数据库中的一组数据中提取出关于这些数据的特征式,这些特征式表达了该数据集的总体特征。

特征选择的目的在于从海量数据中提取出有用信息,从而提高数据的使用效率。

 6.变化和偏差分析

偏差是数据集中的小比例对象。通常,偏差对象被称为离群点、例外、野点等。

偏差分析是一个有趣的数据挖掘任务,其目的是发现与大部分其他对象不同的对象

如分类中的反常实例,模式的例外,观察结果对期望的偏差等。

在管理及事件预警中,管理者更感兴趣的是那些意外规则。

意外规则的挖掘可以应用到各种异常信息的发现、分析、识别、评价和预警等方面。

而其成因有数据源于不同的类、自然变异、数据测量或收集误差等。

7.Web页挖掘

通过对Web的挖掘,可以利用Web 的海量数据进行分析,收集政治、经济、政策、科技、金融、各种市场、竞争对手、供求信息、客户等有关的信息,集中精力分析和处理那些对事件或疾病有重大或潜在重大影响的外部环境信息和内部经营信息,并根据分析结果找出事件发生或疾病发病过程中出现的各种问题和可能引起的先兆,对这些信息进行分析和处理,以便识别、分析、评价和管理危机。

Web数据挖掘的研究对象是以半结构化和无结构文档为中心的Web,这些数据没有统一的模式,数据的内容和表示互相交织,数据内容基本上没有语义信息进行描述,仅仅依靠HTML语法对数据进行结构上的描述。

应用:

  • (1)网络流量分配情况、随时间变化情况分析。
  • (2)网站广告点击率、投资收益比分析。
  • (3)用户从哪里进入网站、跳出网站,进入感兴趣的页的方式等出入口分析。
  • (4)用户来源分析。
  • (5)访问站点的用户的浏览器和平台分析。
  • (6)发现经常被用户一起访问的页面集合,作为优化站点的参照。
  • (7)聚类行为模式相似的用户,形成智能推荐模式;聚类同一群用户访问的页面,帮助发现站点设计的不合理之处。
  • (8)预测用户可能访问的页面,行为趋势分析和用户分类等。

数据挖掘是一种决策支持过程,它通过高度自动化地分析数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整策略,减少风险,做出正确的决策。

数据挖掘又称数据库中的知识发现,是目前人工智能和数据库领域研究的热点问题。

所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。

通俗地讲,数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的但又是潜在有用的信息和知识的过程。

利用数据挖掘进行数据分析常用的方法主要有分类、回归分析、聚类、关联规则、特征、变化和偏差分析、Web页挖掘等,它们分别从不同的角度对数据进行挖掘。

今天,小编带领大家一起认识这些基本的数据挖掘方法。

1.分类

分类是找出数据库中一组数据对象的共同特点并按照分类模式将其划分为不同的类,其目的是通过分类模型,将数据库中的数据项映射到某个给定的类别,用于预测数据对象的离散类别。

主要分类方法有决策树、KNN法(K-Nearest Neighbor)、SVM法、VSM法、Bayes法、神经网络等。

2.回归分析

回归分析,一个统计预测模型,用以描述和评估应变量与一个或多个自变量之间的关系;反映的是数据库中属性值在时间上的特征,产生一个将数据项映射到一个实值预测变量的函数,发现变量或属性间的依赖关系。 其主要研究问题包括数据序列的趋势特征、数据序列的预测以及数据间的相关关系等。

主要表现:

  • (1) 判别自变量是否能解释因变量的显著变化—-关系是否存在。
  • (2) 判别自变量能够在多大程度上解释因变量—-关系的强度。
  • (3) 判别关系的结构或形式—-反映因变量和自变量之间相关的数学表达式。
  • (4) 预测自变量的值。
  • (5) 当评价一个特殊变量或一组变量对因变量的贡献时,对其自变量进行控制。
大数据时代,你应该知道的7种常用的数据挖掘方法

3.聚类

聚类,顾名思义就是按照相似性和差异性,把一组对象划分成若干类,并且每个类里面对象之间的相似度较高,不同类里面对象之间相似度较低或差异明显。

与分类不同的是聚类不依靠给定的类别对对象进行划分。

4.关联规则

关联规则是描述数据库中数据项之间所存在的关系的规则,可以从一件事情的发生,来推测另外一件事情的发生,即隐藏在数据间的关联或相互关系,从而更好地了解和掌握事物的发展规律等等。

关联规则数据挖掘中最经典的案例就是沃尔玛的啤酒和尿布的故事。在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,而他们中有30%~40%的人同时也为自己买一些啤酒,于是沃尔玛将啤酒与尿布一起销售,提高了啤酒的销售额。

 5.特征

特征分析是从数据库中的一组数据中提取出关于这些数据的特征式,这些特征式表达了该数据集的总体特征。

特征选择的目的在于从海量数据中提取出有用信息,从而提高数据的使用效率。

 6.变化和偏差分析

偏差是数据集中的小比例对象。通常,偏差对象被称为离群点、例外、野点等。

偏差分析是一个有趣的数据挖掘任务,其目的是发现与大部分其他对象不同的对象。

如分类中的反常实例,模式的例外,观察结果对期望的偏差等。

在管理及事件预警中,管理者更感兴趣的是那些意外规则。

意外规则的挖掘可以应用到各种异常信息的发现、分析、识别、评价和预警等方面。

而其成因有数据源于不同的类、自然变异、数据测量或收集误差等。

7.Web页挖掘

通过对Web的挖掘,可以利用Web 的海量数据进行分析,收集政治、经济、政策、科技、金融、各种市场、竞争对手、供求信息、客户等有关的信息,集中精力分析和处理那些对事件或疾病有重大或潜在重大影响的外部环境信息和内部经营信息,并根据分析结果找出事件发生或疾病发病过程中出现的各种问题和可能引起的先兆,对这些信息进行分析和处理,以便识别、分析、评价和管理危机。

Web数据挖掘的研究对象是以半结构化和无结构文档为中心的Web,这些数据没有统一的模式,数据的内容和表示互相交织,数据内容基本上没有语义信息进行描述,仅仅依靠HTML语法对数据进行结构上的描述。

应用:

  • (1)网络流量分配情况、随时间变化情况分析。
  • (2)网站广告点击率、投资收益比分析。
  • (3)用户从哪里进入网站、跳出网站,进入感兴趣的页的方式等出入口分析。
  • (4)用户来源分析。
  • (5)访问站点的用户的浏览器和平台分析。
  • (6)发现经常被用户一起访问的页面集合,作为优化站点的参照。
  • (7)聚类行为模式相似的用户,形成智能推荐模式;聚类同一群用户访问的页面,帮助发现站点设计的不合理之处。
  • (8)预测用户可能访问的页面,行为趋势分析和用户分类等。

数据挖掘是一种决策支持过程,它通过高度自动化地分析数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整策略,减少风险,做出正确的决策。

0 条回复 A 作者 M 管理员
    所有的伟大,都源于一个勇敢的开始!
欢迎您,新朋友,感谢参与互动!欢迎您 {{author}},您在本站有{{commentsCount}}条评论