数据挖掘与机器学习

本文概述

什么是数据挖掘？
什么是机器学习？
数据挖掘与机器学习之间的主要区别
数据挖掘与机器学习

数据挖掘涉及从大量数据中提取信息。数据挖掘是一种发现数据集中继承的不同类型的模式的技术, 这些模式是精确, 新的和有用的数据。数据挖掘是业务分析的子集, 类似于实验研究。数据挖掘的起源是数据库, 统计信息。

机器学习包括一种算法, 该算法可通过基于数据的体验自动提高。机器学习是一种从经验中寻找新算法的方法。机器学习包括对可以自动提取数据的算法的研究。机器学习利用数据挖掘技术和另一种学习算法来构建某些信息背后正在发生的事情的模型, 以便可以预测未来的结果。

数据挖掘和机器学习是相互影响的领域, 尽管它们有许多共同之处, 但它们具有不同的目的。

数据挖掘是由人类对某些数据集执行的, 以在数据集的各项之间找到有趣的模式。数据挖掘使用由机器学习创建的技术来预测结果, 而机器学习是计算机从有意识的数据集中学习的能力。

机器学习算法获取代表数据集中项目之间关系的信息, 并创建模型以预测未来的结果。这些模型无非是机器将要采取的行动来获得结果。

什么是数据挖掘？

数据挖掘是从大量数据中提取数据或以前未知的数据模式的方法。因此, 顾名思义, 我们从大型数据集中“挖掘特定数据”。数据挖掘也称为知识发现过程, 它是用于确定数据集属性的科学领域。 Gregory Piatetsky-Shapiro于1989年创立了术语“数据库中的知识发现”（KDD）。术语“数据挖掘”于1990年出现在数据库社区中。从数据仓库或复杂的数据集（例如时间序列, 空间数据集）收集的大量数据提取等, 以便提取数据项之间有趣的相关性和模式。对于机器学习算法, 数据挖掘算法的输出通常用作输入。

什么是机器学习？

机器学习与机器的开发和设计有关, 该机器可以从一组指定的数据中学习自身, 从而获得期望的结果, 而无需对其进行显式编码。因此, 机器学习意味着“一台自行学习的机器。 1959年, 亚瑟·塞缪尔（Arthur Samuel）发明了“机器学习”一词, 这是美国计算机游戏和人工智能领域的先驱。他说：“它使计算机无需经过明确编程即可学习。”

机器学习是一种为大数据处理创建复杂算法并为其用户提供结果的技术。它利用可以通过经验学习和做出预测的复杂程序。

通过频繁输入训练数据, 可以自己增强算法。机器学习的目的是了解信息并根据人类可以理解和使用的数据构建模型。

机器学习算法分为两种：

无监督学习
监督学习

1.无监督机器学习：

无监督学习并不依赖于经过训练的数据集来预测结果, 而是利用诸如聚类和关联之类的直接技术来预测结果。训练后的数据集定义为已知其输出的输入。

2.有监督的机器学习：

顾名思义, 监督学习是指监督者作为老师的存在。监督学习是一种学习过程, 在该过程中, 我们使用水平良好的数据来教学或训练机器, 这意味着某些数据已经用正确的响应进行了标记。之后, 机器将获得新的数据集, 以便监督学习算法分析训练数据并从标记的数据中给出准确的结果。