课程章节

电子信息工程

数据挖掘是在大量的数据中挖掘感兴趣的信息的过程,可以认为是数据库技术与机器学习的交叉,它利用数据库技术来管理海量的数据,并利用机器学习和统计分析来进行数据分析

授课情况

  • 考勤 10%
  • 实验 30%
  • 考试 60%

绪论

为什么需要数据挖掘

  • 数据存储量急剧上升
  • 存储技术的发展

我们虽然拥有丰富的数据,但却缺乏有用的信息。

在大量的数据中挖掘感兴趣的信息的过程称为「数据挖掘」。因为隐藏在数据之后更深层次、更重要的信息能够描述数据的整体特征,可以预测发展趋势,在决策中具有重要价值。

什么是数据挖掘

从大量的数据中挖掘哪些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识称为「数据挖掘」。其定义暗含了以下意义

  • 数据源必须是真实的、大量的
  • 发现的是用户感兴趣的知识
  • 发现的知识要可接受、可理解、可运用
  • 这些知识是相对的,是有特定前提和约束条件的,在特定领域中具有实际应用价值

数据挖掘与传统数据分析方法的区别

传统的数据分析方法

  • 查询:查询处符合条件的记录
  • 联机分析处理系统:专注于数据的汇总
  • 机器学习系统:基于数据学习,识别复杂模式(分类、聚类)。这些系统所处理的数据容量往往很有限

本质区别

数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。

数据挖掘所得到的信息应具有先前未知,有效和可使用

在什么数据上进行挖掘

数据挖掘的任务