课程安排

电子信息工程

授课情况

课堂考核

  • 课堂情况:5%
  • 课后练习:45%
  • 期末考试(半开卷) 不超过 50%

手抄 A4 纸一张带入考场,带科学计算器,考试走个形式,最后的报告需要双面打印一份纸质的,考试的时候带过来交。肯定要靠手算 BP 算法

项目大作业内容和形式已经明确给出,要看是否匹配模版,内容不能互相抄袭。

内容:

  • 一章一道题目,简答或者计算,计算基本上就是课上课下的作业
  • 不难为大家,卷面很容易90+
  • 不要求极其掌握概念

作业

可以手写,也可以调包。考试很简单(跟往年很像),但是作业会比较难,包括课堂作业都是评价依据

定义

机器学习」(Machine Learning)是研究机器如何模拟或实现人类学习功能,获取新知识或新技能,从而改进现有系统性能的学科。机器学习是「人工智能」(Artificial Intelligence)的核心研究之一,也是 AI 系统的关键和瓶颈。

在机器学习中,「经验」通常以「数据」形式存在;因此,机器学习所研究的主要内容是如何利用计算机从数据中产生模型的算法,即学习算法

当把经验数据提供给学习算法时,它能够给予这些数据产生模型。面对新的情况时,模型会给我们提供相应的预判。

形式化来定义,假设用 来评估计算机程序在某类任务 上的性能,若一个程序通过利用经验 ,在任务 上获得了性能改善,则我们说关于 ,该程序对 进行了学习

例如机器学习下围棋的过程,则有

  • 任务 :下围棋
  • 性能目标 :在比赛中击败对手
  • 训练经验 :从棋谱中学习,和他人对弈,和自己进行对弈

王钰对机器学习的定义是,令 是给定世界的有限或无限所有观测对象的集合,由于我们的观测能力有限,我们只能获得 的一个子集 ,称为「样本集」。机器学习就是根据这个样本集 ,推算这个世界 的模型,使它对这个世界尽可能为真。

三个重要的理论问题

一致性假设

一致性假设是机器学习的条件。即: 具有相同的性质。假设世界 与样本集 具有某种相同的性质。原则上说,存在各种各样的一致性假设。在统计意义下,一般假设, 具有独立同分布

样本空间划分

决定模型对样本合集 的有效性。设样本定义在一个 维空间,要寻找在这个空间上的决策分界面,即寻找一个超平面,使得问题决定的不同对象被划分在不相交的区域。

泛化能力

学习的目的是学到隐含在数据背后的规律,即对未知样本的泛化能力,决定模型对世界 的预测能力。通过机器学习,从给定有限样本集合 计算一个模型。对具有同一规律的学习集以外的属于 的其他数据,该模型仍具有正确的判断能力,称为泛化能力。

人类学习的一般过程

在夏天的时候,小明特别喜欢吃西瓜,他每天都要买个西瓜。

  • 第一天买了个根蒂硬挺、敲起来声音清脆、色泽青绿的西瓜,结果回家剖开西瓜一看,发现该西瓜是个坏瓜。
  • 第二天的时候,小明买了个根蒂蜷缩,敲起来声音浊响、色泽乌黑的西瓜,回家剖开西瓜发现该西瓜是个好瓜。
  • 第三天,小明买了个根蒂蜷缩、敲起来声音沉闷、色泽乌黑

两周后,小明再去买西瓜时,他便能根据西瓜的根蒂、敲声、色泽来判断西瓜的好坏了。

对于机器学习而言,学习则是从大量样本出发,运用统计方法,发现统计规律。

机器学习的常见问题

  • 存在什么样的算法能从特定的训练数据学习一般的目标函数呢?如果提供了足够的训练数据,什么样的条件下,会使特定的算法熟练到期望的函数?哪个算法对哪些问题和表示的性能最好?
  • 多少训练数据是充足的?怎样找到学习到假设的置信度与训练数据的数量及提供给学习器的假设空间特性之间的一般关系?
  • 学习器拥有的先验知识是怎样引导从样例进行泛化的过程?当先验知识仅仅是近似正确时,它们会有帮助吗?
  • 关于选择有效的后验训练经验,什么样的策略最好?这个策略的选择会如何影响学习问题的复杂性。
  • 怎样把学习任务简化为一个或多个函数逼近问题?换一种方式,系统该试图学习哪些函数?这个过程本身能自动完成吗?
  • 学习器怎样自动地改变表示法来提高表示和学习目标函数的能力?

机器学习的重要性

每个科学领域的科学过程都有它自己的特点,但是,观察、创立假设、根据决定性实验或观察的检验、可理解检验的模型或理论,是各个学科所共有的。

对这个抽象的科学过程的每一个环节,机器学习都有相应的发展,我们相信它将导致科学方法中从假设生成、模型构造到决定性实验这些所有环节的合适的、部分的自动化/当机器学习研究在一些基本论题上取得令人印象深刻的进展,我们预期机器学习研究在今后若干年中将有稳定的发展。

机器学习是一个多学科交叉的产物,它吸取了人工智能、概率统计、神经生物学、认知科学、信息论、控制论、计算复杂性理论、哲学等学科的成果

机器学习在很多应用领域发挥了重要的实用价值,特别是在数据挖掘、语音识别、图像处理、机器人、车辆自动驾驶、生物信息需、信息安全、遥感信息处理、计算金融学、工业过程控制

机器学习与人工智能

人工智能主要是为了研究人的职能,模仿其机理将其应用于工程的科学。在这个过程中必然会问到,人类怎样做才能获取某种特殊技能或知识?

机器学习为当前人工智能研究的主要障碍和发展方向之一。机器学习主要研究如何使计算机具备自动获取知识的能力,从而克服人类存储少,效率低、注意力分散、难以传送所获取的知识等局限性。

在过去二十年中,计算机存储、传输、处理数据的能力取得了飞速发展,急需能有效地对数据进行分析利用的计算机算法,而机器学习作为智能数据分析算法的源泉,顺应了大时代这个迫切需求。

人类智能活动的能力是人类在认识世界和改造世界的活动中,由脑力劳动表现出来的能力

  • 人适合理解世界环境的能力
  • 提出概念、建立方法、进行演绎和归纳推理、做出决策的能力
  • 学习取得经验、积累知识的能力
  • 自我适应的能力
  • 联想、推理、判断决策的能力

机器学习是一种实现人工智能的方法

深度学习是一种实现机器学习的技术

三、常见术语

假定收集了一批关于西瓜的数据,例如

  • 色泽=青绿;根蒂=蜷缩;敲声=浊响
  • 色泽=乌黑;根蒂=蜷缩;敲声=沉闷
  • 色泽=浅白;根蒂=硬挺;敲声=清响

这组记录的集合为一个「数据集」,其中的每条记录是一个「示例」或「样本」。反映事件或对象在某方面的表现或性质的事项,例如“色泽”“根蒂”敲声“,称为「属性」,属性上的取值为「属性值」。属性张成的空间称为「属性空间」、「样本空间」或「输入空间」。如我们把色泽,根蒂和敲声作为三个坐标轴,则它们长成了用于描述西瓜的三维空间,每个西瓜都可以在这个空间中找到自己的坐标位置。由于空间中的每个点对应一个坐标向量,因此我们也把一个示例称为一个「特征向量」。

从数据中学得模型的过程称为「学习」或「训练」,训练过程中使用数据为「训练数据」,所组成的集合称为「训练集」。

学习过程通过执行某个算法来完成。要学得一个能判断没剖开的西瓜是不是好瓜的模型,还需获得训练的结果。

关于样本结果的信息称为「标记」。拥有标记信息的样本称为「样例」。一般地,用 表示第 个样例,其中 是样本 的标记, 是所有标记的集合,亦称为「标记空间」或「输出空间」

  • 数据分类任务:欲预测为离散值
  • 回归任务:欲预测为连续值
  • 设计两个类别的二分类任务,通常称其中一个类为「正类」,另一个称为「反类」,涉及多个类别时,则称为「多分类任务」。

表示一个训练集

一般地,预测任务是通过对训练集进行学习,即那里从输入空间 到输出空间 的映射 。对于二分类任务,通常令 ;对于多分类任务,;对于回归任务,。其中 为实数集。

学得模型后,使用学得的模型进行预测的过程称为「测试」,被预测的样本的称为「测试样本」。例如在学得 后,对测试例 ,可得其预测标记

将训练集分成若干组的过程称为「聚类」,每组称为一个「簇」(Cluster)。这些自动形成的簇可能对应一些潜在的概念划分,例如深色瓜,浅色瓜,甚至本地瓜,外地瓜等。另外,在聚类学习中,浅色瓜,本地瓜这些概念我们是现实不知道的,而且学习过程中使用的训练样本通常不拥有标记信息

  • 监督学习:训练数据有标记信息,如分类,回归
  • 无监督学习:训练数据无标记信息,如聚类。
  • 泛化能力:学得模型适用于新样本的能力

发展历史

  • 1995 年,瓦普尼克和科尔斯特在大量理论和实证的条件下,提出
  • 2006 年,Hinton 提出神经网络 deep earning 算法,在 Nature 上发表了一篇文章,开启了深度学习在学术界和工业界的浪潮