机器学习笔记 自用

摘要

关于机器学习中一些基本术语的定义整理

基本术语

  • 数据集中的每条记录是关于一个数件或对象的描述,称为一个示例或样本
  • 反应事件或对象在某方面的表现或性质的事项,称为属性或特征
  • 属性上的取值称为属性空间、样本空间或输入空间 (χ\chi)
  • 属性空间中每个点对应一个坐标向量,因此把每一个示例称为特征向量
  • 一般得,令D={x1,x2,...,xm}D=\{x_1,x_2,...,x_m\},表示包含m个示例的数据集,每个示例xi=(xi1;xi2;...;xid)x_i=(x_{i1};x_{i2};...;x_{id})是d维样本空间χ\chi中的一个向量,xiχx_i\in\chixijx_{ij}xix_i在第j个属性上的取值,d为样本xix_i的维数
  • 从数据中学得模型的过程称为学习训练,训练过程使用的数据称为训练数据,其中的每个样本称为一个训练样本,其组成的集合被称为训练集,学习模型对应了某种潜在的规律,因此也被称为假设,这种潜在的规律自身被称为真实真相,模型也被称为学习器,可看作学习算法在给定数据和参数空间上的实例化
  • 拥有了标记信息的示例,则被称为样例,一般的用(xi,ui)(x_i,u_i)表示第i个示例,yiyy_i\in y,y是所有标记的集合,也被称为标记空间输出空间
  • 聚类学习中一般是没有标记信息的,也就是无监督学习
  • 分类和回归是监督学习的代表,分别是针对离散值和连续值
  • 聚类和分类的区别是训练样本有无标记信息

假设空间

  • 归纳是指有特殊到一般,演绎是指由一般到特殊
  • 关于P5中的为什么假设空间是65如下:

我们可以把学习过程看作一个假设(hypothesis)所组成的空间中进行搜索的过程,搜索目标是找到于训练集“匹配”(fit)的假设,假设一旦表示确定,假设空间以及其规模大小就可以确定了。
Fx: 西瓜有色泽 “青绿”,“乌黑”,“浅白”。三种颜色。相同的,根蒂和敲声我们都定义为三种。 西瓜也只有这三个属性。 求假设空间多大?
正如上所述,样本的属性范围确定,整体假设空间大小已经确定。
所以假设空间H=333=27?
NONONO,因为还有一种颜色选择就是“什么颜色都是好瓜”!
所以假设空间H=444=64?
NONONO,因为还有一种可能,是”世界上根本没好瓜!“
所以假设空间H=64+1=65
————————————————
版权声明:本文为CSDN博主「macro_xjq」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/macro_xjq/article/details/78847379