欢迎光临
我们一直在努力

南开19秋《数据科学》课程期末复习资料

可做奥鹏国开全部院校作业论文!答案请添加qq:599792888 或 微信:1095258436

《数据科学》课程期末复习资料

 

《数据科学》课程讲稿章节目录:

第一章  导论

第一节 了解数据科学的基本概念

第二节 了解数据科学的应用

第三节 了解数据科学的过程

第四节 掌握数据科学的方法

第二章  数据获取及预处理

第一节 了解获取数据的途径和方法

第二节 掌握数据质量检验的方法

第三节 掌握数据清洗

第四节 掌握数据集成

第五节 掌握数据规约

第六节 掌握数据变换

第三章  数据分析

第一节 了解探索性数据分析的概念

第二节 掌握单变量分析方法

第三节 掌握多变量分析方法

第四节 掌握样本相似性与相异性分析的方法

第四章  特征工程

第一节 了解特征的介绍和创建过程

第二节 了解降维的基本概念

第三节 掌握主成分分析-PCA

第四节 掌握奇异值分解-SVD

第五节 了解特征选择的基本概念

第六节 掌握过滤式方法

第七节 了解产生特征子集的搜索策略

第八节 了解封装式方法

第九节 了解嵌入式方法

第五章 关联规则算法

第一节 了解关联规则的基本概念

第二节 掌握频繁项集的产生过程

第三节 掌握Apriori算法

第六章  分类算法

第一节 了解分类问题基本概念

第二节 掌握k近邻算法

第三节了解贝叶斯定理

第四节 掌握朴素贝叶斯

第五节 了解决策树的基本概念

第六节 了解决策树-特征选择

第七节 了解决策树-剪枝算法

第七章  线性回归算法

第一节 了解线性回归的基本概念

第二节 掌握一元线性回归

第三节 掌握多元线性回归

第八章 人工神经网络

第一节 了解神经网络的基本概念

第二节 掌握感知机的学习算法

第三节 掌握多层感知机-反向传播算法

第九章  聚类算法

第一节 了解聚类问题的介绍

第二节 掌握层次聚类

第三节 掌握K-means聚类

第四节 了解BFR聚类

 

 

 

 

 

 

一、客观部分:(单项选择、判断)

(一)、选择部分

1、通过构造新的指标-线损率,当超出线损率的正常范围, 则可以判断这条线路的用户可能存在窃漏电等异常行为属于数据变换中的(C)

A.简单函数变换

B.规范化

C.属性构造

D.连续属性离散化

★考核知识点: 数据变换

参见讲稿章节:2-6

附1.1.1(考核知识点解释):

数据变换是对数据进行规范化处理,将数据转换成“适当的”形式,更适用于任务及算法需要。包括简单函数变换、规范化、属性构造、连续属性离散化等。

简单函数变换:对原始数据进行某些数学函数变换,常用来将不具有正态分布的数据变换成具有正态分布的数据。比如个人年收入的取值范围为10000元到10亿元,区间太大使用对数变换对其进行压缩是常用的一种变换处理方法。

规范化:不同评价指标具有不同的量纲,数值间的差别可能很大。为了消除量纲和差异的影响,需要进行标准化处理。将数据按照比例进行缩放,落入特定区域,便于进行综合分析。例如将工资收入属性值映射到[-1,1]或者[0,1]内

属性构造:利用已有的属性集构造新的属性,加入到现有的属性集合,提高结果精度,挖掘更深层次模式。

连续属性离散化:在数据的取值范围内设定若干个离散的划分点,将取值范围划分为一些离散化的区间,最后用不同的符号或整数值代表落在每个子区间中的数据值。

 

2、 实体识别属于以下哪个过程(B)

A.数据清洗

B.数据集成

C.数据规约

D.数据变换

★考核知识点: 数据集成

参见讲稿章节:2-4

附1.1.2(考核知识点解释):

数据集成是将多个数据源合并,存放在一个一致的数据存储(如数据仓库)中。数据集成是数据预处理的一部分。数据预处理通常包括数据清洗、数据集成、数据规约和数据变换。其中:

数据清洗一般包括缺失值处理和异常值处理。

数据集成一般包括实体识别和冗余属性识别。

数据规约一般包括属性规约和数值规约。

数据变换一般包括简单函数变换、规范化、属性构造等。

 

3、数据质量检验的主要任务就是检查原始数据中是否存在“脏数据”,概括性来说,脏数据不包括以下(A)

A.普通值

B.异常值

C.不一致的值

D.重复值

★考核知识点: 数据质量检验

参见讲稿章节:2-2

附1.1.3(考核知识点解释):

对于数据分析而言,只有一份高质量的基础数据,才可能得到正确、有用的结论。期望数据完美是不现实的,因为会受到人的错误、测量设备的限制、数据收集过程的漏洞等因素影响。

比如以下情况都可能导致问题:数据的值、整个数据对象都可能会丢失,可能有不真实的或重复的对象,可能有不一致的对象。数据质量检验的主要任务就是检查原始数据中是否存在以上的“脏数据”。

概括性来说,脏数据主要包括四点:缺失值、异常值、不一致的值、重复值。

 

 

4、决策树在什么情况下结点需要划分(D)

A.当前结点所包含的样本全属于同一类别

B.当前属性集为空,或是所有样本在所有属性上取值相同

C.当前结点包含的样本集为空

D.还有子集不能被基本正确分类

★考核知识点: 决策树

参见讲稿章节:6-5

附1.1.4(考核知识点解释):

决策树学习算法流程

1. 构建根结点node,将所有的训练数据都放在根结点。

2. 选择一个最优特征,按照这一特征将训练数据集分割成子集,使得各个子集有一个在当前条件下的最好分类。

3. 如果这些子集已经能够被基本正确分类,那么构建叶结点,并将这些子集分到所对应的叶结点中。

(1)当前结点所包含的样本全属于同一类别a_i  ,无需划分;结点类别标记为a_i

(2)当前属性集为空,或是所有样本在所有属性上取值相同,无法划分;将当前结点

标记为叶结点,将其类别设定为该结点所含样本最多的类别

(3)当前结点包含的样本集为空,不能划分;将当前结点标记为叶结点,类别设定为

其父节点所含样本最多的类别

(4)如果还有子集不能被基本正确分类,那么就对这些子集选择新的最优特征,继续对其进行分割构建相应的结点,如此递归地进行下去,直至所有训练数据子集被基本正确分类或者没有合适的特征为止

 

5、系统日志收集的基本特征不包括(D)

A.高可用性

B.高可靠性

C.可扩展性

D.高效率

★考核知识点: 获取数据

参见讲稿章节:2-1

附1.1.5(考核知识点解释):

获取数据就是数据收集,按照确定的数据分析框架,为数据分析提供素材和依据,包括第一手数据(可直接获取的数据)和第二手数据(经过加工整理后得到的数据)。

获取数据的途径有很多,我们可以通过系统日志采集、网络数据采集、数据库收集、公开出版物、开放数据平台和市场调查等。

其中系统日志收集是公司业务平台每天产生大量日志数据,收集日志数据可以供公司分析系统使用研究,其具有以下基本特征:高可用性、高可靠性、可扩展性。

“高可用性”(High Availability)通常来描述一个系统经过专门的设计,从而减少停工时间,而保持其服务的高度可用性。

“高可靠性”(high reliability)指的是运行时间能够满足预计时间的一个系统或组件。可靠性可以用“100%可操作性”或者“从未失败”这两种标准来表示。一个被广泛应用但却难以达到的标准是著名的“5个9标准”,就是说工作的可靠性要达到99.999%。

“可扩展性”可以通过软件框架来实现:动态加载的插件、顶端有抽象接口的认真设计的类层次结构、有用的回调函数构造以及功能很有逻辑并且可塑性很强的代码结构。

 

6、k近邻法的基本要素不包括(C)。

A.距离度量

B.k值的选择

C.样本大小

D.分类决策规则

★考核知识点: K近邻法

参见讲稿章节:6-2

附1.1.6(考核知识点解释):

K近邻法是一种基于向量空间的分类方法,输入为实例的特征向量,对应于特征空间中的点。K近邻法简单,直观,不具有显式的学习过程。它的基本思想是给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的k个实例,这k个实例的多数属于某个类,就把该输入实例分为这个类。

K近邻法的三个基本要素包括:距离度量、k值的选择、分类决策规则。

1.距离度量:特征空间中两个实例点的距离是两个实例点的相似程度的反映。K近邻模型的特征空间一般是n维实数向量空间R^n,使用的距离是欧式距离,但也可以是其他距离如更一般的L_p距离(L_p  distance)或Minkowski距离(Minkowski distance)。

2.k值的选择:选择较小的k值,相当于用较小的邻域中的训练实例进行预测,学习的“近似误差”会减小,“估计误差”会增大,预测结果会对近邻的点实例点非常敏感。k值减小意味着整体模型变得复杂,容易发生过拟合。

选择较大的k值,学习的“近似误差”会增大,“估计误差”会减小,与输入实例较远(不相似)的训练实例也会对预测起作用。k值增大意味着整体模型变得简单。

在应用中,k值一般取一个比较小的数值,通常采用交叉验证法来选取最优的k值。

3.分类决策规则:k近邻法中的分类决策规则往往是多数表决,即由输入实例的k个邻近的训练实例中的多数类决定输入实例的类。

 

 

7、一元回归参数估计的参数求解方法不包括(D)。

A.最大似然法

B.距估计法

C.最小二乘法

D.欧式距离法

★考核知识点: 一元线性回归

参见讲稿章节:7-1

附1.1.7(考核知识点解释):

分类问题主要关注于离散型变量,然而在客观世界中普遍存在着连续型变量,因此需要考虑如何对连续型变量之间的关系进行分析。变量之间的关系一般来说可以分为确定性关系与非确定性关系两种。确定性关系是指变量之间的关系可以用函数关系来表达,而另一种非确定性的关系即为所谓的相关关系,例如身高与体重的关系,身高越高通常情况下体重越重,但是同样高度的人,体重却未必相同,与此类似的还有体重、年龄与血压的关系,天气,住房面积,房价与用户用电量的关系等等。这些变量之间的关系是非确定性的,而回归分析就是研究这种相关关系的工具,它可以帮助我们从一个或一组变量取得的值去估计另一个变量的值。

一元线性回归中,参数求解方法有以下三种:最大似然法、距估计法和最小二乘法。

其中最小二乘法是线性回归问题中常用的参数求解方法,最小二乘法的目标是最小化残差平方和。首先将目标函数分别对w_0和w_1求导并令导数等于0

 

8、下列选项不是BFR的对象是(B)

A.废弃集

B.临时集

C.压缩集

D.留存集

★考核知识点: BFR聚类

参见讲稿章节:9-4

附1.1.8(考核知识点解释):

BFR聚类是用于处理数据集非常大的k-means变体,用于在高维欧氏空间中对数据进行聚类。它对簇的形状做出了非常强烈的假设:必须正态分布在质心周围。

BFR算法的步骤流程:

1.簇初始化。随机取k个点,随机抽取一小部分样本并进行聚类,选取一个样本,并随机抽取点,剩下的k-1个点尽可能远离先前选择的点。

2.数据文件读入。数据文件中的点按组块方式读入:分布式文件系统中的组块、

传统文件分割成的大小合适的组块、每个组块必须包含足够少的点以便能在内存中进行处理。内存中除了输入组块之外还包括其他三种对象:

(1)废弃集:由簇本身的简单概要信息组成,簇概要本身没有被“废弃”,它们实际上不可或缺。概要所代表的点已被废弃,它们在内存中除了通过该概要之外已经没有其他表示信息。

(2)压缩集:类似于簇概要信息,压缩集中存放概要信息。只存放那些相互接近的点集的概要,而不是接近任何簇的点集的概要。压缩集所代表的点也被废弃,它们也不会显式地出现在内存中。

(3)留存集:留存集上的点不能分配给某个簇,留存集上的点不会和某个其他点充分接近而被放到压缩集中,这些点在内存中会与其在输入文件中一样显示存在。

 

9、聚类的主要方法不包括(D)

A.划分聚类

B.层次聚类

C.密度聚类

D.距离聚类

★考核知识点: 聚类的方法

参见讲稿章节:9-1

附1.1.9(考核知识点解释):

聚类是将数据集中的样本划分为若干个通常是不相交的子集,是一种无监督学习方法。给定一组点,使用点之间的距离概念,将点分组为若干簇,以便簇内的成员彼此接近/相似,不同簇的成员不同。通常点位于高维空间中,使用距离测量来定义相似性。

聚类的主要方法有:划分聚类、层次聚类、密度聚类。

 

 

10、以下哪一项不是特征选择常见的方法(D)

A.过滤式

B.封装式

C.嵌入式

D.开放式

★考核知识点: 特征选择

参见讲稿章节:4-6

附1.1.10(考核知识点解释):

从数据集的全部特征中选取一个特征子集的过程被称为特征选择(feature selection)。

特征选择常见的方法包括:过滤式方法、封装式方法、嵌入式方法。

 

11、以下哪一项不是特征工程的子问题(D)

A.特征创建

B.特征提取

C.特征选择

D.特征识别

★考核知识点: 特征的介绍和创建

参见讲稿章节:4-1

附1.1.11(考核知识点解释):

特征工程是使用领域知识来基于原始数据创建特征的过程,它是机器学习的基础,是困难且繁杂的。

特征工程的子问题包括特征创建、特征提取和特征选择。

 

12、比如一张表,从业务上讲,一个用户应该只会有一条记录, 那么如果某个用户出现了超过一条的记录,这就产生了(C)

A.异常值

B.不一致的值

C.重复值

D.缺失值

★考核知识点: 数据质量检验

参见讲稿章节:2-2

附1.1.12(考核知识点解释):

数据质量检验的主要任务就是检查原始数据中是否存在以上的“脏数据”,概括性来说,脏数据主要包括以下四点:缺失值、异常值、不一致的值、重复值。

缺失值:记录的缺失,记录中某个字段信息的缺失。

异常值:指样本中的个别值,其数值明显偏离其余观测值。也称离群点。

不一致的值:数据不一致是指数据的矛盾性和不相容性,主要发生在数据集成的过程中。

重复值;对于二维表形式的数据集来说,主要是关键字段出现重复记录,例如主索引字段出现重复。

 

13、对于相似性与相异性的度量方法,基于距离的方法,以下哪一项不符合要求(D)

A.欧氏距离

B.曼哈顿距离

C.马氏距离

D.对角距离

★考核知识点: 样本相似性与相异性分析

参见讲稿章节:3-5

附1.1.13(考核知识点解释):

两个对象之间的相似度(similarity)是两个对象相似程度的数值度量。因而,两个对象越相似,它们的相似度就越高。通常,相似度是非负的,并常常在0(不相似)和1(完全相似)之间取值。

两个对象之间的相异度(dissimilarity)是这两个对象差异程度的数值度量。对象越相似,他们的相异度就越低。通常,术语距离(distance)被用作相异度的同义词,常常用来表示特定类型的相异度。

其中,相似性与相异性的度量方法中,基于距离的方法有欧氏距离、曼哈顿距离、明可夫斯基距离、马氏距离。

 

14、通过变量标准化计算得到的回归方程称为(A)。

A.标准化回归方程

B.标准化偏回归方程

C.标准化自回归方程

D.标准化多回归方程

★考核知识点: 多元线性回归

参见讲稿章节:7-2

附1.1.14(考核知识点解释):

在实际问题中,各自变量都有各自的计量单位以及不同的变异程度,所以不能直接用普通的偏回归系数的大小来比较方程中各个自变量对因变量?的影响大小,可以利用标准化偏回归系数来衡量。

通过变量标准化计算得到的回归方程称为标准化回归方程,相应的回归系数即为标准化偏回归系数。

 

15、一元线性回归中,真实值与预测值的差称为样本的(D)。

A.误差

B.方差

C.测差

D.残差

★考核知识点: 一元线性回归

参见讲稿章节:7-1

附1.1.15(考核知识点解释):

在一元线性回归中,输入只包含一个单独的特征,真实值与预测值的差称为样本的残差。其中残差项服从正态分布。

 

16、在回归分析中,自变量为(),因变量为(D)。

A.离散型变量,离散型变量

B.连续型变量,离散型变量

C.离散型变量,连续型变量

D.连续型变量,连续型变量

★考核知识点: 一元线性回归

参见讲稿章节:7-1

附1.1.16(考核知识点解释):

设输入为d维自变量x,输出因变量y为连续型,回归分析等价于寻找一个映射函数f,建立x到y的映射关系。其中x和y都是连续型变量。

 

 

17、为了解决任何复杂的分类问题,使用的感知机结构应至少包含(B)个隐含层。

A.1

B.2

C.3

D.4

★考核知识点: 人工神经网络

参见讲稿章节:8-2

附1.1.17(考核知识点解释):

感知机只能解决线性可分的问题,多层感知机可以解决非线性可分的问题,输入层与输出层之间的一层神经元,称为隐含层。隐含层和输出层都是拥有激活函数的功能神经元。

随着隐含层层数的增多,凸域将可以形成任意的形状,可以解决任何复杂的分类问题。双隐层感知器就足以解决任何复杂的分类问题。

 

18、BFR聚类用于在(A)欧氏空间中对数据进行聚类

A.高维

B.中维

C.低维

D.中高维

★考核知识点: BFR聚类

参见讲稿章节:9-4

附1.1.18(考核知识点解释):

BFR是用于处理数据集非常大的k-means变体,用于在高维欧氏空间中对数据进行聚类。

 

19、层次聚类对给定的数据进行(B)的分解。

A.聚合

B.层次

C.分拆

D.复制

★考核知识点: 层次聚类

参见讲稿章节:9-2

附1.1.19(考核知识点解释):

层次聚类对给定的数据进行层次的分解,适用于规模较小的数据集。层次的方法包括聚合方法和分拆方法。

 

(二)、判断部分

1、当维度增加时,特征空间的体积增加得很快,使得可用的数据变得稀疏。(√)

★考核知识点: 降维的基本概念

参见讲稿章节:4-2

附1.2.1(考核知识点解释):

维数灾难:当维度增加时,特征空间的体积增加得很快,使得可用的数据变得稀疏。

例如:

给定有10个样本,假设每一维的特征空间都是一个长度为5的线段,

使用一维特征时,特征空间大小 = 5,样本密度 = 样本数/特征空间大小=10/5 =2;

使用二维特征时:特征空间大小 = 5*5= 25,样本密度 = 样本数/特征空间大小= 10/25 = 0.4;

使用三维特征时:特征空间大小 = 5*5*5= 125

样本密度 = 样本数/特征空间大小= 10/125 = 0.08。

 

2、数据分析师的任务:用模型来回答具体问题,了解数据,其来源和结构。(×)

★考核知识点: 数据科学的过程

参见讲稿章节:1-3

附1.2.2(考核知识点解释):

一个分析师需要具备以下能力:

1.提出正确的问题

2.争论数据

3.管理数据以便组织轻松访问

4.探索数据以产生假设

5.使用统计方法

6.使用可视化,演示和产品表达结果

数据分析师的任务:争论数据,管理数据,创建基本分析和可视化。

数据建模师的任务:用模型来回答具体问题,了解数据其来源和结构。

数据科学家的任务:提问正确的问题,寻找数据中的模式,批判性的解释结果。

 

 

3、探索性数据分析的特点是研究从原始数据入手,完全以实际数据为依据。(√)

★考核知识点: 探索性数据分析

参见讲稿章节:3-1

附1.2.3(考核知识点解释):

探索性数据分析:在尽量少的先验假定下,通过作图、制表、方程拟合、计算特征量等手段,探索数据的结构和规律。

探索性数据分析可以最大化数据分析者对数据集和数据集底层结构的洞察力,并且为分析者提供数据集中包含的各类信息。

探索性数据分析的主要特点:

1.研究从原始数据入手,完全以实际数据为依据

2.分析方法从实际出发,不以某种理论为依据

3.分析工具简单直观,更易于普及

 

4、特征的信息增益越大,则其越重要。(√)

★考核知识点: 过滤式方法

参见讲稿章节:4-9

附1.2.4(考核知识点解释):

特征:是一个客体或一组客体特性的抽象结果,是对数据建模有用的属性。

好的特征可以降低模型的复杂度,提升模型的性能,提高模型的灵活性。

信息熵主要用来描述数据信息的不确定性。信息熵越大,数据信息的不确定性越大。

特征选择中,信息增益用来衡量系统包含某一个特征与不包含该特征时的信息量的差值。即反映某一特征对系统的重要性。当特征为离散型时,可以使用信息增益作为评价统计量。

特征的信息增益越大,则其越重要。

 

 

5、随着特征维数的增加,样本间区分度提高。(×)

★考核知识点: 降维的基本概念

参见讲稿章节:4-2

附1.2.5(考核知识点解释):

随着特征维数的增加,特征空间呈指数倍增长,样本密度急剧减小,样本稀疏。

随着特征维数的增加,样本间区分度降低。假设有一个二维特征空间,在矩形内部有一个内切的圆形,越接近圆心的样本越稀疏,相比于圆形内的样本,位于矩形四角的样本更加难以分类。随着特征维数的增加,将矩形和内切圆泛化为超立方体与超球体。随着特征数量的增加,超球体的体积逐渐减小直至趋向于0,然而超立方体的体积却不变。

高维特征空间中,大多数的训练样本位于超立方体的角落。

 

6、多层感知机的学习能力有限,只能处理线性可分的二分类问题。(×)

★考核知识点: 人工神经网络

参见讲稿章节:8-2

附1.2.6(考核知识点解释):

感知机只能解决线性可分的问题,但多层感知机可以解决非线性可分的问题,输入层与输出层之间的一层神经元,称为隐含层。隐含层和输出层都是拥有激活函数的功能神经元。

单层感知机:在输入空间形成一个超平面将实例划分为正负两类。

单隐层的多层感知机:在输入空间形成开凸或闭凸区域。

双隐层的多层感知机:在输入空间形成任意形状的划分区域。

 

7、给定一组点,使用点之间的距离概念,将点分组为若干簇,不同簇的成员不可以相同。(√)

★考核知识点: 聚类问题

参见讲稿章节:9-1

附1.2.7(考核知识点解释):

聚类是将数据集中的样本划分为若干个通常是不相交的子集,是一种无监督学习方法。给定一组点,使用点之间的距离概念,将点分组为若干簇,以便簇内的成员彼此接近/相似,不同簇的成员不同。

通常点位于高维空间中,使用距离测量来定义相似性。

 

8、给定关联规则A→B,意味着:若A发生,B也会发生。(×)

★考核知识点: 关联规则

参见讲稿章节:5-1

附1.2.8(考核知识点解释):

关联规则是形如X→Y的蕴涵式,其中, X和Y分别称为关联规则的先导(antecedent或left-hand-side, LHS)和后继(consequent或right-hand-side, RHS) 。其中,关联规则XY,存在支持度和信任度。

给定关联规则A→B,意味着:若A发生,B有可能会发生,而不是一定会发生。

 

9、Jaccard系数只关心个体间共同具有的特征是否一致这个问题。(√)

★考核知识点: 样本相似性与相异性分析

参见讲稿章节:3-6

附1.2.9(考核知识点解释):

Jaccard系数,又称为Jaccard相似系数(Jaccard similarity coefficient),用于比较有限样本集之间的相似性与差异性。Jaccard系数值越大,样本相似度越高。

Jaccard主要用于计算符号度量或布尔值度量的个体间的相似度,因为个体的特征属性都是由符号度量或者布尔值标识,因此无法衡量差异具体值的大小,只能获得“是否相同”这个结果,所以Jaccard系数只关心个体间共同具有的特征是否一致这个问题。

 

10、集中趋势能够表明在一定条件下数据的独特性质与差异。(×)

★考核知识点: 单变量分析

参见讲稿章节:3-2

附1.2.10(考核知识点解释):

单变量分析主要关注于单变量的描述和统计推断两个方面,旨在用简单的概括形式反映出大量样本资料所容纳的基本信息,描述样本数据中的集中或离散趋势。

集中趋势又称“数据的中心位置”、“集中量数”等,是一组数据的代表值。集中趋势能够表明在一定条件下数据的共同性质和一般水平。常用的有平均数、中位数等。

 

11、利用K近邻法进行分类时,使用不同的距离度量所确定的最近邻点都是相同的。(×)

★考核知识点: K近邻法

参见讲稿章节:6-2

附1.2.11(考核知识点解释):

K近邻法是一种基于向量空间的分类方法,输入为实例的特征向量,对应于特征空间中的点,K近邻法简单,直观,不具有显式的学习过程。

由不同的距离度量所确定的最近邻点是不同的

 

12、利用K近邻法进行分类时,k值过小容易发生过拟合现象。(√)

★考核知识点: K近邻法

参见讲稿章节:6-2

附1.2.12(考核知识点解释):

K值的选择:

选择较小的k值,相当于用较小的邻域中的训练实例进行预测,学习的“近似误差”会减小,“估计误差”会增大,预测结果会对近邻的点实例点非常敏感。k值减小意味着整体模型变得复杂,容易发生过拟合。

选择较大的k值,学习的“近似误差”会增大,“估计误差”会减小,与输入实例较远(不相似)的训练实例也会对预测起作用。k值增大意味着整体模型变得简单。

在应用中,k值一般取一个比较小的数值,通常采用交叉验证法来选取最优的k值。

 

13、神经网络中误差精度的提高可以通过增加隐含层中的神经元数目来实现。(√)

★考核知识点: 人工神经网络

参见讲稿章节:8-2

附1.2.13(考核知识点解释):

通过增加其神经元个数,可以提高神经网络的训练精度。神经元数过少时,网络不能很好的学习,训练的迭代次数较多,训练精度不高;神经元数过多时,网络功能更强大,精确度更高,但训练的迭代次数也更大,并且可能会出现过拟合现象;

由此,神经网络中,隐含层神经元个数的选取原则是:在能够解决问题的前提下,再增加1到2个神经元,以加快误差下降速度即可。

 

14、单层感知机对于线性不可分的数据,学习过程也可以收敛。(×)

★考核知识点: 人工神经网络

参见讲稿章节:8-1

附1.2.14(考核知识点解释):

单层感知机只拥有一层的功能神经元,即只有输出层神经元进行激活函数的处理,学习能力有限。

当二分类问题是线性可分的,即存在一个线性超平面将其分开,则感知机的学习过程会收敛,对于线性不可分的数据,算法不收敛。

 

15、聚合方法是自底向上的方法。(√)

★考核知识点: 层次聚类

参见讲稿章节:9-2

附1.2.15(考核知识点解释):

聚合方法是自底向上的方法。

具体思路如下:

1.初始时每个数据都被看成是单独的一个簇

2.通过逐步合并相近的数据点或簇,形成越来越大的簇

3.直到所有的数据点都在一个簇中,或者达到某个终止条件为止

 

16、如果一个候选集至少有一个子集是非频繁的,根据支持度的反单调属性,这样的候选项集肯定是非频繁的。(√)

★考核知识点: 频繁项集的产生

参见讲稿章节:5-3

附1.2.16(考核知识点解释):

Apriori定律1:如果一个项集是频繁的,则它的所有子集一定也是频繁的。

Apriori定律2:如果一个集合不是频繁项集,则它的所有超集都不是频繁项集。

如果一个候选集至少有一个子集是非频繁的,根据支持度的反单调属性,这样的候选项集肯定是非频繁的。

 

17、在k近邻方法中,k值增大意味着整体模型变得复杂。(×)

★考核知识点: K近邻法

参见讲稿章节:6-2

附1.2.17(考核知识点解释):

选择较小的k值,相当于用较小的邻域中的训练实例进行预测,学习的“近似误差”会减小,“估计误差”会增大,预测结果会对近邻的点实例点非常敏感。k值减小意味着整体模型变得复杂,容易发生过拟合。

选择较大的k值,学习的“近似误差”会增大,“估计误差”会减小,与输入实例较远(不相似)的训练实例也会对预测起作用。k值增大意味着整体模型变得简单。

在应用中,k值一般取一个比较小的数值,通常采用交叉验证法来选取最优的k值。

 

18、朴素贝叶斯分类器有简单、高效、健壮的特点,但某些属性可能会降低分类。(√)

★考核知识点: 朴素贝叶斯

参见讲稿章节:6-4

附1.2.18(考核知识点解释):

朴素贝叶斯的思想基础是这样的:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别;

朴素贝叶斯分类器建立在一个类条件独立性假设基础之上:给定类节点(变量)后,各属性节点(变量)之间相互独立。

朴素贝叶斯分类器一般具有以下特点:简单、高效、健壮。面对孤立的噪声点,朴素贝叶斯分类器是健壮的,因为在从数据中估计条件概率时,这些点被平均。

相关属性可能会降低朴素贝叶斯分类器的性能,因为对这些属性,条件独立的假设已不成立。

 

 

二、主观部分:

 

(一)、填空部分

1、二分类问题常用的评价指标是、。

★考核知识点: 分类问题

参见讲稿章节:6-1

附2.1.1(考核知识点解释):

分类:给定分类体系,将输入样本分到其中一个或者多个类别中的过程,是监督学习的一个核心问题。按类别数目可以分为二分类 VS 多分类。其中包括学习和分类两个过程。监督学习从数据中学习一个分类模型或决策函数称为分类器(classifier)。分类器对新的输入进行输出的预测,称为分类,输出变量Y取有限个离散值。

分类常用的方法包括:朴素贝叶斯、决策树、支持向量机、感知机和K近邻等。

对于二分类问题常用的评价指标是精确率(precision)与召回率(recall)。

 

2、朴素贝叶斯分类器建立在一个基础之上。

★考核知识点: 朴素贝叶斯

参见讲稿章节:6-4

附2.1.2(考核知识点解释):

朴素贝叶斯分类是一种十分简单的分类算法。其思想基础是这样的:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别;

朴素贝叶斯分类器建立在一个类条件独立性假设基础之上:给定类节点(变量)后,各属性节点(变量)之间相互独立。

 

 

3、在决策树生成算法中,最关键的是如何在每一轮的迭代中选择。

★考核知识点: 决策树-特征选择

参见讲稿章节:6-6

附2.1.3(考核知识点解释):

在决策树生成算法中,最关键的是如何在每一轮的迭代中选择最优特征,一般而言,随着划分过程的不断进行,我们希望决策树分支结点所包含的样本尽可能属于同一类别,即结点的“纯度”(purity)越来越高。

其中特征选择的准则是信息增益。

 

 

4、一个关联规则同时满足最小支持度和最小置信度,我们称之为。

★考核知识点: 关联规则的基本概念

参见讲稿章节:5-1

附2.1.4(考核知识点解释):

关联规则的两个重要的衡量指标是支持度和置信度。

支持度:具体含义为关联规则被多少比例的数据所覆盖。

置信度:用来衡量规则的可信程度。

比如规则{男性,尿布}→{啤酒} 的支持度表示所有的购物记录中,有百分之多少的记录中,购物者为男性,且同时购买了啤酒和尿布。规则{男性,尿布}→{啤酒}的置信度表示,在购物者为男性且购买了尿布的记录中,有多少比例的记录同时也购买了啤酒。

有了支持度和置信度两个指标,现在我们可以定量地描述我们所需要的规则:给定数据集,找出所有不小于预先设置的支持度阈值min_suppt(指用户指定的支持度的下限)和置信度阈值min_conf(指用户指定的置信度的下限)规则的集合。

我们感兴趣的规则要在支持度和置信度两个方面满足最小的条件,这样的规则被称为强关联规则(strong association rule)。

 

 

5、数据科学的过程包括获取数据、、数据探索、、结果展示。

★考核知识点: 数据科学的过程

参见讲稿章节:1-3

附2.1.5(考核知识点解释):

数据科学的过程包括获取数据、数据预处理、数据探索、数据建模、结果展示。

 

6、Pearson线性相关系数要求连续变量的取值服从分布。

★考核知识点: 多变量分析

参见讲稿章节:3-4

附2.1.6(考核知识点解释):

为了更加准确地描述变量之间的线性相关程度,可以通过计算相关系数来进行相关分析。在二元变量的相关分析过程中常用的有Pearson系数、Spearman秩相关系数和判定系数。

Pearson线性相关系数要求连续变量的取值服从正态分布。不服从正态分布的变量、分类或等级变量之间的关联性可采用Spearman秩相关系数,也称等级相关系数来描述。

 

 

7、欧氏距离越小,两个点的相似度就越,欧氏距离越大,两个点的相似度就越。

★考核知识点: 样本相似性与相异性

参见讲稿章节:3-5

附2.1.7(考核知识点解释):

欧几里得度量(也称欧氏距离)是一个通常采用的距离定义,指在m维空间中两个点之间的真实距离,或者向量的自然长度(即该点到原点的距离)。在二维和三维空间中的欧氏距离就是两点之间的实际距离。欧氏距离是一种常见的相似度算法。

欧氏距离越小,两个点的相似度就越大,欧氏距离越大,两个点的相似度就越小。

 

 

8、数据散度分析表示一组数据离数据中心的距离,多用标准差、以及进行衡量。

★考核知识点: 单变量分析

参见讲稿章节:3-2

附2.1.8(考核知识点解释):

单变量分析主要关注于单变量的描述和统计推断两个方面,旨在用简单的概括形式反映出大量样本资料所容纳的基本信息,描述样本数据中的集中或离散趋势。

数据散度分析表示一组数据离数据中心的距离,多用标准差、方差以及极差进行衡量。

 

 

9、在k近邻法中,选择较大的k值时,学习的“近似误差”会,“估计误差”会。

★考核知识点: K近邻法

参见讲稿章节:6-2

附2.1.9(考核知识点解释):

选择较大的k值,学习的“近似误差”会增大,“估计误差”会减小,与输入实例较远(不相似)的训练实例也会对预测起作用。k值增大意味着整体模型变得简单。

 

10、在k近邻法中,通常采用来选取最优的k值。

★考核知识点: K近邻法

参见讲稿章节:6-2

附2.1.10(考核知识点解释):

在应用中,k值一般取一个比较小的数值,通常采用交叉验证法来选取最优的k值。

 

11、划分聚类采取的划分,即每个对象必须恰好属于。

★考核知识点: 聚类问题

参见讲稿章节:9-1

附2.1.11(考核知识点解释):

划分聚类是聚类分析最简单最基本的方法。采取互斥簇的划分,即每个对象必须恰好属于一个簇。

经典的算法有K均值(K-Means)算法和K中心(K-Medoids)算法。

 

 

12、在线性回归分析中,根据自变量的维度不同可以分为和。

★考核知识点: 线性回归

参见讲稿章节:7-1

附2.1.12(考核知识点解释):

在线性回归分析中,当输入特征的维度从一维增加到d维(d>1),则从一元线性回归转换为多元线性回归问题。

 

13、反向传播算法的基本思想为,通过输出层得到和的误差,间接调整的权值。

★考核知识点: 人工神经网络

参见讲稿章节:8-2

附2.1.13(考核知识点解释):

反向传播算法的基本思想:

通过输出层得到输出结果和期望输出的误差,间接调整隐含层的权值。

学习过程由信号的正向传播与误差的反向传播两个过程组成。

正向传播时,神经网络的权值是固定的,输入样本从输入层传入,经过各隐含层逐层处理后,传向输出层。

反向传播时,通过比较网络的输出和期望输出产生一个误差信号,并将误差信号进行反向传播,逐层计算隐含层各单元的误差,并以此修正各单元的权值。

 

 

14、多层感知机中,和都是拥有激活函数的功能神经元。

★考核知识点: 人工神经网络

参见讲稿章节:8-2

附2.1.14(考核知识点解释):

多层感知机:可以解决非线性可分的问题。输入层与输出层之间的一层神经元,称为隐含层。隐含层和输出层都是拥有激活函数的功能神经元

 

 

15、神经网络中最基本的成分是模型。

★考核知识点: 人工神经网络

参见讲稿章节:8-1

附2.1.15(考核知识点解释):

神经网络是由具有适应性的简单单元组成的广泛并行互连的网络,它的组织能够模拟生物神经系统对真实世界物体所做出的交互反应。

神经网络中最基本的成分是神经元模型。

 

16、密度分类法中,单维的变量可以通过其的个数来确定K值。

★考核知识点: K-means聚类

参见讲稿章节:9-3

附2.1.16(考核知识点解释):

密度分类法:

单维的变量可以通过其分布峰的个数来确定K 值。

二维的数据可以通过散点图来判断。

 

17、在聚类中,使用测量来定义相似性

★考核知识点: 聚类问题

参见讲稿章节:9-1

附2.1.17(考核知识点解释):

聚类算法中,点通常位于高维空间中,使用距离测量来定义相似性,如Euclidean, Cosine, Jaccard, …

 

 

18、Apriori核心算法有两个关键步骤为和。

★考核知识点: Apriori算法

参见讲稿章节:5-5

附2.1.18(考核知识点解释):

Apriori算法中有两个关键步骤为连接步和剪枝步。

 

 

 

 

 

 

 

 

 

 

 

(二)、简答

 

1、为什么需要标准化偏回归系数?标准化偏回归系数与普通的偏回归系数之间的关系是什么?

★考核知识点: 多元线性回归标准化偏回归系数

参见讲稿章节:7-2

附2.2.1(考核知识点解释):

在实际问题中,各自变量都有各自的计量单位以及不同的变异程度,所以不能直接用普通的偏回归系数的大小来比较方程中各个自变量对因变量?的影响大小,可以利用标准化偏回归系数来衡量。

通过变量标准化计算得到的回归方程称为标准化回归方程,相应的回归系数即为标准化偏回归系数。标准化偏回归系数与普通的偏回归系数关系如下:

w_j^’=w_j (S_xj/S_y )

其中1≤j≤d

 

 

2、简单介绍决策树算法流程

★考核知识点: 决策树-特征选择

参见讲稿章节:6-6

附2.2.2(考核知识点解释):

决策树算法流程:

1.首先计算训练数据集的信息熵;

2.计算各特征对数据集的信息增益;

3.选取信息增益最大的特征为最优特征;

4.将数据集按照最优特征进行划分;

5.循环2,3,4直到结点不能划分。

 

 

3、一般的关联规则学习的步骤是什么?

★考核知识点: 关联规则的基本概念

参见讲稿章节:5-1

附2.2.3(考核知识点解释):

关联规则学习的步骤:

1.找出所有的频繁项集;

2.根据频繁项集生成频繁规则;

3.根据置信度等指标进一步过滤筛选规则;

 

 

4、请简述K-means聚类的优缺点。

★考核知识点: K-means聚类

参见讲稿章节:9-3

附2.2.4(考核知识点解释):

优点:容易实现。

缺点:可能收敛到局部最小值,在大规模数据集上收敛较慢。

 

 

5、请简述在使用反向传播算法训练多层感知机时,应该如何设置学习的停止条件?

★考核知识点: 人工神经网络

参见讲稿章节:8-2

附2.2.5(考核知识点解释):

在使用反向传播算法训练多层感知机时,设置学习的停止条件常见的方法有两种。

第一种为设置最大迭代次数,比如使用数据集迭代100次后停止训练;

第二种为将数据分为训练集与验证集,当训练集的误差降低而验证集的误差升高,则停止训练。

 

 

6、请简述k近邻法中k的取值对模型的影响。

★考核知识点: K近邻法

参见讲稿章节:6-2

附2.2.6(考核知识点解释):

对于k近邻法中k的取值:

选择较小的k值,相当于用较小的邻域中的训练实例进行预测,学习的“近似误差”会减小,“估计误差”会增大,预测结果会对近邻的点实例点非常敏感。k值减小意味着整体模型变得复杂,容易发生过拟合。

选择较大的k值,学习的“近似误差”会增大,“估计误差”会减小,与输入实例较远(不相似)的训练实例也会对预测起作用。k值增大意味着整体模型变得简单。

在应用中,k值一般取一个比较小的数值,通常采用交叉验证法来选取最优的k值。

 

 

7、简答特征选择的四个步骤?

★考核知识点: 特征选择

参见讲稿章节:4-6

附2.2.7(考核知识点解释):

特征选择的四个步骤:

1.子集产生

2.子集评估

3.停止条件

4.子集验证

 

 

8、探索性数据分析有哪些特点?

★考核知识点: 探索性数据分析

参见讲稿章节:3-1

附2.2.8(考核知识点解释):

探索性数据分析的特点:

1.研究从原始数据入手,完全以实际数据为依据;

2.分析方法从实际出发,不以某种理论为依据;

3.分析工具简单直观,更易于普及。

 

 

9、单变量分析的方法主要包括非图形化方法和图形化方法两种,其中非图形化方法中主要求出哪些常量?

★考核知识点: 单变量分析

参见讲稿章节:3-2

附2.2.9(考核知识点解释):

非图形化方法中主要求出的变量有:

均值、方差、标准差和峰度系数

 

 

10、请简述,对于多层感知机,为什么无法通过简单感知机的学习规则对隐含层进行误差估计。

★考核知识点: 人工神经网络

参见讲稿章节:8-2

附2.2.10(考核知识点解释):

因为对于各隐含层的节点来说,它们并不直接与外界相连,即不存在期望输出。所以无法通过简单感知机的学习规则对隐含层进行误差估计。

 

 

 

(三)、计算题

1、已知二维空间有三个点x_1=〖(2,1)〗^T,x_2=〖(5,4)〗^T,x_3=〖(6,2)〗^T。

要求:求出在p=1,2,3时,L_p距离下x_1的最近邻点,并得出相应结论。

★考核知识点: KNN模型的距离度量

参见讲稿章节:6-2

附2.3.1(考核知识点解释):

L_p距离计算公式如下:

L_p (x_i “,”   x_j )=(∑_(l=1)^n▒|x_i^((l) )-x_j^((l) ) |^p )^(1/p)

p=1时,L_1 (x_1,  x_2 )=∑_(l=1)^2▒|x_1^((l) )-x_2^((l) ) | =6,L_1 (x_1,  x_3 )=∑_(l=1)^2▒|x_1^((l) )-x_3^((l) ) | =5,此时最近邻点为 x_3;

p=2时,L_1 (x_1,  x_2 )=(∑_(l=1)^2▒|x_1^((l) )-x_2^((l) ) |^2 )^(1/2)=4.24,L_1 (x_1,  x_3 )=(∑_(l=1)^2▒|x_1^((l) )-x_3^((l) ) |^2 )^(1/2)=4.12,此时最近邻点为 x_3;

p=3时,L_1 (x_1,  x_2 )=(∑_(l=1)^2▒|x_1^((l) )-x_2^((l) ) |^3 )^(1/3)=3.78,L_1 (x_1,  x_3 )=(∑_(l=1)^2▒|x_1^((l) )-x_3^((l) ) |^3 )^(1/3)=4.02,,此时最近邻点为 x_2;

由此可知,由不同的距离度量所确定的最近邻点是不同的。

 

 

2、设变量y,x_1和x_2的普通线性回归方程为y=4x_1-0.5x_2+22,其中x_1的标准差S_x1=0.2,x_2的标准差S_x2=2.5,y的标准差S_y=0.8。

要求:请写出y,x_1和x_2的标准化回归方程,并分析x_1和x_2哪个变量对y的影响强度更大。

★考核知识点: 标准化偏回归系数

参见讲稿章节:7-2

附2.3.2(考核知识点解释):

标准化偏回归系数与普通的偏回归系数关系为

w_j^’=w_j (S_xj/S_y )

因此

w_(1=)^’ w_1 (S_x1/S_y )=4× 0.2/0.8=1

w_(2=)^’ w_2 (S_x2/S_y )=-0.5× 2.5/0.8=-1.5625

因此标准化回归方程为y=x_1-1.5625x_2+22

从标准化偏回归系数可以看出|w_1^’ |<|w_2^’ |,由此可知x_2对y的影响强度更大

 

 

(四)、论述题

1、在特征选择问题上,贪心算法依据搜索策略的不同可以分为几种?并简述每种策略是如何进行的?

★考核知识点: 产生特征子集的搜索策略

参见讲稿章节:4-10

附2.4.1(考核知识点解释):

 

贪心算法依据搜索策略的不同可以分为3种,分别是前向搜索、后向搜索和双向搜索。

前向搜索:特征子集从空集产生,迭代的从特征全集中选择特征加入子集。只能加入特征而不能去除特征。

后向搜索:特征子集从全集产生,迭代的从子集中删除无关或冗余的特征。只能去除特征不能加入特征。

双向搜索:从某个随机的特征子集开始,使用前向搜索向子集中增加新特征,同时使用后向搜索从子集中删除无关或冗余的特征,当两者搜索到一个相同的特征时停止搜索。

 

 

 

2、请简述隐含层神经元个数对于神经网络训练过程的影响。

★考核知识点: 人工神经网络

参见讲稿章节:8-2

附2.4.2(考核知识点解释):

通过增加其神经元个数,可以提高神经网络的训练精度。

神经元数过少时,网络不能很好的学习,训练的迭代次数较多,训练精度不高。

神经元数过多时,网络功能更强大,精确度更高,但训练的迭代次数也更大,并且可能会出现过拟合现象。

由此,神经网络中,隐含层神经元个数的选取原则是:在能够解决问题的前提下,再增加1到2个神经元,以加快误差下降速度即可。

 

赞(0)
未经允许不得转载:奥鹏作业网 » 南开19秋《数据科学》课程期末复习资料

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址