东财23秋《数据分析与决策》单元作业一【标准答案】-奥鹏作业网

可做奥鹏国开全部院校作业论文！答案请添加qq：599792888 或微信：1095258436

东财《数据分析与决策》单元作业一

共20道题总分：100分

一、单选题(共5题，25分)

1.（）是后续的数据转化、模型计算的必要前提。

A、变量大小

B、变量转换

C、变量类别

D、变量类型

2.根据数据分析的目的，需要确定每一行都是（）的实体。

A、异质

B、同质

C、随意

D、有结构

3.下列关于回归分析说法不正确的是（）。

A、回归分析试图找出变量间确定的函数关系

B、回归分析是用函数关系描述变量间关系的

C、相关关系和回归分析不可以相互转化

D、回归分析在数据挖掘中被广泛应用，可作为预测的方法

4.在现实世界中一些现象受到许多相互独立的随机因素的影响，如果每个因素所产生的影响都很微小，总的影响可以看作是服从（）的。

A、正态分布

B、卡方分布

C、t分布

D、F分布

5.业务分析应该为明确的（）服务。

A、企业目标

B、计划

C、组织目标

D、战略目标

二、多选题(共5题，25分)

1.下列关于决策表的说法错误的有（）。

A、决策表是指尝试从模型训练中发现一些规则

B、决策树和决策表是完全不相同的，也完全不相似

C、决策表的规则和记录是一一对应的

D、决策表按照规则的顺序来决定规则的优先级

2.贝叶斯网络的价值主要有（）。

A、分类

B、预测

C、帮助了解因果关系

D、有效避免数据过度拟合

3.下列关于差异的说法正确的有（）。

A、偶然因素引起的差异往往是比较显著的

B、差异的绝对值大于给定的标准的概率分布区间称为拒绝区间

C、事件属于接受区间则判断总体无显著差异

D、事件属于拒绝区间，则认为总体有显著差异

4.下列关于支持向量机的理论正确的是（）。

A、支持向量机的理论基础就是统计学习理论。

B、根据统计学习理论，学习机器的实际风险由经验风险值和置信范围值两部分组成

C、支持向量机在解决大样本、非线性机高维模式识别问题中表现出许多特有的优势

D、线性分类器是支持向量机的基础

5.数据挖掘是从大量数据中寻找其规律的技术，是（）的综合。

A、统计学

B、计算机网络技术

C、数据库技术

D、人工智能技术

三、判断题(共10题，50分)

1.最近相邻算法中的邻居的远近是按照距离函数计算的。（）

A、对

B、错

2.一般来讲，训练集要包含所有可能的分类，这些分类的数目没有任何要求。（）

A、对

B、错

3.一般来说，如果样本容量越大，估计量会更接近总体参数。（）

A、对

B、错

4.业务分析主要特征是利用各种统计分析、优化等工具实现决策职能化。（）

A、对

B、错

5.数据挖掘是从数据中自动地抽取模式、关联、变化、异常和有意义的结构。（）

A、对

B、错

6.在前向型的神经网络中，每个输入字段都会对应一个输入神经元。（）

A、对

B、错

7.数据集中的异常数据和重复数据都可能对建模的速度和精确度造成影响。（）

A、对

B、错东财答案请进：opzy.net或请联系微信：1095258436

8.数据可视化技术可以将所有数据的特性通过表的方式展示出来。（）

A、对

B、错

9.方差分析主要探讨给定量的变量与给定因素之间的关系。（）

A、对

B、错

10.截尾均值的好处就是能减少极端值的影响，较平均值更能反映实际情况。（）

A、对

B、错

东财《数据分析与决策》单元作业一

共20道题总分：100分

一、单选题(共5题，25分)

1.（）是后续的数据转化、模型计算的必要前提。

A、变量大小

B、变量转换

C、变量类别

D、变量类型

2.根据数据分析的目的，需要确定每一行都是（）的实体。

A、异质

B、同质

C、随意

D、有结构

3.下列关于回归分析说法不正确的是（）。

A、回归分析试图找出变量间确定的函数关系

B、回归分析是用函数关系描述变量间关系的

C、相关关系和回归分析不可以相互转化

D、回归分析在数据挖掘中被广泛应用，可作为预测的方法

4.在现实世界中一些现象受到许多相互独立的随机因素的影响，如果每个因素所产生的影响都很微小，总的影响可以看作是服从（）的。

A、正态分布

B、卡方分布

C、t分布

D、F分布

5.业务分析应该为明确的（）服务。

A、企业目标

B、计划

C、组织目标

D、战略目标

二、多选题(共5题，25分)

1.下列关于决策表的说法错误的有（）。

A、决策表是指尝试从模型训练中发现一些规则

B、决策树和决策表是完全不相同的，也完全不相似

C、决策表的规则和记录是一一对应的

D、决策表按照规则的顺序来决定规则的优先级

2.贝叶斯网络的价值主要有（）。

A、分类

B、预测

C、帮助了解因果关系

D、有效避免数据过度拟合

3.下列关于差异的说法正确的有（）。

A、偶然因素引起的差异往往是比较显著的

B、差异的绝对值大于给定的标准的概率分布区间称为拒绝区间

C、事件属于接受区间则判断总体无显著差异

D、事件属于拒绝区间，则认为总体有显著差异

4.下列关于支持向量机的理论正确的是（）。

A、支持向量机的理论基础就是统计学习理论。

B、根据统计学习理论，学习机器的实际风险由经验风险值和置信范围值两部分组成

C、支持向量机在解决大样本、非线性机高维模式识别问题中表现出许多特有的优势

D、线性分类器是支持向量机的基础

5.数据挖掘是从大量数据中寻找其规律的技术，是（）的综合。

A、统计学

B、计算机网络技术

C、数据库技术

D、人工智能技术

三、判断题(共10题，50分)

1.最近相邻算法中的邻居的远近是按照距离函数计算的。（）

A、对

B、错

2.一般来讲，训练集要包含所有可能的分类，这些分类的数目没有任何要求。（）

A、对

B、错

3.一般来说，如果样本容量越大，估计量会更接近总体参数。（）

A、对

B、错

4.业务分析主要特征是利用各种统计分析、优化等工具实现决策职能化。（）

A、对

B、错

5.数据挖掘是从数据中自动地抽取模式、关联、变化、异常和有意义的结构。（）

A、对

B、错

6.在前向型的神经网络中，每个输入字段都会对应一个输入神经元。（）

A、对

B、错

7.数据集中的异常数据和重复数据都可能对建模的速度和精确度造成影响。（）

A、对

B、错

8.数据可视化技术可以将所有数据的特性通过表的方式展示出来。（）

A、对

B、错

9.方差分析主要探讨给定量的变量与给定因素之间的关系。（）

A、对

B、错

10.截尾均值的好处就是能减少极端值的影响，较平均值更能反映实际情况。（）

A、对

B、错

东财《数据分析与决策》单元作业一

共20道题总分：100分

一、单选题(共5题，25分)

1.（）是后续的数据转化、模型计算的必要前提。

A、变量大小

B、变量转换

C、变量类别

D、变量类型

2.如果同为无偏估计的两个统计量，一个比另外一个的估计量的方差小，就可以将方差（）的估计量称为有效估计量。

A、大

B、小

C、相同

D、随机

3.根据数据分析的目的，需要确定每一行都是（）的实体。

A、异质

B、同质

C、随意

D、有结构

4.交叉变量规则除了包括名称外，还包括（）。

A、表达式

B、函数

C、公式

D、代数式

5.在现实世界中一些现象受到许多相互独立的随机因素的影响，如果每个因素所产生的影响都很微小，总的影响可以看作是服从（）的。

A、正态分布

B、卡方分布

C、t分布

D、F分布

二、多选题(共5题，25分)

1.一般来讲，统计量的标准有（）。

A、无偏性

B、有偏性

C、一致性

D、有效性

2.下列关于决策表的说法错误的有（）。

A、决策表是指尝试从模型训练中发现一些规则

B、决策树和决策表是完全不相同的，也完全不相似

C、决策表的规则和记录是一一对应的

D、决策表按照规则的顺序来决定规则的优先级

3.下列关于差异的说法正确的有（）。

A、偶然因素引起的差异往往是比较显著的

B、差异的绝对值大于给定的标准的概率分布区间称为拒绝区间

C、事件属于接受区间则判断总体无显著差异

D、事件属于拒绝区间，则认为总体有显著差异

4.假设检验的步骤是（）。

A、提出假设

B、规定显著性水平

C、构造检验统计量

D、做出拒绝或接受零建设的决策

5.神经元网络的拓扑结构可以分为（）。

A、前向型

B、反馈型

C、自组织竞争型

D、随机型网络

三、判断题(共10题，50分)

1.常用的数据调整方法有最大/最小转换和Z得分转换。（）

A、对

B、错

2.最近相邻算法中的邻居的远近是按照距离函数计算的。（）

A、对

B、错

3.卡方分布是通用的变量间是相互关联的统计模型。（）

A、对

B、错

4.一般来说，如果样本容量越大，估计量会更接近总体参数。（）

A、对

B、错

5.在数据挖掘中的一个预测算法中，输入数据太少，会大大影响数据挖掘的准确度。（）

A、对

B、错

6.在前向型的神经网络中，每个输入字段都会对应一个输入神经元。（）

A、对

B、错

7.对于每次抽样，所决定的统计量取值和总体参数的误差只能是正的。（）

A、对

B、错

8.构建贝叶斯网络过程需要经过构建有向无环图和计算图中有向边的条件概率表两个步骤。（）

A、对

B、错

9.数据集中的异常数据和重复数据都可能对建模的速度和精确度造成影响。（）

A、对

B、错

10.最大间隔分类器是通过计算空间的离散点距超平面的距离，找到一个合适的超平面。（）

A、对

B、错

东财《数据分析与决策》单元作业一

共20道题总分：100分

一、单选题(共5题，25分)

1.下列选项中，对有监督的建模技术理解错误的是（）。

A、有监督的建模技术必须有一个模型的训练过程

B、模型训练的目的是“在已知目标值的情况下，试图找出预测变量与目标值之间的有效推理方式”

C、输出数据是预测变量

D、有监督的建模技术分为分类或者倾向和估计或回归

2.如果同为无偏估计的两个统计量，一个比另外一个的估计量的方差小，就可以将方差（）的估计量称为有效估计量。

A、大

B、小

C、相同

D、随机

3.如果最终目标是生成预测模型，则（）更好。

A、可视化分箱

B、优化分箱

C、随机分箱

D、固定分箱

4.交警查酒驾，每隔20辆车抽取一辆进行检查。这属于（）。

A、分层抽样

B、随机抽样

C、等距抽样

D、整群抽样

5.卡方分布的自由度为n，且n个变量的平方和服从（）。

A、标准正态分布

B、t分布

C、F分布

D、0-1分布

二、多选题(共5题，25分)

1.基于技能的公司通常有（）。

A、咨询公司

B、技术供应商

C、数据供应商

D、分析公司

2.下列关于似然函数的说法正确的有（）。

A、似然函数是一种关于统计模型中的参数函数

B、它标识模型参数中的似然性

C、用于在已知某些观测得到的结果时，对有关事物的性质的参数进行估计

D、似然函数在统计推动中有重大作用

3.数据挖掘是从大量数据中寻找其规律的技术，是（）的综合。

A、统计学

B、计算机网络技术

C、数据库技术

D、人工智能技术

4.下列选项中属于个案识别方法的有（）。

A、标记不完整的ID

B、标记完整的ID

C、标记不重复的ID

D、标记重复的ID

5.假设检验的步骤是（）。

A、提出假设

B、规定显著性水平

C、构造检验统计量

D、做出拒绝或接受零建设的决策

三、判断题(共10题，50分)

1.当要使用业务分析的相关技术分析非结构化的数据时，常见的做法是先将非结构化的数据转化为结构化的数据。（）

A、对

B、错

2.决策树规则表达是精细的，一条记录只会由一个规则触发。（）

A、对

B、错

3.大数据的到来使得之前一直使用的传统的软件工具能在很短的时间内完成数据处理。

A、对

B、错

4.卡方值表现的是样本间观察到差异之归因于必然性的概率。（）

A、对

B、错

5.根据“过学习问题”的相关知识可知：某些情况下，当训练误差过大反而导致推广能力下降。（）

A、对

B、错

6.当回归函数正确时，残差时误差的一种反映，但是真正的随机误差以一定的规律反映出来。

A、对

B、错

7.最大/最小转换对输入数据进行一个非线性转换。（）

A、对

B、错

8.对于每次抽样，所决定的统计量取值和总体参数的误差只能是正的。（）

A、对

B、错

9.数据集成可以减少和避免集成结果数据中的数据冗余和不一致。（）

A、对

B、错

10.t分布的产生是为了解决大样本的统计问题。（）

A、对

B、错

东财《数据分析与决策》单元作业一

共20道题总分：100分

一、单选题(共5题，25分)

1.（）是后续的数据转化、模型计算的必要前提。

A、变量大小

B、变量转换

C、变量类别

D、变量类型

2.如果同为无偏估计的两个统计量，一个比另外一个的估计量的方差小，就可以将方差（）的估计量称为有效估计量。

A、大

B、小

C、相同

D、随机

3.根据数据分析的目的，需要确定每一行都是（）的实体。

A、异质

B、同质

C、随意

D、有结构

4.交叉变量规则除了包括名称外，还包括（）。

A、表达式

B、函数

C、公式

D、代数式

5.在现实世界中一些现象受到许多相互独立的随机因素的影响，如果每个因素所产生的影响都很微小，总的影响可以看作是服从（）的。

A、正态分布

B、卡方分布

C、t分布

D、F分布

二、多选题(共5题，25分)

1.一般来讲，统计量的标准有（）。

A、无偏性

B、有偏性

C、一致性

D、有效性

2.下列关于决策表的说法错误的有（）。

A、决策表是指尝试从模型训练中发现一些规则

B、决策树和决策表是完全不相同的，也完全不相似

C、决策表的规则和记录是一一对应的

D、决策表按照规则的顺序来决定规则的优先级

3.下列关于差异的说法正确的有（）。

A、偶然因素引起的差异往往是比较显著的

B、差异的绝对值大于给定的标准的概率分布区间称为拒绝区间

C、事件属于接受区间则判断总体无显著差异

D、事件属于拒绝区间，则认为总体有显著差异

4.假设检验的步骤是（）。

A、提出假设

B、规定显著性水平

C、构造检验统计量

D、做出拒绝或接受零建设的决策

5.神经元网络的拓扑结构可以分为（）。

A、前向型

B、反馈型

C、自组织竞争型

D、随机型网络

三、判断题(共10题，50分)

1.常用的数据调整方法有最大/最小转换和Z得分转换。（）

A、对

B、错

2.最近相邻算法中的邻居的远近是按照距离函数计算的。（）

A、对

B、错

3.卡方分布是通用的变量间是相互关联的统计模型。（）

A、对

B、错

4.一般来说，如果样本容量越大，估计量会更接近总体参数。（）

A、对

B、错

5.在数据挖掘中的一个预测算法中，输入数据太少，会大大影响数据挖掘的准确度。（）

A、对

B、错

6.在前向型的神经网络中，每个输入字段都会对应一个输入神经元。（）

A、对

B、错

7.对于每次抽样，所决定的统计量取值和总体参数的误差只能是正的。（）

A、对

B、错

8.构建贝叶斯网络过程需要经过构建有向无环图和计算图中有向边的条件概率表两个步骤。（）

A、对

B、错

9.数据集中的异常数据和重复数据都可能对建模的速度和精确度造成影响。（）

A、对

B、错

10.最大间隔分类器是通过计算空间的离散点距超平面的距离，找到一个合适的超平面。（）

A、对

B、错

东财《数据分析与决策》单元作业一

共20道题总分：100分

一、单选题(共5题，25分)

1.下列选项中，对有监督的建模技术理解错误的是（）。

A、有监督的建模技术必须有一个模型的训练过程

B、模型训练的目的是“在已知目标值的情况下，试图找出预测变量与目标值之间的有效推理方式”

C、输出数据是预测变量

D、有监督的建模技术分为分类或者倾向和估计或回归

2.如果同为无偏估计的两个统计量，一个比另外一个的估计量的方差小，就可以将方差（）的估计量称为有效估计量。

A、大

B、小

C、相同

D、随机

3.如果最终目标是生成预测模型，则（）更好。

A、可视化分箱

B、优化分箱

C、随机分箱

D、固定分箱

4.交警查酒驾，每隔20辆车抽取一辆进行检查。这属于（）。

A、分层抽样

B、随机抽样

C、等距抽样

D、整群抽样

5.卡方分布的自由度为n，且n个变量的平方和服从（）。

A、标准正态分布

B、t分布

C、F分布

D、0-1分布

二、多选题(共5题，25分)

1.基于技能的公司通常有（）。

A、咨询公司

B、技术供应商

C、数据供应商

D、分析公司

2.下列关于似然函数的说法正确的有（）。

A、似然函数是一种关于统计模型中的参数函数

B、它标识模型参数中的似然性

C、用于在已知某些观测得到的结果时，对有关事物的性质的参数进行估计

D、似然函数在统计推动中有重大作用

3.数据挖掘是从大量数据中寻找其规律的技术，是（）的综合。

A、统计学

B、计算机网络技术

C、数据库技术

D、人工智能技术

4.下列选项中属于个案识别方法的有（）。

A、标记不完整的ID

B、标记完整的ID

C、标记不重复的ID

D、标记重复的ID

5.假设检验的步骤是（）。

A、提出假设

B、规定显著性水平

C、构造检验统计量

D、做出拒绝或接受零建设的决策

三、判断题(共10题，50分)

1.当要使用业务分析的相关技术分析非结构化的数据时，常见的做法是先将非结构化的数据转化为结构化的数据。（）

A、对

B、错

2.决策树规则表达是精细的，一条记录只会由一个规则触发。（）

A、对

B、错

3.大数据的到来使得之前一直使用的传统的软件工具能在很短的时间内完成数据处理。

A、对

B、错

4.卡方值表现的是样本间观察到差异之归因于必然性的概率。（）

A、对

B、错

5.根据“过学习问题”的相关知识可知：某些情况下，当训练误差过大反而导致推广能力下降。（）

A、对

B、错

6.当回归函数正确时，残差时误差的一种反映，但是真正的随机误差以一定的规律反映出来。

A、对

B、错

7.最大/最小转换对输入数据进行一个非线性转换。（）

A、对

B、错

8.对于每次抽样，所决定的统计量取值和总体参数的误差只能是正的。（）

A、对

B、错

9.数据集成可以减少和避免集成结果数据中的数据冗余和不一致。（）

A、对

B、错

10.t分布的产生是为了解决大样本的统计问题。（）

A、对

B、错

东财《数据分析与决策》单元作业一

共20道题总分：100分

一、单选题(共5题，25分)

1.（）是后续的数据转化、模型计算的必要前提。

A、变量大小

B、变量转换

C、变量类别

D、变量类型

2.如果同为无偏估计的两个统计量，一个比另外一个的估计量的方差小，就可以将方差（）的估计量称为有效估计量。

A、大

B、小

C、相同

D、随机

3.根据数据分析的目的，需要确定每一行都是（）的实体。

A、异质

B、同质

C、随意

D、有结构

4.交叉变量规则除了包括名称外，还包括（）。

A、表达式

B、函数

C、公式

D、代数式

5.在现实世界中一些现象受到许多相互独立的随机因素的影响，如果每个因素所产生的影响都很微小，总的影响可以看作是服从（）的。

A、正态分布

B、卡方分布

C、t分布

D、F分布

二、多选题(共5题，25分)

1.一般来讲，统计量的标准有（）。

A、无偏性

B、有偏性

C、一致性

D、有效性

2.下列关于决策表的说法错误的有（）。

A、决策表是指尝试从模型训练中发现一些规则

B、决策树和决策表是完全不相同的，也完全不相似

C、决策表的规则和记录是一一对应的

D、决策表按照规则的顺序来决定规则的优先级

3.下列关于差异的说法正确的有（）。

A、偶然因素引起的差异往往是比较显著的

B、差异的绝对值大于给定的标准的概率分布区间称为拒绝区间

C、事件属于接受区间则判断总体无显著差异

D、事件属于拒绝区间，则认为总体有显著差异

4.假设检验的步骤是（）。

A、提出假设

B、规定显著性水平

C、构造检验统计量

D、做出拒绝或接受零建设的决策

5.神经元网络的拓扑结构可以分为（）。

A、前向型

B、反馈型

C、自组织竞争型

D、随机型网络

三、判断题(共10题，50分)

1.常用的数据调整方法有最大/最小转换和Z得分转换。（）

A、对

B、错

2.最近相邻算法中的邻居的远近是按照距离函数计算的。（）

A、对

B、错

3.卡方分布是通用的变量间是相互关联的统计模型。（）

A、对

B、错

4.一般来说，如果样本容量越大，估计量会更接近总体参数。（）

A、对

B、错

5.在数据挖掘中的一个预测算法中，输入数据太少，会大大影响数据挖掘的准确度。（）

A、对

B、错

6.在前向型的神经网络中，每个输入字段都会对应一个输入神经元。（）

A、对

B、错

7.对于每次抽样，所决定的统计量取值和总体参数的误差只能是正的。（）

A、对

B、错

8.构建贝叶斯网络过程需要经过构建有向无环图和计算图中有向边的条件概率表两个步骤。（）

A、对

B、错

9.数据集中的异常数据和重复数据都可能对建模的速度和精确度造成影响。（）

A、对

B、错

10.最大间隔分类器是通过计算空间的离散点距超平面的距离，找到一个合适的超平面。（）

A、对

B、错

东财《数据分析与决策》单元作业一

共20道题总分：100分

一、单选题(共5题，25分)

1.（）是后续的数据转化、模型计算的必要前提。

A、变量大小

B、变量转换

C、变量类别

D、变量类型

2.根据数据分析的目的，需要确定每一行都是（）的实体。

A、异质

B、同质

C、随意

D、有结构

3.下列关于回归分析说法不正确的是（）。

A、回归分析试图找出变量间确定的函数关系

B、回归分析是用函数关系描述变量间关系的

C、相关关系和回归分析不可以相互转化

D、回归分析在数据挖掘中被广泛应用，可作为预测的方法

4.在现实世界中一些现象受到许多相互独立的随机因素的影响，如果每个因素所产生的影响都很微小，总的影响可以看作是服从（）的。

A、正态分布

B、卡方分布

C、t分布

D、F分布

5.业务分析应该为明确的（）服务。

A、企业目标

B、计划

C、组织目标

D、战略目标

二、多选题(共5题，25分)

1.下列关于决策表的说法错误的有（）。

A、决策表是指尝试从模型训练中发现一些规则

B、决策树和决策表是完全不相同的，也完全不相似

C、决策表的规则和记录是一一对应的

D、决策表按照规则的顺序来决定规则的优先级

2.贝叶斯网络的价值主要有（）。

A、分类

B、预测

C、帮助了解因果关系

D、有效避免数据过度拟合

3.下列关于差异的说法正确的有（）。

A、偶然因素引起的差异往往是比较显著的

B、差异的绝对值大于给定的标准的概率分布区间称为拒绝区间

C、事件属于接受区间则判断总体无显著差异

D、事件属于拒绝区间，则认为总体有显著差异

4.下列关于支持向量机的理论正确的是（）。

A、支持向量机的理论基础就是统计学习理论。

B、根据统计学习理论，学习机器的实际风险由经验风险值和置信范围值两部分组成

C、支持向量机在解决大样本、非线性机高维模式识别问题中表现出许多特有的优势

D、线性分类器是支持向量机的基础

5.数据挖掘是从大量数据中寻找其规律的技术，是（）的综合。

A、统计学

B、计算机网络技术

C、数据库技术

D、人工智能技术

三、判断题(共10题，50分)

1.最近相邻算法中的邻居的远近是按照距离函数计算的。（）

A、对

B、错

2.一般来讲，训练集要包含所有可能的分类，这些分类的数目没有任何要求。（）

A、对

B、错

3.一般来说，如果样本容量越大，估计量会更接近总体参数。（）

A、对

B、错

4.业务分析主要特征是利用各种统计分析、优化等工具实现决策职能化。（）

A、对

B、错

5.数据挖掘是从数据中自动地抽取模式、关联、变化、异常和有意义的结构。（）

A、对

B、错

6.在前向型的神经网络中，每个输入字段都会对应一个输入神经元。（）

A、对

B、错

7.数据集中的异常数据和重复数据都可能对建模的速度和精确度造成影响。（）

A、对

B、错

8.数据可视化技术可以将所有数据的特性通过表的方式展示出来。（）

A、对

B、错

9.方差分析主要探讨给定量的变量与给定因素之间的关系。（）

A、对

B、错

10.截尾均值的好处就是能减少极端值的影响，较平均值更能反映实际情况。（）

A、对

B、错

东财《数据分析与决策》单元作业一

共20道题总分：100分

一、单选题(共5题，25分)

1.（）是后续的数据转化、模型计算的必要前提。

A、变量大小

B、变量转换

C、变量类别

D、变量类型

2.根据数据分析的目的，需要确定每一行都是（）的实体。

A、异质

B、同质

C、随意

D、有结构

3.下列关于回归分析说法不正确的是（）。

A、回归分析试图找出变量间确定的函数关系

B、回归分析是用函数关系描述变量间关系的

C、相关关系和回归分析不可以相互转化

D、回归分析在数据挖掘中被广泛应用，可作为预测的方法

4.在现实世界中一些现象受到许多相互独立的随机因素的影响，如果每个因素所产生的影响都很微小，总的影响可以看作是服从（）的。

A、正态分布

B、卡方分布

C、t分布

D、F分布

5.业务分析应该为明确的（）服务。

A、企业目标

B、计划

C、组织目标

D、战略目标

二、多选题(共5题，25分)

1.下列关于决策表的说法错误的有（）。

A、决策表是指尝试从模型训练中发现一些规则

B、决策树和决策表是完全不相同的，也完全不相似

C、决策表的规则和记录是一一对应的

D、决策表按照规则的顺序来决定规则的优先级

2.贝叶斯网络的价值主要有（）。

A、分类

B、预测

C、帮助了解因果关系

D、有效避免数据过度拟合

3.下列关于差异的说法正确的有（）。

A、偶然因素引起的差异往往是比较显著的

B、差异的绝对值大于给定的标准的概率分布区间称为拒绝区间

C、事件属于接受区间则判断总体无显著差异

D、事件属于拒绝区间，则认为总体有显著差异

4.下列关于支持向量机的理论正确的是（）。

A、支持向量机的理论基础就是统计学习理论。

B、根据统计学习理论，学习机器的实际风险由经验风险值和置信范围值两部分组成

C、支持向量机在解决大样本、非线性机高维模式识别问题中表现出许多特有的优势

D、线性分类器是支持向量机的基础

5.数据挖掘是从大量数据中寻找其规律的技术，是（）的综合。

A、统计学

B、计算机网络技术

C、数据库技术

D、人工智能技术

三、判断题(共10题，50分)

1.最近相邻算法中的邻居的远近是按照距离函数计算的。（）

A、对

B、错

2.一般来讲，训练集要包含所有可能的分类，这些分类的数目没有任何要求。（）

A、对

B、错

3.一般来说，如果样本容量越大，估计量会更接近总体参数。（）

A、对

B、错

4.业务分析主要特征是利用各种统计分析、优化等工具实现决策职能化。（）

A、对

B、错

5.数据挖掘是从数据中自动地抽取模式、关联、变化、异常和有意义的结构。（）

A、对

B、错

6.在前向型的神经网络中，每个输入字段都会对应一个输入神经元。（）

A、对

B、错

7.数据集中的异常数据和重复数据都可能对建模的速度和精确度造成影响。（）

A、对

B、错

8.数据可视化技术可以将所有数据的特性通过表的方式展示出来。（）

A、对

B、错

9.方差分析主要探讨给定量的变量与给定因素之间的关系。（）

A、对

B、错

10.截尾均值的好处就是能减少极端值的影响，较平均值更能反映实际情况。（）

A、对

B、错

东财《数据分析与决策》单元作业一

共20道题总分：100分

一、单选题(共5题，25分)

1.下列选项中，对有监督的建模技术理解错误的是（）。

A、有监督的建模技术必须有一个模型的训练过程

B、模型训练的目的是“在已知目标值的情况下，试图找出预测变量与目标值之间的有效推理方式”

C、输出数据是预测变量

D、有监督的建模技术分为分类或者倾向和估计或回归

2.如果同为无偏估计的两个统计量，一个比另外一个的估计量的方差小，就可以将方差（）的估计量称为有效估计量。

A、大

B、小

C、相同

D、随机

3.如果最终目标是生成预测模型，则（）更好。

A、可视化分箱

B、优化分箱

C、随机分箱

D、固定分箱

4.交警查酒驾，每隔20辆车抽取一辆进行检查。这属于（）。

A、分层抽样

B、随机抽样

C、等距抽样

D、整群抽样

5.卡方分布的自由度为n，且n个变量的平方和服从（）。

A、标准正态分布

B、t分布

C、F分布

D、0-1分布

二、多选题(共5题，25分)

1.基于技能的公司通常有（）。

A、咨询公司

B、技术供应商

C、数据供应商

D、分析公司

2.下列关于似然函数的说法正确的有（）。

A、似然函数是一种关于统计模型中的参数函数

B、它标识模型参数中的似然性

C、用于在已知某些观测得到的结果时，对有关事物的性质的参数进行估计

D、似然函数在统计推动中有重大作用

3.数据挖掘是从大量数据中寻找其规律的技术，是（）的综合。

A、统计学

B、计算机网络技术

C、数据库技术

D、人工智能技术

4.下列选项中属于个案识别方法的有（）。

A、标记不完整的ID

B、标记完整的ID

C、标记不重复的ID

D、标记重复的ID

5.假设检验的步骤是（）。

A、提出假设

B、规定显著性水平

C、构造检验统计量

D、做出拒绝或接受零建设的决策

三、判断题(共10题，50分)

1.当要使用业务分析的相关技术分析非结构化的数据时，常见的做法是先将非结构化的数据转化为结构化的数据。（）

A、对

B、错

2.决策树规则表达是精细的，一条记录只会由一个规则触发。（）

A、对

B、错

3.大数据的到来使得之前一直使用的传统的软件工具能在很短的时间内完成数据处理。

A、对

B、错

4.卡方值表现的是样本间观察到差异之归因于必然性的概率。（）

A、对

B、错

5.根据“过学习问题”的相关知识可知：某些情况下，当训练误差过大反而导致推广能力下降。（）

A、对

B、错

6.当回归函数正确时，残差时误差的一种反映，但是真正的随机误差以一定的规律反映出来。

A、对

B、错

7.最大/最小转换对输入数据进行一个非线性转换。（）

A、对

B、错

8.对于每次抽样，所决定的统计量取值和总体参数的误差只能是正的。（）

A、对

B、错

9.数据集成可以减少和避免集成结果数据中的数据冗余和不一致。（）

A、对

B、错

10.t分布的产生是为了解决大样本的统计问题。（）

A、对

B、错

东财《数据分析与决策》单元作业一

共20道题总分：100分

一、单选题(共5题，25分)

1.下列选项中，对有监督的建模技术理解错误的是（）。

A、有监督的建模技术必须有一个模型的训练过程

B、模型训练的目的是“在已知目标值的情况下，试图找出预测变量与目标值之间的有效推理方式”

C、输出数据是预测变量

D、有监督的建模技术分为分类或者倾向和估计或回归

2.如果同为无偏估计的两个统计量，一个比另外一个的估计量的方差小，就可以将方差（）的估计量称为有效估计量。

A、大

B、小

C、相同

D、随机

3.如果最终目标是生成预测模型，则（）更好。

A、可视化分箱

B、优化分箱

C、随机分箱

D、固定分箱

4.交警查酒驾，每隔20辆车抽取一辆进行检查。这属于（）。

A、分层抽样

B、随机抽样

C、等距抽样

D、整群抽样

5.卡方分布的自由度为n，且n个变量的平方和服从（）。

A、标准正态分布

B、t分布

C、F分布

D、0-1分布

二、多选题(共5题，25分)

1.基于技能的公司通常有（）。

A、咨询公司

B、技术供应商

C、数据供应商

D、分析公司

2.下列关于似然函数的说法正确的有（）。

A、似然函数是一种关于统计模型中的参数函数

B、它标识模型参数中的似然性

C、用于在已知某些观测得到的结果时，对有关事物的性质的参数进行估计

D、似然函数在统计推动中有重大作用

3.数据挖掘是从大量数据中寻找其规律的技术，是（）的综合。

A、统计学

B、计算机网络技术

C、数据库技术

D、人工智能技术

4.下列选项中属于个案识别方法的有（）。

A、标记不完整的ID

B、标记完整的ID

C、标记不重复的ID

D、标记重复的ID

5.假设检验的步骤是（）。

A、提出假设

B、规定显著性水平

C、构造检验统计量

D、做出拒绝或接受零建设的决策

三、判断题(共10题，50分)

1.当要使用业务分析的相关技术分析非结构化的数据时，常见的做法是先将非结构化的数据转化为结构化的数据。（）

A、对

B、错

2.决策树规则表达是精细的，一条记录只会由一个规则触发。（）

A、对

B、错

3.大数据的到来使得之前一直使用的传统的软件工具能在很短的时间内完成数据处理。

A、对

B、错

4.卡方值表现的是样本间观察到差异之归因于必然性的概率。（）

A、对

B、错

5.根据“过学习问题”的相关知识可知：某些情况下，当训练误差过大反而导致推广能力下降。（）

A、对

B、错

6.当回归函数正确时，残差时误差的一种反映，但是真正的随机误差以一定的规律反映出来。

A、对

B、错

7.最大/最小转换对输入数据进行一个非线性转换。（）

A、对

B、错

8.对于每次抽样，所决定的统计量取值和总体参数的误差只能是正的。（）

A、对

B、错

9.数据集成可以减少和避免集成结果数据中的数据冗余和不一致。（）

A、对

B、错

10.t分布的产生是为了解决大样本的统计问题。（）

A、对

B、错

东财《数据分析与决策》单元作业一

共20道题总分：100分

一、单选题(共5题，25分)

1.下列选项中，对有监督的建模技术理解错误的是（）。

A、有监督的建模技术必须有一个模型的训练过程

B、模型训练的目的是“在已知目标值的情况下，试图找出预测变量与目标值之间的有效推理方式”

C、输出数据是预测变量

D、有监督的建模技术分为分类或者倾向和估计或回归

2.如果同为无偏估计的两个统计量，一个比另外一个的估计量的方差小，就可以将方差（）的估计量称为有效估计量。

A、大

B、小

C、相同

D、随机

3.如果最终目标是生成预测模型，则（）更好。

A、可视化分箱

B、优化分箱

C、随机分箱

D、固定分箱

4.交警查酒驾，每隔20辆车抽取一辆进行检查。这属于（）。

A、分层抽样

B、随机抽样

C、等距抽样

D、整群抽样

5.卡方分布的自由度为n，且n个变量的平方和服从（）。

A、标准正态分布

B、t分布

C、F分布

D、0-1分布

二、多选题(共5题，25分)

1.基于技能的公司通常有（）。

A、咨询公司

B、技术供应商

C、数据供应商

D、分析公司

2.下列关于似然函数的说法正确的有（）。

A、似然函数是一种关于统计模型中的参数函数

B、它标识模型参数中的似然性

C、用于在已知某些观测得到的结果时，对有关事物的性质的参数进行估计

D、似然函数在统计推动中有重大作用

3.数据挖掘是从大量数据中寻找其规律的技术，是（）的综合。

A、统计学

B、计算机网络技术

C、数据库技术

D、人工智能技术

4.下列选项中属于个案识别方法的有（）。

A、标记不完整的ID

B、标记完整的ID

C、标记不重复的ID

D、标记重复的ID

5.假设检验的步骤是（）。

A、提出假设

B、规定显著性水平

C、构造检验统计量

D、做出拒绝或接受零建设的决策

三、判断题(共10题，50分)

1.当要使用业务分析的相关技术分析非结构化的数据时，常见的做法是先将非结构化的数据转化为结构化的数据。（）

A、对

B、错

2.决策树规则表达是精细的，一条记录只会由一个规则触发。（）

A、对

B、错

3.大数据的到来使得之前一直使用的传统的软件工具能在很短的时间内完成数据处理。

A、对

B、错

4.卡方值表现的是样本间观察到差异之归因于必然性的概率。（）

A、对

B、错

5.根据“过学习问题”的相关知识可知：某些情况下，当训练误差过大反而导致推广能力下降。（）

A、对

B、错

6.当回归函数正确时，残差时误差的一种反映，但是真正的随机误差以一定的规律反映出来。

A、对

B、错

7.最大/最小转换对输入数据进行一个非线性转换。（）

A、对

B、错

8.对于每次抽样，所决定的统计量取值和总体参数的误差只能是正的。（）

A、对

B、错

9.数据集成可以减少和避免集成结果数据中的数据冗余和不一致。（）

A、对

B、错

10.t分布的产生是为了解决大样本的统计问题。（）

A、对

B、错

东财《数据分析与决策》单元作业一

共20道题总分：100分

一、单选题(共5题，25分)

1.下列选项中，对有监督的建模技术理解错误的是（）。

A、有监督的建模技术必须有一个模型的训练过程

B、模型训练的目的是“在已知目标值的情况下，试图找出预测变量与目标值之间的有效推理方式”

C、输出数据是预测变量

D、有监督的建模技术分为分类或者倾向和估计或回归

2.如果同为无偏估计的两个统计量，一个比另外一个的估计量的方差小，就可以将方差（）的估计量称为有效估计量。

A、大

B、小

C、相同

D、随机

3.如果最终目标是生成预测模型，则（）更好。

A、可视化分箱

B、优化分箱

C、随机分箱

D、固定分箱

4.交警查酒驾，每隔20辆车抽取一辆进行检查。这属于（）。

A、分层抽样

B、随机抽样

C、等距抽样

D、整群抽样

5.卡方分布的自由度为n，且n个变量的平方和服从（）。

A、标准正态分布

B、t分布

C、F分布

D、0-1分布

二、多选题(共5题，25分)

1.基于技能的公司通常有（）。

A、咨询公司

B、技术供应商

C、数据供应商

D、分析公司

2.下列关于似然函数的说法正确的有（）。

A、似然函数是一种关于统计模型中的参数函数

B、它标识模型参数中的似然性

C、用于在已知某些观测得到的结果时，对有关事物的性质的参数进行估计

D、似然函数在统计推动中有重大作用

3.数据挖掘是从大量数据中寻找其规律的技术，是（）的综合。

A、统计学

B、计算机网络技术

C、数据库技术

D、人工智能技术

4.下列选项中属于个案识别方法的有（）。

A、标记不完整的ID

B、标记完整的ID

C、标记不重复的ID

D、标记重复的ID

5.假设检验的步骤是（）。

A、提出假设

B、规定显著性水平

C、构造检验统计量

D、做出拒绝或接受零建设的决策

三、判断题(共10题，50分)

1.当要使用业务分析的相关技术分析非结构化的数据时，常见的做法是先将非结构化的数据转化为结构化的数据。（）

A、对

B、错

2.决策树规则表达是精细的，一条记录只会由一个规则触发。（）

A、对

B、错

3.大数据的到来使得之前一直使用的传统的软件工具能在很短的时间内完成数据处理。

A、对

B、错

4.卡方值表现的是样本间观察到差异之归因于必然性的概率。（）

A、对

B、错

5.根据“过学习问题”的相关知识可知：某些情况下，当训练误差过大反而导致推广能力下降。（）

A、对

B、错

6.当回归函数正确时，残差时误差的一种反映，但是真正的随机误差以一定的规律反映出来。

A、对

B、错

7.最大/最小转换对输入数据进行一个非线性转换。（）

A、对

B、错

8.对于每次抽样，所决定的统计量取值和总体参数的误差只能是正的。（）

A、对

B、错

9.数据集成可以减少和避免集成结果数据中的数据冗余和不一致。（）

A、对

B、错

10.t分布的产生是为了解决大样本的统计问题。（）

A、对

B、错

东财《数据分析与决策》单元作业一

共20道题总分：100分

一、单选题(共5题，25分)

1.下列选项中，对有监督的建模技术理解错误的是（）。

A、有监督的建模技术必须有一个模型的训练过程

B、模型训练的目的是“在已知目标值的情况下，试图找出预测变量与目标值之间的有效推理方式”

C、输出数据是预测变量

D、有监督的建模技术分为分类或者倾向和估计或回归

2.如果同为无偏估计的两个统计量，一个比另外一个的估计量的方差小，就可以将方差（）的估计量称为有效估计量。

A、大

B、小

C、相同

D、随机

3.如果最终目标是生成预测模型，则（）更好。

A、可视化分箱

B、优化分箱

C、随机分箱

D、固定分箱

4.交警查酒驾，每隔20辆车抽取一辆进行检查。这属于（）。

A、分层抽样

B、随机抽样

C、等距抽样

D、整群抽样

5.卡方分布的自由度为n，且n个变量的平方和服从（）。

A、标准正态分布

B、t分布

C、F分布

D、0-1分布

二、多选题(共5题，25分)

1.基于技能的公司通常有（）。

A、咨询公司

B、技术供应商

C、数据供应商

D、分析公司

2.下列关于似然函数的说法正确的有（）。

A、似然函数是一种关于统计模型中的参数函数

B、它标识模型参数中的似然性

C、用于在已知某些观测得到的结果时，对有关事物的性质的参数进行估计

D、似然函数在统计推动中有重大作用

3.数据挖掘是从大量数据中寻找其规律的技术，是（）的综合。

A、统计学

B、计算机网络技术

C、数据库技术

D、人工智能技术

4.下列选项中属于个案识别方法的有（）。

A、标记不完整的ID

B、标记完整的ID

C、标记不重复的ID

D、标记重复的ID

5.假设检验的步骤是（）。

A、提出假设

B、规定显著性水平

C、构造检验统计量

D、做出拒绝或接受零建设的决策

三、判断题(共10题，50分)

1.当要使用业务分析的相关技术分析非结构化的数据时，常见的做法是先将非结构化的数据转化为结构化的数据。（）

A、对

B、错

2.决策树规则表达是精细的，一条记录只会由一个规则触发。（）

A、对

B、错

3.大数据的到来使得之前一直使用的传统的软件工具能在很短的时间内完成数据处理。

A、对

B、错

4.卡方值表现的是样本间观察到差异之归因于必然性的概率。（）

A、对

B、错

5.根据“过学习问题”的相关知识可知：某些情况下，当训练误差过大反而导致推广能力下降。（）

A、对

B、错

6.当回归函数正确时，残差时误差的一种反映，但是真正的随机误差以一定的规律反映出来。

A、对

B、错

7.最大/最小转换对输入数据进行一个非线性转换。（）

A、对

B、错

8.对于每次抽样，所决定的统计量取值和总体参数的误差只能是正的。（）

A、对

B、错

9.数据集成可以减少和避免集成结果数据中的数据冗余和不一致。（）

A、对

B、错

10.t分布的产生是为了解决大样本的统计问题。（）

A、对

B、错

东财《数据分析与决策》单元作业一

共20道题总分：100分

一、单选题(共5题，25分)

1.下列选项中，对有监督的建模技术理解错误的是（）。

A、有监督的建模技术必须有一个模型的训练过程

B、模型训练的目的是“在已知目标值的情况下，试图找出预测变量与目标值之间的有效推理方式”

C、输出数据是预测变量

D、有监督的建模技术分为分类或者倾向和估计或回归

2.如果同为无偏估计的两个统计量，一个比另外一个的估计量的方差小，就可以将方差（）的估计量称为有效估计量。

A、大

B、小

C、相同

D、随机

3.如果最终目标是生成预测模型，则（）更好。

A、可视化分箱

B、优化分箱

C、随机分箱

D、固定分箱

4.交警查酒驾，每隔20辆车抽取一辆进行检查。这属于（）。

A、分层抽样

B、随机抽样

C、等距抽样

D、整群抽样

5.卡方分布的自由度为n，且n个变量的平方和服从（）。

A、标准正态分布

B、t分布

C、F分布

D、0-1分布

二、多选题(共5题，25分)

1.基于技能的公司通常有（）。

A、咨询公司

B、技术供应商

C、数据供应商

D、分析公司

2.下列关于似然函数的说法正确的有（）。

A、似然函数是一种关于统计模型中的参数函数

B、它标识模型参数中的似然性

C、用于在已知某些观测得到的结果时，对有关事物的性质的参数进行估计

D、似然函数在统计推动中有重大作用

3.数据挖掘是从大量数据中寻找其规律的技术，是（）的综合。

A、统计学

B、计算机网络技术

C、数据库技术

D、人工智能技术

4.下列选项中属于个案识别方法的有（）。

A、标记不完整的ID

B、标记完整的ID

C、标记不重复的ID

D、标记重复的ID

5.假设检验的步骤是（）。

A、提出假设

B、规定显著性水平

C、构造检验统计量

D、做出拒绝或接受零建设的决策

三、判断题(共10题，50分)

1.当要使用业务分析的相关技术分析非结构化的数据时，常见的做法是先将非结构化的数据转化为结构化的数据。（）

A、对

B、错

2.决策树规则表达是精细的，一条记录只会由一个规则触发。（）

A、对

B、错

3.大数据的到来使得之前一直使用的传统的软件工具能在很短的时间内完成数据处理。

A、对

B、错

4.卡方值表现的是样本间观察到差异之归因于必然性的概率。（）

A、对

B、错

5.根据“过学习问题”的相关知识可知：某些情况下，当训练误差过大反而导致推广能力下降。（）

A、对

B、错

6.当回归函数正确时，残差时误差的一种反映，但是真正的随机误差以一定的规律反映出来。

A、对

B、错

7.最大/最小转换对输入数据进行一个非线性转换。（）

A、对

B、错

8.对于每次抽样，所决定的统计量取值和总体参数的误差只能是正的。（）

A、对

B、错

9.数据集成可以减少和避免集成结果数据中的数据冗余和不一致。（）

A、对

B、错

10.t分布的产生是为了解决大样本的统计问题。（）

A、对

B、错

东财《数据分析与决策》单元作业一

共20道题总分：100分

一、单选题(共5题，25分)

1.（）是后续的数据转化、模型计算的必要前提。

A、变量大小

B、变量转换

C、变量类别

D、变量类型

2.如果同为无偏估计的两个统计量，一个比另外一个的估计量的方差小，就可以将方差（）的估计量称为有效估计量。

A、大

B、小

C、相同

D、随机

3.根据数据分析的目的，需要确定每一行都是（）的实体。

A、异质

B、同质

C、随意

D、有结构

4.交叉变量规则除了包括名称外，还包括（）。

A、表达式

B、函数

C、公式

D、代数式

5.在现实世界中一些现象受到许多相互独立的随机因素的影响，如果每个因素所产生的影响都很微小，总的影响可以看作是服从（）的。

A、正态分布

B、卡方分布

C、t分布

D、F分布

二、多选题(共5题，25分)

1.一般来讲，统计量的标准有（）。

A、无偏性

B、有偏性

C、一致性

D、有效性

2.下列关于决策表的说法错误的有（）。

A、决策表是指尝试从模型训练中发现一些规则

B、决策树和决策表是完全不相同的，也完全不相似

C、决策表的规则和记录是一一对应的

D、决策表按照规则的顺序来决定规则的优先级

3.下列关于差异的说法正确的有（）。

A、偶然因素引起的差异往往是比较显著的

B、差异的绝对值大于给定的标准的概率分布区间称为拒绝区间

C、事件属于接受区间则判断总体无显著差异

D、事件属于拒绝区间，则认为总体有显著差异

4.假设检验的步骤是（）。

A、提出假设

B、规定显著性水平

C、构造检验统计量

D、做出拒绝或接受零建设的决策

5.神经元网络的拓扑结构可以分为（）。

A、前向型

B、反馈型

C、自组织竞争型

D、随机型网络

三、判断题(共10题，50分)

1.常用的数据调整方法有最大/最小转换和Z得分转换。（）

A、对

B、错

2.最近相邻算法中的邻居的远近是按照距离函数计算的。（）

A、对

B、错

3.卡方分布是通用的变量间是相互关联的统计模型。（）

A、对

B、错

4.一般来说，如果样本容量越大，估计量会更接近总体参数。（）

A、对

B、错

5.在数据挖掘中的一个预测算法中，输入数据太少，会大大影响数据挖掘的准确度。（）

A、对

B、错

6.在前向型的神经网络中，每个输入字段都会对应一个输入神经元。（）

A、对

B、错

7.对于每次抽样，所决定的统计量取值和总体参数的误差只能是正的。（）

A、对

B、错

8.构建贝叶斯网络过程需要经过构建有向无环图和计算图中有向边的条件概率表两个步骤。（）

A、对

B、错

9.数据集中的异常数据和重复数据都可能对建模的速度和精确度造成影响。（）

A、对

B、错

10.最大间隔分类器是通过计算空间的离散点距超平面的距离，找到一个合适的超平面。（）

A、对

B、错

东财《数据分析与决策》单元作业一

共20道题总分：100分

一、单选题(共5题，25分)

1.（）是后续的数据转化、模型计算的必要前提。

A、变量大小

B、变量转换

C、变量类别

D、变量类型

2.根据数据分析的目的，需要确定每一行都是（）的实体。

A、异质

B、同质

C、随意

D、有结构

3.下列关于回归分析说法不正确的是（）。

A、回归分析试图找出变量间确定的函数关系

B、回归分析是用函数关系描述变量间关系的

C、相关关系和回归分析不可以相互转化

D、回归分析在数据挖掘中被广泛应用，可作为预测的方法

4.在现实世界中一些现象受到许多相互独立的随机因素的影响，如果每个因素所产生的影响都很微小，总的影响可以看作是服从（）的。

A、正态分布

B、卡方分布

C、t分布

D、F分布

5.业务分析应该为明确的（）服务。

A、企业目标

B、计划

C、组织目标

D、战略目标

二、多选题(共5题，25分)

1.下列关于决策表的说法错误的有（）。

A、决策表是指尝试从模型训练中发现一些规则

B、决策树和决策表是完全不相同的，也完全不相似

C、决策表的规则和记录是一一对应的

D、决策表按照规则的顺序来决定规则的优先级

2.贝叶斯网络的价值主要有（）。

A、分类

B、预测

C、帮助了解因果关系

D、有效避免数据过度拟合

3.下列关于差异的说法正确的有（）。

A、偶然因素引起的差异往往是比较显著的

B、差异的绝对值大于给定的标准的概率分布区间称为拒绝区间

C、事件属于接受区间则判断总体无显著差异

D、事件属于拒绝区间，则认为总体有显著差异

4.下列关于支持向量机的理论正确的是（）。

A、支持向量机的理论基础就是统计学习理论。

B、根据统计学习理论，学习机器的实际风险由经验风险值和置信范围值两部分组成

C、支持向量机在解决大样本、非线性机高维模式识别问题中表现出许多特有的优势

D、线性分类器是支持向量机的基础

5.数据挖掘是从大量数据中寻找其规律的技术，是（）的综合。

A、统计学

B、计算机网络技术

C、数据库技术

D、人工智能技术

三、判断题(共10题，50分)

1.最近相邻算法中的邻居的远近是按照距离函数计算的。（）

A、对

B、错

2.一般来讲，训练集要包含所有可能的分类，这些分类的数目没有任何要求。（）

A、对

B、错

3.一般来说，如果样本容量越大，估计量会更接近总体参数。（）

A、对

B、错

4.业务分析主要特征是利用各种统计分析、优化等工具实现决策职能化。（）

A、对

B、错

5.数据挖掘是从数据中自动地抽取模式、关联、变化、异常和有意义的结构。（）

A、对

B、错

6.在前向型的神经网络中，每个输入字段都会对应一个输入神经元。（）

A、对

B、错

7.数据集中的异常数据和重复数据都可能对建模的速度和精确度造成影响。（）

A、对

B、错

8.数据可视化技术可以将所有数据的特性通过表的方式展示出来。（）

A、对

B、错

9.方差分析主要探讨给定量的变量与给定因素之间的关系。（）

A、对

B、错

10.截尾均值的好处就是能减少极端值的影响，较平均值更能反映实际情况。（）

A、对

B、错

东财《数据分析与决策》单元作业一

共20道题总分：100分

一、单选题(共5题，25分)

1.（）是后续的数据转化、模型计算的必要前提。

A、变量大小

B、变量转换

C、变量类别

D、变量类型

2.根据数据分析的目的，需要确定每一行都是（）的实体。

A、异质

B、同质

C、随意

D、有结构

3.下列关于回归分析说法不正确的是（）。

A、回归分析试图找出变量间确定的函数关系

B、回归分析是用函数关系描述变量间关系的

C、相关关系和回归分析不可以相互转化

D、回归分析在数据挖掘中被广泛应用，可作为预测的方法

4.在现实世界中一些现象受到许多相互独立的随机因素的影响，如果每个因素所产生的影响都很微小，总的影响可以看作是服从（）的。

A、正态分布

B、卡方分布

C、t分布

D、F分布

5.业务分析应该为明确的（）服务。

A、企业目标

B、计划

C、组织目标

D、战略目标

二、多选题(共5题，25分)

1.下列关于决策表的说法错误的有（）。

A、决策表是指尝试从模型训练中发现一些规则

B、决策树和决策表是完全不相同的，也完全不相似

C、决策表的规则和记录是一一对应的

D、决策表按照规则的顺序来决定规则的优先级

2.贝叶斯网络的价值主要有（）。

A、分类

B、预测

C、帮助了解因果关系

D、有效避免数据过度拟合

3.下列关于差异的说法正确的有（）。

A、偶然因素引起的差异往往是比较显著的

B、差异的绝对值大于给定的标准的概率分布区间称为拒绝区间

C、事件属于接受区间则判断总体无显著差异

D、事件属于拒绝区间，则认为总体有显著差异

4.下列关于支持向量机的理论正确的是（）。

A、支持向量机的理论基础就是统计学习理论。

B、根据统计学习理论，学习机器的实际风险由经验风险值和置信范围值两部分组成

C、支持向量机在解决大样本、非线性机高维模式识别问题中表现出许多特有的优势

D、线性分类器是支持向量机的基础

5.数据挖掘是从大量数据中寻找其规律的技术，是（）的综合。

A、统计学

B、计算机网络技术

C、数据库技术

D、人工智能技术

三、判断题(共10题，50分)

1.最近相邻算法中的邻居的远近是按照距离函数计算的。（）

A、对

B、错

2.一般来讲，训练集要包含所有可能的分类，这些分类的数目没有任何要求。（）

A、对

B、错

3.一般来说，如果样本容量越大，估计量会更接近总体参数。（）

A、对

B、错

4.业务分析主要特征是利用各种统计分析、优化等工具实现决策职能化。（）

A、对

B、错

5.数据挖掘是从数据中自动地抽取模式、关联、变化、异常和有意义的结构。（）

A、对

B、错

6.在前向型的神经网络中，每个输入字段都会对应一个输入神经元。（）

A、对

B、错

7.数据集中的异常数据和重复数据都可能对建模的速度和精确度造成影响。（）

A、对

B、错

8.数据可视化技术可以将所有数据的特性通过表的方式展示出来。（）

A、对

B、错

9.方差分析主要探讨给定量的变量与给定因素之间的关系。（）

A、对

B、错

10.截尾均值的好处就是能减少极端值的影响，较平均值更能反映实际情况。（）

A、对

B、错

东财《数据分析与决策》单元作业一

共20道题总分：100分

一、单选题(共5题，25分)

1.（）是后续的数据转化、模型计算的必要前提。

A、变量大小

B、变量转换

C、变量类别

D、变量类型

2.如果同为无偏估计的两个统计量，一个比另外一个的估计量的方差小，就可以将方差（）的估计量称为有效估计量。

A、大

B、小

C、相同

D、随机

3.根据数据分析的目的，需要确定每一行都是（）的实体。

A、异质

B、同质

C、随意

D、有结构

4.交叉变量规则除了包括名称外，还包括（）。

A、表达式

B、函数

C、公式

D、代数式

5.在现实世界中一些现象受到许多相互独立的随机因素的影响，如果每个因素所产生的影响都很微小，总的影响可以看作是服从（）的。

A、正态分布

B、卡方分布

C、t分布

D、F分布

二、多选题(共5题，25分)

1.一般来讲，统计量的标准有（）。

A、无偏性

B、有偏性

C、一致性

D、有效性

2.下列关于决策表的说法错误的有（）。

A、决策表是指尝试从模型训练中发现一些规则

B、决策树和决策表是完全不相同的，也完全不相似

C、决策表的规则和记录是一一对应的

D、决策表按照规则的顺序来决定规则的优先级

3.下列关于差异的说法正确的有（）。

A、偶然因素引起的差异往往是比较显著的

B、差异的绝对值大于给定的标准的概率分布区间称为拒绝区间

C、事件属于接受区间则判断总体无显著差异

D、事件属于拒绝区间，则认为总体有显著差异

4.假设检验的步骤是（）。

A、提出假设

B、规定显著性水平

C、构造检验统计量

D、做出拒绝或接受零建设的决策

5.神经元网络的拓扑结构可以分为（）。

A、前向型

B、反馈型

C、自组织竞争型

D、随机型网络

三、判断题(共10题，50分)

1.常用的数据调整方法有最大/最小转换和Z得分转换。（）

A、对

B、错

2.最近相邻算法中的邻居的远近是按照距离函数计算的。（）

A、对

B、错

3.卡方分布是通用的变量间是相互关联的统计模型。（）

A、对

B、错

4.一般来说，如果样本容量越大，估计量会更接近总体参数。（）

A、对

B、错

5.在数据挖掘中的一个预测算法中，输入数据太少，会大大影响数据挖掘的准确度。（）

A、对

B、错

6.在前向型的神经网络中，每个输入字段都会对应一个输入神经元。（）

A、对

B、错

7.对于每次抽样，所决定的统计量取值和总体参数的误差只能是正的。（）

A、对

B、错

8.构建贝叶斯网络过程需要经过构建有向无环图和计算图中有向边的条件概率表两个步骤。（）

A、对

B、错

9.数据集中的异常数据和重复数据都可能对建模的速度和精确度造成影响。（）

A、对

B、错

10.最大间隔分类器是通过计算空间的离散点距超平面的距离，找到一个合适的超平面。（）

A、对

B、错

东财《数据分析与决策》单元作业一

共20道题总分：100分

一、单选题(共5题，25分)

1.（）是后续的数据转化、模型计算的必要前提。

A、变量大小

B、变量转换

C、变量类别

D、变量类型

2.如果同为无偏估计的两个统计量，一个比另外一个的估计量的方差小，就可以将方差（）的估计量称为有效估计量。

A、大

B、小

C、相同

D、随机

3.根据数据分析的目的，需要确定每一行都是（）的实体。

A、异质

B、同质

C、随意

D、有结构

4.交叉变量规则除了包括名称外，还包括（）。

A、表达式

B、函数

C、公式

D、代数式

5.在现实世界中一些现象受到许多相互独立的随机因素的影响，如果每个因素所产生的影响都很微小，总的影响可以看作是服从（）的。

A、正态分布

B、卡方分布

C、t分布

D、F分布

二、多选题(共5题，25分)

1.一般来讲，统计量的标准有（）。

A、无偏性

B、有偏性

C、一致性

D、有效性

2.下列关于决策表的说法错误的有（）。

A、决策表是指尝试从模型训练中发现一些规则

B、决策树和决策表是完全不相同的，也完全不相似

C、决策表的规则和记录是一一对应的

D、决策表按照规则的顺序来决定规则的优先级

3.下列关于差异的说法正确的有（）。

A、偶然因素引起的差异往往是比较显著的

B、差异的绝对值大于给定的标准的概率分布区间称为拒绝区间

C、事件属于接受区间则判断总体无显著差异

D、事件属于拒绝区间，则认为总体有显著差异

4.假设检验的步骤是（）。

A、提出假设

B、规定显著性水平

C、构造检验统计量

D、做出拒绝或接受零建设的决策

5.神经元网络的拓扑结构可以分为（）。

A、前向型

B、反馈型

C、自组织竞争型

D、随机型网络

三、判断题(共10题，50分)

1.常用的数据调整方法有最大/最小转换和Z得分转换。（）

A、对

B、错

2.最近相邻算法中的邻居的远近是按照距离函数计算的。（）

A、对

B、错

3.卡方分布是通用的变量间是相互关联的统计模型。（）

A、对

B、错

4.一般来说，如果样本容量越大，估计量会更接近总体参数。（）

A、对

B、错

5.在数据挖掘中的一个预测算法中，输入数据太少，会大大影响数据挖掘的准确度。（）

A、对

B、错

6.在前向型的神经网络中，每个输入字段都会对应一个输入神经元。（）

A、对

B、错

7.对于每次抽样，所决定的统计量取值和总体参数的误差只能是正的。（）

A、对

B、错

8.构建贝叶斯网络过程需要经过构建有向无环图和计算图中有向边的条件概率表两个步骤。（）

A、对

B、错

9.数据集中的异常数据和重复数据都可能对建模的速度和精确度造成影响。（）

A、对

B、错

10.最大间隔分类器是通过计算空间的离散点距超平面的距离，找到一个合适的超平面。（）

A、对

B、错

东财《数据分析与决策》单元作业一

共20道题总分：100分

一、单选题(共5题，25分)

1.（）是后续的数据转化、模型计算的必要前提。

A、变量大小

B、变量转换

C、变量类别

D、变量类型

2.如果同为无偏估计的两个统计量，一个比另外一个的估计量的方差小，就可以将方差（）的估计量称为有效估计量。

A、大

B、小

C、相同

D、随机

3.根据数据分析的目的，需要确定每一行都是（）的实体。

A、异质

B、同质

C、随意

D、有结构

4.交叉变量规则除了包括名称外，还包括（）。

A、表达式

B、函数

C、公式

D、代数式

5.在现实世界中一些现象受到许多相互独立的随机因素的影响，如果每个因素所产生的影响都很微小，总的影响可以看作是服从（）的。

A、正态分布

B、卡方分布

C、t分布

D、F分布

二、多选题(共5题，25分)

1.一般来讲，统计量的标准有（）。

A、无偏性

B、有偏性

C、一致性

D、有效性

2.下列关于决策表的说法错误的有（）。

A、决策表是指尝试从模型训练中发现一些规则

B、决策树和决策表是完全不相同的，也完全不相似

C、决策表的规则和记录是一一对应的

D、决策表按照规则的顺序来决定规则的优先级

3.下列关于差异的说法正确的有（）。

A、偶然因素引起的差异往往是比较显著的

B、差异的绝对值大于给定的标准的概率分布区间称为拒绝区间

C、事件属于接受区间则判断总体无显著差异

D、事件属于拒绝区间，则认为总体有显著差异

4.假设检验的步骤是（）。

A、提出假设

B、规定显著性水平

C、构造检验统计量

D、做出拒绝或接受零建设的决策

5.神经元网络的拓扑结构可以分为（）。

A、前向型

B、反馈型

C、自组织竞争型

D、随机型网络

三、判断题(共10题，50分)

1.常用的数据调整方法有最大/最小转换和Z得分转换。（）

A、对

B、错

2.最近相邻算法中的邻居的远近是按照距离函数计算的。（）

A、对

B、错

3.卡方分布是通用的变量间是相互关联的统计模型。（）

A、对

B、错

4.一般来说，如果样本容量越大，估计量会更接近总体参数。（）

A、对

B、错

5.在数据挖掘中的一个预测算法中，输入数据太少，会大大影响数据挖掘的准确度。（）

A、对

B、错

6.在前向型的神经网络中，每个输入字段都会对应一个输入神经元。（）

A、对

B、错

7.对于每次抽样，所决定的统计量取值和总体参数的误差只能是正的。（）

A、对

B、错

8.构建贝叶斯网络过程需要经过构建有向无环图和计算图中有向边的条件概率表两个步骤。（）

A、对

B、错

9.数据集中的异常数据和重复数据都可能对建模的速度和精确度造成影响。（）

A、对

B、错

10.最大间隔分类器是通过计算空间的离散点距超平面的距离，找到一个合适的超平面。（）

A、对

B、错

东财《数据分析与决策》单元作业一

共20道题总分：100分

一、单选题(共5题，25分)

1.下列选项中，对有监督的建模技术理解错误的是（）。

A、有监督的建模技术必须有一个模型的训练过程

B、模型训练的目的是“在已知目标值的情况下，试图找出预测变量与目标值之间的有效推理方式”

C、输出数据是预测变量

D、有监督的建模技术分为分类或者倾向和估计或回归

2.如果同为无偏估计的两个统计量，一个比另外一个的估计量的方差小，就可以将方差（）的估计量称为有效估计量。

A、大

B、小

C、相同

D、随机

3.如果最终目标是生成预测模型，则（）更好。

A、可视化分箱

B、优化分箱

C、随机分箱

D、固定分箱

4.交警查酒驾，每隔20辆车抽取一辆进行检查。这属于（）。

A、分层抽样

B、随机抽样

C、等距抽样

D、整群抽样

5.卡方分布的自由度为n，且n个变量的平方和服从（）。

A、标准正态分布

B、t分布

C、F分布

D、0-1分布

二、多选题(共5题，25分)

1.基于技能的公司通常有（）。

A、咨询公司

B、技术供应商

C、数据供应商

D、分析公司

2.下列关于似然函数的说法正确的有（）。

A、似然函数是一种关于统计模型中的参数函数

B、它标识模型参数中的似然性

C、用于在已知某些观测得到的结果时，对有关事物的性质的参数进行估计

D、似然函数在统计推动中有重大作用

3.数据挖掘是从大量数据中寻找其规律的技术，是（）的综合。

A、统计学

B、计算机网络技术

C、数据库技术

D、人工智能技术

4.下列选项中属于个案识别方法的有（）。

A、标记不完整的ID

B、标记完整的ID

C、标记不重复的ID

D、标记重复的ID

5.假设检验的步骤是（）。

A、提出假设

B、规定显著性水平

C、构造检验统计量

D、做出拒绝或接受零建设的决策

三、判断题(共10题，50分)

1.当要使用业务分析的相关技术分析非结构化的数据时，常见的做法是先将非结构化的数据转化为结构化的数据。（）

A、对

B、错

2.决策树规则表达是精细的，一条记录只会由一个规则触发。（）

A、对

B、错

3.大数据的到来使得之前一直使用的传统的软件工具能在很短的时间内完成数据处理。

A、对

B、错

4.卡方值表现的是样本间观察到差异之归因于必然性的概率。（）

A、对

B、错

5.根据“过学习问题”的相关知识可知：某些情况下，当训练误差过大反而导致推广能力下降。（）

A、对

B、错

6.当回归函数正确时，残差时误差的一种反映，但是真正的随机误差以一定的规律反映出来。

A、对

B、错

7.最大/最小转换对输入数据进行一个非线性转换。（）

A、对

B、错

8.对于每次抽样，所决定的统计量取值和总体参数的误差只能是正的。（）

A、对

B、错

9.数据集成可以减少和避免集成结果数据中的数据冗余和不一致。（）

A、对

B、错

10.t分布的产生是为了解决大样本的统计问题。（）

A、对

B、错

东财《数据分析与决策》单元作业一

共20道题总分：100分

一、单选题(共5题，25分)

1.下列选项中，对有监督的建模技术理解错误的是（）。

A、有监督的建模技术必须有一个模型的训练过程

B、模型训练的目的是“在已知目标值的情况下，试图找出预测变量与目标值之间的有效推理方式”

C、输出数据是预测变量

D、有监督的建模技术分为分类或者倾向和估计或回归

2.如果同为无偏估计的两个统计量，一个比另外一个的估计量的方差小，就可以将方差（）的估计量称为有效估计量。

A、大

B、小

C、相同

D、随机

3.如果最终目标是生成预测模型，则（）更好。

A、可视化分箱

B、优化分箱

C、随机分箱

D、固定分箱

4.交警查酒驾，每隔20辆车抽取一辆进行检查。这属于（）。

A、分层抽样

B、随机抽样

C、等距抽样

D、整群抽样

5.卡方分布的自由度为n，且n个变量的平方和服从（）。

A、标准正态分布

B、t分布

C、F分布

D、0-1分布

二、多选题(共5题，25分)

1.基于技能的公司通常有（）。

A、咨询公司

B、技术供应商

C、数据供应商

D、分析公司

2.下列关于似然函数的说法正确的有（）。

A、似然函数是一种关于统计模型中的参数函数

B、它标识模型参数中的似然性

C、用于在已知某些观测得到的结果时，对有关事物的性质的参数进行估计

D、似然函数在统计推动中有重大作用

3.数据挖掘是从大量数据中寻找其规律的技术，是（）的综合。

A、统计学

B、计算机网络技术

C、数据库技术

D、人工智能技术

4.下列选项中属于个案识别方法的有（）。

A、标记不完整的ID

B、标记完整的ID

C、标记不重复的ID

D、标记重复的ID

5.假设检验的步骤是（）。

A、提出假设

B、规定显著性水平

C、构造检验统计量

D、做出拒绝或接受零建设的决策

三、判断题(共10题，50分)

1.当要使用业务分析的相关技术分析非结构化的数据时，常见的做法是先将非结构化的数据转化为结构化的数据。（）

A、对

B、错

2.决策树规则表达是精细的，一条记录只会由一个规则触发。（）

A、对

B、错

3.大数据的到来使得之前一直使用的传统的软件工具能在很短的时间内完成数据处理。

A、对

B、错

4.卡方值表现的是样本间观察到差异之归因于必然性的概率。（）

A、对

B、错

5.根据“过学习问题”的相关知识可知：某些情况下，当训练误差过大反而导致推广能力下降。（）

A、对

B、错

6.当回归函数正确时，残差时误差的一种反映，但是真正的随机误差以一定的规律反映出来。

A、对

B、错

7.最大/最小转换对输入数据进行一个非线性转换。（）

A、对

B、错

8.对于每次抽样，所决定的统计量取值和总体参数的误差只能是正的。（）

A、对

B、错

9.数据集成可以减少和避免集成结果数据中的数据冗余和不一致。（）

A、对

B、错

10.t分布的产生是为了解决大样本的统计问题。（）

A、对

B、错

东财《数据分析与决策》单元作业一

共20道题总分：100分

一、单选题(共5题，25分)

1.（）是后续的数据转化、模型计算的必要前提。

A、变量大小

B、变量转换

C、变量类别

D、变量类型

2.如果同为无偏估计的两个统计量，一个比另外一个的估计量的方差小，就可以将方差（）的估计量称为有效估计量。

A、大

B、小

C、相同

D、随机

3.根据数据分析的目的，需要确定每一行都是（）的实体。

A、异质

B、同质

C、随意

D、有结构

4.交叉变量规则除了包括名称外，还包括（）。

A、表达式

B、函数

C、公式

D、代数式

5.在现实世界中一些现象受到许多相互独立的随机因素的影响，如果每个因素所产生的影响都很微小，总的影响可以看作是服从（）的。

A、正态分布

B、卡方分布

C、t分布

D、F分布

二、多选题(共5题，25分)

1.一般来讲，统计量的标准有（）。

A、无偏性

B、有偏性

C、一致性

D、有效性

2.下列关于决策表的说法错误的有（）。

A、决策表是指尝试从模型训练中发现一些规则

B、决策树和决策表是完全不相同的，也完全不相似

C、决策表的规则和记录是一一对应的

D、决策表按照规则的顺序来决定规则的优先级

3.下列关于差异的说法正确的有（）。

A、偶然因素引起的差异往往是比较显著的

B、差异的绝对值大于给定的标准的概率分布区间称为拒绝区间

C、事件属于接受区间则判断总体无显著差异

D、事件属于拒绝区间，则认为总体有显著差异

4.假设检验的步骤是（）。

A、提出假设

B、规定显著性水平

C、构造检验统计量

D、做出拒绝或接受零建设的决策

5.神经元网络的拓扑结构可以分为（）。

A、前向型

B、反馈型

C、自组织竞争型

D、随机型网络

三、判断题(共10题，50分)

1.常用的数据调整方法有最大/最小转换和Z得分转换。（）

A、对

B、错

2.最近相邻算法中的邻居的远近是按照距离函数计算的。（）

A、对

B、错

3.卡方分布是通用的变量间是相互关联的统计模型。（）

A、对

B、错

4.一般来说，如果样本容量越大，估计量会更接近总体参数。（）

A、对

B、错

5.在数据挖掘中的一个预测算法中，输入数据太少，会大大影响数据挖掘的准确度。（）

A、对

B、错

6.在前向型的神经网络中，每个输入字段都会对应一个输入神经元。（）

A、对

B、错

7.对于每次抽样，所决定的统计量取值和总体参数的误差只能是正的。（）

A、对

B、错

8.构建贝叶斯网络过程需要经过构建有向无环图和计算图中有向边的条件概率表两个步骤。（）

A、对

B、错

9.数据集中的异常数据和重复数据都可能对建模的速度和精确度造成影响。（）

A、对

B、错

10.最大间隔分类器是通过计算空间的离散点距超平面的距离，找到一个合适的超平面。（）

A、对

B、错

东财《数据分析与决策》单元作业一

共20道题总分：100分

一、单选题(共5题，25分)

1.（）是后续的数据转化、模型计算的必要前提。

A、变量大小

B、变量转换

C、变量类别

D、变量类型

2.如果同为无偏估计的两个统计量，一个比另外一个的估计量的方差小，就可以将方差（）的估计量称为有效估计量。

A、大

B、小

C、相同

D、随机

3.根据数据分析的目的，需要确定每一行都是（）的实体。

A、异质

B、同质

C、随意

D、有结构

4.交叉变量规则除了包括名称外，还包括（）。

A、表达式

B、函数

C、公式

D、代数式

5.在现实世界中一些现象受到许多相互独立的随机因素的影响，如果每个因素所产生的影响都很微小，总的影响可以看作是服从（）的。

A、正态分布

B、卡方分布

C、t分布

D、F分布

二、多选题(共5题，25分)

1.一般来讲，统计量的标准有（）。

A、无偏性

B、有偏性

C、一致性

D、有效性

2.下列关于决策表的说法错误的有（）。

A、决策表是指尝试从模型训练中发现一些规则

B、决策树和决策表是完全不相同的，也完全不相似

C、决策表的规则和记录是一一对应的

D、决策表按照规则的顺序来决定规则的优先级

3.下列关于差异的说法正确的有（）。

A、偶然因素引起的差异往往是比较显著的

B、差异的绝对值大于给定的标准的概率分布区间称为拒绝区间

C、事件属于接受区间则判断总体无显著差异

D、事件属于拒绝区间，则认为总体有显著差异

4.假设检验的步骤是（）。

A、提出假设

B、规定显著性水平

C、构造检验统计量

D、做出拒绝或接受零建设的决策

5.神经元网络的拓扑结构可以分为（）。

A、前向型

B、反馈型

C、自组织竞争型

D、随机型网络

三、判断题(共10题，50分)

1.常用的数据调整方法有最大/最小转换和Z得分转换。（）

A、对

B、错

2.最近相邻算法中的邻居的远近是按照距离函数计算的。（）

A、对

B、错

3.卡方分布是通用的变量间是相互关联的统计模型。（）

A、对

B、错

4.一般来说，如果样本容量越大，估计量会更接近总体参数。（）

A、对

B、错

5.在数据挖掘中的一个预测算法中，输入数据太少，会大大影响数据挖掘的准确度。（）

A、对

B、错

6.在前向型的神经网络中，每个输入字段都会对应一个输入神经元。（）

A、对

B、错

7.对于每次抽样，所决定的统计量取值和总体参数的误差只能是正的。（）

A、对

B、错

8.构建贝叶斯网络过程需要经过构建有向无环图和计算图中有向边的条件概率表两个步骤。（）

A、对

B、错

9.数据集中的异常数据和重复数据都可能对建模的速度和精确度造成影响。（）

A、对

B、错

10.最大间隔分类器是通过计算空间的离散点距超平面的距离，找到一个合适的超平面。（）

A、对

B、错

东财《数据分析与决策》单元作业一

共20道题总分：100分

一、单选题(共5题，25分)

1.（）是后续的数据转化、模型计算的必要前提。

A、变量大小

B、变量转换

C、变量类别

D、变量类型

2.根据数据分析的目的，需要确定每一行都是（）的实体。

A、异质

B、同质

C、随意

D、有结构

3.下列关于回归分析说法不正确的是（）。

A、回归分析试图找出变量间确定的函数关系

B、回归分析是用函数关系描述变量间关系的

C、相关关系和回归分析不可以相互转化

D、回归分析在数据挖掘中被广泛应用，可作为预测的方法

4.在现实世界中一些现象受到许多相互独立的随机因素的影响，如果每个因素所产生的影响都很微小，总的影响可以看作是服从（）的。

A、正态分布

B、卡方分布

C、t分布

D、F分布

5.业务分析应该为明确的（）服务。

A、企业目标

B、计划

C、组织目标

D、战略目标

二、多选题(共5题，25分)

1.下列关于决策表的说法错误的有（）。

A、决策表是指尝试从模型训练中发现一些规则

B、决策树和决策表是完全不相同的，也完全不相似

C、决策表的规则和记录是一一对应的

D、决策表按照规则的顺序来决定规则的优先级

2.贝叶斯网络的价值主要有（）。

A、分类

B、预测

C、帮助了解因果关系

D、有效避免数据过度拟合

3.下列关于差异的说法正确的有（）。

A、偶然因素引起的差异往往是比较显著的

B、差异的绝对值大于给定的标准的概率分布区间称为拒绝区间

C、事件属于接受区间则判断总体无显著差异

D、事件属于拒绝区间，则认为总体有显著差异

4.下列关于支持向量机的理论正确的是（）。

A、支持向量机的理论基础就是统计学习理论。

B、根据统计学习理论，学习机器的实际风险由经验风险值和置信范围值两部分组成

C、支持向量机在解决大样本、非线性机高维模式识别问题中表现出许多特有的优势

D、线性分类器是支持向量机的基础

5.数据挖掘是从大量数据中寻找其规律的技术，是（）的综合。

A、统计学

B、计算机网络技术

C、数据库技术

D、人工智能技术

三、判断题(共10题，50分)

1.最近相邻算法中的邻居的远近是按照距离函数计算的。（）

A、对

B、错

2.一般来讲，训练集要包含所有可能的分类，这些分类的数目没有任何要求。（）

A、对

B、错

3.一般来说，如果样本容量越大，估计量会更接近总体参数。（）

A、对

B、错

4.业务分析主要特征是利用各种统计分析、优化等工具实现决策职能化。（）

A、对

B、错

5.数据挖掘是从数据中自动地抽取模式、关联、变化、异常和有意义的结构。（）

A、对

B、错

6.在前向型的神经网络中，每个输入字段都会对应一个输入神经元。（）

A、对

B、错

7.数据集中的异常数据和重复数据都可能对建模的速度和精确度造成影响。（）

A、对

B、错

8.数据可视化技术可以将所有数据的特性通过表的方式展示出来。（）

A、对

B、错

9.方差分析主要探讨给定量的变量与给定因素之间的关系。（）

A、对

B、错

10.截尾均值的好处就是能减少极端值的影响，较平均值更能反映实际情况。（）

A、对

B、错

东财23秋《数据分析与决策》单元作业一【标准答案】

相关推荐

评论抢沙发

奥鹏作业答案

奥鹏作业答案请添加下方微信

诚信为本，合作共赢

热门作业

热门专业

相关推荐

评论 抢沙发

奥鹏作业答案

奥鹏作业答案请添加下方微信

诚信为本，合作共赢

热门作业

热门专业

评论抢沙发