欢迎光临
我们一直在努力

东财21秋《数据分析与决策》在线作业答卷 (三) 【标准答案】

可做奥鹏国开全部院校作业论文!答案请添加qq:599792888 或 微信:1095258436

东财《数据分析与决定》FAQ(三)

第三章 数据猜测与决定 FAQ

一、数据发掘的基本不雅点是什么? 其怎样分类

(一)不雅点:

1、数据发掘是从大量数据中寻觅其法则的技巧,是统计学、数据库跟人工智能技巧的综合;

2、是从数据中主动地抽取形式、关联、变更、异常跟有意思的构造。

3、数据发掘大部分的价值在于利用数据发掘技巧改良猜测模型。

(二)分类

1、有监督的建模技巧

根据目标值范例差别,分为

分类或许偏向:针对分类的目标变量的建模技巧

估计或回归:针对持续型的目标变量的建模技巧-回归技巧。

2、无监督的建模技巧

(1)聚类

(2)关联分析

(3)预报

二、怎样懂得决定树的不雅点?其算法是什么?

(一)定义

1、决定树是最风行的分类方法

2、在决定树中,由上一级到下一级的具体分类过程中,采取的标准是差其余,老是采取下一级分类中最为明显的特点作为分类特点。

3、分类算法老是递归地对给定命据停止分别,每次分别都是基于最明显的特点来分别,能否明显是根据我们要猜测的目标值来断定的。

4、决定树的最顶层是数的根节点,每个非叶子节点表示在一个属性上的测试,而其后的分支则代表测试的输出。

(二)算法:

1、C5.0算法

(1)基于信息熵跟信息增益的打算来实现的

(2)信息熵用于器量体系的不断定性,不断定性越大,熵也越大;反之,熵值越小。

(3)信息增益是决定树的节点按照某个字段拆分前后的信息熵之差。

2、分类跟回归树

分类跟回归树可能处理目标值为持续或许分范例的分类成绩。这种算法针对输入目标值做分析,若目标值是持续型变量,则会生成回归树;假如目标值是分范例变量,则会生因素类树;

3、卡方主动交互测验法

(1)采取了卡方作为节点生成的标准

(2)卡方值表示得是样本间察看履新别之归因于偶尔性的效力

(3)在卡方主动交互测验法算法中,高的卡方值意味着该拆分可能成功地把该节点拆分为有明显分布差其余子节点。

4、疾速、无偏、高校的统计数

(1)疾速、无偏、高效统计数也是一个二叉树的分类算法

(2)分类跟回归树及卡方主动交互检测算法是在树生长的过程中,变量抉择跟变量的分割点的抉择同时停止,而疾速、无偏、高效统计数是分开停止的

三、试比较决定表跟决定树?

1、决定命的规矩表达方法,也是轻易懂得的,像树状表达方法一样,规矩也是其表达方法之一,只是跟决定表的表达方法稍有差别,

2、决定树的规矩表达是精巧的,一笔记录只会由一个规矩来触发;决定表的规矩跟记录不是逐个对应的关联,规矩间每每有堆叠的逻辑。

3、决定表另有一种说法是按照规矩的次序来决定规矩的优先级,并且一个记录假如呗一个规矩出发,则该记录将不会被利用到其他规矩上。

三、怎样构建贝叶斯收集的过程??其有何价值?

(一)构建贝叶斯收集的过程,有如下步调

1、构建DAG

2、打算有向边的前提概率奥鹏东财答案请进:opzy.net或请联系微信:1095258436

(二)价值

贝叶斯收集不但可能用来分类跟猜测,在以下两方面有很大价值:

帮助懂得因果关联。经由过程收集可能懂得呈现成绩的处所,并可能图册任何干涉可能激发的成果;

可有效避免数据适度拟合

四、神经收集模型存在什么艰苦?

1、神经收集的成果不轻易以规矩的情势表达本身

2、神经收集的退化,老是奥妙地、不明显地降落机能。

为此,应当:

要愈加留神练习数据的分析情况

要愈加留神收集模型的更新

五、什么是近来相邻算法?其有何优毛病?

(一)近来相邻算法

假如一个样本在特点空间中的k个最相邻的样本中的大少数数以一个范例别,则该样本也属于这个类别,并存在该类别上样本的特点。该方法在断定分类决定上,只根据近来邻的一个或许多少个样本的类别来决定待分样本所属的类别。

(二)长处

1.简单,易于懂得,易于实现,无需参数估计,无需练习;

2.精度高,对异常值不敏感(一般乐音数据对成果的影响不是很大);

3.合适对罕见变乱停止分类;

4.特别合适于多分类成绩(multi-modal,东西存在多个类别标签),KNN要比SVM表示要好.

(三)毛病

1.对测试样本分类时的打算量大,空间开支大,因为对每一个待分类的文本都要打算它到全部已知样本的间隔,才干求得它的K个近来邻点。现在常用的处理方法是事先对已知样本点停止剪辑,事先去除对分类感化不大的样本;

2.可阐明性差,无法给出决定树那样的规矩;

3.样本数量对新实例分类的影响,当样本不均衡时,如一个类的样本容量很大,而其他类样本容量很小时,有可能招致当输入一个新样本时,该样本的K个邻居中大容量类的样本占少数,招致分类呈现偏向。

4.实例间的间隔是根据实例的全部属性(也就是包含实例的欧氏空间的全部坐标轴)打算的。对打算仅由一般属性决定的实例会产生维度灾害。

赞(0)
未经允许不得转载:奥鹏作业网 » 东财21秋《数据分析与决策》在线作业答卷 (三) 【标准答案】

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址