国开(浙江开放大学)25春《大数据技术》形考作业4【标准答案】
形考作业4(占形考总成绩的25%)
试卷总分:100 得分:100
1.下列场景中哪项是数据挖掘发现知识的过程
A.快递员及时反馈客户满意度
B.数据挖掘模型分析结果与所有人的观点一致
C.使用 Excel 发现商品的时段投入量不合理
D.老板“一拍脑袋”做出决策
2.每种大数据产品都有特定的应用场景,以下哪个产品是用于查询分析计算的
A.MapReduce
B.CHDFS
C.Dremel
D.S4
3.下列哪项不属于NoSQL数据库类型
A.键值数据库
B.列族数据库
C.文档数据库
D.关系数据库
4.假定某属性x的最小值、最大值分别为12000和98000,将属性x=73600映射到[0.0,0.1] 中的值为
A.0.716
B.0.912
C.0.325
D.0.679
5.以下对名称节点理解不正确的是:
A.名称节点通常用来保存元数据
B.名称节点的数据保存在内存中
C.名称节点作为中心服务器,负责管理文件系统的命名空间及客户端对文件的访问
D.名称节点用来负责具体用户数据的存储
6.下列关于聚类挖掘技术的说法中,错误的是
A.不预先设定数据归类类目,完全根据数据本身性质将数据聚合成不同类别
B.要求同类数据的内容相似度尽可能小
C.要求不同类数据的内容相似度尽可能小
D.与分类挖掘技术相似的是,都是要对数据进行分类处理
7.数据科学不仅可以推动数学、计算机科学、统计学、天体信息学等学科的发展,而且又能够大力助推( )的发展与进步。
A.基础科学
B.流体力学
C.基本理论
D.产业
8.以下哪一项不是关系型数据库( )
A.mysql
B.oracle
C.spss
D.sql server
9.关系数据库无法满足WEB2.0应用需求的主要表现,下列哪一项描述不正确
A.无法满足高密度数据管理的需求
B.无法满足数据高并发的需求
C.无法满足高可扩展性的需求
D.无法满足高可用性的需求
10.每种大数据产品都有特定的应用场景,以下哪个产品是用于流计算的:
A.Graphx
B.S4
C.Hive
D.Impala
11.各类办公文档、文本、图片、XML、HTML、各类报表、图像和音频、视频信息等数据都属于结构化数据。
12.人们关心大数据,最终是关心大数据的应用,关心如何从业务和应用出发让大数据真正实现其所蕴含的价值,从而为人们生产生活带来有益的改变。
13.非结构化数据是指在获得数据之前就可知其结构的数据。
14.时间戳是能表示一份数据在某个特定时间之前已经存在的、完整的、可验证的唯一标识。
15.简单随机抽样,是从总体N个象中任意抽取n个象作为样本,最终以这些样本作为调查象.在抽取样本时,总体中每个象被抽中为调查样本的概率可能会有差异。
16.MapReduce分布编程模型是一种三层计算,核心问题就是利用并行化解决大数据量或大计算量的问题。
17.数据可视化可以便于人们数据的理解
18.所有的MapReduce程序都需要经过Map和Reduce两个过程。
19.采用NoSQL+NEwSQL混合模式构建数据中心,可以发挥NoSQL数据库的事务处理能力和NEwSQL在实时性、复杂分析、即席查询等方面的优势,以及面海量数据时较强的扩展能力。
20.大数据是通过传统数据库技术和数据处理工具不能处理的庞大而复杂的数据集合。
浙江开放大学大数据技术答案:https://www.opzy.net/94679.html
21.去重是指在不同的时间维度内,重复一个行为产生的数据只计入一次。按()维度去重主要分为按小时去重、按日去重、按( )去重、按月去重或按( )去重。
A.自选时间段
B.周
C.时间
D.空间
22.样本约简主要包括系统抽样、( )和( )等。
A.随机抽样
B.重点抽样
C.确定抽样
D.分层抽样
23.均值就是( ),将一组数据中出现次数最多的数值叫( ),( )是指从小到大排列或从大到小排列的一组数据中,处在中间位置上的一个数据,一组n个观测值按数值大小排列,处于p%位置的值称第p()。
A.百分位数
B.众数
C.平均数
D.中位数
24.大数据的低耗能存储及高效率计算的要求,需要以下多种技术协同合作
A.分布式云存储技术
B.高性能并行计算技术
C.多源数据清洗及数据整合技术
D.分布式文件系统及分布式并行数据库
25.下列哪些属于HADoophE的核心组件( )。
A.HDFS
B.MapReduce
C.Pig
D.Hive
26.OlDSQL适用于( ),NEwSQL适用于( ),NoSQL适用于()。
A.事务处理应用
B.日志数据存储
C.数据分析应用
D.互联网应用