国开(浙江开放大学)25春《大数据技术》形考作业3【标准答案】
形考作业3(占形考总成绩的25%)
试卷总分:100 得分:100
1.当前社会中,最为突出的大数据环境是
A.互联网
B.物联网
C.综合国力
D.自然资源
2.启动HaDoop所有进程的命令是
A.start-dfs.sh
B.start-hadoop.sh
C.start-all.sh
D.start-hdfs.sh
3.数据平滑法主要分为( )、指数平滑法和分箱平滑法。
A.统计法
B.最短距离法
C.移动平均法
D.聚类方法
4.将班级平均分成 6 组,然后随机挑选一组,对该组所有人的情况进行调查,上述 情节属于哪种抽样方案
A.简单随机抽样
B.两段集群抽样
C.集群抽样
D.等距抽样
5.以下哪种聚类方法可以提供聚类树形图
A.层次聚类
B.K均值聚类
C.基于密度的聚类
D.基于网格的聚类
6.支撑大数据业务的基础是
A.数据科学
B.数据应用
C.数据硬件
D.数据人才
7.以下名词解释不正确的是
A.HDFS:分布式文件系统,是HADoop项目的两大核心之一,是谷歌GFS的开源实现
B.HBase:提供高可靠性、高性能、分布式的行式数据库,是谷歌BigTABlE的开源实现
C.HivE:一个基于HADoop的数据仓库工具,用于对HADoop文件中的数据集进行数据整理、特殊查询和分析存储
D.ZookEEpEr:针对谷歌ChuBBy的一个开源实现,是高效可靠的协同工作系统
8.数据获取与存储管理是大数据处理周期的第( )步
A.1
B.2
C.3
D.5
9.数据清洗算法的衡量标准主要包含( )、错误返回率和精确度。
A.冗余度
B.返回率
C.可用性
D.一致性
10.抽样误差和样本数的密切关系( )
A.样本量越大抽样误差就越大
B.在置信区间既定的情况下,样本量越大,抽样误差就越大
C.样本量越大,抽样误差不变
D.样本量越大,抽样误差就越小
11.维数约简是使用编码机制来增大数据集的规模。
12.NoSQL是一种不同于关系数据库的数据库管理系统设计方式,是非关系型数据库的一类统称,它采用的数据模型并非传统关系数据库的关系模型,而是类似键/值、列族、文档等非关系模型。
13.数据可视化是指将数据以图形图像形式表示,并利用数据分析和挖掘工具发现其中未知信息的处理过程。
14.数据分析是从一个假设出发,需要自行选择方程或模型来与假设匹配,而数据挖掘不需要假设,可以自动建立模型。
15.MapReduce计算将数据存储到内存中,然后对存储在硬盘中的静态数据进行集中计算。
16.RDBMS(关系数据库)难以实现横向扩展,但可以很容易实现纵向扩展。
17.同构同质数据库是指同一类型的数据模型、同一型号的数据库系统;同构异质数据库是指同一类型的数据模型、不同型号的数据库系统。
18.HADoop和sTorm都属于大数据处理工具,HADoop可以用于数据的批量处理,sTorm则侧重于数据的实时分析。
19.在数据预处理过程中,可以根据需要,通过数据转换构造出数据的新属性,使之更有助于处理数据。
浙江开放大学大数据技术答案:https://www.opzy.net/94677.html
20.在产业发展领域,大数据加速了产业优化升级的步伐。
21.网页分析算法可以归纳为
A.基于网络拓扑
B.基于网页内容
C.基于用户访问行为
D.基于网页链接数量
22.从分析的结果来看,大数据分析主要分为( )、( );从分析的方式来看,大数据分析主要分为离线数据分析、( )和( )
A.探索性数据分析
B.在线数据分析
C.交互式分析
D.定性数据分析
23.在NEwSQL+NoSQL混合模式中,NEwSQL承担高价值密度( )的存储和分析处理工作,NoSQL承担存储和处理海量( )
A.半结构化数据
B.非结构化数据
C.结构化数据
D.分布式存储与计算
24.数据规范化的主要方法是( )、( )和( )等。
A.最小-最大规范化方法
B.模糊规范化方法
C.z分数规范化方法
D.小数定标规范化方法
25.关于数据清洗算法的衡量标准,主要包含以下( )
A.返回率
B.错误返回率
C.精确度
D.方差
26.大数据的价值体现在
A.大数据给思维方式带来了冲击
B.大数据为政策制定提供科学论据
C.大数据助力智慧城市提升公共服务水平
D.大数据实现了精准营销