《大数据技术导论期末复习题2023-5(附参考答案).docx》由会员分享,可在线阅读,更多相关《大数据技术导论期末复习题2023-5(附参考答案).docx(92页珍藏版)》请在三一办公上搜索。
1、一、选择题1可视分析是一种O?A.交互式用户界面模型B.结构化用户界面模型cl非结构化用户界面模型D.1独立式用户界面模型【答案】A2数据科学的研究对象是O?A.药品成分B.1文学作品C.数据界的数据D.人类历史【答案】C3下面不是研究数据方法的是O?A.统计学B.机器学习C.心理分析D.数据挖掘【答案】C4下面是数据科学的主要研究内容的是O?A.数据泄露B.数据交易C数据盗窃D.数据分析【答案】D卜面不是数据产品开发的特征的是O?A.多样性B.无竞争性(Cl增值性D.层次性【答案】B下面不属于互联网大数据的是O?A.视频B.图片cl音频D.心情【答案】D下面不属于大数据的特性是O?A.数据量
2、大B.多样性1.c.真实性差D.具有价值【答案】C下面属于结构化数据的是O?A.表格数据B.图形C.1图像D.HTML文档【答案】A下面不属于大数据的处理过程的是O?A.数据获取、储存B.数据清洗c.1数据分析D.)数据安全【答案】D10下面不属于大数据离线处理特点的是O?A.数据保存时间短B.数据不会发生改变C.可进行复杂的批量计算D.方便查询计算结果【答案】A11下面不属于大数据处理模式的是O?A.离线处理B.在线处理cl手动计算D.1交互处理【答案】C12下面仅属于大数据在线处理模式的是O?A.批量计算【B.】流式计算cl手动计算D.交互处理【答案】B13下面不属于流式数据源的是O?A.
3、硬盘数据B.传感器数据1.c.图像数据D.流媒体传输【答案】A下面不属于流式数据的特点的是O?A.实时性B.1层次性cl易失性D.突发性【答案】B15下面不属于大数据计算模式的类型的是O?A.批量计算B.手动计算C.1流式计算D.交互式计算【答案】B16下面不属于数据流技术应用的方式是O?(A.指定查询B.模糊查询C.)即席计算D.中间计算【答案】B17下面不属于判断大数据应用成功的指标是O?A.创造价值B.具备高速度c.1在本质上提高【D.】低性能【答案】D18基于任务的定义和分类,下列不属于可视分析关注点的是O?A.以用户价值为关注点B.以用户意图为关注点(Cl以同户行为为关注点D.以软件
4、操作为关注点【答案】A19下面不属于企业大数据应用成功的考虑因素是O?A.成本B.客户满意度C.附加收益D.工人满意度【答案】D20下面不属于大数据在通讯行业的应用是O?A.预测客户行为B.1市场监控cl智能电表D.市场预警【答案】C21MaPRedUCe以什么方式进行分布式计算()?A.文本B.函数cl数据集D.矩阵【答案】B22在HadooP中,将每一次计算请求称为一个()?A.文本B.1函数cl数据集D.作业【答案】D23在HadOOP中,将每个作业拆分为若干个O?A.文本B.Map任务cl数据集D.RedUCe任务【答案】B24在Had。P中,作业服务器被称为()?A.JobB.Map
5、C.MasterD.Reduce【答案】C25下列不属于一个作业的计算流程的是O?A.作业开始【B.】作业修改C.Map任务分配D.RedUCe任务执行【答案】B26下列不属于MaP任务的执行的子步骤的是O?A.输入准备B.输入修改cl算法执行D.输出生成【答案】B在MaPRedUCe模型编程中,不属于其步骤的是O?A.遍历数据B.映射键值C.数据分组D.数据插补【答案】D28Hadoop的核心是()和MapReduce0A.NTFSB.GFSC.HDFSD.FS【答案】C29下列不属于单词计数的MaP过程的是O?A.按列分割文件B.分词处理cl按行分割文件D.排序与合并【答案】A30Word
6、Count完成的功能是统计()?A.按列分割文件数B.输入文件中单词频数cl按行分割文件数D.输入文件中单词频率【答案】B31HadooP开发环境部署内容不包括O?A.安装SSH协议B.HadooP系统部署【C.】伪分布式HadOOP环境部署(D.J电脑断网【答案】D32Reduce任务目标是()?A.输入文件B.输入数据cl输入图表【D.】将若干个M叩任务生成的中间文件汇总到最后的输出文件【答案】D33HadOOP作业服务器不负责O?A.接受用户提交的作业B.任务的分配cl执行具体的任务D.管理所有的任务服务器【答案】C34下列不属于文本数据语义特征的是O?A.词频B.逻辑结构C.1动态演化
7、规律D.数据结构【答案】D35文本数据是典型的O?A.结构化数据B.半结构化数据C.非结构化数据D.混合结构数据【答案】CMapReduce模型将数据集的大规模操作分发给网络上的各节点,每个节点将已完成的工作和状态更新,周期性地报告给()。A.作业B.任务C.)作业服务器D.任务服务器【答案】C37MaPRedUCe模型的最大优点体现在()?A.输入方便B.分布式处理cl各类型数据输入D.算法简单【答案】B38MapReduce模型适用场景的特点()?A.数据可实时处理B.1任务不可分解C.任务可分解D.任务需要顺序执行【答案】C39MapReduce将计算过程分解的最大好处是()?A.复杂化
8、B.快捷化cl并行化【D.】低成本【答案】CF列不属于MaPRedUCe模型的限制因素的是O?【A任务要求BJ数据不可无限分割(Cl通信开销D.集群规模【答案】A41下列不属于信息可视化的分类的是O?A.一维信息可视化B.三维信息可视化cl截面数据可视化D.1时序信息可视化【答案】C42下列属于传统数据获取的特点的是O?A.数据源多种多样B.1数据量巨大(C.)结构单一D.结构化、半结构化和非结构化数据【答案】C43下列不属于大数据获取的特点的是O?A.数据源多种多样B.数据量巨大(C.结构单一D.结构化、半结构化和非结构化数据【答案】C44下列属于大数据获取的特点的是O?A.数据源单一B.数
9、据量较小(Cl结构单一D.包括结构化、半结构化和非结构化数据【答案】D45气泡图由什么演化而来是O?A.直方图B.条形图cl散点图D.1折线图【答案】C46下列不属于文本数据的是O?A.广告B.1音频C杂志D.图书【答案】B47下列不属于文本数据的获取特点的是()?A.灵活度高B.速度快cl按需获取D.易处理【答案】D48下列属于意见建议类用户反馈的特点的是O?A.反馈量大B.反馈速度快C.针对性强D.传播快【答案】C卜列不属于空间数据的特性的是O?A.定位B.定量(cl定性D.时空关系【答案】B50下列不属于网站内部数据库中的数据的是O?A.用户信息数据B.野外实测数据C网站产品数据D.网站
10、运营数据【答案】B51下列不属于网站数据采集的数据的是()?A.非结构化数据B.半结构化数据cl结构化数据D.实验测试数据【答案】D52下列不属于网络爬虫工作过程的是O?A.获取网页【B.】修改网页C解析网页【D.】储存数据【答案】B卜.列不属于通用网络爬虫的特点及要求的是O?A.数量巨大B.范围较小(cl存储空间要大D.爬行速度要快【答案】B54下列不属于通用网络爬虫的结构的是O?A.页面爬行模块B.页面分析模块C.页面数据库D.页面修改模块【答案】D55下列不属于网页的爬虫策略的是O?A.深度优先搜索策略B.精确选择搜索策略cl广度优先搜索策略D.最佳优先搜索策略【答案】B56下列不属于通
11、用网络爬虫的局限性的是O?A.无用网页较多B.对非结构化数据获取相对容易C.难以支持基于语义信息的查询D.有限的网络爬虫服务器资源与无限的网络数据资源之间的冲突【答案】B57下列属于聚焦网络爬虫的特点的是O?A.数量巨大B.范围较大cl精准筛选D.爬行速度慢【答案】C58下列属于浅聚焦网络爬虫的核心特点的是O?A.数量巨大B.范围较大C.精准筛选D.选定URL种子【答案】D59下列不属于爬虫对抓取目标的定义原则的是O?A.目标网页特征B.目标数据量cl目标数据模式D.领域概念【答案】B60下列不属于网络爬虫的数据抓取方式的是O?A.预先给定的初始抓取种子样本B.预先给定的网页分类目录和与分类目
12、录对应的种子样本C.通过用户行为确定的抓取目标样例D.自行编写种子样本【答案】D61下列不属于NOSQL数据库的特点的是O?A.需预定义数据模型B.支持透明横向扩展cl将数据进行分区D.1保证最终一致性【答案】A下列不属于NOSQL数据库的存储方式的是O?A.行式存储B.键值式存储C.图形式存储D.文档式存储【答案】A63下列不属于NOSQL数据库的键值式存储的常见形式的是O?A.临时型【B.】附加型cl混合型D.永久型【答案】B64下列不属于数据库架构混合应用模式的是O?A.OldSQL+NewSQL混合模式B.OIdSQL+NoSQL+NeWSQL混合模式ClOIdSQL+NoSQL混合模
13、式D.NewSQL+NOSQL混合模式【答案】B65下列不属于大数据抽取方式的是O?A.同构同质数据抽取B.异构同质数据抽取cl同构异质数据抽取D.文件型数据抽取【答案】B下列不属于增量数据抽取特点的是O?A.抽取发生变化的数据B.快捷C.1处理量更多D.需要与数据装载时的更新策略相对应【答案】C67下列不属于地域空间可视化展现的功能的是O?A.认识功能B.模拟功能cl载负功能D.学习功能【答案】D68时间戳是能表示一份数据在某个特定时间之前已经存在的、完整的、可验证的一个数据,其通常是O?A.一个数据集B.一个字符序列C.一个日志文件D.一段储存代码【答案】B69下列不属于基于时间戳的增量数
14、据抽取方式的优点的是O?A.性能优异B.系统设计清晰cl数据抽取简单D.对业务系统无其他要求【答案】D70下列不属于MD5(消息摘要算法)的特点的O?A.对源系统的倾入性较小B.被动地进行全表数据的比对C.性能优异D.准确性不稳定【答案】C71下列不属于数据清洗的是O?A.检查数据的完整性B.1修改数据cl填补数据D.消除重复【答案】B72下列不属于数据质量的要素的是O?A.准确性B.J完整性cl异质性D.及时性【答案】C73下列不属于数据质量一致性的是()?A.数据编码一致性B.数据大小一致性1.c.指标统计一致性D.指标计算一致性【答案】B74【答案】D卜.列不属于数据清洗算法标准的是O?
15、A.返回率【B】错误返回率C.正确返回率(D.J精确度【答案】C76下列不会造成文本记录重复相似的是()?A.插入B.交换C.等价表述D.删除冗余【答案】D77下列不属于文本相似度计算的应用领域的是O?A.信息检索B.数据挖掘C.文档修改D.机器翻译【答案】C78下列不属于文本相似度计算流程的是()?A.文本排序B.文本分词cl统计词频D.写出词频向量【答案】A79增量数据抽取方式只抽取O?A.PB级数据B.不变数据C.变化数据D.有价值数据【答案】C数据清洗算法的衡量标准主要包含()、错误返回率和精确度。A.冗余度B.返回率C.1可用性D.一致性【答案】B卜.列不属于数据转换中适合对数转换的
16、数据是O?A.部分正偏态数据B等比数据(Cl等差数据D.数值相差不大的数据【答案】C卜.列不属于数据转换中适合平方根转换的数据是O?A.)泊松分布数据B.轻度偏态数据(Cl样本方差和平均数呈现正相关的数据D.数值相差不大的数据【答案】D噪声是指测量数据中的O?【A.】随机误差B均值Cl方差【D.】极差【答案】A卜列不属于地图的构成要素的是O?A.图形要素B.价格要素(cl数学要素D.辅助要素【答案】B85下列不属于数据平滑方法的是O?A.移动平均法B.最大最小值标准化C.指数平滑法D.分箱平滑法【答案】B86下列不属于移动平均法的是O?A.一次移动平均法B.二次移动平均法cl混合移动平均法D.
17、1多次移动平均法【答案】C87下列属于一次移动平均法的适用范围的是O?A.水平变动的时间序列数据B.长期变动趋势的时间序列数据C.循环性变动的时间序列数据D.季节变动趋势的时间序列数据【答案】A88下列属于二次移动平均法的适用范围的是O?A.水平变动的时间序列数据B.长期变动趋势的时间序列数据cl循环性变动的时间序列数据D.直线上升或下降趋势的时间序列数据【答案】D89下列不属于指数平滑法的适用范围的是O?A.稳定变化态势的时间序列数据B.不稳定变化的时间序列数据C.规则变化的时间序列数据D.直线上升或下降趋势的时间序列数据【答案】B90下列不属于指数平滑法的适用范围的是O?A.近期趋势预测B
18、.短期趋势预测C.中期趋势预测D.1长期趋势预测【答案】D91下列不属于分箱平滑法参照的是O?A.箱内数值的均值B.箱内数值的中值C.箱内数值的边界值D.箱内数值的方差【答案】D92数据规范化是将原来的度量值转换为O?A.无量纲的值B.原来度量值的均值cl原来度量值的方差D.1原来度量值的极差【答案】A卜.列不属于数据规范化的作用的是O?【A.】加快学习速度B规范事物概念(C.避免单位的影响D.呈现数据的集中程度【答案】D94假定某属性X的最小值、最大值分别为12000和98000,将属性X映射到0,1中,根据最小最大规范化方法,X的值73600(设定值)将转换为O?A.0,716B.0.61
19、6C.J0.516D.0.816【答案】A95Z分数规范化方法依据的是原始数据的O?A.均值和中位数B.1中位数和极差cl极差和方差D.均值和标准差【答案】D96如果X的平均值和标准差分别为54000和16000。使用z分数规范化方法,X的值73600被转换为O?A.1,125B.J1.025C.J1.225D.1325【答案】CZ分数规范化方法中对于离群点,均值绝对偏差相比标准差O?A.更有效B.更平稳cl更精确D.更鲁棒【答案】D98小数定标规范化方法中,其小数点移动的位数依赖于O?A.最大绝对值B.最小绝对值C.均值绝对值D.中位数绝对值【答案】A99数据平滑方法主要有指数平滑法、移动平
20、均法和O?A.统计法B.最短距离法c.l分箱平滑法D.聚类方法【答案】C100数据规范方法主要有最小最大规范法、Z分数规范法和O?A.极差规范法B.小数定标规范法C.)模糊规范法D.聚类方法【答案】B101下列不属于数据约简策略的是O?A.特征约简B.样本约简1.c.数值约简D.文本约简【答案】D102下列不属于特征约简的步骤的是()?A.搜索过程B.填补过程cl评估过程(DJ分类过程【答案】B103【答案】B104系统抽样又称之为O?A.随机抽样B.J等距抽样C.1分层抽样D.类型抽样【答案】B105下列不属于影响突出对比的可视化展现是O?A.比例选择B颜色使用(Cl图形形状D.图形内容【答
21、案】D106下列不属于检验假设方法的是O?A.提出假设B.选择统计量【C.】修正统计量D.根据显著性水平进行判断【答案】C107分层抽样又称之为O?A.随机抽样B.等距抽样1.c.系统抽样D.类型抽样【答案】D108数据立方体是一类多维矩阵,让用户从多个角度探索和分析数据集,通常是一次同时考虑几个维度O?A.一个B.1两个C.三个D.四个【答案】C109三维的数据立方体看作是一组类似的互相叠加起来的O?A.一维表格B.二维表格cl三维表格D.四维表格【答案】B110【答案】C维数灾难通常是指在涉及O计算的问题中,随着维数的增加,计算量呈指数倍增长的一种现象。A.数字B.文本cl向量D.矩阵【答
22、案】C112下列不属于维数灾难问题的特点O?A.计算量巨大B.1成本降低C.结果不理想D.无法反映数据的本质特征【答案】B113下列不属于数据约简的特点O?A.计算量巨大B.成本降低cl较少存储量D.方便分类【答案】A114下列不属于数据约简的分类基准的是O?A.约简维数的大小B.1成本的大小C.数据时序D.有无监督信息【答案】B115下列不属于数据约简中有无监督信息分类的是O?A.监督式维数约简B.半监督式维数约简(C.非监督式维数约简D.混合式维数约简【答案】D116下列不属于无参数值约简技术的是O?A.直方图B.1聚类C.选择D.线性回归模型【答案】D117下列不属于信息孤岛带来的问题的
23、是O?A.数据不能共享B.冗余数据C.数据优化D.垃圾数据【答案】C118数据集成最兔杂和困难的任务是O?A.数据插补B.数据格式转换C.数据修改D.冗余数据处理【答案】B119下列不属于数据集成的核心问题是O?A.有效性B.异构性C.分布性D.自治性【答案】A下列不属于数据集成的构成方式的是O?A.联邦数据库集成模式B.1中间件集成模式C.数据仓库集成模式D.地区数据库集成模式【答案】D121大数据需要分析的是O?A.发展趋势B.发展现状C.发展模式D.发展制度【答案】A122大数据分析的核心是O?A.数据收集B.1数据管理C.1数据挖掘D.数据交易【答案】C123下列不属于数据挖掘的特点的
24、是O?A.数据量大B.目标清晰CJ处理不同类型的数据D.结果不易解释【答案】B124下列属于数据分析的特点的是O?A.数据量大B.目标不清晰C.1处理不同类型的数据D.结果不易解释【答案】A125从分析的结果上看,大数据分析主要分为O?A.探索性数据分析、 B.证实性数据分析、 (c l探索性数据分析、 D.探索性数据分析、 【答案】A证实性数据分析、定性数据分析定性数据分析、离线数据分析定性数据分析、离线数据分析证实性数据分析、离线数据分析126从分析方式上看,大数据分析主要分为O?A.在线数据分析、离线数据分析、交互式数据分析B.交互式数据分析、在线数据分析、定性数据分析C.定性数据分析、
25、离线数据分析、交互式数据分析D.离线数据分析、在线数据分析、定性数据分析【答案】A127探索性数据分析是基于什么角度来说明数据分析方法的()?A.数据本身B.数据范围cl模型假设D.统计推断【答案】A128下列不属于探索性数据分析的特点的是O?A.分离出数据的模式B.分离出数据的特点cl揭示数据对模型的偏离D.计算模型对数据的拟合度【答案】D129下列不属于探索性数据分析的内容的是O?A.检查数据错误B.填补数据缺失cl获取数据分布特征D.观察数据规律【答案】B130下列不属于数据位置特征的是O?A.均值B.1中位数C.方差D.四分位数【答案】C131下列不属于数据分散性特征的是O?A.均值B
26、.极差C.方差D.变异系数【答案】A132统计学是收集、分析、表述和O的科学?A.整理数据B.1计算数据cl填补数据D.解释数据【答案】D统计的基础是O?A.统计工作B计算数据cl统计数据D.统计科学【答案】A134下列不属于模型的组成的是O?A.目标B.1数据C.变量D.关系【答案】B135下列不属于相关系数的是O?A.简单相关系数B.复相关系数cl典型相关系数D.常态相关系数【答案】D136下列不属于相关分析的是O?A.线性相关分析B.1复相关分析C.偏相关分析D.距离分析【答案】B137下列不属于回归分析的步骤的是O?A.确定自变量与因变量B.对变量进行分类C.根据变量进行回归建模D.模
27、型检验【答案】B138下列不属于回归分析的类别的是O?A.一元回归分析B.二元回归分析C.多元回归分析D.线性回归分析【答案】B139下列不属于判别分析的类别的是O?A.两组判别法B.多组判别法C.1逐步判别法D.面积判别法【答案】D140下列不属于判别方法的是O?A.最大似然法B.1最小二乘法C.距离判别法D.贝叶斯判别法【答案】B141Z分数规范化方法中,下列可以替换标准差的是O?A.均值B.方差cl极差D.平均值绝对偏差【答案】D下列不属于确定样本子集大小的因素的是O?A.计算成本B.1存储要求cl估计量的范围D.估计量的精度【答案】C二、判断题1计算机科学是算法与算法变换的科学。OA.
28、VB.【答案】A计算机科学是算法与算法变换的科学。2数据科学是通过科学方法探索数据,以获得有价值的发现。OA.VB.【答案】A数据科学是通过科学方法探索数据,以获得有价值的发现。3数据科学的发展不仅可以推动学科的发展,而且能够助推相关产业的发展与进步。OA.VB.【答案】A数据科学的发展不仅可以推动数学、计算机科学、人工智能、统计学、天体信息学、生物信息学、计算社会学等学科的发展,而且能够大力助推相关产业的发展与进步。4数据科学家不需要具备计算机科学、统计学的知识和应用领域的行业经验。OA.VB.【答案】B数据科学家需要具备计算机科学、统计学的知识和应用领域的行业经验。Cyber空间是指以计算
29、机技术、现代通信网络技术、虚拟现实技术等信息技术的综合运用为基础,以知识和信息为内容的新型空间。()A.VB.【答案】ACyber空间是指以计算机技术、现代通信网络技术、虚拟现实技术等信息技术的综合运用为基础,以知识和信息为内容的新型空间。数据能够记录人类的行为,包括工作、生活和社会的发展。OA.VB.【答案】A数据能够记录人类的行为,包括工作、生活和社会的发展。研究数据仅仅包括数据采集和数据分析。()A.VB.【答案】B研究数据主要包括数据采集、数据存储和数据分析。数据加工与传统数据处理的不同之处在于,其更加强调数据处理中的增值过程。OA.VB.【答案】A数据加工与传统数据处理的不同之处在于
30、,其更加强调数据处理中的增值过程。大数据只来自互联网世界。OA.B.【答案】B大数据主要来自互联网世界与物理世界。数据类型包括结构化数据、非结构化数据和半结构化数据。OA.B.【答案】A数据类型包括结构化数据、非结构化数据和半结构化数据。11网页数据是一种半结构化数据。OA.B.【答案】A网页数据就是一种典型的半结构化数据。12批量计算是一种在线计算,支持海量作业并发规模,系统自动完成资源管理、作业调度和数据加载,并按实际使用量计费。OA.B.【答案】B批量计算是一种离线计算。13静态数据是流式数据。()A.B.【答案】B静态数据不是流式数据。14流式计算适用于无须先存储,可以直接进行数据计算
31、,实时性要求很严格,但对数据的精确度要求较宽松的应用场景。()A.7B.【答案】A流式计算适用于无须先存储,可以直接进行数据计算,实时性要求很严格,但对数据的精确度要求较宽松的应用场景。实时计算系统的设计需要考虑高延迟、高性能、分布式、可扩展、高容错。OA.B.【答案】B实时计算系统的设计需要考虑低延迟、高性能、分布式、可扩展、高容错。16流式查询主要有两种方式,一种是指定查询,另一种是即席查询,OA.B.【答案】A流式查询主要有两种方式,一种是指定查询,另一种是即席查询,17流式数据的处理是批量处理。OA.B.【答案】B流式数据的处理也是连续处理,而不是批量处理。18流式计算不宜用持久稳定关
32、系建模,而适用瞬态数据流建模。OA.B.【答案】A流式计算不宜用持久稳定关系建模,而适用瞬态数据流建模。19为了更有效地处理数据,应该尽可能地限制静态数据。OA.B.【答案】A为了有效地处理数据,人们应该尽可能地限制静态数据。20大数据的无序性是指各数据流之间无序,而同一数据流内部各数据元素之间是有序的。OA.B.【答案】B大数据的无序性是指各数据流之间无序,而同一数据流内部各数据元素之间也无序。21MaPRedUCe由MaP和RedUCe两个阶段组成,用户只需要编写MaP和RedUCe两个函数就可以完成简单的分布式程序的设计。OA.B.【答案】AMapReduce由M叩和Reduce两个阶段
33、组成,用户只需要编写M叩和Reduce两个函数就可以完成简单的分布式程序的设计。22M叩相对独立且并行运行,对存储系统中的文件按列处理,并产生键值对。OA.B.【答案】BMaP相对独立且并行运行,对存储系统中的文件按行处理,并产生键值对。23在HadooP中,将每一次计算请求称为一个作业。()A.B.【答案】A在Hadoop中,将每一次计算请求称为一个作业。24与分布式文件系统相比,MaPRedUCe框架可定制性强。()A.B.【答案】A与分布式文件系统相比,MapReduce框架还有一个特点就是可定制性强。25通常一个作业的输入都是基于分布式文件系统的文件,而对于一个M叩任务而言,它的输入是
34、输入文件的一个数据块,或者是数据块的一部分,也可跨越数据块。OA.7B.【答案】B通常一个作业的输入都是基于分布式文件系统的文件,而对于一个M叩任务而言,它的输入是输入文件的一个数据块,或者是数据块的一部分,但通常不跨越数据块。26Reduce任务与M叩任务的最大不同是Map任务的文件都存储于本地,而Reduce任务需要到多处采集。OA.B.【答案】AReduce任务与M叩任务的最大不同是M叩任务的文件都存储于本地,而Reduce任务需要到多处采集。27MapReduce模型适用场景的特点是任务可被分解成相互联系的子问题。()A.B.【答案】BMaPRedU8模型适用场景的特点是任务可被分解成
35、相互独立的子问题。28可视分析是一种独立式的图形用户界面模型。()A.B.【答案】B可视分析是一种交互式的图形用户界面模型。29在单词计数的Map过程中需要将文件进行按列分割。OA.B.【答案】B在单词计数的Map过程中需要将文件进行按行分割。30在单词计数中,RedUCe方法的输入参数key为单个单词,而VaIUe是由各M叩Per类上对应单词的计数值所组成的列表,所以只要遍历value并求和,即可得到某个单词出现的总次数。()A.B.【答案】A在单词计数中,RedUCe方法的输入参数key为单个单词,而VaIUe是由各M叩Per类上对应单词的计数值所组成的列表,所以只要遍历value并求和,
36、即可得到某个单词出现的总次数。31WordCount完成的功能是统计输入文件中的每个单词出现的频率()A.B.【答案】BWordCount完成的功能是统计输入文件中的每个单词出现的次数。32在MapReduce程序执行过程中,用户程序中的M叩RedUCe类库首先将输入文档进行分割,用户也可以通过设置参数对其大小进行控制()A.7B.【答案】A在MapReduce程序执行过程中,用户程序中的M叩RedUCe类库首先将输入文档进行分割,用户也可以通过设置参数对其大小进行控制。33在MaPRedUCe程序执行过程中,由MaSter负责分配任务,分配的原则是MaSter选择空闲的Worker并为其分配
37、一个MaP任务或一个Reduce任务()A.B.【答案】A在MapReduce程序执行过程中,由MaSter负责分配任务,分配的原则是Master选择空闲的Worker并为其分配一个Map任务或一个Reduce任务。34网站外部数据主要包括互联网环境数据、竞争对手数据、合作伙伴数据和用户数据等。OA.B.【答案】A网站外部数据主要包括互联网环境数据、竞争对手数据、合作伙伴数据和用户数据等。在MapReduce程序执行过程中,MaP和Reduce函数接收的都是键值对。()A.B.【答案】A在MapReduce程序执行过程中,MaP和Reduce函数接收的都是键值对。36MapReduce模型通过
38、将数据集的大规模操作分发给网络上的各节点,每个节点将已完成的工作和状态更新,周期性地报告给WorkeroOA.7B.【答案】BMaPRedUCe模型通过将数据集的大规模操作分发给网络上的各节点,每个节点将己完成的工作和状态更新,周期性地报告给MaSter。37MapReduce的基本原理就是将大数据分成小块逐个分析,最后将提取出来的数据汇总分析,进而获得需要的结果。OA.B.【答案】AMapReduce的基本原理就是将大数据分成小块逐个分析,最后将提取出来的数据汇总分析,进而获得需要的结果。38MaPRedUCe模型中,M叩针对每一个输入元素都要生成一个输出元素,RedUCe针对每一个输入列表都要生成一个输出元素.OA.7B.【答案】AMaPRedUCe模型中,M叩针对每一个输入元素都要生成一个输出元素,RedUCe针对每一个输入列表都要生成一个输出元素。39通常情况下如果集群的规模在百个节点以上,M叩RedUCe的速度可以和节点的数目成正比。()A.B.【