《虚拟化与云计算》模拟试卷
姓名: 学号: 院系:
第一部分:选择题(共40分,每题4分)
1) Reducer的三个阶段是()
A。 Shuffle——Sort-—Reduce
B. Shuffle—-Reduce——Sort
C。 Reduce——Shuffle——Sort
D。 Sort——Shuffle——Reduce
2) 下列关于mapreduce的key/value对的说法正确的是()
A. 输入键值对不需要和输出键值对类型一致
B. 输入的key类型必须和输出的key类型一致
C. 输入的value类型必须和输出的value类型一致
D. 输入键值对只能映射成一个输出键值对
1
3) 下面哪一个选项是mapreduce真正的引擎()
A。 Namenode
B. Datanode
C. Job Tracker and Task Tracker
D。 HDFS
4) 下列选项中哪个不是GFS中“Masters”的主要功能()
A. 维护所有文件系统的元数据
B。 周期性地与chunkservers联系来发送指令和检查状态
C。 对于读与写,客户端通过与Master联系来获得chunk的位置,然后直接与chunkservers连接
D. 返回最终的答案给客户端
5) 下列哪个选项不是我们需要Hive的主要原因()
A. 我们需要一个容量为PB级别的数据仓库。
B. 文件是不充分的数据抽象.
2
C。 Hadoop在处理作业方面是不够的。
D. 我们需要一个开发的数据格式。
6) 下面那个不是云计算的特征()
A。 虚拟化
B. 动态可扩展
C。 管理多设备
D. 个体自治
7) Hadoop用来确保数据准确性的方法不包括下面的哪一个()
A. 使用校验和来验证数据
B. 客户端每512字节计算一次校验和,数据节点存储这些校验和
C。 客户端从数据节点中检索数据,如果验证失败,客户尝试别的副本
D。 数据节点中的数据被加密以防止可能的攻击
8) 关于分布式文件系统的说法,不正确的是()
3
A . 分布式文件系统整个集群中有多个namespace
B . 文件被分为大的块,通常为128M
C. 可以通过Java、C或者命令行访问
D. 非常适合对大文件的流式读取
9) 以下错误不是Hadoop能很好解决的()
A。 任务失败
B. 任务追踪失败
C. 连接失败
D. 作业追踪失败
10) 下列哪个选项能正确地在Hive中返回 “查询年龄在18到25岁之间的用户返回的前5页\"的结果()
A.
SELECT p.url, COUNT(1) as clicks
FROM users u JOIN page_views p ON (u.name = p。user)
4
WHERE u。age >= 18 AND u.age <= 25
GROUP BY p.url
ORDER BY clicks
LIMIT 5;
B。
SELECT p。url, COUNT(1) as clicks
FROM users u JOIN page_views p
WHERE u。age >= 18 AND u。age 〈= 25
GROUP BY p.url
ORDER BY clicks
LIMIT 5;
C。
SELECT p.url, COUNT(1) as clicks
5
FROM page_views p ON (u.name = p。user)
ORDER BY clicks
LIMIT 5;
D。
SELECT p。url, COUNT(1) as clicks
FROM users u JOIN page_views p ON (u.name = p。user)
WHERE u。age 〉= 18 AND u。age 〈= 25
GROUP BY p。url
ORDER BY clicks;
第二部分:简答题(共60分,第一大题10分,第二大题20分,第三大题30分)
一、简述MapReduce的主要思想和工作原理(可借助下面的例子),并根据例子画出数据流图
(例子:使用MapReduce解决求商品价格最小问题,输入为商品名称、商品价格、商品网站,输出为商品名称、最小价格、商品网站。
6
输入样例:
Cloud computing 38。4 dangdang.com
Cloud computing 40。5 china-pub.com
Virtualization and cloud computing 35.7 amazon。com。cn
Virtualization and cloud computing 30.8 bookschina。com
Virtualization and cloud computing 36.6 360buy.com
Cloud computing 35.1 amazon.com。cn
输出样例:
Cloud computing 35。1 amazon.com。cn
Virtualization and cloud computing 30。8 bookschina.com)
二、当数据量非常大超过单个机器的存储能力时需要将数据存储在不同的机器上,这时就需要分布式文件系统来管理这些数据,请回答关于分布式文件系统的下列问题:
(1).在设计分布式文件系统时需要注意哪些方面?
(2).原先存储超大文件的分布式文件系统现用来存储大规模小文件,如何对文件系
7
统进行调整使其针对现在文件的特点发挥更好的性能?
(3)。分布式文件系统保证数据不被丢失通常存在多个副本并存储在不同的机器上,当用户对数据进行修改时系统存在两种方案:完成一个副本的修改并给用户响应,之后待系统空闲时完成其它副本的修改;完成所有副本的修改之后给用户响应。请说明两种方案的优劣,并做出你的选择并说明选择原因(或者你有更好的方案?)。
三、在社会计算和移动计算迅猛发展的潮流下涌现了许多著名的互联网公司,假设你和你的朋友也准备加入创业大潮中,建立自己的企业.现假设你们公司的主要业务是移动设备的互联息搜索和挖掘,如使用手机拍下某图书封面就可以得到各个图书网站关于该书的价格及其对图书的评价,拍下某个人的头像可以得到这个人在社交网站的主页以及微博等相关信息,当然你们已经设计了比较好的图形匹配算法及搜索算法,并计划使用云计算来进行处理,根据以上背景回答下面问题:
(1)。你们公司需要构建数据中心现在由你来负责,根据新一代数据中心的需求请说说你在构建数据中心的时候需要注意哪些?
(2)。在数据中心中使用虚拟化技术是必须的,请说说如何部署、管理虚拟化解决方案?你又如何使用商业公司的现有虚拟化产品?
(3)。受经济危机的影响以及公司盈利能力的不确定性,风险投资公司决定减少对你们公司的投资.现在构建数据中心已经不可能了,你需要将业务创建在云计算平台上,
a). 与建立自己的数据中心相比,使用商业公司的云计算平台有什么优点和缺点?
8
b). 云构架的基本层次有哪些?并给出给出各个层次的实例.谈谈你如何在云计算平台上部署公司业务?
c)。 谈谈你对云计算发展的看法。
(注:题中商业公司包括课堂上介绍的IBM、Amazon、Google、Salesforce。com、Microsoft以及其它现实存在的涉及虚拟化、云计算业务的公司)
9
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- huatuo0.cn 版权所有 湘ICP备2023017654号-2
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务