课程围绕在大数据时代下,对大数据人才的迫切需求及技术要求,重点帮助学生们通过课程学习,掌握的大数据思维、大数据存储、大数据处理、大数据分析和大数据应用等五项技术展开教学。核心内容涵盖学术界技术前沿(依托国家自然科学基金、国家重点研发计划项目和国外高校专家资源),并体现工业界最新技术实践(依托企事业项目、知名企业技术专家资源)。课程结合工业界场景设计了多项大数据实践作业考核,提高课程挑战性,促使学生掌握大数据系统设计、开发和验证能力,进而具备解决领域的复杂工程问题的素质。
学堂在线北京邮电大学大数据技术基础(2022春)作业题答案
开课机构:北京邮电大学 教师团队:鄂海红 欧中洪 吴斌 总点击数:
第一章 大数据概述
- 当前大数据技术的基础是由( )首先提出的。 A微软 B百度 C谷歌 D阿里巴巴…
- 下列关于数据交易市场的说法中,错误的是()。 A数据交易市场是大数据产业发展到一定程度的产物 B…
- 数据可视化可以便于人们对数据的理解
- 一般而言,分布式数据库是指物理上分散在不同地点,但在逻辑上是统一的数据库。因此分布式数据库具有…
- 对于大数据而言,最基本、最重要的要求就是减少错误、保证质量。因此,大数据收集的信息量要尽量精确…
- 当前,大数据产业发展的特点是()。 A规模较大 B规模较小 C增速很快 D增速缓慢 E多产业交叉融合…
- 数据再利用的意义在于()。 A挖掘数据的潜在价值 B实现数据重组的创新价值 C利用数据可扩展性拓宽…
- 大数据的应用能够实现一场新的革命,提高综合管理水平的原因是()。 A从被动反应走向主动预见型管…
第二章 大数据存储-分布式文件系统
- 下面哪个程序负责HDFS数据存储?( ) ANameNode BJobtracker CDatanode DsecondaryNameNode e)task…
- Hadoop1.x版本,HDFS默认Block Size?( ) A32MB B64MB C128MB
- 下列哪项通常是集群的最主要瓶颈:( ) ACPU B网络 C磁盘IO D内存
- 关于Secondary NameNode哪项是正确的 A它是 NameNode 的热备 B它对内存没有要求 C它的目的是帮助…
- Client端上传文件的时候下列哪项正确?( ) A数据经过NameNode传递给DataNode BClient端将文件切分…
- MapReduce编程模型中以下组件哪个是最后执行的?() AMapper BPartitioner CReducer DRecordReader…
- 一个MapReduce程序中的MapTask的个数由什么决定?() A输入的总文件数 B客户端程序设置的mapTask的…
- 集中式缓存管理带来的优势:() A提高集群的内存利用率 B满足用户选择合适存储介质的需求 C防止那…
- 下列关于HDFS的描述错误的是:() A如果NameNode宕机,SecondaryNameNode会接替它使集群继续工作 BH…
- 如果NameNode意外终止,SecondaryNameNode会接替它使集群继续工作。
- NameNode负责管理metadata,client端每次读写请求,它都会从磁盘中读取或则会写入metadata信息并反馈…
- 因为HDFS有多个副本,所以NameNode是不存在单点问题的。
- Hadoop自身具有严格的权限管理和安全措施保障集群正常运行。
- Slave节点要存储数据,所以它的磁盘越大越好。
- hadoop dfsadmin–report命令用于检测HDFS损坏块。
- Hadoop默认调度器策略为FIFO
- 集群内每个节点都应该配RAID,这样避免单磁盘损坏,影响整个节点运行。…
第三章 大数据存储-分布式数据库Hbase
- HBase来源于哪篇博文? () AThe Google File System BMapReduce CBigTable DChubby
- HBase依靠()存储底层数据 () AHDFS BHadoop CMemory DMapReduce
- HBase依赖()提供消息通信机制 () AZookeeper BChubby CRPC DSocket
- HFile数据格式中的Data字段用于()。() A存储实际的KeyValue数据 B存储数据的起点 C指定字段的长…
- HFile数据格式中的MetaIndex字段用于()。() AMeta块的长度 BMeta块的结束点 CMeta块数据内容 DMe…
- HBase中的批量加载底层使用()实现。() AMapReduce BHive CCoprocessor DBloom Filter…
- HBase分布式模式最好需要()个节点?() A1 B2 C3 D最少
- 下面对HBase的描述哪些是正确的? A不是开源的 B是面向列的 C是分布式的 D是一种NoSQL数据库…
- MapReduce与HBase的关系,哪些描述是正确的? A两者不可或缺,MapReduce是HBase可以正常运行的保证 B两…
- 下面哪些选项正确描述了HBase的特性 A高可靠性 B高性能 C面向列 D可伸缩…
- 下面哪些概念是HBase框架中使用的? A不是开源的 B是面向列的 C是分布式的 D是一种NoSQL数据库…
- HMaster主要有以下职责:() A为用户提供table的增删改查操作 B发现失效的RegionServer并重新分配…
- Rowkey设计的原则,下列哪些选项的描述是正确的? A尽量保证越短越好 B可以使用汉字 C可以使用字符串…
第四章 大数据处理-MapReduce
- MapReduce的数据处理单位? Ablock Bsplit Cpartition Ddataset
- 下列哪个程序通常与NameNode在一个节点启动? ASecondaryNameNode BDataNode CTaskTracker DJobtr…
- 关于MapReduce原理,下面说法错误的是? A分为Map和Reduce两个阶段 BMap阶段由一系列Map任务组成…
- 关于Block和Split两个概念,下面说法错误的是? ABlock是HDFS中最小的数据存储单位 BSplit是MapR…
- 下列关于MapReduce说法不正确的是______。 AMapReduce是一种计算框架 BMapReduce来源于google的…
- 配置Hadoop时,JAVA_HOME包含在哪一个配置文件中 Ahadoop-default.xml Bhadoop-env.sh Chadoop-si…
- Hadoop配置文件中,hadoop-site.xml显示覆盖hadoop-default.xml里的内容。在版本0.20中,hadoop-si…
- MapReduce框架提供了一种序列化键/值对的方法,支持这种序列化的类能够在Map和Reduce过程中充当键…
- 以下四个Hadoop预定义的Mapper实现类的描述错误的是 AIdentityMapper实现Mapper,将输入直接映射…
- Hadoop 是Java开发的,所以MapReduce只支持Java语言编写。( )
- Hadoop 自身具有严格的权限管理和安全措施保障集群正常运行。( )
- Hadoop 默认调度器策略为FIFO( )
- 每个map槽就是一个线程。( )
- 下面哪几个属于YARN自带的资源调度器 ADeadline Scheduler BFIFO(先进先出) CCapacity Scheduler…
- MapReduce与HBase的关系,哪些描述是正确的 A两者不可或缺,MapReduce是HBase可以正常运行的保证 B两…
- 下列哪个是 Hadoop 运行的模式 A单机版 B伪分布式 C分布式
第五章 大数据的处理-分布式处理框架Spark
- Spark 支持的分布式部署方式中哪个是错误的 ( ) Astandalone Bspark on Mesos Cspark on YARN DS…
- Task 运行在下来哪里个选项中 Executor 上的工作单元 ( ) ADriver program Bspark master Cworke…
- Stage 的 Task 的数量由什么决定 ( ) APartition BJob CStage DTaskScheduler
- 下面哪个不是 RDD 的特点 ( ) A可分区 B可序列化 C可修改 D可持久化
- 下面哪个操作是窄依赖 ( ) Areduce ByKeyBfilter Cgroup Dsort
- 下面哪个操作肯定是宽依赖 ( ) Amap BflatMap CreduceByKey Dsample
- spark.deploy.recoveryMode 不支持那种() AHadoop BFileSystem CNONE DHadoop
- Spark默认的存储级别 ( ) AMEMORY_ONLY BMEMORY_ONLY_SER CMEMORY_AND_DISK DMEMORY_AND_DISK_S…