网友您好, 请在下方输入框内输入要搜索的题目:
题目内容
(请给出正确答案)
1,常用的大数据采集工具有哪些? 2,简要阐述数据预处理原理。 3,数据清洗油哪些方法? 4,阐述常用的ETL工具。
参考答案和解析
(1)Apache Chukwa,一个针对大型分布式系统的数据采集系统,其构建在Hadoop之上,使用HDFS作为存储。 (2)Flume,一个功能完备的分布式日志采集、聚合和传输系统。在Flume中,外部输入称为Source(源),系统输出称为Sink(接收端),Channel(通道)将源和接收端链接在一起。 (3)Scrible,facebook开源的日志收集系统。 (4)Kafka,当下流行的分布式发布、订阅消息系统,也可用于日志聚合。不仅具有高可拓展性和容错性,而且具有很高的吞吐量。特点是快速的、可拓展的、分布式的、分区的和可复制的。
更多 “1,常用的大数据采集工具有哪些? 2,简要阐述数据预处理原理。 3,数据清洗油哪些方法? 4,阐述常用的ETL工具。” 相关考题
考题
大数据的处理流程是()。
A、采集、导入/预处理、数据展示、分析挖掘B、数据展示、采集、导入/预处理、分析挖掘C、采集、导入/预处理、分析挖掘丶数据展示D、导入/预处理、采集、数据展示、分析挖掘
考题
数据库系统一般由哪些部分组成() (1)数据库 (2)数据库管理员 (3)数据库管理系统及其工具 (4)用户 (5)操作系统 (6)应用系统A、1、2、3B、1、2、3、4C、1、2、3、4、5D、全部
考题
以下有关ETL表述不正确的是哪一个()A、ETL由三个子过程构成:数据抽取、数据转换和数据加载B、ETL又可以扩展为可以分为4个步骤:数据抽取、数据清洗、数据转换盒数据加载,即ETCLC、ETL设计涉及到错误恢复过程设计、归档转储过程设计、作业调度过程设计等内容D、根据选用的数据仓库工具将数据从数据源抽取到数据库,然后根据业务规则转换和集成为数据仓库中需要的数据格式,最后将换转的结果装入数据仓库
考题
多选题大数据的利用过程,不包括以下哪些选项()A数据的挖掘B数据的清洗与预处理C数据的变更D数据的编写
热门标签
最新试卷