1、数据采集与预处理
Flume NG,实时日志收集系统
Sqoop,用来将关系型数据库和Hadoop中的数据进行相互转移的工具
流式计算strom,spark streaming等
Zookeeper,是一个分布式的,开放源码的分布式应用程序协调服务
2、数据存储
Hadoop,一个开源的框架,专为离线和大规模数据分析而设计,HDFS作为其核心的存储引擎,已被广泛用于数据存储。
HBase,是一个分布式的、面向列的开源数据库
Yarn是一种Hadoop资源管理器,可为上层应用提供统一的资源管理和调度
Redis是一种速度非常快的非关系数据库
3、数据清洗
MapReduce作为Hadoop的查询引擎,用于大规模数据集的并行计算
4、数据查询分析
Hive的核心工作就是把SQL语句翻译成MR程序,可以将结构化的数据映射为一张数据库表
Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。Spark 是在 Scala 语言中实现的,它将 Scala 用作其应用程序框架
5、数据可视化
主流的BI平台比如,国外的敏捷BI Tableau、Qlikview、PowrerBI等,国内的SmallBI和新兴的网易有数等。