开源大数据查询分析引擎现状

Dremel促使了实时计算系统的兴起,Pregel开辟了图数据计算这个新方向,Percolator使分布式增量索引更新成为文本检索领域的新标准,Spanner和F1向我们展现了跨数据中心数据库的可能

Dremel

Dremel: Interactive Analysis of WebScaleDatasets

Google Dremel 原理 – 如何能3秒分析1PB

Google BigQuery:https://cloud.google.com/bigquery/ dremel在google的最终实现

Apache Trevni : https://cloud.google.com/bigquery/ 对dremel中的列存储的实现的开源项目

Cloudera Impala : http://impala.io/ 很大一部分程度上借鉴了dremel query engine的设计思路

Apache Drill : http://drill.apache.org/ dremel开源项目

Open Dremel : http://code.google.com/p/dremel/ 山寨版dremel(从名字就能看出来)

Pregel

Pregel: A System for Large-Scale Graph Processing

图的分布式计算框架,不过多涉及图的存储。

Caffeine、Percolator

Large-scale Incremental Processing Using Distributed Transactions and Notifications

Spanner

Spanner: Google’s Globally-Distributed Database

F1

F1 – The Fault-Tolerant Distributed RDBMS Supporting Google’s Ad Business  (ppt)

F1: A Distributed SQL Database That Scales  (pdf)

在Google的第二波技术浪潮中,基于Hive和Dremel,新兴的大数据公司Cloudera开源了大数据查询分析引擎Impala,Hortonworks开源了Stinger,Fackbook开源了Presto。类似Pregel,UC Berkeley AMPLAB实验室开发了Spark图计算框架,并以Spark为核心开源了大数据查询分析引擎Shark

Storm

使用 Twitter Storm 处理实时的大数据

实时大数据分析

Real-Time Big Data Analytics: Emerging Architecture

大数据的实时分析与应用案例分享

大数据实时更新框架 (网易有道)

腾讯大数据之 –实时精准推荐

商业智能系统(BI系统)是利用数据分析技术来辅助商业决策的一套系统。它通常包括3种应用:Data Reporting、OLAP和Data Mining。这个大家可以在网上找到大量的材料,这里只做简要介绍。这3种应用内在本质呈现如下趋势:分析维度从少到多,计算复杂度从低到高,从以人为主转为以机器为主。

Data Reporting应用主要是那些静态报表,简单查询报表及Dashboard等,展现方式一般比较固定,使用频率比较高,要求响应比较及时,所以每个query涉及的维度会比较少,计算复杂度也较简单,但是并发要求一般比较高,同时要求响应及时。在Reporting上的分析主要以人为主,而计算机系统承担的Query复杂度比较简单,使用简单的数据库系统,甚至是NoSQL存储系统有时即可满足。

OLAP应用主要是指在线(交互式)数据分析,主要指多维度的adhoc分析。一般主要的操作是roll up、drill down和slice/dice。每个分析涉及的维度要多于Reporting,计算复杂度也就相应地提高了,但是并发要求不高,并且响应比报表的要求要低,在秒级。在OLAP上的分析主要以机器为主,人为辅,此时就要求底层是可以支持复杂查询的数据库系统,简单的存储系统已经无法胜任。

Data Mining主要指利用机器学习技术来对数据进行分类或者聚类等分析。分析涉及的维度远超于OLAP所涉及的维度数量,这也就造成分析的复杂度已经超越人类的极限,所以这类数据的分析基本上全部依赖机器运行相应的机器学习算法来完成。这种分析对响应要求不高。由于算法的复杂度异常高,所以对于底层支撑系统来说,更重要的是提供一个高性能的计算系统,对于存储系统基本没有太多要求。

统计类工具的实现原理

腾讯分析系统架构解析

Google Analytics为什么会这么快

Google Analytics & BigQuery: The Whys and Hows

商业智能系统

维度建模

星型模型和雪花模型

事实表与维度表

BIEE

物化视图

存储结构

RCFile: A Fast and Space-efficient Data Placement Structure in MapReduce-based Warehouse Systems

Leave a Reply