博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Elasticsearch与hadoop比较
阅读量:4187 次
发布时间:2019-05-26

本文共 1590 字,大约阅读时间需要 5 分钟。

elasticsearch-中elasticsearch是数据源,hadoop作为执行引擎,也就是说数据存储其实还是由elasticsearch来掌管与hdfs无关,另外elasticsearch-hdfs已经停止更新,所以就不要再去尝试将elasticsearch中的index写到HDFS这档子事了。

 

在过去的几年的日志分析领域,开源搜索引擎Elasticsearch已经变得越来越流行。它与其开源的服务器端的日志收集产品Logstash,其开源可视化工具kibana一起组成了ELK分析组合。这个功能强大的组合正蓄势待发。

 

Elasticsearch是一个基于Lucene的分布式搜索服务器。它存储json格式的文档数据,有基于RESTful的操作接口。利用Elasticsearch可以方便的在任何Web应用中集成搜索应用。另外它更有出色的聚合功能(aggregation),能轻松的对数据进行统计分析 ,这一点上Elasticsearch已经超越了其最初的纯搜索引擎的角色,但是如果真正用它来做为复杂的数据分析工具,它能打败hadoop或spark吗?

 

Elasticsearch流行的原因

 

1. Elasticsearch集群实例很容易搭建。

2. 基于json格式的查询语言比开发MapReduce或spark系统更容易掌握。

3. 开发人员可以很方便的将Elasticsearch集成到Hadoop中。

 

这些都是非常引人注目的特性,利用Elasticsearch能快速搭建起一套分析系统。但是否可以认为Elasticsearch就是一个高度可用的数据分析平台了?要成为一个成熟的高可用的数据分析平台,一个高可用的数据存储系统和一套可以支撑复杂数据的计算框架是必不可少的。

 

对于分布式数据存储,Elasticsearch集群中的数据一致性,正是我们担心的问题之一。正常情况下,集群中所有的节点,应该对集群中master的选择是一致的,这样获得的状态信息也应该是一致的,由于Elasticsearch集群中每个节点都是状态维护者,在集群中网络不稳定的情况下就有可能出现集群脑裂(不同的节点对master节点的选择出现了异常)。如图所示正常环境下的Elasticsearch集群。

 

 

当出现网络异常时,主节点丢失,不同的节点对master节点的选择出现了异常。

 

 

这意味着如果要保证数据的一致性和完整性,我们必须把数据储存在一个更可靠的数据库中。

 

与Elasticsearch不同,在Hadoop 里中有效的避免了脑裂情况的出现。如下图

 

 

主namenode维护datanode状态,主备namenode同步信息;保证任何时刻保证只使用一个主namenode来管理集群中的datanode状态。

 

Elasticsearch拥有功能强大的聚合统计和全文搜索功能,可以轻松的用于网络问题分析,如404错误计数,页面浏览量,用户访问统计信息等。但它缺少类似标准SQL中的join或子查询的功能。Elasticsearch不支持查询结果的额外处理或分析的中间数据的输出,也不支持数据集的转换(即一个100万行的表,使用分析处理后,成为另一个100万行的表),故不太适合处理复杂的计算逻辑。

 

相反利用Hadoop的mapreduce或者spark计算框架,我们可以支持处理任何数据聚合和转换工作;我们还可以使用hive或spark SQL来降低我们的开发难度。

 

虽然Elasticsearch存在这些问题,但是它仍然是一个非常优秀的分布式计算框架,而且Elasticsearch可以非常方便的集成在hadoop中,我们也可以用它优秀的数据检索能力来构造自己的查询系统;同时Elasticsearch仍然在不停的版本迭代中,相信未来的版本中Elasticsearch会一步步解决这些问题。

转载地址:http://pojoi.baihongyu.com/

你可能感兴趣的文章
记得那份好
查看>>
书讯 -- Microsoft Office SharePoing Server 2007 新一代企业 Web 解决方案
查看>>
SQL Server 2005豪华盛宴
查看>>
长时间工作才应该开除吧
查看>>
骗稿费
查看>>
书讯 -- 一致化对象与数据的存取 LINQ
查看>>
书讯 -- Microsoft Windows Workflow Foundation Step by Step
查看>>
书讯 -- Essential Business Process Modeling
查看>>
报告班长,我们听不懂
查看>>
SOA 的应用 -- BPM
查看>>
书讯 -- Training Kit:SQL Server 2005 实作与维护 I II
查看>>
书评 -- Inside Microsoft SQL Server 2005 : T-SQL Querying,T-SQL Programming
查看>>
书评 -- Inside Microsoft SQL Server 2005 : The Storage Engine
查看>>
书评--设计模式入门
查看>>
信息花园
查看>>
书评 -- 唯有优秀的团队,才有优秀的成绩
查看>>
从历史学习的 8 堂架构课
查看>>
服务导向架构(Service Oriented Architecture SOA)
查看>>
书评 -- Microsoft SQL Server 2005 Integration Services
查看>>
书评 -- Professional SQL Server 2005 Reporting Services
查看>>