不断成熟的Hadoop生态系统依然存在不足之处

最近,随着Hortonworks宣布推出由Apache HAWQ支持的Hortonworks HDB,Hortonworks和Hadoop周围的生态系统也不断发展。Hadoop已有10年的历史,虽然其相关性常常遭受质疑,但依然是很多全球性企业Big Data项目的关键基础。

随着基础技术的不断发展,自主创新起着至关重要的作用,客户和开发人员不得不自行解决各种问题。但这样的尝试需要进行昂贵的实验,可能会使客户受挫。Hortonworks提供受支持的互补开源软件,帮助客户和开发人员。但是客户在决定使用这些产品之前,必须先考虑一些关键的问题:不管使用何种技术,都要大量投资于培训、技能获取、围绕技术构建工具基础设施,以及设计、调优和运营工作。这些投资不仅限于初步的部署阶段,在未来跨项目、跨工作负载的部署中也要进行此类投资。只有这样,技术才能产生回报。但是大多数公司不具备高技能的受薪专家团队。专家是稀缺人才,雇佣专家需要经过审慎的考虑。观看研讨会

在Big Data蓬勃发展的背景下,Hortonworks HDB对各个企业来说意味着什么?

  • 需要基于SQL访问Big Data。需要基于SQL的解决方案,以快速访问锁定在Hadoop中的数据。越来越多的企业都在投资创建数据湖并不断填充数据,所以要找到一种简单的方式,获取数据库中的数据并进行相关的查询和分析,从而为企业带来价值。
  • IT需要在Big Data提供价值方面发挥更大的作用。由于企业内部组织的动态性,数据的所有权和访问是非常棘手的问题。企业可能会雇佣数据专家进行高级分析,但是IT部门可能无法雇佣专家为应用程序提供支持。
  • 从更多的数据中获取更多信息。复杂分析和MapReduce算法是当前的主要关注点,其本质都是批处理。由于分析工作负载是通过Hadoop MapReduce作业或基于SQL的解决方案来承担的,因此IT意识到他们可以利用Big Data,使一些运营型工作负载和不太重要的事务型工作负载托管在IT的数据湖中。由于企业需要从Big Data的投资中获取更多利益并且IT也想要满足这样的需求,这样的意识越发深入了。
  • ANSI SQL是必不可少的。 由不同供应商支持的很多开源项目开始提供SQL支持,很多开发人员测试了自身Big Data的实现情况,也对其使用的SQL支持感到满意。最初的应用程序通常由ISV或解决方案供应商提供。现在越来越多的IT应用程序使用Big Data和企业数据湖,因此必须更完整地支持ANSI SQL,实现目前基于SQL的应用程序的现代化,使其可以利用数据湖中整合的企业数据。
  • 分析引入数据库。Big Data可以增强决策力、提供新的服务、产生更高的收益。若要提高决策力,关键是对数据湖中的企业数据进行高级分析。对很多IT部门来说,数据的迁移和复制是其中的一大瓶颈。由于出现了Big Data平台上的SQL引擎,IT部门和数据专家都希望使用基于SQL的查询来从数据库中进行分析,并通过可扩展的UDF运行复杂的算法。
  • 专有的RDBMS供应商对Hadoop的支持是多此一举的。很多专有的RDBMS供应商都声称支持Hadoop,但其实是将数据从Hadoop中取出,转化为其专有的存储格式用于执行查询。这不仅与企业数据湖的用途相悖,还增加了数据迁移和复制中的复杂性和延迟度,使IT部门难以保持数据的同步。
  • 不断增长的性能需求。由于数据的数量、种类和速度不断增长,Big Data应用程序处理的复杂查询的连接数量和数据类型(结构化、半结构化、非结构化)也不断增加,SQL引擎正在经受性能考验。

Hadoop SQL引擎状态

无论是选择Apache HAWQ HDB还是其他SQL数据库时,都要注意到客户目前的解决方案问题:

  • 不恰当的内存管理会降低性能、破坏集群的稳定性(即使是最简单的查询)。
  • 使用效率低下的并行会增加响应时间、降低吞吐量。
  • 无法连接大量的表会迫使开发人员编写复杂且低效的MapReduce作业。
  • 缺乏复杂查询的优化技术会降低查询性能。
  • 无法支持更新,尤其在读取时(只能访问不可变的数据)。

Esgyn的宗旨

EsgynDB致力于解决上述问题,成为成熟的第四代SQL引擎。以下是EsgynDB的基本宗旨:

  • Big Data“民主化”和高性能计算。当前的各种Big Data项目都要求具备各项新技能。我们认为,要实现构建、维护、使用Big Data的“民主化”,从而使企业从现有的资源中获取利益。我们通过Apache Trafodion提供开源代码,使SQL的开发人员可以利用成熟的第四代SQL引擎EsgynDB,转换现有的基于SQL的应用程序,从而直接使用企业数据湖中的数据。
  • 加速企业数据湖的回报。越来越多的客户都部署数据湖,他们想知道如何从中获取价值。我们认为,基于SQL的解决方案是唯一的答案。
  • 将所有的工作负载引入单个SQL数据库。Esgyn可以处理所有的工作负载(包括读写、连接、运营型查询、ACID事务和分析)。目前市场上大多数的SQL引擎都侧重于分析工作负载,而忽略了要从Big Data中获取更多价值。
  • 最大程度减少数据的迁移和复制。创建数据湖并流入数据之后,应用程序就不应该对数据湖中的数据进行迁移或复制。而EsgynDB减少了数据迁移和复制的需求。虽然专有RDBMS的供应商可能没有这个问题,但是运营型数据存储和BI一直受到数据迁移的制约。通过EsgynDB托管运营型工作负载,您可以减少从专有的运营型系统中进行数据的迁移和复制。同时,由于EsgynDB使您可以在同一个Big Data平台上通过SQL快速处理数据,因此您无需聚合或复制数据湖中的数据。
  • 对于SQL引擎,经验和成熟度是非常重要的。冰冻三尺,非一日之寒。虽然Big Data的创新是一件好事,但Esgyn依然为其来自Tandem和HP的继承感到自豪。几十年来,我们进行了大量投资,致力于完善SQL引擎,使全球企业能够运行所有类型的工作负载。
  • 需要针对不同的Big Data存储格式,优化SQL引擎。在专有的RDBMS中,供应商会优化查询引擎和存储引擎的集成,以加快并行处理的速度,提供卓越的性能。但如果是基于Hadoop或其他存储格式的开源Big Data解决方案,则应该由SQL查询引擎优化与存储引擎的集成,实现更高的性能。EsgynDB使用独特的可插拔数据管理方式,与HBase、Hive、ORC(都针对相关的数据模型、工作负载、性能特点进行了优化)深度集成。

在您选择之前

您可以使用我们为您整合的信息,比较不同的SQL-on-Hadoop引擎。

  • 下载清单,比较不同的SQL引擎。
  • 下载SQL引擎要求,向您的SQL-on-Hadoop供应商提出问题。

欢迎参加我们7月12日10:00(太平洋时间)举办的网络研讨会