Esgyn公司是高科技行业的新星,我们的使命是创建并培育Apache® Hadoop生态系统中的企业级事务型和运营型SQL。但是有很多公司都在解决SQL-on-Hadoop的问题,我们的优势是什么?本文中,我就这个话题展开了讨论。

Esgyn和普通的初创公司有所不同,我们已经创建了一个产品并将其开源(正在孵化的Apache Trafodion数据库管理系统)。另外,我们已经拥有一支具有凝聚力的30人团队,有些员工在关系型数据库领域已共事27年。

我们在数据库领域的渊源可以追溯到天腾电脑公司(Tandem Computer)的天腾数据库团队(Tandem Database Group)。这个团队的成员包括Jim Gray、Don Slutz、Franco Putzolu等杰出的数据库先驱,他们共同开发了行业内第一个高性能、线性扩展、可容错的SQL引擎——NonStop™ SQL。Esgyn经验最丰富的成员正是来自那支团队,他们于上世纪80年代末加入了天腾数据库团队,负责NonStop™ SQL的第二和第三版。

NonStop SQL(以及天腾)在联机事务处理(OLTP)市场取得了很大的成功。90年代中期,得益于其线性扩展和并行查询的能力,人们开始将NonStop SQL应用于当时新兴的决策支持领域。但是,其自下而上的优化架构和迭代程序式的运行时流尚未为较大的查询进行优化。因此后来对此进行重写,出现了NonStop SQL/MX。(第一代的Nonstop SQL引擎被重新标签为SQL/MP。)这个第二代引擎的优化器是基于Goetz Graefe创建的Cascades框架。该运行时引擎使用队列通信的运营商的数据流架构。原则上,这便于将并行性引入查询计划的任意一点,因为并行分布运算符(我们称之为“交换运算符”)总是能够取代队列。NonStop SQL/MX 的主要架构师Pedro Celis 后来成为了开发Microsoft SQL Server™的重要领导者。

Microsoft对NonStop SQL/MX非常感兴趣,出资赞助了在Windows NT™上使用SQL/MX端口的集群解决方案的开发。可惜,这次尝试并未满足商业需求,于1999年退出了市场。但是,NonStop SQL/MX在NonStop Kernel平台上继续进行开发。

2006年,天腾被康柏公司收购,与惠普合并。惠普公司看到了在企业数据仓库(EDW)中应用NonStop SQL/MX技术的机会。惠普的Neoview产品构建在该引擎的基础上,可扩展至512个节点。要对优化、混合工作负载和查询管理技术进行大量投资才能实现这种规模的扩展。在OLTP系统,通常都是较小的查询,偶尔会有较大的报表查询。而在EDW,最小查询和最大查询的行数可以相差十亿或更多。要使所有类型的查询都具有良好的性能,就要拥有先进的工具和技术。

2011年,惠普公司决定退出EDW市场,撤回了Neoview。但是,HP-IT依然在三台Neoview机器上运行业务。后来,SeaQuest将Neoview的软件栈移植到Linux集群上。SeaQuest解决方案于2012年投入使用,取代了HP-IT所有的Neoview系统。

同样是2011年,Rob Schauble(现任HP-IT副总裁)加入了Neoview/Seaquest开发团队,他看到了这项技术的潜力,立志要再次找到商业化的办法。经过一番实验,发现这项技术最适合应用于Hadoop领域。目前,SQL-on-Hadoop解决方案主要专注于分析。但是,今后会将事务型和运营型应用程序也移植到Hadoop。尽管尚缺乏查询语言而且事务支持仅限于单行,但是HBase似乎颇具潜力。对于经验丰富的数据库引擎开发团队及其具备的成熟技术来说,这是一次很好的机会。

在惠普实验室的资助下,团队将大部分的Seaquest引擎移植到HBase上,从而推出了Trafodion。Trafodion是企业级的事务型和运营型SQL-on-Hadoop解决方案,2013年12月首次发布测试版,2014年6月发布开源版本。之后,我们继续对Trafodion进行开发和改进。2015年5月,Trafodion成为Apache的孵化项目。

2015年7月,Esgyn公司成立,公司的30名成员都来自Neoview/SeaQuest团队,致力于Trafodion技术的发展。

从Tandem NonStop SQL、NonStop SQL/MX到HP Neoview、SeaQuest再到现在的Trafodion,我们具有漫长而深厚的渊源,数据库管理系统的工程师团队拥有丰富的市场经验。数据库是一个迷人的领域,我们始终孜孜不倦,期待着更多有趣的工作。