航班数据

概览

重点:使用EsgynDB查询结构化数据。

在该演示场景中,您可以通过处理存储于EsgynDB表的结构化数据,了解EsgynDB的基本功能。

关于本数据集

航班数据集是非常简单的,包括一个事实表和几个小维度表。数据是2016年1-3月的美国各大商业航空公司的到达准点率数据,均来自美国交通部。1月和2月的数据已经加载完毕。您可以加载3月的数据,完整的数据集有近140万行。

该示例数据集的schema是FLIGHTS,包括以下各表:

  • ONTIME– 事实表
  • AIRPORT – 机场IATA代码和机场全称的维度表
  • CANCELLATION – 航班取消原因的维度表
  • CARRIER_HISTORY – 航空公司IATA代码和航空公司全称的维度表
  • WEEKDAY – 星期代码和描述的维度表
  • YESNO_RESP – yes/no代码和描述的维度表

探索数据

下表描述了您可以从edbci、EsgynDB Manager Query Workbench或DbVisualizer运行的示例查询。所有的查询文件都位于C:\EsgynDB\queries。查询均添加了很多注释,以便您了解查询的编写和更改。

文件查询描述查询类型
query1.sql2016年1月6日,旧金山(SFO)至纽瓦克(EWR)的美联航准点航班信息。简单的lookup查询,小结果集。运营型报告查询。重点是MDAM的使用。
query2.sql2016年1月,美国航空公司起飞延误最严重的10个航班。BI查询。需要全表扫描。
query3.sql航空公司延误的航班百分比。聚合汇总报告查询。
query4.sql如果有一趟航班延误,该周各天的平均起飞延误时间。BI查询
query5.sql每天取消的航班数(根据取消原因分类)。报告查询
query6.sql备降航班最多的日期,以及备降的详细信息。BI查询
query7.sql上周飞往芝加哥延误超过120分钟(含120分钟)的航班。运营型报告查询
query8.sql上周延误超过240分钟(含240分钟)的航班。运营型报告查询
query9.sql在1月第一周和2月第一周的同一天延误的飞往旧金山(SFO)的航班。运营型报告查询

导入数据

演示系统的ONTIME表已经加载了2016年1月和2月的数据。现在,您可以使用ODB数据加载工具,加载C:\EsgynD\data的mar16_ontime.csv文件中2016年3月的数据。ODB是一个强大的并行数据加载工具,可以单独启动并发的加载流。还可以根据数据,设置很多其他的选项,以优化加载时间。C:\EsgynDB 中的load脚本文件已经设置了这些选项。加载数据之前,您可以观看关于该加载的ODB设置视频并查看此处已执行的加载。

双击C:\EsgynDB\load文件,加载新的数据。根据提示,指定加载文件的DSN(数据源名称)和位置,并指定加载的目标文件。按“enter”键,使用默认值,然后按“Y”确认选择并运行脚本。

视频