Movatterモバイル変換

Apache Drill

出典: フリー百科事典『ウィキペディア（Wikipedia）』

Apache Drill

開発元	Apacheソフトウェア財団

最新版	1.21.2 /2024年6月23日 (9か月前) (2024-06-23)
リポジトリ	github.com/apache/drill
対応OS	クロスプラットフォーム
サポート状況	Active
ライセンス	Apache License, Version 2.0.
公式サイト	drill.apache.org
テンプレートを表示

Apache Drillは、大規模データセットの対話型分析のための分散アプリケーションをサポートするオープンソースのソフトウェアフレームワークである。GoogleのDremelシステムはGoogleBigQueryという名称でInfrastructure as a Serviceとして利用可能であるが、DrillはDremelのオープンソースバージョンである。Drillは10,000台のサーバもしくはそれ以上の規模までの拡大が可能であり、数テラバイト、数兆レコードのデータを数秒で処理できることが設計目標に明記されている。DrillはApacheトップレベルプロジェクトの1つである^[1]。

Drillは多様なNoSQLデータベースやファイルシステムをサポートしており、これにはHBase、MongoDB、MapR-DB、HDFS、MapR-FS、Amazon S3、Azure Blob Storage、Google Cloud Storage、Swift、NAS、ローカルファイルシステムが含まれる。単一のクエリで複数のデータストアからのデータを結合することが可能である。例えば、MongoDBのユーザープロファイルのコレクションをHadoopのイベントログのディレクトリと結合することができる。

Drillのデータストアを意識したオプティマイザは、データストア内部の処理能力を活用するように自動的にクエリプランを再構築する。これに加えて、Drillとデータストアが同じノード上にあればDrillはデータ局所性をサポートする。^[2]。

Apache Drill 1.9では動的なユーザー定義関数が追加された。

Apache Drill 1.11では暗号関連関数とPCAPファイルフォーマット対応が追加された。

特徴

[編集]

MongoDBやElasticsearchに似た、正式なスキーマの宣言を必要としない、スキーマ不要のJSONドキュメントモデル
業界標準API: ANSI SQL、ODBC/JDBC、RESTful API
ユーザおよび開発者にとって非常に扱いやすい
プラガブルアーキテクチャにより複数のデータストアに接続が可能

サポート

[編集]

DrillはApache HadoopテキストファイルやNoSQL、クラウドストレージなどの非リレーショナルデータストアに主に重点を置いている。次のデータストアがサポートされている:

Apache Hadoop、MapR、CDH、Amazon EMRを含むすべてのHadoopディストリビューション（HDFS API 2.3以降）
NoSQL:MongoDB、Apache HBase
クラウドストレージ:Amazon S3、Google Cloud Storage、Azure Blob Storage、Swift
Apache Avro、Apache Parquet（英語版）、JSONを含む複数のデータ形式の扱い
RDBMSストレージプラグインのサポート（JDBCを使った接続）

ストレージプラグインを開発することで、新しいデータストアを追加することができる。Drillの「スキーマ不要の」JSONデータモデルにより、非リレーショナルデータストアをその場で検索可能である^[3]。

脚注・出典

[編集]

^“The Apache Software Foundation Announces Apache™ Drill™ as a Top-Level Project”. 2014年12月2日閲覧。
^“Apache Drill - Schema-free SQL for Hadoop, NoSQL and Cloud Storage”. drill.apache.org. 2015年12月29日閲覧。
^“Frequently Asked Questions - Apache Drill”. drill.apache.org. 2015年12月29日閲覧。

論文

[編集]

いくつかの論文がDrillの誕生と設計に影響を与えている。下記はその一部のリストである:

2005From Databases to Dataspaces: A New Abstraction for Information Management 著者らは、すべてのデータ形式を受け入れてデータアクセスのためのAPIを提供し、データに対する理解に基づき進化するストレージシステムの必要性を強調している。
2010Dremel: Interactive Analysis of Web-Scale Datasets

外部リンク

[編集]

表話編歴 Apacheソフトウェア財団
トップレベルプロジェクト	Accumulo（英語版） ActiveMQ Airflow Ambari（英語版） Ant Aries（英語版） Arrow Apache HTTP Server APR Avro Axis Axis2 Beam Bloodhound（英語版） Brooklyn（英語版） Buildr（英語版） Calcite（英語版） Camel（英語版） Cassandra Cayenne（英語版） Chemistry（英語版） CloudStack（英語版） Cocoon Cordova CouchDB cTAKES（英語版） CXF（英語版） Derby Directory（英語版） Drill Druid（英語版） Empire-db（英語版） Felix（英語版） Flex Flink（英語版） Flume（英語版） FreeMaker（英語版） Geronimo Giraph（英語版） Gump（英語版） Hadoop HBase Helix（英語版） Hive Impala（英語版） Jackrabbit（英語版） James Jena（英語版） Jini（英語版） JMeter（英語版） Kafka Kudu（英語版） Kylin（英語版） Lucene Mahout Maven MINA（英語版） mod perl（英語版） MyFaces（英語版） NetBeans Nutch（英語版） NuttX（英語版） OFBiz（英語版） Oozie（英語版） OpenEJB OpenJPA OpenNLP OpenOffice ORC（英語版） PDFBox（英語版） Parquet（英語版） Phoenix（英語版） POI Pig（英語版） Pinot（英語版） Pivot Qpid（英語版） Roller RocketMQ（英語版） Samza（英語版） ServiceMix（英語版） Shiro（英語版） SINGA（英語版） Sling（英語版） Solr Spark Storm（英語版） SpamAssassin Struts 1 Struts 2（英語版） Subversion Apache Superset SystemDS（英語版） Tapestry Thrift Tika（英語版） Tomcat Traffic Server（英語版） Turbine（英語版） UIMA（英語版） Velocity Wicket Xalan Xerces XMLBeans Yetus（英語版） ZooKeeper
Commons	BCEL（英語版） BSF（英語版） Collections Daemon（英語版） DBUtils Email IO Jelly（英語版） Lang Apache Commons Logging（英語版） Math
Incubator	MXNet（英語版） Taverna（英語版）
その他のプロジェクト	Apache Batik Chainsaw（英語版） FOP Ivy（英語版） log4j
Attic	Abdera（英語版） Apex（英語版） AxKit Beehive（英語版） Bluesky（英語版） iBATIS c++ Standard Library（英語版） Cactus（英語版） Click（英語版） Continuum（英語版） Deltacloud（英語版） Etch（英語版） Excalibur（英語版） Forrest（英語版） Hama（英語版） Harmony HiveMind（英語版） Jakarta Lenya（英語版） Marmotta（英語版） ODE（英語版） Shale（英語版） Slide（英語版） Shindig（ハンガリー語版） Stanbol（英語版） Tuscany（英語版） Wave（英語版） Wink（英語版） XML
ライセンス	Apache License
Category Commons