Movatterモバイル変換


[0]ホーム

URL:


Ir al contenido
WikipediaLa enciclopedia libre
Buscar

Apache Hive

De Wikipedia, la enciclopedia libre
Apache Hive
Información general
Tipo de programagestión de datos
DesarrolladorApache Software Foundation
Lanzamiento inicial9 de noviembre de 2011
LicenciaApache License 2.0
Estado actualActivo
Información técnica
Programado enJava
Plataformas admitidasmáquina virtual Java
Versiones
Última versión estable2.0.1( 25 de mayo de 2016 (8 años, 9 meses y 27 días))
Enlaces

Apache Hive es una infraestructura dealmacenamiento de datos construida sobreHadoop para proporcionar agrupación, consulta, y análisis de datos.[1]​ Inicialmente desarrollado porFacebook, Apache Hive es ahora utilizada y desarrollado por otras empresas comoNetflix y laFinancial Industry Regulatory Authority (FINRA).[2][3]​ Amazon mantiene una derivación de software de Apache Hive incluida en Amazon Elastic MapReduce en sus serviciosAmazon Web Services.[4]

Características

[editar]

Apache Hive soporta el análisis de grandes conjuntos de datos almacenados bajoHDFS de Hadoop y en sistemas compatibles como el sistema de archivosAmazon S3. Ofrece un lenguaje de consultas basado enSQL llamado HiveQL[5]​ con esquemas para leer y convertir consultas de forma transparente enMapReduce, Apache Tez[6]​ y tareasSpark. Los tres motores de ejecución pueden correr bajo YARN. Para acelerar las consultas, Hive provee índices, que incluyen índices de bitmaps.[7]​ Otras características de Hive incluyen:

  • Indexación para proporcionar aceleración, tipo de índice que incluye compactación e índices de bitmaps. Otros tipos de índices serán incluidos en futuras versiones.
  • Diferentes tipos de almacenamiento como texto, RCFile, HBase, ORC, y otros.
  • Almacenamiento de metadatos en bases de datos relacionales, lo que permite reducir el tiempo para realizar verificaciones semánticas durante la ejecución de consultas.
  • Operaciones sobre datos comprimidos almacenados en el ecosistema Hadoop usando algoritmos que incluyenDEFLATE,BWT, snappy, etc.
  • Funciones definidas por el usuario (en inglés,user-defined function, UDF) para manipular fechas, textos, y otras herramientas de minería de datos. Hive soporta la extensión de las funciones definidas por el usuario de manera de tratar casos no contemplados.
  • Consultas estilo SQL (HiveQL), las cuales son convertidas automáticamente a MapReduce o Tez, o tareas Spark.

Por defecto, Hive almacena sus metadatos en una base de datosapache Derby, pero puede ser configurado para usarMySQL.[8]

Véase también

[editar]

Referencias

[editar]
  1. Venner, Jason (2009).Pro Hadoop. Apress.ISBN 978-1-4302-1942-2. 
  2. «Use Case Study of Hive/Hadoop». Consultado el 8 de junio de 2016. 
  3. «OSCON Data 2011, Adrian Cockcroft, "Data Flow at Netflix"».YouTube. Consultado el 8 de junio de 2016. 
  4. Amazon Elastic MapReduce Developer Guide
  5. «HiveQL Language Manual». 
  6. «Apache Tez». Consultado el 8 de junio de 2016. 
  7. «Working with Students to Improve Indexing in Apache Hive». Consultado el 8 de junio de 2016. 
  8. Lam, Chuck (2010).Hadoop in Action. Manning Publications.ISBN 1-935182-19-6. 
Control de autoridades

Obtenido de «https://es.wikipedia.org/w/index.php?title=Apache_Hive&oldid=141210706»
Categorías:

[8]ページ先頭

©2009-2025 Movatter.jp