Movatterモバイル変換


[0]ホーム

URL:


Ir al contenido
WikipediaLa enciclopedia libre
Buscar

OpenRefine

De Wikipedia, la enciclopedia libre
OpenRefine
Información general
Tipo de programasoftware libre
Idiomas
Información técnica
Programado en
Versiones
Última versión estable3.9.226 de marzo de 2025
Archivos legibles
              
varios
Enlaces

OpenRefine es una aplicación de escritorio decódigo abierto para la limpieza y transformación de datos a otros formatos, una actividad comúnmente conocida comodata wrangling (disputa de datos).[1]​ Es similar a las aplicaciones dehoja de cálculo y puede manejar formatos de archivo como CSV, pero se comporta más como una base de datos.

Opera enfilas de datos que tienen celdas debajo decolumnas, similar a la forma en que operan las tablas debases de datos relacionales. Los proyectos de OpenRefine constan de una tabla, cuyas filas se pueden filtrar utilizandofacetas que definen criterios (por ejemplo, mostrar filas donde una columna determinada no está vacía).

A diferencia de las hojas de cálculo, la mayoría de las operaciones en OpenRefine se realizan en todas las filas visibles, por ejemplo, la transformación de todas las celdas en todas las filas en una columna,[2]​ o la creación de una nueva columna basada en datos existentes. Las acciones realizadas en un conjunto de datos se almacenan en el proyecto y se pueden 'reproducir' en otros conjuntos de datos. Las fórmulas no se almacenan en celdas, pero se utilizan para transformar los datos. La transformación se realiza solo una vez.[3]​ Las expresiones de fórmula se pueden escribir en General Refine Expression Language (GREL),[4]​ enJython (es decir,Python) y enClojure.[5]

El programa funciona como unaaplicación web local: inicia unservidor web y abre el navegador predeterminado a127.0.0.1:3333.

Usos

[editar]
  • Limpieza de datos desordenados: por ejemplo, si trabaja con unarchivo de texto con algunos datos semiestructurados, se puede editar mediante transformaciones, facetas y agrupaciones para que los datos estén estructurados de forma limpia.[6]
  • Transformación de datos : conversión de valores a otros formatos, normalización y desnormalización.
  • Análisis de datos de sitios web: OpenRefine tiene una función de búsqueda de URL y un analizador HTML jsoup y un motor DOM.[7]
  • Agregar datos al conjunto de datos recuperándolos de los servicios web (es decir, devolviendojson).[8]​ Por ejemplo, se puede utilizar paracodificar direcciones encoordenadas geográficas.[9]
  • Alineación conWikidata (anteriormenteFreebase[10]​): esto implicareconciliación: mapear valores de cadena en celdas a entidades en Wikidata.[11]

Formatos soportados

[editar]

La importación es compatible con los siguientes formatos:[12]

Si los datos de entrada están en un formato de texto no estándar, se pueden importar como líneas completas, sin dividir en columnas, y luego las columnas se extraen más tarde con las herramientas de OpenRefine. Se admiten archivos comprimidos y archivados (.zip, .tar.gz, .tgz, .tar.bz2, .gz o .bz2) y Refine puede descargar archivos de entrada desde unaURL. Para utilizar páginas web como entrada, es posible importar una lista de URL y luego invocar una función de recuperación de URL.

La exportación se admite en los siguientes formatos:[14]

Los proyectos completos de OpenRefine en formato nativo se pueden exportar como un archivo.tar.gz.

Desarrollo

[editar]

OpenRefine comenzó su vida como Freebase Gridworks, desarrollado porMetaweb y ha estado disponible como código abierto desde enero de 2010.[15]​ El 16 de julio de 2010,Google adquirió Metaweb,[16]​ los creadores deFreebase, y el 10 de noviembre de 2010 renombró Freebase Gridwords Google Refine, lanzando la versión 2.0.[17]​ El 2 de octubre de 2012, el autor original, David Huynh, anunció que Google dejaría pronto de brindar apoyo activo a Google Refine.[18][19]​ Desde entonces, el código base ha estado en transición a un proyecto de código abierto llamado OpenRefine.[20]

Referencias

[editar]
  1. «openrefine.github.com».openrefine.org. 
  2. «Editing by transforming: Cell Editing wiki page from Refine documentation». Consultado el 18 de abril de 2012. 
  3. «Comparison with spreadsheet software: Cell Editing wiki page in Refine documentation». Consultado el 18 de abril de 2012. 
  4. General Refine expression language OpenRefine/OpenRefine Wiki GitHub.
  5. «Expressions: Refine documentation». Consultado el 18 de abril de 2012. 
  6. «Screencast: Google Refine 2.0 - Introduction (1 of 3) - editing government data». Consultado el 18 de abril de 2012. 
  7. «Stripping HTML: Refine documentation wiki page». Consultado el 18 de abril de 2012. 
  8. «FetchingURLsFromWebServices wiki page: Refine documentation». Consultado el 18 de abril de 2012. 
  9. «Screencast: Google Refine 2.0 - Data Augmentation (3 of 3) - using Openstreetmap Nominatim for geocoding and Freebase for augmentation». Consultado el 18 de abril de 2012. 
  10. «Schema Alignment: Refine documentation wiki page». Consultado el 18 de abril de 2012. 
  11. «OpenRefine documentation: Reconciliation». Consultado el 12 de marzo de 2017. 
  12. «Importers: Refine documentation wiki page». Consultado el 18 de abril de 2012. 
  13. «Changelog for 2.5». Consultado el 18 de abril de 2012. 
  14. «Exporting: Refine documentation wiki page». Consultado el 18 de abril de 2012. 
  15. «Google Code Archive - Long-term storage for Google Code Project Hosting.».code.google.com. 
  16. «Google Official Blog: Deeper understanding with Metaweb». Consultado el 18 de abril de 2012. 
  17. «Google Opensource blog: Announcing Google Refine 2.0, a power tool for data wranglers». Consultado el 18 de abril de 2012. 
  18. «Google Groups».groups.google.com. 
  19. «From Freebase Gridworks to Google Refine and now OpenRefine». 
  20. google-refine - Google Refine, a power tool for working with messy data (formerly Freebase Gridworks) - Google Project Hosting.

Enlaces externos

[editar]
Control de autoridades

Obtenido de «https://es.wikipedia.org/w/index.php?title=OpenRefine&oldid=160604283»
Categorías:

[8]ページ先頭

©2009-2025 Movatter.jp