Movatterモバイル変換


[0]ホーム

URL:


Sari la conținut
Wikipediaenciclopedia liberă
Căutare

OpenRefine

De la Wikipedia, enciclopedia liberă
OpenRefine
DezvoltatorFreebase⁠(d), apoiGoogle, acum comunitatea open source
Versiune inițială10 noiembrie 2010; acum 15 ani, 3 luni și 9 zile (2010-11-10)
Ultima versiune3.9.5[1] Modificați la Wikidata ()
Repo[2] https://github.com/OpenRefine/OpenRefine[2]Modificați la Wikidata
Scris înJava[3]
Sistem de operareMicrosoft Windows
macOS
Linux Modificați la Wikidata
PlatformăMicrosoft Windows,Linux,macOS
Disponibil înengleză, italiană, chineză, japoneză, franceză, germană
Tip
LicențăLicența BSD
Prezență online
site web oficial
cont X
hasthtag
Modificădate / text Consultați documentația formatului

OpenRefine este o aplicație desktopopen-source pentru curățarea datelor și transformarea în alte formate, o activitate cunoscută în mod obișnuit sub denumirea de manipularea datelor.[4] Este similar cu aplicațiile de foi de calcul și poate gestiona formate de fișiere de foi de calcul, cum ar fi CSV, dar se comportă mai mult ca o bază de date.

Funcționează perânduri de date care au celule grupate pecoloane, similar modului în care funcționează tabelele debaze de date relaționale. Proiectele OpenRefine constau dintr-un tabel, ale cărui rânduri pot fi filtrate folosindfațete care definesc criterii (de exemplu, afișând rândurile în care o anumită coloană nu este goală).

Spre deosebire de foile de calcul, majoritatea operațiilor din OpenRefine se fac pe toate rândurile vizibile, de exemplu, transformarea tuturor celulelor din toate rândurile de pe o coloană,[5] sau crearea unei coloane noi pe baza datelor existente. Acțiunile efectuate pe un set de date sunt stocate în proiect și pot fi „reluate” pe alte seturi de date. Formulele nu sunt stocate în celule, ci sunt folosite pentru a transforma datele. Transformarea se face o singură dată.[6] Expresiile cu formule pot fi scrise înGeneral Refine Expression Language (GREL),[7] înJython (adică, Python) și înClojure.[8]

Programul funcționează ca o aplicație web locală: pornește unserver web și deschide browserul implicit la adresa127.0.0.1 :3333.

Utilizări

[modificare |modificare sursă]
  • Curățarea datelor dezordonate: de exemplu, dacă lucrați cu un fișier text cu unele date semi-structurate, acesta poate fi editat folosind transformări, fațete și grupări pentru a face datele să fie curat structurate.[9]
  • Transformarea datelor: conversia valorilor în alte formate, normalizare și denormalizare.
  • Analizarea datelor de pe site-uri web : OpenRefine are o funcție de preluare a URL-urilor și un parser HTMLJsoup⁠(d) și un motorDOM.[10]
  • Adăugarea de date la setul de date prin preluarea lor de la serviciile web (i.e. care întorc date în formatulJSON ).[11] De exemplu, poate fi folosit pentrugeocodarea adreselor lacoordonatele geografice.[12]
  • Alinierea laWikidata sau alt site ce folosește Wikibase: aceasta implicăreconciliere — maparea valorilor șirurilor din celule cu entitățile din Wikidata.[13]

Formate acceptate

[modificare |modificare sursă]

Importul este acceptat din următoarele formate:[14]

Dacă datele de intrare sunt într-un format de text non-standard, pot fi importate ca linii întregi, fără a fi împărțite în coloane, iar apoi coloanele sunt extrase ulterior cu instrumentele OpenRefine. Fișierele arhivate și comprimate sunt acceptate (.zip, .tar.gz, .tgz, .tar.bz2, .gz sau .bz2); de asemenea, Refine poate descărca fișiere de intrare de la oadresă URL. Pentru a utiliza pagini web ca intrare, este posibil să importați o listă de adrese URL și apoi să invocați o funcție de preluare a URL-urilor.

Exportul este acceptat în următoarele formate:[16]

  • TSV
  • CSV
  • Microsoft Excel
  • tabel HTML
  • Foi de calcul Google
  • Exportator de șabloane: este posibil să definiți un șablon personalizat pentru ieșirea datelor, de exemplu ca tabelMediaWiki.

Toate proiectele OpenRefine în format nativ pot fi exportate ca arhivă .tar.gz.

Dezvoltare

[modificare |modificare sursă]

OpenRefine și-a început viața caFreebase Gridworks, dezvoltat de Metaweb și este disponibil ca sursă deschisă din ianuarie 2010.[17] La 16 iulie 2010,Google a achiziționat Metaweb,[18] creatoriiFreebase⁠(d), iar pe 10 noiembrie 2010 a redenumit Freebase Gridwords înGoogle Refine, lansând versiunea 2.0.[19] Pe 2 octombrie 2012, autorul original David Huynh a anunțat că Google va opri în curând dezvoltarea pentru Google Refine.[20][21][22] De atunci, baza de cod a fost mutată către un proiect open source numit OpenRefine.[23]

Note

[modificare |modificare sursă]
  1. ^„OpenRefine 3.9.5”.. 
  2. ^abCitare goală (ajutor) 
  3. ^„OpenRefine/OpenRefine - GitHub”.GitHub. Accesat în. 
  4. ^„openrefine.github.com”.openrefine.org. 
  5. ^„Editing by transforming: Cell Editing wiki page from Refine documentation”. Accesat în. 
  6. ^„Comparison with spreadsheet software: Cell Editing wiki page in Refine documentation”. Accesat în. 
  7. ^General Refine expression language OpenRefine/OpenRefine Wiki GitHub.
  8. ^„Expressions: Refine documentation”. Accesat în. 
  9. ^„Screencast: Google Refine 2.0 - Introduction (1 of 3) - editing government data”.YouTube. Accesat în. 
  10. ^„Stripping HTML: Refine documentation wiki page”. Accesat în. 
  11. ^„FetchingURLsFromWebServices wiki page: Refine documentation”. Accesat în. 
  12. ^„Screencast: Google Refine 2.0 - Data Augmentation (3 of 3) - using Openstreetmap Nominatim for geocoding and Freebase for augmentation”.YouTube. Accesat în. 
  13. ^„OpenRefine documentation: Reconciliation”.GitHub. Accesat în. 
  14. ^„Importers: Refine documentation wiki page”. Accesat în. 
  15. ^„Changelog for 2.5”. Accesat în. 
  16. ^„Exporting: Refine documentation wiki page”. Accesat în. 
  17. ^„Google Code Archive - Long-term storage for Google Code Project Hosting”.code.google.com. 
  18. ^„Google Official Blog: Deeper understanding with Metaweb”. Accesat în. 
  19. ^„Google Opensource blog: Announcing Google Refine 2.0, a power tool for data wranglers”. Accesat în. 
  20. ^„Google Groups”.groups.google.com. 
  21. ^„From Freebase Gridworks to Google Refine and now OpenRefine”. 
  22. ^OpenRefineArhivat în, laWayback Machine..
  23. ^google-refine - Google Refine, a power tool for working with messy data (formerly Freebase Gridworks) - Google Project Hosting.

Legături externe

[modificare |modificare sursă]
Adus de lahttps://ro.wikipedia.org/w/index.php?title=OpenRefine&oldid=15761951
Categorii:
Categorii ascunse:

[8]ページ先頭

©2009-2026 Movatter.jp