Movatterモバイル変換


[0]ホーム

URL:


Siirry sisältöön
Wikipedia
Haku

OpenRefine

Wikipediasta
OpenRefine
Kehityshistoria
Vakaa versio3.9.5 ()[1]
Tiedot
LisenssiBSD-lisenssi
Aiheesta muualla
Verkkosivusto
Infobox OK

OpenRefine, entiseltä nimeltäänGoogle Refine ja sitä ennenFreebase Gridworks, on itsenäinen avoimen lähdekoodin työpöytäsovellus tiedon siivoamiseen ja muuntamiseen muihin muotoihin.[2] Se toimii vastaavalla tavalla kuintaulukkolaskentasovellukset (ja voi työstää taulukkolaskennan tiedostomuotoja). Se kuitenkin käyttäytyy enemmän kuin tietokanta.

Ohjelmiston toimintaperiaate

[muokkaa |muokkaa wikitekstiä]

OpenRefine käsitteleetietorivejä, joissa on solujasarakkeissa, samaan tapaan kuin relaatiotietokantojen taulukoissa. OpenRefinessa projekti koostuu yhdestä taulukosta. Käyttäjä voi suodattaa näytettäviä rivejä käyttämälläfasetteja, jotka määrittävät suodatuskriteerit (esimerkiksi näyttää rivit, jossa tietty sarake ei ole tyhjä). Toisin kuin taulukkolaskennassa, useimmat toiminnot OpenRefinessa tehdään kaikille suodatettuna oleville riveille: tietyssä sarakkeessa olevan tiedon muokkaus, uuden sarakkeen luominen perustuen olemassa olevan sarakkeen tietoihin, jne. Kaikki datasetissä tehdyt toimet tallennetaan ohjelmaan ja ne voidaan toistaa toiselle datasetille.

Toisin kuin taulukkolaskennassa, kaavoja ei tallenneta soluihin, vaan muuntaminen kaavalla tehdään kerran ja kaava tallennetaan myöhempää käyttöä varten.[3] Muuntamislausekkeet voidaan kirjoittaaGeneral Refine Expression Language (GREL) -kielellä,[4] Jythonilla (eli Python) ja Clojurella.[5]

Ohjelmalla onweb-käyttöliittymä. Se ei kuitenkaan ole verkossa isännöity (SAAS), vaan sen voi ladata vapaasti ja asentaa paikallisesti. Kun OpenRefine käynnistetään, se käynnistääweb-palvelimen ja selainkäyttöliittymän, jolla palvelinta hyödynnetään.

Ohjelmiston mahdollisia käyttötapoja

[muokkaa |muokkaa wikitekstiä]
  • Sotkuisen datan siivous: jos työstää esimerkiksi tekstitiedostoa, jossa on semi-strukturoitua dataa, sitä voidaan muokata käyttämällä muunnoksia, fasetteja ja klusterointia, jotta tiedot saadaan siististi jäsennellyksi.[6][7]
  • Tietojen muuntaminen: arvojen muuntaminen muihin muotoihin, normalisointi ja denormalisointi.
  • Tietojen jäsentäminen web-sivustoilta: OpenRefinessa on ominaisuus URL:n noutamiseksi, jsoup-HTML-jäsennin ja DOM-moottori.[8]
  • Datasetin rikastaminen hakemalla lisätietoa verkkopalveluista (elijsonin palauttaminen).[9] Sitä voidaan käyttää esimerkiksi osoitteidengeokoodaamiseenmaantieteellisiksi koordinaateiksi.[10]
  • Tietojen yhdistäminen Wikidataan (perustuu vastaavaan Freebaselle kehitettyyn lisäosaan[11]). Keskeisenä tässä onrekonsiliaatio — vastaavien kohteiden löytäminen Wikidatasta datasetissä oleville tekstimuotoisille arvoille.[12]

Tuettuja tuonnin ja viennin tiedostomuotoja

[muokkaa |muokkaa wikitekstiä]

Tuonti on tuettu seuraavissa muodoissa:[13]

  • TSV,CSV
  • Tekstitiedosto, jossa on mukautettuja erottimia tai sarakkeet erotellaan kiinteän leveyden perusteella
  • XML
  • RDF-tripletit (RDF/XML ja Notation3 -serialisointiformaatit)
  • JSON
  • Google Sheets, Google Fusion Tables[14]

Jos lähtötiedot ovat ei-standardissa tekstimuodossa, ne voidaan tuoda konaisina riveinä jakamatta sarakkeisiin, ja sarakkeet erotetaan myöhemmin OpenRefinen työkaluilla. Refine tukee arkistoituja ja pakattuja tiedostoja (.zip, .tar.gz, .tgz, .terva.bz2, .gz tai .bz2) ja se voi ladata lähtötiedostoja URL-osoitteesta.

Vienti on tuettu seuraavissa tiedostomuodoissa:[15]

  • TSV
  • CSV
  • Microsoft Excel
  • HTML-taulukko
  • Vienti mallinemoottorilla. On mahdollista määritellä malline tietojen tulostamiseen esimerkiksiMediaWiki-taulukoksi.

OpenRefine -projektin voi viedä.tar.gz arkistona.

Historia

[muokkaa |muokkaa wikitekstiä]

OpenRefine oli alkujaan Metawebin kehittämäFreebase Gridworks ja se on ollut saatavilla avoimena lähdekoodina tammikuusta 2010 alkaen.[16] Google osti Freebasen kehittäjän Metawebin 16. heinäkuuta 2010,[17] ja nimesi Freebase Gridworksin Google Refineksi 10. marraskuuta 2010, julkistamalla samalla version 2.0.[18] Alkuperäinen ohjelmoija David Huynh ilmoitti 2. lokakuuta 2012, että Google lopettaisi pian aktiivisen tukensa Google Refinelle.[19][20][21] Siitä lähtien ohjelmistokoodi on ollut siirtymävaiheessa avoimen lähdekoodin projektiksi nimeltä OpenRefine.[22]

Lähteet

[muokkaa |muokkaa wikitekstiä]
  1. OpenRefine 3.9.5,. Tieto on haettuWikidatasta.
  2. openrefine.github.com openrefine.org. Viitattu 21.8.2018. (englanniksi)
  3. Comparison with spreadsheet software: Cell Editing wiki page in Refine documentation code.google.com. Viitattu 18 April 2012.
  4. OpenRefine/OpenRefine GitHub. Viitattu 21.8.2018. (englanniksi)
  5. OpenRefine/OpenRefine GitHub. Viitattu 21.8.2018. (englanniksi)
  6. Screencast: Google Refine 2.0 - Introduction (1 of 3) - editing government data youtube.com. Viitattu 18 April 2012.
  7. OpenRefine/OpenRefine GitHub. Viitattu 21.8.2018. (englanniksi)
  8. Stripping HTML: Refine documentation wiki page code.google.com. Viitattu 18 April 2012.
  9. FetchingURLsFromWebServices wiki page: Refine documentation code.google.com. Viitattu 18 April 2012.
  10. Screencast: Google Refine 2.0 - Data Augmentation (3 of 3) - using Openstreetmap Nominatim for geocoding and Freebase for augmentation youtube.com. Viitattu 18 April 2012.
  11. Schema Alignment: Refine documentation wiki page code.google.com. Viitattu 18 April 2012.
  12. OpenRefine/OpenRefine GitHub. Viitattu 21.8.2018. (englanniksi)
  13. OpenRefine/OpenRefine GitHub. Viitattu 21.8.2018. (englanniksi)
  14. Changelog for 2.5 code.google.com. Viitattu 18 April 2012.
  15. OpenRefine/OpenRefine GitHub. Viitattu 21.8.2018. (englanniksi)
  16. https://code.google.com/p/google-refine/source/detail?r=2
  17. Google Official Blog: Deeper understanding with Metaweb. Määritä julkaisu!Määritä ajankohta!Artikkelin verkkoversio. Viitattu 18 April 2012.
  18. Google Opensource blog: Announcing Google Refine 2.0, a power tool for data wranglers. Määritä julkaisu!Määritä ajankohta!Artikkelin verkkoversio. Viitattu 18 April 2012.
  19. [announcement] the future of the Refine projects. Määritä julkaisu!Määritä ajankohta!Artikkelin verkkoversio.
  20. From Freebase Gridworks to Google Refine and now OpenRefine. Määritä julkaisu!Määritä ajankohta!Artikkelin verkkoversio.
  21. OpenRefine (Arkistoitu – Internet Archive). OpenRefine. Retrieved on 2013-08-16.
  22. google-refine - Google Refine, a power tool for working with messy data (formerly Freebase Gridworks) - Google Project Hosting. Code.google.com. Retrieved on 2013-08-16.

Aiheesta muualla

[muokkaa |muokkaa wikitekstiä]
Tuotteet
Laitteisto
Kehitys
Ohjelmointikielet
Viihde
Viestintä
Hakukone
Navigointi
Liiketoiminta
ja rahoitus
Organisointi
ja tuottavuus
Koulutus
Muut
Yritys
Osastot
Tapahtumat
Henkilöstö
Noudettu kohteesta ”https://fi.wikipedia.org/w/index.php?title=OpenRefine&oldid=22306271
Luokka:
Piilotetut luokat:

[8]ページ先頭

©2009-2026 Movatter.jp