| OpenRefine | |
|---|---|
| Kehityshistoria | |
| Vakaa versio | 3.9.5 ()[1] |
| Tiedot | |
| Lisenssi | BSD-lisenssi |
| Aiheesta muualla | |
| Verkkosivusto | |
| Infobox OK | |
OpenRefine, entiseltä nimeltäänGoogle Refine ja sitä ennenFreebase Gridworks, on itsenäinen avoimen lähdekoodin työpöytäsovellus tiedon siivoamiseen ja muuntamiseen muihin muotoihin.[2] Se toimii vastaavalla tavalla kuintaulukkolaskentasovellukset (ja voi työstää taulukkolaskennan tiedostomuotoja). Se kuitenkin käyttäytyy enemmän kuin tietokanta.
OpenRefine käsitteleetietorivejä, joissa on solujasarakkeissa, samaan tapaan kuin relaatiotietokantojen taulukoissa. OpenRefinessa projekti koostuu yhdestä taulukosta. Käyttäjä voi suodattaa näytettäviä rivejä käyttämälläfasetteja, jotka määrittävät suodatuskriteerit (esimerkiksi näyttää rivit, jossa tietty sarake ei ole tyhjä). Toisin kuin taulukkolaskennassa, useimmat toiminnot OpenRefinessa tehdään kaikille suodatettuna oleville riveille: tietyssä sarakkeessa olevan tiedon muokkaus, uuden sarakkeen luominen perustuen olemassa olevan sarakkeen tietoihin, jne. Kaikki datasetissä tehdyt toimet tallennetaan ohjelmaan ja ne voidaan toistaa toiselle datasetille.
Toisin kuin taulukkolaskennassa, kaavoja ei tallenneta soluihin, vaan muuntaminen kaavalla tehdään kerran ja kaava tallennetaan myöhempää käyttöä varten.[3] Muuntamislausekkeet voidaan kirjoittaaGeneral Refine Expression Language (GREL) -kielellä,[4] Jythonilla (eli Python) ja Clojurella.[5]
Ohjelmalla onweb-käyttöliittymä. Se ei kuitenkaan ole verkossa isännöity (SAAS), vaan sen voi ladata vapaasti ja asentaa paikallisesti. Kun OpenRefine käynnistetään, se käynnistääweb-palvelimen ja selainkäyttöliittymän, jolla palvelinta hyödynnetään.
Tuonti on tuettu seuraavissa muodoissa:[13]
Jos lähtötiedot ovat ei-standardissa tekstimuodossa, ne voidaan tuoda konaisina riveinä jakamatta sarakkeisiin, ja sarakkeet erotetaan myöhemmin OpenRefinen työkaluilla. Refine tukee arkistoituja ja pakattuja tiedostoja (.zip, .tar.gz, .tgz, .terva.bz2, .gz tai .bz2) ja se voi ladata lähtötiedostoja URL-osoitteesta.
Vienti on tuettu seuraavissa tiedostomuodoissa:[15]
OpenRefine -projektin voi viedä.tar.gz arkistona.
OpenRefine oli alkujaan Metawebin kehittämäFreebase Gridworks ja se on ollut saatavilla avoimena lähdekoodina tammikuusta 2010 alkaen.[16] Google osti Freebasen kehittäjän Metawebin 16. heinäkuuta 2010,[17] ja nimesi Freebase Gridworksin Google Refineksi 10. marraskuuta 2010, julkistamalla samalla version 2.0.[18] Alkuperäinen ohjelmoija David Huynh ilmoitti 2. lokakuuta 2012, että Google lopettaisi pian aktiivisen tukensa Google Refinelle.[19][20][21] Siitä lähtien ohjelmistokoodi on ollut siirtymävaiheessa avoimen lähdekoodin projektiksi nimeltä OpenRefine.[22]