1962an,John W. Turkey-k "Datu zientzia" terminoa aurretik aipatu zuen bere"The Future of Data Analysis" artikuluan,estatistika matematikoaren bilakaera bat azaltzean. Bertan, lehenengoz definitu zuen datuenanalisia: "Datuak aztertzeko prozedurak, prozeduren emaitzak interpretatzeko teknikak, datuen azterketa errazagoa, zehatzagoa eta zuzenagoa egiteko berauen bilketarenplanifikazio moduak, eta datuen azterketan aplikatzen denmakineria etaMatematika-estatistiken emaitzak.". 1997an"Exploratory Data Analysis" argitaratu zuen datuen erabileran enfasi handiagoa jarri behar zela argudiatuz, bertan,eredu estatistikoetanhipotesi berriak probatzeko iradoki zuen.
Peter Naur
Datu zientzia, sortu berri dendiziplinatzat hartu da orokorrean, bainaPeter Naurzientifikodaniarrak kontzeptu hau erabili zuen hirurogeigarren hamarkadan,konputazio zientziaren ordez. Alegia, 1974an"Concise Survey of Computer Methods" liburua argitaratu zuen, non behin eta berriz kontzeptuaren aipamena egiten du. Honek arlo akademikoan libreki erabiltzea eta hedatzea sortarazi zuen.
1996an, lehendabizi datu zientzia terminoa aipatu zenKoben,Japonian, egindako konferentzia batean.International Federation of Classification Societies (IFCS) taldeko partaideen arteko hitzaldia izan zen,"Datu zientzia, sailkapena eta erlazionatutako metodoak" izena zuena.
2002ko apirilean, Committee on Data for Science and Technology-k (CODATA)Data Science Journal-en argitalpena hasi zuen, datu-sistemen deskribapen arazoetara, aplikazioetara eta lege-arazoetara bideratuta. Geroago, 2003ko urtarrilean,Kolonbiako UnibertsitateakThe Journal of Data Science argitaratzen hasi zen, hainbat datu zientzialarik ideiak partekatzea eta haienperspektibak plazaratzea eskaintzen zuenplataforma izan zena.
2009an, Research Center for Dataology and Data Science-eko Yangyong Zhu eta Yun Xiongikertzaileek,“Introduction to Dataology and Data Science” argitaratu zuten.Natur-zientziekin etagizarte-zientziekin alderatuta, datu zientziaksaretikinformazioa eskuratzea eta azterketa helburu duela adierazi zuten.
IEEE Task Force on Data Science and Advanced Analytics 2013an sustatu zuten, ostera, bere lehenengo nazioartekokonferentzia 2014an egin zen. 2015ean Springer-ekInternational Journal on Data Science and Analytics argitara eman zuen datu zientzietako lan originalak argitaratzeko.
Netflixek,multimedia edukia ematen duen enpresaestatubatuarrak,algoritmoen bidez erabiltzaileak duen kontsumo ohitura aztertzen duen plataforma eskaintzen die bere 120 milioi erabiltzaileei. Identifikatzeko zein diren bilatzen dituzten edukiak eta interesezkoa izan dezaketena determinatzeko. Metatzen den informazio guztia zehazki aztertua izateko erabiltzen da, erabiltzailearengandik ikasteko eta gomendio zuzenak eman ahal izateko.
Eusko Jaurlaritzak konpromisoa hartu du bere esku dauden datu publikoak irekitzeko, eta hauek biltzen eta eskaintzen dituenOpen Data Euskadiwebgunea publikatu zen 2010ean. Alegia, Jaurlaritzaren eta bere menpeko erakundeen datu-irekien ataria.Administrazio publikoko datuak formatu berrerabilgarrietan irekitzea da sustatu nahi dena, gizarte-balioa sortzea eta herri-administrazioa eraginkorragoa eta gardenagoa lortzeko helburuarekin. Beste herri-administrazio batzuekin lankidetzan dagoen plataforma ere bada, esaterako,Espainiako Gobernuaren etaEuropar Batasunaren datu-katalogoetan ere publikatzen ditu bere datu-multzoak. Herritarren parte-hartzea metodo aberasgarritzat hartzen dute, datu-irekien eta informazio publikoaren berrerabilpenaren inguruko zenbaitlehiaketa, ekitaldi eta ikastaro antolatuz.[1]
Osasun arloan datu-iturburuheterogeneo anitzekgaixoekin,gaixotasunekin etaosasun-zentroekin erlazionatutako informazio kantitate handiak deskribatzen dituzte. Analisi sakon eta egoki baten ondorioz, garrantzizko erabilgarritasuna izan dezakeena sanitarioentzat.Historia-klinikoek etamedikuntza-dispositiboek, osasun-datuak eskaintzen dituzte aurrerago erabakiak hartzera eramaten dutenak eta datu horien ikerketa egoki baten euskarriak gaixoei osasun-zerbitzu hobekiago bat bermatzen du.Informazio-analisi teknika berriek baliabide sanitarioak modu eraginkorragoan erabiltzea baimendu dute, baitasintometatik abiatuta gaixotasunak aurresatea edo gaixoari txostena automatikoki egitea ere.
Norbanakoen premiak etamerkatuaren egungo egoera zein den aztertu dezake datuen zientziak. Sektore zehatz batean lehian daudenenpresa ugari daude eta ezinbestekoa dute jakitea zer den momentu orobezero potentzialek nahi dutena.Internet bidezko bilaketek edo egindako galdeketek bezeroari buruzko informazioa eskuratzea egiten dute, zer eta zein neurritanproduktua behar duten enpresei jakiten ahalbidetzen dute, datu hauen prozesaketa batek merkatuanhazkunde ekonomikoak sorraraziz.
Datu zientzian jarduten den jakitunari datu zientzialaria deritzo.Master in Data Science masterraren arabera, estatistikoen,informatikarien eta sormenerako pentsatzailearen nahasketa da, hurrengo trebetasunekin:
Hainbatdatu-basetatik baliozko informazioa erauzteko, biltzeko eta prozesatzekoa.
Bere ondorioak eta emaitzak datu zientzialariak ez direnei komunikatzeko, bistaratzeko eta ulertarazteko gaitasuna.
Maila guztietako etaindustria guztietako datuetan oinarritutako proiektuei aurre egiteko ahalmena.
Proposatzen zaizkion auziei erantzuna emateko gai izan behar da. Horretarako, datu zientzialari batek jarraitzen duen prozesua hurrengo urratsetan labur daiteke:
Datuak erauzi, edozein bolumenetakoak, haien iturria edozein dela ere.
Datuak iragazi, emaitzetan oztopa dezaketenak ezabatu.