Big data – termin odnoszący się do dużych, zmiennych i różnorodnychzbiorów danych, których przetwarzanie i analiza jest trudna, ale jednocześnie wartościowa, ponieważ może prowadzić do zdobycia nowejwiedzy[1].
Pojęcie dużego zbioru danych jest względne i oznacza sytuację, gdy zbioru nie da sięprzetwarzać przy użyciu trywialnych, powszechnie dostępnych metod[2]. W zależności od branży i stopnia złożonościalgorytmu może to oznaczać rozmiarterabajtów lubpetabajtów (np. analiza zderzeń cząstek elementarnych wfizyce wysokich energii[3]), jednak w innych zastosowaniach będą to już megabajty bądź gigabajty (np. porównywaniebillingów telefonicznych w telekomunikacji[4]).Big data ma zastosowanie wszędzie tam, gdzie dużej ilości danych cyfrowych towarzyszy potrzeba zdobywania nowychinformacji lubwiedzy. Szczególne znaczenie odgrywa wzrost dostępnościInternetu oraz usług świadczonych drogą elektroniczną, które w naturalny sposób są przystosowane do wykorzystywaniabaz danych. Wykorzystanie do analiz dużych zbiorów danych oznacza jednocześnie, że nie trzeba ograniczać się do mniejszych zbiorów określanych za pomocą różnych sposobówdoboru próby, co eliminuje związane z tym błędy[5].
Wizualizacja edycji Wikipedii jako klasyczny przykład big data
W 2001 rokuMETA Group opublikowała raport[6], który opisujebig data w modelu 3V:
duża ilość danych (ang.volume);
duża prędkość przetwarzania danych (ang.velocity);
duża różnorodność danych (ang.variety).
Model ten uzupełniony został o kolejne składowe – weryfikację posiadanych danych (ang.veracity) oraz wartość dla użytkownika (ang.value)[5][7].
Zastosowanie modelu w polskiej wersji 4W przedstawia się następująco[8]:
wykorzystanie – wykorzystaj najpierw wewnętrzne (własne) zasoby danych;
wnioskowanie – umiejętnie stosuj techniki analityczne, użyj ekspertów;
wzbogacanie – wzbogacaj własne dane o informacje z rynku, używaj słowników i baz referencyjnych;
weryfikacja – koniecznie weryfikuj hipotezy i wnioski.
W roku 2012Gartner uzupełnił podaną wcześniej definicję, wskazując, iżbig data to zbiory informacji o dużej objętości, dużej zmienności lub dużej różnorodności, które wymagają nowych form przetwarzania w celu wspomagania podejmowania decyzji, odkrywania nowych zjawisk oraz optymalizacji procesów”[9].
wizualizacje, takie jak wykresy, grafy i inne formy prezentowania danych.
Wielowymiarowebig data mogą być również reprezentowane jakotensory, które mogą być wydajnie obsługiwane przez obliczenia oparte na tensorach, takie jak wieloliniowe uczenie podprzestrzenne. Dodatkowe technologie, które znajdują zastosowanie wbig data obejmują wielkoskalowe równoległe przetwarzanie baz danych, aplikacje oparte na szukaniu,eksploracja danych, rozproszonesystemy plików, rozproszone bazy danych, infrastruktura chmurowa (aplikacje, zasoby przetwarzające, pamięć) oraz Internet.
Nie wszystkie bazy danych WRP mają zdolność do przechowywania i zarządzania petabajtami danych. Wnioskując, jest możliwość doładowania, monitorowania, tworzeniakopii zapasowych oraz optymalizacji użycia ogromnymi tabelami danych w relacyjnych bazach danych[11].
Topologicznaanaliza danych poszukuje fundamentalnej struktury zbiorów olbrzymich danych. W 2008 roku technologia została upubliczniona wraz z założeniem firmy Ayasdi.
Praktycy procesów analizybig data są generalnie wrodzy dla wolniejszych współdzielonych pamięci[12], preferując bezpośrednio dołączone pamięci (DAS) w przeróżnych formach, od dyskówSSD do wielko pojemnościowych dyskówSATA zakopanych wewnątrz węzłów przetwarzania równoległego. Postrzeganie architektur współdzielonych pamięci jest takie, ze są relatywnie wolne, złożone oraz drogie. Te wartości nie są zgodne z analitycznymi systemamibig data, które czerpią z wydajności systemu, łatwo dostępnej infrastrukturze oraz niskich kosztów.
Rzeczywisty lub prawie rzeczywisty czas dostarczania informacji jest jedną z kluczowych charakterystyk analizybig data. Unika się opóźnień, chociaż są możliwe. Dane w pamięci są dobre – dane na dysku talerzowym na drugim końcuserwerowni.
Są zalety tak samo jak wady w rozwiązaniu współdzielonych pamięci, ale praktycy analizybig data do 2011 roku nie faworyzują tego[13].
Aktualnie Big Data oddziałuje praktycznie na każdysegment rynku, w którym zachodzi proces przetwarzania informacji. Należą do nich wszelkie instytucje, uczelnie, banki, przedsiębiorstwa produkcyjne, a nawet ośrodki zdrowia. Wszystkie te segmenty wykorzystują szybki dostęp do potrzebnej informacji, która z kolei ma zasadniczy wpływ na optymalizację działalności. Big data umożliwia ponadto szczegółowe rozpoznanie potrzeb i wymagań konsumentów – ich źródłem są zwłaszcza szeroko pojętemedia społecznościowe. Jako że każda jednostka nastawiona na zysk chce w swoim funkcjonowaniu odnieść sukces, odpowiednie przetwarzanie danych w działaniach strategicznych możliwe jest tylko przy wykorzystaniu Big Data[14].
Janusz Dygaszewicz: Big data w statystyce publicznej. W: Internet. Publiczne bazy danych i big data. Grażyna Szpor (red.). Warszawa: C.H.Beck, 2014.ISBN 978-83-255-6467-4.