Lebig data/ˌbɪɡˈdeɪtə/[1] (litt. « grosses données » en anglais), lesmégadonnées[2],[3] ou lesdonnées massives[2], désigne les ressources d’informations dont les caractéristiques en termes de volume, de vélocité et de variété imposent l’utilisation de technologies et de méthodes analytiques particulières pour créer de la valeur[4],[5], et qui dépassent en général les capacités d'une seule et unique machine et nécessitent des traitements parallélisés.
L’explosion quantitative (et souventredondante) desdonnées numériques permet une nouvelle approche pour analyser le monde[6]. Le volume colossal de données numériques disponibles, implique de mettre en œuvre de nouveaux ordres de grandeur concernant la capture, le stockage, la recherche, le partage, l'analyse et lavisualisation des données. Le traitement desbig data[7] permet de nouvelles possibilités d'exploration de l'information et des données, celles-ci proviennent de nombreuses sources numériques : les réseaux sociaux, les médias[8], l'OpenData, le Web, des bases de données privées, publiques à caractère commercial ou scientifique. Cela permet des recoupements et des analyses prédictives dans de nombreux domaines : scientifique, santé, économique, commercial… La multiplicité des applications a été comprise et développée par les plus gros acteurs du secteur des technologies de l'information[9].
Divers experts, grandes institutions (comme leMIT[10] aux États-Unis, leCollège de France[11] en Europe), administrations[12] et spécialistes sur le terrain des technologies ou des usages[13] considèrent le phénomènebig data comme l'un des grands défis informatiques de la décennie 2010-2020 et en ont fait une de leurs nouvelles priorités derecherche et développement, qui pourrait notamment conduire à l'Intelligence artificielle en étant exploré par desréseaux de neurones artificiels autoapprenants[14].
Une visualisation des données créée par IBM[15] montre que lesbig data sur les modifications deWikipedia par le robotPearle ont plus de signification lorsqu'elles sont mises en valeur par des couleurs et des localisations[16].
Croissance de la capacité mondiale de stockage de données et informations[17].
Lebig data a une histoire récente et pour partie cachée, en tant qu'espace virtuel prenant une importance volumique croissante dans le cyberespace et exploité, parfois illégalement, par destechnologies de l'information (moissonnage de données…).
La naissance du Big Data est liée aux progrès des capacités des systèmes de stockage, de fouille et d'analyse de l'information numérique, qui ont vécu une sorte debig bang des données[19]. Mais ses prémices sont à trouver dans le croisement de lacybernétique et de courants de pensée nés durant laSeconde Guerre mondiale, selon lesquels l’homme et le monde peuvent être représentés comme« des ensembles informationnels, dont la seule différence avec la machine est leur niveau de complexité. La vie deviendrait alors unesuite de 0 et de 1, programmable et prédictible »[20].
Les évolutions qui caractérisent le big data et sesalgorithmes, ainsi que celles de lascience des données sont en partie cachées (au sein des services de renseignement des grands États) et si rapides et potentiellement profondes que peu deprospectivistes se risquent à pronostiquer son devenir à moyen ou long terme[21], mais la plupart des observateurs y voient desenjeux majeurs pour l'avenir, tant en termes d'opportunités commerciales[22] que de bouleversements sociopolitiques et militaires, avec en particulier le risque de voir émerger des systèmesubiquistes,orwelliens[23] et totalitaires capables de fortement contrôler, surveiller et/ou influencer les individus et groupes.
Les risques de dérives de la part de gouvernements ou d'entreprises[24] ont surtout d'abord été décrits parOrwell à la fin de la dernière guerre mondiale, puis souvent par lascience fiction. Avec l'apparition de grandes banques de données dans lesannées 1970 (et durant toute la période de laguerre froide) de nombreux auteurs s'inquiètent des risques pris concernant la protection de la vie privée[25], en particulierArthur R. Miller(en) qui cite l'exemple de la croissance des données stockées relatives à la santé physique et psychique des individus[26],[27],[28].
En 2000, Froomkin, dans un article paru dans la revueStanford Law Review, se demande si la vie privée n'est pas déjà morte[29], mais ce sont surtout les révélations d'Edward Snowden (2013) qui ont suscité une nouvelle prise de conscience et d'importants mouvements de protestation citoyenne.
Les quatre droits et « états de base de la vie privée » tels qu'énoncés par Westin en 1962 (droit à lasolitude[30], à l'intimité, à l'anonymat dans la foule et à laréserve) sont menacés dans un nombre croissant de situations[31], de même que la protection du contenu des courriers électroniques[32] qui fait partie du droit à la vie privée[33].
Lebig data s'accompagne du développement d'applications à visée analytique, qui traitent les données pour en tirer du sens[34]. Ces analyses sont appelées big analytics[35] ou « broyage de données ». Elles portent sur des données quantitatives complexes à l'aide de méthodes decalcul distribué et de statistiques.
En 2001, un rapport de recherche du META Group (devenuGartner)[36] définit les enjeux inhérents à la croissance des données comme étant tri-dimensionnels : les analyses complexes répondent en effet à la règle dite « des 3V » (volume, vélocité et variété[37]). Ce modèle est encore largement utilisé aujourd’hui pour décrire ce phénomène[38]. Aux 3 V initiaux, sont parfois ajoutés d'autres V comme : Véracité, Valeur et Visualisation[39],[40].
C'est une dimension relative : lebig data, comme le notait Lev Manovitch en 2011[41], définissait autrefois« les ensembles de données suffisamment grands pour nécessiter des super-ordinateurs », mais il est rapidement (dans les années 1990/2000) devenu possible d'utiliser des logiciels standards sur desordinateurs de bureau pour analyser ou co-analyser de vastes ensembles de données[42].
Le volume des big data met lescentres de données face à un réel défi : la variété des données.
Il ne s'agit pas uniquement dedonnées relationnelles traditionnelles, mais surtout de données brutes, semi-structurées, voirenon structurées (cependant, les données non structurées devront être analysées et structurées ultérieurement si nécessaire pour leur utilisation[48]).
Ce sont des données complexes qui proviennent de multiples sources : du web (Web mining), de bases publiques (open data,Web des données), géo-démographiques par îlot (adresses IP), machines ouobjets connectés (IoT), ou relever de la propriété des entreprises et des consommateurs[réf. nécessaire], ce qui les rend inaccessibles aux outils traditionnels.
La démultiplication desoutils de collecte sur les individus et sur les objets permet d’amasser toujours plus de données[49]. Les analyses sont d’autant plus complexes qu’elles portent de plus en plus sur les liens entre des données de natures différentes.
La vélocité représente la fréquence à laquelle les données sont à la fois engendrées, capturées, partagées et mises à jour[50].
Des flux croissants de données doivent être analysés en quasi-temps réel (fouille de flots de données) pour répondre aux besoins des processus chrono-sensibles[51]. Par exemple, les systèmes mis en place par la bourse et les entreprises doivent être capables de traiter ces données avant qu’un nouveau cycle de génération n’ait commencé, avec le risque pour l'Homme de perdre une grande partie de la maîtrise du système quand les principaux opérateurs deviennent des machines sans disposer de tous les critères pertinents d'analyse pour le moyen et long terme.
La véracité fait référence à la fiabilité et à la dimension qualitative des données. Traiter et gérer l’incertitude et les erreurs rencontrées dans certaines données, représente un challenge de taille pour fiabiliser et minimiser les biais[39],[40].
La mise en forme et mise à disposition des données et des résultats de l'analyse des données, permet de faciliter sa compréhension et son interprétation, afin d'améliorer la prise de décisions[39].
Si la définition du Gartner en 3V est encore largement reprise (voire augmentée de « V » supplémentaires selon l’inspiration des services marketing), la maturation du sujet fait apparaître un autre critère plus fondamental de différence avec l'informatique décisionnelle et concernant les données et leur utilisation[52] :
Informatique décisionnelle : utilisation destatistique descriptive, sur des données à forte densité en information afin de mesurer des phénomènes, détecter des tendances… ;
Big data : utilisation destatistique inférentielle, sur des données à faible densité en information[53] dont le grand volume permet d’inférer des corrélations etlois mathématiques ou statistiques (régressions…) donnant dès lors au big data (avec les limites de l’inférence) des capacités de généralisation pouvant être qualifiées de prédictives[54].
Synthétiquement :
l'informatique traditionnelle, informatique décisionnelle comprise, est basée sur un modèle du monde ;
lebig data vise à ce que les mathématiques trouvent un modèle dans les données[55],.
Les bases de données relationnelles classiques ne permettent pas de gérer les volumes de données du big data. De nouveaux modèles de représentation permettent de garantir les performances sur les volumétries en jeu.Ces technologies, dites debusiness analytics and optimization (BAO) permettent de gérer des bases massivement parallèles[56].Des patrons d’architecture (« big data architecture framework », BDAF)[57] sont proposés par les acteurs de ce marché commeMapReduce créé parGoogle et utilisé dans le frameworkHadoop. Avec ce système, les requêtes sont séparées et distribuées à des nœuds parallélisés, puis exécutées en parallèle (map). Les résultats sont ensuite rassemblés et récupérés (reduce).Teradata,Oracle ouEMC (via le rachat de Greenplum) proposent également de telles structures, basées sur des serveurs standards dont les configurations sont optimisées. Ils sont concurrencés par des éditeurs commeSAP et plus récemmentMicrosoft[58].Les acteurs du marché s’appuient sur des systèmes à forte évolutivité horizontale et sur des solutions basées sur duNoSQL (MongoDB,Cassandra) plutôt que sur des bases de données relationnelles classiques[59].
Pour répondre aux problématiques big data, l’architecture destockage des systèmes doit être repensée et les modèles de stockage se multiplient en conséquence.
Lac de données : moyen de stockage de données massives en clusters, et gardées dans leursformats originaux, pour pouvoir stocker tout format de données de manière rapide et peu coûteuse.
Cloud computing[60] : l’accès se fait via le réseau, les services sont accessibles à la demande et en libre service sur des ressources informatiques partagées et configurables[61]. Les services les plus connus sont ceux de Google BigQuery, Big Data surAmazon Web Services et MicrosoftWindows Azure.
Super calculateurs hybrides : les HPC pourhigh performance computing, peuvent être utilisés dans le domaine des Big Data pour leur puissance de calcul et d'analyse. On en retrouve en France dans les centres nationaux de calculs universitaire tels que l’IDRIS, leCINES, mais aussi auCEA ou encore le HPC-LR[62] ou à Météo France[63],[64].
Systèmes de fichiers distribués (ouDFS pourdistributed file system) : les données ne sont plus stockées sur une seule machine car la quantité est beaucoup trop importante. Les données sont réparties sur une machine bien précise utilisant du stockage local[65]. Le stockage local est préféré au stockageSAN etNAS pour des raisons de goulots d'étranglement au niveau du réseau et des interfaces réseaux des SAN. De plus, utiliser un stockage de typeSAN coûte bien plus cher pour des performances bien moindres. Dans les systèmes de stockage distribué pour le big data, l'on introduit le principe dedata locality[65]. Les données sont sauvegardées là où elles peuvent être traitées.
Virtualisation du stockage : La virtualisation des données est un moyen de rassembler des données provenant de plusieurs sources dans une seule « vue ». L'assemblage est virtuel : contrairement à d'autres méthodes, la plupart des données restent en place et sont extraites des sources brutes à la demande[66].
Lebig data trouve des applications dans de nombreux domaines : programmes scientifiques (CERN28 Mastodons), outils d'entreprises (IBM29, Amazon Web Services, BigQuery, SAP HANA) parfois spécialisées (Teradata, Jaspersoft30, Pentaho31…) ou startups, ainsi que dans le domaine de l'open source (Apache Hadoop, Infobright32, Talend33…) et de logiciels d'exploitation ouverts (avec par exemple le logiciel ouvert d'analyse de big dataH2O).
Les applications du Big data sont très nombreuses : il permet des recoupements et des analyses prédictives dans les domaines de connaissance et d'évaluation, d'analyse tendancielle etprospective (climatiques, environnementales ou encore sociopolitiques, etc.) et de gestion des risques (commerciaux, assuranciels, industriels, naturels) et de prise de décisions, et de phénomènes religieux, culturels, politiques[67], mais aussi en termes degénomique oumétagénomique[68], pour la médecine (compréhension du fonctionnement ducerveau,épidémiologie,écoépidémiologie…), lamétéorologie et l'adaptation aux changements climatiques, la gestion de réseaux énergétiques complexes (via lessmartgrids ou un futur « internet de l'énergie »), l'écologie (fonctionnement et dysfonctionnement des réseaux écologiques, desréseaux trophiques avec leGBIF par exemple), ou encore la sécurité et la lutte contre la criminalité[69], ou encore améliorer l'« expérience client » en la rendant plus personnalisée et contextualisée[70]. La multiplicité de ces applications laisse d'ailleurs déjà poindre un véritable écosystème économique impliquant, d'ores et déjà, les plus gros acteurs du secteur des technologies de l'information[9].
Lebig data en est issu et il alimente une partie de la recherche. Ainsi leLarge Hadron Collider duCERN utilise environ 150 millions de capteurs délivrant des données 40 millions de fois par seconde ; Pour 600 millions de collisions par seconde, il reste après filtrage 100 collisions d'intérêt par seconde, soit 25 Po de données à stocker par an, et 200 Po après réplication[71],[72],[73]. Les outils d'analyse dubig data pourraient affiner l'exploitation de ces données.
Décoder le premiergénome humain a nécessité dix ans, mais prend aujourd'hui moins d'une semaine : lesséquenceurs d'ADN ont progressé d'un facteur 10 000 les dix dernières années, soit 100 fois laloi de Moore (qui a progressé d'un facteur 100 environ sur 10 ans)[75]. En biologie, les approches massives basées sur une logique d’exploration des données et de recherche d’induction sont légitimes et complémentaires des approches classiques basées sur l'hypothèse initiale formulée[76]. Le big data s'est aussi introduit dans le domaine desprotéines.
Les sciences sociales explorent des corpus aussi variés que le contenu de Wikipédia dans le monde ou les millions de publications et de tweets sur Internet.
Lors de laCOP 23 (Bonn, 2017) un événement parallèle de haut niveau organisé par le « Forum sur l'innovation durable » et le PNUD a réuni des dirigeants de sociétés de données dusecteur privé et des représentants des Nations unies. Ce groupe a appelé à développer la« philanthropie des données », c'est-à-dire à massivement et de manièrealtruiste partager les données[79],[80] pour stimuler l'efficacité, l'innovation et le soutien aux actions de protection du climat et de résilience face au changement climatique. Une meilleure collecte, mise à disposition de tous, analyse et utilisation des données volumineuses est une condition selon ce groupe pour atteindre l'objectif 2030no 13 (pour le climat) de l'ONU[81] et les objectifs de l'Accord de Paris sur le climat[78].
C'est ce qu'y a rappelé Amina J. Mohammed, Secrétaire générale adjointe des Nations unies, dans son discours d'ouverture. C'est le cas notamment des données météo nécessaires à l'agriculture, à la protection de l'économie et des infrastructures vulnérables aux aléas climatiques[78].
En 2017, le PNUD aide plus de 75 pays à moderniser leurs systèmes de surveillance météorologique et climatiques. Dans les pays dits émergents, un effort reste à faire pour le « dernier kilomètre » ; par exemple, les « opérateurs mobiles » pourraient mieux recevoir l'information météorologique et aider à un partage des données sur les récoltes et problèmes de culture via des téléphones portables ; les antennes relais pourraient elles-mêmes, en lien avec des sociétés de Big Data devenir des plates-formes de regroupement de données utiles à l'élaboration de plans locaux et nationaux d'adaptation au changement climatique, et utiles à l'élaboration de stratégies sectorielles de résilience climatique[78].
Les difficultés d'anonymisation de la donnée privée restent cependant un important frein au partage efficace de données massives entre les décideurs et legrand public. La« philanthropie des données » vise à faire des secteurs public et privé deux partenaires égaux[78].
En2016, le PNUD a organisé un concours d'innovation (Climate Action Hackathon) qui a attribué des bourses à 23 développeurs Web pour créer des applications mobiles de terrain en Afrique, utilisant les données climatiques et météorologiques[78].
En2017 un concours « Data for Climate Action Challenge » a été lancé début 2017 par Global Pulse (Onu) pour susciter l'innovation en matière dedonnées ouvertes axée sur l'exploitation du Big Data et de l'analyse de données au service dubien commun. Ce concours vise à catalyser l'action sur le changement climatique. Il a mis en relation 97 équipes de recherche (semi-finalistes) avec des jeux de données venant de 11 entreprises[78].
En 2016, Linnet Taylor s'interroge : Quand le big data est présenté comme uncommun ou unbien public ; de quelbien parle-t-on ? et à quelpublic le destine-t-on réellement[82] ? en citant notamment Robert Kirkpatrick (directeur de UN Global Pulse) pour qui« le big data est comme un nouveau type deressource naturelle (ou non-naturelle) infiniment renouvelable, de plus en plus omniprésente - mais qui est tombée entre les mains d'une industrie extractive opaque et largement non réglementée, qui commence seulement à se rendre compte qu'il existe une opportunité sociale - et peut-être une responsabilité sociale - à s'assurer que ces données atteignent les personnes qui en ont le plus besoin »[79],[82].
L’analyse dubig data a joué un rôle important dans la campagne de réélection deBarack Obama, notamment pour analyser les opinions politiques de la population[83],[84],[85].
Depuis 2012, le département de la Défense américain investit annuellement sur les projetsbig data plus de 250 millions de dollars[86]. Le gouvernement américain possède six des dix plus puissants supercalculateurs de la planète[87]. LaNational Security Agency a notamment construit leUtah Data Center qui stocke depuis septembre 2014 jusqu'à unyottaoctet d’informations collectées par la NSA sur internet[88]. En 2013, lebig data faisait partie des sept ambitions stratégiques de la France déterminées par la Commission innovation 2030[89].
Walmart traite plus d'un million de transactions client par heure, importées dans des bases de données qui contiendraient plus de 2,5 Po d’information[90].Facebook traite 50 milliards de photos. D’une manière générale l'exploration de données de big data permet l’élaboration de profils clients dont on ne supposait pas l’existence[91].
Lemusée Solomon R. Guggenheim construit sa stratégie en analysant des données massives : dans les salles des transmetteurs électroniques suivent les visiteurs tout au long de leur visite. Le musée détermine ainsi de nouveaux parcours de visite en fonction des œuvres les plus appréciées, ou décider des expositions à mettre en place[92].
Ces bâtiments ou logements individuels peuvent produire de l'énergie (voire êtrepositifs en énergie). Ils peuvent aussi produire des données sur cette énergie et/ou sur leur consommation d'énergies. Ces données une fois agrégées et analysées peuvent permettre d'appréhender voire d'anticiper la consommation des usagers, des quartiers, villes, etc. en fonction des variations du contexte, météorologique notamment.
L'analyse des données collectées de production (solaire, microéolien…) et de consommation dans un bâtiment, par le biais desobjets connectés et dusmartgrid, permet aussi potentiellement de mieux gérer la consommation des usagers (de manière personnalisée).
En attendant un développement plus large dustockage de l'énergie, les jours nuageux et sans vent il faut encore faire appel à des centrales conventionnelles, et les jours exceptionnellement beaux et venteux (ex. : en Allemagne, 8 mai 2016 où durant 4 heures le vent et le soleil ont engendré plus de 90 % de l'électricité du pays[réf. nécessaire], les centrales électriques au charbon et au gaz doivent réduire à temps leur production). Un cas extrême est celui d’une éclipse solaire (prévisible). La gestion de ces pics et intermittences coûte aujourd’hui plus de 500 millions €/an à l’Allemagne et conduit à des émissions de CO2 et autres gaz à effet de serre que l’on voudrait éviter[93]. Grâce aux corrélations pouvant émerger de l'analyse fine des mégadonnées, les opérateurs de l'énergie peuvent mieux appréhender les variations fines du gisement desénergies renouvelables et les croiser avec la demande réelle.
Exemples
En 2009 laCentre national pour la recherche atmosphérique (NCAR) de Boulder dans le Colorado a lancé un tel système. Il est mi-2016 opérationnel dans huit États américains. Au sein de Xcel Energy (entreprise basée à Denver, (Colorado) qui dispose de la première capacité éolienne des États-Unis), cette approche a amélioré la prévision, assez pour que depuis 2009, les clients aient évité US $ 60 millions/an de dépenses, et l’émission de plus d'un quart d'un million de tonnes CO2/an grâce à un moindre recours aux énergies fossiles[93] ;
EWeLiNE associe trois opérateurs (TSOs Amprion GmbH,TenneT TSO GmbH et50 Hertz)[93]. Ils bénéficient de 7 M€ (déboursés par le ministère fédéral des affaires économiques et de l'énergie)[93]. Des logiciels vont exploiter le big data desdonnées météo et des données d'intérêt énergétique pour prévoir avec une précision croissante la capacité productive instantanée des ENR (car quand levent augmente ou qu’unnuage passe au-dessus d'une ferme solaire, la production augmente ou chute localement et le réseau doit s’adapter). EWeLiNE doit améliorer la gestion anticipée et en temps réel de la production et de la consommation grâce à la prévision énergético-météorologique via un système « apprenant » de prévision statistiquement avancée de la force du vent (au niveau du moyeu d'une turbine) et de la puissance solaire (au niveau des modules photovoltaïque). Les grandes éoliennes mesurent souvent elles-mêmes en temps réel la vitesse du vent au niveau des turbines, et certains panneaux solaires intègrent des capteurs d’intensité lumineuse[93]. EWeLiNE combine ces données avec les données météo classiques (terrestre, radar et satellitale) et les transfère dans des modèles informatiques sophistiqués (« systèmes apprenants ») pour mieux prédire la production d'électricité durant les prochaines 48 heures (ou plus)[93]. L'équipe scientifique vérifie ces prévisions de puissance, et les ordinateurs « apprennent » de leurs erreurs, permettant aux modèles prédictifs d’être de plus en plus précis. EWeLiNE a d’abord été testé (en juin 2016) sur quelques réseaux de panneaux solaires et d'éoliennes équipés de capteurs. À partir de juillet, les opérateurs vont peu à peu étendre le système en se connectant à un nombre croissant d’installations solaires et éoliennes qui leur transmettront en temps réel leurs données pour ajuster la quantité d'énergie produite à l’échelle du pays (l’objectif est de le faire en 2 ans)[93]. On s’approchera alors de ce que J Rifkin a nommé l’internet de l’énergie, si ce n’est qu’il y intègre aussi les usages domestiques et individuels (ce qui devrait être permis par la diffusion des compteurs intelligents et de systèmes intelligents et locaux ou mobiles de stockage de l’énergie). Premiers retours : Les premiers résultats allemands laissent penser que l’approche fonctionnera, car le travail des modélisateurs allemand avait déjà permis de bonnes améliorations avant l’accès à ces données. EWeLiNE n’est pas une déclinaison ni une traduction du systems américain du NCAR ; les modèles météorologiques et les algorithmes convertissant les prévisions météorologiques en prévisions de puissance diffèrent[93]
Dans la majorité des cas, les entreprises peuvent utiliser les données pour mieux connaitre leur marché. En effet les données collectées par les cartes de fidélité et les historiques d’achat permettent de mieux comprendre le marché de manière générale, d’en faire une meilleure segmentation[95]. Les entreprises vont pouvoir proposer des articles qui correspondent aux envies du clients par le ciblage. Le meilleur exemple serait Amazon qui, grâce au big data, a réussi à accroitre la pertinence de ses recommandations[96]. Le Big Data permet donc de dégager un schéma global aidant à comprendre le marché. L’entreprise saura alors quels produits proposés ou sur quels produits il faut davantage accentuer la communication afin de les rendre plus attrayants[97]. Tout cela peut être crucial pour l’entreprise. Mais elles peuvent aussi utiliser les données dans un autre registre : améliorer leurs technologies. Par exemple Rolls-Royce met des capteurs dans les moteurs de leurs réacteurs afin de d’avoir de multiples informations pendant le vol[96]. Cet auteur explique qu’avant le boom du big data, les informations jugées superflues étaient détruites par les ordinateurs mais maintenant elles sont collectées dans des serveurs centraux afin de créer des modèles permettant de prévoir des pannes et/ou des défaillances. Elle a donc renforcé la sureté de ses réacteurs et a pu transformer ces données en profit.
L'un des principaux enjeux de productivité dubig data dans son évolution va porter sur la logistique de l'information, c'est-à-dire sur la manière de garantir que l'information pertinente arrive au bon endroit au bon moment. Il s'agit d'une approche micro-économique. Son efficacité dépendra ainsi de celle de la combinaison entre les approches micro- et macro-économique d'un problème.
Selon certaines sources, les données numériques créées dans le monde atteindraient 47 zettaoctets d'ici 2020[44] et 175zettaoctets en 2035[44]. À titre de comparaison, Facebook générait environ 10 téraoctets de données par jour au début 2013. Le développement de l'hébergement massif de données semble avoir été accéléré par plusieurs phénomènes simultanément : la pénurie de disques durs à la suite des inondations en Thaïlande en 2011, l'explosion du marché des supports mobiles (smartphones et tablettes notamment), etc. Ajouté à cela, la démocratisation du cloud-computing de plus en plus proche, grâce à des outils comme Dropbox, amène le big data au centre de la logistique de l'information.
Afin de pouvoir exploiter au maximum lebig data, de nombreuses avancées doivent être faites, et ce en suivant trois axes.
Les méthodes de modélisation de données ainsi que les systèmes de gestion de base de données relationnelles classiques ont été conçus pour desvolumes de données très inférieurs. La fouille de données a des caractéristiques fondamentalement différentes et les technologies actuelles ne permettent pas de les exploiter.
Dans le futur il faudra des modélisations de données et des langages de requêtes permettant :
une représentation des données en accord avec les besoins de plusieurs disciplines scientifiques ;
de décrire des aspects spécifiques à une discipline (modèles demétadonnées) ;
de représenter la provenance des données ;
de représenter des informations contextuelles sur la donnée ;
de réaliser l'approximation d'un gros volume de données[99].
De très nombreux autres thèmes de recherche sont liés à ce thème, citons notamment : la réduction de modèle pour les EDP, l'acquisition comprimée en imagerie, l'étude de méthodes numériques d'ordre élevé… Probabilités, statistiques, analyse numérique, équations aux dérivées partielles déterministes et stochastiques, approximation, calcul haute performance, algorithmique… Une grande partie de la communauté scientifique, notamment en mathématiques appliquées et en informatique, est concernée par ce thème porteur.
Le besoin de gérer des données extrêmement volumineuses est flagrant et les technologies d’aujourd’hui[Quand ?][réf. nécessaire] ne permettent pas de le faire. Il faut repenser des concepts de base de la gestion de données qui ont été déterminés dans le passé. Pour la recherche scientifique, par exemple, il sera indispensable de reconsidérer le principe qui veut qu’une requête sur unSGBD fournisse une réponse complète et correcte sans tenir compte du temps ou des ressources nécessaires. En effet la dimension exploratoire de la fouille de données fait que les scientifiques ne savent pas nécessairement ce qu’ils cherchent. Il serait judicieux que leSGBD puisse donner des réponses rapides et peu coûteuses qui ne seraient qu’une approximation, mais qui permettraient de guider le scientifique dans sa recherche[98].
Dans le domaine des données clients, il existe également de réels besoins d'exploitation de ces données, en raison notamment de la forte augmentation de leur volume des dernières années[100]. Le big data et les technologies associées permettent de répondre à différents enjeux tels que l'accélération des temps d’analyse des données clients, la capacité à analyser l’ensemble des données clients et non seulement un échantillon de celles-ci ou la récupération et la centralisation de nouvelles sources de données clients à analyser afin d’identifier des sources de valeur pour l’entreprise.
Les outils utilisés au debut des années 2010 ne sont pas en adéquation avec les volumes de données engendrés dans l’exploration dubig data. Il est nécessaire de concevoir des instruments permettant de mieuxvisualiser, analyser, et cataloguer les ensembles de données afin de permettre une optique de recherche guidée par la donnée[98]. La recherche enbig data ne fait que commencer. La quantité de données évolue beaucoup plus rapidement que nos connaissances sur ce domaine. Le siteThe Gov Lab prévoit qu'il n y aura pas suffisamment de scientifiques dudata. En 2018, les États-Unis auraient besoin de 140 000 à 190 000 scientifiques spécialisés enbig data[86].
Le déluge de données qui alimente lebig data (et dont certaines sont illégales ou incontrôlées) est souventmétaphoriquement comparé à la fois à un flux continu de nourriture, de pétrole ou d’énergie (qui alimente les entreprises dudata mining et secondairement lasociété de l’information[101]) qui expose au risque d’infobésité et pourrait être comparé à l’équivalent d’une « pollution »[42] ducyberespace et de lanoosphère (métaphoriquement, lebig data correspondrait pour partie à une sorte de grande marée noire informationnelle, ou à une eutrophisation diffuse mais croissante et continue du monde numérique pouvant conduire à une dystrophisation, voire à des dysfonctions au sein des écosystèmes numériques)[102].
Face à cette« entropie informationnelle » quelques réponses de typenéguentropique sont nées (Wikipédia en fait partie en triant et restructurant de l’information déjà publiée).
D’autres réponses ont été la création de moteurs de recherche et d’outils d’analyse sémantique et defouille de flots de données, de plus en plus puissants et rapides.
Néanmoins, l'analyse du big data tend elle-même à engendrer du big data, avec un besoin de stockage et de serveurs qui semble exponentiel.
Parallèlement à la croissance de la masse et du flux de données, une énergie croissante est dépensée d'une part dans la course aux outils de datamining, au chiffrement/déchiffrement et aux outils analytiques et d’authentification, et d'autre part dans la construction defermes de serveurs qui doivent être refroidis ; au détriment du bilan énergétique et électrique du Web.
En 2010, lesjeux de données produites par l’homme sont de plus en plus complétés par d'autres données, massivement acquises de manière passive et automatique par un nombre croissant de capteurs électroniques et sous des formes de plus en plus interopérables et compréhensibles par les ordinateurs. Le volume de données crées dans le monde fait plus que doubler tous les deux ans, et en migrant de plus en plus sur internet, les uns voient dans le big data intelligemment utilisé une source d’information qui permettrait de lutter contre la pauvreté, la criminalité ou la pollution. Et à l'autre extrémité du spectre des avis, d'autres, souvent défenseurs de la confidentialité de la vie privée, en ont une vision plus sombre, craignant ou affirmant que le big data est plutôt unBig Brother se présentant dans de« nouveaux habits »[103], « dans des vêtements de l’entreprise »[104].
En 2011 à l'occasion d'un bilan sur 10 ans d'Internet pour la société,Danah Boyd (deMicrosoft Research) etKate Crawford (University of New South Wales) dénonçaient de manière provocatrice six problèmes liés à des idées reçues sur le big data[105] :« L’automatisation de la recherche change la définition du savoir (…) Les revendications d’objectivité et d’exactitude sont trompeuses (…) De plus grosses données ne sont pas toujours de meilleures données (…) Toutes les données ne sont pas équivalentes (…) Accessible ne signifie pas éthique (…) L’accès limité aux big data crée de nouvelles fractures numériques »[42] entre les chercheurs ayant accès aux données de l'intérieur ou en payant ce droit d'accès[42].
Lesétudes critiques sur les données relèvent un ensemble de problématiques liées aux données massives. Plusieurs types derisques d'atteinte à la vie privée et aux droits fondamentaux sont cités par la littérature :
Déshumanisation : dans ce queBruce Schneier dénomme« l’âge d’or de la surveillance », la plupart des individus peuvent se sentir déshumanisés et ils ne peuvent plus protéger les données personnelles ou non qui les concernent, et qui sont collectées, analysées et vendues à leur insu. Alors qu'il devient difficile de se passer de carte bleue, de smartphone ou de consultation de l'internet, ils peuvent avoir le sentiment de ne pas pouvoir échapper à une surveillance constante où à des pressions visant à les faire consommer, voter, etc.
Faille desécurité informatique : dans un monde de plus en plus interconnecté et lié à l’Internet, la sécurité en ligne devient cruciale, pour la protection de la vie privée, mais aussi pour l'économie (ex. : en cas de problème grave, des risques existent de perte de confiance, concernant la sécurité des processus d’achat en ligne par exemple ; ils pourraient avoir des conséquences économiques importantes).
« Vassalisation de la recherche scientifique par des sociétés commerciales et leurs services de marketing »[42].
Apophénie (déductions indues)[42] : lesbiais d’accès et d’interprétation sont nombreux (« un corpus n’est pas plus scientifique ou objectif parce que l’on est en mesure d’aspirer toutes les données d’un site. D’autant qu’il existe de nombreux biais (techniques avec les API, mais aussi organisationnels) dans l’accès même à ces données qu’on aurait tort de considérer comme totales. Cet accès ne repose en effet que sur le bon vouloir de sociétés commerciales et sur les moyens financiers dont disposent chercheurs et universités) »[42] ; De plus, un biais lié augenre existe : la grande majorité des chercheurs experts en informatique sont aujourd’hui des hommes, or des historiennes féministes et les philosophes des sciences ont montré que le sexe de celui qui pose les questions détermine souvent les questions qui seront posées[106].
Mésinterprétation de certaines données liées à l'altérité, avec d'éventuelles conséquencessociopsychologiques, par exemple et de mauvaise compréhension ou interprétation de l’autre (« l’autre n’est pas une donnée » rappelle D. Pucheu[107]). Un autre risque est celui d'une« raréfaction des occasions d’exposition des individus à des choses qui n’auraient pas été pré-vues pour eux, et donc un assèchement de l’espace public (comme espace de délibération, de formation de projets non rabattus sur la seule concurrence des intérêts individuels), ces choses non pré-vues, étant précisément constitutives du commun, ou de l’espace public »[108].
Exacerbation de lafracture numérique, car les outils dedata mining offrent à quelques entreprises un accès croissant et presque instantané à des milliards de données et de documents numérisés. Pour ceux qui savent utiliser ces données, et avec certaines limites, elles offrent aussi une certaine capacité à produire, trier ou distinguer des informations jugées stratégiques, permettant alors aussi de retenir ou au contraire de libérer avant d’autres certaines informations stratégiques[109]. Cet accès très privilégié et peu transparent à l'information peut favoriser des situations deconflits d'intérêts ou desdélits d'initiés. Il existe un risque d'inégalités croissante face aux données et au pouvoir que l'on a sur elles : Manovich distingue ainsi 3 catégories d’acteurs, foncièrement inégaux face à la donnée :« ceux qui créent les données (que ce soit consciemment ou en laissant des traces numériques), ceux qui ont les moyens de les recueillir, et ceux qui ont la compétence de les analyser » (2011)[réf. souhaitée]. Ces derniers sont en faible nombre, mais très privilégiés (ils sont souvent employés par les entreprises et autres entités du big data et ont donc le meilleur accès à la donnée; ils contribuent à produire ou orienter les règles qui vont les encadrer et cadrer l’exploitation des big data. Des inégalités institutionnelles sonta priori inéluctables mais elles peuvent être minimisées et devraient au moins être étudiées, car elles orientent les données et les types de recherches et applications qui en découleront.
Dérives éthiques, déjà constatées dans la partiegrise ousombre[115] de l’internet, y compris dans les grands réseaux sociaux (dontFacebook etTwitter, qui collectent un grand nombre de données et informations sur leurs utilisateurs et les réseaux dans lesquels ils s’inscrivent[116],[117]) ; D’autres invitent à l’adoption de bonnes pratiques[118] et de règles éthiques plus strictes pour le data mining[119] et la gestion de ces mégadonnées[120],[121]. Notamment depuis les révélations dulanceur d'alerte américainEdward Snowden[122], certains s’inquiètent de voir outre une surveillance de plus en plus invasive (voirepervasive[123]) de nos activités par les fournisseurs d’accès à Internet[124], puis fleurir des législations facilitant (sous prétexte de facilités économiques et/ou de sécurité nationale) l’usage d’outils de traçage (via lescartes de paiement,cartes de fidélité,cartes de santé,cartes de transport,cartes de pointage, les systèmes devideosurveillance, certains smartgrids ou outils domotiques, certains objets connectés géolocalisant leur propriétaire, etc.). Certaines de ces législations facilitent ou légitiment explicitement les écoutes électroniques (écoute et analyse de conversations téléphoniques ; interception et analyse d’emails et de réseaux) et le suivi général des activités sur le Net, ce qui leur semble être un contexte pouvant préparer une surveillance orweillienne généralisée des individus. Ces auteurs dénoncent l’apparition de processus et d’un contexte de plus en plus orweillien[23] intrinsèquement difficiles à contrôler, et insistent sur l’importance de la protection de la vie privée[125], « même quand on n'a rien à cacher »[126],[127] ou (comme B. Schneier en 2008[128] ou Culnan & Williams en 2009[129]) rappellent que les notions de sécurité et de protection de la vie privée et d’autonomie de l’individu ne sont pas opposées.
Influence auxgroupes de pressions des industriels qui participent au développement des techniques de captation et d'usage de multiples données en utilisant des concepts deville intelligente et deville sûre plus socialement acceptés.
Cybersécurité : Les données d'une entreprise comptent parmi les actifs plus importants d'une entreprise, expliqueLambert Sonna Momo en 2014[130]. Depuis, la question des données privées de tout à chacun, stockées de manière massive, fait régulièrement l'objet de débats sur les sujets d'éthique et de respect de la sphère privée.
La Commissaire européenne à la Concurrence,Margrethe Vestager, a considéré auprès duWall Street Journal que les grandes sociétés pouvaient utiliser des masses gigantesques de données d’utilisateurs pour entraver la concurrence[131].
Dans un rapport du CIB (Comité International de Bioéthique) sur les mégadonnées et la santé, publié en 2015, il mentionne que« L’enthousiasme suscité par le phénomène des mégadonnées risque d’entraîner des suréstimations et des prévisions irréalistes »[132]. Cela peut« mener à un déséquilibre des priorités en termes de politiques de santé, notamment dans les pays où l'accès à ces services essentiels n'est pas garanti ». En conclusion de la proposition 45, le CIB précise qu'« Il est par conséquent essentiel de gérer avec bon sens l’optimisme suscité par ce phénomène ».
La gouvernance des données peut se faire au niveau des entreprises, dans l'objectif de gérer efficacement leurs données; et aussi des états, pour réguler le bon usage des données.Elle nécessite undébat citoyen constant[133] ainsi que des modes de gouvernance et de surveillance adaptés[134] car des États, des groupes ou des entreprises ayant des accès privilégiés au big data peuvent en extraire très rapidement un grand nombre de« données personnelles diffuses » qui, par croisement et analyse, permettent un profilage de plus en plus précis, intrusif et parfois illégal (faisant fi de laprotection de la vie privée) des individus, des groupes, des entreprises, et en particulier de leur statut social, culturel, religieux ou professionnel (exemple du programmePRISM de laNSA), de leurs activités personnelles, leurs habitudes de déplacement, d’achat et de consommation, ou encore de leur santé. Cette question renvoie directement à laDéclaration Universelle des droits de l'Homme qui indique, dans l'article 12, que« Nul ne sera l'objet d'immixtions arbitraires dans sa vie privée, sa famille, son domicile ou sa correspondance, ni d'atteintes à son honneur et à sa réputation. Toute personne a droit à la protection de la loi contre de telles immixtions ou de telles atteintes »[135].« La montée des big data amène aussi de grandes responsabilités »[42]. En matière desanté publique notamment, des enjeuxéthiques forts existent[136].
Sur la scène européenne, un nouveau règlement a été mis en place dans le courant de l'année 2015 : leRGPD ou GDPR (General Data Protection Regulation). Il s'agit d'un règlement qui modifie le cadre juridique relatif à la protection des données personnelles au sein de l’union européenne. Le RGPD rappelle que toute personne physique devrait avoir le contrôle de données à caractère personnel la concernant. Toute opération économique se doit, de plus, d'être transparente, le règlement en assure la sécurité juridique (article 13). Enfin la protection des données personnelles est garantie par ce nouveau règlement (article 17)[137].
Les plateformes big data sont conçues pour traiter une quantité de données massive, en revanche elles sont très rarement conçues pour traiter ces données en temps réel. Les nouveaux usages et les nouvelles technologies engendrent des données au quotidien et sans interruption, il est donc nécessaire de faire évoluer ces plateformes pour traiter les données temps réel afin de répondre aux exigences métiers qui demandent d’aller vers plus de réactivité et de personnalisation. C’est la raison pour laquelle les architectureslambda et kappa ont vu le jour. Ces architectures permettent de prendre en compte les flux de données temps réel pour répondre à ces nouvelles exigences[138].
↑Griffin, J. J. (1990).Monitoring of Electronic Mail in the Private Sector Workplace: An Electronic Assault on Employee Privacy Rights, The. Software LJ, 4, 493 (Griffin, J. J. (1990). Monitoring of Electronic Mail in the Private Sector Workplace: An Electronic Assault on Employee Privacy Rights, The. Software LJ, 4, 493. résumé]).
↑Warren, S. D., & Brandeis, L. D. (1890).The right to privacy. Harvard law review, 193-220.
↑Pierre Brunelle,Déchiffrer le big data, Simplement : Acquérir les outils pour agir, de la réflexion à l'usage. (French Edition), Sceaux, Pierre Brunelle,, 129 p.(ISBN978-1-5394-0933-5),p. 12
↑Pierre Delort, « Big Data car Low-Density Data ? La faible densité en information comme facteur discriminant »,lesechos.fr,(lire en ligne, consulté le)
↑Harding, S. (2010) « Feminism, science and the anti-Enlightenment critiques », in Women, knowledge and reality: explorations in feminist philosophy, eds A. Garry and M. Pearsall, Boston: Unwin Hyman, 298–320.
↑Schneier, B (2008). What our top spy doesn’t get: Security and privacy aren’t opposites. Wired. com.
↑Culnan, M. J., & Williams, C. C. (2009). How ethics can enhance organizational privacy: lessons from the choicepoint and TJX data breaches. Mis Quarterly, 673-687 (résumé).
↑Maxime Ouellet, André Mondoux, Marc Ménard, Maude Bonenfant et Fabien Richert,"Big Data", gouvernance et surveillance, Montréal, Université du Québec à Montréal,, 65 p.(ISBN978-2-920752-11-5,lire en ligne).