Movatterモバイル変換

Aller au contenu

NoSQL

Modifier les liens

Un article de Wikipédia, l'encyclopédie libre.

Eninformatique et enbases de données,NoSQL désigne une famille desystèmes de gestion de base de données (SGBD) qui s'écarte duparadigme classique desbases relationnelles. L'explicitation la plus populaire de l'acronyme estNot only SQL (« pas seulement SQL » en anglais) même si cette interprétation peut être discutée^[1].

La définition exacte de la famille des SGBDNoSQL reste sujette à débat. Le terme se rattache autant à des caractéristiques techniques qu'à une génération historique de SGBD qui a émergé autour des années 2010^[2]. D'aprèsPramod J. Sadalage etMartin Fowler, la raison principale de l'émergence et de l'adoption des SGBD NoSQL serait le développement descentres de données et la nécessité de posséder un paradigme de bases de données adapté à ce modèle d'infrastructure matérielle^[3].

L'architecture machine enclusters induit une structure logicielle distribuée fonctionnant avec des agrégats répartis sur différents serveurs permettant des accès et modificationsconcurrentes mais imposant également de remettre en cause de nombreux fondements de l'architecture SGBD relationnelle traditionnelle, notamment lespropriétés ACID.

Éléments historiques

[modifier |modifier le code]

Domination historique des SGBD relationnels

[modifier |modifier le code]

Article détaillé :Base de données relationnelle.

Les SGBD relationnels créés dans les années 1970 se sont progressivement imposés jusqu'à devenir le paradigme de bases de données très largement dominant au début des années 1990.

Plusieurs autres modèles de bases de données ont émergé, tels lesSGBD orientés objet,SGBD hiérarchiques,SGBD relationnel-objet mais leur utilisation est restée très limitée.

C'est dans le courant des années 2000 avec le développement de grandes entreprises internet (Google, Amazon, eBay…) brassant des quantités énormes de données et le développement de l'informatique en grappes que la domination sans partage dumodèle relationnel a été remise en question car souffrant de limites rédhibitoires pour ces nouvelles pratiques.

Pionniers du modèle NoSQL

[modifier |modifier le code]

Ce sont les grandes entreprises du web amenées à traiter des volumes de données très importants qui ont été les premières confrontées aux limitations intrinsèques des SGBD relationnels traditionnels. Ces systèmes fondés sur une application stricte despropriétés ACID et généralement conçus pour fonctionner sur des ordinateurs uniques ont rapidement posé des problèmes d'extensibilité.

Afin de répondre à ces limites, ces entreprises ont commencé à développer leurs propres systèmes de gestion de bases de données pouvant fonctionner sur des architectures matérielles distribuées et permettant de traiter des volumes de données importants. Les systèmes qui en ont résulté,Google (BigTable),Amazon (Dynamo (en)),LinkedIn (Voldemort), Facebook (Cassandra puisHBase),MongoDB,Ubuntu One (CouchDB),Baidu (Hypertable) ont été les précurseurs du modèle NoSQL^[4].

Les performances restent bonnes avec la montée en charge en multipliant simplement le nombre de serveurs, solution raisonnable avec la baisse des coûts, en particulier si les revenus croissent en même temps que l'activité^[5]. Les systèmes géants sont les premiers concernés : énormes quantités de données^[6], structuration relationnelle faible (ou de moindre importance que la capacité d'accès très rapide, quitte à multiplier les serveurs).

Un modèle typique en NoSQL est le système clé-valeur, avec une base de données pouvant se résumer à un simpletableau associatif unidimensionnel avec des millions — voire des milliards — d'entrées. Parmi les applications typiques, on retrouve des analyses temps-réel, statistiques, du stockage de logs (journaux), etc.

Invention et popularisation du terme NoSQL

[modifier |modifier le code]

La parution d'articles présentant ces systèmes propriétaires a conduit au développement de plusieurs projets souventopen source reprenant à la fin des années 2000/début des années 2010 ces grands principes, à savoir des systèmesscalables par architectures matérielles distribuées, ne visant pas une application stricte dustandard ACID.

Le11 juin 2009,Johan Oskarsson, ingénieur informaticien àLondres, souhaite organiser une rencontremeetup àSan Francisco pour effectuer un tour d'horizon de ces nouveaux systèmes« open-source, distribués et non-relationnels ». Il souhaite un nom percutant et facile à retenir pour cette conférence, après avoir consulté le canal IRC #Cassandra, le nom « NoSQL » est retenu. Cette dénomination ne devait initialement servir qu'à désigner cette convention mais elle passera à la postérité en devenant la désignation de cette génération d'outils. L'interprétation « not only SQL » ne sera inventée plus tard que commerétro-acronyme^[3]^,^[7].

De nombreux spécialistes se sont plaints de l'inexactitude du terme « NoSQL » et des confusions qu'il pouvait créer, lui préférant parfois le terme « NoRel » (« not only relational ») ou d'autres désignations plus spécifiques, mais le terme reste le plus populaire^[3]^,^[4].

Convention NoSQL de 2009

[modifier |modifier le code]

Plus de cent développeurs de logiciels ont assisté à des présentations de solutions telles queProject Voldemort,Cassandra,Dynomite,HBase,Hypertable,CouchDB etMongoDB.

La rencontre de 2009 à San Francisco est considérée comme l'inauguration de la communauté des développeurs de logiciels NoSQL. Des développeurs qui, selon le magazineComputerworld,« racontent comment ils ont renversé la tyrannie des coûteux et lents SGBD relationnels par des moyens plus simples et plus rapides de manipuler des données ». Selon Jon Travis, un des présentateurs de la conférence,« les SGBD relationnels en font trop, alors que les produits NoSQL font exactement ce dont vous avez besoin ». Les leaders de cette communauté sont majoritairement desstart-up qui n'avaient pas les moyens d'acquérir les licencesOracle, et ont donc développé leurs propres SGBD en imitant les produits deGoogle et d'Amazon.com. Les produits qu'ils ont créés peuvent manipuler de très grandes quantités de données (centaines detéraoctets) et offrent uneévolutivité à la charge adaptée aux besoins des applicationsWeb 2.0, ce qui les rend pertinents. Les auteurs décrivent leurs produits comme n'étant pas des SGBD, mais plutôt des logiciels destockage de données^[8].

Les SGBD non relationnels, plus anciens que les SGBD relationnels, sont classiques sur lesmainframes et les logiciels d'annuaire, performants là où les lectures sont bien plus fréquentes que les écritures (par exempleLDAP). Leur principe connaît une nouvelle jeunesse avec leNoSQL, porté par le domaine des services Internet, car la plupart des logiciels NoSQL sont destinés à permettre larépartition de charge des grands services Internet.

En 2011, un travail de spécification pour un langage de manipulation standardisé a débuté sous le nom deUnQL (Unstructured Query Language). Il se propose de formaliser la façon dont les bases NoSQL font des requêtes dans les collections (le pendant des tables de données pour les bases relationnelles). Bien qu'UnQL ait été présenté comme une abstraction au-dessus de SQL, ce dernier correspondant à un UnQL très contraint, il a été rappelé qu'UnQL ne recouvre pas tout leLDD de SQL. En réalité, les deux domaines, bases relationnelles et NoSQL, répondant à des besoins et des contraintes différents, coexistent souvent dans lesarchitectures métiers.

Théorie

[modifier |modifier le code]

Les caractéristiques principales des SGBD NoSQL sont de permettre la manipulation de volumes de données importants et de permettre unescalabilité horizontale. Ces systèmes ne respectent en général pas les standards des SGBD relationnels : il ne s'agit pas à proprement parler d'une propriété recherchée, mais plutôt d'une concession permettant des traitements plus rapides pour certains types d'applications.

À ce titre, les structures des SGBD restent en date de 2016 très hétérogènes. Nous pouvons cependant citer quelques familles principales émergentes.

NoSQL orienté-agrégats

[modifier |modifier le code]

Une des caractéristiques retrouvées dans de nombreux SGBD NoSQL est l'utilisation d’« agrégats de données » constitués d'un ensemble de données souvent « consultées/modifiées en même temps » et qui peuvent être déployées sur des serveurs indépendants^[3].

À titre d'exemple, considérons une application de commerce-en-ligne conçue de manière à accéder fréquemment aux informations d'un client (adresses, etc) et à l'historique de ses achats (par exemple pour lui proposer des réductions).

Un SGBD relationnel typique modélisera ce système en créant une table des informations clients et une table des achats, puis en effectuant une jointure entre ces dernières à chaque opération. Cette architecture pourra poser un problème lorsque le nombre de clients/achats deviendra important et sera difficile à répartir entre plusieurs serveurs.
A contrario, une architecture SGBD NoSQL typique aura tendance à modéliser ce problème en un ensemble d'agrégats constitué des informations d'un client et de ses achats. Cette architecture est plus facilement scalable. En effet, ces agrégats interagissent peu entre eux et peuvent facilement être répartis sur un cluster de serveurs. Cette architecture pourra par contre poser un problème si pour une raison quelconque on est amené à effectuer des requêtes qui ne correspondent pas aux cas d'utilisation immédiatement considérés. Par exemple, une demande de calcul du nombre total de clients ou d'achats pourra être moins efficace que dans un système relationnel qui conserve l'ensemble des clients (resp. achats) dans une table unique.

NoSQL orienté-graphes

[modifier |modifier le code]

Article détaillé :bases de données orientées graphe.

Lesbases de données orientées graphe permettent de stocker les données sous forme de graphe et de faciliter l'écriture des requêtes en supprimant la plupart des jointures. Par rapport aux bases relationnelles, l'efficacité de ces bases est variable en fonction des systèmes et tâches et des configurations^[9].Ces données sont typiquement celles des réseaux sociaux, réseaux de transport, topologies ou systèmes de recommandation de documents.

On distingue habituellement les triplestores des bases de données orientées-graphe. Les bases de données graphe fonctionnent avec différents types de graphe (ex. : pondérés, clusters, graphe et tables mixtes) et offrent souvent de meilleures performances pour les traversées de graphes^[9]. Les triplestores gèrent exclusivement des graphes binaires de tripletsRDF (donc centrés sur les relations) mais proposent des inférences.Leslangages de requête dépendent des bases, les triplestores fonctionnent exclusivement avec le langageSPARQL, voirarticle détaillé à propos de langages de requête.

Pour lesbases de données orientées graphe, l'utilisation de schéma de données n'est pas toujours nécessaire.

NoSQL sans-schéma

[modifier |modifier le code]

La première étape de la création d'une base de données relationnelle est de définir son schéma, c'est-à-dire l'ensemble des tables la composant et l'ensemble des champs de ces tables. Cette étape crée une certaine rigidité dans l'implémentation, implique d'avoir une vision assez claire des évolutions de l'application et peut poser un problème si la structure des données recueillies change dans le temps.Les systèmes NoSQL sans-schéma peuvent ignorer cette étape et stocker des données hétérogènes au fur et à mesure de leur alimentation. Cette utilisation permet une grande flexibilité et des capacités d'adaptation au niveau de la base de données. La contrepartie est que les applications qui liront la base de données devront être capables d'intégrer des données plus hétérogènes et de structure plus complexe.

Autres

[modifier |modifier le code]

Article détaillé :Propriétés ACID.

Lescapacités ACID garantissent que si plusieurs utilisateurs font de manière simultanée des modifications des données, toutes les modifications vont être prises en compte, dans un ordre précis et maîtrisé, de manière à avoir un résultat cohérent (intégrité des données) avec l'historique des modifications faites par chacun. La mise en œuvre stricte des capacités ACID entraîne des coûts logiciels importants et un niveau de performance moindre à infrastructure matérielle équivalente.

LesSGBD d'annuaires ont servi de modèle en permettant de lever certaines de ces contraintes en fonction de l'usage, en particulier dans les cas où la grande majorité des accès aux bases de données consiste en lectures sans modification (dans ce cas, seule la propriété de persistance importe).

Pour faire face à des volumes importants de données, auxquelles on accède de différents endroits du monde, il faut pouvoir répliquer ces données sur différentes machines physiques, c'est ce que l'on appelle un environnement distribué. Lethéorème CAP démontre qu'il n'est pas possible d'assurer des transactions totalement ACID dans un environnement distribué.

Leprotocole Paxos a des performances comparables à celles de l'algorithme de consensus de Chandra-Toueg (en) dans un environnement distribué^[10] et utilisables pour des applications concrètes^[11], notamment dans le cloud^[12]. Il est possible d'inclure ce protocole dans une application en conservant en partie les contraintes ACID^[13]^,^[14].

Les solutions du marché implémentent ce protocole en ajoutant leurs techniques propres pour limiter les conséquences de l'impossibilité d'ACID lors des écritures et mises à jour de données.

Marché

[modifier |modifier le code]

Les SGBD relationnels sont largement répandus dans les entreprises. Dimensionnés pour une quantité d'informations et un nombre d'utilisateurs typiques d'une entreprise, ils ont pour fonction principale letraitement de transactions.

Ils montrent cependant leurs limites lorsqu'ils sont utilisés dans un périmètre plus large, tel qu'un site web populaire, enrépartition de charge (load balancing), fréquenté par des millions de visiteurs dans le monde entier : les SGBD relationnels exigeraient alors des logiciels et des ordinateurs coûteux ainsi que des compétences en optimisation peu répandues.

Ce segment de marché est de ce fait occupé par leslogicielsNoSQL, conçus spécifiquement pour un usage de typeInternet^[15]. Ces produits abandonnent la représentation matricielle de l'information et le langage de commandeSQL en échange d'une simplicité, d'une performance et surtout d'unescalabilité accrues^[5]. La complexité de mise en œuvre du traitement destransactions a été réduite dans le but d'obtenir des services plus simples et plus spécialisés^[16].

Simple à mettre en œuvre, lestockage d'information à l'aide detableaux associatifs (ditsclé / valeur) existe depuis le début de l'histoire desbases de données, en 1970. Des langages commePerl etPHP les ont rendus familiers aux programmeurs. Les nouvelles demandes en rapport avec lessites web de grande audience apparus dans les années 2000 et la facilité de mise en œuvre des tableaux associatifs ont fait émerger ces solutions. Elles ont comme point commun l'abandon du langage SQL et sont donc nomméesNoSQL. Cela ne signifie pas qu'aucune ne proposera jamais ce langageen option^[17].

Dans le marché des SGBDNoSQL se trouventCassandra,MongoDB, Voldemort,CouchDB etSimpleDB. Lors d'un sondage réalisé en 2010 auprès de professionnels de l'informatique, 44 % des sondés répondaient encore qu'ils n'avaient jamais entendu parler de NoSQL^[18].

Exemples

[modifier |modifier le code]

Exemples de produits NoSQL :

Accumulo,fondation Apache,Licence Apache 2.0, dérivé d'Hadoop avec des fonctions de sécurité augmentées
Berkeley DB, Oracle Corporation, il existe deux versions en licence libre et propriétaire
BigTable, Google, privé, depuismai 2015 il existe une version publique sous licence propriétaire
Hypertable, Zvents,GNU GPL 2.0, sponsorisé parBaidu depuis 2009
Cassandra, fondation Apache,Licence Apache 2.0, utilisé parTwitter, Digg...
CouchDB, fondation Apache,Licence Apache 2.0, NoSQL orienté-document
DEX/Sparksee, Sparsity Technologies, propriétaire, NoSQL orienté graphe
DocumentDB,Microsoft Azure, propriétaire
DynamoDB (en), Amazon, propriétaire, utilisable essentiellement viaAmazon Web Services
Elassandra, version augmentée de Cassandra intégrant un moteur de rechercheElasticsearch, sousLicence Apache 2.0
HBase, fondation Apache,Licence Apache 2.0, dérivé d'Hadoop, utilisé notamment par Facebook
MongoDB, MongoDB Inc.,GNU AGPL, NoSQL orienté-document
Neo4j, Neo Technology Inc,GNU GPLv3 etGNU AGPLv3, NoSQL orienté graphe
OrientDB, OrientDB Ltd,Licence Apache 2.0, NoSQL orienté graphe
projet Voldemort, LinkedIn, privé avec versions publiques sous Apache License 2, stockage de données distribué
Redis, Salvatore Sanfilippo sponsorisé parRedisLab,licence BSD
Riak, Basho Technologies,Licence Apache 2.0 avec modules complémentaires payants (propriétaires), inspiré deDynamoDB
ScyllaDB (en)^[19], ScyllaDB, Inc,GNU AGPL, utilisé parDiscord^[20],Rakuten…
SimpleDB (Amazon.com), mis à disposition viaAmazon Web Services
Oracle NoSQL (en), Oracle Corporation, propriétaire
MentDB Weak, Jimmitry Payet,GNU GPLv3, NoSQL et gestionnaire de processus

Bases de données relationnelles ayant une interface NoSQL :

MySQL avec le moteurInnoDB et l'interface memcached

Notes et références

[modifier |modifier le code]

↑Notamment parce que les SGBD relationnels (Postgres, Oracle, SQLServer…) bien qu'étant inclus dans le « not only SQL » ne sont en général pas inclus dans la famille « NoSQL »
↑À titre d'exemple, lesSGBD orientés objet, bien que « non SQL », ne sont en général pas considérés comme appartenant à la famille « non SQL ».
↑^{abc etd}(en)Pramod J. Sadalage etMartin Fowler,NoSQL Distilled: A Brief Guide to the Emerging World of Polyglot Persistence,Addison-Wesley Professional, 8 août 2012(ISBN 0321826620).
↑^{a etb}(en) Shashank Tiwari,Professional NoSQL,John Wiley & Sons, 2011(ISBN 9781118167809)
↑^{a etb}(en) Nick Rozanski, Eoin Woods,Software systems architecture: Working with Stakeholders using viewpoints and perspectives,Addison-Wesley(ISBN 9780132906128)
↑30 pétaoctets pour une migration Facebook
↑Note : le terme « NoSQL » a été pour la première fois utilisé en 1998 par Carlo Strozzi pour désigner un système relationnel n'utilisant pas le langage SQL (« NoSQL: A Relational Database Management System »), cette utilisation antérieure est une coïncidence sans lien avec la famille de SGBD discutée dans le présent article.
↑(en)« No to SQL? Anti-database movement gains steam ».
↑^{a etb}(en) « Benchmark: PostgreSQL, MongoDB, Neo4j, OrientDB and ArangoDB », surarangodb.com
↑Hayashibara,Naohiro, Urbán,Péter, Schiper,André et Katayama,Takuya, « Performance Comparison Between the Paxos and Chandra-Toueg Consensus Algorithms »,Infoscience EPFL,‎2002(lire en ligne, consulté le19 janvier 2018)
↑Gustavo M. D.Vieira et Luiz E.Buzato, « The Performance of Paxos and Fast Paxos »,arXiv:1308.1358 [cs],‎6 août 2013(lire en ligne, consulté le19 janvier 2018)
↑Parisa JaliliMarandi, SamuelBenz, FernandoPedone et KenBirman, « Practical Experience Report: The Performance of Paxos in the Cloud »,arXiv:1404.6719 [cs],‎27 avril 2014(lire en ligne, consulté le19 janvier 2018)
↑(en-US) « How Clustrix Maintains ACID in a Clustered Environment - Clustrix »,Clustrix,‎16 mai 2013(lire en ligne, consulté le19 janvier 2018)
↑(en) « Distributed Transactions », surwww.cs.rutgers.edu(consulté le19 janvier 2018)
↑(en) Adriaan De Jonge,Essential App Engine: Building High-Performance Java Apps with Google App Engine, Addison-Wesley Professional, 2011(ISBN 9780321742636)
↑(en) Daniel A. Keim, Jörn Kohlhammer, Geoffrey Ellis, Florian Mansmann,Mastering the Information Age - Solving Problems with Visual Analytics(ISBN 9783905673777)
↑(en) Pete Warden,Big Data Glossary, O'Reilly Media, 2011(ISBN 9781449314590)
↑(en)Informations Week: Surprise: 44% Of Business IT Pros Never Heard Of NoSQL
↑(en-US) JuliaAngell, « Home », surScyllaDB(consulté le8 mars 2023)
↑« How Discord Stores Trillions of Messages », surdiscord.com(consulté le8 mars 2023)

Voir aussi

[modifier |modifier le code]

Sur les autres projets Wikimedia :

NoSQL,sur leWiktionnaire

Articles connexes

[modifier |modifier le code]

Liens externes

[modifier |modifier le code]

(en) « Your Ultimate Guide to the Non - Relational Universe! », nosql-database.org(consulté le3 avril 2013) : Liste régulièrement mise à jour des bases NoSQL avec liens vers les sites projets

v ·m Big data
Méthodes	Algorithme de fouille de flots de données Analyse des données Parallélisme
Services	Centre de données Cloud computing Analyse de sentiments Opt in Opt out
Exploration de données	Fouille de données spatiales Fouille du web Fouille de flots de données Fouille de textes Fouille d'images Fouille audio Glossaire de l'exploration de données
Outils	Base de données relationnelle Hadoop Logiciels de fouille de données Robot d'indexation Système de gestion de base de données NoSQL NewSQL Technologies matérielles dédiées
Organismes	Union internationale des télécommunications
Histoire d'Internet Révolution numérique Science des données Données ouvertes

v ·m

Systèmes de gestion de base de données

Relationnel

Propriétaire	4D Db2 dBase Informix InterBase MaxDB Oracle Database SQL Server Sybase
Libre	Firebird Ingres MariaDB MySQL PostgreSQL

Embarqué

EDI intégré

Séries chronologiques

Ce document provient de « https://fr.wikipedia.org/w/index.php?title=NoSQL&oldid=220777245 ».

NoSQL

Catégories cachées :

[8]ページ先頭

©2009-2025 Movatter.jp