Partie de | Visualisation(en) ![]() |
---|---|
Personnes clés |
Lavisualisation de données (oudataviz oureprésentation graphique de données ouvisualisation des données) est un ensemble de méthodes permettant derésumer de manière graphique desdonnées statistiquesqualitatives et surtoutquantitatives afin de mettre en évidence des liens entre des données et remplacer de longues explications.
Lavisualisation de données naît auXVIIIe siècle, avecCharles-René de Fourcroy etWilliam Playfair et se développe auXIXe siècle avec l'invention descartes de données[Quoi ?] dans les années 1820 et 1830 parCharles Dupin ouAndré-Michel Guerry, et avec les travaux deFlorence Nightingale, puis dans la seconde moitié duXIXe siècle avec les travaux deCharles Joseph Minard (1781-1870)[1],[2],[3], deFrancis Amasa Walker ou encore d’Émile Cheysson. Enfin, elle prend un nouvel essor à partir de la seconde moitié duXXe siècle sous l'impulsion deJohn Tukey qui met en avant son rôle en statistique, puis d'Edward Tufte; enfin elle s'épanouit avec le développement dunumérique.
Lavisualisation de données est utilisée dans lastatistique publique, dans lessciences et dans lejournalisme, entre autres. C’est une branche de lascience des données.
La visualisation des données remonte à la mise en liste et la mise en tableau, dont on trouve trace dès l'apparition de l'écriture (cf.Jack Goody,La raison graphique, 1979).
La création d'objets graphiques complexes apparait plus tardivement. Les premiers sont des cartes géographiques ou astronomiques[5],[6] dont on pense que la première remonte auVIIe millénaire avant notre ère.
On trouve des frises chronologiques chez les premiers astronomes, auXe siècle dans leCommentaire au songe de Scipion deMacrobe, par exemple.
Puis, auXVIIIe siècle, des auteurs commeCharles-René de Fourcroy proposent des illustrations abstraites tel le « Tableau poléométrique » (1782) qui permet la comparaison instantanée de la taille de villes européennes, ouAugust Friedrich Wilhelm Crome avec sa « Verhaeltniss Karte von den deutschen Bundesstaaten » (1785) qui permet la comparaison de la taille des pays. En 1786,William Playfair (1759-1823) publie un ouvrage intituléThe Commercial and Political Atlas qui fait date. Il y propose une série de graphiques deséries temporelles représentant l'évolution de données économiques concernant l'Angleterre et notamment l'évolution de sabalance commerciale au cours duXVIIIe siècle, ainsi que le premierdiagramme en bâtons de l'histoire[7],[8],[9]. C'est aussi à William Playfair que l'on doit le premier graphique circulaire connu. Publié en 1801 dansThe Statistical Breviary, le graphique représente la superficie, le montant des revenus et le montant des taxes de chaque pays[8].
En 1819 l'historien Jean Picot publie à Genève un volume intituléStatistique de la Suisse ou État de ce pays et des vingt-deux cantons dont il se compose […]. Il contient sur un feuillet dépliant deux graphiques d'après les données de Johannes Fehr :« Étendue ou surface comparative des vingt-deux Cantons de la Suisse représentée par la longueur des lignes tracées à côté du nom de chaque canton » et« Population comparative des vingt-deux Cantons de la Suisse représentée par la longueur des lignes tracées à côté du nom de chaque canton ».
Dans les années 1820, on commence à représenter des données statistiques sur une carte. En 1826,Charles Dupin dessine unecarte choroplèthe de l'instruction populaire en France, en coloriant les départements français en fonction de l'intensité de la variable représentée. Cette représentation visuelle rencontre un rapide succès et est aussitôt reprise parAndré-Michel Guerry etAdriano Balbi qui dessinent descartes choroplèthes de l'instruction, du nombre de crimes contre les propriétés et du nombre de crimes contre les personnes puis par Guerry dans sonEssai sur la statistique morale de la France publié en 1833[10]. Peu de temps après,Armand Joseph Frère de Montizon propose la première « cartes par points » (dot map), avec une représentation de la population française par département intituléeCarte philosophique figurant la Population de la France[12]. En 1855, le médecin britanniqueJohn Snow établit unecarte de points du choléra à Londres sur laquelle il représente la localisation des morts et la localisation des points d'eau dans la ville de Londres mettant ainsi en évidence le fait que l'épidémie se propage par l'eau[13]. En 1861,Charles Joseph Minard propose de représenter des données sur une carte à l'aide de diagrammes circulaires dont l'aire est proportionnelle à la quantité représentée (Exemple de la Carte figurative et approximative des quantités de viandes de boucherie envoyées sur pied par les départements et consommateurs)[14].
En 1857,Florence Nightingale publie sonDiagramme des causes de mortalité au sein de l'armée en Orient. Le graphique montre que les soldats anglais engagés dans laguerre de Crimée meurent moins au combat face à l'ennemi qu'ils ne sont victimes des conditions sanitaires déplorables dans lesquelles ils vivent[14].
En 1889 Charles Booth combine approche ethnographique à grande échelle et visualisation sous forme cartographique, pour rendre compte des conditions de vie à Londres. Cette étude sociologique, une des plus importantes du genre, a mobilisé une équipe d'enquêteurs rémunérés par Booth afin de collecter des données au niveau de chaque parcelle cadastrale. La visualisation proposée par Booth détaille, par des couleurs, 7 "classes". La visualisation permet d'identifier des clusters, notamment pour la classe la plus basse que Booth dénomme« classe inférieure. Vicieux, semi-criminel »[15].
Au cours de la seconde moitié duXIXe siècle, on découvre plusieurs innovations importantes, comme les premières visualisations en trois dimensions de l'ItalienLuigi Perozzo ou de l'AllemandGustav Zeuner[14].
Au Royaume-Uni, c'estFrancis Galton qui fait une importante contribution à la visualisation de données en proposant des représentations graphiques de la corrélation entre deux variables (nuage de points) mais aussi descartes météorologiques[16].
Au cours du premierXXe siècle, les statisticiens prêtent une moindre attention à la visualisation de données[17].
Dans lesannées 1960,John Tukey donne ses lettres de noblesse à la visualisation de données en statistiques, notamment avec son ouvrageExploratory Data Analysis (1977)[18].
En2005,Leland Wilkinson publieThe Grammar of Graphics, un des ouvrages théoriques les plus importants sur la conception des graphiques statistiques. Wilkinson définit un graphique statistique comme une correspondance entre des données et des attributs esthétiques (couleur, forme, taille, etc) d'objets géométriques (points, lignes, barres, etc.)[19].
Depuis lesannées 2010, des outils interactifs basés sur l'intelligence artificielle sont disponibles (ex : LiveGap[20], MyMap.AI ouCanva), aidant à choisir, construire et personnaliser (couleurs, forme, étiquettes, langue...) des types de graphiques appropriés au besoin de l'utilisateur. Certains sont gratuits.
Une visualisation est composée d'un élément visuel, d'une échelle, d'un système de coordonnées et d'un contexte[21].
Dans unnuage de points, on utilise la position des points dans l'espace comme élément visuel représentant les données[21]. Dans un diagramme en bâtons, c'est la longueur des barres qui est l'élément visuel correspondant aux données[22].
Le système de coordonnées peut être cartésien, polaire ou géographique[23].
L'échelle peut être linéaire ou logarithmique lorsqu'il s'agit d'une variable quantitative, catégorique lorsqu'il s'agit d'une variable catégorique ou temporelle lorsqu'il s'agit du temps[24].
Ce type de diagramme est aussi appelédiagramme à barres.
Pour un diagramme en bâtons vertical, on représente pour chaque modalité d'une variable discrète un rectangle dont la hauteurreprésente la valeur d'une variable continue[Information douteuse] et dont la largeur n'a pas d'interprétation statistique.
Le graphique qui aurait dû être présenté ici ne peut pas être affiché car il utilise l'ancienne extension Graph, désactivée pour des questions de sécurité. Des indications pour créer un nouveau graphique avec la nouvelle extension Chart sont disponiblesici.
Pour un diagramme en bâtons horizontal, c'est la largeur du rectangle qui représente la valeur de la variable continue et la hauteur de ce rectangle qui n'a pas d'interprétation statistique[25].
Il est aussi courant de rencontrer desdiagrammes en bâtons empilés (en anglais :stacked bar chart).
Le graphique qui aurait dû être présenté ici ne peut pas être affiché car il utilise l'ancienne extension Graph, désactivée pour des questions de sécurité. Des indications pour créer un nouveau graphique avec la nouvelle extension Chart sont disponiblesici.
Le diagramme branche-et-feuille livre une représentation semi-graphique des données quantitatives, semblable à un histogramme.
Le diagramme circulaire peut être un graphique à secteurs[26] — dit camembert — ou un graphique en anneau[26] (donut chart en anglais).
Le graphique qui aurait dû être présenté ici ne peut pas être affiché car il utilise l'ancienne extension Graph, désactivée pour des questions de sécurité. Des indications pour créer un nouveau graphique avec la nouvelle extension Chart sont disponiblesici.
Graphique en secteurs,
ditcamembert
Le diagramme circulaire ou camembert permet de représenter des proportions. C'est l'angle de chaque secteur qui représente la part de chaque catégorie dans un tout[27].
Le graphique qui aurait dû être présenté ici ne peut pas être affiché car il utilise l'ancienne extension Graph, désactivée pour des questions de sécurité. Des indications pour créer un nouveau graphique avec la nouvelle extension Chart sont disponiblesici.
Graphique en anneaux concentriques
Le graphique en anneau(x) (donut chart en anglais) est un camembert troué au milieu. Il permet de représenter plusieurs séries de données en anneaux concentriques, une série par anneau[26].
Lorsque le graphique ne compte qu'un seul anneau, la longueur de l'arc de cercle correspondant à chaque catégorie est proportionnelle à l'angle et représente encore la part de chaque catégorie dans le tout représenté[28].
« Le graphique en anneau est une bonne représentation des données du tableau. Comme pour le graphique en secteurs, il nécessite la transformation préalable des données en proportions. On peut toutefois faire figurer sur les segments de l'anneau les valeurs en milliers. Ceci étant, s'il n'y a qu'un seul anneau, autant choisir un graphique en secteurs. »
— Centre national de documentation pédagogique[29]
Le nuage de points est couramment utilisé pour représenter la relation entre deux variables. Dans un nuage de points, ce sont les coordonnées de chaque point sur l'axe des abscisses et l'axe des ordonnées qui représentent les valeurs de chacune des variables[31]. Il permet de mettre en évidence une corrélation entre deux variables[32].
Une ligne ouline plot est un nuage de points dans lequel les points ont été reliés entre eux (avec une interpolation qui peut être linéaire, cubique...)[33].
On peut aussi représenter graphiquement des données quantitatives grâce à des bulles dans lequel la surface des bulles est proportionnelle à la grandeur représentée[34].
Une carte thermique (heatmap, carte de chaleur) est une matrice dont les cellules sont colorées en fonction de la valeur de la variable représentée[36].
Le diagramme enboîte à moustaches résume seulement quelques caractéristiques deposition du caractère étudié (médiane, quartiles, min/max ou déciles). Il est utilisé principalement pour comparer un même caractère dans deux populations de tailles différentes.
Il s'agit de tracer un rectangle allant du premier quartile au troisième quartile et coupé par la médiane. On ajoute parfois des segments aux extrémités menant jusqu'aux valeurs min/max ou jusqu'au premier et neuvième décile. On parle alors de diagramme en boîte à moustaches ou à pattes.
Les mini-graphes, mini-courbes et mini-indicateurs[37] sont des graphiques de petite taille (environ une ligne de hauteur), qui peuvent être insérés dans une ligne de texte. Ils sont popularisés parEdward Tufte, qui les définit comme des « graphiques intenses en données, de design simple, et ayant la taille d’un mot ». Alors que le graphique typique est conçu de manière à montrer le plus de données possible et qu'il est placé hors-texte, les mini-graphes sont concis, mémorisables visuellement, et placés à l’endroit le plus approprié. Leur mise à disposition dans les tableurs desuite logicielle connue les a rendu populaires.
Sparklines Marché américain des actions (7 février 2006) | ||
---|---|---|
Jour | Indice | Valeur |
![]() | Dow Jones | −32.82 (−0,30 %) |
![]() | S&P 500 | −8.10 (−0,64 %) |
![]() | Nasdaq | −13.97 (−0,62 %) |
Le graphique de série temporelle représente l'évolution d'une variable en fonction du temps. C'est la représentation graphique la plus utilisée et son interprétation est généralement très intuitive.
Si la série temporelle est discrète, il est courant d'utiliser un simple diagramme en bâtons pour la représenter. Par exemple, les données annuelles ou mensuelles sont souvent représentées par des diagrammes en bâtons. En revanche, si les données sont continues, il est plus courant de les représenter par une courbe (line plot) ou un graphique d'aire (area chart), comme l'avait faitWilliam Playfair dans sonCommercial and Political Atlas (voirici etici)[38].
Une carte statistique permet de représenter la valeur d'une variable statistique dans chacune des unités géographiques d'une entité globale. La carte statistique a l'avantage de pouvoir à la fois révéler une analyse globale tout en permettant à chacun d'aller repérer des détails pour chaque unité géographique. En revanche, elle a le défaut de donner à chaque unité géographique une importance proportionnelle à sa superficie alors que dans de nombreuses situations il serait préférable que l'importance que l'on donne à chaque unité géographique soit relative à une autre variable, comme sa population par exemple[39],[note 1].
Si les cartes géographiques ont été inventées il y a plus de 5 000 ans, les cartes statistiques sont apparues auXVIIe siècle. En 1686,Edmond Halley représente une carte du monde avec des symboles permettant de donner l'origine et surtout l'intensité des vents. Plus tard, auXIXe siècle,John Snow représente une carte de Londres en localisant le nombre de morts dus aucholéra lors de l'épidémie de septembre 1854 et les points d'accès à l'eau dans la ville. Sa carte permet de comprendre que le choléra se transmet par l'eau[40].
Pour représenter la relation entre deux variables, il est courant d'utiliser unnuage de points[32].
Lorsqu'il y a plus de deux variables, il existe de nombreuses solutions. La solution la plus simple consiste à représenter une matrice de nuages de points[41]. On peut aussi utiliser un graphique de bulles dans lequel, comme dans un nuage de points, les coordonnées des bulles représentent les valeurs de deux variables et dans lequel la surface des bulles représente une troisième variable[34].
Lorsqu’il a de nombreuses variables, l’iconographie des corrélations remplace la matrice de corrélation par une image unique : les corrélations « remarquables » sont soulignées par un trait plein (corrélation positive) ou pointillé (corrélation négative).
Une forte corrélation n’est pas « remarquable » si elle n’est pas directe, mais causée par l’effet d’une tierce variable. Inversement de faibles corrélations peuvent être « remarquables ». Par exemple, si une variable Y dépend de plusieurs variables indépendantes, les corrélations de Y avec chacune d’entre elles sont faibles et pourtant « remarquables ».
Dans le cas discret, il est courant d'utiliser un diagramme à barres où la hauteur de chaque rectangle représente les effectifs ou les fréquences associées à chaque modalité.
Lorsque les données ont une structure hiérarchique, elles peuvent être représentées sous la forme d'undendrogramme, d'unetreemap ou encore d'unsunburst[42].
La carte à cases est une représentation visuelle inventée parBen Shneiderman en 1990 pour représenter l'occupation de l'espace sur sondisque dur. Dans cette représentation, c'est la surface de chaque rectangle qui représente la part de chaque élément dans le tout[43]. Par la suite, cette représentation a été utilisée pour d'autres usages. Par exemple, Martin Wattenberg l'a utilisée pour représenter une « carte du marché » par secteur d'activité dans laquelle la surface de chaque rectangle est proportionnelle à lacapitalisation boursière des entreprises du secteur[44]. Marcos Westamp a conçu une carte à cases de l'information dans laquelle la taille des rectangles est une fonction du nombre d'articles consacrés au sujet dans la presse[45],[46]. Matthew Bloch, Shan Carter et Amanda Cox, ont utilisé une carte à cases pour visualiser la part de chaque type de bien dans la consommation d'un ménage américain et un code couleur pour visualiser l'inflation[47],[48].
Filippo Menczer (Université d'Indiana) est le premier à mettre au jour l'activité d'un bot surTwitter en 2010 par le biais d'une visualisation de réseaux[49]. L'analyse de réseaux est aujourd'hui utilisé pour visualiser la formation desbulles de filtres.
Lediagramme de flux est un type de représentation spécifique pour visualiser desflux.
Domaines desmathématiques | |
---|---|
Algèbre classique | |
Géométrie classique | |
Arithmétique | |
Suites etfonctions |
|
Logique | |
Statistiques etprobabilités |