Movatterモバイル変換


[0]ホーム

URL:


Skip to content

Navigation Menu

Search code, repositories, users, issues, pull requests...

Provide feedback

We read every piece of feedback, and take your input very seriously.

Saved searches

Use saved searches to filter your results more quickly

Sign up

Répertoire contenant le code et les données ayant servi à la production d'un article pour Les Cahiers du journalisme, (revue évaluée par les pairs).

License

NotificationsYou must be signed in to change notification settings

jhroy/CdJ_Instagram

Repository files navigation

Mosaïque de quelques-unes des images partagées par des médias francophones dans Instagram au cours de la deuxième décennie de ce siècle

Ce répertoire décrit avec plus de détails la méthodologie (avec fichiers et code) utilisée pour un article publié dansLes Cahiers du journalisme en 2021. Il s'agit d'une revue scientifique, avec comité de lecture. Les articles desCahiers sont revus par les pairs. L'article que j'y ai publié s'insère dansun numéro spécial consacré au journalisme mobile, codirigé parNathalie Pignard-Cheynel,Pascal Ricaud etLara Van Dievoet. Il consiste en une analyse descriptive exploratoire des dix premières années d'utilisation d'Instagram par les médias francophones.

Étape 1 - Collecte de données dans CrowdTangle

La première étape de la collecte de données à consisté à recueillirtoutes les publications Instagram de 32 médias représentant un échantillon représentatif des principaux médias de l'espace francophone (France, Canada, Belgique, Suisse, Liban). Pour ce faire, j'ai utiliséCrowdTangle, un outil de détection de contenu viral fourni par Facebook, à qui appartient Instagram. Il permet d'extraire des données historiques. Ainsi, toutes les publications Instagram de chacun des médias, dès lors qu'ils se sont mis à publier sur cette plateforme, si ces publications sont contenues dans CrowdTangle, ont été recueillies. La récolte a été effectuée début septembre 2020.

Le fichiermediasfrancoinstagram-public.csv regroupe ainsi82 908 publications mises en ligne dans Instagram par 32 médias francophones entre le 26 mai 2011 (plus ancienne publication de notre échantillon) et le 31 août 2020. Les champs textuelsdescription etimage_text ont été retranchés afin de respecter la propriété intellectuelle des médias concernés. Un fichier complet pourra néanmoins être transmis à tout.e chercheur.euse qui le souhaiterait (contactez-moi parcourriel). Ce fichier complet pourra permettre plus aisément à un.e chercheur.euse de reproduire les étapes ultérieures. Mais toute personne qui a accès à CrowdTangle pourrait puiser les publications Instagram des 32 médias francophones de notre échantillon et se créer son propre fichier, moyennant quelques heures de travail.

Le tableau ci-dessous présente la liste des médias examinés dans cette étude avec quelques métadonnées sur leurs publications.

Compte InstagramPaysAbonnés (au 31 août 2020)Nombre de publications (2011-2020)Somme des « J’aime »Somme des commentairesSomme des vues
FRANCE 24France1 346 4796 0454 360 312100 56318 286 023
Le MondeFrance1 242 8887 48614 536 874178 858605 326
Radio France InternationaleFrance476 8733 247852 17317 5091 895 300
Le Figaro 🗞France439 6734 8344 818 44396 9562 298 006
MediapartFrance364 4381 8282 249 45966 421986 458
franceinfoFrance342 5122 5731 694 91736 4657 332 685
BFMTVFrance329 3881 113940 38632 9369 213 586
LibérationFrance300 3642 8962 575 11741 3491 577 385
RTLFrance162 6554 516862 82327 351703 952
Radio-Canada InformationCanada153 1906 1991 253 09536 5027 962 640
La PresseCanada138 5443 705688 15014 73796 463
TF1 Le JTFrance127 7211 083598 87612 5995 819 446
La Voix du NordFrance122 2753 3851 270 19918 814514 416
TVA NouvellesCanada115 305566276 34813 0682 568 677
Ouest-FranceFrance111 3421 5451 045 06113 589181 895
Le DevoirCanada81 3564 944992 82321 905368 407
RTL infoBelgique72 8681 854730 28323 3801 365 645
LCIFrance65 9221 497308 3749 6756 241 371
SudOuestFrance65 566727418 7146 52449 258
Le Journal de MontréalCanada65 01163299 0424 070157 544
RTBFBelgique62 7201 032277 7757 983676 828
RTS - Radio Télévision SuisseSuisse57 159590175 0384 2221 295 162
L'Orient-Le Jour 🗞Liban45 7533 546979 96420 0081 256 818
Le SoirBelgique42 9034 229600 54312 462511 872
Le TempsSuisse42 2492 040301 7495 03710 945
Tribune de GenèveSuisse31 1101 858287 0515 746270 169
Le Dauphiné LibéréFrance27 540810111 2972 02560 967
24heuresSuisse26 1671 537131 5463 607132 621
Le Monde AfriqueFrance17 61036932 563588222
LaLibre.beBelgique16 8052 024102 7892 224164 665
Le MatinSuisse14 81370146 8801 1381 273
Le Soleil de QuébecCanada13 7723 491597 31318 19620 447
6 522 97182 90244 215 977856 50772 626 472

Étape 2 - Emojis,hashtags, mots etn-grams

Une fois ce corpus constitué, le scriptinstanalyse.py prend les champs textuels de chaque publication et crée cinq fichiers CSV, un pour regrouper tous les emojis contenus dans notre corpus, un autre pour les mots-clics, et les trois dernier (aprèslemmatisation) pour les mots seuls, les bigrammes (paires de mots) et les trigrammes:

Ces fichiers contiennent aussi, pour chaque élément lexical, la somme des interactions de la publication dans laquelle ils se retrouvent afin de faire une pondération de leur utilisation au lieu d'une simple somme de leurs occurrences.

Je ne partage que les deux premiers, car les trois derniers sont trop gros pour être téléversés dans github... et pour être traités dans LibreOffice!

Avec les fichiers d'emojis et de mots-clics, il est donc possible de faire un tableau croisé et de calculer les interactions moyennes pour reproduire les figures publiées dans l'article. Voici l'exemple de la Figure 4 des 20 emojis ayant suscité le plus d’interactions par publication de notre corpus de médias francophones et se retrouvant dans 100 publications ou plus.

Les 20 emojis ayant suscité le plus d’interactions par publication

Les fichiers des mots seuls, des bigrammes et des trigrammes ont dû être traités à l'aide depandas, car ils comptent respectivement 3,2 millions, 3,1 millions et 3,0 millions de lignes chacun. Le carnet jupyterinstableaux.ipynb montre qu'un tableau croisé a été effectué dans chacun pour calculer le nombre d'occurrences de chaque mot, bigramme et trigramme, et pour les pondérer avec le nombre d'interactions des publications dans lesquelles ils ont été utilisés.

Étape 3 - Analyse TF/IDF

Afin de repérer les termes qui se sont démarqués dans le temps parmi les publications Instagram des 32 médias francophones sélectionnés, deux analyses TF/IDF ont été effectuées.

La première tâchait de voir quels mots étaient caractéristiques des publications de chaque média; la seconde faisait la même chose, mais par mois (quels mots étaient caractéristiques de ce mois-là par rapport à l'ensemble du corpus).

Pour chaque analyse, il s'agissait de créer des fichiers .txt contenant le texte de toutes les publications pour un média ou pour un mois donné. Dans le cas de l'analyse par mois, cette opération a été effectuée par le scriptinsta-parMois.py. Ce script créait 106 fichiers .txt (un pour chacun des mois contenant des publications Instagram au cours de la période étudiée mai 2011 à août 2020). Tous les fichiers n'ont pas été reproduits ici, à part un seul (2020-08.txt qui couvre le dernier mois du corpus) fourni en guise d'exemple.

Les deux analyses TF/IDF proprement dites ont ensuite été effectuées dans un carnet jupytertfidf.ipynb qui, de son côté, produisait 32 fichiers CSV pour l'analyse par média (un par média) et 106 fichiers CSV pour l'analyse par mois (un par mois). Chacun de ces fichiers contient tous les mots du corpus avec, pour chacun, un score correspondant à son degré de spécificité pour le média ou pour le mois donné. Plus ce score est élevé, plus cela signifie que l'utilisation de ce mot est caractéristique des publications instagram de notre corpus pour ce média ou pour ce mois.

Les résultats de l'analyse par mois ont servi à produire la figure ci-dessous. Les termes représentés sont ceux dont le score TF/IDF a été le plus élevé pour chaque mois, en autant qu'il ne s'agisse pas d'un terme temporel (année ou nom du mois) ou d'un terme décrivant un des médias de l'échantillon (mediapart, tf1, etc.).

Analyse TF/IDF

Étape 4 - Analyse des images

Une dernière analyse a été effectuéee sur 1% des images ayant suscité le plus d'interactions pour chacun des médias du corpus. Un total de 733 images ont été téléchargées manuellement (eh oui... cette opération était sans doute automatisable, mais je n'ai pas trouvé comment).

Chaque image a ensuite analysée avec l'API Computer Vision des Services cognitifs de Microsoft. Pour l'image ci-dessous, tirée ducompte Instagram du Figaro, par exemple, l'API a retourné les renseignements se trouvant dans ce fichier:36887214_2965943723431332_5578156666228047872_n.json

Image tirée du compte Instagram du Figaro

Deux scripts ont été utilisés à cette étape. Le scriptvision1.py soumettait chaque image à l'API et consignait ce qu'il lui retournait dans un fichier .json. Le scriptvision2.py lisait tous ces fichiers et examinait quelles principales catégories ou étiquettes leur étaient le plus souvent accolées par l'API.

Comme l'article dansLes Cahiers du journalisme le souligne, cette étape n'a pas permis de faire ressortir quoi que ce soit de pertinent ou d'utile. Cependant, un examen manuel de ce sous-ensemble d'images ayant suscité le plus de réactions a permis de dégager plus de sens, à savoir qu'Instagram est utilisé par les médias comme la UNE d'un journal et qu'il a des fonctions se rapprochant davantage du marketing que du journalisme.

About

Répertoire contenant le code et les données ayant servi à la production d'un article pour Les Cahiers du journalisme, (revue évaluée par les pairs).

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

[8]ページ先頭

©2009-2025 Movatter.jp