Movatterモバイル変換

Aller au contenu

Robot d'indexation

Modifier les liens

Un article de Wikipédia, l'encyclopédie libre.

Page d’aide sur l’homonymie

Pour les articles homonymes, voirSpider.

Si ce bandeau n'est plus pertinent, retirez-le. Cliquez ici pour en savoir plus.

Cet articlene cite pas suffisamment ses sources(septembre 2011).

Si vous disposez d'ouvrages ou d'articles de référence ou si vous connaissez des sites web de qualité traitant du thème abordé ici, merci de compléter l'article en donnant lesréférences utiles à savérifiabilité et en les liant à la section « Notes et références ».

En pratique :Quelles sources sont attendues ?Comment ajouter mes sources ?

Architecture d'un robot d'indexation

Unrobot d'indexation^[1] (enanglaisweb crawler ouweb spider, littéralementaraignée du Web) est unlogiciel qui explore automatiquement leWeb. Il est généralement conçu pour collecter lesressources (pages Web,images,vidéos, documentsWord,PDF ouPostScript, etc.), afin de permettre à unmoteur de recherche de lesindexer.

Fonctionnant sur le même principe, certains robots malveillants (spambots) sont utilisés pour archiver les ressources ou collecter desadresses électroniques auxquelles envoyer descourriels.

En français, depuis 2013,crawler est remplaçable par le motcollecteur^[2].

Il existe aussi des collecteurs analysant finement les contenus afin de ne ramener qu'une partie de leur information.

Principes d'indexation

[modifier |modifier le code]

Pourindexer de nouvelles ressources, un robot procède en suivantrécursivement leshyperliens trouvés à partir d'une page pivot. Par la suite, il est avantageux de mémoriser l'URL de chaque ressource récupérée et d'adapter la fréquence des visites à la fréquence observée de mise à jour de la ressource. Toutefois, si le robot respecte les règles du fichier robots.txt, alors de nombreuses ressources échappent à cette exploration récursive. Cet ensemble de ressources inexploré est appeléWeb profond ou Web invisible.

Unfichier d'exclusion (robots.txt) placé dans la racine d'un site Web permet de donner aux robots une liste de ressources à ignorer. Cette convention permet de réduire la charge duserveur Web et d'éviter des ressources sans intérêt. Toutefois, certains robots ne se préoccupent pas de ce fichier.

Deux caractéristiques duWeb compliquent le travail du robot d'indexation : le volume de données et labande passante. Les capacités de traitement et de stockage des ordinateurs ainsi que le nombre d'internautes ayant fortement progressé, cela lié au développement d'outils de maintenance de pages de typeWeb 2.0 permettant à n'importe qui de mettre facilement en ligne des contenus, le nombre et la complexité des pages et objetsmultimédia disponibles, et leur modification, s'est considérablement accru dans la première décennie du XXI^e siècle. Le débit autorisé par la bande passante n'ayant pas connu une progression équivalente, le problème est de traiter un volume toujours croissant d'information avec un débit relativement limité. Les robots ont donc besoin de donner des priorités à leurs téléchargements.

Le comportement d'un robot d'indexation résulte de la combinaison des principes suivants :

Un principe de sélection, qui définit quelles pages télécharger ;
Un principe de re-visite, qui définit quand vérifier s'il y a des changements dans les pages ;
Un principe de politesse, qui définit comment éviter les surcharges de pages Web (délais en général) ;
Un principe de parallélisation, qui définit comment coordonner les robots d'indexations distribués.

Robots

[modifier |modifier le code]

AppleBot, robot d'indexation d'Apple, supporte également l'assistantSiri.
Baiduspider est le robot d'indexation du moteur de recherche chinoisBaidu.
Heritrix est le robot d'archivage de l'Internet Archive. Il a été écrit enJava.
OrangeBot est le robot d'indexation du moteur d'OrangeLeMoteur. Il possède sa propre base de données mise à jour par le robot.
HTTrack est un logiciel aspirateur de site internet qui crée des miroirs des sites Web pour une utilisation hors ligne. Il est distribué sous lalicence GPL.
Googlebot deGoogle
Qwantify est le robot du moteur de rechercheQwant.
OpenSearchServer est un robot d'indexation de site Internet. Publié souslicence GPL, il s'appuie surLucene pour l'indexation.
Nutch est un robot de collecte écrit enJava et publié sousLicence Apache. Il peut être utilisé avec le projetLucene de lafondation Apache.
Scooter deAltaVista
MSNBot deMSN et Bing
Slurp deYahoo!
ExaBot d'Exalead
GNU Wget est unlogiciel libre enligne de commande écrit enC automatisant les transferts vers un client HTTP.
YacyBot est le robot du moteur de rechercheYaCy^[3].
BingBot, Adidxbot, BingPreview deBing
DuckDuckBot deDuckDuckGo
AynidBot du moteur de rechercheAynid.
WebCrawler a été utilisé pour construire le premier index public, en texte intégral, d'un sous-ensemble du Web. Son robot d'exploration en temps réel suivait les liens, en fonction de la similarité du texte associé à l'ancre, avec la requête fournie.

Robots historiques

[modifier |modifier le code]

World Wide Web Worm était un crawler utilisé pour construire un index simple de titres de documents et d'URL. L'index pouvait être consulté à l'aide de la commandeUnix grep.
Yahoo! Slurp était le robot de Yahoo! Search jusqu'à ce que Yahoo! passe un contrat avec Microsoft pour utiliser Bingbot à la place,

Notes et références

[modifier |modifier le code]

↑(en-US) « Robot d'indexation - Glossaire MDN : définitions des termes du Web | MDN », surdeveloper.mozilla.org,16 octobre 2023(consulté le29 janvier 2025)
↑Olivier Robillart,« Collecteur et enregistreur de frappe remplacent les termes "Crawler" et "Keylogger" »,Clubic,2 janvier 2013.
↑(en)« YaCy-Bot », 2012.

Voir aussi

[modifier |modifier le code]

Articles connexes

[modifier |modifier le code]

Liens externes

[modifier |modifier le code]

Sur les autres projets Wikimedia :

robot d’indexation,sur leWiktionnaire

v ·m Moteurs de recherche (logiciels)(catégorie,liste)
ASPseek Apache Solr DataparkSearch Elasticsearch Exalead Gigablast Googlebot Heritrix ht://Dig Lucene mnoGoSearch Nutch Piria Searx Seeks Sphinx Theseus Verticrawl Whoosh Xapian YaCy Zettair
Permettant leP2P	Gigablast Seeks YaCy

v ·m Big data
Méthodes	Algorithme de fouille de flots de données Analyse des données Parallélisme
Services	Centre de données Cloud computing Analyse de sentiments Opt in Opt out
Exploration de données	Fouille de données spatiales Fouille du web Fouille de flots de données Fouille de textes Fouille d'images Fouille audio Glossaire de l'exploration de données
Outils	Base de données relationnelle Hadoop Logiciels de fouille de données Robot d'indexation Système de gestion de base de données NoSQL NewSQL Technologies matérielles dédiées
Organismes	Union internationale des télécommunications
Histoire d'Internet Révolution numérique Science des données Données ouvertes

Ce document provient de « https://fr.wikipedia.org/w/index.php?title=Robot_d%27indexation&oldid=230761569 ».

Catégories :

Catégories cachées :

[8]ページ先頭

©2009-2025 Movatter.jp