Movatterモバイル変換

Googlebot

Z Wikipedie, otevřené encyklopedie

Googlebot
Vývojář	Google
Typ softwaru	web crawler
Web	www.googlebot.com
Některá data mohou pocházet zdatové položky.

Googlebot (někdy též označovaný jakoweb crawler nebospider) je speciální vyhledávacísoftware společnostiGoogle, který se využívá kindexování webových stránek. Tentorobot prochází webové stránky, přečte si jejich obsah a následně jej přidá do svého indexu, tj. do svédatabáze. Díky tomuto procesu je následně možné stránku zobrazit v internetovémGoogle vyhledávači.^[1]^[2]^[3]

Jak Googlebot funguje

[editovat |editovat zdroj]

Googlebot je zcela automatický program, který funguje bez jakéhokoli vnějšího řízení. Ke své činnosti využívá mapy webu (tzv.sitemaps) a odkazy objevené během předchozího vyhledávání. Pokaždé, když Googlebot narazí na nový odkaz, tak si ho uloží, aby se na něj mohl později podívat a případně jej i přidat do svého indexu. Program si též zaznamenává změněné nebo poškozené odkazy a aktualizuje podle toho svou databázi.^[4]^[5] Googlebot si sám určuje, jak často bude webové stránky navštěvovat. Tuto četnost určuje podle tzv. rozpočtu vyhledávání (nebolicrawl budget), který sám přiděluje každé stránce na základě odhadu, jak často se daná webová stránka mění.^[6]

Typy

[editovat |editovat zdroj]

Google využívá ke sběru dat velkou řaduIP adres, aby prohledal co nejvíce obsahu v co nejkratším čase. Existuje několik různých typů programu, každý s jasně definovaným účelem. Existuje například AdsBot – kontrola relevantnosti a kvality placenýchreklam na webu. Dále existuje tzv. Images Googlebot (prochází obrázky na webu), News Googlebot atd.^[7]

Mezi nejvýznamnější typy patří:

Googlebot desktop

(Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)^[7]

Googlebot mobile

(Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z, Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)^[7]

Možnosti přístupu Googlebota ke stránce

[editovat |editovat zdroj]

Googlebot může mít buď plný přístup ke stránce, nebo je možné jeho čtení stránky korigovat. Existuje mnoho případů, kdysprávce webu nechce, aby měl Googlebot přístup k jeho stránce. Může se jednat například o stránkuadministrace, nákupní košíky nebo osobní účty uživatelů. V takovémto případě je vhodné použít souborrobots.txt, díky kterému je možné zakázat Googlebotovi přístup ke stránce nebo jednotlivým částem webu. Soubor robots.txt je první věcí, kterou Googlebot kontroluje při vstupu na stránku a následně se vždy řídí jeho příkazy.^[8]^[9]

Optimalizace stránky pro Googlebota

[editovat |editovat zdroj]

Pokud správce webu chce, aby byla jeho stránka správně indexována, je vhodné ji přizpůsobit tak, aby se Googlebotovi procházela co možná nejrychleji.^[6]^[3]

Snadno viditelný obsah

[editovat |editovat zdroj]

Je nutné, aby byl obsah stránek snadno viditelný v textovém prohlížeči a aby nebyl pro Googlebota příliš komplikovaný. Googlebot může mít potíže s indexováním stránek využívajících technologiiAjax^[10] aprogramovací jazyk JavaScript.^[11]^[3]

Soubory CSS

[editovat |editovat zdroj]

SouboryCSS také velmi usnadňují Googlebotovu práci. CSS, neboliCascading Style Sheets, jsou sobory, které popisují, jak se zobrazují jednotlivé prvkyHTML (Hypertext Markup Language) na obrazovce. Kromě čtení textu si Googlebot stahuje právě i tyto CSS soubory, aby lépe porozuměl obsahu webu.

Kanonizace duplicitních stránek

[editovat |editovat zdroj]

Webové stránky často používají různéURL (Uniform Resource Locator), na kterých je ovšem stejný obsah. Může se jednat o parametry uvedené v URL – například produkt nae-shopu může mít URL jen s ID dané věci, ale zároveň i s názvem, který je lepší proSEO (search engine optimization). V obou případech je však obsah stejný, a tak se zde používákanonizace. Během ní se jedna stránka označí jako ta, která se má indexovat a další se pak na ní pouze odkazují.^[12]

Mapa webu (sitemap)

[editovat |editovat zdroj]

Souborsitemap slouží Googlebotovi jako jakási mapa, která mu říká, jak se má na stránce pohybovat. V souboru sitemap se nachází seznam všech URL adres webu, který se majitel webu rozhodl použít a také to, jak na sebe jednotlivé URL navazují. Díky těmto souborům mohou být stránky procházeny rychleji a jsou tedy častěji indexovány.^[13]

Reference

[editovat |editovat zdroj]

↑ What Is Googlebot | Google Search Central.Google Developers [online]. [cit. 2021-12-02].Dostupné online. (anglicky)
↑GOOGLE SEARCH CENTRAL. Googlebot: SEO Mythbusting. In:Youtube [online]. 02.12.2021. [vid. 2019-05-22].Dostupné online.
1 2 3WHOLEWHALE. How to Optimize for Googlebot. In:Youtube [online]. 02.12.2021. [vid. 2018-07-30].Dostupné online.
↑BAI, Quan; XIONG, Gang; ZHAO, Yong. Analysis and Detection of Bogus Behavior in Web Crawler Measurement.Procedia Computer Science. 2014-01-01, roč. 31, čís. 2nd International Conference on Information Technology and Quantitative Management, ITQM 2014, s. 1084–1091.Dostupné online [cit. 2021-12-02].ISSN 1877-0509.doi:10.1016/j.procs.2014.05.363. (anglicky)
↑ Web Crawler For Mining Web Data.1library.net [online]. [cit. 2021-12-02].Dostupné online. (anglicky)
1 2 What Crawl Budget Means for Googlebot | Google Search Central Blog.Google Developers [online]. [cit. 2021-12-02].Dostupné online. (anglicky)
1 2 3 Google Crawler (User Agent) Overview | Google Search Central.Google Developers [online]. [cit. 2021-12-02].Dostupné online. (anglicky)
↑ Robots.txt Introduction and Guide | Google Search Central.Google Developers [online]. [cit. 2021-12-02].Dostupné online. (anglicky)
↑KOLAY, Santanu; D'ALBERTO, Paolo; DASDAN, Ali. A larger scale study of robots.txt. In:Proceedings of the 17th international conference on World Wide Web. New York, NY, USA: Association for Computing Machinery, 2008-04-21.Dostupné online.ISBN 978-1-60558-085-2.doi:10.1145/1367497.1367711. S. 1171–1172.
↑KHALID, Shah; KHUSRO, Shah; ULLAH, Irfan. CRAWLING AJAX-BASED WEB APPLICATIONS: EVOLUTION AND STATE-OF-THE-ART.Malaysian Journal of Computer Science. 2018-01-17, roč. 31, čís. 1, s. 35–47.Dostupné online [cit. 2021-12-02].ISSN 0127-9084.doi:10.22452/mjcs.vol31no1.3. (anglicky)
↑Splitt, Martin. "How Google Search indexes JavaScript sites - JavaScript SEO". In:Youtube [online]. 02.12.2021. [2019-02-28].Dostupné online.
↑ Consolidate Duplicate URLs with Canonicals | Google Search Central.Google Developers [online]. [cit. 2021-12-02].Dostupné online. (anglicky)
↑ What Is a Sitemap | Google Search Central.Google Developers [online]. [cit. 2021-12-02].Dostupné online. (anglicky)

Portály:Informační věda a knihovnictví|Internet

Citováno z „https://cs.wikipedia.org/w/index.php?title=Googlebot&oldid=23031701“

Kategorie:

Skryté kategorie:

[8]ページ先頭