| Vývojář | |
|---|---|
| Typ softwaru | web crawler |
| Web | www |
| Některá data mohou pocházet zdatové položky. | |
Googlebot (někdy též označovaný jakoweb crawler nebospider) je speciální vyhledávacísoftware společnostiGoogle, který se využívá kindexováníwebových stránek. Tentorobot prochází webové stránky, přečte si jejich obsah a následně jej přidá do svého indexu, tj. do svédatabáze. Díky tomuto procesu je následně možné stránku zobrazit v internetovémGoogle vyhledávači.[1][2][3]
Googlebot je zcela automatický program, který funguje bez jakéhokoli vnějšího řízení. Ke své činnosti využívá mapy webu (tzv.sitemaps) a odkazy objevené během předchozího vyhledávání. Pokaždé, když Googlebot narazí na nový odkaz, tak si ho uloží, aby se na něj mohl později podívat a případně jej i přidat do svého indexu. Program si též zaznamenává změněné nebo poškozené odkazy a aktualizuje podle toho svou databázi.[4][5] Googlebot si sám určuje, jak často bude webové stránky navštěvovat. Tuto četnost určuje podle tzv. rozpočtu vyhledávání (nebolicrawl budget), který sám přiděluje každé stránce na základě odhadu, jak často se daná webová stránka mění.[6]
Google využívá ke sběru dat velkou řaduIP adres, aby prohledal co nejvíce obsahu v co nejkratším čase. Existuje několik různých typů programu, každý s jasně definovaným účelem. Existuje například AdsBot – kontrola relevantnosti a kvality placenýchreklam na webu. Dále existuje tzv. Images Googlebot (prochází obrázky na webu), News Googlebot atd.[7]
Mezi nejvýznamnější typy patří:
Googlebot desktop
(Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)[7]
Googlebot mobile
(Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z, Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)[7]
Googlebot může mít buď plný přístup ke stránce, nebo je možné jeho čtení stránky korigovat. Existuje mnoho případů, kdysprávce webu nechce, aby měl Googlebot přístup k jeho stránce. Může se jednat například o stránkuadministrace, nákupní košíky nebo osobní účty uživatelů. V takovémto případě je vhodné použít souborrobots.txt, díky kterému je možné zakázat Googlebotovi přístup ke stránce nebo jednotlivým částem webu. Soubor robots.txt je první věcí, kterou Googlebot kontroluje při vstupu na stránku a následně se vždy řídí jeho příkazy.[8][9]
Pokud správce webu chce, aby byla jeho stránka správně indexována, je vhodné ji přizpůsobit tak, aby se Googlebotovi procházela co možná nejrychleji.[6][3]
Je nutné, aby byl obsah stránek snadno viditelný v textovém prohlížeči a aby nebyl pro Googlebota příliš komplikovaný. Googlebot může mít potíže s indexováním stránek využívajících technologiiAjax[10] aprogramovací jazykJavaScript.[11][3]
SouboryCSS také velmi usnadňují Googlebotovu práci. CSS, neboliCascading Style Sheets, jsou sobory, které popisují, jak se zobrazují jednotlivé prvkyHTML (Hypertext Markup Language) na obrazovce. Kromě čtení textu si Googlebot stahuje právě i tyto CSS soubory, aby lépe porozuměl obsahu webu.
Webové stránky často používají různéURL (Uniform Resource Locator), na kterých je ovšem stejný obsah. Může se jednat o parametry uvedené v URL – například produkt nae-shopu může mít URL jen s ID dané věci, ale zároveň i s názvem, který je lepší proSEO (search engine optimization). V obou případech je však obsah stejný, a tak se zde používákanonizace. Během ní se jedna stránka označí jako ta, která se má indexovat a další se pak na ní pouze odkazují.[12]
Souborsitemap slouží Googlebotovi jako jakási mapa, která mu říká, jak se má na stránce pohybovat. V souboru sitemap se nachází seznam všech URL adres webu, který se majitel webu rozhodl použít a také to, jak na sebe jednotlivé URL navazují. Díky těmto souborům mohou být stránky procházeny rychleji a jsou tedy častěji indexovány.[13]