Optimalizace webu – Robots.txt

  • 4 minut čtení

V rámci optimalizace Vašich stránek je dobré používat soubor robots.txt, kterým můžete definovat  do kterých částí webu budou weboví roboti smět a které jsou robotům nepřístupné. Tento soubor slouží primárně ke komunikaci s webovými roboty.

Pokaždé když některý z webových robotů navštíví stránku, nejprve si prohlédne tento soubor, teprve poté prohledává a indexuje obsah webu.  Důležité je si uvědomit, že někteří roboti (obvykle ti špatní – malware nebo spambots) mohou soubor ignorovat.

Druhou důležitou poznámkou je, že soubor je veřejně přístupný a kdokoliv se může podívat na jeho nastavení.

Proč je tedy důležité robots.txt nastavit?  Tento soubor pomáhá robotům v procházení stránek.  Pokud na webu chybí, nebo je špatně nastaven, může prohledávání stránky velmi ztížit.  Neexistující nebo prázdný soubor robots.txt znamená, že vyhledávač může stránky indexovat bez omezení.

Umístění souboru a název souboru

robots.txt musí být vždy umístěn v základní složce webu (root), tedy na stejném místě jako úvodní stránka webu (index.html). Například pro adresu www.kurzygrafiky.cz bude soubor umístěn přímo za první lomítko, tedy www.kurzygrafiky.cz/robots.txt . Pro správné nastavení je nutné používat pouze malá písmena a dodržet přesný název souboru (tzn. přesně „robots.txt“).

Obsah souboru

První co by mělo být součástí nastavení je cesta k souboru sitemap.xml  Tím usnadníte robotům cestu ke struktuře webu a můžete tím urychlit indexování jednotlivých stránek. Více se o nastavení sitemap.xml dočtete v samostatné kapitole. Do souboru je možné zadat i několik adres XML souborů např.:

User-agent: *

Sitemap: http://www.example.com/sitemap.xml

Sitemap: http://www.example.com/sitemap-host1.xml

Sitemap: http://www.example.com/sitemap-host2.xml

Druhým bodem je nastavení, pro jaké roboty budou daná pravidla platit. Zápis „User-agent:  *“ říká, že pravidla platí pro všechny.  Možností definice robota vyhledávačů v robots.txt je například Seznambot, Googlebot, Mediapartners-Google, Googlebot-Image, MJ12bot a další.

V tom případě může zápis vypadat např. takto:  User-agent: Googlebot-Image.

Funkcí „Disallow“  můžete zamezit přístup do jednotlivých složek struktury webu.  Například „Disallow: /administrator“ zakáže přístup do složky administrator, která u redakčních systémů slouží k přihlášení uživatele do správcovského rozhraní.  To bývá i jedním ze základních bezpečnostních prvků. Vždy je dobré zamezit robotům přístup do složek, které obsahují osobní nebo přihlašovací údaje či obrazovky.

Pro zablokování celého webu pro roboty můžete použít lomítko. Tedy – Disallow: / Možné je blokovat i jednotlivé HTML stránky. Například zamezením přístupu ke stránce s formulářem se můžete vyhnout nežádoucímu spamu. Pro blokování jednotlivých stránek použijte Disallow: /skryty-soubor.html

V souboru robots.txt je možné požívat zástupné znaky. Jsou jimi : * a $.  Hvězdička (*)  nahrazuje libovolný řetězec znaků (může se vyskytovat v pravidle vícekrát). Dolar ($)  znamená vždy  konec URL adresy (interpretuje se stejně u všech pravidel).

Několik konkrétních ukázek:

Zamezit lze i  indexování  pro jednotlivé typy souborů. Pro blokaci souborů určitého typu (např. soubory .jpg) zadejte řetězec platný pro všechny vyhledávače.  Disallow: /*.jpg$

Pro  zablokování přístupu do všech podadresářů začínajících slovem tajne použijte v robots.txt následující zápis:   Disallow: /tajne*/

Pro zablokování indexace všech URL adres s otazníkem (?) použijte:   Disallow: /*?

Pro blokování adres se specifikovanými koncovými znaky použijte znak $. Následující zápis blokuje všechny soubory programu MS Word ( .doc):   Disallow: /*.doc$

Přiřazování zástupných znaků je možné používat v kombinaci s příkazem Allow. Tedy naopak k povolení řady URL adres.

Příklad nastavení souboru robots.txt:

sitemap:  http://kurzygrafiky.cz/index.php?option=com_xmap&sitemap=1&view=xml

User-agent: *

Disallow: /administrator

Disallow: /installation/

Disallow: /language/

Disallow: /templates/