V případě, že nechcete, aby některé stránky nebyly indexovány fulltextovými roboty, tak je tu pro Vás robots.txt. Robots.txt je vlastně soubor, který umístíte do kořenového adresáře na webu, a můžete v něm nadefinovat, co mají vyhledávače dělat, když přijdou na Vaši stránku. Robots.txt může říci robotům vyhledávačů, jak se mají chovat, ale nikdo nezaručí, že se tak skutečně chovat budou. V případě, že máte na stránkách citlivé údaje, které nechcete zobrazit ve vyhledávání, tak nejlepší variantou je stránky mít pod heslem.
Rozhodnutí o tom, zda a které ze stránek webu budou resp. nebudou indexovány fulltextovými roboty, je zcela na autorovi dané stránky, a právě pro tyto rozhodnutí se využívá Robots.txt. Autor stránky s pomocí Robots.txt nastaví, na které části webu může, nebo nemůže fulltextový robot chodit. Běžný zápis v souboru Robots.txt je:
User-agent: (robot – jeho název: Googlebot, Jyxobot, či Seznambot)
Disallow: (vše co je robotovy zakázáno, pokud může robot indexovat vše, tak se místo disallow použije Allow, nebo se nechá Disallow prázdné)
Hlavička každé stránky by měla obsahovat, co robot smí a co né. Příkladem je <meta name=“robots“ content=“index, follow“> Použité výrazy mohou být: noindex – obsah stránky nebude indexován, index – obsah stránky bude indexován, nofollow – odkazy nebudou sledovány, follow – odkazy budou sledovány, all – vše povoleno, tedy jako index, follow
Soubor Robots.txt a meta tagy v hlavičce Vám pomohou, v případech, kdy nechcete, aby roboti vyhledávačů navštívili některé Vaše stránky.