Potřebujete zajistit, aby Google neindexoval nějaké vaše stránky na webu a spoléháte se jen na soubor robots.txt? Děláte chybu. Soubor robots.txt není nástroj pro zákaz indexace stránek.
Použití robots.txt k zákazu indexace může být riskantní a nespolehlivé, což může vést k tomu, že některé stránky budou stále indexovány.
Pokud chcete mít jistotu, že se nebudou indexovat, existují správné postupy, které je důležité dodržet.
Co je robots.txt a jak funguje?
Robots.txt je soubor umístěný v kořenovém adresáři na FTP a umožňuje správci webu ovládat chování vyhledávacích robotů.
Pokud je soubor robots.txt správně nakonfigurován, může omezit návštěvy robotů a ušetřit šířku pásma.
Pokud je například určitá část webu zastaralá a nepotřebná a nebo nechcete, aby se ve vyhledávání zobrazovala, může se použít soubor robots.txt k omezení indexace této části.
Nicméně, použití souboru robots.txt k zákazu indexace není spolehlivé. Vyhledávače nejsou povinni soubor robots.txt respektovat, mohou ho ignorovat nebo mohou být jiné faktory, jako jsou odkazy na vaše stránky, které vedou k indexaci stránek přesto, že byly zakázány v souboru robots.txt.
Jak zabránit indexaci stránek?
Abychom zabránili indexaci stránek vyhledávači, je nejlepší použít kombinaci několika opatření:
Používejte meta tag noindex
Dalším způsobem, jak zabránit indexaci stránek, je použití meta tagu noindex. Tento tag říká vyhledávačům, aby neindexovaly stránku, na které je umístěn. Meta tag noindex byste měli vložit do kódu každé stránky, kterou nechcete, aby byla indexována. Pokud používáte CMS (Content Management System) jako WordPress, můžete meta tag noindex nastavit pomocí pluginů.
Omezení odkazů
Omezení odkazů na vaše stránky může také pomoci zabránit indexaci stránek vyhledávači. Pokud vyhledávače nemají žádný zdroj, který by na vaše stránky ukazoval, nebudou je indexovat. Odkazy na své webové stránky můžete omezit pomocí souboru robots.txt nebo odkazů nofollow.
Zablokujte vyhledávače pomocí htaccess
Můžete také zablokovat vyhledávače pomocí souboru htaccess. Toto řešení je vhodné pro pokročilé uživatele a vyžaduje určité technické znalosti.
Použitím souboru htaccess také můžete omezit přístup k webovým stránkám pouze na určité IP adresy. Přes htaccess můžete spolehlivě zajistit, že vaše stránky nebudou vyhledávače indexovat.
Jak zakázat indexaci konkrétní URL na WordPress webu přes soubor htaccess
Pro zakázání indexace určité URL na WordPress webu přes soubor htaccess je třeba následovat následující kroky:
1. Přihlaste se na FTP a přejděte do hlavního adresáře, kde máte nainstalovaný WordPress.
2. Najděte soubor htaccess a otevřete ho k editaci.
Přidejte následující kód (níže si vysvětlíme, co vše znamená) na konec souboru htaccess:
<IfModule mod_rewrite.c>
RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} ^.*(Googlebot|Googlebot-Mobile|Googlebot-Image|Googlebot-News|Googlebot-Video|Mediapartners-Google|AdsBot-Google)\s [NC]RewriteRule ^/?(url-k-zakazani) - [NC,L,R=403]
</IfModule>
3. Přizpůsobte cestu ke stránce, kterou chcete zakázat (nahraďte “url-k-zakazani” cestou k vaší stránce).
4. Uložte soubor htaccess.
Tento kód zakáže indexaci stránky Googlebotem a dalšími Googleboty. Pokud chcete zakázat indexaci stránky i jinými vyhledávači, musíte přidat další RewriteCond řádky s dalšími user-agenty vyhledávačů.
Rozbor htaccess zápisu pro zákaz indexování určité URL
Nyní si krok za krokem vysvětlíme jednotlivé části kódu:
- <IfModule mod_rewrite.c>: Tato část kódu zahajuje blok podmínky a kontroluje, zda je modul Apache `mod_rewrite` dostupný. Modul `mod_rewrite` umožňuje přepisovat (rewritovat) URL adresy.
- RewriteEngine On: Toto je direktiva pro zapnutí modulu `mod_rewrite`. Říká serveru, aby povolil přepisování URL adres.
- RewriteCond %{HTTP_USER_AGENT} ^.*(Googlebot|Googlebot-Mobile|Googlebot-Image|Googlebot-News|Googlebot-Video|Mediapartners-Google|AdsBot-Google)\s [NC]: Toto je podmínka pro přepisování URL. Specifikuje se zde podmínka, kterou musí HTTP_USER_AGENT (představuje uživatele, který přistupuje k webu) splňovat, aby byla aplikována další přepisovací pravidla. V tomto případě je to seznam Googlebotů a Google AdSense botů. `[NC]` určuje, že se nerozlišují velká a malá písmena (case-insensitive).
- RewriteRule ^/?(url-k-zakazani) – [NC,L,R=403]: Toto je přepisovací pravidlo, které definuje, co se má stát, když podmínka z předchozího kroku platí. `^/?(url-k-zakazani)` je regulární výraz, který definuje, jaká URL adresa bude zakázána. Můžete nahradit `url-k-zakazani` s konkrétní adresou nebo cestou, kterou chcete zakázat. `-` znamená, že se neprovádí žádné přesměrování. `[NC]` je opět nepříznak velkých a malých písmen. `L` znamená, že se na toto pravidlo má přistupovat jako na poslední. `R=403` znamená, že se vrátí HTTP status kód 403 (Zakázáno) jako odpověď na požadavek.
- </IfModule>: Tato část kódu ukončuje blok podmínky a signalizuje konec přepisovacích pravidel.
Tento kód tedy zajistí, že pokud někdo přistoupí k určené URL adrese a jeho user agent odpovídá seznamu Googlebotů a Google AdSense botů, bude mu vrácen HTTP status kód 403 (Zakázáno).
Potřebujete poradit? Rádi vám pomůžeme
Pokud si nejste jisti, jak upravit soubor htaccess, rádi vám s tím pomůžeme. Stačí, když nás kontaktujete. Špatná editace souboru htaccess může způsobit výpadky webu.