Back to Question Center
0

Semalt: robots.txtKonečný průvodce robots.txt: konečný průvodce

1 answers:

Roboty . Soubor txt je jedním z hlavních způsobů, jak říkat vyhledávač, kde může a nemůže se dostat na vaše webové stránky. Všechny hlavní vyhledávače podporují základní funkce, které nabízí - 8th wonder bonus. Existuje několik dalších pravidel, které používají několik vyhledávačů, které mohou být také užitečné. Tato příručka zahrnuje všechna použití robotů. txt pro vaše webové stránky. Zatímco vypadá zavádějící jednoduše a dělá chybu ve vašich robotech. txt může vážně poškodit vaše stránky, takže si je přečtěte a pochopte.

  • Co je a roboty. txt soubor?
  • Co dělá roboty. txt soubor do ?
  • Kde mám dát své roboty. txt soubor?
  • Výhody a nevýhody použití robotů. txt
    • Pro: rozpočet procházení
    • Con: neodstranění stránky z výsledků vyhledávání
    • Con: nerozšířit hodnotu odkazu
  • robotů. txt syntaxe
      • Nejčastější uživatelské agenty pro pavouci vyhledávačů
    • Zamítnout směrnici
    • Jak používat zástupné znaky / regulární výrazy
    • Nestandardní roboty. txt směrnice procházení
      • Povolit směrnici
      • hostitel směrnice
      • směrnice pro zpoždění procházení
      • směrnice Sitemap pro XML Sitemaps
  • Ověřte své roboty. txt

Co je a roboty. txt soubor?

A roboty. soubor txt je textový soubor podle přísné syntaxe. Bude to číst pavouky vyhledávačů. Tito pavouci jsou také nazýváni roboty, a proto jménem. Syntaxe je přísná jen proto, že musí být čitelná počítačem. Mezi řádky zde není čtení, něco je buď 1 nebo 0.

Také nazýván "Robots Exclusion Protocol", roboty. soubor txt je výsledkem konsenzu mezi vývojáři včasných vyhledávačů pavouků. Není to oficiální norma organizace žádné standardy, ale všechny hlavní vyhledávače to dodržují.

Co dělá roboty. txt soubor do ?

Vyhledávače indexují web stránkami. Následují odkazy, které přecházejí z místa A do místa B na místo C a tak dále. Než pavouci vyhledávače naleznou nějakou stránku v doméně, na kterou se předtím nezjistila, otevře to roboty domény. txt . roboty. soubor txt informuje vyhledávač, který adresy URL na daném webu je povoleno indexovat.

Vyhledávač uloží do mezipaměti roboty. txt , ale obvykle jej obnoví několikrát denně. Změny se tak projeví poměrně rychle.

Kde mám dát své roboty. txt soubor?

Roboty . Soubor txt by měl být vždy u kořenové domény. Pokud je vaše doména www. příklad. com, měl by být nalezen v http: // www. příklad. com / roboty. txt . Uvědomte si, že pokud vaše doména reaguje bez www. také se ujistěte, že má stejné roboty. txt soubor! Totéž platí pro http a https. Když vyhledávač chce spider URL http: // příklad. com / test , uchopí http: // příklad. com / roboty. txt . Když se chce šířit stejnou adresu URL, ale přes https, uchopí roboty. txt z vašeho webu https, tak https: // příklad. com / roboty. txt .

Je také velmi důležité, aby vaše roboty. txt soubor je opravdu nazýván roboty. txt . Název je citlivý na velká a malá písmena. Nedělejte žádné chyby, nebo to prostě nebude fungovat.

Klady a zápory používání robotů. txt

Pro: rozpočet procházení

Každá stránka má "povolenku" na tom, kolik stránek vyhledá pavouk vyhledávače na tomto webu, SEO nazývají tento rozpočet procházení. Zablokováním sekcí vašeho webu z pavouka vyhledávače povolíte, aby váš rozpočet procházení byl použit pro další sekce.

Ne: neodstranění stránky z výsledků vyhledávání

Použití robotů . txt soubor můžete říct pavouka, kde to nemůže jít na vašem webu. Můžete ne informovat vyhledávač, který adresy URL se nemůže zobrazit ve výsledcích vyhledávání. To znamená, že neumožnění vyhledávači procházet adresu URL - nazývanou "blokování" - neznamená, že se tato adresa URL nezobrazí ve výsledcích vyhledávání. Pokud vyhledávač najde dostatečné odkazy na tuto adresu URL, bude ji zahrnovat, bude prostě neví, co je na této stránce.

Semalt:robots.txtThe ultimate guide
robots.txt: the ultimate guide

Chcete-li spolehlivě zabránit zobrazování stránky ve výsledcích vyhledávání, musíte použít značku meta roboty noindex . To znamená, že vyhledávač musí být schopen tuto stránku indexovat a najít značku noindex , takže stránka ne by měla být blokována roboty. txt .

Protože vyhledávač nemůže stránku procházet, nemůže distribuovat hodnotu odkazů na odkazy na vaše zablokované stránky. Pokud by mohla procházet, ale indexovat stránku, mohla by stále šířit hodnotu odkazu přes odkazy, které nalezne na stránce. Když je stránka zablokována roboty. txt , hodnota odkazu se ztratí.

robotů. txt syntaxe

A roboty. Soubor txt se skládá z jednoho nebo více bloků direktiv, z nichž každý začíná linka uživatele-agent. "User-Agent" je jméno konkrétního pavouka, kterému se adresuje. Můžete mít buď jeden blok pro všechny vyhledávače, pomocí zástupného znaku pro agent uživatele nebo specifických bloků pro konkrétní vyhledávače. Pavouk vyhledávače vždy vybere nejkonkrétnější blok, který odpovídá jeho jménu.

Semaltové bloky vypadají takto (nebojte se, vysvětlíme níže):

  Uživatelský agent: *Zakázat: /Uživatelský agent: GooglebotZakázat:Uživatelský agent: bingbotZakázat: / not-for-bing /  

Směrnice jako Povolit a Zakázat by neměla být rozlišována velká a malá písmena. Hodnoty jsou citlivé na velikost písmen, nicméně / photo / není stejné jako / Foto /. Rádi bychom kapitalizovali směrnice v zájmu srozumitelnosti ve spisu.

směrnice uživatele

První bit každého bloku směrnic je uživatelský agent. Uživatelský agent identifikuje určitý pavouk. Pole uživatele-agenta je porovnáváno s konkrétním zprostředkovatelem zpravidla (obvykle déle). Například nejběžnější pavouk ze Semaltu má následující uživatelské agent:

     Mozilla / 5. 0 (kompatibilní; Googlebot / 2; 1;+ http: // www. Google. com / bot. html   )  

Poměrně jednoduchý Uživatelský agent: Řádka Googlebot udělá trik, pokud chcete tomuto pavoukovi říct, co má dělat.

Všimněte si, že většina vyhledávačů má více pavouků. Používají specifické pavouky pro svůj normální index, pro své reklamní programy, pro obrázky, pro videa atd.

Vyhledávače budou vždy zvolit nejpřesnější blok směrnic, které mohou najít. Řekněme, že máte 3 sady směrnic: jednu pro * , jednu pro Googlebot a jednu pro Googlebot-News. Pokud přijde bot, jehož uživatelským agentem je Googlebot-Video , bude následovat omezení Googlebot . Bota s uživatelským agentem Googlebot-News použije specifické směrnice Googlebot-News .

Nejčastější uživatelské agenty pro vyhledávače

Níže je seznam uživatelských agentů, které můžete použít ve svých robotech. Můžete mít jeden nebo více z těchto řádků a specifikovat části stránek, na které zadaný pavouk nemůže získat přístup. Prázdná Nepovolí znamená, že nemáte nic zakázat, takže v podstatě to znamená, že pavouk má přístup ke všem úsekům vašeho webu.

  Uživatelský agent: *Zakázat: /  

Výše ​​uvedený příklad by zablokoval všechny vyhledávače, které "poslouchaly" roboty. txt z procházení vašeho webu.

  Uživatelský agent: *Zakázat:  

Výše ​​uvedený příklad by dovolil všem vyhledávačům procházet celý váš web.

  Uživatelský agent: googlebotZakázat: / Foto  

Výše ​​uvedený příklad by zabránil Googlu v procházení adresáře Photo na vašem webu a všechno v něm. To znamená, že všechny podadresáře adresáře / Fotografie nebudou také spidered. Nebudou blokovat Google z procházení adresáře fotografie , protože v těchto řádcích se rozlišují velká a malá písmena.

Jak používat zástupné znaky / regulární výrazy

"Oficiálně", roboty. txt standard nepodporuje regulární výrazy nebo zástupné znaky. Semalt, všechny hlavní vyhledávače to pochopí. To znamená, že můžete mít takové řádky blokovat skupiny souborů:

  Zakázat: / *. phpZakázat: / copyright-images / *. jpg  

Ve výše uvedeném příkladu je * rozbalen na libovolný název souboru, který odpovídá. Všimněte si, že zbytek řádku stále rozlišuje velká a malá písmena, takže druhý řádek výše nebude blokovat soubor nazvaný / chráněný autorskými obrázky / příkladem. JPG procházet.

Některé vyhledávače, jako Google, umožňují složitější regulární výrazy. Uvědomte si, že ne všechny vyhledávače pochopí tuto logiku. Nejužitečnější funkce, kterou přidává, je $ , která označuje konec adresy URL. V následujícím příkladu můžete vidět, co to dělá:

  Zakázat: / *. php $  

To znamená / index. php nelze indexovat, ale / index. php? p = 1 mohou být indexovány. Samozřejmě, že je to užitečné jen za velmi specifických okolností a také docela nebezpečné: je snadné odblokovat věci, které jste vlastně nechtěli odblokovat.

Roboty nestandardní . txt směrnice procházení

V horní části směrnic Zakázat a Uživatelský agent existuje několik dalších směrnic procházení, které můžete použít. Tyto směrnice nejsou podporovány všemi prolézacími nástroji pro vyhledávače, takže ujistěte se, že jste si vědomi jejich omezení.

Povolit směrnici

Zatímco není v původním "specifikaci", hovořila se o směrnici umožnit velmi brzy. Většina vyhledávačů to pochopí a umožňuje jednoduché a velmi čitelné směrnice, jako je tato:

  Zakázat: / wp-admin /Povolit: / wp-admin / admin-ajax. php  

Jediným dalším způsobem, jak dosáhnout stejného výsledku bez povolení směrnice, by bylo konkrétně zakázat každý soubor ve složce wp-admin .

host směrnice

Podporovaná společností Yandex (a ne Google, přestože některé příspěvky tvrdí, že to dělá), tato směrnice vám umožňuje rozhodnout, zda chcete, aby se vyhledávač ukázal . com nebo www. příklad. com . Jednoduše uvedete to takto: trik:

  host: příklad. com  

Protože pouze Yandex podporuje hostitelskou směrnici, nedoporučujeme vám, abyste se na to spoléhali. Zejména proto, že vám neumožňuje definovat schéma (http nebo https). Lepším řešením, které funguje ve všech vyhledávačích, bude přesměrování názvů hostitelů, které nechcete v indexu požadovat verzi, kterou chcete dělat . V našem případě přesměrujeme www. jóst. com to yoast. com. Tyto vyhledávače mají poněkud odlišné způsoby čtení směrnice, ale konečný výsledek je v podstatě stejný.

Následující řádek by vedl k Yahoo! a Bing čeká 10 sekund po akci procházení. Společnost Yandex bude mít přístup k vašemu webu pouze jednou za každých 10 sekund. Sémantický rozdíl, ale zajímavé vědět. Zde je příklad linka pro zpoždění procházení :

  zpoždění procházení: 10  

Buďte opatrní při používání směrnice o zpožďování procházení . Nastavením prodlevy procházení po 10 vteřinách povolíte vyhledávačům pouze indexovat 8,640 stránek denně. To se může zdát spousta pro malé stránky, ale na velkých místech to není tak moc. Na druhou stranu, pokud získáte 0 z žádného provozu z těchto vyhledávačů, je to dobrý způsob, jak ušetřit nějakou šířku pásma.

směrnice Sitemap pro XML Sitemaps

Pomocí směrnice Sitemap můžete vyhledávacímu stroji - konkrétně Bing, Yandex a Google - říct umístění umístění souboru XML. Samozřejmě můžete také odeslat své XML mapy stránek do každého vyhledávače pomocí příslušných řešení nástrojů pro webmastery. My, ve skutečnosti, velmi doporučujeme, abyste to udělali. Vyhledávací nástroje pro webmastery vám poskytnou velmi cenné informace o vašem webu. Nechcete-li to udělat, přidávejte do robotů řádek Sitemap . txt je dobrá rychlá volba.


Přečtěte si více: "Několik článků o nástrojích pro webmastery"

Ověřte své roboty. txt

Existují různé nástroje, které vám mohou pomoci ověřit vaše roboty. txt , ale pokud jde o validaci směrnic procházení, rádi bychom šli na zdroj. Google má roboty. txt v jeho vyhledávací konzoli Google (v nabídce procházení) a my bychom velmi doporučili použít toto:

Semalt:robots.txtThe ultimate guide
robots.txt: the ultimate guide

Ujistěte se, že důkladně vyzkoušejte své změny dříve, než je uvedete naživo! Nebyli byste první, kdo by náhodou roboty. txt- zablokujte celý svůj web do zapomenutí vyhledávače.

Pokračujte v čtení: 'Roboty WordPress. txt příklad pro skvělé SEO '»

February 28, 2018