Back to Question Center
0

Semalt Islamabad Expert - Co potřebujete vědět o webovém prohledávači

1 answers:

Prohledávač pro vyhledávač je automatizovaná aplikace, skript nebo program, který přes programování napříč World Wide Web poskytuje aktualizované informace pro konkrétní vyhledávač. Přemýšleli jste někdy o tom, proč získáváte různé sady výsledků při každém zadávání stejných klíčových slov na Bing nebo Google? Je to proto, že webové stránky jsou nahrávány každou minutu. A když jsou nahrávány, webové prohledávače běží na nových webových stránkách.

Michael Brown, vedoucí expert z Semalt , říká, že webové prohledávače, také známé jako automatické indexátory a webové pavouky, pracují na různých algoritmech pro různé vyhledávače. Proces procházení webu začíná identifikací nových adres URL, které by měly být navštíveny buď proto, že byly právě nahrány, nebo proto, že některé jejich webové stránky obsahují nový obsah. Tyto identifikované adresy URL jsou v termínu vyhledávače známé jako semena.

Tyto adresy URL jsou nakonec navštíveny a znovu navštěvovány v závislosti na tom, jak často je do nich nahrává nový obsah a zásady vedoucí k pavoukům. Během návštěvy jsou všechny hypertextové odkazy na každé webové stránce identifikovány a přidány do seznamu. V tomto okamžiku je důležité jasně uvést, že různé vyhledávací stroje používají různé algoritmy a zásady. To je důvod, proč existují rozdíly mezi výsledky Google a výsledky Bing pro tytéž klíčová slova, ačkoli tam bude hodně podobností.

Webové prohledávače provádějí obrovské úlohy udržující vyhledávače aktuální. Ve skutečnosti je jejich práce velmi obtížná, a to z těchto tří důvodů.

1. Objem webových stránek na internetu v každém okamžiku. Víte, že na webu je několik milionů webových stránek a další jsou spouštěny každý den. Čím více objemu webových stránek na síti je, tím těžší je pro crawlery být aktuální.

2. Rychlost, jakým jsou webové stránky spouštěny. Máte představu, kolik nových webových stránek se denně spouští?

3. Frekvence změny obsahu na existujících webových stránkách a přidání dynamických stránek.

Jedná se o tři problémy, které ztěžují webovým pavoukům, aby byly aktuální. Namísto procházení webových stránek na základě prvního příchodu-první-podáno, mnoho webových pavouků upřednostňují webové stránky a hypertextové odkazy. Stanovení priorit je založeno pouze na čtyřech obecných pravidlech pro prohledávače vyhledávačů.

1. Politika výběru se používá k výběru, které stránky se nejprve stáhnou pro procházení.

2. Typ zásady pro opětovné navštívení se používá k určení toho, kdy a jak často jsou webové stránky revidovány pro možné změny.

3. Pravidla paralelizace se používají ke koordinaci rozložení pásů pro rychlé pokrytí všech semen.

4. Pravidla zdvořilosti se používají pro určení způsobu prohledávání adres URL, aby se zabránilo přetížení webových stránek.

Pro rychlé a přesné pokrytí semen musí mít crawleři skvělou techniku ​​procházení, která umožňuje upřednostňování a zúžení webových stránek a musí mít také vysoce optimalizovanou architekturu. Tyto dva způsoby usnadňují procházení a stahování stovek milionů webových stránek během několika týdnů.

V ideální situaci je každá webová stránka vytažena z World Wide Web a převzata přes multi-threaded downloader, po níž jsou webové stránky nebo adresy URL včleněny do fronty předtím, než je předají přes vyhrazené plánovače pro prioritu. Webové adresy s prioritou jsou opět získávány prostřednictvím serveru s více vlákny, takže jejich metadata a text jsou uloženy pro správné procházení.

V současné době existuje několik pavouků vyhledávačů nebo prohledávačů. Ten, který Google používá, je Google Crawler. Bez webových pavouků stránky výsledků vyhledávání vyhledávačů buď vrátí nulové výsledky, nebo zastaralý obsah, protože nové webové stránky by nikdy nebyly uvedeny. Ve skutečnosti nebude nic podobného on-line výzkumu.

November 26, 2017
Semalt Islamabad Expert - Co potřebujete vědět o webovém prohledávači
Reply