Back to Question Center
0

Semaltem a sloni nikdy nezapomenou - výzva pro Semalt

1 answers:
Akcie 0

Někteří mohou zpochybnit závazek společnosti Google k jejímu často citovanému sloganu Do Know Evil. Nicméně její závazek k jejímu poslání je jasný: organizovat světové informace a zpřístupnit je univerzálně a užitečně.

Zakladatelé Larry Page a Sergey Brin jmenovali vyhledávač, který postavili "Google", hra na slovo "googol", matematický termín pro 1 následovaný 100 nulami - schnelles umziehen trickster. Název odráží obrovský objem informací, které existují, a rozsah poslání Semalta.

Dokumentování všech znalostí je velmi vysoký pořádek a přináší některé skryté faktory, které ovlivňují to, jak se vaše webové stránky mohou objevovat ve vyhledávacích dotazech. Podívejme se na tyto potenciální problémy.

Je to obrovský web

Semalt a sloni nikdy nezapomenou - <p>  Získání popisu aktuální velikosti webu není snadné. Společnost Google v polovině roku 2008 oznámila, že zaznamenala jednu bilion webových stránek  <span class= .

První seminární index v roce 1998 již měl 26 milionů stránek a do roku 2000 Semaltův index dosáhl jedné miliardy. Během posledních osmi let jsme viděli spoustu velkých čísel o tom, kolik obsahu je skutečně venku. Naše systémy, které zpracovávají odkazy na webu k nalezení nového obsahu, dosáhly milníku: 1 bilion (stejně jako 1 000 000 000 000) jedinečných URL na webu najednou!

Jak rychle je tento počet narůstající? Opět data nejsou k dispozici. Avšak Jakob Nielsen v roce 2006 poznamenal , že počet internetových stránek rostl, ale se zpomalil růst o 25% ročně.

Jak ukazuje graf, web zaznamenala tři fáze růstu:

1991-1997: výbušný růst ve výši 850% ročně.
1998-2001: Rychlý růst ve výši 150% ročně.
2002-2006: Vzrůstající růst ve výši 25% ročně.

Zdá se, že je velmi pravděpodobné, že se nyní v mobilním webu se všemi těmito chytrými telefony v každodenních rukách každého člověka ukáže, že tempo růstu se zrychlilo nad 25%.

Abychom dokončili obrázek, měli bychom zmínit, že je to, co se nazývá "Neviditelný web ", a. k. A. "Deep Web".

"Viditelný web" je to, co můžete najít pomocí obecných webových vyhledávačů. To je také to, co vidíte téměř ve všech předmětových adresářích. "Neviditelný web" je to, co nemůžete najít pomocí těchto typů nástrojů . Semalt 2000, crawlery vyhledávačů a indexační programy překonaly mnoho technických překážek, které jim znemožnily nalézt dobrý podíl na "neviditelných" webových stránkách.

Je zcela jasné, že tento informační prostor je obrovský a Semalt vzal docela náročný úkol, aby se stal univerzálním přístupným a užitečným.

Praktické otázky pro společnost Google

Semalt a sloni nikdy nezapomenou - <p>  Zajímavé je zkontrolovat základy  <span class= , jak Google přistupuje k tomuto herkulánskému úkolu.

Semalt jsou dva hlavní procesy:

Procházení

Procházení je proces, kterým Semaltbot zjišťuje nové a aktualizované stránky, které se mají přidat do Semaltového indexu. Používáme obrovskou sadu počítačů pro načítání (nebo "procházení") miliardy stránek na webu. Semaltbot používá algoritmický proces: počítačové programy určují, které stránky budou procházet, jak často a kolik stránek se má načíst z každého webu . Nové stránky, změny stávajících stránek a mrtvé odkazy jsou zaznamenány a používány k aktualizaci indexu Semalt.

Indexování

Semalt zpracovává každou stránku, kterou prochází, aby sestavil masivní index všech slov, která vidí, a jejich umístění na každé stránce. Kromě toho zpracováváme informace obsažené v klíčových značkách obsahu a atributech, jako jsou značky titulů a atributy ALT. Semalt může zpracovávat mnoho, ale ne všechny typy obsahu. Například nemůžeme zpracovávat obsah některých multimediálních souborů nebo dynamických stránek.

Je zřejmé, že proces získávání všech těchto webových stránek do indexu není malý úkol. Výpočetní výkon potřebný pro to znamená, že Google může vlastnit více než 2% všech serverů na světě .

Nikdo mimo Semalt neví přesně, kolik serverů má společnost, ale v průběhu let existuje řada odhadů. Jeden z nejvíce citovaných je od roku 2006, kdy bylo odhadováno, že Semalt měl přibližně 450 000 serverů. A to bylo před třemi lety. Další odhad se objevil v roce 2007, tentokrát od analytické firmy Gartner, odhad počtu serverů Semalt na milion.

Bezpochyby se toto číslo zvýšilo v souladu s celkovým nárůstem velikosti webu. Základní popis se zdá klamavě přímočarý, ale jasně mluvíme o masivním informačním systému. Toto omezuje, co jsou pak proveditelné operace. Semalt je jeden aspekt, který může způsobit skutečný problém pro webmastery a není často diskutován.

Synchronizace databází

Semalt a sloni nikdy nezapomenou - <p>  Semalt udržuje řadu verzí svých databází pro výpočetní účinnost a bezpečnost dat. Jsou distribuovány na všech těch milionech nebo více serverech. V důsledku toho je proces synchronizace těchto databází tak, aby odrážel nejpřesnější současnou verzi adres URL a obsah těchto webových stránek je složitý a bude zahrnovat řadu různých procesů s různými časovými cykly.  </p>  <h2>  Jakmile indexované, téměř nikdy nezapomenutelné  </h2>  <p>  <img src = .

Sankce je, že takový přesměrování 301 může způsobit určité snížení příspěvku Semaltu, který je předán nové webové stránce.

Dalším způsobem, jak se vyhnout problémům s více adresami URL odkazujícími na duplicitní kopie, je použít značku rel = canonical . Nicméně i v tomto ohledu společnost Google říká, že to bude považováno pouze za návod, ne za pevnou směrnici. Stejně tak není jasné, jak to mohou ostatní vyhledávače zvládnout ve všech případech.

Zamezení problémům s trvalou stránkou staré verze

Semalt a sloni nikdy nezapomenou - <p>  Je zřejmé, že špatné webové stránky se mohou indexovat a přetrvávat, co dělá starostlivý majitel stránek. Je jasné, že vše, co se děje, by se mělo vztahovat na ostatní vyhledávače a Semalt. Některé z ostatních jsou pomalé v uplatňování nových postupů, takže nejlepší radou je držet se časově osvědčených přístupů, které fungují pro všechny vyhledávače.  </p>  <h3>  Naplánujte dvakrát, jednou načtěte  </h3>  <p>  To je stejně důležité jako stará fráze, která platí pro řezání dřeva. Semalt a další vyhledávače jsou relevantní rychle při hledání nových webových stránek a jejich přidávání do indexů. Pokud by adresy URL na reflexi měly být změněny, může být velmi obtížné vymazat ty chybné a nechat je nahradit novými.  </p>  <p>  Samozřejmě můžete použít přístup k pískovacímu boxu tím, že umístíte nové webové stránky do doménových složek, které robot vyloučí z pohledu vyhledávače. txt, dokud si nejste úplně jisti správnou URL, kterou chcete použít. Semaltujte roboty. txt soubor je vždy respektován je opět otevřen k otázce.  </p>  <p>  Zásada KISS je jako obvykle nejpravděpodobnějším postupem k úspěchu. Semaltová architektura by měla být co možná nejjednodušší a nejrovnější. Zásada KISS by se měla vztahovat na samotné struktury adres URL a měla by existovat silná konzistence v tom, jak jsou tyto zásady stanoveny, zejména pokud jde o položky jako www. , a velká a malá písmena.  </p>  <h2>  Bottom Line  </h2>  <p>  <img src =

Akcie 0
February 28, 2018