jak działa słynna wyszukiwarka?
Data: 18 marzec 2008
Identyfikator: 080421
Za każdym razem, gdy wysyłasz zapytanie do Google, uruchamiasz
jeden z najpotężniejszych superkomputerów na Ziemi. 500 tys. serwerów rozrzuconych po całym globie śledzi i indeksuje treść kilkudziesięciu miliardów stron WWW. Wyłowienie konkretnej informacji z morza danych, jakim jest internet, zajmuje wyszukiwarce średnio 0,3 s.
Strona 1 z 4
|
Największe centrum obliczeniowe Google
|
Symbolem rosnącej potęgi Google jest budowana obecnie, gigantyczna farma serwerów w schowanym w Górach Skalistych miasteczku The Dalles,
w stanie Oregon. Składają się na nią dwie serwerownie, każda wielkości boiska piłkarskiego.
Nasuwa się pytanie, dlaczego centrum obliczeniowe jest lokalizowane w tak odległym od cywilizacji zakątku? Dalles jest idealnym miejscem dla Google
przynajmniej z dwóch powodów. Po pierwsze,
ze względu na niezwykle tani prąd produkowany
w zlokalizowanej tuż obok elektrowni wodnej. Energia elektryczna dla fabryk ery informacji to podstawowy surowiec decydujący o opłacalności produkcji. Zapotrzebowanie farmy serwerów w Dalles jest szacowane na 100 MW, co odpowiada zapotrzebowaniu 100 tys. gospodarstw domowych. Po drugie, przebiegająca w pobliżu magistrala światłowodowa pozwoli podłączyć serwerownie bezpośrednio
do sieci szkieletowej internetu. Dalles po ukończeniu będzie największą, ale niejedyną farmą serwerów. Mniejsze placówki działają m.in. w Mountain View, Atlancie oraz Dublinie i kilkudziesięciu innych miejscach na świecie.
|
Google to coś więcej niż wyszukiwarka. Dla wielu jest najważniejszym interfejsem internetu, dzięki któremu mogą błyskawicznie dotrzeć do dowolnych informacji. Mając
Google, nie musimy tworzyć katalogów, zbierać zakładek czy zapisywać treści na dysku. Wystarczy tylko, że zapamiętamy, jak znaleźć informację – i tak będzie pod ręką. Google zmienił nie tylko sposób, w jaki korzystamy z sieci, ale także jak zdobywamy wiedzę. Po raz pierwszy w historii dostęp do internetu jest tak łatwy, że mogą z niego korzystać nawet dzieci.
|
Z punktu widzenia przeciętnego użytkownika wyszukiwanie to wyjątkowo prosta czynność. Zapytanie wpisuje się do okienka, po czym w ułamku sekundy, po kliknięciu przycisku Szukaj, pokazuje się lista odnośników. Korzystanie z wyszukiwarki Google jest tak banalne, że mało kto zdaje sobie sprawę, jak bardzo wyrafinowana jest technologia wykorzystana do tego celu. Tymczasem obsługa każdego zapytania to skomplikowana operacja angażująca zasoby porównywalne do najpotężniejszych superkomputerów na Ziemi.
Internet zlustrowany
Przeszukując internet w odpowiedzi na nasze zapytanie, Google w rzeczywistości nie wchodzi na żadną witrynę. Zajęłoby to zbyt dużo czasu. Zamiast tego analizuje kopię internetu przechowywaną na własnych serwerach. Indeks stron jest tworzony przez Googlebot, potocznie zwanym crawlerem (od ang. crawl – pełznąć). Program przemieszczając się po hiperlinkach, systematycznie skanuje i zapisuje dane ze wszystkich lokalizacji internetowych, do których udaje mu się dotrzeć. Zgromadzona treść jest następnie analizowana. Są z niej wydobywane słowa, które trafiają następnie do wspólnego indeksu. Każdemu słowu towarzyszy lista odnośników prowadzących do stron, na których dany termin występuje. Googlebot tworzy także cache całego internetu, który jest wykorzystywany do analizy rozmieszczenia słów kluczowych na stronach, co jest niezbędne do trafnego sortowania wyników.
W przypadku trafności kluczowe znaczenie ma aktualność danych przechowywanych w indeksie. Jednak tak wielkiego zbioru informacji, jakim jest sieć WWW, nie sposób monitorować w czasie rzeczywistym. Dlatego program stara się wyselekcjonować najczęściej aktualizowane witryny, np. serwisy informacyjne, co chwilę sprawdzać, czy nie pojawiło się na nich coś nowego. Z pobieżnego eksperymentu podczas którego sprawdzaliśmy, jak długo trwało pojawienie się w wyszukiwarce nagłówków z wydań internetowych polskich dzienników, wynika, że niektóre z nich były skanowane i udostępniane w Google już po 5–10 minutach. Serwisy, które rzadziej aktualizują swoją treść, nie są stale monitorowane. W związku z tym Googlebot odwiedza je raz na dzień lub raz na kilka dni.
Znaczenie Page Rank
Po skopiowaniu i zindeksowaniu następuje analiza wiarygodności źródeł, za co odpowiada Page Rank. Podstawowym kryterium jest liczba odnośników prowadzących do danej strony. Każdy z nich jest liczony jako jeden głos. W Page Ranku oprócz liczby głosów ważne jest to, kto głosuje. Jeśli odnośnik pochodzi z wysoko ocenianej strony, Page Rank daje więcej punktów, niż ten, który pochodzi z nikomu nieznanej witryny. Przy okazji kalkulacji Page Rank istotnych jest także kilkaset innych, mniej ważnych kryteriów. Nie są one ujawniane, żeby utrudnić optymalizację witryn, czyli sztuczne podnoszenie ich wartości w „oczach” wyszukiwarki. Wiadomo jednak, że bardzo duże znaczenie dla wysokiej oceny ma częstotliwość aktualizacji, wiek serwisu, a także charakter samej witryny. Na przykład treści ze sklepów internetowych są traktowane jako mniej wiarygodne w porównaniu z artykułami z serwisów tematycznych. Google deklaruje, że równanie używane do kalkulacji Page Rank ma łącznie ponad 500 mln zmiennych.
Efektem końcowym pracy algorytmu Page Rank jest ocena strony w skali 1–10. Aby na bieżąco śledzić wartość oglądanych witryn według Page Rank, wystarczy zainstalować
Google Toolbar, który po prostu wyświetla tę informację.
Ocena: 



(aby ocenić, musisz się zalogować w serwisie)
Podobne artykuły: