Internet Basics (7): Suchmaschinen – Die Welt in einem Index

Ein Wendepunkt in der weiteren Entwicklung des Webs wurde 1994 mit den ersten Suchmaschinen eingeleitet. Darunter waren unter anderem Yahoo, Alta Visto oder Google.

Google, programmiert von Larry Page & Sergey Brin, nahm sehr schnell einen Großteil des Markts ein und entwickelte sich zur bevorzugten Search Engine der meisten Menschen. Das hat Google vor allem seiner schnellen und individuell relevanten Ergebnisse zu verdanken, was dazu führte, dass Google der Konkurrenz weit voraus war und immer noch ist.

Eine Suchmaschine ist eine Website, mit der man andere Webseiten finden kann. Das könnte man ohne Suchmaschinen auch, indem man die gesamte URL weiß, nur eben viel komplizierter und in viel kleinerem Ausmaß. Ohne Suchmaschinen würde das navigieren mit und zwischen den milliarden von Webseiten im Internet also unglaublich schwer bis unmöglich.

Funktion einer Suchmaschine

Bei einer Suchmaschine wird das Web nach einer bestimmten Methode gefiltert.

Das Internet besteht aber nicht nur aus dem WWW, es gibt daneben auch noch z.B. die E-Mail oder das File Transfer Protocol (FTP).

Es wird ein Abbild des World-Wide-Webs erstellt. Das ist der sogenannte Suchmaschinen-Index. Er teilt das Web in verschiedene Kategorien ein und befindet sich auf dem Server des Anbieters der Suchmaschine. Erst der Index macht die wahnsinnig schnell gefundenen Ergebnisse möglich.

Der Index speichert bestimmte Daten und Eigenschaften der Websites auf dem Server ab. Wenn man etwas im Internet sucht, trifft man also nicht auf die aktuelle Version des Webs, sondern auf eine vergangenheitsbezogene. Im Optimalfall ist diese Version jedoch nur ein paar Stunden alt.

Der Crawler

Für die Erstellung des Index für die Suchmaschine werden sogenannte Crawler (auf Deutsch „Raupe“) eingesetzt. Das sind Programme, die von sich selbst aus Webseiten suchen und durchscannen. Das Programm scannt eine Website sieht im HTML-Code <a> Tags, das sind die berühmten blau dargestellten Links. Es verwendet die Hyperlinks, um von Webseite zu Webseite zu navigieren und sie im Index aufzunehmen. Der Crawler sieht also eine Seite und die Links, die zu wieder anderen Seiten führen, auf denen wieder Links zu neuen und anderen Seiten zu finden sind usw. Das ist der Grund, warum Webseiten, die bei keiner anderen Seite im einem Link erwähnt sind, gar nicht oder mit beträchtlicher Verzögerung im Suchmaschinen-Index aufgenommen werden und deshalb auch weiter unten in den Ergebnissen der Suche landen.

Stand 2016 besteht zum Beispiel der Index von Google aus unglaublichen 130 Billionen individuellen Webseiten mit einem Speicherplatz von 100 Millionen Gigabyte, die Speicherkapazität von Hunderttausend 1-Terabyte Festplatten)
Leider stellt Google seit längerer Zeit keine Zahlen zu seinem Index mehr öffentlich aus, weshalb die Größe des Google-Index zum jetzigen Zeitpunkt nur sehr schwer geschätzt werden kann.

Weiter mit – Web 2.0-Soziale Netzerke

Weiter bei – Das Google-Monopol