Seit einigen Jahren ist Google die bekannteste und am meisten genutzte Suchmaschine. Google ist auch für die Suche nach PDF-, Postscript-, Word- und PowerPoint-Dateien geeignet. Bsp: Suche "Wort" in Wikipedia per Google.
Der Name basiert auf dem gleich auszusprechenden englischen googol (=10100) und soll die Assoziation mit einer ungeheuerlichen Zahl von indizierten Webseiten aufkommen lassen. In Wirklichkeit handelt es sich zur Zeit (Februar 2004) "nur" um etwas über 4 Milliarden (=4 109) [1] (laut Betreiberangaben: 4,28 Mrd.) Seiten. Diese Zahl wiederum nimmt sich noch klein aus gegenüber der geschätzten totalen Größenordnung von Webseiten von an die 500 Milliarden [1] unter Berücksichtigung des Deep Web.
Zusätzlich zu Webseiten lassen sich auch Bilder auffinden. Die Anzahl der indizierten Bilder liegt derzeit bei ca. 880 Millionen. Es können darüber hinaus, durch den Aufkauf der Firma DejaNews, die vorher das Usenet indiziert hatte, ca. 845 Millionen Diskussionbeiträge aus dem Usenet zu über 35.000 Themengebieten durchsucht werden.
Neben den reinen Suchfunktionen verfügt Google über ein redaktionell betreutes Webverzeichnis, welches auf dem Open Directory Project basiert, in dem wichtige und nützliche Webseiten zu allen möglichen Themengebieten katalogisiert werden.
Google betreibt auch eine News-Seite, die permanent über 700 deutsche sowie über 4500 englische Nachrichten-Quellen durchsucht und aktuelle Nachrichten dann nach Relevanz geordnet zusammenstellt. Dabei wird das so genannte Page Ranking- Verfahren angewendet. Zur Zeit befindet sich dieser Dienst noch in der Beta-Phase, ist aber bereits komplett nutzbar. Die jeweiligen Webseiten lauten http://news.google.de bzw. http://news.google.com. Zudem bietet Google eine Suchmaschine an, die sich vollständig auf die Indizierung von Shops spezialisiert hat. Sie wird Froogle genannt und ist unter http://froogle.google.com/ zu finden, zur Zeit nur auf Englisch. Internationale Versionen sollen folgen.
Die Computer von Google bearbeiten zur Zeit pro Tag mehr als 200 Millionen Anfragen. Google könnte aber auch, wegen der hohen Spam-Rate, an Popularität verlieren.
Im Laufe des Jahres 2004 wird Google auch seinen E-Mail-Dienst GMail in Deutschland starten. In den USA ging dieser am 1. April an den Start. Der Dienst, der sich offiziell weiterhin in der Testphase befindet, verspricht seinen Nutzern ein E-Mail-Postfach in der Größe von einem Gigabyte. Im Gegenzug wird die Post elektronisch auf Schlüsselwörter durchscannt, um den Briefen passende Werbung zur Seite zu stellen. Dieses Verfahren hat den Zorn der Datenschützer weltweit entfacht.
Am 01.August 2004 startete die Online-Registrierung für den Börsengang, von dem man sich einen Erlös von 3,3 Milliarden US-Dollar erhofft (Pro Aktie erwartet man einen Betrag zwischen 108 und 135 Dollar)
Table of contents |
2 Werbung, Finanzierung 3 Verwendete Computer 4 Datenschutz 5 Manipulation 6 Gebrauch 7 Sonstiges 8 Siehe auch 9 Literatur 10 Weblinks |
Seitenreihenfolge
Google.de verwendet zur Erstellung der Seitenreihenfolge einen Algorithmus, der die Seite u.a. anhand der Quantität und Qualität der Links bewertet, die zu ihr führen. Das grundsätzliche Page Ranking (etwa: "Seiten mit Rang versehen"; die Methode wurde nach ihrem Erfinder Larry Page benannt) funktioniert im Prinzip nach einer der beiden Formeln:
wobei
- PR(A) der Seitenrang einer Seite A,
- PR(Ti) der Seitenrang der Seiten Ti, i=1..m, von denen ein Link auf die Seite A zeigt,
- C(Ti) die Gesamtanzahl der Links, die von der Seite Ti ausgehen
- d ein Dämpfungsfaktor, mit 0 <= d <= 1 und
- N die Anzahl aller Seiten des Webs
Wie der Algorithmus genau funktioniert bleibt ein Betriebsgeheimnis. Die aufkommende monopolartige Stellung im Markt für Suchmaschinen wird vielfach angesprochen, da Google seine Leistungen auch an andere Suchmaschinen verkauft. (Marktanteile-Quelle: [1]).
Geschäftszahlen | |||
---|---|---|---|
Jahr | Umsatz in Mill. Dollar | Gewinn in Mill. Dollar | |
2003 | 961,9 | 105,6 | |
2002 | 347,8 | 99,7 | |
2001 | 86,4 | 7,00 | |
2000 | 19,1 | -14,7 | |
Das Unternehmen hat seinen Sitz im kalifornischen Mountain View. Es beschäftigt zur Zeit rund 800 Mitarbeiter. Für das Jahr 2004 ist ein Börsengang (IPO) geplant.
Verwendete Computer
Die verwendeten Computer bei Google sind normale Standard-PCs, die sich die Arbeit teilen (Computercluster von etwa 100.000 Rechnern). Sie laufen unter dem Betriebssystem GNU/Linux und werden bei einem Defekt einfach abgeschaltet, so dass die Arbeit anschließend von einem anderen PC erledigt wird. Dieses System erweist sich bei Google als kostengünstige Alternative zu einem Großrechner.
Datenschutz
Die Verwendung von sehr "langlebigen" Cookies und andere Vorwürfe, u.a. das Speichern der "Cookie ID", der IP-Adresse, Zeit, Datum und Inhalt der Suchabfrage sowie der Browser-Konfiguration reichten für Bürgerrechtsgruppe Public Information Research, um Google in den USA für die "Big Brother Award" zu nominieren [1].
Manipulation
Aufgrund seiner bedeutenden Marktposition ist Google Hauptziel von Suchmaschinen-Spamming. Dabei wird versucht, gute Positionen bei möglichst vielen Suchbegriffen (die meist nichts mit dem Angebot des Spammers zu tun haben) zu erzielen. Es werden zum Beispiel Techniken wie Doorway-Pages eingesetzt, bei der dem Suchroboter von Google ein zum Suchbegriff passender Inhalt vorgegaukelt wird, von Google kommende Besucher aber auf eine Seite des Spammers weitergeleitet werden.
Dass sich die Reihenfolge der Treffer bei Google manipulieren lässt, belegt u.a. der Kampf um den vordersten Platz beim Suchbefehl "miserable failure" ("kläglisches Scheitern"). Gegner des amtierenden Präsidenten George W. Bush sorgten durch Einsatz einer Google-Bombe dafür, dass die Webseite des Weißen Hauses mit Bushs Biographie auf Platz 1 landete. Im Gegenzug versuchten andere, Michael Moore dort zu platzieren. Die Plätze wechseln seither gelegentlich.
Durch den Aufbau von sogenannten Linkfarmen können Suchbegriffe bei Google gepusht werden.
Manipulationen, die zum Zweck haben, das Ranking von Websites bei Google zu verbessern, werden auch als Google-Spamming bezeichnet.
Im November 2003 nahm Google eine umfangreiche Anpassung der Bewertungs-Algorithmen vor, mit dem Ziel Manipulationen zu erschweren. Es fand im Anschluss eine erhebliche Verschiebung des Page Ranks statt. Vermeintlich hochoptimierte Seiten wurden schlechter bewertet, weniger optimierte Seiten stiegen im Page Rank. Nach sehr schlechten Praxiserfahrungen und zahlreichen Protesten wurden die Änderungen der Algorithmen nach kurzer Zeit weitestgehend wieder rückgängig gemacht bzw. überarbeitet.
Die einfache Suche verwendet bei Eingaben standardmäßig die boolesche Operatoren UND beim Eintrag mehrerer Begriffe. Es wird dabei nach allen Dokumenten gesucht, in denen diese Begriffe vorkommen. Gewichtet wird, neben dem Page Rank, meist danach, wo die Begriffe stehen - ob im Title einer Seite, dem Dokumenten-Namen oder Verzeichnis, einer Überschrift etc.
Neben der Boolschen Standardverknüpfung UND kann auch ein boolesches ODER ("OR" wahlweise auch"|") verwendet werden. Suchbeispiel: Strand OR Beach. Eine sowohl-als-auch Anweisung.
Um die Suche weiter einzugrenzen kann man nach exakten Phrasen suchen. Die Suchbegriffe tauchen dann nicht wahllos im Dokument auf, sondern müssen in einer bestimmten Anordnung vorhanden sein. Exakte Suchphrasen werden mit Anführungszeichen kenntlich gemacht. Suchbeispiel: "Bearbeiten von Google". Es werden keine Dokumente gesucht, in denen irgendwo das Wort "Bearbeiten" und irgendwo das Wort "Google" steht, sondern nur solche, in denen die Wörter in dieser Reihenfolge vorkommen. Wahlweise kann auch für ein Wort ein Platzhalter, kenntlich gemacht durch ein Sternchen, gesetzt werden.
Als weiteres Ausschlusskriterium kann ein Minuszeichen "'-\'" Verwendung finden. Suchbeispiel: Hannibal - Lector. Sucht nach einem antiken Feldherrn und schließt aber Seiten aus, in denen der Name in Verbindung mit einer Filmfigur namens "Lector" steht....
Hinweise:
Es kann zusätzlich zu dieser einfachen Such-Syntax eine erweitete Syntax in die Suchmaske eingegeben, bzw. größtenteils auch über die "erweiterte Suche" zusammengeklick werden. Folgende, teils undokumentierte Schlüsselbegriffe sind derzeit bekannt. Diese Schlüsselbegriffe werden durch einen Doppelpunkt ":" gekennzeichnet.
Gebrauch
Einfache Benutzung
Neben der einfachen Suche, steht noch eine weitere Suchmaske (erweiterte Suche) zur Verfügung, über welche bestimmte Filter angewendet werden können. Erweiterte Benutzung
'''
Die angewendeten Suchformeln lassen sich auch in Form der URL, die Google bei einer Suche ausgibt speichern bzw. wiederholen und verlinken.
Google API
Google veröffentlichte im Frühling 2002 die Google Web API , über die es registrierten Entwicklern möglich ist, eigene Anwendungen bzw. Schnittstellen zu schreiben, die den Datenbestand von Google abfragen. Die Abfragen sind pro registriertem Anwender auf 1000 pro Tag begrenzt. Es gibt inzwischen eine Vielzahl von Anwendungen, die auf dieser API aufbauen und von Anwendern per eigenem Developer Key freigeschaltet werden können.
Sonstiges
Zunächst im Usenet und mittlerweile auch in der Alltagssprache hat sich das Verb googeln (inzwischen sogar gugeln) für die Internetsuche mit Google eingebürgert.
Google Lab
Google arbeitet ständig an Neuerungen und weiteren Features, die man unter http://labs.google.com testen kann. In kurzen Zeitabständen werden auch Statistiken über gerade aktuelle Suchbegriffe veröffentlicht (so genannte Zeitgeist-Statistiken, siehe [1]).
Google Blog
Zudem unterhält Google auch ein so genanntes Weblog, das hauptsächlich Erlebnisse seiner Mitarbeiter enthält. Es ist unter http://www.google.com/googleblog einsehbar.
Google Whack
Als Google Whack bezeichnet man eine Suche nach zwei Wörtern, die, in die Suchmaschine Google ohne Anführungszeichen eingegeben, genau ein Ergebnis liefert. Manche User haben einen regelrechten Sport entwickelt, solche Wörter zu finden. Eine Punkte-Bewertung wird manchmal vorgenommen, indem die Treffer-Anzahl der Suche nach den einzelnen Wörtern multipliziert wird. Je höher das Ergebnis, desto "besser" ist der Google Whack. Im allgemeinen bleibt die Kombination jedoch nicht lange ein Google Whack, da es sobald es einmal entdeckt ist, in diversen Foren o. ä. erwähnt wird und dort ebenfalls von Google gefunden wird. Die Webseite http://www.googlewhack.com befasst sich ausführlich mit dem Phänomen.
Google Doodles
Seit Mitte 1999 existiert die Tradition der Google Doodles. Damit wird die Veränderung des Google-Logos auf der Startseite in Anlehnung an aktuelle und/oder wiederkehrende Ereignisse beschrieben. Bisher sind ca. 150 Logos erstellt worden. Ein Verzeichnis der bisherigen Google Doodles befindet sich unter http://www.google.com/holidaylogos.html . Jeder User hat die Möglichkeit, neue Vorschläge einzubringen. Die E-Mail-Adresse dafür lautet mailto:doodle@google.com.
Siehe auch
Suchmaschinen-Spamming, Google-Bombe, Gesponserte Links, Altavista, Lycos, Wikipedia:Darwikinismus, Wikipedia:Googles Lieblinge
Literatur
Weblinks