SEMSEO: Wie ticken Suchmaschinen?

von Rouven am 26. Februar 2010

Nach einer Vortragsreihe “externer” Referenten sind nun die Suchmaschinen selbst am Zug. John Müller (Webmaster Trend Analyst bei Google) und Andreas Bode (Search Technology Center Bing) möchten den Teilnehmern nun die Vorgehens- und Arbeitsweisen der Suchmaschinen näher bringen.

Google

Den Anfang macht John Mueller zum Thema Crawling und Indexing.

Beschrieben wird Google’s indexing pipeline.

Der Weg von URLs zum Inhalt läuft nach Bekanntwerden der URLs (z.B. über Sitemaps) über den Scheduler, also eine Art Warteschlange. Diese Warteschlange wird Stück für Stück vom Googlebot gecrawled. Anschließend geschieht die eigentliche Indizierung durch den Parser, der sich den Content anguckt, neue URLs neu in den Scheduler einspeist und die eigentlichen Inhalte in den Index einbaut.

Mögliche Probleme beginnen beim Scheduler, der z.B. die Indizierung verlangsamt, wenn der abgefragte Server zu langsam ist. Der Crawler kann in Zeitlimits laufen (zuviel vom Scheduler gekommen), oder aber der Crawler stößt auf Fehlerseiten (z.B. 404). Ein Ausschluss per robots.txt ist natürlich auch eine Möglichkeit, das Crawlen zu verhindern.

Google empfiehlt zur optimalen Crawling-Diagnose über die bekannten Google Webmaster Tools – soweit also nichts neues.

Probleme im Indexing-Schritt (also nach dem Crawlen) können neben erkanntem Spam und “noindex” auch Duplicate Content sein – die Daten gelangen dann nicht in den Index und werden verworfen.

Bing

Das Wort übernimmt jetzt Andreas Bode von Bing.

Zu den Herausforderungen beim Suchen nennt Andreas, dass nur etwa 25% der Suchen erfolgreich verlaufen. Dafür spricht, dass in 42% aller Sessions die Suchbefehle verändert werden (Stichwort search refinements). Ferner sollen 5% der Suchen für 50% der gesamten Suchzeit verantwortlich sein – manche Suchen sind also sehr langwierig.

Bing versucht daher, bessere und präzisere Relevanz zu bieten. Gezeigt werden lokale Suchergebnisse, die man auch von Google kennt. “Es geht nicht immer nur um die zehn blauen Links.”

Auch der Bereich “Direkte Antworten” lässt sich grob als Bings Universal Search-Engagement beschreiben. Beispielsweise Kinozeiten oder Wetterprognosen. Auch die Vielzahl an Gallerien (Videos und Bilder in den verschiedensten Darstellungsmodi) gehört dazu.

Bings Produktsuche stellt eine Integration mit Ciao dar.

Die Index-Qualität teilt Bode in Quantität, Aktualität, Popularität und Qualität ein.

Quantität: Wird der Markt genügend abgedeckt? Begrenzte Größe erfordert Kompromisse und Innovation.

Aktualität: Wie schnell nach der Veröffentlichung sind die Dokumente indiziert? Crawlen – so häufig wie nötig, so wenig wie möglich.

Popularität: Sind die Seiten im Index, nach denen gesucht wird?

Qualität: Spam, Junk, Malware filtern. Privatsphären respektieren. Präzise Klassifikatoren erforderlich.

Suchanfragenanalyse

  • 10-15% der Suchanfragen sind falsch geschrieben
  • Fehlende Buchstaben, Fehlgriffe auf der Tastatur
  • Echte Rechtschreibfehler
  • Morphologische oder linguistische Variationen
  • Abkürzungen, Umfangssprache usw.
  • Synonyme

Ranking

Bing setzt auf neuronale Netze (ein maschinelles Lernverfahren), die mit hunderttausenden von Lernbeispielen trainiert werden – siehe hierzu auch Beitrag zum Vortrag von Prof. Dr. Mario Fischer hinsichtlich Algorithmenanpassungen. Die menschliche Bewertung sei trotz hoher Kosten nicht ersetzbar.

Mögliche Signale sind altbekannt: URL, Anchor, Title, Body, Klicks, Sprache, Markt usw.

Q & A

Q: Gibt es Leute bei Google, die alle Algorithmen kennen?
A: Es müssen viele Teilsysteme optimiert werden, sodass einzelne Leute tendenziell eher an ihren Teilbereichen arbeiten.

Q: Wie wichtig ist das Thema Aktualität bei Bing?
A: Sehr wichtig. Wie hoch die Gewichtung ist, kann nicht pauschal gesagt werden. Hängt auch von den menschlichen Expertenbewertungen ab, die das neuronale Netz trainieren.

Q: Wie wichtig ist das Alter einer Domain aus Trust-Sicht?
A: Lässt sich nicht pauschalisieren. Es spielen viele andere Faktoren eine Rolle als nur das bloße Domain-Alter. Auch neue Domains können gut ranken.

Q: Welchen Stellenwert haben Mikroformate?
A: Beim Parsen können diese Mikroformate ausgewertet werden, was Google und Bing beide tun. Einerseits eine Hilfe für den Nutzer, andererseits helfen sie den Suchmaschinen auch dabei, zu verstehen, worum sich die Seite dreht.

Q: Wie wichtig werden personalisierte Suchergebnisse?
A (Bing): Im Moment steht der Schutz der Privatsphäre im Vordergrund, aber personalisierte Suchergebnisse können einen hohen Mehrwert bieten.
A (Google): Hängt davon ab, wie es gemacht wird. Jeder Mensch möchte andere Resultate haben.

Stichworte: , ,

Ein Kommentar zu "SEMSEO: Wie ticken Suchmaschinen?"

Daniel von Seospot.de am 26. Februar 2010

Hallo,
ein sehr interessanter Artikel ! Es ist schon logisch das Google selbst nur wenigen Mitarbeitern die wichtigen Dinge verrät. Der Goolge Algorhytmus ist ja sowas wie das Cocacola Rezept. Viele Grüße Daniel

Kommentar zu "SEMSEO: Wie ticken Suchmaschinen?" schreiben