Campixx: Interview mit Stephan Sommer-Schulz

In seinem Campixx Vortrag „Better Backlinking – Semantische Kategorisierung von Websites“ hat Stephan Sommer-Schulz das Tool NerdByNature.Net vorgestellt. Ich durfte Stephan zu seinem Tool interviewen:

Wie bist du auf die Idee für NerdByNature.Net gekommen?

Ich verdiene meine Brötchen als geschäftsführender Gesellschafter der W3 Solutions GmbH. Unser Business sind Suchmaschinen und zwar nicht die Optimierung, sondern die eigentliche Technik hinter der Suche. Wir haben z.B. die Online-Suchen des Hamburger Abendblatts, der Berliner Morgenpost, der Computerbild und Autobild mit unserem Produkt „W3 SiteSearch“ realisiert.

Daneben führen wir derzeit ein Forschungsprojekt (von EU und Bund finanziert) durch, mit dem Ziel eine Meme-Suche zu erstellen, also eine Suchmaschine, die in der Lage ist den Inhalt von Webseiten zu erkennen und diese Information in die Suche mit einfließen zu lassen.

Mit diesem Background war der Schritt, eine weltweite Kategorisierung von Websites durchzuführen nicht mehr allzu groß.

Welches Ziel verfolgst du mit dem Projekt?

Das Primärziel ist der Aufbau einer neuen Suchmaschine, die nicht nur Suchtreffer in Form von Webseiten zurückliefert, sondern auch Kategorien und Themen, auf die der User seine Suche dann sinnvoll einschränken kann. Damit ein User über eine Suchmaschine relevante Artikel findet, muss er sich mehr und mehr überlegen, welche Begriffe er sucht und wie er irrelevante Treffer ausblenden kann. Diese „Logik“ wollen wir weg vom User, hin zum Server verlagern. Die Kategorien und Themen geben den Suchenden die Möglichkeit schon bei der ersten Suchanfrage die Treffermenge auf das gesuchte Thema einzuschränken.

Es gibt aber auch weitere Ziele des Projektes. So denken wir derzeit laut darüber nach die Backlink-Datenbank und die Kategorisierung von Websites als kostenpflichtigen Service zur Verfügung zu stellen. Ob wir diesen Schritt alleine oder mit Partnern gehen ist allerdings noch ungewiss.

Woher  nimmst du die Daten für das Tool?

Nun, erst einmal crawlen wir das Netz. Derzeit konzentrieren wir uns noch auf .de, .at und .ch Domains, aber das wird sich bald ändern. Wir schauen dabei sehr genau auf die Verlinkung der erfassten Webseiten und eben auch auf deren Inhalte, sowie die Linktexte. Außerdem holen wir noch Daten aus Webverzeichnissen wie Yahoo und DMOZ.

Dein Tool kategorisiert Inhalte von Websites. Wozu ist das hilfreich? Wobei kann mir das Tool beim „Better Backlinking“ helfen?

Wie oben schon erwähnt sind die Kategorien das Key-Feature unserer neuen Meme-Suche. Daneben gibt es natürlich noch andere Anwendungsfälle. So sind Kenntnisse über den Inhalt und die Kategorie von Webseiten z.B. für Affiliate-Netzwerke genauso interessant wie für SEO-Dienstleister oder soziale Netzwerke.

In aller Munde sind ja derzeit Aussagen von Google die Suchergebnisse zu verbessern, indem inhaltlich sinnvolle Seiten angezeigt und andere ausgeblendet werden sollen. Die Kernfrage die sich jetzt stellt ist: „Wie erkennt Google denn den Sinn und die Sinnhaftigkeit von Inhalten und Webseiten? Wer ist betroffen?“ Ich habe versucht in meiner Präsentation ein paar Wege aufzuzeigen wie dies geschehen kann, also z.B. über manuelle Kategorisierung (Stichwort Praktikanten :-)), mit Ontologien, über Verzeichnisdienste wie DMOZ, über den Webgraphen und natürlich mit semantischen Inhaltsanalysen. Gerade die letzten drei Punkte sind für eine vollautomatische Lösung der Königsweg und werden sicherlich auch von Google eingesetzt, es sei denn die kochen doch nicht mehr mit Wasser … Wenn SEO-Dienstleister also in Zukunft sinnvolles Backlinking betreiben wollen, dann kommen sie um semantische Betrachtungen der Websites über kurz oder lang nicht mehr herum.

Nach welchem Schema hast du die Kategorien festgelegt?

Frei Schnauze. Nein, im Ernst: Die Kategorien müssen immer auf den jeweiligen Anwendungsfall, sprich das betrachtete Umfeld passen. Das Tool kennt derzeit über 200 Kategorien für die thematische Einteilung allgemeiner Websites. Auch das wird noch nicht ausreichen, ist aber ein Anfang. Da man normalen Usern aber keine 200 Kategorien vorsetzen kann, haben wir eine übergeordnete Hierarchiestufe geschaffen, die aus ca. 20 Oberkategorien besteht und in die sich alle Websites einfügen lassen. Inspiriert bei der Zusammenstellung der Kategorien wurden wir von DMOZ, Yahoo, Amazon und ebay. Die Festlegung ist übrigens ein fließender Prozess. Wir werden das System sicher noch optimieren, erweitern oder verkleinern, je nachdem wie sinnvoll uns neue Einteilungen erscheinen.

NerdByNature.Net ist übrigens so angelegt, dass mit mehreren Kategoriesystemen gearbeitet werden kann, je nach Einsatzgebiet.

Man kann mit NerdByNature.Net seine Links auch geographisch sortieren. „Russenlinks“ kann man so schnell aufdecken. Wofür ist diese Funktion noch gedacht?

Viele der Backlinkfunktionen die NerdByNature.Net bietet werden nicht unmittelbar für die Kategorisierung benötigt, sondern für zusätzliche Aufgaben, wie z.B. die Erkennung von Suchmaschinen-Spam, SEO-Clustern und Doorway-Pages. Wir wollen nicht nur das Thema einer Site erfassen, sondern auch Aussagen über deren Qualität (Glaubwürdigkeit) treffen können.

Sind in Zukunft weitere Funktionen für das Tool geplant?

Als nächstes soll erst einmal der Datenbestand erweitert werden. D.h. Toplevel-Domains wie .com, .net und .org sind die nächsten, deren Sites zum Webgraph hinzugefügt werden sollen. Auf der funktionalen Seite werden die einzelnen Features weiter ausgebaut, wie z.B. „Wenn Site XY zu Kategorie Z gehört, welche der verlinkenden Sites verbergen sich hinter Z?“. Es wird funktional zunächst in die Tiefe gehen, bestehende Features werden verfeinert und weiter ausgebaut, Querverbindungen der einzelnen Ausgaben sollen nutzbar gemacht werden.

Vielen Dank für das Interview und weiterhin viel Erfolg! Wer Interesse an der Präsentation des Vortrags hat findet sie hier.