SEMSEO: Was ist Latent Semantische Optimierung (LSO)?
Matthias Schneider (Semager) bringt den Teilnehmern der SEMSEO nun den Begriff der Latent Semantischen Optimierung (latent semantic optimization, LSO) näher.
Wie lassen sich Synonyme berechnen?
1. Folksonomy / Social Tagging
Eine durch Benutzer erzeugte Stichwortsammlung. Sehr genau, da menschlich generiert, allerdings nicht generisch anwendbar und manipulierbar. Beispiele: Mr. Wrong, del.icio.us.
2. Clustern
Wörter in Titeln mathematisch gruppieren. Ist relativ schnell, aber ungenau, da nicht konkret semantisch sondern eben nur geclustert. Beispiel: Clusty.com.
3. HAL (Hyperspace Analogue to Language)
Jedes Wort wird durch die Gesamtheit seiner Nachbarschaften im Kontext repräsentiert, oder einfacher: Wörter mit ähnlicher Bedeutung erscheinen in ähnlichen Sätzen. Hohe semantische Nähe, Ergebnisse nahe LSI.
4. LSI (Latent Semantic Indexing)
Beispiel: In Webseiten, bei denen es um “Golf” geht, wird oft “VW” und “Volkswagen” genannt. Webseiten, in denen zwar “Golf” genannt wird, aber in anderem Zusammenhang (stattdessen mit “Sport” und “Spielen”), sind semantisch fern zu diesen. Erstere wären semantisch nah. Vorteil: sehr hohe semantische Nähe. Nachteile: längere Such- und Analysezeiten und eben nur latent (deswegen auch nicht synonym).
So lässt sich ermitteln, ob ein Thema in einen bestimmten Themenbereich fällt. Auch Abstände zwischen verschiedenen Themen (sowie somit auch Überschneidungen) lassen sich ermitteln.


