SES: Duplicate Content Probleme
Nach der Mittagspause ging es direkt weiter mit den Sessions. In der Folgenden wurde die Problematik bezüglich des sog. “Duplicate Content Issues” behandelt, mit welchem vor allem Webmaster größerer Seiten zu kämpfen haben. Christoph Burseg, Markus Hövener und Ulrich Lutz widmeten sich während der Session dieser Thematik. Durch die Vorträge führte in diesem Falle Herbert Hartung. Welche facts gibts aktuell zur DC Thematik und macht dieser doppelte Content wirklich derart Probleme, wie es vereinzelt im SEO-Web geschildert wird? Oder einfach mal prägnanter und provokanter gefragt? Gibt es denn Penalties für vorhandenen DC? Diese und weitere Fragen versuchen die Experten des Panels zu beantworten.
Antworten von Google
Den Anfang der Session machte Ulrich Lutz von Google, der eigentlich am Besten über diese Problematik bescheid wissen sollte. Zunächst einmal zeigte Ulrich, was DC denn eigentlich ist. Laut Google sind DCs “…umfangreiche Contentblöcke, die auf mehreren Seiten identisch sind…”. Diese Doubletten können vor allem durch unterschiedliche Adressen wie beispeilsweise index.php, home.php, id?.. usw. die alle auf den selben Inhalt verweisen, entstehen. Welche Probleme gibts mit DC? Laut Ulrich kann DC zu user unfreundlichen urls führen, zu einer nicht validierbaren Feststellung der originären Quelle, zu einer enormen Rechenlast für Google selbst, da der identische Content mehrmals indexiert werden müsste und, und, und. Die Liste von Problemen für Google scheint sehr ausführlich zu sein. Welche Arten von DC gibt es. Diverse, so die Auffassung von dem Googler. Beispielsweise sind seitens Herrn Lutz Druckvorschauseiten, URL-Parameter und Produktdetailseiten genannt worden.
Wie kann ich dem Problem aus dem Weg gehen? Laut “Lutz” sollte man sich überlegen, wie eine prägnante unique URL generiert werden kann. Enthält die gewählte URL, alle notwendigen Infos? Desweiteren ist es ratsam, eine Sitemap zu erstellen und Google darauf zugreifen zu lassen. Auch kann man in den Webmastertools von Google die originäre Domain (www oder http) festlegen, um eine solche DC Problematik auszuschließen. Auch bietet sich eine 301 Weiterleitung an, um identische Inhalte einfach auf die richtige Seite verweisen zu lassen. Vor allem beim Domainumzug kann man damit wunderbar arbeiten. Recht neu ist die Möglichkeit der domaininternen Weiterleitung des canonical tags. Oft bereits im Rahmen anderer SES Sessions erwähnt.
Mit dem “can-tag” sage ich Google, wo denn wirklich die originäre Seite zu dem angezeigten Inhalt auf meiner Seite zu finden ist. Trust und Linkjuice gehen dann vollends an die originäre Quelle, sofern man richtig arbeitet. Also durchaus sinnvoll, aber wie bereits in anderen Sessions auch von Mediadonis angsprochen: “Vorsicht!” Canonical kann auch viel falsch machen. Interessant war auch die Aussage, dass das “can-tag” nur die Indexierung beeinflusst, nicht das Crawlen. Ok, good to know. Weitere Seitenverweise des Google-Mitarbeiters waren folgende:
- Wie es bereits jeder weiß, gilt dieses Tag nur für Urls innerhalb derselben Domain.
- Der Inhalt sollte Äquivalent sein.
- Google empfiehlt absolute URLs.
- Can-Tag muss nicht zwingend von Google verfolgt werden.
Zum Ende seines Vortrages verwies Herr Lutz auf die Möglichkeit DC mit einer robots.txt zu vermeiden. Dies ist aber nich zu empfehlen, da die Linkpower, die evtl. eine Doublette erhält aufgrund von noindex nicht an die originäre Quelle weitergegeben werden kann, da Google ja nicht den Inhalt abgleichen kann. Das war der Vortrag des Googlers.
Herr Burseg zu duplicate Content
Anschließend kam erneut Christoph Burseg auf die Bühne und zeichnete seine Sicht der Dinge zur Thematik DC. Hierbei verwies er darauf, dass Google News und alle Zeitungsportale in Deutschland eigentlich sehr viel DC produzieren und trotzdem gut in Google bewertet werden. So releasen Bild, Welt, Spiegel usw. recht zeitnah die selben Nachrichtenticker von dpa und Co. und ranken damit auch noch wunderbar. So stellte er eine eher rethorische Frage, warum denn die Newsportale trotzdem ranken und andere Seiten mit einer ähnlichen DC-variante eben nicht. Burseg geht, davon aus, dass die DC-Algos und Filter im nächsten Jahr evtl. nachjustiert werden. In welche Richtung bleibt offen. Im Anschluss an die nette indirekte Frage an Google zeigte Christoph zahlreiche Beispiele von DC in den Google-SERPS: Loginseiten von CMS Portalen, Bildgalerien, “Paginierung” uvm. Danach sprach auch er erneut die falsche Verwendung des can-tags an, welches ich jedoch nicht noch einmal explizit niederschreiben werde. Ihr kennt es ja bereits.
Duplicate Content und wie finde ich die Probleme
Nach Christoph kam Markus Hövener an das Rednerpult. Auch er stellte noch einmal, oder schon wieder, die verschiedenen Versionen von DC-Fällen dar. Im kurzen recap:
- session ids in den parametern,
- www vs. http www2 vs www1 usw.
- Druckvorschau
- und eine stets erweiterbare Liste :-)
Danach wendete sich Markus der Frage zu, wie man denn DC erkennen kann, bzw. wie ich Doubletten aufspühren kann. Einfach mal eine Phrase aus der Website kopieren in Google einfügen und sich über die Kopien “freuen”. Oftmals ist man überrascht, wo alles DC vorhanden sein kann. Dies kann ich euch nur zu gut aus eigener Erfahrung bestätigen. Wer Wordpress benutzt, weiß was ich meine (Kategorien, Tags, Paginationen,…). Auch verwies er darauf, dass vor allem Onlineshops mit DC zu kämpfen haben. Eine weitere Methode ist die Indexabfrage bei Google. Einfach mal die eigene domain “www.domain.de” eingeben und hoffen, dass die richtige Seite aufgelistet wird. Wenn nicht, glaubt Google, dass die originäre Domain woanders ist. Thats it. Anschließend gab eine Indexabfrage zu Domain logiprint.com, welche anscheinend auch ein kleines DC problem habt. Testet es doch einfach mal und schildert eure Ergebnisse in den Comments. Also für alle Einfach site:logoprint.com und anschließend site:logoprint.com site: -inurl:http in die Suchmaske hauen und analysieren. Viel Spaß. Ein Software-Tipp, wie man kopierte Inhalte finden kann, gabs von Markus zum Schluss seiner Rede gratis dazu. Das Tool nennt sich un.co.ver und wird von Textbroker bereitgestellt.
Den Schluss der Session machte eine Fragestunde, die vor allem den Herrn Lutz von Google sehr stark beanspruchte. Gut so!
Wir fragen, Google antwortet
Frage: Wie lange sollte eine 301er stehen bleiben.
Antwort von Googler: Mind. 1/2 Jahr.
Frage: Vererbung der Linkpower durch das can-tag
Googler: Wie ein 301er. Linkjuice wird weitergegeben! Also keine Panik, mit dem can-tag. Links gehen nicht verloren.
Frage: Wie viel muss ein Text verändert werden, damit er nicht mehr als DC erkannt wird. (Geile Frage!)
Googler: Nunja, schwer zu sagen. Keine mathematische Angabe möglich. Man solle seinen “Verstand” benutzen. Mehrwert für Nutzer sollte gegeben sein. (War ja klar die Antwort!)
Frage: Can-Tag auch domainübergreifen in der Zukunft?
Googler: Durchaus sehr gut vorstellbar. (Yeah ich freu mich auf die Spielereien!)
Frage: Werden mehrere 301er hintereinander gecrawlt und wird richtig indexiert und vererbt
Googler: Unterschiedlich. Kommt auf den Fall und die Domain an. Selbiges bestätigte dies auch Christoph von TRG. Also ein paar 301er funktionieren, aber nicht übertreiben.
Frage: Gibt es Seiten die DC versehentlich produziert haben und “abgestraft wurden”.
Googler: Eine direkte Abstrafung findet nicht statt. Einwurf Christoph: Ne, man verliert nur das Ranking (Genau!)
So, das war es dann auch schon wieder von dieser Session. Ich hoffe, die mehr oder minder wortgetreu transkribierten Fragen waren nach eurem Geschmack. Ich denke, ein paar Worte eines Googlers schaden nicht.



[...] seoAT: Duplicate Content Probleme – SES Berlin 2009 –LINK– [...]
Nicht böse sein, aber kann das nochmal jemand fix korrekturlesen? ;*[ So Passagen sind wirklich nicht lesbar und davon hat es mehr als eine:
“Beispielsweise seien Herr Druckvorschauseiten, URL-Parameter und Produktdetailseiten genannt.”
Inhaltlich ansonsten interessant.
Hi, habs grad eben im ICE nochmal kurz berichtigt. Sorry für die vielen Tipp und Schreibfehler aber hey, thats liveblogging. Da kann ich nicht noch groß redigieren sorry. Muss recht flott gehen, da das Programm sehr straff ist und ich euch keine infos vorenthalten möchte. Also nochmal sorry für die Orthographie aber thats live ;-)
Gruß
Andreas
Mich hätte ja interessiert, was der Herr von Google zum Thema DC bei Nachrichten so zu sagen gehabt hätte, wenn er denn diesbezüglich befragt worden ist.
Ansonsten vielen Dank für die Berichte. War eine schöne Ergänzung zum Twitterwall von Mario Fischer.
Sauberer Recap, herzlichen Dank!
Mir fällt auf, dass scheinbar nur über “internen DC” gesprochen wurde. Der lässt sich ja zumindest bei Sites von überschaubarer Größe relativ leicht regeln. Mich hätte auch die Problematik von DC auf verschiedenen Domains interessiert.
Proxy Hacking, anyone?
Ich habe gerade heute einen Artikel über DC geschrieben, der sich auf eben jenen “externen” bezieht und der meine Erfahrungen schildert:
http://www.marketingfeed.de/zufaelliger-spam-tipps-sicheres-google-ranking
Grüße,
Jonathan