Duplicate Content und der Canonical-Tag
Zurzeit beschäftige ich mich wieder verstärkt mit dem Thema Suchmaschinenoptimierung. Ein großes Thema dabei ist der so genannte “Duplicate Content”. Also wenn Inhalt einer Webseite an anderer Stelle identisch oder sehr ähnlich nochmal auftaucht.
Welche Arten von Duplicate Content gibt es?
Duplicate Content (DC) kann grundsätzlich in zwei verschiedene Typen aufgeteilt werden. Externen DC und internen DC.
Externer Duplicate-Content taucht häufig bei Produktbeschreibungen auf die vom Hersteller rausgegeben und von vielen Anbietern verwendet werden. Es handelt sich also um gleichen Inhalt auf mehreren voneinander unabhängigen Webseiten.
Interner Duplicate-Content hingegen beinhaltet lediglich Unterseiten einer Webpräsenz. Jetzt mag der Eine oder Andere denken “Doppelten Inhalt auf der eigenen Webseite? So ein Quatsch! Ich leg doch nicht eine Seite zweimal an!” – Mag sein, aber der Content einer Webseite erscheint aus Sicht von Suchmaschinen ganz schnell mindestens doppelt.
- Haben Sie eine Druckversion Ihrer Seiten? => DC
- Sind Ihre Webinhalte unter verschiedenartigen Links zu erreichen? http://www.beispiel.de, www.beispiel.de/ oder www.beispiel.de/index.htm sind verschiedene Seiten! => DC
- Sind Ihre Newsartikel in mehreren Archiven zu finden? z.B. Im Archiv “News – Bayern” und im Archiv “News – August”. Viele Content-Management-Systeme (CMS) bauen die Linkstruktur Archivabhängig. Der Artikel ist dann z.B. unter /Archiv/August/Newsartikel.htm und /Archiv/Bayern/Newsartikel.htm zu erreichen. => DC
- Die Königsklasse: Haben Sie dynamische Webseiten? Session-IDs? Listen die auf- und absteigend sortiert werden können und daher mit unterschiedlichen Parametern arbeiten? => DC
Was macht Google mit internem Duplicate Content?
Nahezu auf jeder etwas größeren Webseite existiert also interner Duplicate Content.
Google rankt nur die aus ihrer Sicht wichtigste oder beste Version. So kann es also passieren, dass die Printversion als Top-Suchergebnis erscheint. Mit all den Nachteilen wie dem fehlenden Layout oder dem fehlenden Menü. Was für eine grausame Vorstellung. Potentielle Kunden/Interessenten kommen auf die Seite finden aber kein Menü und verabschieden sich wieder.
Ebenso ärgerlich ist die vergeudete Linkpower wenn externe Seiten auf verschiedene “Versionen” der Seite verlinken. Ein externer Link auf http://www.philipp-stenglin.de/blog/ wird nicht für http://www.philipp-stenglin.de/?page_id=4 gewertet. Dabei ist die Seite die gleiche!
Methoden gegen Duplicate Content
Je nach Art des DC-Problems gibt es verschiedene Methoden dem Problem zu begegnen. In unserem Fall 1.) wurde die Printversion einer Seite oft mit Hilfe einer entsprechenden Anweisung in der robots.txt oder dem noindex-Meta-Tag aus dem Index genommen. Der Webmaster hat den Suchmaschinen also verboten diese Version der Seite zu indizieren, sodass Suchmaschinen nur noch die Originalseite zur Verfügung steht. Dieses Vorgehen löst aber nicht das Problem verlorener Linkpower.
Mit Hilfe einer 301-Weiterleitung könnte man z.B. standardmäßig alle Anfragen auf http://beispiel.de auf http://www.beispiel.de/ umleiten. Und so für eine einheitliche Linkform sorgen. Diese Möglichkeit sollte bevorzugt verwendet werden.
Aber auch diese Möglichkeit stößt spätestens bei dynamischen Seiten mit verschiedenen Parametern an Ihre Grenze. Hier soll schließlich nichts umgeleitet werden, die Parameter sollen von der Seite schließlich ausgewertet und berücksichtigt werden. Die drei großen Suchmaschinenbetreiber Google, Yahoo und Microsoft haben nun seit Februar 2009 einen neuen Tag veröffentlich um dem internen DC-Problem zu begegnen.
Der Canonical-Tag
<link rel=”canonical” href=”http://beispiel.de/list.htm”/>
Dieser Tag fungiert nicht als Weiterleitung sondern als eine Art Empfehlung gegenüber den Suchmaschinen. Gelangt der Crawler über einen Link z.b. auf http://beispiel.de/list.htm?sort=asc so teilt der Canonical-Tag dem Crawler mit, dass die angesteuerte Seite zu der im Tag angegebenen Seite gehört und der Crawler doch bitte diese Standardseite berücksichtigen möchte.

So funktioniert der Canonical-Tag: Die Varianten verweisen die Suchmaschine an die Standardseite.
Ein Beispiel direkt von meiner Seite:
Ich habe ein Plugin für die Breadcrump-Navigation installiert (siehe oben in der Mitte, unterhalb des Banners) die der Orientierung der User dienen soll. Leider versteht das Plugin die sprechenden URLs nicht die Mittels mod-rewrite ergzeugt wurden. Der Link auf die Blog-Standardseite führt also auf die von Wordpress standardmäßig vergebene ID-URL http://www.philipp-stenglin.de/?page_id=4. Das Canonical-Tag weißt nun aber darauf hin, dass diese Seite eigentlich unter http://www.philipp-stenglin.de/blog zu finden ist. Dieses Problem wäre aber auch per 301-Weiterleitung prima zu lösen gewesen.
Das Canonical-Tag ist nur für internen Duplicat-Content zu verwenden. Der Hinweis auf eine Standardseite funktioniert nur, wenn diese Seite auf der gleichen Domain liegt wie die Varianten. Subdomains werden aber auch berücksichtigt!
Dieser Tag soll auch die Linkpower externer Links auf die Standardseite lenken. Wer jetzt glaubt Linkpower von eher unwichtigen Unterseiten so auf eine Wunschseite lenken zu können irrt. Diese Empfehlung wird nur bei identischem Inhalt der Varianten und der Standardseite auch angenommen. Kleinere Abweichungen werden allerdings akzeptiert.
Und was ist mit externem Duplicate Content?
Da der Canonical-Tag wie erwähnt nur innerhalt einer Top-Level-Domain funktioniert ist das Problem des externen DC nicht behoben. Für Pressemitteilungen oder zur Verwendung freigegebenen Content bleibt die Empfehlung stets einen Link auf das Original bzw. die Quelle zu fordern. Gegen dreisten Content-Diebstahl nutzt das freilich auch nicht.
Weiterführende Links:
- Google Blog: Duplicate-Content aufgrund von Scraper
- Google Blog: Deftly dealing with duplicate-content (Englisch)
- Matt Cuts über den canonical-link (Englisch)
Ähnliche Blogartikel:













Sehr schöner Artikel!
Vielleicht doch mal bei Knol anklopfen?
Leave your response!