Canonical-Tag: Das steckt hinter kanonischen URLs

Wenn Suchmaschinen Website-Inhalte indexieren, folgen sie vor allem zwei Grundsätzen: Zum einen muss jede Seite, die in den Index aufgenommen werden soll, mindestens eine relevante Suchanfrage beantworten können. Zum anderen darf der Inhalt einer Seite nur unter einen einzigen URL abrufbar sein – andernfalls wird er als Duplicate Content (dt. doppelter Inhalt) eingestuft, was zur Folge hat, dass die betreffende Seite nicht in den Index gelangt bzw. aus diesem verschwindet. Das stellt beispielsweise solche Webprojekte vor eine Herausforderung, die unter unterschiedlichen länderspezifischen Domains nahezu identische Inhalte in derselben Sprache anbieten (bspw. Shops, mit Seiten für Deutschland, Österreich und die Schweiz). Produktbeschreibungen unterscheiden sich dort oft nur hinsichtlich Währung und Versandkosten. Und ganz allgemein besteht für viele Onlineshops die Gefahr des Duplicate Contents, wenn sie von einem Produkt mehrere Varianten anbieten und sich die Beschreibung nur hinsichtlich einzelner Worte unterscheidet. Beispielsweise Schuhe, die in mehreren Farbvarianten angeboten werden.

Eine mögliche Lösung für dieses Problem ist das sogenannte Canonical-Tag, mit dessen Hilfe Sie eine URL bzw. URI als Standardressource für die Indexierung deklarieren können.

Was ist das Canonical-Tag?

2009 führten Yahoo, Microsoft und Google einen neuen Link-Typ mit dem Namen Canonical ein, der sich schnell zu einem der wichtigsten Werkzeuge für SEOs entwickeln sollte und seit 2012 als offizieller Webstandard im RFC 6596 ausgezeichnet ist. Als Bestandteil eines Link-Elements wird es im HTML-Header einer Webseite implementiert, also an der gleichen Stelle, an der sich beispielsweise auch der Title und die Meta-Description befinden. Ist der Canonical-Link auf einer Seite eingebunden, verweist er auf eine angegebene Standard-URL bzw. -URI, die auch als kanonische URL bezeichnet wird und statt dieser Seite als Indexierungsquelle herangezogen werden soll.

Die kanonische URL vereint infolgedessen die eigene Linkpopularität und Reputation sowie die der referenzierenden Seiten – auf diese Weise generiert sie ein besseres gutes Ranking. Da die mit dem Tag ausgezeichneten URLs nicht mit in den Index aufgenommen werden, entsteht dabei jedoch keinerlei Probleme mit doppeltem Content. Allerdings handelt es sich bei der Auszeichnung lediglich um eine Empfehlung an die Suchmaschinen, die das Link-Attribut daher ihrerseits nicht unbedingt erfassen und in die Bewertung aufnehmen müssen. Wenn die Implementierung unvollständig oder fehlerhaft ist, besteht sogar das Risiko, dass die gesamte Website ignoriert wird, weshalb es sehr wichtig ist, das Canonical-Tag korrekt einzusetzen.

Wie funktioniert das Canonical-Tag?

Damit das Canonical-Tag funktioniert, sind zwei Dinge erforderlich: Zum einen benötigen Sie die exakte URL der gewünschten kanonischen Seite, die zur Standardressource deklariert werden soll. Zum anderen brauchen Sie ein Link-Element, in das Sie die kanonische URL inklusive der Canonical-Anweisung einfügen können. Der dazu passende Code sieht folgendermaßen aus:

<link rel="canonical" href="URL/URI der kanonischen Seite">

Das Link-Element, das in HTML kein End-Tag hat, enthält als leeres Element ausschließlich die Attribute rel und href. Ersteres wird benötigt, um die Beziehung zwischen dem gegenwärtigen und dem verlinkten Dokument zu spezifizieren, während letzteres angibt, wo das verlinkte Dokument zu finden ist. Innerhalb der Anführungszeichen befinden sich die zu diesem Zweck benötigten Werte: Der rel-Wert „canonical“ legt fest, dass es sich bei der verlinkten um eine kanonische URL handeln soll, die nachfolgend im href-Attribut angegeben wird.

Tipp

Sie können das Canonical-Tag nicht nur für die interne Verlinkung nutzen, sondern auch auf eine externe Domain verweisen. Die Vorgehensweise unterscheidet sich dabei nicht, weshalb Sie auch in diesem Fall die exakte URL und nicht etwa die Standardadresse der Website angeben müssen.

Damit die Alternativ-Seiten nun auf die angegebene Standardressource referenzieren, muss der Code – wie bereits erwähnt – in den Head-Bereich der jeweiligen HTML-Dokumente eingefügt werden. Liegen die Inhalte nicht in HTML vor, beispielsweise bei einer PDF-Datei, ist darüber hinaus auch die Implementierung in den HTTP-Header möglich. Das ist logischerweise mit einer etwas anderen Syntax verbunden:

Link: <URL/URI der kanonischen Seite>; rel="canonical"

Wann ist der Einsatz von Canonical-Anweisungen sinnvoll?

Per Definition ist das Canonical-Tag kein Faktor, den die Suchmaschinen unbedingt einbeziehen müssen. Mit der Angabe einer konkreten, repräsentativen Version für mehrfach vorhandene Inhalte geben Sie den Crawlern der Suchanwendungen lediglich eine Hilfestellung an die Hand – wobei Sie keineswegs sicher sein können, dass diese auch wahrgenommen wird. Da der Code zudem für jeden mehrfach vorhandenen Content und jede Alternativ-URI einzeln implementiert werden muss, stellt sich die Frage, ob sich der vergleichsweise hohe Aufwand am Ende tatsächlich rentiert. Wir erläutern im Folgenden vier Szenarien, in denen Sie die Nutzung des Canonical-Tags unbedingt in Betracht ziehen sollten.

Inhalte werden auf dynamische URLs verteilt

Dynamische URLs spielen heutzutage – vor allem im E-Commerce – eine wichtige Rolle. Die benutzerspezifischen Seiten stellen zwar eine exzellente und einfache Option dar, verschiedenen Usern den gleichen Inhalt (inklusive leichter Variationen) zu präsentieren, bereiten dem Suchmaschinen-Crawler aber immer wieder auch Probleme. Hier sind Canonical-Tags absolut empfehlenswert, um mögliche Duplicate-Content-Einstufungen zu verhindern.

Inhalte sind über verschiedene URLs abrufbar

Strukturbedingt bieten einige Webprojekte wie Blogs, Webshops oder Ratgeberportale Inhalte in mehreren Kategorien gleichzeitig und daher oftmals auch unter verschiedenen URLs an. So könnte ein Shop zum Beispiel die Übersichtsseite des Artikels „grünes Hemd“ gleichzeitig unter den folgenden URLs führen:

  • mein-ecommerce.shop/mode/hemd-gruen
  • mein-ecommerce.shop/sommermode/hemd-gruen
  • mein-ecommerce.shop/wintermode/hemd-gruen

Dass Content über verschiedene URLs abrufbar ist, kommt häufig auch dann vor, wenn sich die Strukturen einer Website ändern oder gar ein kompletter Domainumzug stattgefunden hat. Für solche Fälle sind grundsätzlich 301-Weiterleitungen vorgesehen, doch sofern dies aus technischen Gründen nicht zu bewerkstelligen ist, steht Ihnen mit link rel="canonical" eine sinnvolle Alternative zur Verfügung.

Inhalte sind auf verschiedenen Domains verfügbar

Die Möglichkeit sogenannter Cross-Domain-Canonicals ist bereits kurz erwähnt worden. Auf diese Weise bieten Sie Ihre Beiträge problemlos auf einer anderen Domain an, ohne Duplicate Content zu erzeugen. Nebenbei werden positive User-Signale, Links oder andere rankingrelevante Faktoren auf die Original-URL übertragen, was deren Performance erheblich verbessern kann.

Inhalte weisen unterschiedliche Formate auf

In einigen Situationen ist es durchaus sinnvoll, Inhalte in verschiedenen Formaten zu veröffentlichen und beispielsweise ein Formular nicht nur als HTML-Version, sondern auch als PDF-Datei und Druck-Edition anzubieten. Damit die Suchmaschinen hierbei nicht jede Variante einzeln bewerten und am Ende im ungünstigsten Fall die falsche rankt, empfiehlt sich der Gebrauch von Canonicals. Wie bereits erwähnt, müssen Sie das Tag – abhängig von dem jeweiligen Format – unter Umständen in die abgewandelte Syntax in den HTTP-Header integrieren.

Tipp

Wenn Sie über ein gültiges SSL-/TLS-Zertifikat verfügen, sollten Sie die gesicherten HTTPS-URLs unbedingt zu kanonischen URLs machen und von den ungesicherten Varianten (HTTP) auf diese verweisen. Gleiches gilt im Übrigen auch für Mobile- oder AMP-Pages – für letztere sind Canonicals sogar vorgeschrieben.

Die Unterschiede zwischen Canonical-Tag und 301-Weiterleitung

Das Canonical-Tag scheint auf den ersten Blick stark den 301-Redirects zu ähneln. Denn diese Weiterleitungen, die auf dem HTTP-Statuscode 301 (Moved Permanently) basieren, signalisieren den Suchmaschinen ebenfalls, dass verschiedene Webseiten als ein einziges Exemplar gewertet werden sollen. Darüber hinaus bewirken die Weiterleitungen allerdings auch, dass Besucher auf die zum Original erklärte URL geführt werden, während alle anderen Varianten unterdrückt werden. Seiten mit Canonical-Tag sind lediglich für die Suchmaschinen als Kopie gekennzeichnet und bleiben daher für die Benutzer immer erreichbar.

Ein weiterer Unterschied ist die Tatsache, dass Suchmaschinen einen Redirect niemals ignorieren, während dies bei der empfehlenden Link-Element-Auszeichnung durchaus der Fall sein kann. Zu guter Letzt unterscheiden sich die beiden Methoden auch hinsichtlich ihrer Funktionalität bei domainübergreifender Nutzung: Während die 301-Weiterleitungen eine Seite tatsächlich von einer Domain A auf eine Domain B transportieren, sagt das Canonical-Tag nur aus, dass von einer Seite der Domain A eine Entsprechung auf der Domain B existiert.

Canonical-Tag: Häufige Fehler

Eine kanonische URL ist in vielen Situationen die optimale Lösung, um Duplicate Content auf Ihrer Website zu vermeiden. Führende Suchmaschinen beachten die Canonical-Auszeichnung bei der Indexierung und erkennen so, dass Sie nicht parallel mit gleichen oder ähnlichen Inhalten ranken wollen. Nebenbei werden die positiven Suchmaschinensignale in der Haupt-URL vereint, was deren Positionierungschancen verbessert. An dieser Stelle sei jedoch auch angemerkt, dass sich der Einsatz von Canonical-Tags schnell als Negativfaktor erweisen kann, wenn sie nicht korrekt ausgezeichnet oder falsch implementiert sind. Die folgenden Abschnitte zeigen Ihnen daher die häufigsten Canonical-Fehler.

Nummerierte Seiten verweisen auf eine kanonische URL

Um Inhalte ansprechend aufzubereiten, greifen viele Webmaster auf die sogenannte Paginierung zurück. Insbesondere Newsportale nutzen diese Methode, bei der Content auf mehrere Seiten aufgeteilt und nummeriert wird. Setzt man allerdings für solche Inhalte auf Canonical-Tags und verweist auf späteren Seiten mit link-rel="canonical" auf die Ausgangs-URL, begeht man einen folgenschweren Fehler: Bei den nachfolgenden Seiten handelt es sich nämlich keineswegs um Duplikate, weshalb eigentlich einzigartiger Content nicht in den Index gelangt. Wollen Sie den Suchmaschinen dennoch Informationen über die gewählte Paginierung übermitteln, sind zwei Vorgehensweisen ratsam:

  • Sie verweisen auf jeder URL auf die vorangegangene sowie nachfolgende Seite. Hierfür benötigen Sie ebenfalls das Link-Attribut rel, ersetzen den Wert "canonical" aber durch "prev" bzw. "next".
  • Sie verweisen mit link-rel="canonical" auf eine einseitige Version des betreffenden Inhalts, die alle paginierten Seiten vereint.

Relative URLs verweisen nicht auf die gewünschte kanonische Seite

Wie die meisten HTML-Tags bietet auch das <link>-Tag die Möglichkeit, absolute und relative URLs anzugeben. Während absolute URLs den gesamten Pfad (inklusive „http://“ etc.) beschreiben, verweisen relative URLs gezielt auf einen bestimmten Ordner auf der aktuellen Website, ohne dass die Angabe der kompletten URL von Nöten ist. So sagt ein relativer Pfad "bilder/bild.jpg" beispielsweise aus, dass das Bild „bild.jpg” im Unterordner „bilder” des aktuellen Verzeichnisses abrufbar ist. Bei der Nutzung des Canonical-Tags führt die Nutzung solcher Pfade jedoch schnell zu Komplikationen, sodass die Crawler das Tag im ungünstigsten Fall komplett ignorieren.

Google verweist hierfür exemplarisch auf folgende Auszeichnung:

< link rel="canonical" href="example.com/cupcake.html" >

Aufgrund des fehlenden HTTP-Präfixes würde der Crawler die URL „example.com/cupcake.html” als relative URL werten und davon ausgehen, dass die gewünschte kanonische URL „http://example.com/example.com/cupcake.html” lautet. Idealerweise sollten Sie also immer die vollständige URL angeben, wenn Sie das Canonical-Tag setzen oder alternativ zumindest auf eine absolute URL ohne Domain verweisen:

< link rel="canonical" href="/cupcake.html" />

Seiten referenzieren auf mehr als eine kanonische URL

Das Wesen kanonischer URLs schließt logischerweise aus, dass eine Unterseite auf mehrere solcher Standardseiten verweist. Solche Mehrfachverlinkungen entstehen schnell, wenn Sie mit einem Content-Management-System oder mit Shop-Software arbeiten. Plug-ins und Templates setzen nämlich häufig automatisch und unbemerkt Canonical-Tags ein, selbst wenn Sie bereits eine kanonische URL ausgezeichnet haben. Insbesondere, wenn Sie derartige Erweiterungen nutzen, aber auch bei Änderungen an der Seitenstruktur sollten Sie daher unbedingt den Quelltext überprüfen und die Angaben gegebenenfalls korrigieren. Andernfalls bleiben Ihre Bemühungen vermutlich fruchtlos, da die Suchmaschinen mit großer Wahrscheinlichkeit alle Canonical-Tags ignorieren, statt eines zu präferieren.

Canonical-Tags fehlen in der mobilen Version

Wer neben der Desktop-Variante auch eine mobile Version seiner Website anbietet, der kann bei der Auszeichnung der Beziehungsstrukturen eine Menge falsch machen. Und auch, wenn die mobilen Seiten trotz fehlender Angaben indexiert werden, sollten Sie die Suchmaschinen bei der Erfassung und Kategorisierung unterstützen. So empfiehlt Google, das mobile Pendant mittels rel="alternate" als alternative Version auszuzeichnen, und darüber hinaus auch, von den mobilen Seiten per Canonical-Tag auf die jeweiligen Desktop-URLs zu verweisen. Ausführliche Tipps und die möglichen Vorgehensweisen hat der Suchmaschinenriese in einem Leitfaden für „Mobile Friendly Websites zusammengefasst.

Canonical-Tags und hreflang widersprechen sich

Internationale Webprojekte mit verschiedenen Länder-Domains stellen SEOs vor eine große Herausforderung. Denn einerseits sollen die Seiten aller Varianten gute Rankings erzielen und den passenden Nutzern ausgeliefert werden, andererseits gilt es, die Gefahr doppelten Contents auf ein Minimum zu reduzieren. Eines der wichtigsten Werkzeuge ist dabei das hreflang-Attribut, mit dessen Hilfe die einzelnen Versionen als gleichwertige Alternativen ausgezeichnet werden können. Zu diesem Zweck ist es jedoch notwendig, dass diese Seiten immer auch auf sich selbst verweisen. Wenn solche URLs gleichzeitig per Canonical-Tag auf eine kanonische URL referenzieren, ist dies für die Crawler der Suchmaschinen logischerweise ein großer Widerspruch.

Das Ergebnis ist, dass die Suchmaschine beide Signale ignoriert und die Webseiten auf Basis anderer Merkmale indexiert. Die gemeinsame Nutzung beider Anweisungen sollten Sie folglich unbedingt vermeiden.

Fakt

Nicht nur die Kombination von kanonischen URLs und hreflang erzeugt Widersprüche, die sich negativ auf das Ranking Ihrer Seiten auswirken. Auch die gemeinsame Nutzung von Canonical-Tags und Anweisungen wie „nofollow“, „noindex“ oder „disallow“ ist von Google ausdrücklich nicht erwünscht.