Jeder nutzt es, jeder braucht es, das PDF Format. Aus SEO Sicht galten PDFs eine Zeitlang als SEO Geheimtipp, schließlich können PDFs auch Links enthalten. Dazu kam dann noch die Tatsache, dass Google in seinen Suchergebnissen PDFs listet und als der Google PageRank noch regelmäßig aktualisiert worden ist, hatten einige PDFs sogar über einen recht hohen PageRank verfügen – die geheime Optimierungsformel hieß Dokumenteneigenschaften und interne Verlinkung.

Nun habe PDF aus Usability Sicht zwar den Vorteil, dass sie genau so dargestellt werden wie es vom Autor beabsichtigt worden sin, aber als Landingpage, wenn es sich nicht um eine wissenschaftliche Arbeit handelt, nicht gerade Ideal. Also wie sollte man mit PDFs aus SEO Sicht umgehen? Starten wir dazu mit einer Aussage von John Mueller von Google:

Google will read links in any file (pdf,xls,doc,etc), but will not follow them with link juice. Only proper HTML anchor tagged links in files will pass link juice.

Quelle: https://plus.google.com/+MarkTraphagen/posts/aAeAY13ujHx

Laut dieser Aussage kann man zwar PDFs zum ranken bringen, ihre Linkpower wird aber nicht weiter vererbt. PDFs im Index sind daher nicht nur ein Usability Problem sondern auch ein SEO Problem. Eine einfache Lösung wäre es die PDFs per Robots.txt auszusperren, aber dann würden auch die guten Rankings verloren gehen, ebenso wenn man die PDFs über den Header auf NoIndex stellen würde. Eine gute Lösung wäre es eine 301-Weiterleitung zu nutzen und vom PDF auf die HTML Version weiterzuleiten, doch dann wäre das PDF nicht mehr verfügbar, was ja auch nicht im Sinne des Erfinders ist. Also wie kann man dieses Problem lösen? Man nutzt einen Canonical-tag, da aber PDF Dokumente keinen <head> .. </head> Bereich haben, muss dies über den http header erfolgen und das geht über die .htaccess und sieht für die Datei mega-tutorial.pdf wie folgt aus:

<Files „mega-tutorial.pdf“>
Header add Link „<http://www.domain.tld/html-version-mega-tutorial/>; rel=“canonical“‚
</Files>

image

Das diese Methode aus SEO Sicht sehr gut funktioniert, hat DejanSEO in diesem Test gezeigt. Ganz wichtig dabei, der Canonical-tag sollte auf einer 1:1 HTML-Version der Seite verweisen. Für Webseiten die sehr viele PDFs haben, aber keine HTML Version, empfiehlt es sich, eine HTML Übersichtseite sämtlicher PDFs anzulegen und auf diese mittels canonical-tag zu verweisen, dass ist dann keine 1:1 Kopie mehr, aber der User landet wenigstens auf einer Seite die keine Sackgasse ist.

Wer PDFs zum kostenpflichtigen Download anbietet oder mit PayWithATweet arbeitet sollte davon absehen, die PDFs per Robots.txt zu sperren (gerade bei Bezahl-PDFs sehr ungünstig so den Downloadpfad zu verraten) und diese entweder per http-header auf noindex zu setzen oder einen canonical-tag auf eine HTML-Sample-Version verweisen. Ein weiterer Nachteil, die Linkpower verpufft und das PDF das eigentlich ranken könnte, tute es nicht mehr.

robots-txt-blocks-link-juic
Quelle: Headsmacking Tip #13: Don’t Accidentally Block Link Juice with Robots.txt – Moz

Um herauszufinden ob Google bereits PDFs indexiert hat, könnt ihr einfach die zwei Operatoren site:domain.tld und filetype:pdf nutzen, hier mal am Beispiel von Moz.com.