Seit vielen Jahren tobt der Kampf um die besten Plätze in den Such­ergeb­nis­sen von Google und Co. War es lange Zeit eine Art SEO-Volks­sport, möglichst viele Keywords in die ver­schie­de­nen Texte eines Web­pro­jekts ein­zu­bau­en, besteht die hohe Kunst der Such­ma­schi­nen­op­ti­mie­rung heute vor allem darin, ein­zig­ar­ti­ge Texte zu kreieren. Egal, ob Start- oder Un­ter­sei­te, Produkt- oder Ka­te­go­rie­sei­te: Ex­klu­si­ver und re­le­van­ter Content, der sich in Bezug auf Inhalt und Keyword-Ver­wen­dung von ver­gleich­ba­ren Ver­tre­tern un­ter­schei­det, legt den Grund­stein, um die Kon­kur­renz aus­zu­ste­chen und Plat­zie­run­gen auf der ersten Er­geb­nis­sei­te zu erreichen. Ein Begriff, der in diesem Zu­sam­men­hang immer häufiger fällt, ist die so­ge­nann­te WDF*IDF-Analyse bzw. -Formel.

Was ist WDF*IDF?

WDF*IDF ist ein Ana­ly­se­ver­fah­ren, das im Rahmen der Such­ma­schi­nen­op­ti­mie­rung ein­ge­setzt werden kann, um Schlag­wör­ter und Begriffe zu bestimmen, die die Relevanz ver­öf­fent­lich­ter Texte und somit des gesamten Web­pro­jekts nach­hal­tig erhöhen. Es handelt sich um eine Formel, bei der die zwei Werte WDF (Within Document Frequency) und IDF (Inverse Document Frequency) mit­ein­an­der mul­ti­pli­ziert werden. Das Ergebnis ist die relative Term­fre­quenz (auch „Term­ge­wich­tung“) eines Dokuments im Ver­hält­nis zu allen anderen Web­do­ku­men­ten, die ebenfalls das bei der Analyse be­rück­sich­tig­te Keyword enthalten. Bevor die WDF*IDF-Analyse durch­ge­führt werden kann, gilt es zunächst die beiden genannten Faktoren zu ermitteln.

So wird der Within-Document-Frequency-Wert (WDF) bestimmt

Die Within Document Frequency be­schreibt, wie häufig ein be­stimm­ter Term in einem Dokument im Vergleich zu allen anderen ent­hal­te­nen Termen vorkommt. Um die Aus­sa­ge­kraft des er­mit­tel­ten Werts zu erhöhen, fußt die Formel auf einem Log­arith­mus, der ver­hin­dert, dass der zentrale Term eine zu starke Ge­wich­tung erhält. Der Begriff fand erstmals 1992 in den Arbeiten von Donna Harman Erwähnung, die WDF in ihrem Artikel „Ranking Al­go­rith­ms“ u. a. als Mög­lich­keit sieht, Worten eines be­stimm­ten Dokuments einen für die In­for­ma­ti­ons­wis­sen­schaft nutzbaren Ge­wich­tungs­wert zu geben. In der Website-Op­ti­mie­rung wird der WDF-Wert seit geraumer Zeit als Al­ter­na­ti­ve zum wenig flexiblen Wert der Keyword-Dichte (Keyword Density) genutzt, der lediglich die relative Häu­fig­keit eines Schlüs­sel­be­griffs wie­der­gibt.

Die Formel zur Be­stim­mung der Within Document Frequency lautet:

Die einzelnen Kom­po­nen­ten der Gleichung lassen sich dabei fol­gen­der­ma­ßen erklären:

i Begriff, für den die Within Document Frequency bestimmt werden soll
j Dokument, das ana­ly­siert wird
Lj Ge­samt­zahl der Wörter im Dokument „j“
Freq(i,j) Häu­fig­keit eines Wortes „i“ im Dokument „j“
log2 Log­arith­mus der Zahl x zur Basis 2

Der WDF-Wert für einen Begriff „i“ im Dokument „j“ wird also ermittelt, indem die Häu­fig­keit des Begriffs mit „1“ addiert und durch die Ge­samt­zahl aller Wörter in diesem Dokument geteilt wird. Auf beide Werte wird der Log­arith­mus „log2 an­ge­wen­det, was dafür sorgt, dass man aus­sa­ge­kräf­ti­ge­re Er­geb­nis­se für die Relevanz des Begriffs erhält, als es bei der Er­mitt­lung der reinen Keyword-Dichte bzw. relativen Häu­fig­keit der Fall ist. Deutlich wird dies an einem Beispiel.

Beispiel: Be­rech­nung von WDF

Ein un­ter­such­ter Begriff, der in einem Dokument mit 1.000 Wörtern 50 Mal auftaucht, hat eine Within Document Frequency von gerundet 0,57. Die relative Häu­fig­keit liegt in diesem Fall bei 5 Prozent. Schraubt man die Häu­fig­keit des Begriffs nun aus Op­ti­mie­rungs­grün­den hoch, bei­spiels­wei­se auf 500, erhält man einen WDF-Wert von 0,9 (gerundet) – also einen Wert, der rund 1,5 Mal höher ist als im ur­sprüng­li­chen Text. Wählt man hingegen den relativen Wert, der auf 50 Prozent an­ge­stie­gen ist, als Grundlage, zeigt sich ein Anstieg auf das 10-Fache vom Ur­sprungs­wert.

So wird der Inverse-Document-Frequency-Wert (IDF) bestimmt

Bei der Inverse Document Frequency (IDF) – im Deutschen auch „inverse Do­ku­ment­häu­fig­keit“ – handelt es sich um einen Wert, der die Bedeutung eines Terms nicht anhand seiner Häu­fig­keit in einem be­stimm­ten Dokument, sondern anhand seiner Ver­brei­tung und Nutzung im gesamten Do­ku­men­ten­kor­pus misst: Je mehr Potenzial ein Begriff hat, desto höher ist die Inverse Document Frequency. Der Op­ti­mal­fall ist, dass ein Term in wenigen Do­ku­men­ten sehr häufig vorkommt. Von geringer Bedeutung sind hingegen Wörter, die in fast jedem Dokument oder nur sehr selten auftreten. So erzielt das Wort „Impressum“ bei­spiels­wei­se einen sehr niedrigen IDF-Wert, da es in nahezu jedem Web­pro­jekt verwendet wird.

Um den Inverse-Document-Frequency-Wert zu errechnen, wird folgende Formel benötigt, die zur Re­gu­lie­rung der Er­geb­nis­se ebenfalls einen Log­arith­mus nutzt:

Die ver­schie­de­nen Kom­po­nen­ten der IDF-Gleichung lassen sich fol­gen­der­ma­ßen erklären:

i Begriff, für den die Inverse Document Frequency bestimmt werden soll
log Log­arith­mus der Zahl x zur Basis 10 bzw. zu jeder be­lie­bi­gen Basis b
ND Anzahl aller Dokumente im Do­ku­men­ten­kor­pus (die relevante Begriffe enthalten)
fi Anzahl aller Dokumente, in denen der Begriff i vorkommt

Um also den IDF-Wert eines Begriffs „i“ zu ermitteln, teilt man die Ge­samt­zahl aller im Korpus ent­hal­te­nen (und re­le­van­ten) Dokumente durch die Anzahl an Do­ku­men­ten, die den Begriff enthalten, und addiert im Anschluss die Zahl 1. Vom Ergebnis dieser Rechnung nimmt man schließ­lich den Log­arith­mus „log“.

Wie wird die Anzahl aller re­le­van­ten Dokumente im Korpus errechnet?

Mit ND enthält die IDF-Formel eine Kom­po­nen­te, die nicht ein­heit­lich bestimmt werden kann. Sie ist vielmehr das Resultat der Häu­fig­keit aller sinn­tra­gen­den Wörter im un­ter­such­ten Dokument sowie der zu­grun­de­lie­gen­den absoluten Do­ku­men­ten­an­zahl. Im Rahmen einer Analyse von Web­do­ku­men­ten zu SEO-Zwecken ist die po­ten­zi­el­le Ge­samt­an­zahl al­ler­dings riesig, da alle von Google (bzw. anderen Such­ma­schi­nen) in­de­xier­ten Seiten infrage kommen. Um dennoch einen konkreten Wert zu erhalten, wird die Zahl der Such­ergeb­nis­se aller re­le­van­ten Terme im Dokument ermittelt und addiert. In einem stark ver­ein­fach­ten Dokument, das lediglich die beiden Wörter „Such­ma­schi­nen­op­ti­mie­rung“ (17.300.000 Such­ergeb­nis­se; Dezember 2017) und „Web­ana­ly­se“ (2.200.000 Such­ergeb­nis­se; Dezember 2017) enthält, hat ND bei­spiels­wei­se den Wert 19.500.000.

WDF*IDF: Die Zu­sam­men­füh­rung beider Formeln

Da die Within Document Frequency die Relevanz eines Terms innerhalb eines be­stimm­ten Dokuments re­prä­sen­tiert und die Inverse Document Frequency die Rolle eines Terms im Ver­hält­nis zu allen Do­ku­men­ten eines Korpus wie­der­spie­geln kann, gewährt die Zu­sam­men­füh­rung beider Werte tiefe Einblicke in die tat­säch­li­che Term­fre­quenz und das Potenzial des je­wei­li­gen Begriffs für die Op­ti­mie­rung der vor­han­de­nen Text­in­hal­te. Zu diesem Zweck ist es lediglich notwendig, beide Werte mit­ein­an­der zu mul­ti­pli­zie­ren, wodurch sich folgende Ge­samt­for­mel für die WDF*IDF-Analyse und die Er­mitt­lung einer möglichst exakten und ver­wert­ba­ren Term­fre­quenz ergibt:

Im Prinzip hat man damit alle wichtigen Kom­po­nen­ten zusammen, um die Wer­tig­keit ver­wen­de­ter Begriffe in Webtexten zu bestimmen. Natürlich gilt dabei: Je größer die Da­ten­ba­sis ist, desto aus­sa­ge­kräf­ti­ger sind die Er­geb­nis­se. Damit die WDF*IDF-Analyse aber auch tat­säch­lich von Nutzen für die Such­ma­schi­nen­op­ti­mie­rung ist, muss sie für alle sinn­tra­gen­den Wörter innerhalb eines Dokuments durch­ge­führt werden. Manuell wäre dies schlicht­weg mit einem viel zu großen Aufwand verbunden, weshalb das passende WDF*IDF-Tool bei der Er­rech­nung der Term­ge­wich­tung zum Pflicht­re­per­toire gehört. Diese Programme (siehe weiter unten) helfen ei­ner­seits dabei, das vor­han­de­ne Textgut zu ana­ly­sie­ren. An­de­rer­seits liefern sie auch Hinweise darauf, welche Begriffe einem Dokument fehlen, um möglichst ein­zig­ar­tig und relevant zu sein.

Fazit

Die Frequenz eines Terms „i“ im Dokument „j“ lässt sich bestimmen, indem die Within Document Frequency des Terms „i“ im Dokument „j“ mit der Inverse Document Frequency des Terms „i“ im gesamten Do­ku­men­ten­kor­pus mul­ti­pli­ziert wird.

Die Vorteile von WDF*IDF für die Such­ma­schi­nen­op­ti­mie­rung

Die Vorteile einer um­fang­rei­chen WDF*IDF-Analyse liegen auf der Hand: Die erzielten Werte für die Ge­wich­tung zentraler Terme dienen als perfekte Ori­en­tie­rungs­punk­te, um Texte so zu verfassen, dass sie

  • eine hohe Relevanz für Such­ma­schi­nen besitzen,
  • The­men­fel­der mit geringem Wett­be­werb abdecken,
  • keinerlei Keyword-Spam aufweisen
  • und dabei möglichst ein­zig­ar­tig sind.

Wer also mit dem Ranking der eigenen Webseiten un­zu­frie­den ist und sich um eine Op­ti­mie­rung bemüht, hat mit fun­dier­ten WDF*IDF-Werten mächtige Ver­bün­de­te. Auf Basis der Ana­ly­se­da­ten können Textern ganz konkrete Vorgaben für die Über­ar­bei­tung der Inhalte gemacht werden, die nicht einfach nur darauf abzielen, die Keyword-Dichte zu erhöhen oder andere Schlüs­sel­wör­ter in den Text ein­zu­bau­en.

Hinweis

Bei aller Aus­sa­ge­kraft, die eine gründ­li­che WDF*IDF-Analyse birgt, sollte man niemals außer Acht lassen, dass die Inhalte in erster Linie für Leser und nicht für Such­ma­schi­nen ge­schrie­ben werden. Da letztere außerdem immer besser darin werden, Texte se­man­tisch zu erfassen, führt lang­fris­tig kein Weg an starken Inhalten vorbei, in denen Keywords und Co. nur eine Teilrolle spielen.

Welche Schwach­punk­te hat die WDF*IDF-Analyse?

Auch wenn der WDF*IDF-Wert grund­sätz­lich sehr wert­vol­len Input für die Website-Op­ti­mie­rung liefert, gibt es dennoch ein paar Punkte, die vor der Analyse und bei der späteren Aus­wer­tung der Resultate be­rück­sich­tigt werden sollten. So besteht ein Grund­pro­blem darin, dass bei einer WDF*IDF-Analyse immer sämtliche Text­ele­men­te eines Dokuments ein­be­zo­gen werden – egal, ob dies Über­schrif­ten, Kategorie- oder Pro­dukt­be­schrei­bun­gen oder Bild­un­ter­schrif­ten sind. Eine Dif­fe­ren­zie­rung der einzelnen Be­stand­tei­le findet nicht statt. Auch für den Fall, dass lediglich ein be­stimm­ter Absatz zu key­word­las­tig ist oder zu wenige ele­men­ta­re Begriffe enthält, liefert das Ana­ly­se­ver­fah­ren keine be­frie­di­gen­de Antwort, da die Fre­quenz­ge­wich­tung immer für das gesamte Dokument gewertet wird.

Tipp

Bevor man eine WDF*IDF-Analyse für das eigene Web­pro­jekt in Betracht zieht, sollte man genau prüfen, ob der ein­ge­bun­de­ne Content sich für das Term­fre­quenz-Ana­ly­se­ver­fah­ren eignet. Zudem sollte man die er­hal­te­nen Er­geb­nis­se kritisch hin­ter­fra­gen, um po­ten­zi­el­le Fehl­schlüs­se – z. B. aufgrund einer zu kleinen Da­ten­ba­sis – zu vermeiden.

Eine weitere Schwäche der WDF*IDF-Formel ist, dass sie erst bei einer hohen Wortzahl in­ter­es­sant wird. Bei kürzeren Text­pas­sa­gen wie Pro­dukt­be­schrei­bun­gen, kleineren Blog­ein­trä­gen oder News­ar­ti­keln liefert die Analyse keine aus­sa­ge­kräf­ti­gen und ver­wert­ba­ren Er­geb­nis­se, weshalb sie für bestimmte Web­pro­jek­te wie On­line­shops oder Nach­rich­ten­por­ta­le häufig nicht geeignet ist. Bei Websites, die wie die letzteren zum Großteil auf re­dak­tio­nel­ler Arbeit beruhen, kommt der Nachteil hinzu, dass sich die WDF*IDF-Analyse nur schwer in den üblichen Ar­beits­pro­zess einbauen lässt. Da hier ins­be­son­de­re schnelle Re­ak­ti­ons­zei­ten und Ak­tua­li­tät gefragt sind, wäre lediglich eine nach­träg­li­che Op­ti­mie­rung ver­öf­fent­lich­ter Texte eine prak­ti­ka­ble, gleich­zei­tig aber auch sehr auf­wen­di­ge Lösung.

Vor- und Nachteile der WDF*IDF-Analyse im ta­bel­la­ri­schen Überblick

Vorteile der WDF*IDF-Analyse Nachteile der WDF*IDF-Analyse
gewährt eine große Chance, exis­tie­ren­den Keyword-Spam auf­zu­de­cken un­ter­sucht immer den kom­plet­ten Text­in­halt eines Dokuments
stellt Relevanz und Ein­zig­ar­tig­keit als ent­schei­den­de Kriterien für die Fre­quenz­ge­wich­tung in den Vor­der­grund liefert keine Er­kennt­nis­se über spezielle Absätze oder Passagen, die op­ti­mie­rungs­wür­dig sind
bewertet Terme mit ge­rin­ge­rem Wett­be­werb besser als stark umkämpfte nicht für kurze Texte mit wenigen Wörtern geeignet
vereint die Dis­zi­pli­nen der do­ku­men­ten­spe­zi­fi­schen und der -über­grei­fen­den Analyse schwer in Ar­beits­pro­zes­se ein­zu­ord­nen, in denen Ak­tua­li­tät und Re­ak­ti­ons­schnel­lig­keit gefragt sind
flacht Resultate durch Log­arith­men ab, um aus­sa­ge­kräf­ti­ge­re Er­geb­nis­se zu erzielen präzise Zahl aller re­le­van­ten Dokumente ist schwer zu ermitteln

Welche WDF*IDF-Tools gibt es?

Es gibt ver­schie­de­ne Tools, mit deren Hilfe sich eine WDF*IDF-Analyse durch­füh­ren lässt. Dabei ist grund­sätz­lich zu un­ter­schei­den zwischen solchen An­wen­dun­gen, die aus­schließ­lich Teil einer SEO-Suite sind, und solchen, die auch als ei­gen­stän­di­ge Lösungen zur Verfügung stehen. Abhängig vom Funk­ti­ons­um­fang und den Nut­zungs­mög­lich­kei­ten un­ter­schei­den sich die einzelnen Tools hin­sicht­lich ihres Kos­ten­fak­tors. Um einen kleinen Überblick über die Vielfalt der An­wen­dun­gen zu geben, haben wir einige der besten WDF*IDF-Tools in der folgenden Auf­zäh­lung zu­sam­men­ge­tra­gen:

  • OnpageDoc: Wer den SEO-Status seines Web­pro­jekts ana­ly­sie­ren und op­ti­mie­ren möchte, hat mit OnpageDoc, dem Kom­plett­pa­ket der SAC Solutions GmbH aus Köln, alle not­wen­di­gen Werkzeuge parat. Nach Abschluss eines mo­nat­li­chen Abon­ne­ments stehen diverse Funk­tio­nen zur Über­prü­fung und an­schlie­ßen­den Ver­bes­se­rung von Keywords, Meta-Tags, Backlinks und Co. zur Verfügung. Auch ein WDF*IDF-Tool für die Term­ge­wich­tungs-Analyse und den gezielten Wett­be­werbs­ver­gleich zählt zum Portfolio. Wer nicht zur gesamten Suite greifen möchte, kann das Tool auch kos­ten­frei auf wdfidf-tool.com nutzen. Die Anzahl möglicher Abfragen ist al­ler­dings auf 100 Abfragen pro Stunde (für alle Nutzer gemeinsam) begrenzt.
  • SEOlyze: Se­man­ti­sche Analysen und Re­cher­chen, die auf dem WDF*IDF-Prinzip basieren, lassen sich auch mit dem kos­ten­pflich­ti­gen Content-Analyse-Modul von SEOlyze un­kom­pli­ziert durch­füh­ren. Das Produkt der in Ös­ter­reich be­hei­ma­te­ten Helminger GmbH stellt die Mög­lich­kei­ten zur Per­fek­tio­nie­rung von Website-Inhalten in den Vor­der­grund und bietet zu diesem Zweck ver­schie­de­ne Werkzeuge wie ein W-Fragen-Tool zur Recherche, einen Duplicate-Content-Checker oder Les­bar­keits-Analysen (Flesch/Wiener-Sach­text­for­mel). Das Herzstück ist jedoch die um­fas­sen­de WDF*IDF-Analyse-Funktion, deren Resultate sich dank in­te­grier­tem Editor direkt im SEOlyze-Interface umsetzen lassen. Zu­sätz­lich zum WDF*IDF-Tool enthält die SEO-Suite ver­schie­de­ne Rank-Tracking-Features sowie diverse weitere Werkzeuge für die generelle Onpage-Op­ti­mie­rung (Keyword-Analyse, Checker für Metadaten, Bilder, Links etc.).
  • XOVI: Die Kölner XOVI GmbH, die seit 2017 zu dem globalen Software-Un­ter­neh­men Plesk gehört, stellt seinen Kunden eine SEO-Suite zur Verfügung, die kaum einen Wunsch offen lässt. Die kos­ten­pflich­ti­ge XOVI-Toolbox, die es in drei ver­schie­de­nen Nut­zungs­mo­del­len (Pro, Business und En­ter­pri­se) gibt, be­inhal­tet u. a. Werkzeuge, um Wer­be­an­zei­gen, Traffic, Keywords, Backlinks und Social Signals im Auge zu behalten. Mit dem XOVI Tex­t­Op­ti­mi­zer ist außerdem auch ein WDF*IDF-Text-Tool enthalten, das nicht nur die Relevanz ver­wen­de­ter Begriffe errechnet und Vor­schlä­ge für weitere Terme auf Basis der ersten zehn Google-Such­ergeb­nis­sei­ten un­ter­brei­tet, sondern auch das direkte Editieren er­mög­licht.
  • Seobility: Die Seobility GmbH aus Nürnberg bietet auf ihrer Homepage ver­schie­de­ne SEO-Tools zur kos­ten­frei­en Nutzung an – u. a. ein einfaches WDF*IDF-Tool. Die Web­an­wen­dung erlaubt es Nutzern, die Ge­wich­tung eines Terms auf Basis der WDF*IDF-Formel zu ana­ly­sie­ren. Darüber hinaus spielt das Tool weitere Begriffe (inklusive Fre­quenz­wert) aus, die zu dem gesuchten Wort passen. Der Zugriff auf das Seobility-Programm ist auf fünf Nutzungen pro Tag und Nutzer be­schränkt. User, die sich einen Account erstellen, können er­wei­ter­te Such­ein­stel­lun­gen vornehmen und z. B. die Basis des Log­arith­mus anpassen, die Anzahl be­rück­sich­tig­ter Such­ergeb­nis­se erhöhen oder die Plattform (Desktop/Mobile) auswählen, für die optimiert werden soll.
QAfNI6xhSRE.jpg Zur Anzeige dieses Videos sind Cookies von Drittanbietern erforderlich. Ihre Cookie-Einstellungen können Sie hier aufrufen und ändern.
Zum Hauptmenü