Bei der Inverse Document Frequency (IDF) – im Deutschen auch „inverse Dokumenthäufigkeit“ – handelt es sich um einen Wert, der die Bedeutung eines Terms nicht anhand seiner Häufigkeit in einem bestimmten Dokument, sondern anhand seiner Verbreitung und Nutzung im gesamten Dokumentenkorpus misst: Je mehr Potenzial ein Begriff hat, desto höher ist die Inverse Document Frequency. Der Optimalfall ist, dass ein Term in wenigen Dokumenten sehr häufig vorkommt. Von geringer Bedeutung sind hingegen Wörter, die in fast jedem Dokument oder nur sehr selten auftreten. So erzielt das Wort „Impressum“ beispielsweise einen sehr niedrigen IDF-Wert, da es in nahezu jedem Webprojekt verwendet wird.
Um den Inverse-Document-Frequency-Wert zu errechnen, wird folgende Formel benötigt, die zur Regulierung der Ergebnisse ebenfalls einen Logarithmus nutzt: