Wir leben in einer In­for­ma­ti­ons­ge­sell­schaft. Daten, Fakten und Wissen nehmen einen ungleich höheren Stel­len­wert ein als noch vor einem halben Jahr­hun­dert. Gleich­zei­tig gib es dank des Internets immer mehr ver­füg­ba­re In­for­ma­tio­nen. Doch diese müssen auch abgerufen werden – dabei helfen uns Such­ma­schi­nen. Doch wie kommen diese wiederum an die Daten, die sie ausgeben? Die Erklärung ist die so­ge­nann­te In­for­ma­ti­on Retrieval. Die In­for­ma­ti­ons­be­schaf­fung – genauer: In­for­ma­ti­ons­rück­ge­win­nung – ist eine eigene Disziplin der In­for­ma­tik und der In­for­ma­ti­ons­wis­sen­schaf­ten und vor allem für Such­ma­schi­nen von großer Bedeutung. Anhand komplexer In­for­ma­ti­on-Retrieval-Systeme erkennen sie In­ten­tio­nen, die hinter be­stimm­ten Such­be­grif­fen stehen und machen relevante Daten zu Such­an­fra­gen ausfindig.

Zur Ge­schich­te der In­for­ma­ti­ons­be­schaf­fung

Bei der In­for­ma­ti­on Retrieval geht es darum, be­stehen­des Wissen zu­gäng­lich zu machen. Das ist nicht erst seit Beginn des digitalen Zeit­al­ters aktuell. Als einer der ersten, der sich ernsthaft darüber Gedanken gemacht hat, wie die Mensch­heit ihr geballtes Wissen an­ge­sichts einer immer un­über­sicht­li­cher werdenden Welt besser verfügbar machen kann, gilt der Wis­sen­schaft­ler Vannevar Bush. Im Jahr 1945 hat er mit dem bahn­bre­chen­den Artikel „As We May Think“ eine Zu­kunfts­vi­si­on der In­for­ma­ti­ons­be­schaf­fung und -or­ga­ni­sa­ti­on vorgelegt.

Bush sah folgendes Problem in den Wis­sen­schaf­ten: Experten spe­zia­li­sie­ren sich immer weiter und benötigen dafür mehr und mehr In­for­ma­tio­nen, die aber – eben wegen der Aus­dif­fe­ren­zie­rung – immer schwie­ri­ger zu finden sind. Dies war wohl­ge­merkt zu einer Zeit, in der Bi­blio­the­ken noch mit analogen Zet­tel­käs­ten und großen Katalogen or­ga­ni­siert wurden. Eine Stich­wort­su­che war nur dann möglich, wenn sich ein fleißiger Bi­blio­the­kar zuvor die Mühe gemacht hatte, alle Werke manuell zu in­de­xie­ren. Bush sah in den tech­ni­schen Ent­wick­lun­gen der Zeit, etwa dem Mikrofilm, eine Mög­lich­keit, In­for­ma­tio­nen besser verfügbar zu machen. Seine eigene Vision hieß Memex, eine Maschine so groß wie ein Schreib­tisch, die als Wis­sens­spei­cher und Re­cher­che­ap­pa­rat dienen sollte. Memex wurde nie gebaut, aber die Tech­no­lo­gie – der Benutzer springt von einem Artikel zum nächsten – kann als Vorläufer des Hy­per­texts gesehen werden.

In den 1950ern befasste sich vor allem der In­for­ma­ti­ker Hans Peter Luhn mit den Aufgaben der In­for­ma­ti­ons­be­schaf­fung und ent­wi­ckel­te Techniken, die auch heute noch von Relevanz sind: Voll­text­ver­ar­bei­tung, Auto-In­de­xie­rung und selektive In­for­ma­ti­ons­ver­ar­bei­tung (SDI) gehen auf seine Forschung zurück. Diese Methoden waren für die Ent­wick­lun­gen des Internets von großer Bedeutung, denn in der In­for­ma­ti­ons­flut des World Wide Webs ist es un­ab­ding­bar, In­for­ma­ti­on-Retrieval-Systeme ein­zu­set­zen. Ansonsten würden Sie niemals die Antworten erhalten, die Sie benötigen.

In­for­ma­ti­on Retrieval – eine De­fi­ni­ti­on

Ziel der In­for­ma­ti­on Retrieval (IR) ist es, ma­schi­nell ge­spei­cher­te Daten auf­find­bar zu machen. Anders als beim Data-Mining, mit dem man Struk­tu­ren aus Da­ten­sät­zen ex­tra­hiert, befasst sich IR damit, bestimmte In­for­ma­tio­nen aus einer Da­ten­men­ge zu filtern. Das typische An­wen­dungs­ge­biet ist eine Internet-Such­ma­schi­ne. In­for­ma­ti­on-Retrieval-Systeme lösen hier vor allem zwei Probleme:

  • Vagheit: Die Anfragen der Nutzer sind oft ungenau, der ein­ge­ge­be­ne Such­be­griff lässt In­ter­pre­ta­ti­ons­spiel­raum. Wer z. B. nach dem Begriff „Bank“ sucht, kann In­for­ma­tio­nen zum Bankwesen allgemein oder aber eine Weg­be­schrei­bung zum nächsten Geld­in­sti­tut benötigen. Das Problem po­ten­ziert sich, wenn die Nutzer selbst noch nicht genau wissen, was für In­for­ma­tio­nen sie überhaupt finden möchten.
  • Un­si­cher­heit: Die Inhalte der ge­spei­cher­ten In­for­ma­tio­nen sind dem System mitunter nicht bekannt genug. Dadurch werden falsche Er­geb­nis­se geliefert. Dies passiert z. B. bei Homonymen, also Wörtern, die mehrere Be­deu­tun­gen haben. So könnte der Nutzer gar nicht nach einem Geld­in­sti­tut suchen, sondern nach einer Sitz­ge­le­gen­heit für seinen Garten.

Hinzu kommt, dass das In­for­ma­ti­on-Retrieval-System die In­for­ma­tio­nen auch bewerten sollte, um dem Nutzer eine Rei­hen­fol­ge der Daten an­zu­bie­ten. Das erste Ergebnis sollte also im Idealfall die beste Antwort auf die Frage des Nutzers liefern.

Vor­stel­lung ver­schie­de­ner Modelle

Für In­for­ma­ti­on Retrieval bestehen ver­schie­de­ne Modelle, die sich al­ler­dings nicht zwangs­läu­fig ge­gen­sei­tig aus­schlie­ßen, sondern mit­ein­an­der kom­bi­nier­bar sind. Es gibt in­zwi­schen viele solcher Modelle, die sich teilweise nur in Details un­ter­schei­den. Sie lassen sich al­ler­dings grob in drei Ka­te­go­rien un­ter­tei­len:

  • Men­gen­theo­re­ti­sche Modelle: Ähn­lich­keits­be­zie­hun­gen werden durch Men­gen­ope­ra­tio­nen ermittelt (Boolsches Modell).
  • Al­ge­bra­ische Modelle: Ähn­lich­kei­ten werden paarweise ermittelt; Dokumente und Such­an­fra­gen lassen sich dabei als Vektoren, Matrizen oder Tupel dar­stel­len (Vek­tor­raum­mo­dell).
  • Pro­ba­bi­lis­ti­sche Modelle: Diese Modelle stellen Ähn­lich­keits­be­zü­ge her, indem sie die Da­ten­men­gen als mehr­stu­fi­ge Zu­falls­expe­ri­men­te ansehen.

Im Folgenden stellen wir die drei ar­che­ty­pi­schen Modelle innerhalb dieser Ka­te­go­rien vor. Bei den darüber hinaus exis­tie­ren­den Modellen handelt es sich vor allem um Misch­for­men der drei Typen. So hat das er­wei­ter­te Boolsche Modell sowohl Ei­gen­schaf­ten der men­gen­theo­re­ti­schen als auch der al­ge­bra­ischen Modelle.

Boole­sches Modell

Die be­kann­tes­ten Such­ma­schi­nen im Web basieren auf dem Boole­schen Prinzip. Dabei handelt es sich um logische Ver­knüp­fun­gen, mit denen Nutzer die Suche ver­fei­nern und genauer bestimmen können. Mit UND, ODER oder NICHT (AND, OR, NOT) bzw. den ent­spre­chen­den Symbolen ∧, ∨ oder ¬ lässt sich eine Anfrage spe­zi­fi­zie­ren, wenn z. B. zwingend beide Begriffe im Ergebnis auf­tau­chen oder Inhalte mit einem be­stimm­ten Begriff aus­ge­blen­det werden sollen. Nach diesem Prinzip funk­tio­nie­ren auch die Ope­ra­to­ren bei Google. Der Nachteil dieses Systems ist, dass es keinerlei Rang­ord­nung der Er­geb­nis­se vorsieht. Sinnvoll ist eine Ordnung nach Nütz­lich­keit, die Methode liefert aber eine zufällige Rei­hen­fol­ge.

Vek­tor­raum­mo­dell

In einem ma­the­ma­ti­schen Zugang lassen sich Inhalte auch als Vektoren dar­stel­len. Im Vek­tor­raum­mo­dell werden Begriffe (terms) als Ko­or­di­na­ten­ach­sen ab­ge­bil­det. Sowohl Dokumente als auch Such­an­fra­gen erhalten spe­zi­fi­sche Werte in Bezug zu dem Begriff und sind deshalb als Punkte oder Vektoren innerhalb eines Vek­tor­raums dar­stell­bar. An­schlie­ßend werden beide Vektoren mit­ein­an­der ver­gli­chen. Der Vektor (also der Inhalt), der dem der Such­an­fra­ge am ähn­lichs­ten ist, sollte in der Rangliste der Er­geb­nis­se an erster Stelle auf­tau­chen. Der Nachteil hierbei ist, dass sich ohne Boolesche Ope­ra­to­ren keine Begriffe aus­schlie­ßen lassen.

Pro­ba­bi­lis­ti­sches Modell

Das pro­ba­bi­lis­ti­sche Modell greift auf die Wahr­schein­lich­keits­theo­rie zurück. Jedem Inhalt wird ein Wahr­schein­lich­keits­wert zu­ge­ord­net. Die Er­geb­nis­se werden abhängig von der Wahr­schein­lich­keit, mit der sie zur Such­in­ten­ti­on passen, sortiert. Wie hoch die Chancen stehen, dass ein be­stimm­ter Inhalt dem Wunsch des Nutzers ent­spricht, ermittelt das Modell durch so­ge­nann­tes Relevance-Feedback. Dabei werden Nutzer z. B. dazu auf­ge­for­dert, die Er­geb­nis­se manuell zu bewerten. Bei der nächsten gleich­lau­ten­den Anfrage zeigt das Modell eine andere (und viel­leicht bessere) Er­geb­nis­lis­te. Nachteil dieses Ver­fah­rens ist, dass es von zwei An­for­de­run­gen ausgeht, die nicht mit Si­cher­heit gegeben sind: Zum einen setzt das Modell voraus, dass die Nutzer gewillt sind, an dem System durch sein Feedback mit­zu­ar­bei­ten. Zum anderen geht die Theorie davon aus, dass Nutzer die Er­geb­nis­se un­ab­hän­gig von­ein­an­der be­trach­ten, also jeden Inhalt so bewerten, als wäre es der erste, den sie bezüglich der Such­an­fra­ge lesen. In der Praxis schätzen Suchende die Nütz­lich­keit einer In­for­ma­ti­on aber immer basierend auf bereits ge­sich­te­ten Inhalten ein.

Funk­ti­ons­wei­sen der In­for­ma­ti­ons­be­schaf­fung

Beim In­for­ma­ti­on Retrieval kommen – un­ab­hän­gig von den Modellen – ver­schie­de­ne Methoden und Ar­beits­tech­ni­ken zum Einsatz. Deren Ziel ist es immer, dem Nutzer die In­for­ma­ti­ons­su­che zu ver­ein­fa­chen und re­le­van­te­re Er­geb­nis­se zu liefern.

Term Frequency-Inverse Document Frequency

Mit der Kom­bi­na­ti­on aus Vor­kom­mens­häu­fig­keit von Begriffen und der inversen Do­ku­ment­häu­fig­keit wird die Wich­tig­keit eines Begriffs für eine Such­an­fra­ge berechnet. Der Wert wird abgekürzt als tf-idf.

  • Term Frequency: Die Such­wort­dich­te gibt an, wie häufig ein Begriff in einem Dokument auftaucht. Die reine Vor­kom­mens­häu­fig­keit kann al­ler­dings kein al­lei­ni­ges Indiz für die Relevanz des Textes sein. Denn in einem langen Dokument kommt der Such­be­griff u. U. häufiger vor als in einem kurzen. Deshalb sollte die Häu­fig­keit in Relation zum Umfang eines Dokuments gesehen werden. Dafür wird die Häu­fig­keit des Such­be­griffs durch die Häu­fig­keit des höchst­fre­quen­ten Wortes (z. B. „und“) geteilt:
  • Inverse Document Frequency: Für idf be­trach­tet man nicht nur ein einzelnes Dokument, sondern einen kom­plet­ten Text­kor­pus. Wörter, die nur in sehr wenigen Do­ku­men­ten zu finden sind, in diesen aber wiederum sehr häufig, haben eine höhere Relevanz als Begriffe, die in nahezu allen Texten vorkommen. So hat z. B. der Begriff „Inverse Do­ku­ment­häu­fig­keit“ einen deutlich höheren Wert als „und“.

Durch die Ver­bin­dung der beiden Tests können In­for­ma­ti­on-Retrieval-Systeme bessere Er­geb­nis­se liefern, als wenn sie allein ein­ge­setzt würden: Wäre nur die Term Frequency von Bedeutung, dann würde die Such­an­fra­ge „Die Sendung mit der Maus“ die­je­ni­gen Dokumente hoch ein­schät­zen, in denen die Wörter „die“, „mit“ und „der“ häufig vorkommen. Das ist aber of­fen­sicht­lich wenig hilfreich. Wird hingegen die Inverse Document Frequency hin­zu­ge­zo­gen, bekommen „Sendung“ und „Maus“ eine sehr viel größere Bedeutung für die Suche und werden als die ei­gent­li­chen Such­be­grif­fe erkannt.

Query Mo­di­fi­ca­ti­on

Ein großes Problem der In­for­ma­ti­ons­be­schaf­fung sind die Nutzer selbst: Durch zu ungenaue oder gar feh­ler­haf­te Anfragen erhalten sie falsche oder un­zu­rei­chen­de In­for­ma­tio­nen. Um dies zu vermeiden, haben In­for­ma­ti­ons­wis­sen­schaft­ler die Query Mo­di­fi­ca­ti­on ein­ge­führt. Hierbei verändert das System selbst­stän­dig die ein­ge­ge­be­ne Such­an­fra­ge. So werden z. B. Synonyme ein­ge­setzt, die bessere Er­geb­nis­se liefern. Dafür greift das System u. a. auf Thesauri und Nutzer-Feedback zurück. Um nicht auf die Mitarbeit des Nutzers an­ge­wie­sen zu sein, kann man auch ein so­ge­nann­tes Pseudo-Feedback anwenden. Bei dieser Methode liest das System verwandte Begriffe aus den besten Such­ergeb­nis­sen aus und schätzt diese als relevant für die ent­spre­chen­de Suche ein. Anfragen können u. a. durch diese Techniken erweitert oder ver­bes­sert werden:

  • Stopp­wort­eli­mi­nie­rung: Als Stopp­wör­ter be­zeich­net man solche Ausdrücke, die nicht oder nur un­we­sent­lich zum Inhalt des Textes beitragen. Es ist sinnvoll, Wörter wie „und“ oder alle Artikel nicht als re­prä­sen­ta­tiv für den Inhalt des Dokuments anzusehen.
  • Mehr­wort­grup­pen­iden­ti­fi­zie­rung: Grup­pie­run­gen von Wörtern müssen als solche erkannt werden. Diese Iden­ti­fi­zie­rung sorgt dafür, dass die Such­ma­schi­ne auch Teile von zu­sam­men­ge­setz­ten Wörtern als relevant ansieht.
  • Grund- und Stamm­form­re­du­zie­rung: Um ef­fek­ti­ver suchen zu können, müssen Wörter auf ihre Wort­stäm­me reduziert werden. Fle­xi­ons­for­men eines Wortes würden ansonsten nicht korrekt in den Such­ergeb­nis­sen auf­tau­chen.
  • Thesaurus: Neben den im ent­spre­chen­den Dokument auf­tau­chen­den Begriffen sollte ein In­for­ma­ti­on-Retrieval-System auch Synonyme des Wortes als relevant ansehen. Nur so lässt sich si­cher­stel­len, dass Nutzer auch das finden, was sie wirklich suchen.

Recall & Precision

Die Ef­fek­ti­vi­tät eines In­for­ma­ti­on-Retrieval-Systems wird gemeinhin mit den Faktoren Tref­fer­quo­te (recall) und Ge­nau­ig­keit (precision) berechnet. Beide werden als Quo­ti­en­ten dar­ge­stellt.

  • Recall: Wie voll­stän­dig sind die Such­ergeb­nis­se? Dafür wird die Anzahl der ge­fun­de­nen, re­le­van­ten gegenüber der Anzahl der nicht ge­fun­de­nen, re­le­van­ten Dokumente gestellt. Der Quotient gibt also an, wie wahr­schein­lich es ist, dass ein re­le­van­tes Dokument auch gefunden wird:
  • Precision: Wie genau ist das Such­ergeb­nis? Dafür wird die Anzahl der ge­fun­de­nen, re­le­van­ten gegenüber der Anzahl der ge­fun­de­nen, ir­rele­van­ten Dokumente gestellt. Der Quotient gibt also an, wie wahr­schein­lich es ist, dass ein ge­fun­de­nes Dokument relevant ist:

Beide Werte liegen dabei grund­sätz­lich zwischen 0 und 1, wobei 1 ein perfekter Wert wäre. Zudem schließen sich perfekte Er­geb­nis­se bei beiden Quo­ti­en­ten in der Praxis aus. Wer die Voll­stän­dig­keit des Such­ergeb­nis­ses erhöht, tut dies auf Kosten der Ge­nau­ig­keit und umgekehrt. Als weiterer Wert kann zudem der Fallout (also die Aus­fall­quo­te) berechnet werden: Dieser Quotient gibt die Falsch-Positiv-Rate wieder; er wird bestimmt aus dem Ver­hält­nis der ge­fun­de­nen, ir­rele­van­ten Dokumente zu den ir­rele­van­ten Inhalten, die nicht gefunden wurden. Dar­stel­len lassen sich Recall und Precision in einem Ach­sen­dia­gramm, bei dem jeder der beiden Werte je eine Achse belegt.

In­for­ma­ti­on Retrieval: Beispiel einer Suche

Jede In­ter­net­such­ma­schi­ne basiert auf In­for­ma­ti­on Retrieval. Somit wären Google, Bing und Yahoo pro­mi­nen­te Beispiele für die com­pu­ter­ge­stütz­te In­for­ma­ti­ons­be­schaf­fung. Um zu zeigen, wie IR in der Praxis funk­tio­niert, ist es aber sinn­vol­ler, ein ein­fa­che­res, eigenes Beispiel zu nehmen. Dabei gehen wir von einer Such­ma­trix in einer (sehr kleinen) Bi­blio­thek für Kin­der­bü­cher aus. In allen Büchern kommen Tiere vor, doch wir möchten nur solche Bücher finden, in denen Elefanten und Giraffen eine Rolle spielen, aber keine Krokodile. Eine Such­an­fra­ge mit der Boole­schen Methode würde demnach so aussehen: Elefant UND Giraffe NICHT Krokodil. Das Ergebnis der Suche kann immer nur 1 oder 0 sein: Kommt der Begriff vor oder kommt er nicht vor?

Das Ergebnis der Suche wäre also „Tim & Olli im Zoo“ und „Michael und der verrückte Zirkus“. Damit ist aber noch keine Ge­wich­tung der Er­geb­nis­se gegeben. In welchem Buch geht es mehr um Elefanten und Giraffen? Dafür kann das System die Term Frequency und die Inverse Document Frequency bestimmen:

„Tim & Olli im Zoo“ ist also wahr­schein­lich besser für die Suche nach einem Text mit Giraffen und Elefanten geeignet als „Michael und der verrückte Zoo“ und sollte deshalb an erster Stelle der Such­ergeb­nis­se auf­tau­chen. Die Methode, die wir hier angewandt haben, funk­tio­niert nur, wenn die Such­be­grif­fe fest­ge­legt sind (kon­trol­lier­te In­de­xie­rung). Dies kann z. B. in Fach­da­ten­ban­ken der Fall sein, bei dem die Nutzer in der Ver­wen­dung der Suchmaske geschult sind. In unserem Beispiel wäre eine Query Mo­di­fi­ca­ti­on sinnvoll: Außer „Elefant“ würden auch eine Suche nach „Dick­häu­ter“ sowie gram­ma­ti­sche Varianten dieser Wörter positive Er­geb­nis­se liefern.

Tipp

Neben Google gibt es noch viele weitere Such­ma­schi­nen im World Wide Web. Die Al­ter­na­ti­ven zu Google achten bei­spiels­wei­se oftmals stärker auf den Da­ten­schutz.

Zum Hauptmenü