Als Machine-Learning-System greift RankBrain dabei auf seine Erfahrung mit vorhergehenden Suchanfragen zurück, stellt Verknüpfungen her und trifft darauf aufbauend Vorhersagen darüber, was der jeweilige Nutzer sucht und wie dessen Anfrage am besten zu beantworten ist. Dabei gilt es, Ambiguitäten aufzulösen und die Bedeutung bisher unbekannter Begriffe (z. B. Neologismen) zu erschließen.
Wie das KI-System diese Herausforderung meistert, verrät Google allerdings nicht. SEO-Experten vermuten jedoch, dass RankBrain Suchanfragen mithilfe von Wortvektoren in eine Form überträgt, die es Computern ermöglicht, Sinnzusammenhänge zu interpretieren.
Bereit 2013 hat Google die quelloffene Machine-Learning-Software Word2Vec veröffentlicht, mit der sich semantische Beziehungen zwischen Wörtern in eine mathematische Darstellung überführen, messen und vergleichen lassen. Grundlage dieser Analyse sind linguistische Textkorpora.
Um Sinnzusammenhänge zwischen Wörtern zu „lernen“, erzeugt Word2Vec im ersten Schritt einen n-dimensionalen Vektorraum, in dem jedes Wort des zugrundeliegenden Textkorpus (man spricht von „Trainingsdaten“) als Vektor repräsentiert ist. Dabei gibt n an, in wie vielen Vektordimensionen ein Wort abgebildet werden soll. Je mehr Dimensionen für die Wortvektoren gewählt werden, desto mehr Relationen zu anderen Wörtern erfasst das Programm.
Im zweiten Schritt wird der erstellte Vektorraum in ein künstliches neuronales Netz (KNN) eingespeist, das es ermöglicht, diesen mithilfe eines Lernalgorithmus so anzupassen, dass Wörter, die im gleichen Kontext verwendet werden, auch einen ähnlichen Wortvektor bilden. Die Ähnlichkeit zwischen Wortvektoren wird anhand der sogenannten Kosinus-Distanz als Wert zwischen -1 und +1 berechnet.
Kurz gesagt: Gibt man Word2Vec einen beliebigen Textkorpus als Input, liefert das Programm entsprechende Wortvektoren als Output. Diese ermöglichen eine Beurteilung der semantischen Nähe bzw. Distanz der im Korpus enthaltenen Wörter. Wird Word2Vec mit neuem Input konfrontiert, ist das Programm dank des Lernalgorithmus in der Lage, den Vektorraum anzupassen und somit neue Bedeutungszusammenhänge herzustellen oder alte Annahmen zu verwerfen: Das neuronale Netz wird „trainiert“.