Reinforcement Learning (übersetzt etwa verstärkendes Lernen) ist ein Teilgebiet des maschinellen Lernens, bei dem ein Agent durch Belohnung und Bestrafung lernt, optimale Entscheidungen in einer Umgebung zu treffen. Dabei probiert er verschiedene Aktionen aus und verbessert sein Verhalten schrittweise, um langfristig den größtmöglichen Nutzen zu erzielen.

IONOS AI Model Hub
Erste deutsche, multimodale KI-Plattform
  • 100 % DSGVO-konform und sicher in Deutschland gehostet
  • Die leistungsstärksten KI-Modelle auf einer Plattform
  • Kein Vendor Lock-in durch Open Source

Was ist Reinforcement Learning?

Wörtlich übersetzt bedeutet Reinforcement Learning „bestärkendes“ bzw. „verstärkendes“ Lernen. Dieser Begriff beschreibt eine Methode im Bereich Machine Learning. Neben Supervised Learning und Unsupervised Learning stellt Reinforcement Learning die dritte Möglichkeit dar, Algorithmen und Agenten so anzulernen, dass sie selbstständig Entscheidungen treffen können. Der Fokus liegt dabei auf der Entwicklung von intelligenten Lösungen für komplexe Steuerungsprobleme.

Bei dieser Möglichkeit des Machine Learnings werden im Gegensatz zum Supervised und Unsupervised Learning keine Daten zur Konditionierung benötigt. Stattdessen werden die Daten in einem Trial-and-Error-Verfahren während des Trainings generiert und gleichzeitig mit einem Label versehen. Dabei durchläuft das Programm etliche Trainingsdurchläufe innerhalb einer Simulationsumgebung, um ein exaktes Ergebnis abzuliefern. Es werden also nur Impulse gesetzt, die das System unterstützen.

Das gewünschte Ergebnis dieses Trainings ist es, dass die künstliche Intelligenz ohne menschliches Vorwissen in der Lage ist, sehr komplexe Steuerungsprobleme autonom zu lösen. Im Vergleich zum konventionellen Engineering ist dies schneller, effizienter und liefert im idealen Fall auch das optimale Ergebnis.

Wie funktioniert Reinforcement Learning?

Reinforcement Learning beschreibt zahlreiche Einzelmethoden, bei denen ein Algorithmus bzw. Software-Agent selbstständig Strategien erlernt. Das Ziel ist es, Belohnungen innerhalb einer Simulationsumgebung zu maximieren. Der Computer führt eine Aktion aus und erhält anschließend ein Feedback. Der Software-Agent erhält dabei vorab keinerlei Informationen, welche Aktionen die vielversprechendsten sind, und muss seine Vorgehensweise im Trial-and-Error-Verfahren selbst bestimmen.

Um den Erfolg des Prozesses zu optimieren, erhält der Computer zu unterschiedlichen Zeitpunkten Belohnungen, die einen Einfluss auf seine Strategien haben. Mit diesen Ereignissen lernt der Software-Agent, die Folge von bestimmten Aktionen innerhalb der Simulationsumgebung einzuschätzen.

Bild: Schaubild zur Funktionsweise von Reinforcement Learning
Die Belohnungen werden durch den Reinforcement-Learning-Algorithmus verarbeitet und beeinflussen die Policy des Agenten.

Um ein Reinforcement-Learning-System effektiv zu trainieren, kommt häufig Q-Learning zum Einsatz. Dabei beschreibt die Q-Funktion den erwarteten zukünftigen Nutzen einer bestimmten Aktion in einem gegebenen Zustand. Ziel des bestärkenden Lernens ist es, auf Basis dieser Schätzungen eine optimale Verhaltensstrategie zu entwickeln.

Hinweis

Traditionell wird im Q-Learning die Policy in einer Q-Tabelle abgebildet, in der Zustände und Aktionen explizit aufgeführt sind und jede Kombination einen Wert für die erwartete Belohnung enthält. Dieses Verfahren ist jedoch nur in stark vereinfachten Umgebungen praktikabel. In modernen Szenarien mit großen oder kontinuierlichen Zustands- und Aktionsräumen wird die Q-Tabelle durch Funktionsapproximationen ersetzt. Hierbei kommen meist neuronale Netze zum Einsatz.

Wo und wann wird Reinforcement Learning eingesetzt?

Reinforcement Learning wird in vielen verschiedenen Bereichen eingesetzt, in denen Maschinen oder Systeme eigenständig Entscheidungen treffen und aus ihren Erfahrungen lernen sollen. Ziel ist es dabei immer, durch kontinuierliches Lernen bessere Strategien zu entwickeln und Prozesse zu optimieren. Zentrale Einsatzgebiete sind beispielsweise:

  • Robotik: Im Bereich der Robotik hilft Reinforcement Learning zum Beispiel Robotern dabei, komplexe Bewegungsabläufe wie Greifen, Gehen oder Navigieren zu erlernen. Statt jede Bewegung manuell zu programmieren, lernen Roboter durch Versuch und Irrtum, wie sie Aufgaben effizient ausführen können. So können sie sich auch an neue Umgebungen oder Situationen anpassen.
  • Spielentwicklung und KI-Training: Berühmt wurde das verstärkende Lernen durch seine Erfolge in Spielen wie Schach, Go oder Videospielen. Künstliche Intelligenzen lernen dabei durch Millionen von Simulationen, optimale Strategien zu entwickeln und selbst menschliche Spielerinnen und Spieler zu übertreffen.
  • Finanzwesen: In der Finanzwelt wird die Lernmethode eingesetzt, um Handelsstrategien zu optimieren oder Portfolios automatisch zu verwalten. Der Algorithmus lernt, auf Marktveränderungen zu reagieren und Risiken sowie Erträge abzuwägen. Dadurch kann er langfristig bessere Investitionsentscheidungen treffen.
  • Steuerung komplexer Systeme: Ein weiteres Reinforcement-Learning-Beispiel ist die Steuerung anspruchsvoller Systeme wie intelligenter Verkehrssysteme. So liefert es intelligente Lösungen bei der Qualitätsüberwachung. Darüber hinaus wird das bestärkende Lernen bei intelligenten Stromnetzen, der Optimierung von Lieferketten in diversen Logistikunternehmen oder der Fabrikautomatisierung genutzt.
  • Medizin und Energieoptimierung: In der Medizin unterstützt Reinforcement Learning personalisierte Behandlungen, indem es optimale Therapiepläne vorschlägt. In der Energieversorgung hilft es, den Verbrauch und die Verteilung von Energie dynamisch zu steuern, um Ressourcen zu schonen und Kosten zu senken.
Tipp

Um das Schreiben neuer Reinforcement-Learning-Algorithmen zu vereinfachen, gibt es verschiedene Bibliotheken. So hat das auf künstliche Intelligenz spezialisierte Unternehmen DeepMind mit Acme eine spezielle Bibliothek für die Programmiersprache Python veröffentlicht. Auch die Stable-Baselines3-Bibliothek enthält bereits viele fertige Implementierungen beliebter Algorithmen.

War dieser Artikel hilfreich?
Zum Hauptmenü