Semi-Supervised Learning: Halbüberwachtes Lernen erklärt

Inhaltsverzeichnis

Beim Semi-Supervised Learning wird ein Modell sowohl mit beschrifteten als auch mit unbeschrifteten Daten trainiert. Dabei lernt der Algorithmus mithilfe weniger gelabelter Datenpunkte, Muster in den Dateninstanzen ohne bekannte Zielvariable zu erkennen, was zu einer präziseren und effizienteren Modellbildung führt.

Was bedeutet Semi-Supervised Learning?

Semi-Supervised Learning – im Deutschen als teil- oder halbüberwachtes Lernen bezeichnet – ist ein hybrider Ansatz im Bereich des maschinellen Lernens, der die Stärken des überwachten Lernens mit denen des unüberwachten Lernens kombiniert. Bei diesem Verfahren wird eine kleine Menge gekennzeichneter Daten zusammen mit einer großen Menge nicht markierter Daten verwendet, um KI-Modelle zu trainieren. Dies ermöglicht es dem Algorithmus, Muster in den nicht gekennzeichneten Datensätzen zu erkennen, welche durch die gelabelten Daten gestützt werden. Durch diesen kombinierten Lernprozess versteht das Modell die Struktur der unbeschrifteten Daten besser, was zu genaueren Vorhersagen führt.

KI-Lösungen

Mehr Digital-Power dank Künstlicher Intelligenz

In Sekunden zur Online-Präsenz
Mehr Wachstum mit KI-Marketing
Zeit und Ressourcen sparen

Prämissen beim Semi-Supervised Learning

Für Semi-Supervised Learning konzipierte Algorithmen gehen von verschiedenen Grundannahmen über das Datenmaterial aus:

Kontinuitätsannahme: Näher beieinander liegende Punkte haben mit höherer Wahrscheinlichkeit die gleiche Ausgabebezeichnung.
Clusterannahme: Die Daten lassen sich in diskrete Cluster unterteilen und im selben Cluster eingeordnete Punkte besitzen mit einer höheren Chance dasselbe Ausgangslabel.
Manifold-Annahme: Die Daten liegen näherungsweise auf einer Mannigfaltigkeit (Ansammlung von Punkten, die miteinander in Verbindung stehen), die eine geringere Dimension als der Eingaberaum aufweist. Aufgrund dieser Prämisse besteht die Möglichkeit, Abstände und Dichten zu verwenden.

Was ist der Unterschied zu Supervised und Unsupervised Learning?

Sowohl bei Supervised und Unsupervised Learning als auch bei Semi-Supervised Learning handelt es sich um grundlegende Ansätze im Machine Learning. Allerdings setzt jedes der Lernverfahren auf eine eigene Vorgehensweise, um KI-Modelle zu trainieren. Die nachfolgende Übersicht zeigt auf, worin sich Semi-Supervised Learning von den traditionellen Verfahren unterscheidet:

Supervised Learning – im Deutschen „überwachtes Lernen” – zeichnet sich dadurch aus, dass lediglich gelabelte Daten verwendet werden. Das bedeutet, jedes Datenbeispiel besitzt eine bekannte Zielvariable beziehungsweise Lösung, die der Algorithmus voraussagen soll. Dieser Machine-Learning-Ansatz gilt als sehr präzise, erfordert jedoch große Mengen an markierten Daten, deren Beschaffung oftmals teuer und zeitaufwendig ist.
Unsupervised Learning – im Deutschen „unüberwachtes Lernen” – arbeitet hingegen ausschließlich mit unstrukturierten Daten. Der Algorithmus versucht, in den Daten Muster oder Strukturen auszumachen, ohne dass eine Lösung vorgegeben wird. Unsupervised Learning bietet sich an, wenn keine gelabelten Daten zur Verfügung stehen, ist aufgrund fehlender externer Referenzpunkte jedoch möglicherweise in seiner Genauigkeit und Vorhersagekraft eingeschränkt.
Semi-Supervised Learning vereinigt beide Ansätze, indem es eine geringe Anzahl gelabelter Daten verwendet, um die Struktur einer großen unbeschrifteten Datenmenge zu durchblicken. Halbüberwachte Lerntechniken modifizieren einen überwachten Algorithmus, um nicht markierte Daten in das Modell zu integrieren. So lässt sich mit verhältnismäßig geringem Labeling-Aufwand eine hohe Präzision von Vorhersagen erzielen.

Mithilfe eines praktischen Beispiels lassen sich die Unterschiede zwischen den einzelnen Machine-Learning-Verfahren noch besser illustrieren. Bezogen auf Schulkinder ist folgende Analogie möglich: Überwachtes Lernen bedeutet, dass die Schülerinnen und Schüler sowohl in der Schule als auch zuhause unter Aufsicht stehen. Haben die Kinder die Aufgabe, sich in Eigenregie Wissen anzueignen, handelt es sich um unüberwachtes Lernen. Wird dagegen ein Konzept im Unterricht erläutert und mit Hausaufgaben vertieft, liegt halbüberwachtes Lernen vor.

Hinweis

In unserem Guide „Was ist Generative AI?” erläutern wir im Detail, worum es sich bei generativer KI handelt.

Wie funktioniert Semi-Supervised Learning?

Semi-Supervised Learning ist ein mehrstufiger Prozess, der folgende Schritte beinhaltet:

Ziel- oder Problemdefinition: Zunächst ist es erforderlich, die Ziele beziehungsweise den Einsatzzweck des Machine-Learning-Modells klar zu definieren. Im Fokus steht dabei die Frage, welche Optimierungen durch maschinelles Lernen angestrebt werden.
Daten-Labeling: Einige der unstrukturierten Daten werden gelabelt, um dem Lernalgorithmus eine Orientierungshilfe bereitzustellen. Damit Semi-Supervised Learning funktioniert, besteht die Notwendigkeit, für das Modelltraining relevante Daten zu verwenden. Wird ein Bildklassifikator beispielsweise darauf trainiert, zwischen Hunden und Katzen zu differenzieren, erweisen sich Trainingsbilder mit Autos und Zügen nicht als zielführend.
Modelltraining: In einem nächsten Schritt kommen die strukturierten Daten zum Einsatz, um dem Modell beizubringen, was seine Aufgabe ist und welche Ergebnisse angestrebt werden.
Training mit unbeschrifteten Daten: Nachdem das Modell mit Trainingsdaten geübt hat, erfolgt die Integration der nicht gelabelten Daten.
Auswertung und Modellverfeinerung: Um zu gewährleisten, dass das erstellte Modell korrekt arbeitet, sind Auswertungen und Modellanpassungen unerlässlich. Das Training trägt zu kontinuierlichen Verbesserungen bei. Der Prozess wird so lange durchlaufen, bis der Algorithmus die gewünschte Ergebnisqualität erreicht hat.

Das Schaubild zeigt ein einfaches Beispiel für die Funktionsweise von Semi-Supervised Learning: Auf Basis der bereits gelabelten Daten trifft das KI-Modell die korrekte Vorhersage.

Welche Vorteile bietet Semi-Supervised Learning?

Teilüberwachtes Lernen bietet vor allem dann großen Nutzen, wenn viele unbeschrifteten Daten bereitstehen und es sich als zu teuer oder schwierig erweist, sämtliche oder einen Großteil der Daten zu markieren. Dieser Umstand ist von Bedeutung, da das Training von KI-Modellen klassischerweise eine Vielzahl beschrifteter Daten benötigt, die den erforderlichen Kontext liefern. Damit es einem Bildklassifizierungsmodell gelingt, zwei Objekte – etwa einen Tisch und einen Stuhl – zu unterscheiden, sind bereits hunderte oder sogar tausende markierte Trainingsbilder notwendig. Dazu kommt noch, dass die Beschriftung der Daten – etwa im Bereich der genetischen Sequenzierung – spezifisches Fachwissen erfordert.

Mittels Semi-Supervised Learning lässt sich trotz einer niedrigen Anzahl an beschrifteten Daten eine hohe Genauigkeit erzielen, denn die gelabelten Datensätze werten nicht gekennzeichnete Datenmengen auf. Die strukturierten Daten fungieren als Starthilfe, welche die Lerngeschwindigkeit und Genauigkeit im Optimalfall signifikant erhöhen. Damit ermöglicht es der Ansatz, das Maximum aus einer begrenzten Menge an beschrifteten Daten herauszuholen und gleichzeitig eine Vielzahl unbeschrifteter Daten zu verwenden, was zu einer höheren Kosteneffizienz beiträgt.

Hinweis

Semi-Supervised Learning bringt natürlich auch Herausforderungen und Limitierungen mit sich: Sind beispielsweise die anfänglich gelabelten Daten fehlerhaft, kann dies zu falschen Schlussfolgerungen führen und die Qualität des Modells negativ beeinflussen. Zudem kann das Modell schnell voreingenommen werden, wenn die gelabelten und die nicht gelabelten Daten nicht repräsentativ für die Gesamtverteilung sind.

Was sind die wichtigsten Anwendungsgebiete für Semi-Supervised Learning?

Mittlerweile wird Semi-Supervised Learning in unterschiedlichen Kontexten verwendet, doch als Klassiker gelten immer noch Klassifizierungsaufgaben. Die nachfolgende Übersicht fasst wichtige Anwendungsgebiete zusammen:

Klassifizierung von Webinhalten: Suchmaschinen wie Google verwenden halbüberwachtes Lernen, um einzuschätzen, wie relevant Webseiten für bestimmte Suchanfragen sind.
Text- und Bildklassifizierung: Hier ist es das Ziel, vorgegebene Texte oder Bilder in eine oder mehrere vordefinierte Kategorien einzusortieren. Semi-Supervised Learning eignet sich sehr gut dafür, da eine große Menge an unmarkierten Daten existiert und das Labeln aller Datensätze viel zu zeit- und kostenintensiv wäre.
Sprachanalyse: Die Kennzeichnung von Audiodateien erweist sich ebenfalls als sehr aufwendig. Semi-Supervised Learning bietet einen natürlichen Ansatz, um dieses Problem zu lösen.
Analyse von Proteinsequenzen: Aufgrund der Größe von DNA-Strängen bietet sich halbüberwachtes Lernen ideal für die Analyse von Proteinsequenzen an.
Anomalie-Erkennung: Mithilfe von Semi-Supervised Learning lassen sich ungewöhnliche Muster erkennen, die nicht der Norm entsprechen.

IONOS CLOUD AI Model Hub

Erste deutsche, multimodale KI-Plattform

100 % DSGVO-konform und sicher in Deutschland gehostet
Die leistungsstärksten KI-Modelle auf einer Plattform
Kein Vendor Lock-in durch Open Source

Reviewer

Melissa Senn
Melissa Senn ist seit 2016 bei IONOS und fokussiert sich im Digital Guide auf die Bereiche Website, E-Commerce, Social Media sowie KI. Als Digitalstrategin nutzt sie ihre umfassende SEO- und GEO-Erfahrung, um komplexe technologische Trends in praxisnahe Inhalte zu verwandeln.

Passende Produkte

IONOS CLOUD AI Model Hub

KI-Wissen für Ihren Erfolg

Unser Newsletter bringt Ihnen die wichtigsten Insights rund um KI – verständlich, praxisnah und auf den Punkt.

Was ist Deep Learning?

Deep Learning ist ein Teilbereich des maschinellen Lernens, der künstliche neuronale Netzwerke nutzt, um große Datenmengen zu verarbeiten und komplexe Muster zu erkennen. Es ermöglicht Maschinen, durch mehrere Schichten von neuronalen Netzwerken zu lernen, um Aufgaben wie…

KI
Lexikon

Laurent Tshutterstock

Deep Learning vs. Machine Learning

Machine Learning ist ein Oberbegriff für Algorithmen, die aus Daten lernen, um Entscheidungen zu treffen. Deep Learning ist eine spezialisierte Form von Machine Learning, die neuronale Netzwerke mit mehreren Schichten verwendet, um Muster und Zusammenhänge in Datenmengen zu…

KI
Vergleich

kentohShutterstock

FLoC: Was ist Federated Learning of Cohorts?

Google plant, Third-Party-Cookies als Instrument für die Generierung von individuellen Nutzerprofilen in den kommenden Jahren aus dem hauseigenen Browser Chrome zu streichen. Werbung und Tracking soll allerdings auch in Zukunft möglich sein, weshalb der Suchmaschinenriese…

Tutorials
Sicherheit

whiteMoccashutterstock

Transfer Learning: Vortrainierte Modelle für neue Aufgaben nutzen

Beim Machine Learning werden Modelle für eine bestimmte Aufgabe trainiert. Möchten Sie die so gewonnenen Fähigkeiten anderweitig einsetzen, ist das Transfer Learning ein passender Ansatz. Hierbei verfolgt man das Ziel, die bereits antrainierten Fähigkeiten an eine neue…

KI
Ratgeber

Semi-Su­per­vi­sed Learning: Hal­b­über­wach­tes Lernen erklärt

Was bedeutet Semi-Su­per­vi­sed Learning?

Prämissen beim Semi-Su­per­vi­sed Learning

Was ist der Un­ter­schied zu Su­per­vi­sed und Un­su­per­vi­sed Learning?

Wie funk­tio­niert Semi-Su­per­vi­sed Learning?

Welche Vorteile bietet Semi-Su­per­vi­sed Learning?

Was sind die wich­tigs­ten An­wen­dungs­ge­bie­te für Semi-Su­per­vi­sed Learning?

Reviewer

Semi-Supervised Learning: Halbüberwachtes Lernen erklärt

Was bedeutet Semi-Supervised Learning?

Prämissen beim Semi-Supervised Learning

Was ist der Unterschied zu Supervised und Unsupervised Learning?

Wie funktioniert Semi-Supervised Learning?

Welche Vorteile bietet Semi-Supervised Learning?

Was sind die wichtigsten Anwendungsgebiete für Semi-Supervised Learning?