Beim Semi-Su­per­vi­sed Learning wird ein Modell sowohl mit be­schrif­te­ten als auch mit un­be­schrif­te­ten Daten trainiert. Dabei lernt der Al­go­rith­mus mithilfe weniger ge­la­bel­ter Da­ten­punk­te, Muster in den Da­ten­in­stan­zen ohne bekannte Ziel­va­ria­ble zu erkennen, was zu einer prä­zi­se­ren und ef­fi­zi­en­te­ren Mo­dell­bil­dung führt.

Was bedeutet Semi-Su­per­vi­sed Learning?

Semi-Su­per­vi­sed Learning – im Deutschen als teil- oder hal­b­über­wach­tes Lernen be­zeich­net – ist ein hybrider Ansatz im Bereich des ma­schi­nel­len Lernens, der die Stärken des über­wach­ten Lernens mit denen des un­über­wach­ten Lernens kom­bi­niert. Bei diesem Verfahren wird eine kleine Menge ge­kenn­zeich­ne­ter Daten zusammen mit einer großen Menge nicht mar­kier­ter Daten verwendet, um KI-Modelle zu trai­nie­ren. Dies er­mög­licht es dem Al­go­rith­mus, Muster in den nicht ge­kenn­zeich­ne­ten Da­ten­sät­zen zu erkennen, welche durch die ge­la­bel­ten Daten gestützt werden. Durch diesen kom­bi­nier­ten Lern­pro­zess versteht das Modell die Struktur der un­be­schrif­te­ten Daten besser, was zu genaueren Vor­her­sa­gen führt.

KI-Lösungen
Mehr Digital-Power dank Künst­li­cher In­tel­li­genz
  • In Sekunden zur Online-Präsenz
  • Mehr Wachstum mit KI-Marketing
  • Zeit und Res­sour­cen sparen

Prämissen beim Semi-Su­per­vi­sed Learning

Für Semi-Su­per­vi­sed Learning kon­zi­pier­te Al­go­rith­men gehen von ver­schie­de­nen Grund­an­nah­men über das Da­ten­ma­te­ri­al aus:

  1. Kon­ti­nui­täts­an­nah­me: Näher bei­ein­an­der liegende Punkte haben mit höherer Wahr­schein­lich­keit die gleiche Aus­ga­be­be­zeich­nung.
  2. Clus­ter­an­nah­me: Die Daten lassen sich in diskrete Cluster un­ter­tei­len und im selben Cluster ein­ge­ord­ne­te Punkte besitzen mit einer höheren Chance dasselbe Aus­gangs­la­bel.
  3. Manifold-Annahme: Die Daten liegen nä­he­rungs­wei­se auf einer Man­nig­fal­tig­keit (An­samm­lung von Punkten, die mit­ein­an­der in Ver­bin­dung stehen), die eine geringere Dimension als der Ein­ga­be­raum aufweist. Aufgrund dieser Prämisse besteht die Mög­lich­keit, Abstände und Dichten zu verwenden.

Was ist der Un­ter­schied zu Su­per­vi­sed und Un­su­per­vi­sed Learning?

Sowohl bei Su­per­vi­sed und Un­su­per­vi­sed Learning als auch bei Semi-Su­per­vi­sed Learning handelt es sich um grund­le­gen­de Ansätze im Machine Learning. Al­ler­dings setzt jedes der Lern­ver­fah­ren auf eine eigene Vor­ge­hens­wei­se, um KI-Modelle zu trai­nie­ren. Die nach­fol­gen­de Übersicht zeigt auf, worin sich Semi-Su­per­vi­sed Learning von den tra­di­tio­nel­len Verfahren un­ter­schei­det:

  • Su­per­vi­sed Learning – im Deutschen „über­wach­tes Lernen” – zeichnet sich dadurch aus, dass lediglich gelabelte Daten verwendet werden. Das bedeutet, jedes Da­ten­bei­spiel besitzt eine bekannte Ziel­va­ria­ble be­zie­hungs­wei­se Lösung, die der Al­go­rith­mus vor­aus­sa­gen soll. Dieser Machine-Learning-Ansatz gilt als sehr präzise, erfordert jedoch große Mengen an mar­kier­ten Daten, deren Be­schaf­fung oftmals teuer und zeit­auf­wen­dig ist.
  • Un­su­per­vi­sed Learning – im Deutschen „un­über­wach­tes Lernen” – arbeitet hingegen aus­schließ­lich mit un­struk­tu­rier­ten Daten. Der Al­go­rith­mus versucht, in den Daten Muster oder Struk­tu­ren aus­zu­ma­chen, ohne dass eine Lösung vor­ge­ge­ben wird. Un­su­per­vi­sed Learning bietet sich an, wenn keine ge­la­bel­ten Daten zur Verfügung stehen, ist aufgrund fehlender externer Re­fe­renz­punk­te jedoch mög­li­cher­wei­se in seiner Ge­nau­ig­keit und Vor­her­sa­ge­kraft ein­ge­schränkt.
  • Semi-Su­per­vi­sed Learning vereinigt beide Ansätze, indem es eine geringe Anzahl ge­la­bel­ter Daten verwendet, um die Struktur einer großen un­be­schrif­te­ten Da­ten­men­ge zu durch­bli­cken. Hal­b­über­wach­te Lern­tech­ni­ken mo­di­fi­zie­ren einen über­wach­ten Al­go­rith­mus, um nicht markierte Daten in das Modell zu in­te­grie­ren. So lässt sich mit ver­hält­nis­mä­ßig geringem Labeling-Aufwand eine hohe Präzision von Vor­her­sa­gen erzielen.

Mithilfe eines prak­ti­schen Beispiels lassen sich die Un­ter­schie­de zwischen den einzelnen Machine-Learning-Verfahren noch besser il­lus­trie­ren. Bezogen auf Schul­kin­der ist folgende Analogie möglich: Über­wach­tes Lernen bedeutet, dass die Schü­le­rin­nen und Schüler sowohl in der Schule als auch zuhause unter Aufsicht stehen. Haben die Kinder die Aufgabe, sich in Ei­gen­re­gie Wissen an­zu­eig­nen, handelt es sich um un­über­wach­tes Lernen. Wird dagegen ein Konzept im Un­ter­richt erläutert und mit Haus­auf­ga­ben vertieft, liegt hal­b­über­wach­tes Lernen vor.

Hinweis

In unserem Guide „Was ist Ge­ne­ra­ti­ve AI?” erläutern wir im Detail, worum es sich bei ge­ne­ra­ti­ver KI handelt.

Wie funk­tio­niert Semi-Su­per­vi­sed Learning?

Semi-Su­per­vi­sed Learning ist ein mehr­stu­fi­ger Prozess, der folgende Schritte be­inhal­tet:

  1. Ziel- oder Pro­blem­de­fi­ni­ti­on: Zunächst ist es er­for­der­lich, die Ziele be­zie­hungs­wei­se den Ein­satz­zweck des Machine-Learning-Modells klar zu de­fi­nie­ren. Im Fokus steht dabei die Frage, welche Op­ti­mie­run­gen durch ma­schi­nel­les Lernen an­ge­strebt werden.
  2. Daten-Labeling: Einige der un­struk­tu­rier­ten Daten werden gelabelt, um dem Lern­al­go­rith­mus eine Ori­en­tie­rungs­hil­fe be­reit­zu­stel­len. Damit Semi-Su­per­vi­sed Learning funk­tio­niert, besteht die Not­wen­dig­keit, für das Mo­dell­trai­ning relevante Daten zu verwenden. Wird ein Bild­klas­si­fi­ka­tor bei­spiels­wei­se darauf trainiert, zwischen Hunden und Katzen zu dif­fe­ren­zie­ren, erweisen sich Trai­nings­bil­der mit Autos und Zügen nicht als ziel­füh­rend.
  3. Mo­dell­trai­ning: In einem nächsten Schritt kommen die struk­tu­rier­ten Daten zum Einsatz, um dem Modell bei­zu­brin­gen, was seine Aufgabe ist und welche Er­geb­nis­se an­ge­strebt werden.
  4. Training mit un­be­schrif­te­ten Daten: Nachdem das Modell mit Trai­nings­da­ten geübt hat, erfolgt die In­te­gra­ti­on der nicht ge­la­bel­ten Daten.
  5. Aus­wer­tung und Mo­dell­ver­fei­ne­rung: Um zu ge­währ­leis­ten, dass das erstellte Modell korrekt arbeitet, sind Aus­wer­tun­gen und Mo­dell­an­pas­sun­gen un­er­läss­lich. Das Training trägt zu kon­ti­nu­ier­li­chen Ver­bes­se­run­gen bei. Der Prozess wird so lange durch­lau­fen, bis der Al­go­rith­mus die ge­wünsch­te Er­geb­nis­qua­li­tät erreicht hat.
Bild: Schaubild zu Semi-Supervised Learning
Das Schaubild zeigt ein einfaches Beispiel für die Funk­ti­ons­wei­se von Semi-Su­per­vi­sed Learning: Auf Basis der bereits ge­la­bel­ten Daten trifft das KI-Modell die korrekte Vor­her­sa­ge.

Welche Vorteile bietet Semi-Su­per­vi­sed Learning?

Teil­über­wach­tes Lernen bietet vor allem dann großen Nutzen, wenn viele un­be­schrif­te­ten Daten be­reit­ste­hen und es sich als zu teuer oder schwierig erweist, sämtliche oder einen Großteil der Daten zu markieren. Dieser Umstand ist von Bedeutung, da das Training von KI-Modellen klas­si­scher­wei­se eine Vielzahl be­schrif­te­ter Daten benötigt, die den er­for­der­li­chen Kontext liefern. Damit es einem Bild­klas­si­fi­zie­rungs­mo­dell gelingt, zwei Objekte – etwa einen Tisch und einen Stuhl – zu un­ter­schei­den, sind bereits hunderte oder sogar tausende markierte Trai­nings­bil­der notwendig. Dazu kommt noch, dass die Be­schrif­tung der Daten – etwa im Bereich der ge­ne­ti­schen Se­quen­zie­rung – spe­zi­fi­sches Fach­wis­sen erfordert.

Mittels Semi-Su­per­vi­sed Learning lässt sich trotz einer niedrigen Anzahl an be­schrif­te­ten Daten eine hohe Ge­nau­ig­keit erzielen, denn die ge­la­bel­ten Da­ten­sät­ze werten nicht ge­kenn­zeich­ne­te Da­ten­men­gen auf. Die struk­tu­rier­ten Daten fungieren als Start­hil­fe, welche die Lern­ge­schwin­dig­keit und Ge­nau­ig­keit im Op­ti­mal­fall si­gni­fi­kant erhöhen. Damit er­mög­licht es der Ansatz, das Maximum aus einer be­grenz­ten Menge an be­schrif­te­ten Daten her­aus­zu­ho­len und gleich­zei­tig eine Vielzahl un­be­schrif­te­ter Daten zu verwenden, was zu einer höheren Kos­ten­ef­fi­zi­enz beiträgt.

Hinweis

Semi-Su­per­vi­sed Learning bringt natürlich auch Her­aus­for­de­run­gen und Li­mi­tie­run­gen mit sich: Sind bei­spiels­wei­se die an­fäng­lich ge­la­bel­ten Daten feh­ler­haft, kann dies zu falschen Schluss­fol­ge­run­gen führen und die Qualität des Modells negativ be­ein­flus­sen. Zudem kann das Modell schnell vor­ein­ge­nom­men werden, wenn die ge­la­bel­ten und die nicht ge­la­bel­ten Daten nicht re­prä­sen­ta­tiv für die Ge­samt­ver­tei­lung sind.

Was sind die wich­tigs­ten An­wen­dungs­ge­bie­te für Semi-Su­per­vi­sed Learning?

Mitt­ler­wei­le wird Semi-Su­per­vi­sed Learning in un­ter­schied­li­chen Kontexten verwendet, doch als Klassiker gelten immer noch Klas­si­fi­zie­rungs­auf­ga­ben. Die nach­fol­gen­de Übersicht fasst wichtige An­wen­dungs­ge­bie­te zusammen:

  • Klas­si­fi­zie­rung von Web­in­hal­ten: Such­ma­schi­nen wie Google verwenden hal­b­über­wach­tes Lernen, um ein­zu­schät­zen, wie relevant Webseiten für bestimmte Such­an­fra­gen sind.
  • Text- und Bild­klas­si­fi­zie­rung: Hier ist es das Ziel, vor­ge­ge­be­ne Texte oder Bilder in eine oder mehrere vor­de­fi­nier­te Ka­te­go­rien ein­zu­sor­tie­ren. Semi-Su­per­vi­sed Learning eignet sich sehr gut dafür, da eine große Menge an un­mar­kier­ten Daten existiert und das Labeln aller Da­ten­sät­ze viel zu zeit- und kos­ten­in­ten­siv wäre.
  • Sprach­ana­ly­se: Die Kenn­zeich­nung von Au­dio­da­tei­en erweist sich ebenfalls als sehr aufwendig. Semi-Su­per­vi­sed Learning bietet einen na­tür­li­chen Ansatz, um dieses Problem zu lösen.
  • Analyse von Pro­te­in­se­quen­zen: Aufgrund der Größe von DNA-Strängen bietet sich hal­b­über­wach­tes Lernen ideal für die Analyse von Pro­te­in­se­quen­zen an.
  • Anomalie-Erkennung: Mithilfe von Semi-Su­per­vi­sed Learning lassen sich un­ge­wöhn­li­che Muster erkennen, die nicht der Norm ent­spre­chen.
IONOS AI Model Hub
Erste deutsche, mul­ti­mo­da­le KI-Plattform
  • 100 % DSGVO-konform und sicher in Deutsch­land gehostet
  • Die leis­tungs­stärks­ten KI-Modelle auf einer Plattform
  • Kein Vendor Lock-in durch Open Source
Zum Hauptmenü