Con­vo­lu­tio­nal Neural Networks (ConvNets, CNN) sind künst­li­che neuronale Netze, deren Schichten (Con­vo­lu­tio­nal Layer) auf Ein­ga­be­da­ten an­ge­wen­det werden, um Merkmale zu ex­tra­hie­ren und schließ­lich ein Objekt zu iden­ti­fi­zie­ren. Das macht ConvNets zu einem wichtigen Be­stand­teil von Deep Learning.

Was sind Con­vo­lu­tio­nal Neural Networks (CNN)?

Con­vo­lu­tio­nal Neural Networks (auf Deutsch etwa: faltende neuronale Netzwerke) sind spe­zia­li­sier­te Arten von künst­li­chen neu­ro­na­len Netz­wer­ken, die besonders effektiv bei der Ver­ar­bei­tung und Analyse von visuellen Daten wie Bildern und Videos sind. Diese Netze sind wichtig beim Machine Learning – und da besonders beim Deep Learning.

ConvNets setzen sich aus Kno­ten­schich­ten zusammen, die eine Ein­ga­be­schicht, eine oder mehrere ver­steck­te Schichten und eine Aus­ga­be­schicht be­inhal­ten. Die einzelnen Kno­ten­punk­te sind un­ter­ein­an­der verbunden und verfügen über eine ent­spre­chen­de Ge­wich­tung sowie einen Schwel­len­wert. Sobald die Ausgabe eines einzelnen Knotens den an­ge­ge­be­nen Schwel­len­wert über­steigt, wird dieser aktiviert und sendet Daten an die nächste Schicht des Netzwerks.

Es gibt ver­schie­de­ne Arten von neu­ro­na­len Netzen, die für un­ter­schied­li­che An­wen­dun­gen und Da­ten­ty­pen ein­ge­setzt werden. Bei­spiels­wei­se werden re­kur­ren­te neuronale Netze häufig für die Ver­ar­bei­tung na­tür­li­cher Sprache und Sprach­er­ken­nung verwendet, während Con­vo­lu­tio­nal Neural Networks (CNNs) häufiger für Klas­si­fi­ka­ti­ons- und Computer-Vision-Aufgaben ein­ge­setzt werden. Ihre Fähigkeit, komplexe Muster in Daten zu erkennen, macht sie zu einem wichtigen Werkzeug der künst­li­chen In­tel­li­genz.

KI-Lösungen
Mehr Digital-Power dank Künst­li­cher In­tel­li­genz
  • In Sekunden zur Online-Präsenz
  • Mehr Wachstum mit KI-Marketing
  • Zeit und Res­sour­cen sparen

Struktur und Aufbau von Con­vo­lu­tio­nal Neural Networks

ConvNets un­ter­schei­den sich von anderen neu­ro­na­len Netz­wer­ken durch ihre über­le­ge­ne Leistung bei der Ver­ar­bei­tung von Bild-, Sprach- oder Au­dio­si­gna­len. Sie haben drei Haupt­ty­pen von Schichten und mit jeder davon wird das CNN komplexer und iden­ti­fi­ziert bei­spiels­wei­se größere Teile eines Bildes.

Kom­pa­ti­bi­li­tät eines Bildes mit dem Al­go­rith­mus der ConvNets

Bilder werden von Computer als Zah­len­kom­bi­na­tio­nen, ergo die Anzahl der Pixel, erkannt. Dies trifft ebenfalls auf den CNN-Al­go­rith­mus zu: Ein Schwarz-Weiß-Bild wird mit der Länge m und der Breite n als 2-di­men­sio­na­les Array der Größe mXn dar­ge­stellt; im Falle eines farbigen Bildes derselben Größe wird ein 3-di­men­sio­na­les Array verwendet. Jede Zelle in diesem Array enthält den ent­spre­chen­den Pixelwert und jedes Bild wird durch die ent­spre­chen­den Pi­xel­wer­te in drei un­ter­schied­li­chen Kanälen dar­ge­stellt, die jeweils zu einem roten, blauen und grünen Kanal gehören.

An­schlie­ßend werden die wich­tigs­ten Merkmale des Bildes iden­ti­fi­ziert. Diese werden mit einer Methode ex­tra­hiert, die als Faltung (Kon­vo­lu­ti­on) bekannt ist. Dies ist eine Operation, bei der eine Funktion die Form einer anderen Funktion verändert (bzw. faltet). Faltungen in Bildern werden im All­ge­mei­nen aus ver­schie­de­nen Gründen verwendet, z. B. zum Schärfen, Glätten und Ver­stär­ken. In CNN hingegen werden Kon­vo­lu­tio­nen verwendet, um markante Merkmale in Bildern zu ex­tra­hie­ren.

Um wichtige Merkmale aus einem Bild zu ex­tra­hie­ren, wird ein Filter oder Kern verwendet. Ein Filter ist ein Array, das das zu ex­tra­hie­ren­de Merkmal re­prä­sen­tiert. Dieser Filter wird über das Ein­gangs­ar­ray gelegt und das re­sul­tie­ren­de Array ist ein zwei­di­men­sio­na­les Array, das die Kor­re­la­ti­on des Bildes in Bezug auf den ver­wen­de­ten Filter enthält. Die Aus­ga­be­ma­trix wird als Feature Map (Merk­mal­s­kar­te) be­zeich­net.

Merkmale der un­ter­schied­li­chen Fal­tungs­schich­ten

Während des Fal­tungs­pro­zes­ses bzw. der Kon­vo­lu­ti­on wird das Ein­ga­be­feld in ein kleineres Feld um­ge­wan­delt, wobei die räumliche Kor­re­la­ti­on zwischen den Pixeln durch die Anwendung von Filtern erhalten bleibt. Im Folgenden werden die drei Haupt­ty­pen von Fal­tungs­schich­ten vor­ge­stellt:

  • Con­vo­lu­tio­nal Layer: Diese Fal­tungs­schicht ist die erste Schicht eines Fal­tungs­netz­werks. Sie verwendet Filter (kleine Matrizen von Gewichten), die über das Bild gleiten, um lokale Merkmale wie Kanten, Ecken und Texturen zu erkennen. Jeder Filter erzeugt eine Feature Map, die spe­zi­fi­schen Muster her­vor­hebt. Eine weitere Fal­tungs­schicht kann auf die erste Fal­tungs­schicht folgen und somit die Struktur des CNN hier­ar­chisch werden lassen, da die späteren Schichten die Pixel innerhalb der re­zep­ti­ven Felder der vor­he­ri­gen Schichten sehen können.
  • Pooling Layer: Dieser Layer reduziert die Größe der Feature Maps, indem er lokale Bereiche zu­sam­men­fasst und nicht relevante In­for­ma­tio­nen verwirft. Dies ver­rin­gert die Re­chen­kom­ple­xi­tät, während es die wich­tigs­ten In­for­ma­tio­nen behält.
  • Fully Connected Layer: Diese Schicht verbindet alle Neuronen mit­ein­an­der, ähnlich wie in einem na­tür­li­chen neu­ro­na­len Netzwerk. Sie dient der finalen Klas­si­fi­ka­ti­on und kom­bi­niert die ex­tra­hier­ten Merkmale zu einer Ent­schei­dung, bis es schließ­lich das ge­wünsch­te Objekt iden­ti­fi­ziert.

Ver­an­schau­li­chung des Fal­tungs­pro­zes­ses

Stellen Sie sich vor: Sie versuchen bei­spiels­wei­se zu bestimmen, ob ein Bild ein mensch­li­ches Gesicht enthält. Sie können sich das Gesicht als eine Summe von seinen Teilen vor­stel­len: Es hat zwei Augen, eine Nase, einen Mund, zwei Ohren und so weiter. Der Fal­tungs­pro­zess würde wie folgt ablaufen:

  1. Erste Fal­tungs­schicht: Die ersten Con­vo­lu­tio­nal Layers verwenden Filter, um Merkmale aus den einzelnen Pixeln zu erkennen. So erkennt ein Filter mög­li­cher­wei­se eine vertikale Kante, die den Rand eines Auges dar­stel­len könnte. Wie bereits erwähnt, bilden lokale Merkmale Muster, die bei der Kon­vo­lu­ti­on in eine Feature Map re­gis­triert werden. In diesem Fall könnte eine Feature Map die Kanten der Augen, der Nase und des Mundes dar­stel­len.
  2. Weitere Fal­tungs­schich­ten: Auf Fal­tungs­schich­ten können weitere Fal­tungs­schich­ten oder Pooling-Schichten folgen. Auf diese Weise würden die einzelnen Muster in der Kom­bi­na­ti­on nach und nach ein mensch­li­ches Gesicht abbilden. Die nächsten Fal­tungs­schich­ten kom­bi­nie­ren die einfachen Merkmale zu kom­ple­xe­ren Mustern. So könnten Kanten und Ecken zu Formen kom­bi­niert werden, die Augen dar­stel­len. Diese Schichten sehen größere Bereiche des Bildes (rezeptive Felder) und erkennen dadurch zu­sam­men­ge­setz­te Struk­tu­ren, so­ge­nann­te Merk­mals­hier­ar­chien innerhalb der Fal­tungs­schich­ten. Eine spätere Schicht könnte erkennen, dass zwei Augen und ein Mund in einer be­stimm­ten Anordnung ein Gesicht bilden.
  3. Pooling-Schichten: Diese re­du­zie­ren die Größe der Feature Maps und abs­tra­hie­ren die Merkmale weiter. Dabei werden die we­sent­li­chen Merkmale bei­be­hal­ten und die Anzahl der zu ver­ar­bei­ten­den Daten reduziert.
  4. Fully Connected Layer: Ab­schlie­ßend entsteht die letzte Schicht des ConvNets, die voll­stän­dig ver­bun­de­ne Schicht. In diesem Fall würde es das Bild eines mensch­li­chen Gesichts ergeben, dass dank der Kon­vo­lu­ti­on eindeutig von einem anderen Gesicht zu un­ter­schei­den wäre.
Bild: Schaubild eines Convolutional Neural Networks
ConvNets ex­tra­hie­ren relevante Merkmale au­to­ma­tisch und iden­ti­fi­zie­ren Objekte in Bildern

Darüber hinaus op­ti­mie­ren Techniken wie Dropout und Re­gu­la­ri­sie­rung die Netzwerke, indem sie Über­an­pas­sung ver­hin­dern. Ak­ti­vie­rungs­funk­tio­nen wie ReLU (Rectified Linear Unit) sorgen für Nicht-Li­nea­ri­tät und helfen dem Netzwerk, kom­ple­xe­re Muster zu erkennen, indem nicht alle Neuronen die gleichen Be­rech­nun­gen durch­füh­ren. Zu­sätz­lich sta­bi­li­siert und be­schleu­nigt die Batch-Nor­ma­li­sie­rung das Training, indem die Daten gleich­mä­ßi­ger ver­ar­bei­tet werden.

An­wen­dungs­ge­bie­te von Con­vo­lu­tio­nal Neural Networks

Bevor es CNNs gab, wurden manuelle, zeit­auf­wän­di­ge Methoden der Merk­malsextrak­ti­on verwendet, um Objekte in Bildern zu iden­ti­fi­zie­ren. Faltende neuronale Netze bieten einen ska­lier­ba­re­ren Ansatz für Bild­klas­si­fi­ka­ti­ons- und Ob­jekt­er­ken­nungs­auf­ga­ben. Sie nutzen Prin­zi­pi­en der linearen Algebra, ins­be­son­de­re die Matrix-Mul­ti­pli­ka­ti­on, um Muster in einem Bild zu erkennen. CNNs finden heut­zu­ta­ge viel­sei­ti­ge Anwendung in:

  • Bild- und Sprach­er­ken­nung: Au­to­ma­ti­sche Erkennung von Objekten oder Personen in Bildern und Videos, zum Beispiel für Fo­totag­ging-Dienste in Smart­phones, Facial Re­co­gni­ti­on Systems oder Sprach­as­sis­ten­ten wie Siri bzw. Alexa.
  • Me­di­zi­ni­sche Dia­gnos­tik: Analyse von me­di­zi­ni­schen Bildern dank KI-Bil­der­ken­nung zur Un­ter­stüt­zung der Dia­gno­se­stel­lung, zum Beispiel Rönt­gen­bil­dern, CT-Scans und MRTs.
  • Autonome Fahrzeuge: Erkennung von Stra­ßen­merk­ma­len und Hin­der­nis­sen, bei­spiels­wei­se für selbst­fah­ren­de Autos.
  • Social Media: CNNs werden bei­spiels­wei­se im Zu­sam­men­hang mit Text Mining in solchen Platt­for­men ein­ge­setzt, um Inhalte au­to­ma­tisch zu mo­de­rie­ren und per­so­na­li­sier­te Werbung zu erstellen.
  • Marketing und Ein­zel­han­del: Z. B. visuelle Pro­dukt­su­che und Pro­dukt­plat­zie­rung dank Data-Mining.
IONOS AI Model Hub
Erste deutsche, mul­ti­mo­da­le KI-Plattform
  • 100 % DSGVO-konform und sicher in Deutsch­land gehostet
  • Die leis­tungs­stärks­ten KI-Modelle auf einer Plattform
  • Kein Vendor Lock-in durch Open Source

Con­vo­lu­tio­nal Neural Networks: Vor- und Nachteile

CovNets können relevante Merkmale au­to­ma­tisch aus den Daten ex­tra­hie­ren und erreichen dabei eine hohe Ge­nau­ig­keit. Jedoch erfordert das effektive Training von CNNs er­heb­li­che Re­chen­res­sour­cen, da sie große Mengen an ge­la­bel­ten Daten und leis­tungs­star­ke GPUs benötigen, um gute Er­geb­nis­se zu liefern.

Vorteile Nachteile
Au­to­ma­ti­sier­te Merk­malsextrak­ti­on Hoher Re­chen­auf­wand
Hohe Ge­nau­ig­keit Bedarf an großen Da­ten­sät­zen
Fazit

CNNs haben das Feld der künst­li­chen In­tel­li­genz re­vo­lu­tio­niert und bieten immense Vorteile in ver­schie­de­nen Bereichen. Zu­künf­ti­ge Ent­wick­lun­gen wie bei­spiels­wei­se Hardware-Ver­bes­se­run­gen, neue Methoden zur Da­ten­er­he­bung oder fort­schritt­li­che Ar­chi­tek­tu­ren wie Capsule Networks könnten eine weitere Op­ti­mie­rung und In­te­gra­ti­on in ver­schie­de­ne Tech­no­lo­gien er­mög­li­chen, wodurch CNNs noch breiter ein­ge­setzt werden könnten.

Zum Hauptmenü