Eine KI soll in Zukunft verschiedene Aufgaben übernehmen, darunter auch die Klassifizierung von Objekten. Computer Vision befasst sich unter anderem damit, KI basierten Systemen das „Sehen“ beizubringen. Einer unserer Software-Entwickler und AI-Engineere gibt uns Einblicke in dieses Thema.
Der Begriff Computer Vision erklärt sich eigentlich von selbst: „Das Ziel ist es, Systemen die Fähigkeit zu verleihen, visuelle Daten und Bilder zu erfassen, zu interpretieren und zu verstehen, ähnlich wie es menschliche Wahrnehmung tut“ erklärt der Experte. Dabei geht es darum, mithilfe von Algorithmen Muster und Merkmale in Bildern zu erkennen. „Allerdings funktioniert das anders als beim Menschen. Wir erfassen mit unseren Augen ein Objekt visuell als Ganzes, meist unbewusst und mühelos, weil wir es durch erlerntes Wissen in einen Kontext stellen können. Dagegen erkennt eine Maschine ein Objekt nur anhand numerischer Werte. Konkret bedeutet das, dass wir Menschen Bilder wahrnehmen, indem das über die Netzhaut generierte Licht als Signal verarbeitet wird. Im Gegensatz dazu werden Bilder von Maschinen mithilfe von Sensoren in Form von Pixeln erfasst und gespeichert. Dabei besteht jeder Pixel aus einem oder mehreren numerischen Werten (üblicherweise einem Rot-, Grün- und Blau-Wert), welche vom Computer Vision-System ausgewertet werden können.“
Methoden & Techniken im IT-Feld Computer Vision
Doch wie erkennt ein System ein Objekt? Das Wahrnehmen eines abgebildeten Objekts kann durch verschiedene Methoden, u.a. Bilderkennung, Gesichtserkennung, Bildsegmentierung, Bewegungserkennung, 3D-Rekonstruktion erreicht werden. „Da Bilder als unstrukturierte Daten gelten, müssen Merkmale definiert und programmiert werden – im Gegensatz zu strukturierten Daten z.B. Daten in tabellarischer Form. Mit klassischen Computer Vision-Methoden ist das sehr zeitaufwändig, weil es quasi ein manueller Prozess ist. Aber seit sich Machine Learning (ML) immer stärker weiterentwickelt, ist auch das Thema Computer Vision besser umsetzbar, da die Merkmalsbildung mit ML deutlich einfacher geworden ist“, so sagt der MVI PROPLANT-Kollege.
Um Computer Vision zu ermöglichen, werden unterschiedliche Techniken und Algorithmen eingesetzt, darunter auch tiefe neuronale Netze. Speziell für Computer Vision gibt es sogenannte Convolutional Neural Networks (CNN). „Diese Netzwerke haben verschiedene Merkmal-Ebenen und arbeiten sich von der konkreten räumlichen Wahrnehmung eines Objekts zu der abstrakten technischen Daten-Ebene.“
Am Beispiel des Katzenbildes (s. Headerbild) bedeutet das, dass z.B. Farbmerkmale für das Fell und die Augenfarbe im System in allen Varianten hinterlegt sein müssen. Im Gegensatz zum Menschen kann eine Katze etwa eine gelbe oder rötliche Augenfarbe haben. Wenn also die Augen des Objekts gelb sind, kann die KI am Ende das Objekt ‚Mensch‘ ausschließen. „Und das ist nur ein Merkmal zur Objekterkennung. Ein Datensatz für Computer Vision muss tausende Einträge enthalten, damit es sinnvolle Auswertungen machen kann. Ohne Machine Learning könnten wir das kaum leisten. Es müssen also hochwertige Datensätze in ML integriert werden, damit ein System Trainings absolvieren kann, die Computer Vision ermöglichen.“
Computer Vision-Systeme werden zum Beispiel in der Fertigungsindustrie eingesetzt, um Sicherheitsstandards einzuhalten. „Die Systeme können erkennen, ob Sicherheitskleidung gemäß den Vorschriften getragen wird, um mögliche Sicherheitsrisiken schon im Vorfeld zu minimieren. Darüber hinaus können solche Systeme den Schweregrad von Unfällen einordnen und die nötigen Schritte einleiten, um betroffenen Personen zu helfen, indem sie z.B. bestimmte Maschinen abschalten oder Dritte informieren“, erklärt er anschaulich.
Die aktuelle Entwicklung auf dem Markt zeigt, dass dazu neue Architekturen entstehen, die die Menge der benötigten Daten reduzieren können. „Die Wiederverwendbarkeit von bereits erlernten Merkmalen bestehender neuronaler Netze spielt dabei auch eine Rolle, da Bilder hierarchisch aufgebaut sind und man die ersten Layer (Schichten) mit den simplen Objekt-Merkmalen meist für andere Systeme oder Projektanforderungen adaptieren kann. Es steckt viel Potenzial in der Nutzung von Computer Vision-Systemen für verschiedene Use Cases.“ Roboter-Anwendungen in der Produktion oder auch im Bereich autonomes Fahren sind auf Objekt- und Bilderkennung angewiesen, die durch Computer Vision realisiert werden können. Die Berliner KI-Ingenieure der MVI beschäftigen sich mit dem Trendthema und treiben die Entwicklung in diesem Feld voran.