Motivation

Adobe hat kürzlich die neue Lightroom CC Version veröffentlicht und diese mit Adobe Sensei Technologie erweitert. Sensei bietet verschiedene sog. intelligente Cloud-Services, die auch eine semantische Bildanalyse und Schlüsselwort-basierte Bildersuche (sog. KI Suche) beinhalten. Adobe’s KI Suche ist Cloud-basiert und steht somit nur Lightroom CC Nutzern zur Verfügung.

Glücklicherweise können Benutzer von Adobe Lightroom Classic CC das Excire Search Plugin für ihre KI Suche benutzen. Excire Search läuft lokal ohne Einsatz einer Cloud: keine Uploads, keine Downloads und die KI Engine läuft lokal auf den Anwenderrechnern. Falls Sie also Classic CC Benutzer sind, ist Excire Search für Sie die perfekte Ergänzung, um Ihren Workflow zu optimieren.

Die Vorteile werden durch den neuen Workflow, der nun mit Lightroom CC möglich ist, noch sichtbarer. Ergänzend zu den Funktionen, die in Lightroom CC verfügbar sind, bietet Excire Search zusätzliche Funktionen wie beispielsweise die sehr nützliche Ähnlichkeitssuche oder spezifischere Suchfunktionen, die z.B. das Auffinden von Gruppenfotos von lächelnden Frauen am Strand ermöglichen.

Aber wie gut schneidet Excire Search im Vergleich zu Adobe und anderen Konkurrenten ab? Um diese Frage zu beantworten, haben wir eine ausführliche Studie durchgeführt und dabei Excire Search mit Adobe Lightroom CC, Apple Photos und Google’s Vision Api verglichen.

Testdatensatz

Unser Testdatensatz besteht aus 1500 Bildern im JPG Format, die zu fünfzehn verschiedenen Kategorien gehören, wobei jede dieser Kategorien 100 Bilder beinhaltet. Die Testbilder wurden zufällig aus einer größeren Bilddatenbank ausgewählt, die größtenteils aus Bildern besteht, die von Flickr heruntergeladen wurden. Die Kategorien wurden ebenfalls zufällig aus einer Menge von 500 Kategorien, die Excire Search derzeit erkennen kann, ausgewählt.

Keines der Testbilder wurde zuvor beim Training verwendet (dieses können wir jedoch nur für Excire garantieren). Es wäre wünschenswert gewesen, mehr Kategorien zu testen, allerdings erfordert die Analyse der Lösungen von Adobe und Apple einen großen manuellen Aufwand und wäre somit nicht in akzeptabler Zeit durchführbar gewesen. Insgesamt haben wir uns bemüht, eine repräsentative Studie und einen fairen Vergleich durchzuführen. Die folgenden Beispielbilder veranschaulichen die einzelnen Kategorien unseres Testdatasatzes:

 

Strand

 

Schmetterling

 

Auto

 

Schloss

 

Katze

 

Hund

 

Blume

 

Pferd

 

Haus

 

Löwe

 

Berg

 

Wolkenkratzer

 

Schnee

 

Fussball

 

Windsurfen

Hauptmerkmale

Die folgende Tabelle fasst die Hauptmerkmale der untersuchten Suchmaschinen zusammen. Die gegebene Laufzeit bezeichnet die Zeit, die zum Upload (Adobe, Google) oder Import (Apple, Excire) und der Analyse der 1500 Bilder notwendig ist.

FirmaSoftwareCloud vs. LokalAnzahl der KategorienLaufzeit*
AdobeAdobe Lightroom CCcloudunbekannt13:01 min
ApplePhotoslokal4432mehrere Stunden**
PRCExcire Search Lr v1.3lokal5006:13 min**
GoogleGoogle Vision Apicloudunbekannt22:24 min
 
*50Mbit/s Internetanbindung mit einer Uploadrate von 20Mbit/s. WLAN: 5GHz 110-225 Mbit/s (wurde nur für Lightroom CC benutzt)
**auf einem MacBook Pro 2,6GHz, 8GB Ram, SSD and macOS Sierra 10.12.6.

Cloud vs. Lokal

Cloud-Dienste, und damit verknüpfte Anwendungen, werden von Jahr zu Jahr beliebter. Ein offensichtlicher Vorteil ist, dass leistungsstarke Server und Architekturen verwendet werden können, die sich einfach bzgl. der Menge an notwendigen Speicher und Rechenleistung skalieren lassen.

Der Vorteil für die KI-Suche ist, dass moderne sehr tiefe neuronale Netze eingesetzt werden können, die ein Maximum an Erkennungsleistung ermöglichen, aber für den Einsatz auf einfachen Endkunden-Computern zu komplex sind.

Daher ist es viel anspruchvoller, KI-Systeme zu entwickeln, die auf lokalen Maschinen beste Analyse-Ergebnisse erzielen und dazu noch bestehende Restriktionen bzgl. der Rechenzeit einhalten.

Ein klarer Nachteil eines Cloud-basierten Workflows ist jedoch, dass Bilder hoch- und heruntergeladen werden müssen. Auch wenn dies für die populärsten Kameras heutzutage (Smartphones) akzeptabel ist, Fotografen die hochaufgelöste Bilder produzieren, um ein Maximum an Bildqualität zu erreichen, sind der Cloud-Variante oft abgeneigt.

Für viele sind Datenschutz und Copyright Aspekte entscheidend, über die sie stets die Kontrolle behalten möchten und somit eine Cloud meiden.

Excire Search wurde so entwickelt, dass alle notwendigen Berechnungen lokal auf Kundenrechnern laufen. Man würde nun erwarten, dass so im Vergleich zu Cloud-basierten Lösungen keine optimale Erkennungsleistung erzielt werden kann, aber wir waren positiv überrascht, dass dies nicht der Fall ist: Excire Search hat besser abgeschnitten und war dabei schneller als die getesteten Konkurrenten.


Test Prozedur

Für jede der vier Suchmaschinen haben wir die gleichen Tests durchgeführt, um die Ergebnisse der KI Suche zu evaluieren. Wir haben dabei mit 15 verschiedenen Suchbegriffen, die den 15 Bildkategorien entsprechen, gesucht, z.B. „Strand“, „Schmetterling“, „Katze“, etc. Es wurde jeweils nur mit einem Begriff gesucht.

Dabei wird ein Bild dann als relevant betrachtet, werden es für einen Suchbegriff den entsprechenden Bildinhalt darstellt. Beispielsweise wenn man nach „Katze“ sucht, sind alle Bilder, auf denen Katzen dargestellt sind, relevante Bilder.

Basiered auf dem gegebenen Datensatz haben wir somit jeweils pro Kategorie 100 relevante (P) und 1400 nicht-relevante (N) Bilder.

Es wurde jeweils nur mit einem Begriff gesucht. Kombinationen von Begriffen wurden nicht verwendet. Die Performanz wurde dann entsprechend der folgenden Maße berechnet:

  • TP = True Positives: die Anzahl der relevanten Bilder, die gefunden wurden (Anzahl Katzen, die gefunden wurden, wenn nach „Katze“ gesucht wurde.)

  • FP = False Positives: die Anzahl der nicht-relevanten Bilder, die gefunden wurden (Anzahl Hunde, etc., die gefunden wurden, wenn nach „Katze“ gesucht wurde.)

  • FN = False Negatives: die Anzahl der relevanten Bilder, die verpasst wurden (Anzahl Katzen, die nicht gefunden wurden, wenn nach „Katze“ gesucht wurde.)

  • TN = True Negatives: die Anzahl der nicht-relevanten Bilder, die nicht gefunden wurden (Anzahl Hunde, etc., die korrekterweise nicht gefunden wurden, wenn nach ‚Katze‘ gesucht wurde.)

Ergebnisse

Schließlich verwenden wir die folgenden abgeleiteten Raten zur Evaluierung:

  • Sensitivität (True Positive Rate or Hit Rate): TPR = TP / (TP + FN)
  • Spezifizität (True Negative Rate) TNR = TN / (FP + TN)
  • Genauigkeit: ACC = (TP + TN) / (P + N)

Die folgende Grafik zeigt die durchschnittlichen Ergebnisse der vier Suchmaschienen, die als „Sensitivität vs. Spezifizität“ geplottet wurden. Die Balken bezeichnen dabei die Varianz der Ergebnisse der verschiedenen Suchbegriffe. Das beste Ergebnis wäre ein Punkt mit minimalen Balken, der in der rechten oberen Ecke platziert ist.

Ergebnisse im Vergleich

Diskussion und Beurteilung

Die Ergebnisse zeigen eindeutig, dass Apple’s Photos die restriktivste Suche durchführt, was bedeutet, dass dieses System bzgl. einer hohen Spezifizität und einer geringen Sensitivität optimiert ist. Mit dieser Strategie ist verknüpft, dass man z.B. wenig Hunde erhält, wenn man nach Katzen sucht. Aber auch, dass man ggf. ein paar Bildern mit Katzen eben nicht findet.

Adobe verfolgt eindeutig eine gegensätzliche Strategie, die darauf abzielt, alle Katzen zu finden und dabei selbst ein paar Hunde in der Ergebnismenge zu tolerieren.

Excire und Google bilden bzgl. Sensitivität und Spezifizität den besten Kompromiss, wobei Excire sich in dem Test als bestes System herausstellt mit einer im Vergleich zu Google leicht besseren Spezifizität und einer eindeutig besseren Sensitivität. Darüberhinaus stellt Excire Search bzgl. der Laufzeit das eindeutig schnellste System dar.

Klassenspezifische Ergebnisse

Für alle die, die an mehr Details interessiert sind, werden im Folgenden die klassen-spezifischen Ergebnisse dargestellt:

Ergebnisse für die Klasse Strand
Strand
Ergebnisse für die Klasse Schmetterling
Schmetterling
Ergebnisse für die Klasse Auto
Auto
Ergebnisse für die Klasse Schloss
Schloss
Ergebnisse für die Klasse Katze
Katze
Ergebnisse für die Klasse Hund
Hund
Ergebnisse für die Klasse Blume
Blume
Ergebnisse für die Klasse Pferd
Pferd
Ergebnisse für die Klasse Haus
Haus
Ergebnisse für die Klasse Löwe
Löwe
Ergebnisse für die Klasse Berg
Berg
Ergebnisse für die Klasse Wolkenkratzer
Wolkenkratzer
Ergebnisse für die Klasse Schnee
Schnee
Ergebnisse für die Klasse Fussball
Fussball
Ergebnisse für die Klasse Windsurfen
Windsurfen