Die automatische Erkennung von Objekten, Personen, oder weiteren Inhalten und deren Zusammenspiel auf Fotos ist für Google-Entwickler ein größeres Thema und wird in einigen Produkten seit vielen Jahren eingesetzt. Schon seit längerer Zeit geht man auch den umgekehrten Weg und möchte aus eingegebenen Text dynamisch ein realistisches Bild erzeugen. Mit der noch jungen Plattform Imagen gibt es eine interessante Demo, die die aktuellen Möglichkeiten der Künstlichen Intelligenz zeigen soll.
Bildmanipulation und Bilderzeugung sind wichtige Themen, die in Zukunft eine immer größere Rolle spielen werden und natürlich ist auch Google vorn mit dabei und hat gleich mehrere Projekte in diesem Bereich gestartet, die wir euch vorstellen möchten. Erst vor wenigen Tagen haben wir euch den auf Performance spezialisierten Bildgenerator Muse vorgestellt und jetzt kommt die Alternative in Form eines qualitativ besseren, aber deutlich langsameren Tools mit gleichem Konzept: Text eingeben und Bild erhalten.
Es geht es aber nicht nur um einfache Formen oder die Kombination mehrerer Elemente als Collage, sondern um realistische Darstellungen. Googles Forscher haben sehr viele Beispielbilder sowie eine interaktive Webseite veröffentlicht, auf der sich interessierte Nutzer von den Möglichkeiten und der Qualität überzeugen können. Auf den Bildern ist genau das zu sehen, was beschrieben wurde und sogar der Stil kann in der Anfrage festgelegt werden. Möchte man ein Foto, eine Grafik oder ein Kunstwerk angelehnt an den Stil eines berühmten Künstlers?
Für dieses Projekt stoßen viele KI-Bereiche zusammen: Text erkennen und verstehen, Zusammenhänge verstehen, Objekte in der Bilddatenbank finden oder erzeugen und anschließend zu einem fertigen Bild zusammensetzen. Der letzte Schritt ist vermutlich der schwerste und das Kernprodukt von Imagen, denn das Zusammensetzen soll natürlich nicht auffallen und ein natürlich wirkendes Bild entstehen. Schaut euch einmal die folgenden Beispielbilder an.
Man muss festhalten, dass all diese Bilder nicht als Original existieren. Sie wurden von den Algorithmen zusammengesetzt, ohne dass man das (meiner Meinung nach) sehen kann. Größen, Farben, Schatten, Überlappungen oder sonstige Interaktionen zwischen mehreren Objekten sind sehr gut umgesetzt und sorgen dafür, dass man nicht auf die Idee kommen würde, dass es ein künstlich erzeugtes Bild ist. Aus diesem Grund ist jedes Bild auch mit einem kleinen Wasserzeichen versehen, um diese unterscheiden zu können.
Eine solche Technologie ist aber nicht nur beeindruckend, sondern hat hohes Missbrauchspotenzial. Man könnte praktisch beliebige Szenerien erzeugen, die andere Menschen in Verruf bringen können. Schon seit vielen Jahren ist es dank Photoshop & Co bekanntlich möglich, Fotos extrem realistisch zu fälschen oder zumindest anzupassen. Doch Tools wie Imagen oder auch Muse sind da noch einmal auf einem völlig anderen Level und können die Grundlage für Fälschungen liefern.
Daher hat man sich bei Google entschieden, diese Technologie zwar zu präsentieren, aber noch nicht vollwertig nutzbar zu machen. Man möchte Sicherheitsbeschränkungen einführen, die noch nicht näher benannt sind, bevor so etwas freigegeben wird. Früher oder später wird es sicherlich Tools geben, die so etwas für Jedermann nutzbar machen, aber noch ist es nicht soweit. Schaut euch die Webseite einmal an, dort gibt es auch Beispielbildern mit Fehlern, die die aktuellen Limits und Stolpersteine der Technologie aufzeigen.
» Imagen
Letzte Aktualisierung am 2024-12-06 / Bilder von der Amazon Product Advertising API / Affiliate Links, vielen Dank für eure Unterstützung!