GoogleWatchBlog

Gemini: Google zeigt beeindruckende Live-Demo – neue App beantwortet Fragen zum Kamerabild (Video)

» Web-Version «

Google lädt für morgen Abend zur jährlichen Entwicklerkonferenz Google I/O 2024, auf der ohne Frage die Künstliche Intelligenz rund um Gemini eine sehr große Rolle spielen wird. Das unterstreicht man jetzt in einem Teaser, dessen gezeigter Inhalt wirklich zu begeistern weiß: Ein Video zeigt, wie Gemini ein Livebild analysiert und Fragen zu diesem beantwortet.


Google hat das KI-Modell Gemini von Beginn an multimodal entwickelt, sodass es Text, Bilder, Video und Audio möglichst gleichwertig behandeln kann – sowohl für die Eingabe als auch die Ausgabe. Erst vor wenigen Wochen wurden beeindruckende Gemini-Demos veröffentlicht, in denen das KI-Modell Videos mit einer Länge von über einer Stunde analysiert und recht detaillierte Fragen dazu beantworten kann. Bisher ist das eher Demo als ein echtes nutzbares Feature, aber der Weg ist nicht mehr weit.

Jetzt hat man als Teaser für die morgige Google I/O ein Video bei X-Twitter veröffentlicht, das eine recht ähnliche Funktion zeigt, aber in diesem Fall auf einem Livebild und nicht einem aufgezeichneten Video basiert. Es ist zu sehen, wie der Google die Smartphone-Kamera auf die gerade in Vorbereitung befindliche I/O-Bühne richtet und dann einige Fragen dazu stellt. Gemini schätzt korrekt ein, dass es sich um eine große Bühne für ein Event handeln muss und fragt den Nutzer, ob er konkrete Informationen benötigt.

Dann schwenkt das Video auf die großen Buchstaben I/O, die von Gemini erkannt werden (was kein Kunststück ist). Dann stellt die KI ohne Aufforderung eine Verbindung zwischen den Buchstaben I/O und der großen Event-Bühne her und schlussfolgert, dass es sich wohl um das Google I/O-Event handeln muss.




Die Fragen und Antworten sind jetzt nicht unbedingt beeindruckend, sondern viel mehr das Live-Video als Eingabemethode. Dass Gemini das Kamerabild Live analysieren kann, dürfte schon einiges an Rechenpower benötigen. Dabei kommt dem Team sicherlich zu Gute, dass Google schon vor längerer Zeit ähnliche Technologien geboten hat, bei denen etwa Texte im Livebild erkannt und übersetzt werden. Aber das ist noch einmal eine ganz andere Stufe, denn hier geht es um das Livebild, die ständige Bildauswertung, die Verknüpfung mit den Nutzerfragen und die daraus ergebene Konversation.

Es soll sich bei der in der Demo genutzten Version noch um einen Prototyp handeln, sodass ihr nicht davon ausgehen solltet, das Ganze schon ab morgen nutzen zu können. Aber man wird sicherlich dies und noch einiges mehr rund um Gemini präsentieren. Wir dürfen gespannt sein.

» Gemini: Google spendiert dem KI-ChatBot endlich ein Gedächtnis – neue Memory-Funktion kommt (Leak)

» Google I/O 2024: Was wir vom Google-Event erwarten dürfen – KI, Gemini, Mein Gerät finden und vieles mehr

Google Pixel 8a vorbestellen + 150 Euro Bonus: Amazon | Media Markt | Saturn

Letzte Aktualisierung am 2024-12-17 / Bilder von der Amazon Product Advertising API / Affiliate Links, vielen Dank für eure Unterstützung!

[9to5Google]


Keine Google-News mehr verpassen:
GoogleWatchBlog bei Google News abonnieren | Jetzt den GoogleWatchBlog-Newsletter abonnieren