Der GPT-Moment für Roboter wird kommen
Von Rafael Hostettler
ChatGPT ist nun mehr als ein Jahr alt - und das ist ein guter Moment, um zu beobachten, in welcher Hinsicht sich die Welt verändert hat und - noch wichtiger - in welcher nicht.
Generativer Text hat seinen Weg in viele Tools gefunden. In vielerlei Hinsicht hat sich seine Verwendung normalisiert - ich habe eine Tastenkombination, um direkt mit ChatGPT zu kommunizieren - und ich verwende es mehrmals täglich für alle möglichen Dinge, von Übersetzungen, Textkorrekturen, Änderungen, Codeschnipseln und mehr - ein bisschen wie ein Mikro-Assistent oder ein erweitertes Gehirn.
Unser Confluence verfügt jetzt auch über KI in der Suche und einen Schreibassistenten. Aber im Gegensatz zu einigen frühen Anwendern versuchen die Unternehmen immer noch herauszufinden, wie sie aus dieser erstaunlichen Technologie wirklich Nutzen ziehen können.
Die Bilderzeugung hinkt in dieser Hinsicht noch hinterher, da die Modelle immer noch um Konsistenz kämpfen - und auch darum, Wege zu finden, den Künstlern das Maß an Kontrolle zu geben, das sie brauchen. Mit der Integration von GenAI in Photoshop ist Adobe jedoch auf einem guten Weg, die Künstler einzubinden.
Aus meinem Netzwerk höre ich, dass es die Asset-Generierung für Spiele erheblich gestört hat und dies wahrscheinlich auch weiterhin tun wird. Sobald die Konsistenzprobleme gelöst sind, sehe ich einen exponentiell größeren Einfluss auf alles, was mit Grafik zu tun hat.
Wenn ich die ChatGPT-App öffne, ein Foto von einem verwirrenden Parkplatzschild in einer fremden Sprache mache und frage, ob ich jetzt hier parken kann, und eine gute Antwort erhalte, dann ist das eindeutig die Zukunft.
Aber all das hat meine Arbeit (noch) nicht grundlegend verändert. Es hat mich an einigen Stellen sehr viel schneller und hier und da angenehmer gemacht, vor allem, weil viele langweilige Dinge viel weniger langweilig geworden sind, da sie jetzt auf minimale Berührungspunkte reduziert sind. Aber die eigentliche Leistung ist immer noch hinter den Schnittstellen verborgen - für mich als Benutzer und auch für die KI der von mir verwendeten Tools und Programme.
Der Grund dafür, dass sich die Funktionen noch nicht in produktiveren Formen durchgesetzt haben, liegt im Wesentlichen in der Integration und der Benutzerfreundlichkeit - und da die Integration lückenhaft ist und die Benutzerfreundlichkeit erst durch menschliches Feedback verbessert werden kann, braucht dies Zeit. Und es ist auch erst ein Jahr her.
Aber Roboter
Weitgehend unbemerkt von der breiten Öffentlichkeit hat die Robotik dank generativer KI Fortschritte bei der Steuerung gemacht, und wir nähern uns in rasantem Tempo einer bisher unmöglichen Autonomie! Dies geschah auf eine offensichtliche und überraschende Weise.
Das Offensichtliche zuerst. LLMs sind großartig in der Umwandlung von Text. Länger, kürzer, in einer anderen Sprache und in einem anderen Format - es ist also keine Überraschung, dass sie auch gut darin sind, menschliche Absichten in etwas zu übersetzen, das für Roboter besser verständlich ist.
Google Deepmind hatte im letzten Frühjahr eine hervorragende Demonstration mit PaLM-E, Mit Hilfe von LLMs lassen sich vage Anweisungen wie “Reinige den Tisch” in eine Abfolge von Aktionen zerlegen, die ein Roboter ausführen könnte. Dies ist auch der Punkt, an dem alle Fortschritte der multimodalen Modelle glänzen - denn sie machen es einfach, eine Brücke zwischen Vision und Sprache zu schlagen.
Der zweite, wenn auch weniger offensichtliche, Durchbruch ist die Anwendung von Diffusionsmodellen in Robotersteuerungssystemen. Diese Modelle haben sich als hilfreich erwiesen, um vielseitige und robuste Steuerungsstrategien für bestimmte Aufgaben zu entwickeln. Roboter können nun eine Vielzahl von Szenarien mit einer noch nie dagewesenen Geschicklichkeit und Anpassungsfähigkeit bewältigen. Diese Anpassungsfähigkeit stellt einen großen Fortschritt gegenüber früheren Beschränkungen dar, bei denen es kein klares Verständnis dafür gab, wie eine Aufgabe überhaupt formuliert werden muss, damit ein Roboter sie ausführen kann.
Kombiniert man dies mit der aktuellen Flut von Humanoiden, die auf den Markt kommen, ist es keine Überraschung, dass wir erste beeindruckende Demos dieser Humanoiden sehen, die echte Aufgaben erledigen. Z.B.. Tesla Umgang mit Eiern und Abbildung Kaffee kochen. (Es scheint eine Vorliebe für Frühstück unter Robotikern zu geben...)
Die Auswirkungen dieser Fortschritte sind nicht zu unterschätzen und ähneln den Anfängen der ersten GPT-Modelle. Während diese ersten Modelle für eine spezialisierte Gruppe von Experten einen bedeutenden Fortschritt darstellten, auf dem sie aufbauen konnten, schaffen die aktuellen Entwicklungen in der Robotik die Voraussetzungen für eine breitere Zugänglichkeit und Anwendung.
Dies ist noch nicht der ChatGPT-Moment. Ein allgemein zugänglicher Robotersteuerungssatz für die Allgemeinheit ist verlockend nahe, aber noch 2-3 Jahre entfernt. Aber von hier an hat sich der Fahrplan schnell geklärt, und es ist jetzt sehr klar, dass es weniger als ein Jahrzehnt dauern wird, bis fortschrittliche Roboter ein integraler Bestandteil des täglichen Lebens werden.
Für uns sind diese Fortschritte besonders erfreulich, denn sie bedeuten, dass wir den Bedarf an menschlichem Personal für verschiedene Aufgaben viel früher als erwartet verringern können. Vor allem Aufgaben im Haushalt, die keinen direkten Benutzerkontakt erfordern, werden schnell automatisiert werden - man denke nur an das Einräumen der Spülmaschine, das Kochen usw.
Zusammenfassend lässt sich sagen, dass die von GenAI in der Robotik erzielten Durchbrüche einen bedeutenden Wechsel von konzeptionellen Möglichkeiten zu praktischen Anwendungen bedeuten. Da sich die Technologie weiter entwickelt und zugänglicher wird, stehen wir an der Schwelle zu einer neuen Ära der Robotik, die verspricht, unsere Interaktion mit der Technologie neu zu gestalten und die Horizonte dessen zu erweitern, was in der Automatisierung und künstlichen Intelligenz erreichbar ist. Wir bei Devanthro sind Vorreiter und nutzen die Fortschritte der KI, um unseren älteren Angehörigen ein Altern in Würde zu ermöglichen.
Devanthro ist ein in München ansässiges Robotik- und KI-Unternehmen, das Robodies - Roboter-Avatare für den Altenpflegemarkt - entwickelt. Zu den Partnern gehören die Charité Berlin, die University of Oxford und die Diakonie. Ein früher Prototyp ist Teil der Dauerausstellung im Deutschen Museum in München. Für weitere Informationen besuchen Sie bitte https://devanthro.com/.