Multimodale Generative KI in den Prozessen von Kreativschaffenden edit

Dozent:innen Prof. Dr. Matthias Böhmer, Marvin Reuter
Anzahl Teilnehmer*innen (min/max) 2-9
Start tbd.
Sprache English
ILU Projekt auf ILU
Schwerpunkt EXA, DEV

Project Image

Problem Description

Das Forschungsprojekt KIMO hat zum Ziel, eine prototypische Softwareplattform zu entwickeln, die Kreativschaffende dabei unterstützt, schneller interaktive und narrative Anwendungen zu gestalten (bspw. Games, IoT-Prototypen, narrative Inhalte). Dazu analysiert die Plattform bestehende Konzept- und Designdokumente, gewinnt daraus relevante Struktur- und Inhaltsinformationen und stellt diese in einem Editor zur weiteren Bearbeitung bereit. Das GP »Multimodale Generative KI in den Prozessen von Kreativschaffenden (KIMO I)« hat das Ziel, erste Bausteine der Pipeline des Projekts zu konzipieren, dafür verschiedene Ansätze und Technologien zu erproben und einen ersten Prototypen zu entwickeln.

Die derzeitigen Interaktionen mit großen Sprachmodellen beschränken sich meist auf Textbefehle. Text reicht jedoch oft nicht aus, um räumliche, visuelle oder kreative Ideen effizient auszudrücken. Kreativschaffende nutzen bspw. verstärkt Skizzen, Storyboards und Wireframes. Aktuelle Forschungsarbeiten wie „SketchGPT“ [1] oder „Code Shaping“ [2] zeigen, dass die Kombination verschiedener Modalitäten eine wesentlich natürlichere Interaktion ermöglicht.

Die Herausforderung bei solchen Systemen: Wie kann ein System realisiert werden, das unstrukturierte Eingaben (z. B. eine Skizze + natürliche Sprache) versteht und sie in präzise, ausführbare Systemaktionen, abstrakte Beschreibungen oder Modelle übersetzt? Dazu muss die Entwicklung über einfache Chatbots hinausgehen hin zu Architekturen, in denen das LLM als Reasoning-Engine fungiert, um Benutzerbefehle abzugleichen, zu interpretieren und auszuführen.

KIMO ist ein Forschungsprojekt, das vom Land NRW über mehrere Jahre gefördert wird. Wir arbeiten mit den externen Partnern ART+COM und the Good Evil zusammen.

[1] Huang, Z., Gao, C., Shan, Y., Hu, H., Li, Q., Deng, X., Ma, C., Lai, Y.-K., Liu, Y.-J., Tian, F., Dai, G., & Wang, H. (2025). SketchGPT: A Sketch-based Multimodal Interface for Application-Agnostic LLM Interaction. Proceedings of the 38th Annual ACM Symposium on User Interface Software and Technology, UIST ’25, 1–18. https://doi.org/10.1145/3746059.3747598

[2] Yen, R., Zhao, J., & Vogel, D. (2025). Code Shaping: Iterative Code Editing with Free-form AI-Interpreted Sketching. Proceedings of the 2025 CHI Conference on Human Factors in Computing Systems, CHI ’25, 1–17. https://doi.org/10.1145/3706598.3713822

Project Definition

Die genaue Definition, das Vorgehen und der Scope des Projekts werden zu Beginn des Projekts vom Studierendenteam festgelegt. Das Kernziel besteht darin, einen funktionsfähigen Prototyp auf Basis einer Multi-Agenten-Architektur zu entwickeln. Die Projektarbeit folgt einem inkrementell-iterativen Ansatz mit diesen Schritten:

Learning Outcome

Am Ende des Projekts werden die Studierenden in der Lage sein:

Participation Requirements

External Partner

ART+COM und the Good Evil als Kooperationspartner des Forschungsprojekts KIMO

arrow_upward