MOTU Update – was der Baukasten jetzt kann

Drei Sessions. Kein fertiges Produkt – aber ein Baukasten der anfängt, Kontur zu bekommen.

Was bisher da ist

238 Episoden sind gesichert. He-Man und She-Ra, auf Deutsch und Englisch. Das war die Grundlage – alles andere baut darauf.

Die Pipeline läuft

Jede Episode läuft durch eine Kette: Video – Einzelframes – Klassifizierung. Filmation hat in den 80ern massiv Bildmaterial recycelt. Die KI trennt das: Charaktere, Hintergründe, Effekte, Props – jede Kategorie in eigene Ordner. Was mehrfach auftaucht, fliegt raus.

Parallel dazu die Audio-Seite. Aus jedem Video werden drei Stems extrahiert: Sprache, Musik, Soundeffekte. Getrennt. Whisper transkribiert die Sprachspur – mit Zeitstempel, mit Charakterzuordnung soweit möglich.

Was der Baukasten jetzt hat

Frame-Bibliothek: Klassifizierte Einzelbilder nach Charakter, Hintergrund, Effekt und Prop.

Audio-Stems: Sprache, Musik und SFX sauber getrennt, pro Episode.

Voice-Referenz-DB: Pro Charakter und Sprache die besten Sprachproben, zu 15-30 Sekunden Referenz-Tracks zusammengefasst.

Charakter-Referenz-DB: Bis zu 20 unterschiedliche Referenzbilder pro Charakter, nach Shot-Typ sortiert.

4K-Upscaling: RealESRGAN läuft auf der RTX 4080 – die Cels werden auf 4K hochgerechnet.

Was noch fehlt

She-Ra auf Englisch ist noch nicht vollständig. Die TTS-Synthese – F5-TTS mit den Voice-Referenzen – ist vorbereitet aber noch nicht integriert. Und der finale Zusammenbau: Frames + Audio + Synthese zu einem Ausgabe-Format. Das kommt.

Kein Datum. Wenn es was zu zeigen gibt, gibt es ein Update.