Ich habe in den letzten Monaten meine gesamte KI-Infrastruktur komplett umgestellt. Keine Cloud-APIs mehr, wenn ich sensible Daten verarbeite. Warum? Weil ich keine Lust habe, die IP-Adressen meiner Kunden bei OpenAI oder Anthropic zu hinterlegen, nur um Texte zu schreiben oder Bilder zu generieren. Das ist für meinen Geschmack unverhältnismäßig riskant.

Ich baue das jetzt lokal, in unserem Frankfurter Studio. Hier ist der technische Realitätscheck meines Setups, wie ich es für Kundenprojekte nutze und warum das Geld wert ist.

Die Hardware: Warum ich keine 4090s spare

Ich habe nicht alles auf einmal gekauft. Aber ich habe auf Qualität gesetzt. Mein Setup besteht aus drei dedizierten Hosts, die über mein Studio-Netzwerk laufen.

Host .87 – Der Arbeitswolf

Das ist mein Hauptrechner für KI. Windows 11, aber dafür eine NVIDIA RTX 4080 SUPER mit 16GB VRAM. Das ist meine Workhorse-GPU. Sie ist nicht die stärkste, die es gibt (die 4090 hat 24GB), aber sie ist perfekt für den Preis-Leistungs-Sieger. Ich nutze sie für FLUX-Schnell-FP8-Modelle (für Bildgenerierung) und komplexe Textverarbeitungen.

Host .94 – Der Linux-Server

Hier läuft Ubuntu. Hardware: RTX 3060 Ti (8GB VRAM). Warum eine 3060 Ti? Weist sie reicht, um große LLMs (Large Language Models) in 4-bit Quantisierung laufen zu lassen, ohne dass es auf der CPU hängt. Ich nutze diesen Host primär als Ollama-Server für Text-Modelle. Die Latenz ist für Clients im Netzwerk völlig vernachlässigbar.

Host .31 – Der „Always-On“

Windows 11, etwas ältere Hardware, aber immer online. Dient als Schnittstelle und Backup.

Die Software: Ollama und die Modelle

Die Software ist im Grunde simpel: Ollama als Middleware. Das ist Open Source, läuft lokal und verbindet sich mit jeder Software, die über HTTP spricht.

Hier sind die Modelle, die in meinem „Production-Stack“ sitzen:

GLM-4.7-flash (für Text): Ich habe mich hier für das Flash-Modell entschieden. Es ist extrem schnell. Ich habe gemessen, dass ich auf der 4080-SUPER Textrate von ca. 38 Tokens pro Sekunde (t/s) erreiche. Das ist schneller als die meisten Cloud-APIs, die durch Netzwerklatenz und Queues behindert werden. Für schnelle Antworten in Chatbots oder Inhaltsgenerierung ist das Gold wert.
FLUX-Schnell-FP8 (für Bild): Wenn ich für Kunden eine Illustration brauche, ist FLUX das Maß der Dinge. Die FP8-Variante ist auf der 4080 deutlich schneller als die Standard-Version, ohne dass die Bildqualität künstlich verflacht aussieht.
F5-TTS (für Stimmen): Für Video-Workflows nutze ich F5-TTS. Es erlaubt es, Stimmen zu klonen oder neue zu generieren, die sich extrem natürlich anhören. Die Hardware-Anforderungen sind hoch, aber die Qualität rechtfertigt den Aufwand.

Warum lokal? Das „No-Cloud“-Prinzip

Der größte Vorteil ist nicht die Geschwindigkeit, sondern die Datensouveränität.

Ein Kunde in der Finanzbranche hat mir gestern seinen Jahresbericht als PDF geschickt. Er wollte eine Zusammenfassung und eine Analyse. Er hat mich gefragt: „Kommt das in die Cloud?“

Ich habe gesagt: „Nein. Es läuft auf .87.“ Er hat das nicht nur akzeptiert, er hat sich erleichtert angehört. Das Vertrauen ist etwas, das man nicht kaufen kann, aber durch technische Transparenz leicht aufbauen kann.

Der Aufwand vs. Nutzen:

Ja, der Aufwand ist höher. Ich muss Modelle herunterladen (oft 4GB bis 20GB pro Datei), ich muss Hardware warten, und ich muss den Code pflegen.

Aber: Wenn ich pro Jahr 500.000 EUR Umsatz in KI-Arbeiten generiere und ich für jedes Projekt 50€ Cloud-Gebühren spare (was bei API-Usage schnell passiert), habe ich meine Hardware nach zwei Jahren amortisiert. Hinzu kommt, dass ich keine Kreditkartendaten in tausend verschiedenen Diensten hinterlegen muss.

Fazit:

Für kleine bis mittlere Unternehmen reicht ein lokaler 4080 oder eine Kombination aus 4080 und 3060 Ti völlig aus. Die Cloud ist toll für Experimente, aber für den echten Geschäftsbetrieb mit sensiblen Daten ist ein dedizierter Server im Studio die bessere Architektur.