KI-Modelle

eine kleine Einordnung

May 24, 2026

This article is available in English and German.

Lieber Leser,

nachdem ich die verschiedenen Modelle recherchiert hatte, dachte ich: dieses Thema ist so banal, es ist eigentlich gar keinen Artikel wert. Es gibt verschiedene Modelle für verschiedene Zwecke, Du musst sie nicht verändern, so rufst Du sie auf. Fertig.

Ich veröffentliche diesen Artikel trotzdem, denn er beweist:

Die eigentlichen Schwierigkeiten bei agentischen KI Systemen liegen in verschiedenen anderen Bereichen und in keinem dieser Bereiche hat ein US KI Riese mehr Erfahrung als die meisten Leute, die seit Jahren im Berufsleben stehen.

Denkt doch mal logisch nach: Die Herausforderungen liegen in folgenden Bereichen:

Business verstehen
Prozesse vereinfachen
UI/UX und User Centricity verbessern
Arbeitsweisen verändern
organisatorische Strukturen aufbrechen und neu designen
Daten in der richtigen Form zur richtigen Zeit am richtigen Ort zu haben
Wissen zu kodifzieren
Governance sauber aufsetzen
stabile aber modulare Architekturen aufbauen
richtig gutes klassisches Software Engineering
etc.

Große US KI Firmen haben auch keine lange Tradition in diesen Disziplinen. Deshalb verbrüdern sie sich ja mit anderen Firmen, wie Unternehmensberatungen.

Und hier meine vielleicht etwas politische Meinung was Deutschland betrifft:

Wir alle litten unter der Rezession der letzten Jahre. Wir brauchen Hoffnung und Aufbruchsstimmung.

Wenn ich höre, dass große bekannte deutsche Firmen sich verpartnern mit großen bekannten US KI Riesen, dann erzeugt das bei mir Unverständnis. Warum denn? Wir haben so viele top Leute! Wir haben alles Wissen, was man braucht um richtig gute agentische KI zu bauen. Dann lasst es uns doch einfach machen!

Nachdem ich herausgefunden habe, wie banal es ist ein Modell aufzurufen, frage ich mich ernsthaft, was eine US KI Riese an jahrzehntelanger Tradition in den wirklich wichtigen Disziplinen mitbringt - nämlich gar nichts, weil es diese Firmen noch gar nicht so lange gibt!

Also lasst es uns doch selbst bauen. Dann haben wir auch die Freiheit mit lokaler KI zu bauen, wenn es sinnvoll und wichtig ist, und das wird vielleicht öfter der Fall sein als man denkt.

Nun zum eigentlichen Thema.

Es ist keine vollumfängliche Auflistung oder technische Anleitung. Dieser Artikel soll nur mal einen groben Überblick geben.

Für Nicht-Techies: Man muss die Begriffe zumindest mal gehört und eingeordnet haben. KI wird in Zukunft einen großen Anteil im Berufsleben einnehmen und man braucht ein gewisses Basiswissen, so wie man früher auch lernte was die Begriffe Deployment, CI/CD oder DevOps bedeuten.
Für Engineers: Ihr werdet nichts neues erfahren, aber der nächste Absatz kann Euch helfen die Stakeholder wieder auf Kurs zu bringen. Es passiert so oft im Berufsleben, dass sich Diskussionen in die falsche Richtung bewegen und dann wochenlang über etwas debattiert wird, was eigentlich gar nicht der Punkt ist. Oft zu technisch und zu weit weg vom Business. Es ist sehr hilfreich, wenn es Engineers gibt, die die Stakeholder wieder einfangen und einnorden, in die Richtung: warum bauen wir das, wie ist der Workflow und wie können wir es vereinfachen.

Die richtige Reihenfolge ist immer:

Warum dieser Use Case?
Wie ist der Prozess? Wie sind die Prozesschritte?
Was ist das Ziel, der gewünschte Outcome? Wie können wir den Prozess vereinfachen und trotzdem das Ziel erreichen?
Und welches Modell rufen wir daher für welchen Prozessschritt auf?
Danach: wo hosten wir das Modell im Spannungsfeld Performance, Kosten und Datenschutz?

Dieser rote Faden muss im Hinterkopf behalten werden.

Nun zu den Modelltypen.

Wichtig: Dieser Artikel hat NICHT den Anspruch vollständig zu sein und auch NICHT den Anspruch 100% korrekt zu sein. Bitte kommentiere, wenn sich Fehler eingeschlichen haben und bitte recherchiere selbst weiter, wenn Du es genauer brauchst. Der Artikel soll nur helfen das große Gesamtbild besser zu verstehen.
Vielen Dank für Dein Verständnis.

Welche Modelltypen gibt es?

LLMs (Large Language Models)

Große Sprachmodelle, trainiert auf riesigen Textdatensätzen, um menschliche Sprache zu verstehen und zu erzeugen
Hunderte Milliarden bis Billionen Parameter
Generalistisch angelegt: Zusammenfassen, Analysieren, Konversation, Reasoning, Code
Einsatz: Wenn die Aufgabe breit, offen oder komplex ist. Komplexes Reasoning, kreative Textgenerierung, vielschichtige Analyse, Orchestrierung in Agentensystemen
Beispiele:
- GPT-4o
- Claude Sonnet/Opus
- Gemini
- Llama 4
- DeepSeek R1
- Mistral Large

SLMs (Small Language Models)

Kleine Sprachmodelle mit typisch 1 bis 13 Milliarden Parametern
Trainiert auf fokussierten, oft domänenspezifischen Daten
Können lokal betrieben werden, was Governance und Datenschutz vereinfacht
Deutlich niedrigere Betriebskosten als LLMs
Einsatz: Wenn die Aufgabe eng gefasst und wiederholbar ist. Klassifizierung, Extraktion, Routing, einfache Zusammenfassungen, Edge-Szenarien, regulierte Branchen wo Compliance und Datensouveränität Priorität haben
Beispiele:
- Mistral 7B
- Phi-3
- Gemma 2B/7B
- Qwen 3 4B

Code Models

Sprachmodelle, die speziell auf Quellcode und Programmiersprachen trainiert oder feinabgestimmt sind
Verstehen Syntax, Logik und Abhängigkeiten über Programmiersprachen hinweg
Einsatz: Code-Vervollständigung, Code-Generierung aus natürlicher Sprache, Fehlersuche, Refactoring, Code Review, Testgenerierung
Beispiele:
- Codestral (Mistral)
- StarCoder
- Code Llama
- DeepSeek Coder
- GPT-4o (mit Code-Fokus)

Embedding Models

Modelle, die Text, Bilder oder andere Daten in dichte numerische Vektoren (typisch 768, 1024 oder 1536 Dimensionen) umwandeln
Semantisch ähnliche Inhalte liegen im Vektorraum nahe beieinander
Grundlage für Retrieval Augmented Generation (RAG), semantische Suche und Empfehlungssysteme
Klein, schnell, effizient, lokal betreibbar
Werden zusammen mit Vektordatenbanken eingesetzt
Einsatz: Semantische Suche, Ähnlichkeitsvergleiche, RAG-Pipelines, Clustering, Anomalieerkennung, Dokumentenvergleich, Empfehlungssysteme
Beispiele:
- OpenAI text-embedding-3
- NV-EmbedQA
- Cohere Embed
- Sentence Transformers (Open Source)
- Amazon Titan Text Embeddings

Image Generation Models

Modelle, die aus Textbeschreibungen (Text-to-Image) oder bestehenden Bildern neue Bilder erzeugen
Technisch basierend auf Diffusionsmodellen oder Transformer-Architekturen
Einsatz: Marketing-Visuals, Prototyping, Produktfotografie-Stil, Illustration, Designkonzepte
Beispiele:
- Stable Diffusion 3.5
- DALL-E 3
- Midjourney
- Kling 1.6 Pro
- Recraft v3
- Flux

VLMs (Vision Language Models)

KI-Systeme, die Bildverständnis und Sprachverarbeitung kombinieren
Architektur: ein visueller Encoder (z.B. ViT oder CLIP) extrahiert Bildmerkmale, ein Sprachmodell (LLM) wandelt diese in Text um
Können Bilder interpretieren, beschreiben, Fragen zu Bildinhalten beantworten
Abgrenzung: Alle VLMs sind multimodal, aber nicht alle multimodalen Modelle sind VLMs. VLMs sind spezifisch auf Bild plus Sprache ausgerichtet
Einsatz: Dokumentenanalyse (Rechnungen, Formulare, Scans), Qualitätskontrolle in der Fertigung, medizinische Bildauswertung, visuelle Suche, Barrierefreiheit (Bildbeschreibungen)
Beispiele:
- GPT-4o (Vision)
- Gemini
- Claude (Vision)
- LLaVA
- Qwen-VL
- Llama 4 Scout

Multimodale Modelle (LMMs / Large Multimodal Models)

Modelle, die mehr als zwei Modalitäten gleichzeitig verarbeiten und/oder generieren: Text, Bild, Audio, Video
Entwicklung geht von Text-zu-Text hin zu Any-to-Any-Modellen
Unterschied zu VLMs: LMMs sind der breitere Oberbegriff und schließen auch Audio, Video und weitere Sensorik ein
Einsatz: Komplexe Workflows, die verschiedene Datentypen gleichzeitig benötigen. Videoanalyse mit Textzusammenfassung, Spracheingabe mit visueller Ausgabe, multimodale Agenten
Beispiele:
- GPT-4o (Audio + Vision + Text)
- Gemini 3
- Meta 4M

STT / ASR (Speech to Text / Automatic Speech Recognition) und TTS (Text to Speech)

STT / ASR (Automatic Speech Recognition): Wandelt gesprochene Sprache in geschriebenen Text um
Unterstützt Echtzeit-Streaming und Batch-Transkription
Funktionen: Sprecherzuordnung, automatische Zeichensetzung, Schimpfwortfilterung, benutzerdefiniertes Vokabular
TTS (Text to Speech): Wandelt geschriebenen Text in gesprochene Sprache um
Neuronale TTS-Modelle erzeugen natürlich klingende Stimmen
Voice Cloning ermöglicht markenspezifische Stimmen
Einsatz STT: Transkription von Meetings, Interviews, Callcentern, Podcasts. Sprachsteuerung. Barrierefreiheit
Einsatz TTS: Voicebots, Sprachassistenten, Hörbuch-Generierung, Konversationsagenten, Accessibility
Beispiele:
- OpenAI Whisper (STT, Open Source)
- Google Speech-to-Text
- Azure Speech
- Amazon Transcribe
- ElevenLabs (TTS)
- OpenAI TTS
- NVIDIA Riva
- Azure Custom Neural Voice

Video Generation Models

Modelle, die aus Textbeschreibungen, Bildern oder kurzen Clips Videoinhalte erzeugen
Technisch basierend auf Diffusionsmodellen, die auf zeitliche Kohärenz und Bewegung erweitert sind
Ergebnisse sind mittlerweile kaum noch von gefilmtem Material zu unterscheiden
Einsatz: Werbefilme, Spezialeffekte, Konzeptvisualisierung, Storytelling, Produktvideos
Beispiele:
- Sora (OpenAI)
- Veo 3 (Google DeepMind)
- Gen-4 (Runway)
- Kling Video
- NVIDIA Cosmos

Reward Models

Modelle, die trainiert werden, um menschliche Präferenzen abzubilden
Bewerten die Qualität von Antworten eines Sprachmodells auf einer Skala
Werden im RLHF-Prozess (Reinforcement Learning from Human Feedback) eingesetzt, um das eigentliche Sprachmodell zu steuern
Fungieren als Brücke zwischen menschlichem Feedback und Modellverhalten
Einsatz: Alignment-Training von LLMs. Qualitätsbewertung von Modellantworten. Filterung und Ranking von Outputs. Nicht direkt für Endanwender, sondern Teil der Modellentwicklungs-Pipeline
Beispiele:
- Reward Models von OpenAI
- Anthropic
- Nemotron-Reward (NVIDIA)

Time Series Models

Foundation Models, die auf großen, domänenübergreifenden Zeitreihendaten vortrainiert sind
Können ohne aufgabenspezifisches Training (Zero-Shot) Vorhersagen, Anomalieerkennung und Klassifikation auf neuen Daten liefern
Anwendungsbereiche: Finanzen, Energie, Gesundheit, Fertigung, IoT
Einschränkung: Zeitreihendaten sind domänenspezifisch (Saisonalität, Trends, unregelmäßige Abtastung), weshalb spezialisierte Modelle in der Praxis oft genauer sind als allgemeine Foundation Models
Einsatz: Absatzplanung, Energiebedarfsprognosen, Predictive Maintenance, Finanzprognosen, Anomalieerkennung in Sensordaten. Besonders wertvoll bei fehlenden oder unzureichenden historischen Daten
Beispiele:
- TimesFM 2.5 (Google)
- Chronos 2 (Amazon)
- MOMENT
- Lag-Llama

Domain-Specific Foundation Models

Vortrainierte Modelle, die gezielt auf Daten einer bestimmten Branche oder Domäne trainiert sind
Unterschied zu allgemeinen LLMs: tieferes Verständnis fachspezifischer Terminologie, Zusammenhänge und Regularien
Können auf branchenspezifische Downstream-Tasks feinabgestimmt werden
Einsatz: Medizin (Radiologie, Pathologie, klinische Texte), Recht (Vertragsanalyse, Regulatorik), Biowissenschaften (Proteinstruktur, Genomik), Finanzen (Risikobewertung, Compliance), Fertigung (Qualitätskontrolle, Prozessoptimierung)
Beispiele:
- Med-PaLM (Google, Medizin)
- ESMFold (Meta, Proteinstruktur)
- BloombergGPT (Finanzen)
- BioMistral (Biomedizin)
- SecLM (Cybersecurity)

Wo hostest du das Modell?

Es gibt verschiedene Optionen:

Cloud API (Managed Service): Du nutzt das Modell über die API eines KI Modell Anbieters. Der Anbieter hostet, skaliert und wartet. Du zahlst pro Token oder pro Anfrage. Kein eigener GPU-Bedarf.
Hyperscaler Public Cloud: Du betreibst Modelle auf GPU-Instanzen bei Hyperscalern. Shared Infrastructure, virtuell isoliert. Du nutzt das Ökosystem des Hyperscalers (Monitoring, Logging, IAM), verantwortest aber Betrieb und Skalierung selbst.
Private Cloud: Dedizierte, physisch isolierte Infrastruktur bei einem Anbieter. Single-Tenant. Nur du nutzt die Hardware. Relevant wenn Regulatorik eine nachweisbare Trennung von anderen Mandanten verlangt.
Self-Hosted Cloud (eigene Infrastruktur in der Cloud): Du betreibst Modelle auf gemieteten GPU-Servern. Volle Kontrolle über Modell und Daten, aber du verantwortest Betrieb, Skalierung und Updates.
On-Premise (lokal, eigene Hardware): Du betreibst Modelle auf eigener Hardware im eigenen Rechenzentrum.

Entscheidungsfaktoren: Datenschutzanforderungen, Kosten (pro-Token vs. Fixkosten), Latenz, Skalierungsbedarf, Regulatorik.

Wie rufst du das Modell auf?

API-Endpunkt (REST API): Standardweg: HTTP-Request an einen Endpunkt. Du sendest eine Anfrage (Prompt, Konfiguration) und erhältst die Antwort. Die meisten Anbieter nutzen ein OpenAI-kompatibles API-Format, das als De-facto-Standard gilt. Auch Self-Hosted-Lösungen (Ollama, vLLM, LocalAI) bieten OpenAI-kompatible Endpunkte, sodass du Cloud-Dienste durch lokale Modelle ersetzen kannst, ohne Code zu ändern.
SDK (Software Development Kit): Bibliotheken in Python, TypeScript, etc., die den API-Aufruf abstrahieren. Beispiele: OpenAI Python SDK, Anthropic SDK, LangChain, LlamaIndex.
Inference-Server: Für Self-Hosted-Modelle: ein Server-Prozess, der das Modell lädt und Anfragen entgegennimmt. Frameworks: vLLM, TGI (Text Generation Inference), NVIDIA Triton, Ollama.

So sieht das konkret aus

Hier mal ein sehr vereinfachtes Beispiel, was alle anderen Probleme erstmal ignoiert, es geht hier nur um das Prinzip Aufruf eines Modells.

Ein Business User erstellt einen Bericht. Relevante Daten werden vorher aus internen Systemen geladen. Hier geht es nur um den Schritt, in dem das Modell aufgerufen wird.

Variante 1: Lokales Modell mit Ollama

antwort = requests.post(
    "http://localhost:11434/v1/chat/completions",
    json={
        "model": "mistral",
        "messages": [
            {
                "role": "user",
                "content": f"Erstelle aus diesen Daten einen Bericht: {xyz_daten}"
            }
        ]
    }
)

Das Modell läuft auf deinem Rechner. Keine Daten verlassen die Hardware.

Variante 2: Cloud API

antwort = requests.post(
    "https://api.openai.com/v1/chat/completions",
    headers={"Authorization": "Bearer DEIN_API_KEY"},
    json={
        "model": "gpt-4o",
        "messages": [
            {
                "role": "user",
                "content": f"Erstelle aus diesen Daten einen Bericht: {xyz_daten}"
            }
        ]
    }
)

Was man daran sieht: Der Code ist in beiden Fällen fast identisch. Der einzige Unterschied ist die URL. localhost:11434 statt api.openai.com. Deshalb heißt es OpenAI-kompatibel: du kannst den Anbieter wechseln, ohne deinen Code umzuschreiben.

Was man mit Modellen machen kann

Für sehr spezielle Anforderungen kann man ein Modell verändern.

Man kann es anpassen: die Gewichte mit eigenen Daten nachtrainieren, damit es sich in einer bestimmten Domäne besser verhält.
Und man kann es optimieren: die Gewichte komprimieren, damit das Modell kleiner wird und schneller läuft.

Für die allermeisten Business-Anwendungsfälle brauchst du weder das eine noch das andere.

Anpassen und Optimieren erfordert Machine Learning Kompetenz, GPU-Infrastruktur und aufwändige Evaluierung, das ist teuer und langsam. Gleichzeitig sind die Basismodelle 2026 so leistungsfähig, dass sie die meisten Aufgaben ohne jede Anpassung lösen.

Das viel wichtigere ist die Architektur drumherum.

Trotzdem einmal, dass man es mal gehört hat:

Modell anpassen

Wer ein Modell anpassen muss, hat folgende Optionen:

Fine-Tuning trainiert alle Gewichte mit einem eigenen Datensatz nach.
LoRA friert die meisten Gewichte ein und trainiert nur eine kleine zusätzliche Schicht.
QLoRA macht dasselbe auf komprimierter Basis, sodass es auf Consumer-Hardware läuft.
RLHF und DPO richten das Modell an menschlichen Präferenzen aus.
Model Merging kombiniert die Gewichte mehrerer Modelle ohne Training.

Modell optimieren

Wer ein Modell optimieren muss, hat folgende Optionen:

Quantisierung reduziert die Zahlenpräzision der Gewichte und macht das Modell bis zu 75% kleiner.
Pruning entfernt Gewichte, die wenig beitragen.
Wissensdestillation lässt ein großes Modell ein kleineres trainieren, das ähnlich gut performt.

Die einzige offene Frage

Das einzige, was wirklich noch nicht erledigt wurde und ich muss sagen, es regt mich auch bischen auf. Da gibt es so viele Professoren, Forscher, KI Influencer und keiner legt das mal fest. Oder falls es einer schon festgelegt hat, dann hat er es der Welt noch nicht mitgeteilt. Ich konnte nichts dazu finden.

Was ist denn nun das offizielle Symbol zum Zeichnen eines Modells?!?

Ganz ehrlich, kleine Roboter, Sternchen oder Gehirne zu zeichnen, finde ich persönlich sehr kindisch. Ich will professionell arbeiten.

Das Symbol muss schnell von Hand gezeichnet werden können, falls man mal in einem Meeting ist und auf einem Whiteboard malt. Also fallen diese ganzen Symbole mit den vielen Knoten und Linien weg.

Nimm den Zylinder für Datenbanken als Blaupause.

Ich lege nun hiermit folgendes Symbol fest. Je nach dem um welche Art von Modell es sich handelt, fügst Du andere Buchstaben ein. Male es genrne noch etwas schöner:

LLM Symbol für Architekturdiagramme, made by Bianca J. Schulz

Leitet das gerne mal an Leute weiter, die es entscheiden könnten. Wenn es keiner entscheiden will, dann ist es hiermit von mir entschieden 😎

Fazit

Sag selbst, was ist Dein Fazit nach dem Lesen dieses Artikels?

Ist ja ganz interessant mit den verschiedenen Modellen, aber eigentlich haben wir ganz andere Fragen. Richtig!

Freut Euch auf die nächsten Artikel!

Die Artikel sind und bleiben free:

oder empfehle sie weiter:

Share Bianca J. Schulz

Bianca J. Schulz

Discussion about this post

Ready for more?