Glossar & Entscheidungshilfe

Lokale KI-Modelle verstehen

GGUF, Q4_K_M, 14B-Instruct — klingt wie Geheimsprache? Dieses Glossar übersetzt die Begriffe für dich und hilft dir, die richtigen Entscheidungen zu treffen.

Warum lokal?
Kapitel 1

Warum KI lokal betreiben?

Die meisten nutzen ChatGPT, Claude oder Gemini über den Browser. Das funktioniert gut — aber jede Eingabe verlässt dabei deinen Rechner. Für viele KMU ist das ein Problem: Kundendaten, Strategiepapiere, vertrauliche Entwürfe, HR-Dokumente. All das landet auf Servern, die du nicht kontrollierst.

Lokale KI-Modelle lösen das. Die KI läuft auf deinem eigenen Rechner oder Server. Keine Daten gehen raus, kein Anbieter liest mit. Du entscheidest, welches Modell du nutzt, wie lange du es einsetzt und was damit passiert.

Aber sobald du ein lokales Modell herunterladen willst, stehst du vor einem Wald aus Abkürzungen: GGUF, Q4_K_M, 14B-Instruct, MoE, Imatrix. Das klingt kompliziert — ist es aber nicht, wenn du die Logik dahinter kennst. Genau das liefert diese Seite.

Lokale KI ist wie eine eigene Küche

Statt jeden Tag ins Restaurant zu gehen (Cloud-KI), kochst du selbst. Du brauchst eine Küche (Hardware), Rezepte (Modelle) und Zutaten (deine Daten). Es dauert etwas, bis alles eingerichtet ist. Aber dafür bestimmst du, was auf den Tisch kommt — und niemand liest mit, was du kochst.

Datenschutz

Deine Daten bleiben bei dir

Lokale Modelle verarbeiten alles auf deinem Rechner. Kein Cloud-Anbieter sieht deine Eingaben. Das ist besonders relevant seit dem revidierten Schweizer Datenschutzgesetz (revDSG), das 2023 in Kraft trat und den Umgang mit Personendaten strenger regelt. Lokale KI vereinfacht die Compliance.

Kosten

Keine laufenden Abo-Kosten

Kein Monatsabo, keine Token-Gebühren. Nach der Anschaffung der Hardware läuft das Modell ohne laufende Kosten — nur Strom. Bei intensiver Nutzung kann sich die Investition gegenüber Cloud-Abos lohnen — wie schnell, hängt von deiner Auslastung und den jeweils aktuellen Preisen ab.

Unabhängigkeit

Du behältst die Kontrolle

Funktioniert offline. Kein Anbieter kann den Dienst abschalten, die Preise erhöhen oder Nutzungsbedingungen ändern. Du wählst das Modell, die Version, die Einstellungen — und du entscheidest, wann du wechselst.

Ehrliche Einordnung: Lokal heisst nicht «besser als Cloud». Für viele Aufgaben sind die grossen Cloud-Modelle überlegen — sie haben mehr Parameter, bessere Trainingsdaten und werden ständig verbessert. Lokal ist die richtige Wahl, wenn Datenschutz, Kontrolle oder Kostenstruktur für dich entscheidend sind.

Was steckt in einem KI-Modell?

Wenn du ein Modell herunterlädst, lädst du eine grosse Datei voller Zahlen herunter. Diese Zahlen — die sogenannten «Gewichte» oder «Parameter» — sind das, was das Modell während seines Trainings gelernt hat. Sie codieren Sprachmuster, Weltwissen, logische Zusammenhänge und vieles mehr.

Je mehr Parameter ein Modell hat, desto mehr «Wissen» kann es speichern — aber desto mehr Arbeitsspeicher (RAM) braucht es auch. Das ist die zentrale Abwägung bei lokalen Modellen: Leistung gegen Hardware-Anforderungen.

MODELL-DATEI (.gguf) Gewichte Das gelernte Wissen: Milliarden Zahlen Architektur Die Struktur: Wie die Zahlen zusammenwirken Tokenizer Die Sprache: Wie Text in Zahlen wird LADEN RAM Modell geladen DEIN COMPUTER

Parameter — die Grösse eines Modells

Die Abkürzungen «B» und «M» in Modellnamen stehen für die Anzahl der Parameter. «B» bedeutet Milliarden (englisch: Billion), «M» bedeutet Millionen. Ein «14B»-Modell hat also 14 Milliarden trainierbare Gewichte.

Parameter sind wie Gehirnzellen

Stell dir vor, ein Modell mit 14 Milliarden Parametern hat 14 Milliarden winzige Entscheidungspunkte. Je mehr davon, desto differenzierter kann es «denken» — es erkennt feinere Nuancen und kann komplexere Aufgaben lösen. Aber mehr Entscheidungspunkte brauchen auch ein grösseres Gehirn — sprich: mehr Arbeitsspeicher.

BezeichnungBedeutungRAM (Q4)Typischer Einsatz
100–500MHundert Millionen Parameter~0.3–0.7 GBEmbedding-Modelle für Textsuche und RAG
1.5B1.5 Milliarden~1.5 GBEinfache Aufgaben, schnelle Antworten, mobile Geräte
7B / 8B7–8 Milliarden~4–5 GBEinstieg: einfache Texte, Zusammenfassungen
14B14 Milliarden~8–9 GBAllrounder: E-Mails, Analysen, leichtes Coding
27B / 32B27–32 Milliarden~16–20 GBAnspruchsvoll: Coding, kreatives Schreiben
70B70 Milliarden~40 GBHoch: komplexe Aufgaben, viel Hardware
200B+200 Milliarden und mehr~120+ GBServer-Hardware, MoE oft praktischer

Wichtig: Mehr Parameter bedeuten nicht automatisch bessere Ergebnisse. Ein gut trainiertes 14B-Modell kann ein schlecht trainiertes 70B-Modell übertreffen. Entscheidend ist die Kombination aus Modellgrösse, Trainingsqualität und Passgenauigkeit für deine Aufgabe.

Dense vs. MoE — zwei Architekturen

Dense-Modelle rechnen bei jeder Anfrage mit allen Parametern. MoE-Modelle (Mixture of Experts) aktivieren nur einen Teil ihrer Parameter pro Anfrage. Das spart Rechenleistung und macht das Modell schneller — bei gleichem Speicherbedarf.

MoE ist wie ein Ärzteteam

Ein Dense-Modell ist wie ein Allgemeinmediziner, der jede Frage allein beantwortet. Ein MoE-Modell ist wie eine Arztpraxis mit Spezialisten — pro Anfrage ist nur der passende Facharzt aktiv. Das Team hat enormes Wissen (z.B. 30B Parameter), aber pro Behandlung arbeitet nur ein Teil davon (z.B. 3B aktive Parameter).

MoE erkennt man am Buchstaben «A» im Modellnamen: [Familie]-30B-A3B bedeutet 30 Milliarden Gesamtparameter, 3 Milliarden aktiv pro Token. Du brauchst den Speicher für 30B, aber die Geschwindigkeit entspricht eher einem 3B-Modell.

Embedding-Modelle — die stillen Helfer

Embedding-Modelle sind kleine Spezialisten (100–500M Parameter), die Text in mathematische Vektoren umwandeln. Sie generieren keinen lesbaren Text, machen aber Inhalte semantisch durchsuchbar. Wer ein RAG-System aufbaut (KI, die in eigenen Dokumenten sucht), braucht zwingend ein Embedding-Modell.

Modellgenerationen entwickeln sich schnell. Die Modellfamilien — Qwen, Llama, Gemma, Mistral, DeepSeek, Phi und andere — bleiben über Jahre relevant. Was sich häufig ändert: Versionsnummern und einzelne Modellgrössen. Die Konzepte aus diesem Glossar gelten generationsübergreifend.

Kapitel 3

Dateiformate und Sicherheit

Auf Hugging Face — der grössten Plattform für KI-Modelle — findest du pro Modell oft mehrere Dateiformate. Die Wahl ist nicht nur eine technische Frage. Es geht auch um die Sicherheit deines Systems.

GGUF

Der Standard für lokale Modelle. Eine Datei enthält alles. Sicher — keine Code-Ausführung beim Laden.

Safetensors

Sicheres Format von Hugging Face. Keine Code-Ausführung. Vor allem für GPU-Training und -Inferenz.

Pickle (.pt, .bin, .pkl)

Kann beim Laden beliebigen Code ausführen. Sicherheitsrisiko bei unbekannten Quellen.

Faustregel: GGUF und Safetensors sind sicher — sie enthalten nur Zahlen, keinen ausführbaren Code. Pickle-Dateien (.pt, .bin, .pkl) nur von offiziellen Repos oder bekannten Entwicklern laden.

GGUF — das Format im Detail

GGUF wurde im August 2023 von der llama.cpp-Community eingeführt und ist heute der De-facto-Standard für lokale Modelle. Eine einzige Datei enthält alles — kein Entpacken, keine Zusatzdateien. Du lädst die GGUF-Datei herunter, öffnest sie in deinem Tool — fertig.

Typischer Dateiname: Qwen3-14B-Instruct-Q4_K_M.gguf — wie du diesen Namen vollständig entschlüsselst, erfährst du in Kapitel 7.

Sicherheits-Checkliste

Vor dem Download

4 Punkte, die du prüfen solltest

1. Dateiformat: GGUF oder Safetensors? Dann ist es sicher. Bei Pickle-Dateien nur von offiziellen Quellen laden.

2. Quelle: Offizielle Repos der Entwicklerfirmen oder bekannte Community-Quantisierer mit hoher Reputation.

3. Community-Signale: Likes, Downloads, Kommentare? Ein Modell mit 0 Likes von einem unbekannten Account verdient Vorsicht.

4. Lizenz: Passt die Lizenz zu deinem Einsatzzweck? Dazu mehr in Kapitel 5.

Nach dem Download

4 Regeln für den sicheren Betrieb

1. Software aktuell halten: Dein Tool für lokale Modelle regelmässig updaten — Sicherheitslücken werden in neuen Versionen geschlossen.

2. Tool-Zugriff bewusst vergeben: Ein Modell ohne Tool-Zugriff kann nichts auf deinem System anrichten — es liest nur deine Eingabe und generiert Text.

3. Netzwerkzugriff einschränken: Wenn du das Modell über n8n oder eine API erreichbar machst, sichere den Zugang ab.

4. Uncensored-Modelle nicht öffentlich hosten: Du bist für die generierten Inhalte verantwortlich.

Gut zu wissen: Ein lokales Modell ohne Tool-Zugriff kann dir antworten, aber nichts anfassen. Erst wenn du ihm über n8n, MCP-Server oder eine API Werkzeuge gibst, kann es mit der Aussenwelt interagieren — und dann liegt die Verantwortung bei dir, diese Zugriffe sorgfältig zu konfigurieren.

Quantisierung — so werden Modelle nutzbar

Ein 14B-Modell in voller Qualität (BF16) braucht rund 28 GB RAM. Quantisierung löst dieses Problem: Sie komprimiert das Modell, indem die Genauigkeit der einzelnen Gewichte reduziert wird. Ein 14B-Modell mit Q4-Quantisierung braucht nur noch 8–9 GB RAM — und liefert trotzdem rund 90% der Originalqualität.

Quantisierung ist wie JPEG-Kompression

Ein Foto im RAW-Format hat 50 MB. Als JPEG mit 90% Qualität nur noch 5 MB — und du siehst kaum einen Unterschied. Genauso bei Modellen: Q4 ist wie JPEG bei 85% — spürbar kleiner, kaum schlechter. Q2 ist wie JPEG bei 30% — merkbare Verluste, aber manchmal der einzige Weg.

BF16 — VOLLE QUALITÄT 3.14159265 28 GB RAM QUANTISIERUNG Q4_K_M — KOMPRIMIERT 3.14 8 GB RAM Qualität: ~90% erhalten

Das Q-System lesen

Ein Name wie Q4_K_M folgt einer klaren Logik aus drei Teilen:

Q + Zahl — Bits pro Gewicht. Weniger Bits = kleinere Datei = weniger Genauigkeit.
Buchstabe — Kompressionsverfahren: K-Quants (intelligent, modern), I-Quants (mit Kalibrierung).
Letzter Buchstabe — Variante: XS (kleinste), S, M (Mitte, empfohlen), L (grösste).

StufeBitsQualität vs. OriginalEinordnung
Q22 Bit~75–80%Stark komprimiert. Nur für Notfälle.
Q33 Bit~82–87%Brauchbar für einfache Aufgaben.
Q44 Bit~88–93%Sweet Spot. Bestes Verhältnis Qualität/Grösse.
Q55 Bit~93–95%Spürbar besser als Q4. Wenn mehr RAM vorhanden.
Q66 Bit~95–97%Nahe am Original. Für anspruchsvolle Aufgaben.
Q88 Bit~98–99%Kaum Unterschied zum Original.

Die vier Standardempfehlungen

Q4_K_M — der Allrounder

4 Bit, K-Quant, mittlere Variante. ~88–93% Originalqualität bei stark reduziertem RAM-Bedarf. Standardempfehlung für die meisten Nutzer. Wenn du unsicher bist: Q4_K_M.

Q5_K_M — das Upgrade

5 Bit, K-Quant, mittel. Spürbar besser als Q4, braucht rund 25% mehr RAM. Die richtige Wahl ab 24 GB RAM.

Q6_K — nahe am Original

6 Bit, K-Quant. 95–97% Originalqualität. Für anspruchsvolle Aufgaben wie Coding, Analyse oder kreatives Schreiben.

Q8_0 — fast das Original

8 Bit. 98–99% Originalqualität. Nur sinnvoll, wenn RAM wirklich kein Engpass ist.

Entscheidungshilfe nach RAM

Welche Quantisierung passt zu meinem System?

Einfache Faustformel nach verfügbarem RAM:

Wenig RAM (8–12 GB) → Q4_K_S oder IQ4_XS Normal (16–24 GB) → Q4_K_M (Standardempfehlung) Viel RAM (32 GB+) → Q5_K_M oder Q6_K Maximale Qualität → Q8_0 (wenn genug RAM vorhanden)

Faustregel: Nimm immer die höchste Q-Stufe, die noch in deinen RAM passt — und lass mindestens 4 GB frei für Betriebssystem und andere Programme.

Vollständige Bezeichnungen zum Nachschlagen

BezeichnungBedeutungEmpfehlung
Q4_K_M4 Bit, K-Quant, mittel★ Allround-Empfehlung
Q4_K_S4 Bit, K-Quant, kleinWenn RAM knapp ist
Q5_K_S5 Bit, K-Quant, kleinGuter Kompromiss
Q5_K_M5 Bit, K-Quant, mittelGehobene Qualität
Q6_K6 Bit, K-QuantWenn RAM kein Problem ist
Q8_08 Bit, BasisFast wie das Original
IQ4_XS4 Bit, Imatrix, extra-kleinKompakter als Q4_K_S
IQ4_NL4 Bit, Imatrix, non-linearSpezialvariante

Wie wählst du das richtige Modell?

Auf Hugging Face stehen Zehntausende von Modellen zur Auswahl. Die Antwort auf «welches ist das richtige?» hängt von vier Fragen ab: Welche Aufgabe willst du lösen? Welcher Modelltyp passt? Wie viel Hardware hast du? Und welche Lizenz brauchst du?

Modelltypen verstehen

Base

Rohes vortrainiertes Modell. Vervollständigt Texte, beantwortet keine Fragen. Für Endnutzer ungeeignet.

Instruct

Für Frage-Antwort und Anweisungen optimiert. Standardtyp für die meisten Anwendungen.

Chat

Wie Instruct, zusätzlich für mehrteilige Dialoge optimiert. Behält Kontext besser.

Uncensored / Abliterated

Sicherheitsschranken entfernt. Die Verantwortung für die Nutzung liegt vollständig bei dir.

Praxis-Tipp: Wenn du unsicher bist — nimm ein Instruct-Modell. Es deckt 90% aller Anwendungsfälle ab.

Welches Modell für welche Aufgabe?

EinsatzzweckEmpfohlene EigenschaftenTypische GrösseWorauf achten
BüroassistenzInstruct, mehrsprachig7B–14BGute Deutsch-Unterstützung
Code-UnterstützungCoder-Modell oder allgemeines mit Code-Training14B–30B (oft MoE)Suffix «-Coder», Tool-Calling
RAG / WissenssucheEmbedding-Modell + Instruct100M–500M + 7B–14BHoher Kontextumfang (32k+)
Kreatives SchreibenAllround, höhere Temperature14B–32B oder MoEModell-Karten mit Story-Beispielen
Reasoning / AnalyseReasoning-Modell mit «Thinking»14B–32B+Suffix «-R», «-Thinking»
BildverständnisVision-Modell (multimodal)VariabelSuffix «-VL», «-Vision»

Konkrete Modellnamen wechseln, die Logik bleibt. Wenn du auf Hugging Face suchst, kombinierst du die Eigenschaften: «14B + Instruct + Q4_K_M» liefert aktuelle, passende Modelle — egal welche Generation.

Lizenzen — was darfst du damit?

Sehr permissiv

Frei für kommerzielle Nutzung

Apache 2.0 — Sehr verbreitet. Kommerzielle und private Nutzung ohne Einschränkungen. Nur Namensnennung erforderlich.

MIT — Eine der liberalsten Lizenzen. Praktisch keine Bedingungen ausser Beibehaltung der Lizenz.

Mit Vorbehalt

Eigene Lizenzen — vor Nutzung lesen

Meta Llama Community License — Erlaubt Kommerz, aber nicht für Unternehmen mit mehr als 700 Mio. monatlich aktiven Nutzern.

Google Gemma Terms — Erlaubt Kommerz, aber mit Nutzungseinschränkungen. CC-BY-NC — Nur privat/Forschung, keine kommerzielle Nutzung.

Die wichtigsten Modellfamilien

FamilieEntwicklerTypische StärkenLizenz
QwenAlibabaAllround, mehrsprachig, Coder-VariantenApache 2.0
LlamaMetaAllround, grosses ÖkosystemLlama Community
GemmaGoogleEffizient auf kleiner HardwareGemma Terms
Mistral / MixtralMistral AIEffiziente Dense- und MoE-Modelle, EU-basiertApache 2.0 (variiert)
DeepSeekDeepSeek (CN)Reasoning, Coding, sehr permissivMIT
PhiMicrosoftSehr kompakt, gut für schwache HardwareMIT
Kapitel 6

Software und Hardware — was du brauchst

Drei Dinge sind nötig: eine Software, die das Modell ausführt, genug Arbeitsspeicher, und optional eine Grafikkarte für mehr Geschwindigkeit.

Die etablierten Tools

Eigenschaft Msty Studio Ollama LM Studio Open WebUI
Bedienung Grafische Desktop-App Kommandozeile (CLI) Grafische Desktop-App Browser-Interface
Modell-Suche Eingebaut Via CLI oder Hugging Face Eingebauter HF-Browser Via Ollama-Backend
API-Server Ja Ja (Port 11434) Ja Ja (OpenAI-kompatibel)
n8n-Integration Über die API Über die API Über die API Via API oder Pipe Functions
Mehrbenutzer Nein Nein Nein Ja
Lizenz Closed Source, kostenlose Basis Open Source (MIT) Closed Source, kostenfrei Open Source (MIT)
Ideal für Einsteiger, polierte Oberfläche Entwickler, Server, Automation Einsteiger mit API-Bedarf Teams, Server-Deployment
Website msty.app ollama.com lmstudio.ai openwebui.com

Msty Studio, Ollama und LM Studio setzen alle auf llama.cpp als Inferenz-Engine. Open WebUI ist ein Browser-Frontend, das Ollama oder eine OpenAI-kompatible API als Backend voraussetzt — und denselben Motor damit indirekt mitbringt. Für n8n-Automatisierungen eignen sich alle vier: Ollama, Msty und LM Studio über ihre direkte API, Open WebUI über seine eigene OpenAI-kompatible API oder via Pipe Functions.

Hardware-Klassen im Überblick

EINSTIEG 16 GB RAM Modelle bis 14B mit Q4 Büro, E-Mails, Texte FORTGESCHRITTEN 32 GB+ / GPU Modelle bis 30B mit Q4–Q5 Coding, Analyse, RAG POWER 64+ GB / Mac Modelle bis 70B+ alle Quantisierungen Alles, was möglich ist

CPU oder GPU?

Lokale Modelle laufen grundsätzlich auf jedem modernen Rechner — auch nur mit der CPU. Aber eine GPU oder Apple Silicon beschleunigt die Antwortgeschwindigkeit dramatisch.

GeschwindigkeitNutzererlebnis
1–5 Tokens/SekundeSpürbar langsam. Geduld erforderlich, aber nutzbar für kurze Antworten.
5–15 Tokens/SekundeEtwa Lesegeschwindigkeit. Akzeptabel für die meisten Aufgaben.
15–30 Tokens/SekundeFlüssig. Antworten erscheinen ohne spürbare Wartezeit.
30+ Tokens/SekundeSehr schnell. Vergleichbar mit Cloud-Diensten.
Lokale KI

Einmalige Investition

Anschaffung: Hardware — einmalige Ausgabe, abhängig von Modellgrösse und Geschwindigkeitsanspruch.

Laufende Kosten: Praktisch nur Strom — ein Desktop-Rechner kostet im Betrieb wenige Franken pro Monat.

Rechnet sich, wenn: Du intensiv und regelmässig KI nutzt, mit sensiblen Daten arbeitest oder mehrere Personen Zugriff brauchen.

Cloud-KI

Laufende Abo-Kosten

Anschaffung: Keine. Du nutzt die Hardware des Anbieters.

Laufende Kosten: Monatliches Abo oder Token-Preise, die mit intensiverer Nutzung steigen.

Rechnet sich, wenn: Du nur gelegentlich KI brauchst oder immer Zugriff auf die neuesten Modelle willst.

Konkrete Preise ändern sich. Statt einer Tabelle mit Beträgen, die schnell überholt sind: Rechne kurz vor der Anschaffung mit aktuellen Preisen — Hardware wird günstiger, Abos werden angepasst.

Modellnamen lesen — die Anatomie

Du siehst auf Hugging Face einen Namen wie unsloth/Qwen3-Coder-30B-A3B-Instruct-Q4_K_M.gguf und denkst: Was?! Wenn du die einzelnen Bausteine kennst, kannst du jeden Modellnamen lesen — auch von Familien, die du noch nicht kennst.

unsloth/ Qwen3 Coder 30B-A3B Instruct Q4_K_M .gguf QUANTISIERER Wer hat erstellt? MODELLFAMILIE 3. Generation Qwen SPEZIALISIERUNG Für Programmierung GRÖSSE (MoE) 30B total, 3B aktiv MODELLTYP Für Anweisungen QUANTISIERUNG 4 Bit, K, mittel DATEIFORMAT Standard für lokal

Lesereihenfolge: Vorne der Quantisierer, dann Basismodell und Spezialisierungen, am Ende Quantisierung und Format. Nicht jeder Name enthält alle Teile — aber die Logik bleibt immer dieselbe.

Glossar weiterer Begriffe

Benchmark

Standardisierte Tests zum Modellvergleich. Bekannte Beispiele: MMLU (Allgemeinwissen), HumanEval (Coding), GSM8K (Mathematik). Wichtig: Benchmarks können «überoptimiert» sein — ein Modell, das auf einem Benchmark gut abschneidet, ist nicht zwingend gut für deine konkrete Aufgabe.

BF16 (Brain Float 16)

Das Standardformat für unkomprimierte Modelle. 16 Bit pro Gewicht — gilt als «volle Qualität», an der alle Quantisierungen gemessen werden.

Context Window (Kontextfenster)

Wie viel Text das Modell gleichzeitig «sehen» kann, gemessen in Tokens. Früher oft 2k–4k, heute 32k–128k Standard. Ein grösseres Kontextfenster ist wichtig für RAG, lange Dokumente und mehrteilige Dialoge.

Distillation

Eine Trainingstechnik, bei der ein kleines Modell vom Verhalten eines grossen lernt. Das kleine Modell wird dadurch leistungsfähiger, als seine Grösse vermuten lässt.

Fine-Tuning

Nachtraining eines Basismodells für einen spezifischen Anwendungsfall (z.B. Recht, Medizin, kreatives Schreiben). Das Basismodell bleibt erhalten, wird aber für die neue Aufgabe spezialisiert.

mmproj (Multi-Modal Projector)

Zusatzdatei bei Vision-Modellen. Sie übersetzt Bilder in die Form, die das Sprachmodell verarbeiten kann. Bei Vision-Modellen lädst du immer zwei Dateien: Modell + mmproj-Datei.

Prompt / System-Prompt

Prompt: Deine Eingabe an das Modell. System-Prompt: Eine spezielle Anweisung, die das Verhalten des Modells für die gesamte Sitzung festlegt (z.B. «Du bist ein hilfreicher Schweizer Steuerberater»).

Temperature

Steuert die «Kreativität» des Modells. Niedrige Werte (0.1–0.3) → präzise, vorhersagbare Antworten. Höhere Werte (0.7–1.0) → variantenreiche, kreativere Antworten.

Thinking / Reasoning

Modelle, die vor der Antwort sichtbar «nachdenken» (oft in <think>-Blöcken). Verbessert die Qualität bei komplexen Aufgaben, erhöht aber die Antwortzeit. Erkennbar an Suffixen wie «-R», «-Thinking», «-Reasoning».

Token

Die Grundeinheit, in der KI-Modelle Text verarbeiten. Entspricht ungefähr einer Silbe oder einem kurzen Wort. 100 Tokens ≈ 70–80 deutsche Wörter.

Tokens pro Sekunde (t/s)

Die Geschwindigkeit, mit der das Modell antwortet. Siehe Tabelle in Kapitel 6 zur Einordnung der Werte.

Top-P / Top-K

Technische Parameter, die zusätzlich zur Temperature die Wortauswahl des Modells steuern. Für die meisten Anwendungen sind die Standardwerte gut (Top-P ≈ 0.9, Top-K ≈ 40).

Vision (multimodal)

Modelle, die nicht nur Text, sondern auch Bilder verstehen können. Erkennbar an Suffixen wie «-VL», «-Vision» oder «mm-».

Jetzt selbst ausprobieren

Genug Theorie. Hier sind drei Wege, wie du in den nächsten 30 Minuten dein erstes lokales Modell zum Laufen bringst.

Drei Einstiegswege

Einsteiger

Der Schnellstart

Lade eine grafische Desktop-App herunter (Msty Studio oder LM Studio). Installieren, ein 7B/8B-Modell wählen, herunterladen, Frage stellen. Ohne Kommandozeile, fertig in 10–15 Minuten.

Entwickler

Der Server-Weg

Ollama installieren, mit ollama run [modellname] starten. Das Modell läuft als API — ideal für Scripts, Programmierumgebungen und Automations-Workflows.

Automation

Der Workflow-Weg

Ollama oder LM Studio mit n8n verbinden. Das lokale Modell wird Teil deiner Automatisierungen — ohne dass Daten die eigene Infrastruktur verlassen.

Fünf Testprompts für jeden Modellvergleich

Diese fünf Prompts helfen dir, Stärken und Schwächen verschiedener Modelle schnell zu erkennen. Sie funktionieren generationsübergreifend und decken die wichtigsten Fähigkeitsbereiche ab.

1. Textverständnis

Testet, ob das Modell Inhalte erfassen und zusammenfassen kann.

Fasse den folgenden Text in 3 Sätzen zusammen und nenne die zentrale Kernaussage: [Eigener Text einfügen]

2. Logisches Denken

Testet die Fähigkeit, Aufgaben sauber zu Ende zu denken.

Ein Bauer hat 17 Schafe. Alle ausser 9 sterben. Wie viele Schafe hat der Bauer noch? Erkläre kurz deinen Lösungsweg.

3. Kreatives Schreiben mit Vorgaben

Testet, ob das Modell Tonalität, Länge und Kontext einhalten kann.

Schreibe eine E-Mail an eine Kundin, die seit 3 Monaten eine offene Rechnung nicht bezahlt hat. Ton: bestimmt, aber freundlich. Maximal 5 Sätze. Schweizer Hochdeutsch.

4. Code-Fähigkeit

Testet, ob das Modell für Programmieraufgaben taugt.

Schreibe eine Python-Funktion, die eine CSV-Datei einliest und die Summe der Spalte «Umsatz» berechnet. Kommentiere die wichtigsten Zeilen.

5. Strukturierte Ausgabe

Testet, ob das Modell präzisen Formatvorgaben folgt.

Erstelle eine Markdown-Tabelle mit 4 Spalten: Land, Hauptstadt, Bevölkerung, Sprache. Fülle sie mit drei europäischen Ländern aus. Gib nur die Tabelle aus, keine Einleitung.

So vergleichst du Modelle fair: Stelle jedem Modell exakt die gleichen fünf Prompts. Bewerte: Wurde die Aufgabe verstanden? Wurde das Format eingehalten? Stimmt die Antwort sachlich? Klingt der Stil natürlich? War die Geschwindigkeit akzeptabel?

Empfohlene Startwahl: Wähle ein 7B- oder 8B-Modell mit Apache-2.0-Lizenz aus der Qwen- oder Mistral-Familie. Es passt auf nahezu jeden modernen Rechner, ist kommerziell frei nutzbar und liefert genug Qualität, um das Konzept zu verstehen.