KI-Praxis · Für alle Modelle

So kommst du nie mehr an dein KI-Limit

35 praxiserprobte Hacks für Claude, ChatGPT und Gemini. Weniger Tokenverbrauch, mehr Output – ab der nächsten Nachricht.

Jetzt starten
Kapitel 1

Was sind Tokens – und warum verbrennst du so viele?

Jedes Mal, wenn du eine Nachricht an Claude, ChatGPT oder Gemini schickst, passiert im Hintergrund etwas Teures: Die KI zerlegt deinen gesamten Text in kleine Bausteine – sogenannte Tokens. Ein Token ist ungefähr ein Wort oder 4 Zeichen. Und bei jeder neuen Nachricht liest die KI den kompletten bisherigen Chatverlauf noch einmal.

Stell dir ein Telefongespräch vor

Stell dir vor, du telefonierst und bei jedem neuen Satz muss dein Gegenüber das gesamte Gespräch nochmal von vorn lesen, bevor es antwortet. Genau das passiert bei jeder KI-Nachricht. Je länger das Gespräch, desto teurer wird jeder neue Satz.

Das bedeutet: Dein Tokenverbrauch wächst nicht linear, sondern exponentiell. Nachricht 1 kostet wenig. Nachricht 20 kostet ein Vielfaches – weil die KI alle vorherigen 19 Austausche mitliest. Allein durch gezieltes Zurücksetzen des Chats bei Themenwechseln lässt sich der Tokenverbrauch um bis zu 19 Prozent senken.

TOKENVERBRAUCH PRO NACHRICHT IM CHATVERLAUF 1 2 3 5 8 10 15 20 0 hoch Nachricht Nr. im Chat 20 Nachrichten = 210× mehr als eine

Dazu kommt: Output-Tokens kosten 4–5× mehr als Input-Tokens. Eine lange Antwort der KI ist also deutlich teurer als deine Frage. Wer den Output kurz hält, spart am meisten.

Die goldene Regel: Kürzere Chats, präzisere Fragen und gezieltere Outputs – das sind die drei grössten Hebel, um deinen Tokenverbrauch sofort zu halbieren.

Die Big 3 – drei Hacks, die sofort alles verändern

Diese drei Gewohnheiten haben den grössten Einfluss auf deinen Tokenverbrauch. Wenn du nur drei Dinge aus dieser Seite mitnimmst, dann diese.

Hack 1

Einmal vollständig prompten

Pack alles in eine Nachricht: Zielgruppe, Ton, Format, Länge, was rein muss, was nicht. Eine Nachricht statt fünf = vier Mal weniger Credits. Denn jede Follow-up-Nachricht lädt den gesamten Chatverlauf erneut.

Hack 2

Edit-Funktion nutzen

Das unterschätzteste Feature: Klick auf den Stift neben deiner Nachricht, korrigiere den Prompt und sende neu. Der Fehlversuch wird ersetzt, nicht gestapelt. Kein zusätzlicher Kontext-Verbrauch.

Hack 3

Neuer Chat bei neuem Thema

Bei 20 Nachrichten liest die KI den gesamten Verlauf bei jeder Nachricht erneut. Faustregel: Thema wechselt → neuer Chat. Allein das spart laut Studien bis zu 19% Tokens.

Der Büro-Vergleich

Stell dir vor, du gibst einem Mitarbeiter 5 separate Aufträge in 5 Mails – und er muss bei jeder Mail alle vorherigen nochmal lesen. Oder: Du gibst ihm ein vollständiges Briefing in einer einzigen Mail. Was ist effizienter? Genau.

Wo findest du den Edit-Button? Bei Claude und ChatGPT: Fahre mit der Maus über deine gesendete Nachricht → Stift-Icon klicken → Text ändern → neu senden. Bei Gemini: Auf deine Nachricht klicken → «Bearbeiten» wählen.

Kapitel 3

Das richtige Modell für die richtige Aufgabe

Nicht jede Aufgabe braucht das stärkste (und teuerste) Modell. Das richtige Modell zu wählen ist einer der einfachsten Wege, sofort Token zu sparen – ohne Qualitätsverlust.

Leicht

Haiku · GPT-Instant · Gemini Flash

Standard (90%)

Sonnet · GPT-Thinking · Gemini Thinking

Schwer (10%)

Opus · GPT-Pro · Gemini Pro

Opus verbraucht ein Drittel mehr Tokens als Sonnet für dieselbe Aufgabe. Bei ChatGPT ist es ähnlich, Pro erzeugt massiv mehr Output-Tokens – bei einfachen Wissensfragen das 3–4-fache. Gemini Pro verhält sich ähnlich. Mittlerweile sind die Modellanbieter davon abgekommen die Versionen anzubieten. Es wird von Standard, Instant, Thinking oder Pro gesprochen. Dahinter verbergen sich dann die jeweiligen Modelle

AufgabeEmpfohlenes ModellWarum
Rechtschreibung, Formatierung Haiku / Instant / Flash Günstigstes Modell reicht völlig
Texte schreiben, E-Mails Sonnet / Instant / Flash Lite Starke Qualität, moderate Kosten
Analysen, Zusammenfassungen Sonnet / GPT-Instant / Flash Standard-Modelle reichen aus
Code-Reviews, Standard-Code Sonnet / GPT-Thinking / Flash Gute Code-Qualität ohne Overhead
Architektur-Entscheidungen Opus (erweitertes Denken) / GPT-Pro (Thinking) / Gemini-Pro (Erweitert) Komplexe Denkarbeit, lohnt sich
Nuancierte, kreative Texte Opus (erweitertes Denken) / GPT-Pro (Thinking) / Gemini-Pro (Erweitert) Bessere Stilistik und Tiefe

Claude-Tipp: Du kannst das Modell im laufenden Chat jederzeit wechseln. Starte mit Opus für die Analyse, wechsle dann auf Sonnet für die Umsetzung. So sparst du bei jedem Folge-Prompt.

Faustregel: Wenn Sonnet / GPT-Standard / Gemini Flash die Aufgabe gut erledigt – nimm dieses Modell. Starke Modelle nur für echte Denkarbeit: komplexes Debugging, Architektur-Entscheidungen, sehr nuancierte Texte.

Kontext-Management – der grösste Hebel

Der Kontext ist alles, was die KI bei jeder Nachricht mitliest: dein gesamter Chatverlauf, hochgeladene Dateien, System-Instruktionen und aktivierte Tools. Je schlanker der Kontext, desto weniger Tokens verbrennst du.


Zusammenfassung bei langen Chats

Wenn dein Chat 15–20 Nachrichten erreicht hat, bitte die KI: «Fasse den bisherigen Verlauf in maximal 500 Wörtern zusammen.» Starte dann einen neuen Chat mit dieser Zusammenfassung. Ergebnis: Statt 40'000 Tokens Kontext nur 3'000 – das ergibt bis zu 16× mehr Kapazität.

Ungenutzte Tools & Connectors deaktivieren

Jeder aktivierte MCP-Connector, jedes eingeschaltete Tool (Websuche, Code-Interpreter, DALL-E) lädt seine komplette Definition in den Kontext – bei jeder Nachricht, auch wenn du es nicht nutzt. 5 ungenutzte Connectors = tausende Token Overhead. Für reine Schreibaufgaben: alles abschalten.

Dateien gezielt abfragen

«Was steht da drin?» bei einem 200-seitigen PDF ist der teuerste Fehler. Besser: «Lies nur Kapitel 3 und fasse die Kernaussage in 3 Sätzen zusammen.» Auch bei Bildern: Ein Screenshot des relevanten Ausschnitts ist effizienter als das komplette Bildschirmfoto.

Memory & Erinnerungen aktivieren

Alle drei Plattformen bieten eine Gedächtnisfunktion: Claude Memory, ChatGPT Memory und Gemini Memory. Einmal aktiviert, merkt sich die KI deinen Namen, bevorzugten Stil und Arbeitskontext – ohne dass du es jedes Mal neu eintippen musst.

Der Umzugskarton-Vergleich

Stell dir vor, du trägst bei jedem neuen Arbeitsschritt alle Umzugskartons aus dem Keller rauf – auch die, die du gar nicht brauchst. Kontext-Management ist: Nur die Kartons hochtragen, die du wirklich brauchst.

Praxis-Tipp: Erstelle dir am Ende eines langen Arbeitstags eine «session_summary.md» – eine Zusammenfassung deiner wichtigsten Ergebnisse. Am nächsten Morgen startest du einen neuen Chat mit diesem Dokument und arbeitest nahtlos weiter, mit minimalem Kontext.

Kapitel 5

Prompt-Technik – weniger Input, besserer Output

Wie du deine Prompts formulierst, hat enormen Einfluss auf den Tokenverbrauch. Hier sind die wichtigsten Techniken, die bei Claude, ChatGPT und Gemini gleichermassen funktionieren.

Output steuern

Erinnerung: Output-Tokens kosten 4–5× mehr als Input-Tokens. Jede Verkürzung des Outputs hat den grössten finanziellen Effekt.

Output-Länge begrenzen

Gib immer eine Längenvorgabe mit. So verhinderst du, dass die KI einen Roman schreibt, wenn du drei Sätze brauchst.

«Fasse zusammen, maximal 150 Wörter. Stichpunkte.»

Fülltext eliminieren

Die meisten KI-Antworten starten mit Einleitungen wie «Natürlich! Gerne helfe ich dir dabei...». Das kostet Tokens und bringt nichts.

«Kein Vorwort, keine Zusammenfassung, nur das Ergebnis.»

Gezielt überarbeiten statt «Schreib das nochmal»

«Schreib das nochmal, aber anders» generiert den kompletten Text neu – auch die 90%, die schon gut waren. Das verdreifacht den Verbrauch.

«Ändere nur den Absatz unter der Überschrift X. Lass den Rest stehen.»

Aufgaben strukturieren

Zweiphasen-Methode

Erst Gliederung, dann Text

«Schreib einen Artikel über X» ist der teuerste Satz. Besser: Erst eine Gliederung in 10 Zeilen erstellen lassen (kostet fast nichts), prüfen, korrigieren, dann den Text schreiben lassen. Spart oft 50–70% der Tokens.

Recherche trennen

Suchen und Schreiben getrennt

Phase 1: «Recherchiere X, gib die Ergebnisse als Stichpunkte, maximal 500 Wörter.» Phase 2: «Schreibe aus diesen Stichpunkten einen Text.» So bezahlst du die Recherche nur einmal.

Fragen bündeln

Mehrere Aufgaben in einer Nachricht

Statt drei separate Nachrichten: «Fasse zusammen, liste die Hauptpunkte auf UND schlage eine Überschrift vor.» Das spart zwei Kontext-Neuladungen – doppelt gespart.

Kurzschrift

Füllwörter in Prompts weglassen

«summarize main points, 3 bullets» (8 Tokens) statt «Könntest du bitte die wichtigsten Punkte zusammenfassen?» (18 Tokens). Die KI versteht beides gleich gut.

Der teuerste Fehler: «Schreib mir einen kompletten Artikel über X.» Das Ergebnis ist lang, meistens mittelmässig, und du überarbeitest es sowieso. Dann generierst du eine zweite Version. Jede davon kostet Token. Immer erst planen, dann ausführen.

Custom Instructions & Projekte – einmal einrichten, dauerhaft sparen

Alle drei Plattformen bieten Möglichkeiten, Kontext dauerhaft zu hinterlegen, sodass du ihn nicht in jedem Chat neu eingeben musst. Das spart nicht nur Zeit, sondern massiv Tokens.

EINMAL EINRICHTEN → IN JEDEM CHAT VERFÜGBAR Claude Projekte + Wissensbasis Projekt-Instruktionen Memory 1 Mio. Token Kontext ChatGPT Custom GPTs + Knowledge Custom Instructions Memory 128K Token Kontext Gemini Gems + Drive-Sync Gem-Instruktionen Memory 1 Mio. Token Kontext

So richtest du es ein

Bei Claude erstellst du ein «Projekt» über die linke Seitenleiste. Dort hinterlegst du unter «Wissensbasis» Dateien und unter «Instruktionen» deine Regeln. In jedem Chat innerhalb dieses Projekts sind die Informationen automatisch verfügbar – ohne erneuten Upload.

Bei ChatGPT nutzt du «Custom Instructions» (Einstellungen → Personalisierung) für globale Präferenzen. Für spezifische Aufgaben erstellst du ein «Custom GPT» mit eigenen Instruktionen und Wissensdateien.

Bei Gemini erstellst du ein «Gem» (Sidebar → Gems). Besonderer Vorteil: Referenzdateien aus Google Drive werden live synchronisiert. Ändert sich ein Dokument, arbeitet der Gem automatisch mit der aktuellen Version.

Der Meta-Hack: Hinterlege in deinen Custom Instructions eine Spar-Regel. Zum Beispiel: «Antworte kurz und informationsdicht. Kein Fülltext. Kein Vorwort. Stelle Rückfragen, bevor du loslegst. Warne mich, wenn deine Antwort mehr als 500 Wörter umfassen wird.» So bringt sich die KI selbst zum Sparen bei.

Spar-Regel zum Kopieren (Claude / ChatGPT / Gemini)

Kopiere diesen Text in deine Custom Instructions oder Projektanweisungen:

Standardverhalten: Antworte kurz und informationsdicht. Kein Fülltext, kein Vorwort, keine Zusammenfassung am Ende. Stelle Rückfragen bevor du loslegst. Bei Aufgaben über 500 Wörter Output: Warne mich zuerst. Gib nur den geforderten Output zurück – nichts extra.
Kapitel 7

Power-Hacks, Timing & Praxis-Tipps

Diese Hacks gehen über die Grundlagen hinaus. Von optimalem Timing über Dateiformate bis zu Profi-Tricks für Claude Code und Cowork.

Timing & Limits verstehen

Claude arbeitet mit einem rollenden 5-Stunden-Fenster. Das heisst: Was du um 9 Uhr sendest, zählt ab 14 Uhr nicht mehr. Teile deine Arbeit in 2–3 Sessions auf – morgens planen, nachmittags ausführen, abends überarbeiten. Bis zur nächsten Session hat sich dein Limit regeneriert.

Timing

Stosszeiten meiden

Bei Claude: Werktags zwischen 14–20 Uhr MESZ (= US-Morgen) verbraucht jede Nachricht dein Session-Limit schneller. Europäischer Vormittag = freie Kapazität. Am Wochenende hast du generell mehr Spielraum.

Limits

Dynamische Limits bei ChatGPT

ChatGPT Plus: ~160 Nachrichten pro 3 Stunden, dann Fallback auf das niedrigere Modell. Die Limits sind dynamisch – bei hoher Auslastung können sie sinken. Die Zahlen sind Richtwerte, keine Garantien.

Dateien schlau vorbereiten

Das Format, in dem du Dateien hochlädst, hat einen enormen Einfluss auf den Tokenverbrauch. Die meisten Nutzer verschwenden hier unbewusst das 5–10-fache.

FormatToken-EffizienzEmpfehlung
Rohes HTML Schlecht – 85% der Tokens sind Markup Vorher in Markdown konvertieren
PDF (gescannt) Schlecht – Kopfzeilen-Duplikate, Metadaten Nur relevante Seiten extrahieren
Komplettes Bild Mittel – viel unnötige Bildinformation Relevanten Ausschnitt zuschneiden
Markdown / Plain Text Optimal 65–90% weniger Tokens als HTML

Cloudflare-Daten bestätigen: Ein Blogartikel mit 500 Wörtern braucht als HTML rund 8'000 Tokens. Als Markdown nur ~700 Tokens. Das ist eine Reduktion um 90%. Konvertiere Dateien wenn möglich vor dem Upload.

Claude Code & Cowork

Für Power-User, die Claude Code oder Cowork nutzen, gibt es spezifische Spar-Strategien.

CLAUDE.md als Projektgedächtnis

Erstelle eine Datei mit Tech-Stack, Konventionen, häufigen Befehlen und Projektzielen. Spart 20–30% Credits pro Sitzung, weil Claude nicht jedes Mal nach Kontext fragen muss.

/compact regelmässig nutzen

Der Befehl /compact fasst den Verlauf zusammen und gibt 80–90% der Tokens frei. Nutze ihn alle 30–40 Nachrichten oder wenn du merkst, dass die Antworten langsamer werden.

Cowork nur für komplexe Aufgaben

Eine einzelne Cowork-Sitzung kann so viel verbrauchen wie Dutzende normale Dialoge. Einfache Tasks (kurze Texte, einfache Fragen) gehören in den normalen Chat.

Zum Nachmachen: Starte morgen mit diesen 3 Schritten: (1) Richte Custom Instructions mit der Spar-Regel ein. (2) Wechsle zu den Standardmodellen. Nur bei Spezialanforderungen nutzt du die grösseren Pro-Modelle (3) Achte bei deinem nächsten Chat bewusst darauf, alles in eine Nachricht zu packen. Du wirst den Unterschied sofort spüren.