35 praxiserprobte Hacks für Claude, ChatGPT und Gemini. Weniger Tokenverbrauch, mehr Output – ab der nächsten Nachricht.
Jetzt startenJedes Mal, wenn du eine Nachricht an Claude, ChatGPT oder Gemini schickst, passiert im Hintergrund etwas Teures: Die KI zerlegt deinen gesamten Text in kleine Bausteine – sogenannte Tokens. Ein Token ist ungefähr ein Wort oder 4 Zeichen. Und bei jeder neuen Nachricht liest die KI den kompletten bisherigen Chatverlauf noch einmal.
Stell dir vor, du telefonierst und bei jedem neuen Satz muss dein Gegenüber das gesamte Gespräch nochmal von vorn lesen, bevor es antwortet. Genau das passiert bei jeder KI-Nachricht. Je länger das Gespräch, desto teurer wird jeder neue Satz.
Das bedeutet: Dein Tokenverbrauch wächst nicht linear, sondern exponentiell. Nachricht 1 kostet wenig. Nachricht 20 kostet ein Vielfaches – weil die KI alle vorherigen 19 Austausche mitliest. Allein durch gezieltes Zurücksetzen des Chats bei Themenwechseln lässt sich der Tokenverbrauch um bis zu 19 Prozent senken.
Dazu kommt: Output-Tokens kosten 4–5× mehr als Input-Tokens. Eine lange Antwort der KI ist also deutlich teurer als deine Frage. Wer den Output kurz hält, spart am meisten.
Die goldene Regel: Kürzere Chats, präzisere Fragen und gezieltere Outputs – das sind die drei grössten Hebel, um deinen Tokenverbrauch sofort zu halbieren.
Diese drei Gewohnheiten haben den grössten Einfluss auf deinen Tokenverbrauch. Wenn du nur drei Dinge aus dieser Seite mitnimmst, dann diese.
Pack alles in eine Nachricht: Zielgruppe, Ton, Format, Länge, was rein muss, was nicht. Eine Nachricht statt fünf = vier Mal weniger Credits. Denn jede Follow-up-Nachricht lädt den gesamten Chatverlauf erneut.
Das unterschätzteste Feature: Klick auf den Stift neben deiner Nachricht, korrigiere den Prompt und sende neu. Der Fehlversuch wird ersetzt, nicht gestapelt. Kein zusätzlicher Kontext-Verbrauch.
Bei 20 Nachrichten liest die KI den gesamten Verlauf bei jeder Nachricht erneut. Faustregel: Thema wechselt → neuer Chat. Allein das spart laut Studien bis zu 19% Tokens.
Stell dir vor, du gibst einem Mitarbeiter 5 separate Aufträge in 5 Mails – und er muss bei jeder Mail alle vorherigen nochmal lesen. Oder: Du gibst ihm ein vollständiges Briefing in einer einzigen Mail. Was ist effizienter? Genau.
Wo findest du den Edit-Button? Bei Claude und ChatGPT: Fahre mit der Maus über deine gesendete Nachricht → Stift-Icon klicken → Text ändern → neu senden. Bei Gemini: Auf deine Nachricht klicken → «Bearbeiten» wählen.
Nicht jede Aufgabe braucht das stärkste (und teuerste) Modell. Das richtige Modell zu wählen ist einer der einfachsten Wege, sofort Token zu sparen – ohne Qualitätsverlust.
Haiku · GPT-Instant · Gemini Flash
Sonnet · GPT-Thinking · Gemini Thinking
Opus · GPT-Pro · Gemini Pro
Opus verbraucht ein Drittel mehr Tokens als Sonnet für dieselbe Aufgabe. Bei ChatGPT ist es ähnlich, Pro erzeugt massiv mehr Output-Tokens – bei einfachen Wissensfragen das 3–4-fache. Gemini Pro verhält sich ähnlich. Mittlerweile sind die Modellanbieter davon abgekommen die Versionen anzubieten. Es wird von Standard, Instant, Thinking oder Pro gesprochen. Dahinter verbergen sich dann die jeweiligen Modelle
| Aufgabe | Empfohlenes Modell | Warum |
|---|---|---|
| Rechtschreibung, Formatierung | Haiku / Instant / Flash | Günstigstes Modell reicht völlig |
| Texte schreiben, E-Mails | Sonnet / Instant / Flash Lite | Starke Qualität, moderate Kosten |
| Analysen, Zusammenfassungen | Sonnet / GPT-Instant / Flash | Standard-Modelle reichen aus |
| Code-Reviews, Standard-Code | Sonnet / GPT-Thinking / Flash | Gute Code-Qualität ohne Overhead |
| Architektur-Entscheidungen | Opus (erweitertes Denken) / GPT-Pro (Thinking) / Gemini-Pro (Erweitert) | Komplexe Denkarbeit, lohnt sich |
| Nuancierte, kreative Texte | Opus (erweitertes Denken) / GPT-Pro (Thinking) / Gemini-Pro (Erweitert) | Bessere Stilistik und Tiefe |
Claude-Tipp: Du kannst das Modell im laufenden Chat jederzeit wechseln. Starte mit Opus für die Analyse, wechsle dann auf Sonnet für die Umsetzung. So sparst du bei jedem Folge-Prompt.
Faustregel: Wenn Sonnet / GPT-Standard / Gemini Flash die Aufgabe gut erledigt – nimm dieses Modell. Starke Modelle nur für echte Denkarbeit: komplexes Debugging, Architektur-Entscheidungen, sehr nuancierte Texte.
Der Kontext ist alles, was die KI bei jeder Nachricht mitliest: dein gesamter Chatverlauf, hochgeladene Dateien, System-Instruktionen und aktivierte Tools. Je schlanker der Kontext, desto weniger Tokens verbrennst du.
Wenn dein Chat 15–20 Nachrichten erreicht hat, bitte die KI: «Fasse den bisherigen Verlauf in maximal 500 Wörtern zusammen.» Starte dann einen neuen Chat mit dieser Zusammenfassung. Ergebnis: Statt 40'000 Tokens Kontext nur 3'000 – das ergibt bis zu 16× mehr Kapazität.
Jeder aktivierte MCP-Connector, jedes eingeschaltete Tool (Websuche, Code-Interpreter, DALL-E) lädt seine komplette Definition in den Kontext – bei jeder Nachricht, auch wenn du es nicht nutzt. 5 ungenutzte Connectors = tausende Token Overhead. Für reine Schreibaufgaben: alles abschalten.
«Was steht da drin?» bei einem 200-seitigen PDF ist der teuerste Fehler. Besser: «Lies nur Kapitel 3 und fasse die Kernaussage in 3 Sätzen zusammen.» Auch bei Bildern: Ein Screenshot des relevanten Ausschnitts ist effizienter als das komplette Bildschirmfoto.
Alle drei Plattformen bieten eine Gedächtnisfunktion: Claude Memory, ChatGPT Memory und Gemini Memory. Einmal aktiviert, merkt sich die KI deinen Namen, bevorzugten Stil und Arbeitskontext – ohne dass du es jedes Mal neu eintippen musst.
Stell dir vor, du trägst bei jedem neuen Arbeitsschritt alle Umzugskartons aus dem Keller rauf – auch die, die du gar nicht brauchst. Kontext-Management ist: Nur die Kartons hochtragen, die du wirklich brauchst.
Praxis-Tipp: Erstelle dir am Ende eines langen Arbeitstags eine «session_summary.md» – eine Zusammenfassung deiner wichtigsten Ergebnisse. Am nächsten Morgen startest du einen neuen Chat mit diesem Dokument und arbeitest nahtlos weiter, mit minimalem Kontext.
Wie du deine Prompts formulierst, hat enormen Einfluss auf den Tokenverbrauch. Hier sind die wichtigsten Techniken, die bei Claude, ChatGPT und Gemini gleichermassen funktionieren.
Erinnerung: Output-Tokens kosten 4–5× mehr als Input-Tokens. Jede Verkürzung des Outputs hat den grössten finanziellen Effekt.
Gib immer eine Längenvorgabe mit. So verhinderst du, dass die KI einen Roman schreibt, wenn du drei Sätze brauchst.
Die meisten KI-Antworten starten mit Einleitungen wie «Natürlich! Gerne helfe ich dir dabei...». Das kostet Tokens und bringt nichts.
«Schreib das nochmal, aber anders» generiert den kompletten Text neu – auch die 90%, die schon gut waren. Das verdreifacht den Verbrauch.
«Schreib einen Artikel über X» ist der teuerste Satz. Besser: Erst eine Gliederung in 10 Zeilen erstellen lassen (kostet fast nichts), prüfen, korrigieren, dann den Text schreiben lassen. Spart oft 50–70% der Tokens.
Phase 1: «Recherchiere X, gib die Ergebnisse als Stichpunkte, maximal 500 Wörter.» Phase 2: «Schreibe aus diesen Stichpunkten einen Text.» So bezahlst du die Recherche nur einmal.
Statt drei separate Nachrichten: «Fasse zusammen, liste die Hauptpunkte auf UND schlage eine Überschrift vor.» Das spart zwei Kontext-Neuladungen – doppelt gespart.
«summarize main points, 3 bullets» (8 Tokens) statt «Könntest du bitte die wichtigsten Punkte zusammenfassen?» (18 Tokens). Die KI versteht beides gleich gut.
Der teuerste Fehler: «Schreib mir einen kompletten Artikel über X.» Das Ergebnis ist lang, meistens mittelmässig, und du überarbeitest es sowieso. Dann generierst du eine zweite Version. Jede davon kostet Token. Immer erst planen, dann ausführen.
Alle drei Plattformen bieten Möglichkeiten, Kontext dauerhaft zu hinterlegen, sodass du ihn nicht in jedem Chat neu eingeben musst. Das spart nicht nur Zeit, sondern massiv Tokens.
Bei Claude erstellst du ein «Projekt» über die linke Seitenleiste. Dort hinterlegst du unter «Wissensbasis» Dateien und unter «Instruktionen» deine Regeln. In jedem Chat innerhalb dieses Projekts sind die Informationen automatisch verfügbar – ohne erneuten Upload.
Bei ChatGPT nutzt du «Custom Instructions» (Einstellungen → Personalisierung) für globale Präferenzen. Für spezifische Aufgaben erstellst du ein «Custom GPT» mit eigenen Instruktionen und Wissensdateien.
Bei Gemini erstellst du ein «Gem» (Sidebar → Gems). Besonderer Vorteil: Referenzdateien aus Google Drive werden live synchronisiert. Ändert sich ein Dokument, arbeitet der Gem automatisch mit der aktuellen Version.
Der Meta-Hack: Hinterlege in deinen Custom Instructions eine Spar-Regel. Zum Beispiel: «Antworte kurz und informationsdicht. Kein Fülltext. Kein Vorwort. Stelle Rückfragen, bevor du loslegst. Warne mich, wenn deine Antwort mehr als 500 Wörter umfassen wird.» So bringt sich die KI selbst zum Sparen bei.
Kopiere diesen Text in deine Custom Instructions oder Projektanweisungen:
Diese Hacks gehen über die Grundlagen hinaus. Von optimalem Timing über Dateiformate bis zu Profi-Tricks für Claude Code und Cowork.
Claude arbeitet mit einem rollenden 5-Stunden-Fenster. Das heisst: Was du um 9 Uhr sendest, zählt ab 14 Uhr nicht mehr. Teile deine Arbeit in 2–3 Sessions auf – morgens planen, nachmittags ausführen, abends überarbeiten. Bis zur nächsten Session hat sich dein Limit regeneriert.
Bei Claude: Werktags zwischen 14–20 Uhr MESZ (= US-Morgen) verbraucht jede Nachricht dein Session-Limit schneller. Europäischer Vormittag = freie Kapazität. Am Wochenende hast du generell mehr Spielraum.
ChatGPT Plus: ~160 Nachrichten pro 3 Stunden, dann Fallback auf das niedrigere Modell. Die Limits sind dynamisch – bei hoher Auslastung können sie sinken. Die Zahlen sind Richtwerte, keine Garantien.
Das Format, in dem du Dateien hochlädst, hat einen enormen Einfluss auf den Tokenverbrauch. Die meisten Nutzer verschwenden hier unbewusst das 5–10-fache.
| Format | Token-Effizienz | Empfehlung |
|---|---|---|
| Rohes HTML | Schlecht – 85% der Tokens sind Markup | Vorher in Markdown konvertieren |
| PDF (gescannt) | Schlecht – Kopfzeilen-Duplikate, Metadaten | Nur relevante Seiten extrahieren |
| Komplettes Bild | Mittel – viel unnötige Bildinformation | Relevanten Ausschnitt zuschneiden |
| Markdown / Plain Text | Optimal | 65–90% weniger Tokens als HTML |
Cloudflare-Daten bestätigen: Ein Blogartikel mit 500 Wörtern braucht als HTML rund 8'000 Tokens. Als Markdown nur ~700 Tokens. Das ist eine Reduktion um 90%. Konvertiere Dateien wenn möglich vor dem Upload.
Für Power-User, die Claude Code oder Cowork nutzen, gibt es spezifische Spar-Strategien.
Erstelle eine Datei mit Tech-Stack, Konventionen, häufigen Befehlen und Projektzielen. Spart 20–30% Credits pro Sitzung, weil Claude nicht jedes Mal nach Kontext fragen muss.
Der Befehl /compact fasst den Verlauf zusammen und gibt 80–90% der Tokens frei. Nutze ihn alle 30–40 Nachrichten oder wenn du merkst, dass die Antworten langsamer werden.
Eine einzelne Cowork-Sitzung kann so viel verbrauchen wie Dutzende normale Dialoge. Einfache Tasks (kurze Texte, einfache Fragen) gehören in den normalen Chat.
Zum Nachmachen: Starte morgen mit diesen 3 Schritten: (1) Richte Custom Instructions mit der Spar-Regel ein. (2) Wechsle zu den Standardmodellen. Nur bei Spezialanforderungen nutzt du die grösseren Pro-Modelle (3) Achte bei deinem nächsten Chat bewusst darauf, alles in eine Nachricht zu packen. Du wirst den Unterschied sofort spüren.