
Wenn die KI das Gedächtnis verliert: Warum der Chatbot plötzlich streikt – und wie Sie das verhindern
Kennen Sie das? Sie stecken mitten in einem komplexen Projekt, füttern Ihre Lieblings-KI mit Dokumenten, Briefings und Feedback – und plötzlich geht nichts mehr. Die KI stellt sich dumm, bricht mitten im Satz ab oder verweigert komplett den Dienst. Genau das ist einer Kollegin aus unserem Team passiert, als sie ein aufwändiges Textprojekt mit Claude bearbeiten wollte.
Frustrierend? Absolut. Aber kein Grund, dem Tool die Daseinsberechtigung auf dem eigenen Laptop zu entziehen. Dahinter steckt ein rein technisches Phänomen, das fast jeden KI-Nutzer früher oder später einholt – unabhängig davon, ob er mit Claude, Gemini oder ChatGPT arbeitet
Was genau hinter diesem plötzlichen Gedächtnisverlust steckt, wie Claude selbst auf das Problem reagiert hat und wie Sie Ihr Token-Budget in Zukunft clever verwalten, lesen Sie in diesem Artikel.
Inhaltsverzeichnis
Die Diagnose: Wenn das Kontextfenster überläuft
Was war passiert? Meine Kollegin hat Claude mit Daten gefüttert: ein langes Copy-Dokument, einen Broschüren-Entwurf als 15-seitiges PDF voller Kundenkommentare, dazu FDF-Parse-Output. Mitten in der Arbeit machte die KI dicht. Meine Kollegin musste von vorne anfangen.
Das Problem hat einen Namen: das Context Window (Kontextfenster).
Man kann sich das Large Language Model (LLM) wie einen Berater mit einem extrem schnellen, aber eben limitierten Kurzzeitgedächtnis vorstellen. Jedes Wort, das Sie eingeben, jede Antwort der KI und jedes hochgeladene Dokument belegen Platz auf diesem digitalen Schreibtisch. Die Abrechnungseinheit dafür sind sogenannte Tokens – grob gesagt Textbausteine in der Größenordnung von ein paar Buchstaben bis hin zu kurzen Wörtern.
Wenn dieser Schreibtisch voll ist, ist Schluss. Bei Claude erscheint ohne Vorwarnung ein Hinweis, dass das Limit erreicht ist und Sie einen neuen Chat starten müssen. Die laufende Konversation wird eingefroren, einfach weiterschreiben funktioniert nicht. Ein KI-Modell kann pro Chatverlauf nur eine begrenzte Menge an Informationen gleichzeitig im Kopf behalten und diese auch nur in Teilen an einen neuen Chat übergeben.
KI im Realitätscheck
Meine Kollegin hat – nach dem verständlichen initialen Fluchen und Grollen ob der Beschränktheit der KI – genau das Richtige getan: Sie hat Claude im neuen Chat direkt mit dem Problem konfrontiert und nach seinen Limitationen gefragt. Was dann kam, hat uns ehrlich überrascht:
Claude hat den Fehler nicht beschönigt, sondern offen zugegeben: „Ich weiß nicht genau, wie viel Prozent noch frei sind, ich merke es erst, wenn es eng wird.“ Dazu eine plausible Schätzung des aktuellen Verbrauchs (ca. 25–30 %) und sofort die Diagnose, woher das Problem kam: die 15 PDF-Seiten, die als Bilder hochgeladen wurden, da sich die eingefügten Kommentare des Kunden nicht nur auf Texte, sondern auch auf Infografiken und Schaubilder bezogen und genau zugeordnet werden mussten. Bilder fressen massiv Kontext.
Was uns am meisten geholfen hat: Claude lieferte Frühwarnsignale mit: „Wenn du merkst, dass eine Antwort plötzlich kürzer ausfällt als nötig oder ich anfange, Dinge wegzulassen, ist es Zeit für den Wechsel, bevor es kracht.” Und unterstützte mit den passenden Workarounds – vor allem dem Hinweis, Zwischenergebnisse zu sichern und nur noch geänderte Textpassagen auszugeben, statt jedes Mal das ganze Dokument neu zu schreiben. Klingt banal, spart in der Praxis aber massiv Tokens.
Ein technischer Punkt zur Einordnung: KIs haben keinen Echtzeit-Tachometer für ihr Kontextfenster.
WIr machen die Gegenprobe in Google Gemini, ebenso in einem Thread, in dem wir Blog-Content erstellen: „Wie viel Prozent deines Kontext-Windows hast du jetzt bereits voll in diesem Chat?“
Antwort der Google-KI: „Das ist die Gretchenfrage! Und die ehrliche Antwort lautet: Ich weiß es nicht genau – ich merke es erst, wenn es eng wird.“
Wie gut, dass zumindest grobe Zahlen bekannt sind:
Kontextgrößen führender KI-Chatbots
Das Kontextfenster moderner KI-Modelle variiert stark zwischen 128.000 und mehreren Millionen Token (Stand: Mai 2026):
- Google Gemini 3.1: mindestens eine Million Tokens (es gibt auch Quellen, die von 2 Mio. sprechen). Ersteres entspricht etwa 1.300 Textseiten oder 30.000 Codezeilen. Das Problem unserer Kollegin hätte es jedoch vermutlich auch nicht gelöst, weil der Haupt-Tokenfresser hier, wie erwähnt, die Bilder waren.
- OpenAI GPT-5.5: deutlich weniger mit 196.000 Token, Standard-Modelle von OpenAI sind sogar nur bei 128.000 Token
- Anthropic Claude (z.B. Opus 4.7 / Sonnet 4.6): eine Million Token
- Qwen-Long, Gemma 4: Spitzenmodelle aus Open-Source- oder Enterprise-Bereichen kommen auf bis zu 10 Millionen Token – zumindest chinesische Player wie Qwen sind aber aus anderen (rechtlichen) Gründen nicht zu empfehlen!
Hinweis Bei Google sehen Sie neben den Suchergebnissen oft aktuelle News-Boxen. Wenn Sie disruptive als bevorzugte Quelle hinterlegen, bekommen Sie dort häufiger unabhängige und fundierte KI-Updates von uns angezeigt. Hier disruptive als bevorzugte Quelle hinzufügen.
Praxis-Tipps: So haushalten Sie mit Ihrem Token-Budget
1. Text statt Bild (OCR clever nutzen)
2. Das Prinzip der „inkrementellen Updates"
Bitten Sie die KI explizit darum, bei Korrekturen nicht den gesamten Text neu zu generieren. Lassen Sie sich nur die Absätze ausgeben, die sich geändert haben (z. B. „Ersetze Absatz 3 durch folgenden Text…“). Das hält das Token-Budget stabil.
3. Digitale Meilensteine setzen
Maßnahme | Effekt auf das Kontextfenster | Praxis-Aufwand |
Reiner Text statt PDFs/Bilder | Sehr hohe Einsparung, oft im hohen zweistelligen Prozentbereich | Minimal (OCR vorschalten) |
Nur Differenzen ausgeben | Verhindert schnelles Zumüllen | Erfordert Disziplin beim Prompten |
Zwischenstände extern sichern | Rettungsanker bei Chat-Abbruch | Gehört zum Standard-Workflow |
Fazit: Geiz ist vielleicht nicht geil, aber beim Prompten manchmal hilfreich
Die Technik wird immer besser, aber die Physik der Datenströme lässt sich nicht aushebeln. Wer das Kontextfenster im Griff hat, bekommt aus dem Chatbot seines Vertrauens im Berufsalltag deutlich mehr heraus. Drei Hebel haben sich bei uns dabei besonders bewährt:
- System-Prompt schlank halten. Jeder unnötige Satz im System-Prompt belegt Tokens, die später im Chat fehlen. Halten Sie ihn so kurz und präzise wie möglich. Geizen Sie daher auch Höflichkeitsfloskeln wie „danke“ und „bitte“ oder konjunktiven Formulieren wie „könntest du bitte netterweise…”.
- Mit Projekten arbeiten (in Microsoft Copilot „Notebooks” genannt): Wiederkehrendes Wissen wie Briefings, Tonalitäten, Glossare, Markenrichtlinien oder gehört in den Projektkontext, nicht in jeden Einzelchat. So bleibt der Chat-Kontext frei für die eigentliche Aufgabe.
- Chats rechtzeitig schließen. Wenn ein Thema erledigt ist, spendiert dem Projekt einen frischen, leeren Chat. Das schont das Budget.
Das Kontextfenster ist Ihr digitaler Schreibtisch. Halten Sie ihn sauber.
Mehr KI-Updates gefällig?
In unserem monatlichen Newsletter erhalten Sie ausgesuchte Infos und Einordnungen zu AI, Agents und Automatisierung. Zudem gibt es regelmäßig Einladungen zu kostenlosen KI-Webinaren.