Context Window
Maximale Anzahl Tokens, die ein LLM gleichzeitig verarbeiten kann.
Definition
Das Context Window (auch Token Limit) bezeichnet die maximale Anzahl von Tokens (Wort-Fragmente), die ein Large Language Model in einer einzelnen Anfrage verarbeiten kann – inklusive Input (Prompt + Dokumente) und Output (generierte Antwort). Das Context Window limitiert, wie viel Information ein LLM gleichzeitig "im Kopf behalten" kann.
Warum das wichtig ist
Context Windows bestimmen praktische Einsatzmöglichkeiten von LLMs. GPT-4 Turbo mit 128k Token Context kann ein ganzes Buch analysieren, während ältere Modelle (GPT-3.5: 4k) nur wenige Seiten verarbeiten können. Für RAG-Systeme entscheidet das Context Window, wie viele Chunks retrieved werden können.
Vidasus-Kontext
Praxis-Beispiel
Ein Rechts-Dienstleister wollte 200-seitige Verträge von GPT-4 analysieren lassen. Problem: 200 Seiten ≈ 150k Tokens, GPT-4 Standard: 8k. Lösung: Upgrade auf GPT-4 Turbo (128k) oder Map-Reduce-Ansatz (Vertrag chunken → einzeln analysieren → Ergebnisse aggregieren). Entscheidung: GPT-4 Turbo (schneller, präziser).
Messbarkeit
Context Windows 2024: GPT-4 Turbo (128k Tokens), Claude 3 (200k Tokens), Gemini 1.5 Pro (1M Tokens), GPT-3.5 (4k Tokens), GPT-4 Standard (8k Tokens). 1 Token ≈ 0.75 Wörter (Englisch), ≈ 0.5 Wörter (Deutsch). 1.000 Wörter ≈ 1.333 Tokens.
Die Säulen
- Input Budget – Wie viel vom Window für Prompt + Docs?
- Output Budget – Wie viel für generierte Antwort?
- Sliding Window – Für lange Docs: Fenster verschieben
- Chunking Strategy – Docs aufteilen für kleinere Windows