Zum Hauptinhalt springen
Glossar-Begriff

Context Window

Maximale Anzahl Tokens, die ein LLM gleichzeitig verarbeiten kann.

Definition

Das Context Window (auch Token Limit) bezeichnet die maximale Anzahl von Tokens (Wort-Fragmente), die ein Large Language Model in einer einzelnen Anfrage verarbeiten kann – inklusive Input (Prompt + Dokumente) und Output (generierte Antwort). Das Context Window limitiert, wie viel Information ein LLM gleichzeitig "im Kopf behalten" kann.

Warum das wichtig ist

Context Windows bestimmen praktische Einsatzmöglichkeiten von LLMs. GPT-4 Turbo mit 128k Token Context kann ein ganzes Buch analysieren, während ältere Modelle (GPT-3.5: 4k) nur wenige Seiten verarbeiten können. Für RAG-Systeme entscheidet das Context Window, wie viele Chunks retrieved werden können.

Vidasus-Kontext

Context Window-Awareness ist kritisch für unsere Marketing Intelligence: Bei Wettbewerbs-Content-Analyse müssen wir entscheiden, ob ein Konkurrenz-Artikel als Ganzes analysiert werden kann (passt ins Window?) oder ob Chunking nötig ist. Für Semantische Persona-Intelligence: Wie viele Rezensionen passen gleichzeitig ins Window für Cluster-Analyse?

Praxis-Beispiel

Ein Rechts-Dienstleister wollte 200-seitige Verträge von GPT-4 analysieren lassen. Problem: 200 Seiten ≈ 150k Tokens, GPT-4 Standard: 8k. Lösung: Upgrade auf GPT-4 Turbo (128k) oder Map-Reduce-Ansatz (Vertrag chunken → einzeln analysieren → Ergebnisse aggregieren). Entscheidung: GPT-4 Turbo (schneller, präziser).

Messbarkeit

Context Windows 2024: GPT-4 Turbo (128k Tokens), Claude 3 (200k Tokens), Gemini 1.5 Pro (1M Tokens), GPT-3.5 (4k Tokens), GPT-4 Standard (8k Tokens). 1 Token ≈ 0.75 Wörter (Englisch), ≈ 0.5 Wörter (Deutsch). 1.000 Wörter ≈ 1.333 Tokens.

Die Säulen

  • Input Budget – Wie viel vom Window für Prompt + Docs?
  • Output Budget – Wie viel für generierte Antwort?
  • Sliding Window – Für lange Docs: Fenster verschieben
  • Chunking Strategy – Docs aufteilen für kleinere Windows