Zum Hauptinhalt springen
Glossar-Begriff

Chunking (Text Chunking)

Aufteilung langer Textdokumente in kleinere, semantisch kohärente Segmente.

Definition

Chunking bezeichnet den Prozess der Aufteilung langer Textdokumente in kleinere, semantisch kohärente Segmente (Chunks), die von Large Language Models und RAG-Systemen effizient verarbeitet werden können. Ein Chunk ist typischerweise 300-800 Tokens lang und sollte eine in sich geschlossene Informationseinheit darstellen – lang genug für Kontext, kurz genug für präzise Retrieval-Ergebnisse.

Warum das wichtig ist

LLMs haben Context Window Limits (GPT-4: 128k Tokens, optimal jedoch 4-8k pro Retrieval). Ein 10.000-Wort-Artikel kann nicht als Ganzes in ein RAG-System eingespeist werden – er muss in Chunks zerlegt werden. Schlechtes Chunking führt zu fragmentiertem Kontext oder vagen LLM-Antworten.

Vidasus-Kontext

In unseren Services (Marketing Intelligence, E-Commerce Intelligence, Semantische Persona-Intelligence) nutzen wir Semantic Chunking: Konkurrenz-Artikel werden in semantisch kohärente Chunks zerlegt (H2-basiert, 500-800 Tokens), um präzise Entity Extraction und Gap Analysis zu ermöglichen.

Praxis-Beispiel

Ein SaaS-Unternehmen hatte 200 Help-Docs im RAG-System, aber der AI-Chatbot gab oft vage Antworten. Problem: Chunks waren 1.500 Tokens groß. Lösung: Re-Chunking auf 400 Tokens (semantische H2/H3-Grenzen), Sliding Window mit 50 Tokens Overlap. Ergebnis: Chatbot Accuracy stieg von 62% auf 89%.

Technische Details

Haupt-Strategien: Fixed-Size Chunking (feste Größe, einfach), Semantic Chunking (natürliche Grenzen wie Absätze), Sliding Window Chunking (mit Overlap). Optimale Größen variieren nach Content-Typ: FAQ (100-200 Tokens), Blog-Artikel (500-800 Tokens), Technische Docs (300-500 Tokens mit Overlap).