RAG-Architektur — Retrieval Augmented Generation fuer Unternehmen

Was ist RAG und warum ist es unverzichtbar?

RAG (Retrieval Augmented Generation) hat sich als dominantes Architekturmuster fuer den Einsatz von LLMs in Unternehmen etabliert. Das Prinzip ist einfach, aber wirkungsvoll: Anstatt sich ausschliesslich auf das im Modell kodierte Wissen zu verlassen, werden vor der Antwortgenerierung relevante Dokumente abgerufen.

In Paris setzen franzoesische und europaeische Unternehmen massiv auf RAG aus einem grundlegenden Grund: Es ermoeglicht, KI-Antworten in den proprietaeren Daten des Unternehmens zu verankern und Halluzinationen drastisch zu reduzieren.

Die Grenzen von LLMs ohne RAG

Eingefrorenes Wissen: Das Modell kennt nur seine Trainingsdaten
Halluzinationen: Das Modell erfindet Informationen mit Ueberzeugung
Proprietaere Daten: Kein Zugriff auf interne Dokumente
Aktualitaet: Informationen veralten nach dem Cutoff-Datum
Fine-Tuning-Kosten: Ein LLM an jeden Fachbereich anzupassen ist prohibitiv teuer

RAG loest alle fuenf Probleme auf elegante Weise.

RAG-Referenzarchitektur

Standard-RAG-Pipeline

Quelldokumente
→ Ingestion und Vorverarbeitung
→ Chunking (Aufteilung in Segmente)
→ Embedding (Vektorisierung)
→ Indexierung in eine Vektor-DB
---
Benutzeranfrage
→ Anfrage-Embedding
→ Vektorsuche (Similarity Search)
→ Ergebnis-Reranking
→ Prompt-Konstruktion mit Kontext
→ LLM-Generierung
→ Kontextualisierte Antwort

Detaillierte Komponenten

| Komponente | Rolle | Optionen | |-----------|------|---------| | Document Loader | Multi-Format-Ingestion | Unstructured, LlamaIndex | | Chunker | Intelligente Aufteilung | Recursive, Semantic, Agentic | | Embedding-Modell | Vektorisierung | OpenAI ada-002, Cohere, BGE | | Vektordatenbank | Speicherung und Suche | Pinecone, Weaviate, Qdrant, Chroma | | Retriever | Dokumentensuche | Similarity, MMR, Hybrid | | Reranker | Ergebnis-Neuordnung | Cohere Rerank, ColBERT, Cross-Encoder | | LLM | Antwortgenerierung | GPT-4, Claude, Mistral |

Chunking: Die Kunst der Aufteilung

Chunking — die Art und Weise, wie Sie Ihre Dokumente aufteilen — hat einen direkten Einfluss auf die Qualitaet der RAG-Ergebnisse. Schlechtes Chunking erzeugt mittemaessige Antworten, unabhaengig vom verwendeten LLM.

Chunking-Strategien

Chunking mit fester Groesse

Aufteilung alle N Tokens mit Ueberlappung (Overlap)
Einfach, aber verliert den semantischen Kontext
10-20% Overlap empfohlen

Rekursives Chunking

Teilt zuerst nach Absaetzen, dann nach Saetzen, wenn zu lang
Bewahrt die Dokumentstruktur besser
Standardmethode von LangChain

Semantisches Chunking

Verwendet Embeddings zur Erkennung von Bedeutungsbruechen
Erzeugt thematisch kohaerente Chunks
Rechenintensiver, aber hoehere Qualitaet

Agentisches Chunking

Ein LLM entscheidet, wie das Dokument aufgeteilt wird
Versteht die logische Struktur (Abschnitte, Argumente)
Optimale Qualitaet, aber hohe Kosten

Groessenempfehlungen

| Inhaltstyp | Empfohlene Groesse | Overlap | |-----------------|-------------------|---------| | Technische Dokumentation | 500-1000 Tokens | 100 Tokens | | Blog-Artikel | 300-500 Tokens | 50 Tokens | | Quellcode | Pro Funktion/Klasse | Vollstaendiger Kontext | | FAQ | 1 Frage-Antwort pro Chunk | Kein | | Vertraege/Recht | 200-400 Tokens | 50 Tokens |

Vektordatenbanken: Das Herzstueck von RAG

Wie Embeddings funktionieren

Embeddings transformieren Text in hochdimensionale numerische Vektoren (768 bis 3.072 Dimensionen). Zwei semantisch aehnliche Texte haben nahe Vektoren in diesem Raum.

Vergleich der Vektordatenbanken

| Datenbank | Typ | Skalierbarkeit | Filterung | Preis | |------|------|-------------|-----------|------| | Pinecone | Managed | Hervorragend | Metadaten | Pay-per-use | | Weaviate | Open-Source/Managed | Sehr gut | GraphQL | Kostenlos/Managed | | Qdrant | Open-Source/Managed | Sehr gut | Payload | Kostenlos/Managed | | Chroma | Open-Source | Mittel | Metadaten | Kostenlos | | pgvector | PostgreSQL-Erweiterung | Gut | Natives SQL | Kostenlos | | Milvus | Open-Source | Hervorragend | Expression | Kostenlos |

Die richtige Vektordatenbank waehlen

Fuer Unternehmen haengt die Wahl von mehreren Faktoren ab:

Volumen: Weniger als 1 Mio. Vektoren? pgvector oder Chroma reichen aus
Produktion: Pinecone oder Weaviate Managed fuer Zuverlaessigkeit
Budget: Qdrant oder Chroma Self-Hosted zur Kostenreduzierung
Integration: pgvector, wenn Sie bereits PostgreSQL verwenden

Fortgeschrittene RAG-Muster

Hybrides RAG (Keyword + Semantisch)

Die rein vektorbasierte Suche uebersieht manchmal Dokumente mit spezifischen Begriffen (Eigennamen, Akronyme, Referenzen). Hybrides RAG kombiniert:

Semantische Suche (Embeddings) fuer das Bedeutungsverstaendnis
Lexikalische Suche (BM25) fuer exakte Uebereinstimmungen
Fusion: Reciprocal Rank Fusion (RRF) zur Kombination der Scores

Dieses Muster verbessert den Recall laut Benchmarks um 15 bis 30%.

RAG mit Reranking

Nach der initialen Suche (Top 20-50 Ergebnisse) bewertet ein Reranking-Modell die Relevanz jedes Dokuments im Verhaeltnis zur Frage neu:

Anfrage → Retrieval (Top 50) → Reranker → Top 5 → LLM → Antwort

Cross-Encoder-Reranker (Cohere Rerank, BGE Reranker) verbessern die Praezision erheblich.

Agentisches RAG

Agentisches RAG nutzt einen KI-Agenten zur Orchestrierung des Suchprozesses:

Der Agent analysiert die Frage und plant die Suchstrategie
Er formuliert mehrere Suchanfragen aus verschiedenen Blickwinkeln
Er bewertet die Ergebnisqualitaet und sucht bei Bedarf erneut
Er synthetisiert die gesammelten Informationen zu einer kohaerenten Antwort

Dieses Muster eignet sich hervorragend fuer komplexe Fragen, die Informationen aus mehreren Quellen erfordern.

Graph RAG

Graph RAG strukturiert Wissen als Graph anstelle unabhaengiger Chunks:

Entitaeten (Personen, Konzepte, Produkte) sind Knoten
Beziehungen zwischen Entitaeten sind Kanten
Die Suche nutzt die Graphstruktur fuer reichhaltigere Antworten

Besonders effektiv fuer Wissensbasen mit komplexen Beziehungen zwischen Entitaeten.

Bewertung der RAG-Qualitaet

RAGAS-Metriken

Das RAGAS-Framework definiert vier Schluesselmetriken:

Faithfulness: Ist die Antwort den abgerufenen Dokumenten treu?
Answer Relevancy: Ist die Antwort relevant fuer die Frage?
Context Precision: Sind die abgerufenen Dokumente relevant?
Context Recall: Wurden alle notwendigen Dokumente abgerufen?

Evaluierungs-Pipeline

Testdatensatz (Fragen + erwartete Antworten)
→ Ausfuehrung der RAG-Pipeline
→ Berechnung der RAGAS-Metriken
→ Fehleranalyse
→ Anpassung (Chunking, Embedding, Prompt)
→ Neubewertung

Die Einrichtung einer automatisierten Evaluierungs-Pipeline ist essentiell fuer die kontinuierliche Verbesserung der Systemqualitaet — ein Prinzip, das Agents-IA.pro in seinen Deployments anwendet.

RAG in Produktion: Best Practices

Dokumentenverwaltung

Reichhaltige Metadaten: Datum, Quelle, Autor, Kategorie fuer die Filterung
Versionierung: Nachverfolgung von Aenderungen der Quelldokumente
Aktualitaet: Regelmaessige Neuindexierung aktualisierter Dokumente
Deduplizierung: Vermeidung von Duplikaten, die Ergebnisse verschlechtern

Optimierung der RAG-Prompts

Der RAG-Prompt sollte:

Das LLM anweisen, nur auf Basis der bereitgestellten Dokumente zu antworten
Fehlende Informationen behandeln: "Wenn die Dokumente die Antwort nicht enthalten, sagen Sie das"
Quellen zitieren: Dem Benutzer die Ueberpruefung ermoeglichen
Die Antwort strukturieren: Format angepasst an den Use Case

Leistung und Skalierbarkeit

Caching: Haeufige Anfrage-Embeddings cachen
Pre-Filtering: Nach Metadaten filtern, bevor die Vektorsuche erfolgt
Async Retrieval: Suchen ueber mehrere Indizes parallelisieren
Komprimierung: Embeddings quantisieren, um Speicher zu reduzieren

Auch SEO und Web-Inhalte profitieren von diesen RAG-Techniken. SEO-True demonstriert, wie KI und intelligentes Retrieval die Content-Strategien transformieren.

Enterprise Use Cases

Interne Wissensbasis

Der am haeufigsten eingesetzte Anwendungsfall: Mitarbeitern ermoeglichen, die interne Dokumentation (Confluence, SharePoint, Google Drive) in natuerlicher Sprache abzufragen.

Kundensupport

RAG-gestuetzte Support-Chatbots rufen Wissensbasis-Artikel ab, um Kunden praezise und mit Quellenangaben zu antworten.

Dokumentenanalyse

Rechts-, Finanz- und Compliance-Teams nutzen RAG zur Analyse von Dokumentenkorpora (Vertraege, Berichte, Vorschriften) und zur Gewinnung von Erkenntnissen.

Fazit

Die RAG-Architektur ist der Grundpfeiler der generativen KI im Unternehmen. Die Beherrschung von Chunking, Vektordatenbanken, Reranking und fortgeschrittenen Mustern ermoeglicht den Aufbau von Systemen, die praezise antworten und dabei in den proprietaeren Daten verankert bleiben.

Um weiterzugehen, entdecken Sie, wie man ein LLM in Produktion deployt und die Grundlagen der KI-Architektur.

Lesen Sie auch: Architektur autonomer KI-Agenten und unseren Leitfaden zur Sicherheit von KI-Architekturen. Entdecken Sie auch, wie KI das SEO transformiert und KI-Chatbots fuer Unternehmen.