Paris, FR10 min|13. März 2025

RAG-Architektur — Retrieval Augmented Generation fuer Unternehmen

RAG-Architektur (Retrieval Augmented Generation) meistern: Vektordatenbanken, Embeddings, Chunking, Reranking und fortgeschrittene Muster fuer den Einsatz eines RAG-Systems im Unternehmen.

#RAG#retrieval#vector database#embeddings#knowledge base

Was ist RAG und warum ist es unverzichtbar?

RAG (Retrieval Augmented Generation) hat sich als dominantes Architekturmuster fuer den Einsatz von LLMs in Unternehmen etabliert. Das Prinzip ist einfach, aber wirkungsvoll: Anstatt sich ausschliesslich auf das im Modell kodierte Wissen zu verlassen, werden vor der Antwortgenerierung relevante Dokumente abgerufen.

In Paris setzen franzoesische und europaeische Unternehmen massiv auf RAG aus einem grundlegenden Grund: Es ermoeglicht, KI-Antworten in den proprietaeren Daten des Unternehmens zu verankern und Halluzinationen drastisch zu reduzieren.

Die Grenzen von LLMs ohne RAG

  • Eingefrorenes Wissen: Das Modell kennt nur seine Trainingsdaten
  • Halluzinationen: Das Modell erfindet Informationen mit Ueberzeugung
  • Proprietaere Daten: Kein Zugriff auf interne Dokumente
  • Aktualitaet: Informationen veralten nach dem Cutoff-Datum
  • Fine-Tuning-Kosten: Ein LLM an jeden Fachbereich anzupassen ist prohibitiv teuer

RAG loest alle fuenf Probleme auf elegante Weise.

RAG-Referenzarchitektur

Standard-RAG-Pipeline

Quelldokumente
→ Ingestion und Vorverarbeitung
→ Chunking (Aufteilung in Segmente)
→ Embedding (Vektorisierung)
→ Indexierung in eine Vektor-DB
---
Benutzeranfrage
→ Anfrage-Embedding
→ Vektorsuche (Similarity Search)
→ Ergebnis-Reranking
→ Prompt-Konstruktion mit Kontext
→ LLM-Generierung
→ Kontextualisierte Antwort

Detaillierte Komponenten

| Komponente | Rolle | Optionen | |-----------|------|---------| | Document Loader | Multi-Format-Ingestion | Unstructured, LlamaIndex | | Chunker | Intelligente Aufteilung | Recursive, Semantic, Agentic | | Embedding-Modell | Vektorisierung | OpenAI ada-002, Cohere, BGE | | Vektordatenbank | Speicherung und Suche | Pinecone, Weaviate, Qdrant, Chroma | | Retriever | Dokumentensuche | Similarity, MMR, Hybrid | | Reranker | Ergebnis-Neuordnung | Cohere Rerank, ColBERT, Cross-Encoder | | LLM | Antwortgenerierung | GPT-4, Claude, Mistral |

Chunking: Die Kunst der Aufteilung

Chunking — die Art und Weise, wie Sie Ihre Dokumente aufteilen — hat einen direkten Einfluss auf die Qualitaet der RAG-Ergebnisse. Schlechtes Chunking erzeugt mittemaessige Antworten, unabhaengig vom verwendeten LLM.

Chunking-Strategien

Chunking mit fester Groesse

  • Aufteilung alle N Tokens mit Ueberlappung (Overlap)
  • Einfach, aber verliert den semantischen Kontext
  • 10-20% Overlap empfohlen

Rekursives Chunking

  • Teilt zuerst nach Absaetzen, dann nach Saetzen, wenn zu lang
  • Bewahrt die Dokumentstruktur besser
  • Standardmethode von LangChain

Semantisches Chunking

  • Verwendet Embeddings zur Erkennung von Bedeutungsbruechen
  • Erzeugt thematisch kohaerente Chunks
  • Rechenintensiver, aber hoehere Qualitaet

Agentisches Chunking

  • Ein LLM entscheidet, wie das Dokument aufgeteilt wird
  • Versteht die logische Struktur (Abschnitte, Argumente)
  • Optimale Qualitaet, aber hohe Kosten

Groessenempfehlungen

| Inhaltstyp | Empfohlene Groesse | Overlap | |-----------------|-------------------|---------| | Technische Dokumentation | 500-1000 Tokens | 100 Tokens | | Blog-Artikel | 300-500 Tokens | 50 Tokens | | Quellcode | Pro Funktion/Klasse | Vollstaendiger Kontext | | FAQ | 1 Frage-Antwort pro Chunk | Kein | | Vertraege/Recht | 200-400 Tokens | 50 Tokens |

Vektordatenbanken: Das Herzstueck von RAG

Wie Embeddings funktionieren

Embeddings transformieren Text in hochdimensionale numerische Vektoren (768 bis 3.072 Dimensionen). Zwei semantisch aehnliche Texte haben nahe Vektoren in diesem Raum.

Vergleich der Vektordatenbanken

| Datenbank | Typ | Skalierbarkeit | Filterung | Preis | |------|------|-------------|-----------|------| | Pinecone | Managed | Hervorragend | Metadaten | Pay-per-use | | Weaviate | Open-Source/Managed | Sehr gut | GraphQL | Kostenlos/Managed | | Qdrant | Open-Source/Managed | Sehr gut | Payload | Kostenlos/Managed | | Chroma | Open-Source | Mittel | Metadaten | Kostenlos | | pgvector | PostgreSQL-Erweiterung | Gut | Natives SQL | Kostenlos | | Milvus | Open-Source | Hervorragend | Expression | Kostenlos |

Die richtige Vektordatenbank waehlen

Fuer Unternehmen haengt die Wahl von mehreren Faktoren ab:

  • Volumen: Weniger als 1 Mio. Vektoren? pgvector oder Chroma reichen aus
  • Produktion: Pinecone oder Weaviate Managed fuer Zuverlaessigkeit
  • Budget: Qdrant oder Chroma Self-Hosted zur Kostenreduzierung
  • Integration: pgvector, wenn Sie bereits PostgreSQL verwenden

Fortgeschrittene RAG-Muster

Hybrides RAG (Keyword + Semantisch)

Die rein vektorbasierte Suche uebersieht manchmal Dokumente mit spezifischen Begriffen (Eigennamen, Akronyme, Referenzen). Hybrides RAG kombiniert:

  • Semantische Suche (Embeddings) fuer das Bedeutungsverstaendnis
  • Lexikalische Suche (BM25) fuer exakte Uebereinstimmungen
  • Fusion: Reciprocal Rank Fusion (RRF) zur Kombination der Scores

Dieses Muster verbessert den Recall laut Benchmarks um 15 bis 30%.

RAG mit Reranking

Nach der initialen Suche (Top 20-50 Ergebnisse) bewertet ein Reranking-Modell die Relevanz jedes Dokuments im Verhaeltnis zur Frage neu:

Anfrage → Retrieval (Top 50) → Reranker → Top 5 → LLM → Antwort

Cross-Encoder-Reranker (Cohere Rerank, BGE Reranker) verbessern die Praezision erheblich.

Agentisches RAG

Agentisches RAG nutzt einen KI-Agenten zur Orchestrierung des Suchprozesses:

  1. Der Agent analysiert die Frage und plant die Suchstrategie
  2. Er formuliert mehrere Suchanfragen aus verschiedenen Blickwinkeln
  3. Er bewertet die Ergebnisqualitaet und sucht bei Bedarf erneut
  4. Er synthetisiert die gesammelten Informationen zu einer kohaerenten Antwort

Dieses Muster eignet sich hervorragend fuer komplexe Fragen, die Informationen aus mehreren Quellen erfordern.

Graph RAG

Graph RAG strukturiert Wissen als Graph anstelle unabhaengiger Chunks:

  • Entitaeten (Personen, Konzepte, Produkte) sind Knoten
  • Beziehungen zwischen Entitaeten sind Kanten
  • Die Suche nutzt die Graphstruktur fuer reichhaltigere Antworten

Besonders effektiv fuer Wissensbasen mit komplexen Beziehungen zwischen Entitaeten.

Bewertung der RAG-Qualitaet

RAGAS-Metriken

Das RAGAS-Framework definiert vier Schluesselmetriken:

  • Faithfulness: Ist die Antwort den abgerufenen Dokumenten treu?
  • Answer Relevancy: Ist die Antwort relevant fuer die Frage?
  • Context Precision: Sind die abgerufenen Dokumente relevant?
  • Context Recall: Wurden alle notwendigen Dokumente abgerufen?

Evaluierungs-Pipeline

Testdatensatz (Fragen + erwartete Antworten)
→ Ausfuehrung der RAG-Pipeline
→ Berechnung der RAGAS-Metriken
→ Fehleranalyse
→ Anpassung (Chunking, Embedding, Prompt)
→ Neubewertung

Die Einrichtung einer automatisierten Evaluierungs-Pipeline ist essentiell fuer die kontinuierliche Verbesserung der Systemqualitaet — ein Prinzip, das Agents-IA.pro in seinen Deployments anwendet.

RAG in Produktion: Best Practices

Dokumentenverwaltung

  • Reichhaltige Metadaten: Datum, Quelle, Autor, Kategorie fuer die Filterung
  • Versionierung: Nachverfolgung von Aenderungen der Quelldokumente
  • Aktualitaet: Regelmaessige Neuindexierung aktualisierter Dokumente
  • Deduplizierung: Vermeidung von Duplikaten, die Ergebnisse verschlechtern

Optimierung der RAG-Prompts

Der RAG-Prompt sollte:

  • Das LLM anweisen, nur auf Basis der bereitgestellten Dokumente zu antworten
  • Fehlende Informationen behandeln: "Wenn die Dokumente die Antwort nicht enthalten, sagen Sie das"
  • Quellen zitieren: Dem Benutzer die Ueberpruefung ermoeglichen
  • Die Antwort strukturieren: Format angepasst an den Use Case

Leistung und Skalierbarkeit

  • Caching: Haeufige Anfrage-Embeddings cachen
  • Pre-Filtering: Nach Metadaten filtern, bevor die Vektorsuche erfolgt
  • Async Retrieval: Suchen ueber mehrere Indizes parallelisieren
  • Komprimierung: Embeddings quantisieren, um Speicher zu reduzieren

Auch SEO und Web-Inhalte profitieren von diesen RAG-Techniken. SEO-True demonstriert, wie KI und intelligentes Retrieval die Content-Strategien transformieren.

Enterprise Use Cases

Interne Wissensbasis

Der am haeufigsten eingesetzte Anwendungsfall: Mitarbeitern ermoeglichen, die interne Dokumentation (Confluence, SharePoint, Google Drive) in natuerlicher Sprache abzufragen.

Kundensupport

RAG-gestuetzte Support-Chatbots rufen Wissensbasis-Artikel ab, um Kunden praezise und mit Quellenangaben zu antworten.

Dokumentenanalyse

Rechts-, Finanz- und Compliance-Teams nutzen RAG zur Analyse von Dokumentenkorpora (Vertraege, Berichte, Vorschriften) und zur Gewinnung von Erkenntnissen.

Fazit

Die RAG-Architektur ist der Grundpfeiler der generativen KI im Unternehmen. Die Beherrschung von Chunking, Vektordatenbanken, Reranking und fortgeschrittenen Mustern ermoeglicht den Aufbau von Systemen, die praezise antworten und dabei in den proprietaeren Daten verankert bleiben.

Um weiterzugehen, entdecken Sie, wie man ein LLM in Produktion deployt und die Grundlagen der KI-Architektur.

Lesen Sie auch: Architektur autonomer KI-Agenten und unseren Leitfaden zur Sicherheit von KI-Architekturen. Entdecken Sie auch, wie KI das SEO transformiert und KI-Chatbots fuer Unternehmen.

S

Sebastien

Hub AI - Expert IA

Articles similaires