Wie Retrieval Augmented Generation (RAG) GenAI-Lösungen verbessert
Retrieval Augmented Generation (RAG) verbindet LLM (Large Language Models) mit externen Datenquellen, um relevantere und aktuellere Ergebnisse zu liefern. Dieser Artikel erklärt, wie RAG funktioniert und warum Compound AI Systems wichtig sind.
Erfahre, wie sich durch Kontextinformationen die Qualität von LLM-Ausgaben verbessert und wie dein Unternehmen davon profitiert.
Die Einschränkungen von LLM und wie RAG sie überwindet
LLM haben die Art und Weise revolutioniert, wie wir mit KI interagieren. Sie können menschliche Sprache verstehen und generieren, komplexe Fragen beantworten und vielseitige Aufgaben erfüllen. Dennoch stoßen sie an Grenzen, wenn ihnen das zur Erfüllung einer Aufgabe oder Beantwortung einer Frage benötigte Wissen fehlt. Dies führt häufig zu sogenannten Halluzinationen − das heißt, ein LLM generiert faktisch ungenaue Informationen oder erfindet sie komplett.
Was sind die Ursachen dieser Einschränkungen?
- Mangel an aktuellem Wissen: LLM basieren auf Daten, die bis zu einem bestimmten Zeitpunkt gesammelt wurden. Ereignisse oder Informationen nach diesem Zeitpunkt sind diesen Modellen unbekannt.
- Fehlende Spezialisierung: Obwohl sie ein breites Wissen haben, fehlt es LLM oft an tiefgehendem spezifischen Fach- und Domänenwissen. Zudem verfügen die Modelle nicht über unternehmensinterne Daten oder Wissen über unternehmensinterne Prozesse.
Wie RAG diese Einschränkungen reduziert
RAG-Systeme erweitern die Fähigkeiten von LLM, indem sie weitere Datenquellen einbinden. So verringern sich Fehlerwahrscheinlichkeiten bzw. Halluzinationen. Dabei nutzen sie zusätzliche Datenquellen als Hilfsmittel, wodurch folgender Mehrwert entsteht:
- Aktuelle Antworten: RAG ermöglicht den Zugriff auf aktuelle Informationen aus dem Internet oder anderen Echtzeit-Datenquellen, wodurch die Antworten stets auf dem neuesten Stand sind.
- Spezifisches Wissen steigert Antwortqualität: Durch Zugriff auf interne Datenbanken, Dokumente oder Wissensdatenbanken können RAG-Systeme unternehmensspezifisches Wissen in die Antwortgenerierung einbinden.
Wir zeigen Anwendungsbeispiele von RAG-Systemen
RAG-Systeme gibt es heute bereits in zahlreichen Anwendungen:
Kundenservice-Chatbots
Ein Unternehmen implementiert einen Chatbot, der Kundenanfragen nicht nur mit allgemeinem Wissen, sondern auch mit spezifischen Informationen aus internen Datenbanken beantwortet. So erhalten Kunden aktuelle und präzise Antworten auf ihre individuellen Fragen.
Internes Wissensmanagement
Die Mitarbeitenden nutzen ein RAG-System, um schnell auf interne Richtlinien, technische Dokumentationen oder Projektinformationen zuzugreifen. Dies fördert den Wissensaustausch und steigert die Effizienz im Unternehmen.
Personalisierte Inhaltserstellung
Marketing-Teams generieren Inhalte, die auf aktuellen Daten und spezifischen Kundensegmenten basieren. Durch RAG-Systeme können maßgeschneiderte Kampagnen erstellt werden, die mehr auf die Bedürfnisse der Zielgruppe eingehen.
Welche Architektur steckt hinter RAG-Systemen?
Die Kernkomponenten eines RAG-Systems
Ein RAG-System besteht mindestens aus den folgenden beiden zentralen Komponenten, die zusammenarbeiten und über eine Integrationsschicht verbunden sind:
- Large Language Model (LLM): Das generative KI-Modell erstellt Texte, die auf Eingabedaten basieren.
- Datenquellen: Interne oder externe Datenbanken, Dokumentenarchive, Wissensdatenbanken oder APIs, die spezifische Informationen bereitstellen.
Wie funktioniert ein RAG-System?
Benutzeranfrage: Der User stellt eine Frage oder Anfrage an das System.
Information Retrieval: Das System durchsucht die internen oder externen Datenquellen nach relevanten Informationen, die dabei helfen, die Frage oder Anfrage zu beantworten.
Kontextualisierung: Die abgerufenen Informationen werden dem LLM als Kontext zur Verfügung gestellt.
Antwortgenerierung: Das LLM erzeugt eine Antwort, die sowohl die Anfrage als auch den zusätzlichen Kontext berücksichtigt.
Ausgabe: Der User erhält die durch das LLM generierte Antwort zu seiner Anfrage.
Wie ein sicheres und produktionsfähiges RAG-System aufgebaut ist
Das Schaubild beschreibt die Architektur eines ausgereiften RAG-Systems, das für den produktiven Einsatz entworfen wurde.

Dieses RAG-System besteht aus sechs Komponenten:
Management-Schicht: Hier geht es um Services und Storages, die nicht Kern des RAG-Systems sind. Sie bieten unterstützende Funktionen (u.a. verschiedene Logging- und Monitoring-Funktionalitäten, Chat-Historien der User und die Verwaltung der Zugriffsrechte). Auf diese Funktionen wird über den gesamten RAG-Prozess hinweg an verschiedenen Stellen zugegriffen.
Dokumenten-Vorverarbeitung: Jetzt stehen die notwendigen Verarbeitungsschritte an, um von den Roh-Dokumenten zu einem bestimmten Format zu gelangen – ein Format, das vom RAG-System effizient durchsucht und in das LLM eingespeist werden kann. Dazu werden zunächst aus den Roh-Dokumenten (z. B. Word oder PDF) Texte gewonnen. Danach kommen vor allem verschiedene Techniken zum Einsatz, welche die Texte in kürzere Abschnitte aufteilen. Durch das sogenannte Chunking ist es einfacher, auch große Datenmengen zu untersuchen. In komplexen Szenarien kann dafür bereits ein LLM sinnvoll sein.
Dokumenten-Speicher: Die vorverarbeiteten Dokumente sollen in durchsuchbare Indizes gespeichert werden. Insbesondere größere RAG-Systeme verteilen die Daten beispielsweise nach Themen oder Domänen in mehrere Datenbanken. Die Daten selbst bestimmen dabei immer die Art der Datenbank. Für klassische Textdaten eignen sich hier Vektordatenbanken oder zum Beispiel ein Index für Stichwortsuchen. Dieser Index ergänzt häufig die reine Vektorsuche. Für strukturierte, tabellarische Daten bieten sich klassischerweise SQL-Datenbanken an. Abhängig von den vorliegenden Daten kann auch die Speicherung als Wissensgraph („Knowledge Graph“) in einer Graphdatenbank sinnvoll sein. Das Routing gibt vor, auf welche Datenbank für eine Nutzeranfrage zugegriffen wird.
Datenabruf: Ein User stellt eine Anfrage. Dazu werden die relevanten Dokumentabschnitte aus den konfigurierten Indizes abgerufen und zurückgeliefert. Verschiedene State-of-the-Art-Techniken wie Query Expansion und Hypothetical Document Embeddings (HyDE) verbessern die Suchergebnisse zusätzlich. Welche Techniken zum Einsatz kommen, richtet sich nach jeweiligen Indizes. Um in einer SQL-Datenbank zu suchen oder einen Graphen in einer Graphdatenbank zu traversieren (entlangzugehen), generiert ein weiterer LLM-Aufruf in einem Zwischenschritt die entsprechenden Datenbankabfragen. Um Daten aus externen APIs (Schnittstellen) abzurufen, werden durch einen zusätzlichen LLM-Aufruf die notwendigen Parameter aus der Nutzeranfrage generiert.
Routing: Diese Komponente ermittelt, in welchen der Indizes nach relevanten Informationen gesucht werden soll – und zwar anhand der Nutzeranfrage. Es geht darum, durch einen LLM-Aufruf die Intention zu ermitteln und zu klassifizieren. Ein LLM-Aufruf soll die passenden Indizes auswählen.
Kontextaufbau, Sicherheit und finale Antwort: Das ist die Schnittstelle, um mit dem RAG-System zu kommunizieren. Über diese Schnittstelle werden Nutzeranfragen entgegengenommen und unter Einsatz der vom RAG-System gelieferten Dokumentabschnitte und LLM-Aufrufe an die Modell-APIs beantwortet. Dann findet der abschließende Qualitäts- und Sicherheitscheck statt. Es geht darum die Antwort auf Genauigkeit, Relevanz und Einhaltung von Unternehmensrichtlinien zu prüfen. Zudem wird sichergestellt, dass keine sensiblen Informationen herausgegeben werden. Der User erhält die geprüfte und sichere Antwort zurück. Optional kann der User Feedback zu dieser Antwort geben; dieses Feedback kann im Nachgang das System verbessern.
RAG-Systeme gehören zu den Compound AI Systems. CAS sind modular aufgebaut, das heißt, sie bestehen aus mehreren spezialisierten Komponenten. Diese Komponenten erfüllen klar definierte Aufgaben. Die Modularität von CAS bietet verschiedene Vorteile:
- Flexibilität: Einzelne Komponenten können unabhängig voneinander entwickelt, angepasst oder ausgetauscht werden.
- Skalierbarkeit: Es ist leicht, das System zu erweitern, um zusätzliche Funktionen oder höhere Lasten zu bewältigen.
- Anpassungsfähigkeit: Neue Technologien oder Datenquellen sind problemlos zu integrieren.
Erweiterte Komponenten sorgen für Qualität und Sicherheit:
Neben den Hauptkomponenten können weitere Module in ein CAS integriert werden, um Qualität und Sicherheit zu erhöhen.
- Validierungsmodelle: Zusätzliche KI-Modelle, welche die generierten Antworten auf Richtigkeit und Plausibilität prüfen.
- Regelbasiertes Filtern: Geschäftsregeln oder Compliance-Richtlinien werden implementiert, um unerwünschte oder fehlerhafte Inhalte zu identifizieren.
- Menschliche Prüfung (Human-in-the-Loop): Fachkräfte können kritische Antworten überprüfen, bevor sie an den User gehen.
- Authentifizierung und Autorisierung: Sicherstellen, dass nur berechtigte Benutzer Zugriff auf bestimmte Funktionen oder Daten haben.
- Anonymisierung und Verschlüsselung: Schutz sensibler Daten? Eindeutig ja. Dafür sorgen Anonymisierung oder Verschlüsselung, während die Daten verarbeitet werden.
- Compliance-Checks: Die Einhaltung gesetzlicher Vorschriften und interner Richtlinien wird überprüft.
Darüber hinaus bieten CAS-Architekturen die Möglichkeit, weitere Funktionen einzubinden:
- Feedback-Mechanismen: Diese ermöglichen Usern, Feedback zu geben – für ein besseres System.
- Analytik und Monitoring: Nutzungsdaten werden gesammelt, um die Leistung des Systems zu überwachen und zu optimieren.
- Mehrsprachige Unterstützung: Das System wird erweitert, um mehrere Sprachen zu verarbeiten und auszugeben.
Die Vorteile von RAG- und CAS-Systemen für Banken und Versicherungen
Gerade Banken und Versicherungen verfügen über immense interne Datenmengen, beispielsweise Kunden- und Produktinformationen oder die Informationen über die eigenen Prozesse. Daher profitieren Banken und Versicherungen besonders von RAG– und CAS–Systemen. Ein hohes Sicherheitsniveau ist aber zwingend erforderlich.
Das sind die Vorteile:
- Internes Wissen: Ein RAG-System ermöglicht es, vorhandenes Unternehmenswissen effizient zu nutzen und verfügbar zu machen.
- Genauigkeit und Relevanz: Durch die Kombination von LLM mit spezifischen Datenquellen werden Antworten präziser und relevanter.
- Sicherheit und Compliance: Zusätzliche Sicherheitsmodule stellen den Schutz sensibler Daten und die Einhaltung von Vorschriften sicher.
- Skalierbarkeit und Flexibilität: Die modulare CAS-Architektur ermöglicht es, das System an steigende Anforderungen anzupassen.
CAS eignen sich für flexible und sichere KI-Lösungen – ein Fazit
RAG-Systeme erweitern die Möglichkeiten von LLM, indem sie spezifisches Wissen und aktuelle Informationen einbeziehen, um Antworten zu generieren. Unternehmen können durch eine Compound AI System (CAS)-Architektur flexible, skalierbare und sichere KI-Lösungen entwickeln. Die Integration weiterer Komponenten für Qualitätssicherung und Sicherheit zahlt auf die Zuverlässigkeit der Systeme ein. Darüber hinaus akzeptieren die Menschen auf diese Weise die KI-Lösungen leichter.
Sich mit RAG-Systemen und CAS zu beschäftigen, ist für alle Unternehmen essenziell, die ihre GenAI-Lösungen verbessern und den steigenden Anforderungen gerecht werden möchten.
Durch internes Wissen, bessere Antworten sowie eine hohe Sicherheit und Compliance kann dein Unternehmen einen entscheidenden Wettbewerbsvorteil erzielen.