Von passivem RAG zu intelligenten Agenten: Architekturmuster, Tool Use, Qualitätssicherung und Implementierungsfahrplan für Agentic-RAG-Systeme im Unternehmen.
Klicken zum Vergrößern
Retrieval-Augmented Generation, kurz RAG, hat sich als Standardmethode etabliert, um KI-Modelle mit eigenem Unternehmenswissen zu verbinden. Das Grundprinzip ist einfach: Eine Frage wird gestellt, relevante Dokumente werden aus einer Vektordatenbank abgerufen und dem Sprachmodell als Kontext übergeben, das daraus eine fundierte Antwort generiert. Dieser Ansatz hat eine zentrale Schwäche der großen Sprachmodelle gelöst — das Problem der Halluzinationen bei unternehmensspezifischen Fragen.
Doch klassisches RAG stößt an Grenzen, die im Praxiseinsatz schnell spürbar werden. Wenn ein Nutzer eine komplexe Frage stellt, die Informationen aus mehreren Dokumenten kombiniert erfordert, versagt die einfache Retrieval-Pipeline oft. Ein Beispiel: „Vergleiche die Vertragsbedingungen unserer drei größten Kunden und identifiziere Abweichungen vom Standardvertrag." Diese Frage erfordert mehrere Suchanfragen, das Auffinden verschiedener Verträge, den systematischen Vergleich und eine strukturierte Zusammenfassung. Ein einzelner RAG-Aufruf kann das nicht leisten.
Genau hier setzt Agentic RAG an. Der Begriff beschreibt einen Architekturansatz, bei dem ein KI-Agent den Retrieval-Prozess eigenständig plant, durchführt und iterativ verfeinert. Statt einer einzigen Suchanfrage zerlegt der Agent die Ursprungsfrage in Teilfragen, ruft gezielt verschiedene Datenquellen ab, bewertet die Qualität der gefundenen Informationen und stellt bei Bedarf Nachfragen. Er verhält sich wie ein erfahrener Researcher, der weiß, wo er suchen muss und wann er genug Informationen gesammelt hat.
Der Unterschied zum klassischen RAG ist fundamental: Passives RAG ist ein einzelner Schritt — Frage rein, Antwort raus. Agentic RAG ist ein iterativer Prozess mit Planung, Ausführung und Qualitätskontrolle. Für Unternehmen bedeutet das: Die Wissensbasis wird nicht nur abgefragt, sondern intelligent navigiert.
Wer ein Agentic-RAG-System aufbauen möchte, steht vor der Frage, welches Architekturmuster am besten zur eigenen Situation passt. In der Praxis haben sich drei Grundmuster etabliert, die sich in Komplexität und Leistungsfähigkeit unterscheiden.
Das erste Muster ist der Router-Agent. Er entscheidet anhand der Nutzerfrage, welche Datenquelle am besten geeignet ist. Handelt es sich um eine technische Frage? Dann wird die Produktdokumentation durchsucht. Geht es um Vertragsinhalte? Dann wird die Vertragsdatenbank herangezogen. Der Router selbst führt keine Analyse durch, sondern leitet die Anfrage intelligent weiter. Dieses Muster eignet sich hervorragend als Einstieg, weil es die bestehende RAG-Infrastruktur erweitert statt sie zu ersetzen. Ein IT-Dienstleister implementierte einen Router-Agent, der zwischen sechs verschiedenen Wissensdatenbanken unterschied und die Trefferquote bei Kundenanfragen um 35 Prozent steigerte.
Das zweite Muster ist der Multi-Step-Agent. Er zerlegt komplexe Fragen in eine Sequenz von Teilschritten, führt jeden Schritt einzeln aus und kombiniert die Ergebnisse zu einer kohärenten Antwort. Für die eingangs erwähnte Vertragsvergleich-Frage würde er zunächst die drei relevanten Verträge abrufen, dann den Standardvertrag laden, anschließend die Klauseln systematisch vergleichen und schließlich die Abweichungen zusammenfassen. Jeder Schritt hat Zugriff auf die Ergebnisse der vorherigen Schritte, was eine aufbauende Analyse ermöglicht.
Das dritte und mächtigste Muster ist der Orchestrator mit Spezialagenten. Hier koordiniert ein übergeordneter Agent mehrere spezialisierte Unter-Agenten, die parallel arbeiten. Ein Agent durchsucht die Vertragsdatenbank, ein anderer analysiert E-Mail-Korrespondenz, ein dritter prüft das CRM-System. Der Orchestrator sammelt die Ergebnisse, erkennt Widersprüche und erstellt eine konsolidierte Antwort. Dieses Muster eignet sich für Unternehmen mit heterogenen Datenlandschaften und ist besonders leistungsfähig, erfordert aber auch den höchsten Implementierungsaufwand.
Ein Agentic-RAG-System ist nur so gut wie die Wissensbasis, auf die es zugreift. Während beim klassischen RAG oft eine einzige Vektordatenbank ausreicht, erfordert der agentische Ansatz eine durchdachte Datenstrategie, die verschiedene Quellen und Zugriffsarten berücksichtigt.
Der erste Schritt ist die Bestandsaufnahme des vorhandenen Wissens. In den meisten Unternehmen existiert Wissen in überraschend vielen Formen: strukturierte Datenbanken, Wiki-Systeme, PDF-Dokumentationen, E-Mail-Archive, Chat-Verläufe, Projektmanagement-Tools und oft auch implizites Wissen in den Köpfen erfahrener Mitarbeiter. Ein häufiger Fehler besteht darin, nur die offensichtlichen Quellen — etwa das Unternehmens-Wiki — einzubinden und dabei die wertvollsten Informationsquellen zu übersehen.
Für die technische Umsetzung hat sich ein hybrides Retrieval-System bewährt, das semantische Suche in Vektordatenbanken mit klassischer Volltextsuche und strukturierten Datenbankabfragen kombiniert. Die semantische Suche findet konzeptionell ähnliche Inhalte, auch wenn die exakten Suchbegriffe nicht vorkommen. Die Volltextsuche ist präziser bei konkreten Begriffen, Produktnamen oder Aktenzeichen. Und strukturierte Abfragen liefern exakte Zahlenwerte, Datumsangaben oder Statuswerte. Ein guter Agentic-RAG-Agent weiß, wann welche Suchmethode die besten Ergebnisse liefert.
Das Chunking — also die Aufteilung von Dokumenten in verdauliche Abschnitte — verdient besondere Aufmerksamkeit. Beim klassischen RAG funktionieren Chunks von 500 bis 1000 Tokens oft ausreichend. Für Agentic RAG sind kontextbewusstere Strategien sinnvoll: Hierarchisches Chunking behält die Dokumentstruktur bei, semantisches Chunking orientiert sich an inhaltlichen Sinneinheiten, und Sliding-Window-Ansätze sorgen für überlappende Kontexte. Die Wahl der Chunking-Strategie hat oft einen größeren Einfluss auf die Antwortqualität als die Wahl des Sprachmodells.
Was Agentic RAG von passivem RAG unterscheidet, ist die Fähigkeit des Agenten, nicht nur Informationen abzurufen, sondern auch Aktionen auszuführen. Durch die Integration von Tools wird der Wissensagent zu einem handlungsfähigen Assistenten, der nicht nur antwortet, sondern auch Aufgaben erledigt.
Im einfachsten Fall bedeutet Tool Use, dass der Agent verschiedene Suchtools gezielt einsetzen kann: eine Vektordatenbank für semantische Suche, eine SQL-Datenbank für strukturierte Abfragen, eine Web-Suche für aktülle Informationen. Der Agent entscheidet basierend auf der Frage, welches Tool am vielversprechendsten ist, führt die Suche durch und bewertet das Ergebnis. Ist die Antwort unbefriedigend, probiert er ein anderes Tool oder reformuliert die Suchanfrage.
Fortgeschrittene Implementierungen gehen deutlich weiter. Ein Wissensagent im Vertrieb kann nicht nur Kundeninformationen abrufen, sondern auch CRM-Einträge aktualisieren, Aufgaben erstellen oder E-Mail-Entwürfe vorbereiten. Ein technischer Support-Agent kann nicht nur Fehlerbeschreibungen in der Wissensbasis finden, sondern auch Systemlogs abrufen, Diagnosescripts ausführen und Lösungsvorschläge direkt als Ticket-Kommentar hinterlegen. Die Grenze zwischen Informationssystem und Handlungssystem verschwimmt.
Ein Praxisbeispiel aus der Rechtsabteilung eines Versicherungsunternehmens illustriert das Zusammenspiel. Ein Sachbearbeiter fragt: „Prüfe den eingereichten Schadensfall Nr. 4711 gegen unsere Versicherungsbedingungen." Der Agent ruft den Schadensfall aus dem Fallmanagement-System ab, lädt die relevanten Versicherungsbedingungen aus der Dokumentendatenbank, identifiziert die einschlägigen Klauseln, vergleicht die Schadenschilderung mit den Bedingungen und erstellt eine strukturierte Bewertung mit Handlungsempfehlung. Was früher eine Stunde manülle Arbeit erforderte, dauert wenige Minuten — und der Agent vergisst keine Klausel.
Die größte Herausforderung bei Agentic RAG ist nicht der Aufbau, sondern die Sicherstellung konsistenter Qualität. Anders als bei klassischem RAG, wo eine einzelne Retrieval-Antwort relativ einfach evaluiert werden kann, müssen bei agentischen Systemen mehrstufige Prozesse, Werkzeugnutzung und Entscheidungspfade überwacht werden.
Groundedness — also die Frage, ob die generierte Antwort tatsächlich auf den abgerufenen Dokumenten basiert — bleibt auch bei Agentic RAG die zentrale Qualitätsmetrik. Doch sie allein genügt nicht. Zusätzlich muss bewertet werden, ob der Agent die richtigen Quellen ausgewählt hat, ob er alle relevanten Informationen gefunden hat und ob seine Schlussfolgerungen logisch konsistent sind. Ein Agent, der eine korrekte Antwort aus der falschen Quelle ableitet, kann beim nächsten ähnlichen Fall scheitern.
Für die systematische Evaluierung hat sich ein dreistufiger Ansatz bewährt. Die erste Stufe ist automatisiertes Testing mit vordefinierten Frage-Antwort-Paaren, die regelmäßig durchlaufen werden. Die zweite Stufe ist ein Tracing-System, das jeden Agentenschritt protokolliert — welche Tools wurden aufgerufen, welche Zwischenergebnisse erzeugt, welche Entscheidungen getroffen. Die dritte Stufe ist menschliches Review, bei dem Fachexperten stichprobenartig die Antwortqualität und die Entscheidungspfade des Agenten bewerten.
Halluzinationen werden bei Agentic RAG nicht weniger, sondern anders. Der Agent kann plausibel klingende Zwischen-Schlussfolgerungen erzeugen, die auf den abgerufenen Dokumenten basieren, aber den Gesamtkontext verfehlen. Deshalb ist es entscheidend, dass der Agent seine Quellen transparent zitiert und sein Konfidenzlevel kommuniziert. Ein ehrliches „Ich habe dazu keine ausreichenden Informationen gefunden" ist wertvoller als eine halluzinierte Antwort.
Der Weg vom Proof of Concept zum produktiven Agentic-RAG-System erfordert einen strukturierten Ansatz. Unternehmen, die zu ambitioniert starten, scheitern oft an der Komplexität. Wer zu zaghaft beginnt, erzeugt keinen sichtbaren Mehrwert. Der richtige Weg ist ein inkrementeller Aufbau, der mit jedem Schritt messbaren Nutzen liefert.
Die erste Phase umfasst die Pilotierung mit einem klar abgegrenzten Wissensbereich. Ideal ist ein Bereich mit hohem Abfragevolumen und gut strukturierten Dokumenten — etwa die technische Produktdokumentation oder die FAQ-Datenbank. In dieser Phase reicht ein Router-Agent, der zwischen zwei bis drei Datenquellen unterscheidet. Das Ziel ist nicht Perfektion, sondern der Nachweis, dass der agentische Ansatz bessere Ergebnisse liefert als klassisches RAG. Erfahrungsgemäß dauert diese Phase vier bis sechs Wochen.
In der zweiten Phase wird das System auf weitere Datenquellen erweitert und der Agent erhält zusätzliche Fähigkeiten. Hier zeigt sich, ob die gewählte Architektur skaliert. Typische Herausforderungen sind widersprüchliche Informationen aus verschiedenen Quellen, Zugriffsberechtigungen und die steigende Latenz bei komplexen Anfragen. Ein erfahrener Architekt bei einem Beratungshaus formulierte es so: „Phase eins ist Technik, Phase zwei ist Organisation. Du merkst plötzlich, dass die größten Probleme nicht technischer, sondern datenpolitischer Natur sind."
Die dritte Phase umfasst den Produktivbetrieb mit Monitoring, kontinuierlicher Verbesserung und Skalierung. Hier wird das Evaluierungssystem aus Lektion 5 zum Dauerbetrieb, und der Agent lernt aus Nutzerfeedback. Unternehmen, die diesen Punkt erreichen, berichten typischerweise von einer Reduktion der Recherchezeit um 50 bis 70 Prozent und einer deutlichen Steigerung der Antwortqualität bei komplexen Fragestellungen.