Lokale KI mit OpenWebUI und RAG

Einleitung

Stell dir vor, du hast einen Chatbot, der deine internen Firmenrichtlinien kennt, deine Produktkataloge durchsuchen kann und auf Basis deiner eigenen Dokumente antwortet -- ohne dass ein einziges Wort an externe Server gesendet wird. Genau das ist möglich mit OpenWebUI und RAG.

In diesem Kurs lernst du, wie du deinen eigenen KI-Chatbot mit eigenem Wissen einrichtest. Schritt für Schritt, ohne Programmierkenntnisse, mit maximaler Datenkontrolle.

Was ist RAG?

Retrieval Augmented Generation erklärt

RAG steht für Retrieval Augmented Generation. Vereinfacht gesagt bedeutet es: Du gibst einem KI-Modell eigenes Wissen mit, und die KI antwortet auf Basis dieses Wissens statt zu raten.

Warum ist das wichtig? Normale KI-Modelle wie ChatGPT oder Claude kennen nur die Informationen, mit denen sie trainiert wurden. Deine internen Dokumente, Firmenrichtlinien, Produktspezifikationen oder branchenspezifisches Fachwissen sind ihnen unbekannt. Mit RAG machst du genau dieses Wissen verfügbar.

Wie RAG technisch funktioniert

Hinter den Kulissen passiert Folgendes:

Chunking: Deine Dokumente werden in kleinere Abschnitte (Chunks) unterteilt
Embedding: Jeder Chunk wird in einen mathematischen Vektor umgewandelt, der seinen Inhalt repräsentiert
Vektordatenbank: Diese Vektoren werden in einer speziellen Datenbank gespeichert
Retrieval: Wenn eine Frage gestellt wird, sucht das System die relevantesten Chunks
Generation: Das KI-Modell generiert eine Antwort basierend auf den gefundenen Chunks

Normalerweise ist das Einrichten von RAG technisch anspruchsvoll. Du müsstest Skripte schreiben, eine Vektordatenbank konfigurieren und die einzelnen Schritte manüll orchestrieren. OpenWebUI nimmt dir all diese Arbeit ab.

OpenWebUI: Die beliebteste Oberfläche für lokale KI

Was ist OpenWebUI?

OpenWebUI ist das wahrscheinlich beliebteste Open-Source-Tool für das Verwenden von KI-Modellen. Es bietet eine schöne, ChatGPT-ähnliche Oberfläche und funktioniert sowohl mit lokalen Modellen als auch mit Cloud-Modellen aller Anbieter.

Die grössten Vorteile:

Kostenlos und Open Source -- keine Abos, keine versteckten Kosten
Modell-agnostisch -- nutze lokale Modelle über Ollama oder Cloud-Modelle per API Key
Eingebautes RAG -- Wissensmanagement per Klick, ohne Programmierung
Multi-User -- mehrere Personen können gleichzeitig arbeiten
Admin-Steuerung -- kontrolliere, wer welche Modelle und Wissensbasen nutzen darf

RAG in OpenWebUI einrichten

Schritt 1: Wissenskollektion erstellen

In der linken Seitenleiste von OpenWebUI findest du unter "Arbeitsbereich" den Tab "Wissen". Hier erstellst du deine erste Kollektion:

Klicke auf das Plus-Symbol rechts
Vergib einen Titel (z.B. "Onboarding Dokumente")
Schreibe eine kurze Beschreibung
Wähle die Sichtbarkeit: privat oder öffentlich
Klicke auf "Wissen erstellen"

Schritt 2: Dokumente hochladen

Jetzt füllst du die Kollektion mit Inhalten:

Klicke auf das Plus in deiner Kollektion
Wähle "Dateien hochladen", "Uploadverzeichnis" oder "Textinhalt hinzufügen"
Lade deine Dateien hoch -- PDFs, Textdateien, alles was relevant ist

OpenWebUI übernimmt ab hier die gesamte technische Arbeit: Chunking, Embedding und Speicherung in der Vektordatenbank -- automatisch, im Hintergrund.

Schritt 3: Im Chat nutzen

Um dein Wissen im Chat zu verwenden, gibt es zwei Wege:

Weg 1: Manüll pro Chat Tippe im Prompt-Feld eine Raute (#) und wähle deine Kollektion aus. Du kannst sogar einzelne Dateien referenzieren, wenn du nur bestimmtes Wissen verwenden willst.

Weg 2: Fest in ein Modell einbinden Unter Admin > Einstellungen > Modelle kannst du eine Wissensdatenbank direkt an ein Modell anbinden. Danach hat dieses Modell automatisch Zugriff auf dein Wissen, ohne dass Nutzer es manüll referenzieren müssen.

Die RAG-Einstellungen im Detail

Wo findest du die Einstellungen?

Unter Admin > Einstellungen > Dokumente findest du alle RAG-Parameter:

Blockgrösse und Überlappung

Blockgrösse (Chunk Size): Standard 1.000 Zeichen. Bestimmt, wie gross die einzelnen Textabschnitte sind.
Blocküberlappung (Chunk Overlap): Standard 1.000 Zeichen. Stellt sicher, dass Kontext an den Grenzen nicht verloren geht.

Empfehlung: Lass die Standardwerte zunächst unberührt. Nur wenn die Antwortqualität nicht stimmt, lohnt es sich hier anzupassen.

Das Embedding-Modell

Das Embedding-Modell wandelt Text in Vektoren um. OpenWebUI nutzt standardmässig das "All-MiniLM-L6-V2"-Modell, das erfahrungsgemäss sehr gut funktioniert.

Auf Hugging Face findest du über 5.000 alternative Embedding-Modelle. Für den Einstieg ist das Standardmodell aber mehr als ausreichend.

Der Top-K Parameter

Der Top-K Parameter (Standard: 3) bestimmt, wie viele der relevantesten Chunks für eine Antwort herangezogen werden. Bei gezielten Fragen reichen 3 Chunks in der Regel aus. Bei breiteren Themen kannst du auf 5 oder mehr erhöhen.

Weitere Optionen

Vollkontextmodus: Nutzt den gesamten Dokumentinhalt statt einzelner Chunks
Hybride Suche: Kombiniert Vektorsuche mit klassischer Textsuche für bessere Ergebnisse
Upload-Einschränkungen: Dateitypen und -grössen begrenzen

RAG in der Praxis testen

Test 1: Relevante Fragen

DigitaleProfis demonstriert die Funktion mit Onboarding-Dokumenten. Auf die Frage "Was sind die wichtigsten Punkte aus der IT-Nutzungsrichtlinie?" liefert das Modell:

Präzise Antworten aus den hochgeladenen Dokumenten
Quellenangaben mit Seitennummer und Relevanz-Score (z.B. 73,79%)
Die exakten Textstellen, die zur Antwort geführt haben

Test 2: Irrelevante Fragen

Auf die Frage "Was ist das beste E-Bike für leichte Trekkingtouren?" -- die nichts mit den Onboarding-Dokumenten zu tun hat -- reagiert das Modell korrekt:

"Die bereitgestellten Kontextinformationen enthalten keine Antwort auf Ihre Frage, da sie sich ausschliesslich auf interne Onboarding-Dokumente beziehen."

Optional liefert das Modell danach noch allgemeine Informationen aus seinem Training -- aber der entscheidende Hinweis, dass die RAG-Daten keine Antwort enthalten, kommt zuverlässig.

Test 3: Wissen fest an Modell binden

Nachdem du eine Kollektion fest an ein Modell gebunden hast, erkennt das Modell automatisch, wann auf das interne Wissen zugegriffen werden soll. Die Frage "Bitte fasse den Verhaltenskodex unseres Unternehmens zusammen" wird korrekt aus den hinterlegten Dokumenten beantwortet -- mit Quellenangaben und spezifischen Textstellen.

Anwendungsfälle für RAG

Für Unternehmen

IT-Helpdesk: Mitarbeiter fragen den Chatbot statt die IT-Abteilung
Onboarding: Neue Mitarbeiter können alle Fragen zum Unternehmen stellen
Produktwissen: Vertriebsteams bekommen sofortige Antworten zu Produkten
Qualitätsmanagement: Richtlinien und Standards sind jederzeit abrufbar
Rechtliche Fragen: FAQ zu internen Regelungen und Compliance

Für Solopreneure und Teams

Kundenwissen: Alle Kundeninformationen in einer durchsuchbaren Wissensbasis
Projektdokumentation: Schnell Antworten zu laufenden Projekten finden
Content-Planung: Bestehenden Content analysieren und darauf aufbauen
Fachwissen: Branchenspezifische Informationen dem KI-Modell zugänglich machen

Lokale Modelle vs. Cloud-Modelle in OpenWebUI

Lokale Modelle mit Ollama

OpenWebUI arbeitet nahtlos mit Ollama zusammen. Damit kannst du Modelle wie Llama, Qwen oder Mistral direkt auf deinem eigenen Rechner ausführen. Alle Daten bleiben lokal -- maximaler Datenschutz.

Voraussetzung: Eine halbwegs aktülle Grafikkarte (GPU) für akzeptable Geschwindigkeit. Ohne GPU laufen die Modelle nur auf der CPU und sind deutlich langsamer.

Cloud-Modelle per API

Du kannst in OpenWebUI auch Cloud-Modelle wie Gemini, GPT oder Claude per API Key einbinden. Damit hast du die neuesten und leistungsfähigsten Modelle, sendest aber Daten an externe Server.

Die Hybrid-Strategie

In der Praxis nutzen viele Teams beide Ansätze:

Lokale Modelle für alles mit sensiblen Daten (HR, Finanzen, Kundendaten)
Cloud-Modelle für allgemeine Aufgaben, wo Höchstleistung gefragt ist

OpenWebUI macht diesen Mix besonders einfach, weil alle Modelle in der gleichen Oberfläche verfügbar sind.

Best Practices für RAG

Dokumenten-Qualität ist entscheidend

Strukturierte Dokumente liefern bessere Ergebnisse als unformatierte Textblöcke
Klare Überschriften helfen dem System, Themen zu trennen
Aktülle Inhalte -- entferne veraltete Dokumente regelmässig
Keine Duplikate -- gleiche Informationen in mehreren Dokumenten verwirren das System

Kollektionen sinnvoll organisieren

Erstelle thematische Kollektionen statt einer grossen Sammlung
z.B. "IT-Richtlinien", "Produktkatalog", "HR-Dokumente" als separate Kollektionen
So kannst du im Chat gezielt nur das relevante Wissen referenzieren

Antwortqualität optimieren

Starte mit den Standardeinstellungen und optimiere nur bei Bedarf
Erhöhe Top-K, wenn Antworten unvollständig sind
Probiere die hybride Suche, wenn reine Vektorsuche zu ungenaue Ergebnisse liefert
Teste mit verschiedenen Frageformulierungen

Fazit

Lokale KI mit OpenWebUI und RAG macht erstmals Wissensmanagement per KI für jeden zugänglich:

OpenWebUI ist der Standard für lokale KI-Oberflächen -- kostenlos und leistungsstark
RAG per Klick -- keine Programmierung, keine technische Konfiguration nötig
Volle Datenkontrolle -- deine Dokumente verlassen nie deinen Rechner
Quellenangaben inklusive -- jede Antwort zeigt, woher die Information stammt
Flexible Nutzung -- einzeln im Chat referenzieren oder fest an Modelle binden
Hybrid-Fähig -- lokale und Cloud-Modelle in einer Oberfläche

Im nächsten Kurs gehen wir einen Schritt weiter und zeigen dir, wie du eine komplette KI-Infrastruktur selbst hostest -- von der Hardware-Auswahl über die Server-Einrichtung bis zum sicheren Betrieb.

Lokale KI mit OpenWebUI und RAG

Visual Summary

Lokale KI mit OpenWebUI und RAG

Einleitung

Was ist RAG?

Retrieval Augmented Generation erklärt

Wie RAG technisch funktioniert

OpenWebUI: Die beliebteste Oberfläche für lokale KI

Was ist OpenWebUI?

RAG in OpenWebUI einrichten

Schritt 1: Wissenskollektion erstellen

Schritt 2: Dokumente hochladen

Schritt 3: Im Chat nutzen

Die RAG-Einstellungen im Detail

Wo findest du die Einstellungen?

Blockgrösse und Überlappung

Das Embedding-Modell

Der Top-K Parameter

Weitere Optionen

RAG in der Praxis testen

Test 1: Relevante Fragen

Test 2: Irrelevante Fragen

Test 3: Wissen fest an Modell binden

Anwendungsfälle für RAG

Für Unternehmen

Für Solopreneure und Teams

Lokale Modelle vs. Cloud-Modelle in OpenWebUI

Lokale Modelle mit Ollama

Cloud-Modelle per API

Die Hybrid-Strategie

Best Practices für RAG

Dokumenten-Qualität ist entscheidend

Kollektionen sinnvoll organisieren

Antwortqualität optimieren

Fazit