Lokale KI
← Zurück zur Übersicht
Practitioner Lokale KI 15 Min

Lokale KI mit OpenWebUI und RAG

Richte deinen eigenen KI-Chatbot ein, der auf deinem Wissen basiert -- mit OpenWebUI, Ollama und Retrieval Augmented Generation

Visual Summary

Klicken zum Vergrößern

Lokale KI mit OpenWebUI und RAG - Sketchnote

Lokale KI mit OpenWebUI und RAG

Einleitung

Stell dir vor, du hast einen Chatbot, der deine internen Firmenrichtlinien kennt, deine Produktkataloge durchsuchen kann und auf Basis deiner eigenen Dokumente antwortet -- ohne dass ein einziges Wort an externe Server gesendet wird. Genau das ist möglich mit OpenWebUI und RAG.

In diesem Kurs lernst du, wie du deinen eigenen KI-Chatbot mit eigenem Wissen einrichtest. Schritt für Schritt, ohne Programmierkenntnisse, mit maximaler Datenkontrolle.

Was ist RAG?

Retrieval Augmented Generation erklärt

RAG steht für Retrieval Augmented Generation. Vereinfacht gesagt bedeutet es: Du gibst einem KI-Modell eigenes Wissen mit, und die KI antwortet auf Basis dieses Wissens statt zu raten.

Warum ist das wichtig? Normale KI-Modelle wie ChatGPT oder Claude kennen nur die Informationen, mit denen sie trainiert wurden. Deine internen Dokumente, Firmenrichtlinien, Produktspezifikationen oder branchenspezifisches Fachwissen sind ihnen unbekannt. Mit RAG machst du genau dieses Wissen verfügbar.

Wie RAG technisch funktioniert

Hinter den Kulissen passiert Folgendes:

  1. Chunking: Deine Dokumente werden in kleinere Abschnitte (Chunks) unterteilt
  2. Embedding: Jeder Chunk wird in einen mathematischen Vektor umgewandelt, der seinen Inhalt repräsentiert
  3. Vektordatenbank: Diese Vektoren werden in einer speziellen Datenbank gespeichert
  4. Retrieval: Wenn eine Frage gestellt wird, sucht das System die relevantesten Chunks
  5. Generation: Das KI-Modell generiert eine Antwort basierend auf den gefundenen Chunks

Normalerweise ist das Einrichten von RAG technisch anspruchsvoll. Du müsstest Skripte schreiben, eine Vektordatenbank konfigurieren und die einzelnen Schritte manüll orchestrieren. OpenWebUI nimmt dir all diese Arbeit ab.

OpenWebUI: Die beliebteste Oberfläche für lokale KI

Was ist OpenWebUI?

OpenWebUI ist das wahrscheinlich beliebteste Open-Source-Tool für das Verwenden von KI-Modellen. Es bietet eine schöne, ChatGPT-ähnliche Oberfläche und funktioniert sowohl mit lokalen Modellen als auch mit Cloud-Modellen aller Anbieter.

Die grössten Vorteile:

  • Kostenlos und Open Source -- keine Abos, keine versteckten Kosten
  • Modell-agnostisch -- nutze lokale Modelle über Ollama oder Cloud-Modelle per API Key
  • Eingebautes RAG -- Wissensmanagement per Klick, ohne Programmierung
  • Multi-User -- mehrere Personen können gleichzeitig arbeiten
  • Admin-Steuerung -- kontrolliere, wer welche Modelle und Wissensbasen nutzen darf

RAG in OpenWebUI einrichten

Schritt 1: Wissenskollektion erstellen

In der linken Seitenleiste von OpenWebUI findest du unter "Arbeitsbereich" den Tab "Wissen". Hier erstellst du deine erste Kollektion:

  1. Klicke auf das Plus-Symbol rechts
  2. Vergib einen Titel (z.B. "Onboarding Dokumente")
  3. Schreibe eine kurze Beschreibung
  4. Wähle die Sichtbarkeit: privat oder öffentlich
  5. Klicke auf "Wissen erstellen"

Schritt 2: Dokumente hochladen

Jetzt füllst du die Kollektion mit Inhalten:

  1. Klicke auf das Plus in deiner Kollektion
  2. Wähle "Dateien hochladen", "Uploadverzeichnis" oder "Textinhalt hinzufügen"
  3. Lade deine Dateien hoch -- PDFs, Textdateien, alles was relevant ist

OpenWebUI übernimmt ab hier die gesamte technische Arbeit: Chunking, Embedding und Speicherung in der Vektordatenbank -- automatisch, im Hintergrund.

Schritt 3: Im Chat nutzen

Um dein Wissen im Chat zu verwenden, gibt es zwei Wege:

Weg 1: Manüll pro Chat Tippe im Prompt-Feld eine Raute (#) und wähle deine Kollektion aus. Du kannst sogar einzelne Dateien referenzieren, wenn du nur bestimmtes Wissen verwenden willst.

Weg 2: Fest in ein Modell einbinden Unter Admin > Einstellungen > Modelle kannst du eine Wissensdatenbank direkt an ein Modell anbinden. Danach hat dieses Modell automatisch Zugriff auf dein Wissen, ohne dass Nutzer es manüll referenzieren müssen.

Die RAG-Einstellungen im Detail

Wo findest du die Einstellungen?

Unter Admin > Einstellungen > Dokumente findest du alle RAG-Parameter:

Blockgrösse und Überlappung

  • Blockgrösse (Chunk Size): Standard 1.000 Zeichen. Bestimmt, wie gross die einzelnen Textabschnitte sind.
  • Blocküberlappung (Chunk Overlap): Standard 1.000 Zeichen. Stellt sicher, dass Kontext an den Grenzen nicht verloren geht.

Empfehlung: Lass die Standardwerte zunächst unberührt. Nur wenn die Antwortqualität nicht stimmt, lohnt es sich hier anzupassen.

Das Embedding-Modell

Das Embedding-Modell wandelt Text in Vektoren um. OpenWebUI nutzt standardmässig das "All-MiniLM-L6-V2"-Modell, das erfahrungsgemäss sehr gut funktioniert.

Auf Hugging Face findest du über 5.000 alternative Embedding-Modelle. Für den Einstieg ist das Standardmodell aber mehr als ausreichend.

Der Top-K Parameter

Der Top-K Parameter (Standard: 3) bestimmt, wie viele der relevantesten Chunks für eine Antwort herangezogen werden. Bei gezielten Fragen reichen 3 Chunks in der Regel aus. Bei breiteren Themen kannst du auf 5 oder mehr erhöhen.

Weitere Optionen

  • Vollkontextmodus: Nutzt den gesamten Dokumentinhalt statt einzelner Chunks
  • Hybride Suche: Kombiniert Vektorsuche mit klassischer Textsuche für bessere Ergebnisse
  • Upload-Einschränkungen: Dateitypen und -grössen begrenzen

RAG in der Praxis testen

Test 1: Relevante Fragen

DigitaleProfis demonstriert die Funktion mit Onboarding-Dokumenten. Auf die Frage "Was sind die wichtigsten Punkte aus der IT-Nutzungsrichtlinie?" liefert das Modell:

  • Präzise Antworten aus den hochgeladenen Dokumenten
  • Quellenangaben mit Seitennummer und Relevanz-Score (z.B. 73,79%)
  • Die exakten Textstellen, die zur Antwort geführt haben

Test 2: Irrelevante Fragen

Auf die Frage "Was ist das beste E-Bike für leichte Trekkingtouren?" -- die nichts mit den Onboarding-Dokumenten zu tun hat -- reagiert das Modell korrekt:

"Die bereitgestellten Kontextinformationen enthalten keine Antwort auf Ihre Frage, da sie sich ausschliesslich auf interne Onboarding-Dokumente beziehen."

Optional liefert das Modell danach noch allgemeine Informationen aus seinem Training -- aber der entscheidende Hinweis, dass die RAG-Daten keine Antwort enthalten, kommt zuverlässig.

Test 3: Wissen fest an Modell binden

Nachdem du eine Kollektion fest an ein Modell gebunden hast, erkennt das Modell automatisch, wann auf das interne Wissen zugegriffen werden soll. Die Frage "Bitte fasse den Verhaltenskodex unseres Unternehmens zusammen" wird korrekt aus den hinterlegten Dokumenten beantwortet -- mit Quellenangaben und spezifischen Textstellen.

Anwendungsfälle für RAG

Für Unternehmen

  • IT-Helpdesk: Mitarbeiter fragen den Chatbot statt die IT-Abteilung
  • Onboarding: Neue Mitarbeiter können alle Fragen zum Unternehmen stellen
  • Produktwissen: Vertriebsteams bekommen sofortige Antworten zu Produkten
  • Qualitätsmanagement: Richtlinien und Standards sind jederzeit abrufbar
  • Rechtliche Fragen: FAQ zu internen Regelungen und Compliance

Für Solopreneure und Teams

  • Kundenwissen: Alle Kundeninformationen in einer durchsuchbaren Wissensbasis
  • Projektdokumentation: Schnell Antworten zu laufenden Projekten finden
  • Content-Planung: Bestehenden Content analysieren und darauf aufbauen
  • Fachwissen: Branchenspezifische Informationen dem KI-Modell zugänglich machen

Lokale Modelle vs. Cloud-Modelle in OpenWebUI

Lokale Modelle mit Ollama

OpenWebUI arbeitet nahtlos mit Ollama zusammen. Damit kannst du Modelle wie Llama, Qwen oder Mistral direkt auf deinem eigenen Rechner ausführen. Alle Daten bleiben lokal -- maximaler Datenschutz.

Voraussetzung: Eine halbwegs aktülle Grafikkarte (GPU) für akzeptable Geschwindigkeit. Ohne GPU laufen die Modelle nur auf der CPU und sind deutlich langsamer.

Cloud-Modelle per API

Du kannst in OpenWebUI auch Cloud-Modelle wie Gemini, GPT oder Claude per API Key einbinden. Damit hast du die neuesten und leistungsfähigsten Modelle, sendest aber Daten an externe Server.

Die Hybrid-Strategie

In der Praxis nutzen viele Teams beide Ansätze:

  • Lokale Modelle für alles mit sensiblen Daten (HR, Finanzen, Kundendaten)
  • Cloud-Modelle für allgemeine Aufgaben, wo Höchstleistung gefragt ist

OpenWebUI macht diesen Mix besonders einfach, weil alle Modelle in der gleichen Oberfläche verfügbar sind.

Best Practices für RAG

Dokumenten-Qualität ist entscheidend

  • Strukturierte Dokumente liefern bessere Ergebnisse als unformatierte Textblöcke
  • Klare Überschriften helfen dem System, Themen zu trennen
  • Aktülle Inhalte -- entferne veraltete Dokumente regelmässig
  • Keine Duplikate -- gleiche Informationen in mehreren Dokumenten verwirren das System

Kollektionen sinnvoll organisieren

  • Erstelle thematische Kollektionen statt einer grossen Sammlung
  • z.B. "IT-Richtlinien", "Produktkatalog", "HR-Dokumente" als separate Kollektionen
  • So kannst du im Chat gezielt nur das relevante Wissen referenzieren

Antwortqualität optimieren

  • Starte mit den Standardeinstellungen und optimiere nur bei Bedarf
  • Erhöhe Top-K, wenn Antworten unvollständig sind
  • Probiere die hybride Suche, wenn reine Vektorsuche zu ungenaue Ergebnisse liefert
  • Teste mit verschiedenen Frageformulierungen

Fazit

Lokale KI mit OpenWebUI und RAG macht erstmals Wissensmanagement per KI für jeden zugänglich:

  1. OpenWebUI ist der Standard für lokale KI-Oberflächen -- kostenlos und leistungsstark
  2. RAG per Klick -- keine Programmierung, keine technische Konfiguration nötig
  3. Volle Datenkontrolle -- deine Dokumente verlassen nie deinen Rechner
  4. Quellenangaben inklusive -- jede Antwort zeigt, woher die Information stammt
  5. Flexible Nutzung -- einzeln im Chat referenzieren oder fest an Modelle binden
  6. Hybrid-Fähig -- lokale und Cloud-Modelle in einer Oberfläche

Im nächsten Kurs gehen wir einen Schritt weiter und zeigen dir, wie du eine komplette KI-Infrastruktur selbst hostest -- von der Hardware-Auswahl über die Server-Einrichtung bis zum sicheren Betrieb.

Lokale KISelf-HostingDatenschutz
← Weitere Kurse entdecken