Self-Hosting: Deine eigene KI-Infrastruktur

Einleitung

Die Abhängigkeit von amerikanischen und chinesischen Cloud-Anbietern ist für europäische Unternehmen zunehmend ein strategisches Risiko. Was passiert, wenn der Anbieter die Preise verdoppelt, den Dienst einstellt oder neue Nutzungsbedingungen diktiert? Self-Hosting löst dieses Problem grundsätzlich: Deine KI läuft auf deiner eigenen Hardware, unter deiner Kontrolle, DSGVO-konform.

In diesem Kurs lernst du, wie du eine komplette KI-Infrastruktur selbst aufbaust -- von der Hardware-Auswahl über die Softwarekomponenten bis zum sicheren Tagesbetrieb.

Warum Self-Hosting?

Datenschutz und DSGVO

In der EU gelten strenge Regeln für den Umgang mit personenbezogenen Daten. Wenn du Kundendaten, Mitarbeiterinformationen oder vertrauliche Geschäftsdokumente mit einer Cloud-KI verarbeitest, müssen diese Daten die EU nicht verlassen. Bei amerikanischen Anbietern ist das nicht garantiert.

Mit Self-Hosting bleibt alles in deinem Netzwerk. Keine Daten werden an externe Server gesendet. Die DSGVO-Konformität ist damit grundsätzlich gegeben.

Kostenersparnis bei hoher Nutzung

Cloud-KI-Dienste rechnen pro Token ab. Bei geringer Nutzung ist das günstig. Bei hoher Nutzung -- z.B. wenn ein ganzes Team täglich mit KI arbeitet oder Agenten rund um die Uhr laufen -- summieren sich die Kosten schnell auf tausende Euro pro Monat.

Ein eigener Server hat Anschaffungskosten, danach fallen nur noch Stromkosten an. Ab einem gewissen Nutzungsvolumen ist Self-Hosting deutlich günstiger.

Unabhängigkeit

Vier der fünf meistgenutzten KI-Modelle nach Tokenverbrauch sind mittlerweile Open-Weight-Modelle, die zusammen rund 45% des Marktes ausmachen -- bei einem Bruchteil der Kosten. Du bist nicht an einen Anbieter gebunden und kannst jederzeit das Modell wechseln.

Die Softwarekomponenten

Ollama: Modelle lokal ausführen

Ollama ist das Standardwerkzeug zum Ausführen von lokalen KI-Modellen. Ein einziger Befehl genügt, um ein Modell herunterzuladen und zu starten:

Installation über die Ollama-Website oder per Paketmanager
Modelle werden mit einem Befehl heruntergeladen
API läuft standardmässig auf dem lokalen Rechner
Unterstützt alle gängigen Open-Source-Modelle

Welche Modelle für welchen Zweck?

Für allgemeine Aufgaben (Text, Analyse, Zusammenfassung):

Llama 3.3 (Meta) -- vielseitig und bewährt
Qwen 2.5 (Alibaba) -- besonders stark in mehrsprachigen Aufgaben
Mistral Large (Frankreich) -- europäisches Modell, effizient

Für Programmierung:

Qwen Coder -- spezialisiert auf Code-Aufgaben
DeepSeek Coder -- beeindruckende Leistung trotz kompakter Grösse

Für Embedding (RAG):

All-MiniLM-L6-V2 -- Standard, funktioniert zuverlässig
nomic-embed-text -- gute Alternative für längere Texte

Kompakte Modelle für schwäche Hardware:

Llama 3.2 3B -- läuft auch auf älterer Hardware
Phi-3 Mini -- Microsofts kompaktes Modell

OpenWebUI: Die Benutzeroberfläche

Wie im vorherigen Kurs beschrieben, ist OpenWebUI die Standard-Oberfläche für lokale KI. Für das Self-Hosting einer Teamlösung bietet es zusätzlich:

Multi-User-Verwaltung -- Benutzerkonten mit unterschiedlichen Rollen und Rechten
Admin-Dashboard -- Übersicht über Nutzung, Modelle und Einstellungen
Modell-Zuweisung -- kontrolliere, wer welche Modelle nutzen darf
Wissens-Verwaltung -- RAG-Kollektionen für verschiedene Teams oder Abteilungen

Vektordatenbank für RAG

OpenWebUI bringt eine integrierte Vektordatenbank mit. Für grössere Installationen kannst du eine dedizierte Lösung wie ChromaDB oder Qdrant einsetzen:

Integrierte Lösung: Reicht für Teams bis ca. 50 Personen und moderate Dokumentmengen
Dedizierte Datenbank: Empfohlen ab grösseren Dokumentsammlungen oder wenn mehrere Anwendungen auf die gleiche Wissensbasis zugreifen sollen

Hardware-Optionen

Option 1: Desktop-PC oder Workstation

Für Einzelpersonen oder kleine Teams (2-5 Personen)

GPU: NVIDIA RTX 4070 oder besser (mindestens 12 GB VRAM)
RAM: 32 GB oder mehr
Storage: SSD mit mindestens 500 GB (Modelle brauchen Platz)
Kosten: 1.500-3.000 Euro

Damit laufen Modelle mit bis zu 13 Milliarden Parametern flüssig. Für grössere Modelle brauchst du mehr VRAM.

Option 2: Dedizierter Server

Für Teams (5-20 Personen)

GPU: NVIDIA RTX 4090 oder A-Serie (24+ GB VRAM)
RAM: 64 GB oder mehr
Storage: NVMe SSD, 1 TB+
Kosten: 3.000-8.000 Euro

Damit kannst du auch grössere Modelle mit 30-70 Milliarden Parametern betreiben, die qualitativ deutlich näher an Cloud-Modelle herankommen.

Option 3: Cloud-Server (Self-Managed)

Für Flexibilität ohne eigene Hardware

Anbieter: Hetzner (EU), OVH (EU), AWS, Google Cloud
GPU-Server: Ab ca. 100-500 Euro/Monat je nach GPU
Vorteil: Skalierbar, keine Hardware-Wartung
Nachteil: Laufende Kosten, Daten liegen bei einem Hosting-Anbieter (aber in der EU)

Empfehlung für EU-Compliance: Hetzner oder OVH als europäische Anbieter mit Rechenzentren in Deutschland bzw. Frankreich.

Option 4: Mac Mini / Mac Studio

Für Apple-Ökosysteme

Mac Mini M4 Pro: 24 GB Unified Memory, ca. 1.800 Euro
Mac Studio M4 Ultra: 128 GB Unified Memory, ab ca. 4.500 Euro
Vorteil: Leise, stromsparend, Apple Silicon ist effizient für KI
Nachteil: Weniger flexibel als NVIDIA-Lösungen

Apples Unified Memory Architektur erlaubt es, Modelle zu betreiben, die normalerweise mehr VRAM brauchen würden, da CPU und GPU sich den Speicher teilen.

Installation Schritt für Schritt

Grundinstallation

1. Betriebssystem:

Linux (Ubuntu 22.04 LTS empfohlen) für Server
macOS für Mac-basierte Setups
Windows funktioniert, aber Linux ist für Server-Betrieb besser geeignet

2. Docker installieren: OpenWebUI und viele Zusatzkomponenten laufen am einfachsten in Docker-Containern. Das vereinfacht Installation, Updates und Wartung.

3. Ollama installieren: Ein Befehl genügt. Ollama erkennt automatisch vorhandene GPUs und nutzt sie.

4. OpenWebUI starten: Per Docker-Befehl oder Docker Compose starten. OpenWebUI verbindet sich automatisch mit Ollama.

5. Erstes Modell herunterladen: Über die OpenWebUI-Oberfläche oder per Terminal-Befehl.

Sicherheitseinrichtung

Zugriffsschutz:

OpenWebUI nur im internen Netzwerk erreichbar machen
Für externen Zugriff: VPN oder Reverse Proxy mit SSL/TLS
Standard-Admin-Passwort sofort ändern

Netzwerk:

Firewall konfigurieren -- nur notwendige Ports öffnen
HTTPS für alle Verbindungen erzwingen
Regelmässige Updates für alle Softwarekomponenten

Datensicherung:

Regelmässige Backups der Konfiguration und der RAG-Datenbank
Modelle müssen nicht gesichert werden -- sie können jederzeit neu heruntergeladen werden

Der europäische Kontext

Digitale Souveränität

Die Abhängigkeit von amerikanischen und chinesischen KI-Anbietern ist ein zunehmendes Thema in der EU-Politik. Wenn die gesamte KI-Infrastruktur aus dem Ausland kommt, schafft das strategische Risiken:

Politische Risiken: Sanktionen, Exportbeschränkungen, Regulierungsänderungen
Wirtschaftliche Risiken: Preiserhöhungen, Lizenzänderungen, Vendor Lock-in
Compliance-Risiken: Datenschutzverletzungen, unklare Datenverarbeitung

Open Source aus China

China hat früh und strategisch auf Open Source gesetzt. Modelle wie Qwen von Alibaba und DeepSeek erreichen mittlerweile Top-Positionen in den Benchmarks. Das bedeutet: Einige der besten kostenlosen Modelle kommen aus China.

Für europäische Unternehmen ist das Fluch und Segen zugleich. Die Modelle sind leistungsstark und kostenlos, aber die Herkunft wirft Fragen auf. Da bei Self-Hosting die Modelle lokal laufen und keine Daten an den Hersteller senden, ist das Risiko in der Praxis gering -- die Gewichte sind öffentlich auditierbar.

Europäische Alternativen

Mistral (Frankreich): Das stärkste europäische KI-Unternehmen
Aleph Alpha (Deutschland): Auf Enterprise-Lösungen spezialisiert
AI21 Labs (EU-Fokus): Zunehmend mit europäischen Partnerschaften

n8n Self-Hosted: Automatisierung unter eigener Kontrolle

Warum n8n selbst hosten?

n8n ist nicht nur ein Cloud-Dienst -- es kann auch komplett auf eigenem Server betrieben werden. In Kombination mit lokaler KI ergibt sich eine vollständige Automatisierungsplattform ohne externe Abhängigkeiten.

Die Vorteile gegenüber der Cloud-Version

Keine Credit-Limits -- unbegrenzte Workflow-Ausführungen
Volle Datenkontrolle -- alle Daten bleiben auf deinem Server
API-Integration -- direkte Anbindung an deine lokalen KI-Modelle
Kostenersparnis -- keine monatlichen Gebühren für n8n selbst

Typisches Self-Hosted Setup

Ein typischer KI-Server für ein mittelständisches Unternehmen könnte so aussehen:

Ollama für lokale KI-Modelle
OpenWebUI als Chat-Oberfläche für Mitarbeiter
n8n für automatisierte Workflows
ChromaDB als zentrale Vektordatenbank
Alles hinter einem Reverse Proxy mit SSL-Zertifikat

Betrieb und Wartung

Monitoring

Überwache GPU-Auslastung und Temperatur
Prüfe regelmässig die Verfügbarkeit der Dienste
Behalte den Speicherplatz im Auge -- neue Modelle brauchen Platz

Updates

OpenWebUI und Ollama erhalten regelmässig Updates mit neuen Features
Neue Modellversionen erscheinen häufig -- prüfe monatlich, ob es bessere Alternativen gibt
Sicherheitsupdates für das Betriebssystem zeitnah einspielen

Skalierung

Mehr Nutzer: Leistungsfähigere GPU oder mehrere GPUs
Mehr Wissen: Dedizierte Vektordatenbank statt integrierter Lösung
Mehr Modelle: Grössere SSD, eventüll NAS-Anbindung

Fazit

Self-Hosting einer KI-Infrastruktur ist keine Raketenwissenschaft mehr -- die Tools sind reif genug für den produktiven Einsatz:

DSGVO-Konformität ist mit Self-Hosting grundsätzlich gelöst
Die Kosten amortisieren sich bei regelmässiger Nutzung schnell
Open-Source-Modelle sind konkurrenzfähig mit kommerziellen Angeboten
Ollama + OpenWebUI + n8n bilden eine vollständige, unabhängige KI-Plattform
Europäische Hosting-Anbieter wie Hetzner bieten günstige GPU-Server in der EU
Digitale Souveränität ist nicht nur ein politisches Schlagwort, sondern ein konkreter Wettbewerbsvorteil

Der beste Zeitpunkt zum Starten ist jetzt. Die Hardware wird günstiger, die Modelle werden besser, und die Tools werden einfacher. Wer heute anfängt, hat morgen einen Vorsprung.

Self-Hosting: Deine eigene KI-Infrastruktur

Visual Summary

Self-Hosting: Deine eigene KI-Infrastruktur

Einleitung

Warum Self-Hosting?

Datenschutz und DSGVO

Kostenersparnis bei hoher Nutzung

Unabhängigkeit

Die Softwarekomponenten

Ollama: Modelle lokal ausführen

Welche Modelle für welchen Zweck?

OpenWebUI: Die Benutzeroberfläche

Vektordatenbank für RAG

Hardware-Optionen

Option 1: Desktop-PC oder Workstation

Option 2: Dedizierter Server

Option 3: Cloud-Server (Self-Managed)

Option 4: Mac Mini / Mac Studio

Installation Schritt für Schritt

Grundinstallation

Sicherheitseinrichtung

Der europäische Kontext

Digitale Souveränität

Open Source aus China

Europäische Alternativen

n8n Self-Hosted: Automatisierung unter eigener Kontrolle

Warum n8n selbst hosten?

Die Vorteile gegenüber der Cloud-Version

Typisches Self-Hosted Setup

Betrieb und Wartung

Monitoring

Updates

Skalierung

Fazit