Einleitung, Überblick und Definitionen

Dieses Material entstand auf der Grundlage eines Vortrags¹ über Self-Hosting von LLMs, der auf dem Datenfestival des Civic Data Lab gehalten wurde. Es soll den Vortrag zugänglicher machen, umfassend über das Thema informieren und einen praxisorientierten Überblick geben.

Unter Self-Hosting wird der (auf unterschiedlichen Leveln) eigenständige Betrieb von Infrastruktur verstanden, auf der in diesem Fall LLMs und mit diesen zusammenhängende Software läuft.

Warum Self-Hosting?

Die Nutzung proprietärer LLM-Dienste ist mit Abhängigkeiten, Intransparenz und mangelnder Kontrolle verbunden. Bei kommerziellen Anbietern bleibt unklar, wie Daten tatsächlich verarbeitet werden, wie die Modelle trainiert wurden und welche Eigenschaften sie besitzen. Auch die Funktionsweise eingebundener Tools wie Websuche sowie der tatsächliche Ressourcenverbrauch sind nicht nachvollziehbar. Self-Hosting adressiert diese Problematik und trägt zur digitalen Souveränität bei: Organisationen und Privatpersonen erlangen, je nach Art des Selfhostings, mehr Transparenz und Kontrolle über den LLM-Betrieb – von der Datenverarbeitung über die Modellauswahl bis hin zum Energie- und Ressourcenverbrauch.

Aufbau der Dokumentation

Im Verlauf dieses Materials wird aufeinander aufbauend in eine Reihe von Aspekten des Self-Hostings von LLMs eingeführt:

Im 1. Kapitel werden LLMs an sich behandelt. Was ist ein LLM genau? Das Kapitel erklärt außerdem den Unterschied zwischen Open-Weight- und Open-Source-Modellen, gibt einen Überblick über Lizenzmodelle und deren Implikationen, erläutert Quantisierung als zentrale Optimierungstechnik, stellt Hugging Face als primäre Bezugsquelle vor und beschreibt gängige Metriken und Benchmarks zur Modellbewertung.
Im 2. Kapitel werden die Fragen beantwortet: Was wird selbst gehostet, wie werden LLMs betrieben und welche Komponenten werden außer dem LLM benötigt? Hier werden konkrete Software-Komponenten für die verschiedenen Teile eines LLM-Systems vorgestellt. Von Inference-Servern über Chat-Interfaces bis zu API-Gateways und Vektor-Datenbanken. Als praktisches Beispiel wird Parrotpark vorgestellt, ein vollständiges self-gehostetes LLM-System, das die Integration verschiedener Open-Source-Komponenten demonstriert.
Das 3. Kapitel beantwortet die Frage: Worauf wird selbst gehostet? Das Kapitel enthält einen Vergleich zwischen den verschiedenen Infrastrukturoptionen. Außerdem behandelt das Kapitel Hardware-Anforderungen (CPU vs. GPU, VRAM-Größen, GPU-Generationen) sowie Aspekte wie Ressourcenverbrauch.
In Kapitel 4 werden Alternativen zum vollständigen Self-Hosting vorgestellt, die je nach Anforderung Sinn ergeben können.

Die Slides des Vortrags lassen sich hier finden, begleitender Code hier. ↩

Keyboard shortcuts

LLM-Hosting

Einleitung, Überblick und Definitionen

Warum Self-Hosting?

Aufbau der Dokumentation