AnythingLLM trifft einen nützlichen Mittelweg: mehr als eine Chat-Benutzeroberfläche, aber weniger als eine komplette LangChain-Installation. Das Arbeitsbereich-Konzept und die integrierte Dokumentenaufnahme machen es zu einer sinnvollen Standardlösung für Teams, die ein privates ChatGPT mit eigener Wissensbasis suchen. Die Hosting-Empfehlungen online sind äußerst inkonsistent, weil die meisten Tester es mit leeren Arbeitsbereichen ausprobieren.
Ich habe AnythingLLM in der Produktion für ein Kundenprojekt mit 30 Arbeitsbereichen und einem Korpus von 200K Dokumenten eingesetzt. Hier ist, was der tatsächliche Workload erfordert.
Was AnythingLLM Wirklich An RAM Kostet
Die Anwendung basiert auf einem Node.js-Stack plus dem eingebetteten LanceDB Vektor-Store. Im Leerlauf liegt der Speicherverbrauch bei etwa 400 MB.
Der RAM-Verbrauch hängt von der Aktivität der Arbeitsbereiche ab:
- Inaktiver Arbeitsbereich: 50 MB resident
- Aktiver Arbeitsbereich mit kleinem Dokumentensatz (unter 100 Dokumente): 200 bis 400 MB
- Aktiver Arbeitsbereich mit großem Korpus (10K+ Dokumente in LanceDB): 1 bis 3 GB
- Gleichzeitige Ingestion-Jobs: 500 MB bis 2 GB, abhängig von der Dokumentengröße
Die Festplattennutzung überrascht ebenfalls. Der LanceDB-Index kann bei 100K Dokumenten 2 bis 5 GB erreichen, abhängig von Embedding-Dimension und Dokumentenlänge.
VPS-Vergleich für AnythingLLM
| Anbieter | Plan | vCPU | RAM | Festplatte | Monatlich | Optimale Nutzung |
|---|---|---|---|---|---|---|
| Hetzner Cloud | CCX13 | 2 | 8 GB | 80 GB NVMe | 14.86 EUR | Kleines Team, moderater Korpus |
| Contabo VPS | VPS M | 6 | 16 GB | 200 GB NVMe | 8.49 EUR | Budget-Produktiv, großer Korpus |
| DigitalOcean | Premium AMD 8 GB | 4 | 8 GB | 160 GB NVMe | 56 USD | US-Team, einfache Bedienung |
| Hetzner CCX23 | CCX23 | 4 | 16 GB | 160 GB NVMe | 29.74 EUR | AnythingLLM + Ollama gemeinsam hosten |
Hetzner Cloud CCX13: Für kleine Teams
Für ein Team mit 5 bis 10 Nutzern und weniger als 50K Dokumenten pro Arbeitsbereich reicht der CCX13 aus. 8 GB RAM halten die App, den LanceDB-Index und die gleichzeitige Abfrageaktivität problemlos am Laufen. Dedizierte CPU ist wichtig, weil Dokumentenaufnahme CPU-lastig ist, geteilte CPUs zeigen dann Verzögerungen bei der Aufnahme.
Vorteile:
- Dedizierte CPU sorgt für vorhersehbare Dokumentenaufnahme
- NVMe verarbeitet LanceDB-Indexschreibvorgänge gut
- 8 GB RAM reichen für ein paar aktive Arbeitsbereiche ohne Probleme
Nachteil: Nicht geeignet für große Dokumentenmengen, bei über 50K Dokumenten muss aufgestockt werden.
Hol dir Hetzner: Hetzner Cloud.
Contabo VPS M: Für dokumentenintensive Produktion
Wenn dein Team mit großen Dokumentenkorpora (100K+ Dokumente über mehrere Arbeitsbereiche) arbeitet, ist der Contabo VPS M mit 16 GB RAM die günstigste Lösung. 8.49 EUR im Monat für diese Konfiguration sind unschlagbar.
Der geteilte CPU führt hin und wieder zu Verzögerungen bei der Aufnahme, wenn mehrere Nutzer gleichzeitig hochladen. Für Batch-Importe (über Nacht) ist das OK. Für echtes Multi-User-Dokumenten-Upload kann die Variabilität störend werden.
Vorteile:
- Bestes Preis-Leistungs-Verhältnis pro Euro für AnythingLLM
- 200 GB NVMe halten jahrelanges Wachstum des Vektorindexes aus
- 16 GB RAM passen zu mehreren aktiven Arbeitsbereichen mit großen Korpora
Hol dir Contabo: Contabo VPS.
DigitalOcean Premium AMD 8 GB: Für US-Team-Operationen
56 USD im Monat sind hochpreisig, aber das Plattform-Design ist wichtig, wenn dein Team AnythingLLM täglich nutzt. Managed Postgres für die Anwendungsmetadaten nimmt eine Sorge ab. Snapshots für Rollbacks nach fehlerhaften Importen sind wirklich nützlich.
Ehrliche Einschätzung: 8 GB RAM sind das Minimum, manchmal braucht es 16 GB für größere Arbeitsbereiche, was die Kosten verdoppelt. In diesem Fall ist ein selbst gehosteter Hetzner CCX23 vergleichbar.
Hol dir DigitalOcean: DigitalOcean.
Hetzner CCX23: Für AnythingLLM + Ollama
Das passende Setup, wenn du AnythingLLM plus lokale Embeddings und Inference auf einer Maschine kombinieren möchtest. 16 GB RAM passen für das Embedding-Modell (1-2 GB), das Inferenzmodell (8 GB), AnythingLLM samt Vektor-Store (4-6 GB) - alles mit genügend Puffer.
Dafür entscheiden, wenn Datenschutz im Vordergrund steht und alles auf einer Maschine laufen soll. Günstiger als mehrere Server für dasselbe Setup.
Meine Empfehlung
Für ein kleines Team, das AnythingLLM als privaten ChatGPT mit leichtem Dokumenteneinsatz nutzt: Hetzner CCX13. Für dokumentenintensive Produktion bei Budget-Beschränkungen: Contabo VPS M. Für voll self-hosted mit lokalen Modellen: Hetzner CCX23. AnythingLLM ist stabil genug, um diese Empfehlungen bis 2026 zu tragen.
Das vollständige VPS-Portfolio findet sich im SelfHostVPS Vergleich. AnythingLLM lässt sich gut mit Ollama kombinieren; siehe diese Anleitung für Backend-Optionen. --- Ende ---
Frequently asked questions
Wie viel RAM benötigt AnythingLLM wirklich?
Der Node.js-Prozess ist im Leerlauf bei etwa 400 MB. Jedes aktive Arbeitsumfeld mit Dokumenten fügt je nach Dokumentenmenge und Vektorstore-Wahl zwischen 200 MB und 1 GB hinzu. Für ein kleines Team mit 5 bis 10 Arbeitsbereichen und moderaten Dokumentenkorpora sind 4 GB RAM ausreichend. Für größere Setups (50+ Arbeitsbereiche, 100K+ Dokumente) sollte man mit 8 bis 16 GB planen.
Benötigt AnythingLLM eine eigene Vektordatenbank?
Standardmäßig wird es mit LanceDB (eingebettet) geliefert, was für den persönlichen Gebrauch und kleine Teams gut funktioniert. Für Produktionsbereitstellungen wird oft auf Qdrant oder Weaviate umgestellt, um eine bessere gleichzeitige Abfrageleistung zu erzielen. Das eingebettete LanceDB stößt bei 500K Dokumenten oder 20+ gleichzeitigen Nutzern an Grenzen. Bei Wachstum sollte auf eine Migration geplant werden.
Kann AnythingLLM einen VPS mit Ollama für voll self-hosted RAG teilen?
Ja, das ist ein gängiges Muster. Für mindestens 16 GB RAM planen: Ollama mit einem 7B embedding-optimierten Modell (nomic-embed-text oder ähnlich) benötigt 1 bis 2 GB, das Inferenzmodell fügt 8 GB hinzu, AnythingLLM plus seinen Vektorstore benötigt 4 bis 6 GB. Der Hetzner CCX23 passt dafür bequem.
Wie vergleicht sich AnythingLLM mit Open WebUI bei Hosting?
AnythingLLM ist schwerer, weil es Dokumentenaufnahme, Vektorspeicherung und Arbeitsbereichverwaltung integriert. Open WebUI ist nur eine Chat-Benutzeroberfläche, die an ein Inferenz-Backend vermittelt. Für reinen Chat-Betrieb ist Open WebUI günstiger beim Hosting. Für documentbasierte Q&A (RAG) beseitigt AnythingLLM die Notwenigkeit, separate Komponenten zu verbinden. Die Hosting-Kosten sind für reine Chat-Setups meist doppelt so hoch bei Open WebUI im Vergleich.