Meilleur VPS pour AnythingLLM (2026) : Espaces de travail qui ne meurent pas

AnythingLLM occupe une position intermédiaire utile : plus qu’une simple interface de chat, moins qu’une configuration LangChain complète. Le concept d’espace de travail et l’ingestion de documents intégrée en font une solution par défaut raisonnable pour les équipes souhaitant un ChatGPT privé avec leur propre base de connaissances. Les recommandations d’hébergement en ligne sont très variables parce que la plupart des évaluateurs le testent avec des espaces de travail vides.

J’ai utilisé AnythingLLM en production pour un projet client avec 30 espaces de travail et un corpus de 200 000 documents. Voici ce que la charge réelle exige.

Ce que coûte vraiment AnythingLLM en RAM

L’application est basée sur Node.js et utilise le stockage vectoriel LanceDB intégré. La mémoire en veille est d’environ 400 MB.

Le facteur principal de consommation de RAM est l’activité des espaces de travail :

Espace de travail inactif : 50 MB en mémoire
Espace de travail actif avec un petit ensemble de documents (moins de 100 docs) : 200 à 400 MB
Espace de travail actif avec un grand corpus (plus de 10K docs dans LanceDB) : 1 à 3 GB
Jobs d’ingestion simultanés : 500 MB à 2 GB selon la taille des documents

La taille sur disque surprend aussi. L’index LanceDB peut atteindre entre 2 et 5 GB pour 100 000 documents, selon la dimension d’embedding et la longueur des documents.

Comparatif VPS pour AnythingLLM

Fournisseur	Plan	vCPU	RAM	Disque	Mensuel	Idéal pour
Hetzner Cloud	CCX13	2	8 GB	80 GB NVMe	14,86 EUR	Petite équipe, corpus modeste
Contabo VPS	VPS M	6	16 GB	200 GB NVMe	8,49 EUR	Production à budget avec grand corpus
DigitalOcean	Premium AMD 8 GB	4	8 GB	160 GB NVMe	56 USD	Équipe US, simplicité opérationnelle
Hetzner CCX23	CCX23	4	16 GB	160 GB NVMe	29,74 EUR	AnythingLLM + Ollama hébergés ensemble

Hetzner Cloud CCX13 : pour petites équipes

Pour une équipe de 5 à 10 utilisateurs avec moins de 50 000 documents, le CCX13 suffit. 8 GB de RAM supportent confortablement l’application, l’index LanceDB et l’activité de requêtes simultanées. Un CPU dédié est important car l’ingestion de documents est gourmande en CPU, et les plans CPU partagés montrent des lenteurs lors de cette étape.

Avantages :

CPU dédié pour une ingestion de documents prévisible
NVMe qui supporte bien les écritures d’index LanceDB
8 GB de RAM suffisent pour quelques espaces actifs sans souci

Inconvénients :

insuffisant pour des corpus volumineux, il faudra passer à un plan supérieur lors de plus de 50K documents.

Procurez-vous Hetzner : Hetzner Cloud.

Contabo VPS M : pour production avec beaucoup de documents

Si votre équipe gère de grands corpus (100K+ docs), le VPS M de Contabo avec ses 16 GB est l’option la plus économique. 8,49 EUR par mois pour cette configuration, imbattable.

Le CPU partagé peut se traduire par des lenteurs occasionnelles durant l’ingestion quand plusieurs utilisateurs uploadent en même temps. Pour des importations en batch (nuit), c’est correct. Pour un upload en temps réel par plusieurs utilisateurs, la variance peut devenir gênante.

Avantages :

Meilleur rapport coût/puissance pour AnythingLLM
200 GB NVMe pour plusieurs années de croissance d’index vectoriel
16 GB de RAM pour plusieurs espaces actifs avec grands corpus

Procurez-vous Contabo : Contabo VPS.

DigitalOcean Premium AMD 8 GB : pour opérations US

56 USD par mois, c’est élevé, mais la plateforme est agréable à utiliser quand votre équipe dépend quotidiennement d’AnythingLLM. La gestion PostgreSQL pour métadonnées supprime une opération. La restauration via snapshot après une importation de documents problématique est vraiment utile.

Honnêtement : 8 GB de RAM est la base ici, et il faut peut-être 16 GB pour un usage sérieux des espaces, ce qui double le coût. À ce moment-là, comparez avec un Hetzner CCX23 auto-hébergé.

Procurez-vous DigitalOcean : DigitalOcean.

Hetzner CCX23 : pour AnythingLLM + Ollama

Le bon niveau pour héberger AnythingLLM avec embeddings locaux et inférence locale sur une seule machine. 16 GB de RAM permettent d’accueillir le modèle d’embedding (1 à 2 GB), le modèle d’inférence (8 GB), AnythingLLM avec son stockage vectoriel (4 à 6 GB), avec une marge raisonnable.

Choisissez cette option pour des déploiements sensibles à la confidentialité, où tout doit rester sur une seule machine. Moins cher que de faire fonctionner plusieurs machines pour la même configuration.

Ce que je choisirais

Pour une petite équipe utilisant AnythingLLM comme un ChatGPT privé avec peu de documents : Hetzner CCX13. Pour une production volumineuse avec budget limité : Contabo VPS M. Pour une solution entièrement auto-hébergée avec des modèles locaux : Hetzner CCX23. AnythingLLM est suffisamment stable pour que ces recommandations d’hébergement tiennent jusqu’en 2026.

Le panorama complet des VPS est disponible sur la comparaison SelfHostVPS. AnythingLLM s’associe naturellement avec Ollama, consultez ce guide pour les choix de backend.

Frequently asked questions

Combien de RAM AnythingLLM nécessite-t-il réellement ?

Le processus Node.js tourne en veille à environ 400 MB. Chaque espace de travail actif avec des documents ajoute de 200 MB à 1 GB selon le volume de documents et le choix du stockage vectoriel. Pour une petite équipe avec 5 à 10 espaces de travail et des corpus modestes, 4 GB de RAM suffisent. Pour des configurations plus grandes (50+ espaces de travail, 100 000+ documents), prévoyez entre 8 et 16 GB.

AnythingLLM a-t-il besoin de sa propre base de données vectorielle ?

Il est livré par défaut avec LanceDB (intégré), qui fonctionne bien pour un usage personnel et des petites équipes. Les déploiements en production remplacent souvent par Qdrant ou Weaviate pour de meilleures performances en requêtes concurrentes. LanceDB intégré a du mal passé 500 000 documents ou plus de 20 utilisateurs simultanés. Préparez une migration si votre échelle dépasse cela.

AnythingLLM peut-il partager un VPS avec Ollama pour un RAG entièrement auto-hébergé ?

Oui, c'est un pattern courant. Prévoyez au minimum 16 GB de RAM : Ollama avec un modèle optimisé embedding de 7B (nomic-embed-text ou similaire) consomme 1 à 2 GB, le modèle d'inférence ajoute 8 GB, AnythingLLM et son stockage vectoriel consomment entre 4 et 6 GB. Le Hetzner CCX23 convient parfaitement à cette configuration.

Comment AnythingLLM se compare-t-il à Open WebUI pour l'hébergement ?

AnythingLLM est plus lourd car il intègre l'ingestion de documents, le stockage vectoriel et la gestion des espaces de travail. Open WebUI est juste une interface chat proxy vers un backend d'inférence. Pour le chat pur, Open WebUI coûte moins cher à héberger. Pour le RAG documentaire, AnythingLLM évite d'assembler des composants. La différence d'hébergement est environ 2x en faveur d'Open WebUI pour le chat seul.