Déploiement de modèle local

Exécutez l'inférence sur votre machine ( Ollama, LM Studio, vLLM, … ) et pointez l'agent Mystilink vers le point de terminaison local compatible OpenAI.

Local server (Ollama / LM Studio / …)
    → OpenAI-compatible HTTP API
Mystilink Agent (openai-compatible Provider)

Ollama (recommandé)

ollama pull qwen2.5:7b


URL de base	`http://127.0.0.1:11434/v1`
ID du modèle	par ex. `qwen2.5:7b` (à partir de `ollama list`)
Clé API	espace réservé, par ex. `ollama`

Créez un fournisseur personnalisé avec la famille d'API openai-compatible, puis ajoutez un modèle et testez la connexion.

Alternative : modèle OpenAI + remplacement de l'URL de base par http://127.0.0.1:11434/v1.

##LM Studio

Chargez un modèle → démarrez Local Server (port par défaut souvent 1234).
URL de base : http://127.0.0.1:1234/v1
Fournisseur personnalisé → tester → enregistrer.

vLLM / lama.cpp / text-génération-webui

Outil	URL de base typique
vLLM	`http://127.0.0.1:8000/v1`
serveur lama.cpp	`http://127.0.0.1:8080/v1`
génération de texte-webui	`http://127.0.0.1:5000/v1` (activer l'extension API OpenAI)

Boîtier GPU distant

Utilisez LAN IP, par ex. http://192.168.1.100:11434/v1. N'exposez pas de serveurs non authentifiés à l'Internet public.

Conseils

Activez le repli automatique vers un cloud official model pour les tâches difficiles.
L'appel d'outil nécessite un modèle/backend qui prend en charge l'appel de fonction.
Le premier chargement peut être lent ; les quantifications plus petites nécessitent moins de RAM.

Ollama (recommandé)​

vLLM / lama.cpp / text-génération-webui​

Boîtier GPU distant​

Conseils​

Voir aussi​

Ollama (recommandé)

vLLM / lama.cpp / text-génération-webui

Boîtier GPU distant

Conseils

Voir aussi