Aller au contenu principal

Déploiement de modèle local

Exécutez l'inférence sur votre machine ( Ollama, LM Studio, vLLM, … ) et pointez l'agent Mystilink vers le point de terminaison local compatible OpenAI.

Local server (Ollama / LM Studio / …)
→ OpenAI-compatible HTTP API
Mystilink Agent (openai-compatible Provider)

Ollama (recommandé)

ollama pull qwen2.5:7b
URL de basehttp://127.0.0.1:11434/v1
ID du modèlepar ex. qwen2.5:7b (à partir de ollama list)
Clé APIespace réservé, par ex. ollama

Créez un fournisseur personnalisé avec la famille d'API openai-compatible, puis ajoutez un modèle et testez la connexion.

Alternative : modèle OpenAI + remplacement de l'URL de base par http://127.0.0.1:11434/v1.

##LM Studio

  1. Chargez un modèle → démarrez Local Server (port par défaut souvent 1234).
  2. URL de base : http://127.0.0.1:1234/v1
  3. Fournisseur personnalisé → tester → enregistrer.

vLLM / lama.cpp / text-génération-webui

OutilURL de base typique
vLLMhttp://127.0.0.1:8000/v1
serveur lama.cpphttp://127.0.0.1:8080/v1
génération de texte-webuihttp://127.0.0.1:5000/v1 (activer l'extension API OpenAI)

Boîtier GPU distant

Utilisez LAN IP, par ex. http://192.168.1.100:11434/v1. N'exposez pas de serveurs non authentifiés à l'Internet public.

Conseils

  • Activez le repli automatique vers un cloud official model pour les tâches difficiles.
  • L'appel d'outil nécessite un modèle/backend qui prend en charge l'appel de fonction.
  • Le premier chargement peut être lent ; les quantifications plus petites nécessitent moins de RAM.

Voir aussi