Déploiement de modèle local
Exécutez l'inférence sur votre machine ( Ollama, LM Studio, vLLM, … ) et pointez l'agent Mystilink vers le point de terminaison local compatible OpenAI.
Local server (Ollama / LM Studio / …)
→ OpenAI-compatible HTTP API
Mystilink Agent (openai-compatible Provider)
Ollama (recommandé)
ollama pull qwen2.5:7b
| URL de base | http://127.0.0.1:11434/v1 |
| ID du modèle | par ex. qwen2.5:7b (à partir de ollama list) |
| Clé API | espace réservé, par ex. ollama |
Créez un fournisseur personnalisé avec la famille d'API openai-compatible, puis ajoutez un modèle et testez la connexion.
Alternative : modèle OpenAI + remplacement de l'URL de base par http://127.0.0.1:11434/v1.
##LM Studio
- Chargez un modèle → démarrez Local Server (port par défaut souvent 1234).
- URL de base :
http://127.0.0.1:1234/v1 - Fournisseur personnalisé → tester → enregistrer.
vLLM / lama.cpp / text-génération-webui
| Outil | URL de base typique |
|---|---|
| vLLM | http://127.0.0.1:8000/v1 |
| serveur lama.cpp | http://127.0.0.1:8080/v1 |
| génération de texte-webui | http://127.0.0.1:5000/v1 (activer l'extension API OpenAI) |
Boîtier GPU distant
Utilisez LAN IP, par ex. http://192.168.1.100:11434/v1. N'exposez pas de serveurs non authentifiés à l'Internet public.
Conseils
- Activez le repli automatique vers un cloud official model pour les tâches difficiles.
- L'appel d'outil nécessite un modèle/backend qui prend en charge l'appel de fonction.
- Le premier chargement peut être lent ; les quantifications plus petites nécessitent moins de RAM.