Implementación del modelo local
Ejecute la inferencia en su máquina (Ollama, LM Studio, vLLM,…) y apunte Mystilink Agent al punto final local compatible con OpenAI.
Local server (Ollama / LM Studio / …)
→ OpenAI-compatible HTTP API
Mystilink Agent (openai-compatible Provider)
Ollama (recomendado)
ollama pull qwen2.5:7b
| URL básica | http://127.0.0.1:11434/v1 |
| Identificación del modelo | p.ej. qwen2.5:7b (de ollama list) |
| Clave API | marcador de posición, p.e. ollama |
Cree un Proveedor personalizado con la familia API openai-compatible, luego agregue un modelo y pruebe la conexión.
Alternativa: plantilla OpenAI + anular la URL base a http://127.0.0.1:11434/v1.
Estudio LM
- Cargue un modelo → inicie Servidor local (el puerto predeterminado suele ser 1234).
- URL base:
http://127.0.0.1:1234/v1 - Proveedor personalizado → probar → guardar.
vLLM / llama.cpp / generación-de-texto-webui
| Herramienta | URL base típica |
|---|---|
| vLLM | http://127.0.0.1:8000/v1 |
| servidor llama.cpp | http://127.0.0.1:8080/v1 |
| generación-de-texto-webui | http://127.0.0.1:5000/v1 (habilitar la extensión API OpenAI) |
Caja de GPU remota
Utilice IP de LAN, p. http://192.168.1.100:11434/v1. No exponga servidores no autenticados a la Internet pública.
Consejos
- Habilite el retroceso automático a una nube official model para tareas difíciles.
- La llamada a herramientas requiere un modelo/backend que admita la llamada a funciones.
- La primera carga puede ser lenta; las cuantificaciones más pequeñas necesitan menos RAM.