Saltar al contenido principal

Implementación del modelo local

Ejecute la inferencia en su máquina (Ollama, LM Studio, vLLM,…) y apunte Mystilink Agent al punto final local compatible con OpenAI.

Local server (Ollama / LM Studio / …)
→ OpenAI-compatible HTTP API
Mystilink Agent (openai-compatible Provider)

Ollama (recomendado)

ollama pull qwen2.5:7b
URL básicahttp://127.0.0.1:11434/v1
Identificación del modelop.ej. qwen2.5:7b (de ollama list)
Clave APImarcador de posición, p.e. ollama

Cree un Proveedor personalizado con la familia API openai-compatible, luego agregue un modelo y pruebe la conexión.

Alternativa: plantilla OpenAI + anular la URL base a http://127.0.0.1:11434/v1.

Estudio LM

  1. Cargue un modelo → inicie Servidor local (el puerto predeterminado suele ser 1234).
  2. URL base: http://127.0.0.1:1234/v1
  3. Proveedor personalizado → probar → guardar.

vLLM / llama.cpp / generación-de-texto-webui

HerramientaURL base típica
vLLMhttp://127.0.0.1:8000/v1
servidor llama.cpphttp://127.0.0.1:8080/v1
generación-de-texto-webuihttp://127.0.0.1:5000/v1 (habilitar la extensión API OpenAI)

Caja de GPU remota

Utilice IP de LAN, p. http://192.168.1.100:11434/v1. No exponga servidores no autenticados a la Internet pública.

Consejos

  • Habilite el retroceso automático a una nube official model para tareas difíciles.
  • La llamada a herramientas requiere un modelo/backend que admita la llamada a funciones.
  • La primera carga puede ser lenta; las cuantificaciones más pequeñas necesitan menos RAM.

Ver también