본문으로 건너뛰기

로컬 모델 배포

머신( Ollama, LM Studio, vLLM, … )에서 추론을 실행하고 로컬 OpenAI 호환 엔드포인트에서 Mystilink 에이전트를 가리킵니다.

Local server (Ollama / LM Studio / …)
    → OpenAI-compatible HTTP API
Mystilink Agent (openai-compatible Provider)

올라마(권장)

ollama pull qwen2.5:7b


기본 URL	`http://127.0.0.1:11434/v1`
모델 ID	예를 들어 `qwen2.5:7b`(`ollama list`에서)
API 키	자리 표시자(예: `ollama`

API 제품군 openai-compatible을 사용하여 맞춤형 공급자를 만든 다음 모델을 추가하고 연결을 테스트하세요.

대안: OpenAI 템플릿 + 기본 URL을 http://127.0.0.1:11434/v1로 재정의합니다.

LM 스튜디오

모델 로드 → 로컬 서버(기본 포트는 1234인 경우가 많음)를 시작합니다.
기본 URL: http://127.0.0.1:1234/v1
Custom Provider → 테스트 → 저장합니다.

vLLM / llama.cpp / 텍스트 생성-webui

도구	일반적인 기본 URL
vLLM	`http://127.0.0.1:8000/v1`
llama.cpp 서버	`http://127.0.0.1:8080/v1`
텍스트 생성-webui	`http://127.0.0.1:5000/v1` (OpenAI API 확장 활성화)

원격 GPU 상자

LAN IP를 사용하세요. http://192.168.1.100:11434/v1. 인증되지 않은 서버를 공용 인터넷에 노출하지 마십시오.

팁

어려운 작업을 위해 클라우드 official model로 자동 대체를 활성화합니다.
도구 호출에는 함수 호출을 지원하는 모델/백엔드가 필요합니다.
첫 번째 로드가 느릴 수 있습니다. 더 작은 양자화에는 더 적은 RAM이 필요합니다.

참고하세요

올라마(권장)
LM 스튜디오
vLLM / llama.cpp / 텍스트 생성-webui
원격 GPU 상자
팁
참고하세요