본문으로 건너뛰기

로컬 모델 배포

머신( Ollama, LM Studio, vLLM, … )에서 추론을 실행하고 로컬 OpenAI 호환 엔드포인트에서 Mystilink 에이전트를 가리킵니다.

Local server (Ollama / LM Studio / …)
→ OpenAI-compatible HTTP API
Mystilink Agent (openai-compatible Provider)

올라마(권장)

ollama pull qwen2.5:7b
기본 URLhttp://127.0.0.1:11434/v1
모델 ID예를 들어 qwen2.5:7b(ollama list에서)
API 키자리 표시자(예: ollama

API 제품군 openai-compatible을 사용하여 맞춤형 공급자를 만든 다음 모델을 추가하고 연결을 테스트하세요.

대안: OpenAI 템플릿 + 기본 URL을 http://127.0.0.1:11434/v1로 재정의합니다.

LM 스튜디오

  1. 모델 로드 → 로컬 서버(기본 포트는 1234인 경우가 많음)를 시작합니다.
  2. 기본 URL: http://127.0.0.1:1234/v1
  3. Custom Provider → 테스트 → 저장합니다.

vLLM / llama.cpp / 텍스트 생성-webui

도구일반적인 기본 URL
vLLMhttp://127.0.0.1:8000/v1
llama.cpp 서버http://127.0.0.1:8080/v1
텍스트 생성-webuihttp://127.0.0.1:5000/v1 (OpenAI API 확장 활성화)

원격 GPU 상자

LAN IP를 사용하세요. http://192.168.1.100:11434/v1. 인증되지 않은 서버를 공용 인터넷에 노출하지 마십시오.

  • 어려운 작업을 위해 클라우드 official model자동 대체를 활성화합니다.
  • 도구 호출에는 함수 호출을 지원하는 모델/백엔드가 필요합니다.
  • 첫 번째 로드가 느릴 수 있습니다. 더 작은 양자화에는 더 적은 RAM이 필요합니다.

참고하세요