로컬 모델 배포
머신( Ollama, LM Studio, vLLM, … )에서 추론을 실행하고 로컬 OpenAI 호환 엔드포인트에서 Mystilink 에이전트를 가리킵니다.
Local server (Ollama / LM Studio / …)
→ OpenAI-compatible HTTP API
Mystilink Agent (openai-compatible Provider)
올라마(권장)
ollama pull qwen2.5:7b
| 기본 URL | http://127.0.0.1:11434/v1 |
| 모델 ID | 예를 들어 qwen2.5:7b(ollama list에서) |
| API 키 | 자리 표시자(예: ollama |
API 제품군 openai-compatible을 사용하여 맞춤형 공급자를 만든 다음 모델을 추가하고 연결을 테스트하세요.
대안: OpenAI 템플릿 + 기본 URL을 http://127.0.0.1:11434/v1로 재정의합니다.
LM 스튜디오
- 모델 로드 → 로컬 서버(기본 포트는 1234인 경우가 많음)를 시작합니다.
- 기본 URL:
http://127.0.0.1:1234/v1 - Custom Provider → 테스트 → 저장합니다.
vLLM / llama.cpp / 텍스트 생성-webui
| 도구 | 일반적인 기본 URL |
|---|---|
| vLLM | http://127.0.0.1:8000/v1 |
| llama.cpp 서버 | http://127.0.0.1:8080/v1 |
| 텍스트 생성-webui | http://127.0.0.1:5000/v1 (OpenAI API 확장 활성화) |
원격 GPU 상자
LAN IP를 사용하세요. http://192.168.1.100:11434/v1. 인증되지 않은 서버를 공용 인터넷에 노출하지 마십시오.
팁
- 어려운 작업을 위해 클라우드 official model로 자동 대체를 활성화합니다.
- 도구 호출에는 함수 호출을 지원하는 모델/백엔드가 필요합니다.
- 첫 번째 로드가 느릴 수 있습니다. 더 작은 양자화에는 더 적은 RAM이 필요합니다.