ローカルモデルのデプロイメント
マシン (Ollama、LM Studio、vLLM、…) で推論を実行し、ローカルの OpenAI 互換エンドポイントで Mystilink Agent をポイントします。
Local server (Ollama / LM Studio / …)
→ OpenAI-compatible HTTP API
Mystilink Agent (openai-compatible Provider)
オラマ (推奨)
ollama pull qwen2.5:7b
| ベース URL | http://127.0.0.1:11434/v1 |
| モデルID | 例えばqwen2.5:7b (ollama list から) |
| APIキー | プレースホルダー、例: ollama |
API ファミリー openai-compatible を使用して カスタム プロバイダー を作成し、モデルを追加して 接続をテストします。
代替案: OpenAI テンプレート + ベース URL を http://127.0.0.1:11434/v1 にオーバーライドします。
LMスタジオ
- モデルをロードし、ローカル サーバー を開始します (デフォルト ポートは通常 1234)。
- ベース URL:
http://127.0.0.1:1234/v1 - カスタムプロバイダー→テスト→保存。
vLLM / llama.cpp / テキスト生成-webui
| ツール | 典型的なベース URL |
|---|---|
| vLLM | http://127.0.0.1:8000/v1 |
| ラマ.cppサーバー | http://127.0.0.1:8080/v1 |
| テキスト生成ウェブイ | http://127.0.0.1:5000/v1 (OpenAI API 拡張機能を有効にする) |
リモート GPU ボックス
LAN IP を使用します。例: http://192.168.1.100:11434/v1。認証されていないサーバーを公共のインターネットに公開しないでください。
ヒント
- 難しいタスクのためにクラウド official model への 自動フォールバック を有効にします。
- ツール呼び出しには、関数呼び出しをサポートするモデル/バックエンドが必要です。
- 最初の読み込みが遅くなる可能性があります。量子化が小さいほど必要な RAM が少なくなります。