メインコンテンツまでスキップ

ローカルモデルのデプロイメント

マシン (OllamaLM StudiovLLM、…) で推論を実行し、ローカルの OpenAI 互換エンドポイントで Mystilink Agent をポイントします。

Local server (Ollama / LM Studio / …)
→ OpenAI-compatible HTTP API
Mystilink Agent (openai-compatible Provider)

オラマ (推奨)

ollama pull qwen2.5:7b
ベース URLhttp://127.0.0.1:11434/v1
モデルID例えばqwen2.5:7b (ollama list から)
APIキープレースホルダー、例: ollama

API ファミリー openai-compatible を使用して カスタム プロバイダー を作成し、モデルを追加して 接続をテストします。

代替案: OpenAI テンプレート + ベース URL を http://127.0.0.1:11434/v1 にオーバーライドします。

LMスタジオ

  1. モデルをロードし、ローカル サーバー を開始します (デフォルト ポートは通常 1234)。
  2. ベース URL: http://127.0.0.1:1234/v1
  3. カスタムプロバイダー→テスト→保存。

vLLM / llama.cpp / テキスト生成-webui

ツール典型的なベース URL
vLLMhttp://127.0.0.1:8000/v1
ラマ.cppサーバーhttp://127.0.0.1:8080/v1
テキスト生成ウェブイhttp://127.0.0.1:5000/v1 (OpenAI API 拡張機能を有効にする)

リモート GPU ボックス

LAN IP を使用します。例: http://192.168.1.100:11434/v1。認証されていないサーバーを公共のインターネットに公開しないでください。

ヒント

  • 難しいタスクのためにクラウド official model への 自動フォールバック を有効にします。
  • ツール呼び出しには、関数呼び出しをサポートするモデル/バックエンドが必要です。
  • 最初の読み込みが遅くなる可能性があります。量子化が小さいほど必要な RAM が少なくなります。

も参照