メインコンテンツまでスキップ

ローカルモデルのデプロイメント

マシン (Ollama、LM Studio、vLLM、…) で推論を実行し、ローカルの OpenAI 互換エンドポイントで Mystilink Agent をポイントします。

Local server (Ollama / LM Studio / …)
    → OpenAI-compatible HTTP API
Mystilink Agent (openai-compatible Provider)

オラマ (推奨)

ollama pull qwen2.5:7b


ベース URL	`http://127.0.0.1:11434/v1`
モデルID	例えば`qwen2.5:7b` (`ollama list` から)
APIキー	プレースホルダー、例: `ollama`

API ファミリー openai-compatible を使用して カスタムプロバイダー を作成し、モデルを追加して 接続をテストします。

代替案: OpenAI テンプレート + ベース URL を http://127.0.0.1:11434/v1 にオーバーライドします。

LMスタジオ

モデルをロードし、ローカルサーバー を開始します (デフォルトポートは通常 1234)。
ベース URL: http://127.0.0.1:1234/v1
カスタムプロバイダー→テスト→保存。

vLLM / llama.cpp / テキスト生成-webui

ツール	典型的なベース URL
vLLM	`http://127.0.0.1:8000/v1`
ラマ.cppサーバー	`http://127.0.0.1:8080/v1`
テキスト生成ウェブイ	`http://127.0.0.1:5000/v1` (OpenAI API 拡張機能を有効にする)

リモート GPU ボックス

LAN IP を使用します。例: http://192.168.1.100:11434/v1。認証されていないサーバーを公共のインターネットに公開しないでください。

ヒント

難しいタスクのためにクラウド official model への 自動フォールバック を有効にします。
ツール呼び出しには、関数呼び出しをサポートするモデル/バックエンドが必要です。
最初の読み込みが遅くなる可能性があります。量子化が小さいほど必要な RAM が少なくなります。

も参照

オラマ (推奨)
LMスタジオ
vLLM / llama.cpp / テキスト生成-webui
リモート GPU ボックス
ヒント
も参照