ollamaのversion0.30が正式リリースされたのでRadeon780Mで利用するための設定をする

目的

  • ollama verson 0.30以降から、lamma.cppと同等の推論エンジンになり高速化されたので、その検証
  • github copilotが6月1日からの規約変更で使い物にならなくなった。その代替としてローカルLLMを利用する
  • Debian / Ubuntu系を前提とした設定

ollamaのアップデート手順

公式のインストールスクリプトを実行すれば最新版が配置されるのだが、serviceファイルが上書きされるのでバックアップしておく

GitHub - ollama/ollama: Get up and running with Kimi-K2.6, GLM-5.1, MiniMax, DeepSeek, gpt-oss, Qwen, Gemma and other models.
Get up and running with Kimi-K2.6, GLM-5.1, MiniMax, DeepSeek, gpt-oss, Qwen, Gemma and other models. - ollama/ollama
sudo cp /etc/systemd/system/ollama.service ~/$(date "+%Y%m%d")-ollama.service

※sudo権限が必要

curl -fsSL https://ollama.com/install.sh | sh

ollamaアップデート後にserviceファイルを確認

sudo vim /etc/systemd/system/ollama.service
  • CUDAを使う場合はそのまま ollama.service を使えばOK
  • アップデート前の設定が必要であればバックアップしたファイルで上書きする

※バックアップしたollama.serviceファイルを使う場合

sudo cp ~/$(date "+%Y%m%d")-ollama.service /etc/systemd/system/ollama.service

sudo systemctl daemon-reload
sudo service ollama restart

ollama version 0.30から実行ファイルの配置が変わっている

/usr/bin/ollama

を参照している場合は

/usr/local/bin/ollama

へ書き換えておく。


Radeon780Mで利用するための設定

ollama version 0.2x 系でのollama.service

前回の記事を参照

ollamaのバージョン0.20.x以降でRadeon780MのiGPUが認識しなくなった不具合と、lemonadeの導入でRadeon780Mでの推論の稼働が復活した備忘録(※補足:ollama0.22以降だとRadeon780MでのGPU推論が動作した)
不具合の前の状態ollama 16.xではRadeon780Mで動作していたrocmでは動かないvulkanで動作(※環境変数にvulkan用の設定)GPUが認識しない場合は、CPUで動作する不具合のトリガーollama 20.xへのアップ...
Environment="HSA_OVERRIDE_GFX_VERSION=11.0.3"
Environment="OLLAMA_VULKAN=1"

ollama version 0.30.xx 系でのollama.service

Environment="OLLAMA_IGPU_ENABLE=1"
Environment="OLLAMA_CONTEXT_LENGTH=64000"
Environment="OLLAMA_VULKAN=1"
  • HSA_OVERRIDE_GFX_VERSION 定義は削除しないとエラー表示になる。
  • iGPUを利用する場合はOLLAMA_IGPU_ENABLEの設定が必須。
  • OLLAMA_VULKAN=1の定義でVALKANを使用(※iGPUを利用する場合はデフォルトがVULKANなので不要かもしれないが、エラーは出ない)
  • OLLAMA_CONTEXT_LENGTHの設定は任意だが、OpenClewやOpenCodeと連携する場合はデフォルト値では動かない

ダウンロード済みのモデルを最新版にアップデート

ollama list | tail -n +2 | awk '{print $1}' | xargs -n1 ollama pull

動作確認

ターミナルを2つ起動する

ターミナル1:モニタリング

sudo amdgpu_top

ターミナル2:推論実行

※modelは環境にあわせて変更する

curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gpt-oss-20b",
    "messages": [
      {"role": "system", "content": "You are a helpful assistant."},
      {"role": "user", "content": "こんにちは、自己紹介してください"}
    ],
    "temperature": 0.7
  }'

結果

amdgpu_topのVRAMとGRBM/GRBM2の棒グラフが使用されていればGPUが動作している。

補足

  • NVIDIA製GPUでの動作はollamaのデフォルト設定で問題なく動作する
  • NVIDIA製GPUの場合はドライバとCUDA設定が必要
  • Radeon780MがollamaのサポートGPUリストに入った
    https://github.com/ollama/ollama/blob/main/docs/gpu.mdx
  • 次の記事でOpenCodeの設定について書く予定