ローカルLLMのモデル比較

公開日: 2025/08/11 更新日: 2025/08/23

ローカルPCのメモリが16GB〜32GBの場合の、当方が考えるローカルLLMの選択候補は下表のようなものがあります。

モデル名	提供会社	インストールサイズ	リリース時期	ライセンス	テキスト対応	マルチモーダル対応	画像生成対応	特徴
gpt-oss:20b	OpenAI	14GB	2025年8月	Apache 2.0 ライセンス	○	×	×	OpenAI o4-mini と同じような性能
gemma3:12b	Google	8.1GB	2025年3月	Gemma Terms of Use	○	○	×	Gemini を基盤としたモデル
gemma3:4b	Google	3.3GB	2025年3月	Gemma Terms of Use	○	○	×	Gemini を基盤としたモデル上位モデルよりもハルシネーションが多くなる
gemma3:1b	Google	815MB	2025年3月	Gemma Terms of Use	○	×	×	超軽量モデル上位モデルよりもハルシネーションが多くなる

※マルチモーダル（Multimodal）：画像等を読み込んでテキストの抽出や内容の分析を行う処理
※ハルシネーション（hallucination）：生成AIによる間違った回答
ライセンスは変更される可能性があるため、商用利用等においては注意が必要です。

gpt-oss 公式アドレス
https://openai.com/ja-JP/index/introducing-gpt-oss/
https://ollama.com/library/gpt-oss
gemma3 公式アドレス
https://ai.google.dev/gemma/docs/core?hl=ja
https://ollama.com/library/gemma3

ローカルPCのスペックによる動作比較（ollama単体で使用の場合）

手持ちのローカルPCですと、下表のような状況でした。
実際はCPU性能、VRAM（GPU）メモリとも関わりますので、下表に当てはまらない場合もあります。

モデル名	インストールサイズ	M1 mac(Apple Silicon) メモリ16GB	mac(Intel) メモリ32GB	M1 mac(Apple Silicon) メモリ32GB	Windows(Intel) メモリ16GB	Windows(Arm6) メモリ32GB
gpt-oss:20b	14GB	反応が遅く厳しい	通常の反応速度	通常の反応速度	反応が遅く厳しい	通常の反応速度
gemma3:12b	8.1GB	通常の反応速度	通常の反応速度	通常の反応速度	通常の反応速度	通常の反応速度
gemma3:4b	3.3GB	通常の反応速度	通常の反応速度	通常の反応速度	通常の反応速度	通常の反応速度

当方の環境では、現在注目されているOpenAI提供の「gpt-oss:20b」の使用を考える場合は、メモリが32GBのパソコンが有力な選択肢になるように考えております。
ただし、ollama以外にDifyなどを同じローカル環境で起動している場合は、メモリが32GBのパソコンであっても「gpt-oss:20b」の反応速度は遅くなります。その場合はより軽量なモデルの選択が候補になってくると思います。

ローカルPCのスペックによる動作（LM Studioとローカル版Difyで使用の場合）

ローカルLLMの実行環境「LM Studio」と「Ollama」の比較の結果、OllamaよりもLM Studioの方が、「gpt-oss:20b」の実行速度が早い状態でした。
当方の環境では、DifyでLM Studio経由のローカルLLMを設定の環境では
M4 mac(Apple Silicon)メモリ24GB
M1 mac(Apple Silicon)メモリ32GB
のパソコンによる検証が快適なため、2025年8月におきましてはこの環境をメインに検証活動をしております。

ローカルLLMの実行環境「LM Studio」と「Ollama」の比較

Categorys : モデル比較

カテゴリー

アーカイブ

ローカルLLMのモデル比較

ローカルPCのスペックによる動作比較（ollama単体で使用の場合）

ローカルPCのスペックによる動作（LM Studioとローカル版Difyで使用の場合）

関連記事

最近の投稿

運用者