vasteelab · Tools

LLM の VRAM 計算機

モデルサイズと精度から、推論・学習に必要なGPUメモリ(VRAM)を概算。手持ち/候補のGPUで動くかの目安も出す。

モデル

パラメータ数 (B)

精度 / 量子化

コンテキスト長 (tokens)

バッチ

アーキテクチャ詳細（KVキャッシュ用・任意）

レイヤー数

KV次元 (GQA考慮)

KV次元 = KVヘッド数 × ヘッド次元。GQA/MQAのモデルはhiddenより小さくなります。プリセットは自動入力、カスタムはconfigの値で上書きしてください。

— GB

概算です。重み = パラメータ数 × 1パラメータあたりのバイト数（FP16なら7B×2=14GB）。推論はこれにKVキャッシュ（コンテキスト長×バッチに比例）と実行時オーバーヘッドを加えます。学習はフルファインチューンだと重みに加えて勾配・オプティマイザ状態（Adamで概ね1パラメータ16バイト級）が必要で、LoRA/QLoRAは凍結した重み＋小さなアダプタだけで済むため大幅に軽くなります。活性化メモリは概算のため、実際は多少前後します。