vasteelab · Tools

LLM の VRAM 計算機

モデルサイズと精度から、推論・学習に必要なGPUメモリ(VRAM)を概算。手持ち/候補のGPUで動くかの目安も出す。

アーキテクチャ詳細(KVキャッシュ用・任意)
KV次元 = KVヘッド数 × ヘッド次元。GQA/MQAのモデルはhiddenより小さくなります。プリセットは自動入力、カスタムはconfigの値で上書きしてください。
— GB

概算です。重み = パラメータ数 × 1パラメータあたりのバイト数(FP16なら7B×2=14GB)。推論はこれにKVキャッシュ(コンテキスト長×バッチに比例)と実行時オーバーヘッドを加えます。学習はフルファインチューンだと重みに加えて勾配・オプティマイザ状態(Adamで概ね1パラメータ16バイト級)が必要で、LoRA/QLoRAは凍結した重み+小さなアダプタだけで済むため大幅に軽くなります。活性化メモリは概算のため、実際は多少前後します。