モデルサイズと精度から、推論・学習に必要なGPUメモリ(VRAM)を概算。手持ち/候補のGPUで動くかの目安も出す。
概算です。重み = パラメータ数 × 1パラメータあたりのバイト数(FP16なら7B×2=14GB)。推論はこれにKVキャッシュ(コンテキスト長×バッチに比例)と実行時オーバーヘッドを加えます。学習はフルファインチューンだと重みに加えて勾配・オプティマイザ状態(Adamで概ね1パラメータ16バイト級)が必要で、LoRA/QLoRAは凍結した重み+小さなアダプタだけで済むため大幅に軽くなります。活性化メモリは概算のため、実際は多少前後します。