GPT-4Vに課金するより、無料でLLaVA-1.5を使った方が良さそう

10月 11, 202310月 15, 2023

ChatGPTが画像入力に対応したことが話題になっていますが、数日前から無料の代替品"LLaVA-1.5″が使えるようになっています。試しにインストールしたところ、かなりトリッキーな質問にも対応できており、出来がいいです。画像QA機能を試したいときは"LLaVA-1.5″がおすすめです。

OpenAIがChatGPTの音声・画像認識機能を発表し，画像を使ってより直観的にChatGPTと対話できるようになり，日常生活やビジネスにおける活用がより現実味を帯びてくるようになってきている．しかし，23/10/11現在，GPT-4VはOpenAI Plusを購読しており（月20$），かつ限られた人にしか使用できない．これにより，Xでは「GPT-4Vが自分のもとにおりてこない」と嘆きの声を上げる人がしばしばでてきている．

しかし，画像認識機能を有した生成AIはGPT-4Vだけではない．ここ数日前に発表されたLLaVA-1.5をご存じだろうか．他のモデルと比較しても遜色ないどころか，どのベンチマークでも高いスコアを発揮している近年話題の大規模モデルである．下記にそのグラフを掲載．

今回は，そんなLLaVA-1.5の簡単なインストール方法を紹介する．

まずは，githubからリポジトリをクローンしてくる

git clone https://github.com/haotian-liu/LLaVA.git
cd LLaVA

そしてパッケージをインストール

pip install -e .

最後に，ターミナル上(CLI)で動くデモを起動する．なお，モデルのダウンロードはhaggingfaceから自動的に行われる．

python -m llava.serve.cli \
    --model-path liuhaotian/LLaVA-Lightning-MPT-7B-preview \
    --image-file "https://llava-vl.github.io/static/images/view.jpg" \
    --load-4bit

これを実行すると，任意の画像に対して質疑応答が可能なAIを起動することができる．なお，インストールなしでもLLaVA-1.5は下記から試すことが可能だ．

https://llava.hliu.cc/

GPT-4ChatGPT,生成AI

Posted by vastee