VLM finetune experiment

This repo is based on mini-gpt4 and mini-gpt4-v2.

Goal: setup a mock dataset based on simulation and study how well VLMs solve various vision tasks.

Environment Setup

Install required pip packages (some of them are version sensitive)

pip install -r requirements.txt

Download model weights

cd models
gdown 1HkoUUrjzFGn33cSiUkI-KcT-zysCynAz
git clone https://<username>:<token>@huggingface.co/meta-llama/Llama-2-7b-chat-hf

(Already done in this repo) edit config files

eval_configs/minigptv2_eval.yaml
minigpt4/configs/models/minigpt_v2.yaml

Run demo example

python demo_v2.py --cfg-path eval_configs/minigptv2_eval.yaml  --gpu-id 0

Synthetic Dataset

Randomly draw circles and square (with random color and size) on canvas and ask the model to perform a series of tasks:

Counting: how many red squares?
Spatial reasoning: what is on the left of the green circle?

These are abilities that previous generation of models seem to be struggling with.

Run Finetune Experiment

Depending on your available number of GPUs, you can scale-up the training and adjust batch size

torchrun --nproc-per-node 1 train.py --cfg-path train_configs/minigptv2_finetune.yaml

Example: https://wandb.ai/jiahang-li/minigptv/runs/kjt2tn7q?nw=nwuserjiahang_li

Name		Name	Last commit message	Last commit date
Latest commit History 303 Commits
.github/ISSUE_TEMPLATE		.github/ISSUE_TEMPLATE
dataset		dataset
eval_configs		eval_configs
eval_scripts		eval_scripts
examples		examples
examples_v2		examples_v2
figs		figs
minigpt4		minigpt4
prompts		prompts
train_configs		train_configs
.gitignore		.gitignore
CODE_OF_CONDUCT.md		CODE_OF_CONDUCT.md
LICENSE.md		LICENSE.md
LICENSE_Lavis.md		LICENSE_Lavis.md
MiniGPT.md		MiniGPT.md
MiniGPT4_Train.md		MiniGPT4_Train.md
MiniGPTv2.pdf		MiniGPTv2.pdf
MiniGPTv2_Train.md		MiniGPTv2_Train.md
README.md		README.md
SECURITY.md		SECURITY.md
demo.py		demo.py
demo_v2.py		demo_v2.py
environment.yml		environment.yml
requirements.txt		requirements.txt
synthetic_data.png		synthetic_data.png
synthetic_finetune.png		synthetic_finetune.png
train.py		train.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

VLM finetune experiment

Environment Setup

Synthetic Dataset

Run Finetune Experiment

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

VLM finetune experiment

Environment Setup

Synthetic Dataset

Run Finetune Experiment

About

Topics

Resources

License

Code of conduct

Security policy

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages