📌 Introduction

"大道至简"

中文 | English

此项目旨在从0开始，仅用1.3块钱成本 + 1小时！即可训练出26M参数的超小多模态视觉语言模型MiniMind-V。
MiniMind-V最小版本体积仅为 GPT3 的约 $\frac{1}{7000}$，力求做到个人GPU也可快速推理甚至训练。
MiniMind-V是MiniMind纯语言模型的视觉能力额外拓展。
项目同时包含了VLM大模型的极简结构、数据集清洗、预训练(Pretrain)、监督微调(SFT)等全过程代码。
这不仅是一个开源VLM模型的最小实现，也是入门视觉语言模型的简明教程。
希望此项目能为所有人提供一个抛砖引玉的示例，一起感受创造的乐趣！推动更广泛AI社区的进步！

为防止误解，“1小时” 基于NVIDIA 3090硬件设备（单卡）测试1 epoch，“1.3块钱” 指GPU服务器租用成本。

🔗🤖在线体验 | 🔗🎞️视频介绍

📌 Introduction

“用乐高拼出一架飞机，远比坐在头等舱里飞行更让人兴奋！” 构建VLM范式的多模态大模型是否真的如想象中那样复杂？它的代码实现到底如何？训练过程究竟难不难？那么现在，探索它们的答案，一起感受创造的乐趣吧！

Tip

（截至2025-02-20）MiniMind-V 系列已完成了以下型号模型训练，最小仅需26M (0.026B)，即可具备识图和对话的能力！

模型 (大小)	推理占用	release
MiniMind2-V (104M)	0.6 GB	2025.02.20
MiniMind2-Small-V (26M)	1.1 GB	2025.02.20
minimind-v-v1-small (27M)	0.6 GB	2024.10.04
minimind-v-v1 (109M)	1.1 GB	2024.10.04

👉最近更新

2025-10-24

bug修复：模型权重不对应
适配「minimind-1024更新」
代码重构：训练和评估脚本规范化
新增完整的断点续训支持

2025-04-27

兼容性更新
适配「minimind仓库新特性」
规范化部分代码

2025-02-20

MiniMind2-V伴随MiniMind2同步更新
大幅减少所有冗余代码，规范代码格式
大幅精简模型冗余结构
更新数据集格式，拓展新的SFT数据集
比前代VLM更优秀的效果！

More...

2024-10-05

MiniMind-V如期而至，首次开源

📌 快速开始

分享本人的软硬件配置（仅供参考）

CPU: Intel(R) Core(TM) i9-10980XE CPU @ 3.00GHz
RAM: 128 GB
GPU: NVIDIA GeForce RTX 3090(24GB) * 8
Ubuntu==20.04
CUDA==12.2
Python==3.10.16
requirements.txt

第0步

# 克隆代码仓库
git clone https://github.com/jingyaogong/minimind-v

# 下载clip模型到 ./model/vision_model 目录下
git clone https://huggingface.co/openai/clip-vit-base-patch16
# or
git clone https://www.modelscope.cn/models/openai-mirror/clip-vit-base-patch16

# 下载minimind语言模型权重到 ./out 目录下（作为训练VLM的基座语言模型）
# HuggingFace
https://huggingface.co/jingyaogong/MiniMind2-V-PyTorch/blob/main/llm_512.pth # or llm_768.pth
# 国内源
https://modelscope.cn/models/gongjy/MiniMind2-V-PyTorch/resolve/master/llm_512.pth # or llm_768.pth

Ⅰ 测试已有模型效果

1.环境准备

pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

2.下载模型

git clone https://huggingface.co/jingyaogong/MiniMind2-V

3.命令行问答

# load_from='model': 加载原生PyTorch权重, load_from='其他路径': 加载transformers格式
python eval_vlm.py --load_from model --weight sft_vlm

# 或使用transformers格式模型
python eval_vlm.py --load_from MiniMind2-V

4.或启动WebUI

python web_demo_vlm.py

Ⅱ 从0开始自己训练

1.环境准备

pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

注：提前测试Torch是否可用cuda

import torch
print(torch.cuda.is_available())

如果不可用，请自行去torch_stable 下载whl文件安装。参考链接

2.数据下载

从下文提供的数据集链接下载所需内容并放到./dataset下。

注：数据集须知

【注1】之前需解压50万零碎的图像文件可能非常慢。2025-12-27起，数据集格式统一为Parquet，图文一体化存储，体积更小，无需解压，加载更快。

【注2】Parquet是列式存储格式，支持高效压缩和快速读取。如果你对它感到陌生，可以预览数据内容，在dataset/目录下执行python lm_dataset.py可视化前5条图文对

Pretrain数据：

wget https://hf-mirror.com/datasets/jingyaogong/minimind-v_dataset/resolve/main/pretrain_data.parquet

SFT数据：

wget https://hf-mirror.com/datasets/jingyaogong/minimind-v_dataset/resolve/main/sft_data.parquet

建议预留~2GB空间存放数据集，若无多余空间存放pretrain数据，可尝试跳过pretrain训练步骤直接进行sft训练。

3.开始训练

3.1 预训练（学图像描述）

# 基础训练命令（从LLM权重开始，仅训练vision_proj）
python train_pretrain_vlm.py --epochs 4 --from_weight llm

执行预训练，得到 pretrain_vlm_*.pth 作为预训练的输出权重（其中*为模型的dimension，默认为512）

3.2 监督微调（学看图对话方式）

# 基础训练命令（从预训练权重开始，全参数微调）
python train_sft_vlm.py --epochs 2 --from_weight pretrain_vlm

执行监督微调，得到 sft_vlm_*.pth 作为指令微调的输出权重

注：训练须知

训练特性：

支持断点续训：添加--from_resume 1参数可从上次中断处继续训练
支持GPU数量变化：续训时GPU数量改变会自动转换step
原子性保存：使用临时文件+替换机制，防止保存过程中断导致权重损坏
每次保存同时生成out/**.pth（模型权重）和checkpoints/**_resume.pth（训练状态）文件

# 训练中断后，使用相同命令并添加 --from_resume 1
python train_sft_vlm.py --epochs 4 --from_resume 1

参数说明：

--from_weight: 基础权重名称（llm, pretrain_vlm, none等）
--save_weight: 保存权重的前缀名
--from_resume: 是否续训（0=从头开始，1=从检查点继续）
--freeze_llm: 是否冻结LLM参数（仅pretrain使用）
更多可直接参考代码

4.测试模型效果

确保需要测试的模型*.pth文件位于./out/目录下。也可以直接去此处下载使用我训练的*.pth文件。

# 测试SFT模型（默认）
python eval_vlm.py --weight sft_vlm

# 测试Pretrain模型
python eval_vlm.py --weight pretrain_vlm

Tip

训练脚本均为Pytorch原生框架，均支持多卡加速，假设你的设备有N (N＞1) 张显卡：

单机N卡启动训练方式 (DDP, 支持多机多卡集群)

torchrun --nproc_per_node N train_xxx.py

注：其它须知

单机N卡启动训练 (DeepSpeed)
deepspeed --master_port 29500 --num_gpus=N train_xxx.py

可根据需要开启wandb记录训练过程

# 需要登录: wandb login
torchrun --nproc_per_node N train_xxx.py --use_wandb
# and
python train_xxx.py --use_wandb

通过添加--use_wandb参数，可以记录训练过程，训练完成后，可以在wandb网站上查看训练过程。通过修改wandb_project 和wandb_run_name参数，可以指定项目名称和运行名称。

【注】：25年6月后，国内网络环境无法直连WandB，MiniMind项目默认转为使用SwanLab作为训练可视化工具（完全兼容WandB API），即import wandb改为import swanlab as wandb即可，其他均无需改动。

📌 VLM Detail

MiniMind-V (VLM)的基座语言模型MiniMind (LLM)来自孪生项目minimind，具体的模型结构、训练细节、原理、测试效果等均可移步minimind项目查阅。此处为减少冗余，省略讨论LLM的相关部分，默认您已对MiniMind (LLM)的细节有基本的了解。

即使您不太了解LLM的细节，也可参考“快速开始”流程训练一个MiniMind-V，这并不受到影响，仓库致力于最低成本的开箱即用！

MiniMind-V的结构仅增加Visual Encoder和特征投影两个子模块，增加模态混合分支，以支持多种模态信息的输入：

【重要】一些有趣的思考

此处不妨展开想一想两个问题：

什么叫做Large Language Model (LLM)？
什么叫做多模态模型？

这篇文章完美吻合本人的想法：大语言模型（LLM）名字虽然带有语言二字，但它们其实与语言关系不大，这只是历史问题，更确切的名字应该是自回归 Transformer 或者其他。LLM 更多是一种统计建模的通用技术，它们主要通过自回归 Transformer 来模拟 token 流，而这些 token 可以代表文本、图片、音频、动作选择、甚至是分子等任何东西。因此，只要能将问题转化为模拟一系列离散 token 的流程，理论上都可以应用 LLM 来解决。实际上，随着大型语言模型技术栈的日益成熟，我们可能会看到越来越多的问题被纳入这种建模范式。也就是说，问题固定在使用 LLM 进行『下一个 token 的预测』，只是每个领域中 token 的用途和含义有所不同。

ZJU-LiXi老师同样谈及过类似观点（原话大意如下）：文本、视频、语音、动作等在人类看来属于「多模态」信号，但所谓的「模态」其实只是人类在信息存储方式上的一种分类概念。就像.txt和.png文件，虽然在视觉呈现和高级表现形式上有所不同，但它们本质上并没有根本区别。之所以出现「多模态」这个概念，仅仅是因为人类在不同的感知层面上对这些信号的分类需求。然而，对于机器来说，无论信号来自何种「模态」，最终它们都只是以一串二进制的「单模态」数字序列来呈现。机器并不会区分这些信号的模态来源，而只是处理和分析这些序列背后所承载的信息内容。

个人认为Generative Pretrained Transformer (GPT) 比 Large Language Model (LLM)更为贴切，因此本人表达上更习惯用"GPT"去代表LLM/VLM/类GPT架构的系列模型，而非为了蹭OpenAI的热度。

至此，我们可以用一句话总结GPT的所作所为：

GPT模型根据现有token预测输出下一个下下一个下下下一个token ...，直到模型输出结束符；此处的"token"其实并不需要一定是文本！

> 对于LLM模型，如果需要理解"图片"，我们只要把"图片"作为对一种特殊的从来没见过的"外国语言"，通过"外语词典"翻译后即可作为特殊的语言输入LLM
> 对于LLM模型，如果需要理解"音频"，我们只要把"音频"作为对一种特殊的从来没见过的"外国语言"，通过"外语词典"翻译后即可作为特殊的语言输入LLM
> ...

为了得到MiniMind-V，我们只需要完成这2件事即可：

借助擅长翻译图片的 "外语词典" ，把图片从 "外国语言" 翻译为模型便于理解的 "LLM语言"
训练微调LLM，使其和 "外语词典" 度过磨合期，从而更好的理解图片

"外语词典" 称之为Visual Encoder模型。和LlaVA、Qwen-VL等视觉语言模型类似，MiniMind-V同样选用开源Clip系列模型作为Visual Encoder。具体使用clip-vit-base-patch16，一种基于 ViT-B/16 架构的经典Visual Encoder用于描述图像文本信息。输入的图像尺寸为224x224，因为划分的Patch是16×16，所以会产生14*14=196个token作为encoder编码层的输入，最终产生1×768维的嵌入向量用于和文本对计算误差。我们并不需要最终嵌入表示，因此只取encoder层的输出，也就是VIT核心主干的输出特征即可。它拿到前一层维度196×768大小的特征，我们把它作为196个visual token输入MiniMind-V。与LLM的结合在获取图像encoder特征后，一方面需要把768维度的visual token对齐到LLM的文本token，另一方面，要将图像特征映射到与文本embedding相同的空间，即文本token和原生的视觉token需要磨合并不能直接地一视同仁，可以称之为跨模态的特征对齐。 LlaVA-1使用简单的无偏线性变换完成了这一操作，效果很不错，MiniMind-V同样如此。

至此，MiniMind-V的内部结构变化已经呈现完毕。

下面，我们简单讨论MiniMind-V的外部输入输出的变化。

VLM的输入依然是一段文本，其中包含特殊的<image>占位符。在计算文本嵌入后，可以将图像编码器生成的向量投影到该占位符对应的嵌入部分，替换掉原先的占位符embedding。例如：

<image>\n这个图像中有什么内容？

在minimind-v中，使用196个字符组成的 @@@...@@@ 占位符代替图像，之所以是196个字符，前面有所提及：任何图像都被clip模型encoder为196×768维的token，因此minimind-v的prompt为：

@@@......@@@\n这个图片描述的是什么内容？

计算完embedding和projection，并对图像部分token替换后整个计算过程到输出则和LLM部分没有任何区别。

至此，MiniMind-V的所有细节已经呈现完毕。 MiniMind-V的模型子类完全继承自MiniMind，仅基于后者做最小变更而产生，其核心算法改动< 50行，迁移难度极低。因此可能和LlAVA等模型细节可能存在区别，但思路完全统一。

📌 Experiment

Ⅰ 数据集

来源：Chinese-LLaVA-Vision 包含约57万张预训练图像，来自CC-3M和COCO 2014； llava-en-zh-300k 包含300k条指令微调数据和15万张图像。问答内容经过翻译，对中文支持更友好，进一步经过整理并resize。

(pretrain_vlm_data.jsonl) 预训练数据集格式：

{
  "conversations": [
    {
      "role": "user",
      "content": "提供给定图像的简要描述。\n<image>"
    },
    {
      "role": "assistant",
      "content": "橄榄油是自由使用的健康成分。"
    }
  ],
  "image": "GCC_train_002582585.jpg"
}

(sft_vlm_data.jsonl) 单图指令微调数据集格式：

{
  "conversations": [
    {
      "role": "user",
      "content": "闹钟的位置对睡眠质量有什么影响？<image>"
    },
    {
      "role": "assistant",
      "content": "把数字闹钟放在床头柜..."
    }
  ],
  "image": "train-00000-of-00001_image_0_0.jpg"
}

数据集下载地址：(ModelScope | HuggingFace)

Ⅱ 训练

train_pretrain_vlm

预训练从595K条数据集中学习图片的通用知识，比如鹿是鹿，狗是狗。

train_sft_vlm

指令微调从300K条真实对话数据集中学习对图片提问的真实问答格式，更符合与人类的交流习惯。

训练时均冻结visual encoder也就是clip模型梯度，只训练Projection和LLM两部分。预训练中，只设置Projection和LLM的最后一层参数可学习。指令微调中，设置Projection和LLM的全部参数可学习。

训练时间和Loss走势（仅供参考）

Pretrain [512+8] & [768+16]

SFT [512+8] & [768+16]

Ⅲ 模型权重

(原生PyTorch*.pth权重文件) 下载地址： (ModelScope | HuggingFace)

(Transformers格式模型) 下载地址： (ModelScope | HuggingFace)

注：Transformers版本均为单图指令微调后的MiniMind-V模型

📌 Test

效果测试

单图对话

图片	MiniMind2-V	MiniMind2-V-Small
	图中是一个繁忙的城市街道，一条长长的街道两旁都是高楼大厦。这条街上挤满了汽车、卡车和公共汽车，还有许多其他车辆在路上行驶。在街道上，可以看到许多汽车，有的在高速行驶，而其他的则停在街道一侧。此外还有一辆公交车也停在街道的右侧。街道上可以看到交通灯，表明这是一个繁忙的城市环境。	图中是一个繁忙的城市景象，有几辆汽车和一辆卡车行驶在城市街道上。可以看到许多交通信号灯，其中一些位于街道左侧，另一些则在右侧。可以看到有几个人在街上行走，其中一些人站得离街道更近一些，而另一些则距离较远。还有一个停车标志位于画面的左侧，暗示着城市环境。可以看到街道上有两辆汽车，一辆在右边，另一辆在左边，还有一辆在左边。这幅图像捕捉到了都市环境中典型的一天。
	图片显示了一个宇航员的宇航员身穿宇航服，坐在一架大型航天飞机上。他们似乎正在进行一次宇航员登机或下机的旅程。在宇航员的身后，有一个火箭发射架，可能是用来支撑宇航员在旅程中的任务。此外，还有一架飞机停在机库附近，进一步表明这是一次航空展。在飞机的周围，还有一些人，但他们看起来离飞机很近。可以看到一个人站在飞机附近，可能正在观察或等待航天飞机准备起飞。	场景中，一名士兵戴着头盔站在一架大型飞机上。这架飞机似乎是一架军用军用飞机，似乎正准备登上一架飞机。另一个人则站在前面，可能正在观察飞行过程。在飞机周围，有几个人，其中一些站在左侧，另一些则站在右侧。他们似乎正在观看飞行员的表现。此外，还有一辆卡车停在靠近左侧的位置，可能是为了更具体地观察飞行过程。
	图片中，一个女人坐在沙滩上，手里拿着一只白色的狗。她看起来像是个女人，坐在沙地上，看着她。一只狗也坐在她旁边，看起来很放松和舒适。海滩上散布着其他沙滩游客，有些人坐着，而另一些人则坐在更远的地方。背景中可以看到一艘船，这表明这是一个受欢迎的海滩旅游目的地。	两个人坐在海滩上，一边懒洋洋地躺在沙滩上，另一边则坐着。他们似乎正在享受海边时光。海滩上有几把椅子，其中一把靠近沙滩的左侧，另一把在中间。此外，还有一只狗躺在沙地上，为这个场景增添了一种放松的气氛。
	照片捕捉到一幅美丽如画的大自然场景，背景是高山峦崖。在水边，一座巨大的喷泉横跨着水面，吸引着许多游客。水面上有几个人，他们或站或坐在喷泉周围，或站或坐。有些人可以看到他们在水中行走，而其他人则站在水边。总体而言，这幅画描绘的是一个美丽而宁静的环境，在那里人们可以欣赏到如画般的美景。	在一个美丽的蓝色天空下，一座巨大而巨大的白色瀑布上方悬挂着一只巨大的湿流水。这只瀑布位于一座山上，为整个场景增添了一种迷人而又宁静的气氛。在这幅图像的背景中，可以看到几艘船，其中一些靠近水边，其他的则离得较远。这些船只似乎正在为风景或户外活动做准备。
	图中，一个男人坐在公园的长椅上，旁边是一把绿色椅子。他身边有一本打开的书，上面写着"读书"一句话，暗示他可能正在阅读。公园里有一张长椅和一张公园长椅，为周围的环境增添了几分生气。在公园的周围，有几辆汽车和一辆卡车，表明这是一个公共区域。此外，还可以看到一个人站在公园的不同位置上，可能是等着上路或过马路。	一个穿着短裤的老人坐在公园长椅上，周围是树木。他似乎正在读一本书，可能是在读书。背景中有一座长凳，为这个场景提供了充足的座位。在背景中，可以看到一把椅子和一张餐桌，这说明这个场景可能是在一个户外座位区，那里有椅子供人们坐下来放松。
	图中，一只白色的棕熊坐在草地上，旁边是一只长着棕色斑点的大熊。这只熊看起来很害羞或顽皮，因为它正躺在草地上休息，看上去很放松。	在这幅图像中，一只棕色的熊正在草地上漫步。这只熊被放置在草地上，占据了画面的大部分空间。它似乎正在自然环境中行走，可能是在草地上。在背景中，有几棵树，为画面增添了自然元素。一只鸟在场景的中间附近飞翔，为画面增添了生气勃勃的气氛。
	图片展示了一个漂亮的花瓶，里面插满了五颜六色的鲜花和花束。这些花束散落在整个花瓶中，给人一种赏心悦目的感觉。花瓶里插着五颜六色鲜花，创造出一种令人赏心悦目的景象。这些鲜花被摆放在一张桌子上，很可能是为了展示它们的美丽而摆放的。	场景中，一辆绿色和紫色相间的自行车停在一栋建筑旁边，它被放置在一棵大树旁。这辆自行车被摆放在附近，为这个场景增添了几分色彩。除了自行车外，还有一些其他的自行车，包括两个位于前景中的一个和位于背景中靠近中心位置的另一个。自行车的存在表明它可能是停在那里的。
	图片中的女人穿着一件白色连衣裙，脚上还系着一条黑色网球裙。她正在表演一个网球比赛，很可能是在比赛中。在背景中可以看到几把椅子，可能是为了观众或其他观众的座位安排而摆放的。此外，还有一个长凳放在场景左侧，为人们提供了一个休息的地方。	一名身穿白色衣服的女子站在舞台上，手里拿着一只手拿着白色飞盘。她似乎正在参加一个舞台舞会或比赛。场景中还有其他几个人，其中一个站在舞台左侧，另一个站在右侧，第三个人则站在场地右侧。舞台上有几个观众，有的站着，有的坐着，还有一些站着。这看起来像是一场欢乐的节日或活动。

效果小结：

视觉信号对于LLM视作一种特殊的外语，因此“学习外语”的能力高低，很大程度上取决于LLM的能力。 LLM性能越强，对应的VLM必然越强，此时效果增益会很明显。

未来值得改进的方面：

> 更简单的Projection的跨模态特征对齐方式，相较于Cross-Attention可能处于劣势。
> Clip模型可以尝试更大性能更强的large系列，用更具细粒度的token表征图像特征，目前仍粗糙。
> 分辨率不高，理论上只有224×224（minimind-v数据集为节省空间，仅设定为128×128）。
> ...

📌 Acknowledge

Tip

如果您觉得 MiniMind-V对您有所帮助，可以在 GitHub 上加一个⭐
水平有限难免存在未知的纰漏，欢迎所有人在Issues交流指正或提交PR改进项目
您的支持就是持续改进项目的动力，谢谢！

🤝贡献者

😊鸣谢

@xinyanghuang7: 多图vlm分支 | 仓库截至此版本提供

参考链接 & 感谢以下优秀的论文或项目

排名不分任何先后顺序
LlaVA
LlaVA-VL
Chinese-LLaVA-Vision-Instructions

🫶支持者

github contribution grid snake animation

🎓 Citation

If you find MiniMind-V helpful in your research or work, please cite:

@misc{minimind,
  title={MiniMind-V: Train a Tiny VLM from scratch},
  author={Jingyao Gong},
  year={2024},
  howpublished={https://github.com/jingyaogong/minimind-v}
}

License

This repository is licensed under the Apache-2.0 License.

Name		Name	Last commit message	Last commit date
Latest commit History 139 Commits
dataset		dataset
images		images
model		model
scripts		scripts
trainer		trainer
.gitignore		.gitignore
CODE_OF_CONDUCT.md		CODE_OF_CONDUCT.md
LICENSE		LICENSE
README.md		README.md
README_en.md		README_en.md
eval_vlm.py		eval_vlm.py
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

"大道至简"

📌 Introduction

👉最近更新

📌 快速开始

第0步

Ⅰ 测试已有模型效果

1.环境准备

2.下载模型

3.命令行问答

4.或启动WebUI

Ⅱ 从0开始自己训练

1.环境准备

2.数据下载

3.开始训练

4.测试模型效果

📌 VLM Detail

📌 Experiment

Ⅰ 数据集

Ⅱ 训练

Ⅲ 模型权重

📌 Test

效果测试

单图对话

效果小结：

未来值得改进的方面：

📌 Acknowledge

🤝贡献者

😊鸣谢

🫶支持者

🎓 Citation

License

About

Uh oh!

Releases

Packages

Languages

License

classcv-poc/minimind-v

Folders and files

Latest commit

History

Repository files navigation

"大道至简"

📌 Introduction

👉最近更新

📌 快速开始

第0步

Ⅰ 测试已有模型效果

1.环境准备

2.下载模型

3.命令行问答

4.或启动WebUI

Ⅱ 从0开始自己训练

1.环境准备

2.数据下载

3.开始训练

4.测试模型效果

📌 VLM Detail

📌 Experiment

Ⅰ 数据集

Ⅱ 训练

Ⅲ 模型权重

📌 Test

效果测试

单图对话

效果小结：

未来值得改进的方面：

📌 Acknowledge

🤝贡献者

😊鸣谢

🫶支持者

🎓 Citation

License

About

Resources

License

Code of conduct

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages