Add beginner-friendly blog post explaining VLAs and diffusion models by AKHIL-149 · Pull Request #5 · keivalya/mini-vla

AKHIL-149 · 2025-12-08T06:35:31Z

Summary

This PR adds a comprehensive, beginner-friendly blog post that addresses issue #1.

Content Covered

The blog post explains:

What VLAs are - Vision-Language-Action models that integrate visual perception, language understanding, and motor control
Why diffusion models work for robot actions - Handles multimodality, produces smooth trajectories, and allows iterative refinement
How mini-VLA is designed - Detailed architecture breakdown:
- Three encoders (Image/Text/State)
- Fusion module for combining embeddings
- Diffusion policy head for action generation
Training & evaluation pipeline - Complete walkthrough from data collection to testing

Style

Written in a friendly, conversational tone
Uses analogies and real-world examples
Includes code snippets and architecture explanations
Suitable for beginners with no prior robotics/ML experience
Encourages experimentation and learning

File Added

BLOG.md - Complete blog post (~3500 words)

Closes #1

This blog post provides a comprehensive introduction to: - What Vision-Language-Action (VLA) models are and why they matter - Why diffusion models are effective for generating robot actions - How mini-VLA is designed (encoders, fusion, diffusion head) - Complete training and evaluation pipeline Written in an accessible, beginner-friendly style with clear explanations, analogies, and step-by-step walkthroughs. Addresses issue keivalya#1

This commit adds detailed architecture documentation with ASCII diagrams and mermaid-style visualizations for: 1. Vision Encoder (ImageEncoderTinyCNN) - Layer-by-layer breakdown with dimensions - Design choices and example transformations 2. Text Encoder (TextEncoderTinyGRU) - GRU internal mechanism - Token embedding and sequence processing 3. Fusion Module (FusionMLP) - Multi-modal concatenation and fusion - Information flow visualization 4. Diffusion Head (DiffusionPolicyHead) - Forward and reverse diffusion processes - Sinusoidal time embeddings - Beta schedules and sampling procedures 5. Complete VLA Pipeline - End-to-end data flow - Training and inference loops - Parameter counts and memory usage Also includes scaling considerations for future development of MT10/MT50 multi-task capabilities. Addresses issue keivalya#2

keivalya · 2026-01-08T14:19:17Z

Thanks for your contribution, however I was looking for some seperate format and language of tutorials. Check them out at

Building Vision-Language-Action Model from scratch (Basics)

Building VLA models from scratch — II (Math, Code, and Intuition)

Upgrading mini-VLA with CLIP/SigLIP vision encoders

Thanks for your time and efforts into it! I truly appreciate it.

AKHIL-149 added 2 commits December 8, 2025 01:30

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Add beginner-friendly blog post explaining VLAs and diffusion models#5

Add beginner-friendly blog post explaining VLAs and diffusion models#5
AKHIL-149 wants to merge 2 commits intokeivalya:mainfrom
AKHIL-149:add-beginner-blog

AKHIL-149 commented Dec 8, 2025

Uh oh!

keivalya commented Jan 8, 2026

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants

Conversation

AKHIL-149 commented Dec 8, 2025

Summary

Content Covered

Style

File Added

Uh oh!

keivalya commented Jan 8, 2026

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants