Visual Question Answering (VQA) là một bài toán thách thức trong lĩnh vực AI, yêu cầu máy tính phải hiểu đồng thời nội dung hình ảnh (Computer Vision) và ngôn ngữ tự nhiên (NLP) để trả lời câu hỏi.
Dự án này tập trung xây dựng mô hình Deep Learning sử dụng cơ chế Attention Mechanism, giúp mô hình tập trung vào các vùng ảnh quan trọng liên quan đến câu hỏi, từ đó nâng cao độ chính xác so với các phương pháp truyền thống.
Chi tiết về lý thuyết, thiết kế thuật toán và phân tích kết quả được trình bày đầy đủ tại đây:
- 📄 Báo cáo Giữa kỳ (Report): Xem file báo cáo (DOCX)
- 📊 Slide Thuyết trình (Presentation): Xem slide thuyết trình (PPTX)
Hệ thống được xây dựng dựa trên kiến trúc Hybrid Neural Network kết hợp giữa CNN và RNN:
- Image Encoder: Sử dụng ResNet-50 (Pre-trained trên ImageNet) để trích xuất đặc trưng không gian (Spatial Features) của ảnh.
- Question Encoder: Sử dụng LSTM (Long Short-Term Memory) để xử lý chuỗi từ và nắm bắt ngữ cảnh câu hỏi.
- Attention Layer: Cơ chế trọng tâm giúp mô hình "nhìn" vào vùng ảnh có liên quan nhất tới từ khóa trong câu hỏi.
- Classifier: Mạng Fully Connected kết hợp đặc trưng ảnh và câu hỏi để phân loại ra 1 trong 1000 câu trả lời phổ biến nhất.
Mô hình đã được đánh giá trên tập dữ liệu VQAv2 (Validation Set). Kết quả cho thấy việc áp dụng Attention và ResNet-50 mang lại hiệu suất vượt trội so với Baseline.
| Model Configuration | Accuracy |
|---|---|
| Baseline (ResNet-18 + LSTM) | 41.32% |
| Proposed (ResNet-50 + Attention) | 46.04% |
Dưới đây là một số kết quả dự đoán thực tế của mô hình trên tập Test.
| Kết quả 1 | Kết quả 2 |
|---|---|
![]() |
![]() |
Dự án sử dụng bộ dữ liệu VQA v2.0 (MS COCO Images).
- Input: Ảnh và câu hỏi mở.
- Output: Câu trả lời ngắn.
- Lưu ý: Dataset không bao gồm trong Repo này do kích thước lớn.
Dự án được thiết kế để chạy trên môi trường Kaggle hoặc Google Colab (GPU T4/P100).
- Clone repository:
git clone [https://github.com/username/VQA_Project.git](https://github.com/username/VQA_Project.git)
- Cài đặt thư viện:
pip install -r requirements.txt
- Chạy Notebook:
Mở file
notebooks/VQA_ResNet_LSTM_Attention.ipynbvà chạy từng cell.
- Student: Nguyễn Phúc Minh Đăng (ID: 521H0497)
- Course: Deep Learning (Mid-term Project)
- Instructor: PGS. TS. Lê Anh Cường
Ho Chi Minh City, 2025



