Skip to content

Hệ thống Hỏi đáp trực quan (VQA). Mô hình AI đa phương thức kết hợp Thị giác máy tính (CNN) và Xử lý ngôn ngữ tự nhiên (LSTM) để trả lời câu hỏi dựa trên nội dung hình ảnh.

Notifications You must be signed in to change notification settings

MingDanng/VQA_DeepLearning_Project

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

1 Commit
 
 
 
 
 
 
 
 
 
 

Repository files navigation

👁️ Visual Question Answering (VQA) with Attention Mechanism

PyTorch Python Kaggle

📖 Introduction (Giới thiệu)

Visual Question Answering (VQA) là một bài toán thách thức trong lĩnh vực AI, yêu cầu máy tính phải hiểu đồng thời nội dung hình ảnh (Computer Vision) và ngôn ngữ tự nhiên (NLP) để trả lời câu hỏi.

Dự án này tập trung xây dựng mô hình Deep Learning sử dụng cơ chế Attention Mechanism, giúp mô hình tập trung vào các vùng ảnh quan trọng liên quan đến câu hỏi, từ đó nâng cao độ chính xác so với các phương pháp truyền thống.

📂 Project Documents (Tài liệu Báo cáo)

Chi tiết về lý thuyết, thiết kế thuật toán và phân tích kết quả được trình bày đầy đủ tại đây:

🧠 Model Architecture (Kiến trúc Mô hình)

Hệ thống được xây dựng dựa trên kiến trúc Hybrid Neural Network kết hợp giữa CNN và RNN:

Sơ đồ kiến trúc: Architecture

Chi tiết kỹ thuật:

  • Image Encoder: Sử dụng ResNet-50 (Pre-trained trên ImageNet) để trích xuất đặc trưng không gian (Spatial Features) của ảnh.
  • Question Encoder: Sử dụng LSTM (Long Short-Term Memory) để xử lý chuỗi từ và nắm bắt ngữ cảnh câu hỏi.
  • Attention Layer: Cơ chế trọng tâm giúp mô hình "nhìn" vào vùng ảnh có liên quan nhất tới từ khóa trong câu hỏi.
  • Classifier: Mạng Fully Connected kết hợp đặc trưng ảnh và câu hỏi để phân loại ra 1 trong 1000 câu trả lời phổ biến nhất.

📊 Experiments & Results (Thực nghiệm)

Mô hình đã được đánh giá trên tập dữ liệu VQAv2 (Validation Set). Kết quả cho thấy việc áp dụng Attention và ResNet-50 mang lại hiệu suất vượt trội so với Baseline.

Model Configuration Accuracy
Baseline (ResNet-18 + LSTM) 41.32%
Proposed (ResNet-50 + Attention) 46.04%

Biểu đồ so sánh độ chính xác: Accuracy Chart

📸 Demo Results

Dưới đây là một số kết quả dự đoán thực tế của mô hình trên tập Test.

Kết quả 1 Kết quả 2
Demo 1 Demo 2

📂 Dataset

Dự án sử dụng bộ dữ liệu VQA v2.0 (MS COCO Images).

  • Input: Ảnh và câu hỏi mở.
  • Output: Câu trả lời ngắn.
  • Lưu ý: Dataset không bao gồm trong Repo này do kích thước lớn.

🚀 Installation & Usage

Dự án được thiết kế để chạy trên môi trường Kaggle hoặc Google Colab (GPU T4/P100).

  1. Clone repository:
    git clone [https://github.com/username/VQA_Project.git](https://github.com/username/VQA_Project.git)
  2. Cài đặt thư viện:
    pip install -r requirements.txt
  3. Chạy Notebook: Mở file notebooks/VQA_ResNet_LSTM_Attention.ipynb và chạy từng cell.

👨‍💻 Author

  • Student: Nguyễn Phúc Minh Đăng (ID: 521H0497)
  • Course: Deep Learning (Mid-term Project)
  • Instructor: PGS. TS. Lê Anh Cường

Ho Chi Minh City, 2025

About

Hệ thống Hỏi đáp trực quan (VQA). Mô hình AI đa phương thức kết hợp Thị giác máy tính (CNN) và Xử lý ngôn ngữ tự nhiên (LSTM) để trả lời câu hỏi dựa trên nội dung hình ảnh.

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors