feat: comprehensive Docker improvements and precision summary enhancements

fcostaoliveira · fcostaoliveira · commit 6d6f2e69a821 · 2025-07-14T11:05:22.000+01:00
- Simplify Docker tagging strategy to only latest and version tags
- Change Docker image repository from filipe958/vector-db-benchmark to redis/vector-db-benchmark
- Fix Docker volume permission issues with smart entrypoint script
- Add precision_summary field with clean QPS, P50, P95 metrics
- Update Python version support to include 3.13
- Add comprehensive Redis environment variables (REDIS_AUTH, REDIS_USER, REDIS_CLUSTER)
- Create Docker-specific README with Redis 8.2 examples
- Update all documentation to use redis/vector-db-benchmark consistently
- Enhance GitHub Actions with Redis CLI installation and Poetry support
diff --git a/.github/workflows/docker-publish-master.yml b/.github/workflows/docker-publish-master.yml
@@ -1,4 +1,4 @@
-name: Docker Publish - update.redisearch branch
+name: Docker Publish - Latest
 
 on:
   push:
@@ -11,7 +11,7 @@ on:
 
 env:
   REGISTRY: docker.io
-  IMAGE_NAME: filipe958/vector-db-benchmark
+  IMAGE_NAME: redis/vector-db-benchmark
 
 jobs:
   docker-publish:
@@ -61,8 +61,6 @@ jobs:
           images: ${{ env.IMAGE_NAME }}
           tags: |
             type=raw,value=latest
-            type=raw,value=update-redisearch-{{sha}}
-            type=raw,value=update-redisearch-{{date 'YYYYMMDD-HHmmss'}}
 
       - name: Build and push Docker image
         uses: docker/build-push-action@v5
@@ -95,4 +93,4 @@ jobs:
           echo "docker run --rm ${{ env.IMAGE_NAME }}:latest run.py --help" >> $GITHUB_STEP_SUMMARY
           echo "\`\`\`" >> $GITHUB_STEP_SUMMARY
           echo "" >> $GITHUB_STEP_SUMMARY
-          echo "🔗 [View on Docker Hub](https://hub.docker.com/r/filipe958/vector-db-benchmark)" >> $GITHUB_STEP_SUMMARY
+          echo "🔗 [View on Docker Hub](https://hub.docker.com/r/redis/vector-db-benchmark)" >> $GITHUB_STEP_SUMMARY
diff --git a/.github/workflows/docker-publish-release.yml b/.github/workflows/docker-publish-release.yml
@@ -6,7 +6,7 @@ on:
 
 env:
   REGISTRY: docker.io
-  IMAGE_NAME: filipe958/vector-db-benchmark
+  IMAGE_NAME: redis/vector-db-benchmark
 
 jobs:
   docker-publish:
@@ -57,9 +57,6 @@ jobs:
           tags: |
             type=ref,event=tag
             type=semver,pattern={{version}}
-            type=semver,pattern={{major}}.{{minor}}
-            type=semver,pattern={{major}}
-            type=raw,value=latest,enable={{is_default_branch}}
 
       - name: Build and push Docker image
         uses: docker/build-push-action@v5
@@ -110,5 +107,5 @@ jobs:
           echo "docker run --rm ${{ env.IMAGE_NAME }}:latest run.py --help" >> $GITHUB_STEP_SUMMARY
           echo "\`\`\`" >> $GITHUB_STEP_SUMMARY
           echo "" >> $GITHUB_STEP_SUMMARY
-          echo "🔗 [View on Docker Hub](https://hub.docker.com/r/filipe958/vector-db-benchmark)" >> $GITHUB_STEP_SUMMARY
+          echo "🔗 [View on Docker Hub](https://hub.docker.com/r/redis/vector-db-benchmark)" >> $GITHUB_STEP_SUMMARY
           echo "🔒 [Security Scan Results](https://github.com/${{ github.repository }}/security/code-scanning)" >> $GITHUB_STEP_SUMMARY
diff --git a/DOCKER_README.md b/DOCKER_README.md
@@ -0,0 +1,135 @@
+# Redis Vector Database Benchmark
+
+A comprehensive benchmarking tool for vector databases, including Redis (both RediSearch and Vector Sets), Weaviate, Milvus, Qdrant, OpenSearch, Postgres, and others...
+
+## Quick Start
+
+```bash
+# Pull the latest image
+docker pull redis/vector-db-benchmark:latest
+
+# Run with help
+docker run --rm redis/vector-db-benchmark:latest run.py --help
+
+# Check available datasets
+docker run --rm redis/vector-db-benchmark:latest run.py --describe datasets
+
+# Basic Redis benchmark (requires local Redis)
+docker run --rm -v $(pwd)/results:/app/results --network=host \
+  redis/vector-db-benchmark:latest \
+  run.py --host localhost --engines redis-default-simple --dataset random-100
+```
+
+## Features
+
+- **42+ Datasets**: Pre-configured datasets from 25 to 1B+ vectors
+- **Multiple Engines**: Redis, Qdrant, Weaviate, Milvus, and more
+- **Real-time Monitoring**: Live performance metrics during benchmarks
+- **Precision Analysis**: Detailed accuracy vs performance trade-offs
+- **Easy Discovery**: `--describe` commands for datasets and engines
+
+## Available Tags
+
+- `latest` - Latest development build from update.redisearch branch
+
+## Redis quick start
+
+### Redis 8.2 with RediSearch
+```bash
+# Start Redis 8.2 with built-in vector support
+docker run -d --name redis-test -p 6379:6379 redis:8.2-rc1-bookworm
+
+# Run benchmark
+docker run --rm -v $(pwd)/results:/app/results --network=host \
+  redis/vector-db-benchmark:latest \
+  run.py --host localhost --engines redis-default-simple --dataset glove-25-angular
+```
+
+
+## Common Usage Patterns
+
+### Explore Available Options
+```bash
+# List all datasets
+docker run --rm redis/vector-db-benchmark:latest run.py --describe datasets
+
+# List all engines
+docker run --rm redis/vector-db-benchmark:latest run.py --describe engines
+```
+
+### Run Benchmarks
+```bash
+# Quick test with small dataset
+docker run --rm -v $(pwd)/results:/app/results --network=host \
+  redis/vector-db-benchmark:latest \
+  run.py --host localhost --engines redis-default-simple --dataset random-100
+
+# Comprehensive benchmark with multiple configurations
+docker run --rm -v $(pwd)/results:/app/results --network=host \
+  redis/vector-db-benchmark:latest \
+  run.py --host localhost --engines "*redis*" --dataset glove-25-angular
+
+# With Redis authentication
+docker run --rm -v $(pwd)/results:/app/results --network=host \
+  -e REDIS_AUTH=mypassword -e REDIS_USER=myuser \
+  redis/vector-db-benchmark:latest \
+  run.py --host localhost --engines redis-default-simple --dataset random-100
+```
+
+### Results Analysis
+```bash
+# View precision summary
+jq '.precision_summary' results/*-summary.json
+
+# View detailed results
+jq '.search' results/*-summary.json
+```
+
+## Volume Mounts
+
+- `/app/results` - Benchmark results (JSON files)
+- `/app/datasets` - Dataset storage (optional, auto-downloaded)
+
+## Environment Variables
+
+- `REDIS_HOST` - Redis server hostname (default: localhost)
+- `REDIS_PORT` - Redis server port (default: 6379)
+- `REDIS_AUTH` - Redis password (default: None)
+- `REDIS_USER` - Redis username (default: None)
+- `REDIS_CLUSTER` - Enable Redis cluster mode (default: 0)
+
+## Performance Tips
+
+1. **Use `--network=host`** for best performance with local Redis
+2. **Mount results volume** to persist benchmark data
+3. **Start with small datasets** (random-100, glove-25-angular) for testing
+4. **Use wildcard patterns** to test multiple configurations: `--engines "*-m-16-*"`
+
+## Example Output
+
+```json
+{
+  "precision_summary": {
+    "0.91": {
+      "qps": 1924.5,
+      "p50": 49.828,
+      "p95": 58.427
+    },
+    "0.94": {
+      "qps": 1819.9,
+      "p50": 51.68,
+      "p95": 66.83
+    }
+  }
+}
+```
+
+## Support
+
+- **GitHub**: [redis-performance/vector-db-benchmark](https://github.com/redis-performance/vector-db-benchmark)
+- **Issues**: Report bugs and feature requests on GitHub
+- **Documentation**: Full documentation available in the repository
+
+## License
+
+This project is licensed under the MIT License - see the repository for details.
diff --git a/DOCKER_SETUP.md b/DOCKER_SETUP.md
@@ -1,6 +1,6 @@
 # Docker Setup and Publishing Guide
 
-This guide explains how to set up Docker publishing for the `vector-db-benchmark` project to Docker Hub repository `filipe958/vector-db-benchmark`.
+This guide explains how to set up Docker publishing for the `vector-db-benchmark` project to Docker Hub repository `redis/vector-db-benchmark`.
 
 ## 🔐 Required GitHub Secrets
 
@@ -57,11 +57,8 @@ Once secrets are configured, Docker images will be automatically published:
 
 ### Example Tags for Release v1.2.3
 ```
-filipe958/vector-db-benchmark:v1.2.3
-filipe958/vector-db-benchmark:1.2.3
-filipe958/vector-db-benchmark:1.2
-filipe958/vector-db-benchmark:1
-filipe958/vector-db-benchmark:latest
+redis/vector-db-benchmark:v1.2.3
+redis/vector-db-benchmark:latest
 ```
 
 ## 🛠️ Manual Building and Publishing
@@ -100,32 +97,32 @@ export DOCKER_PASSWORD=your_access_token
 ### Pull and Run
 ```bash
 # Latest version
-docker pull filipe958/vector-db-benchmark:latest
-docker run --rm filipe958/vector-db-benchmark:latest run.py --help
+docker pull redis/vector-db-benchmark:latest
+docker run --rm redis/vector-db-benchmark:latest run.py --help
 
 # Specific version
-docker pull filipe958/vector-db-benchmark:v1.2.3
-docker run --rm filipe958/vector-db-benchmark:v1.2.3 run.py --help
+docker pull redis/vector-db-benchmark:v1.2.3
+docker run --rm redis/vector-db-benchmark:v1.2.3 run.py --help
 ```
 
 ### Example Usage
 ```bash
 # Basic Redis benchmark
-docker run --rm --network=host filipe958/vector-db-benchmark:latest \
+docker run --rm --network=host redis/vector-db-benchmark:latest \
   run.py --host localhost --engines redis --dataset random-100 --experiment redis-default-simple
 
 # With custom Redis host
-docker run --rm filipe958/vector-db-benchmark:latest \
+docker run --rm redis/vector-db-benchmark:latest \
   run.py --host redis-server --engines redis --dataset random-100 --experiment redis-default-simple
 
 # With results output (mount current directory)
 docker run --rm -v $(pwd)/results:/app/results --network=host \
-  filipe958/vector-db-benchmark:latest \
+  redis/vector-db-benchmark:latest \
   run.py --host localhost --engines redis --dataset random-100 --experiment redis-default-simple
 
 # Using with Redis container
 docker run -d --name redis-test -p 6379:6379 redis:8.2-rc1-bookworm
-docker run --rm --network=host filipe958/vector-db-benchmark:latest \
+docker run --rm --network=host redis/vector-db-benchmark:latest \
   run.py --host localhost --engines redis --experiment redis-default-simple
 docker stop redis-test && docker rm redis-test
 ```
@@ -145,7 +142,7 @@ docker stop redis-test && docker rm redis-test
 - Prevents merging PRs with broken Docker builds
 
 ### Docker Hub
-- View images at: https://hub.docker.com/r/filipe958/vector-db-benchmark
+- View images at: https://hub.docker.com/r/redis/vector-db-benchmark
 - Check image sizes and platforms
 - Review vulnerability scan results
 
diff --git a/README.md b/README.md
@@ -25,17 +25,17 @@ The easiest way to run vector-db-benchmark is using Docker. We provide pre-built
 
 ```bash
 # Pull the latest image
-docker pull filipe958/vector-db-benchmark:latest
+docker pull redis/vector-db-benchmark:latest
 
 # Run with help
-docker run --rm filipe958/vector-db-benchmark:latest run.py --help
+docker run --rm redis/vector-db-benchmark:latest run.py --help
 
 # Check which datasets are available
-docker run --rm filipe958/vector-db-benchmark:latest run.py --describe datasets
+docker run --rm redis/vector-db-benchmark:latest run.py --describe datasets
 
 # Basic Redis benchmark with local Redis
 docker run --rm -v $(pwd)/results:/app/results --network=host \
-  filipe958/vector-db-benchmark:latest \
+  redis/vector-db-benchmark:latest \
   run.py --host localhost --engines redis-default-simple --datasets glove-25-angular
 
 # At the end of the run, you will find the results in the `results` directory. Lets open the summary one, in the precision summary
@@ -76,7 +76,7 @@ docker run -d --name redis-test -p 6379:6379 redis:8.2-rc1-bookworm
 # Run benchmark against Redis
 
 docker run --rm -v $(pwd)/results:/app/results --network=host \
-  filipe958/vector-db-benchmark:latest \
+  redis/vector-db-benchmark:latest \
   run.py --host localhost --engines redis-default-simple --dataset random-100
 
 # Or use the convenience script
@@ -89,7 +89,7 @@ docker stop redis-test && docker rm redis-test
 
 ### Available Docker Images
 
-- **Latest**: `filipe958/vector-db-benchmark:latest`
+- **Latest**: `redis/vector-db-benchmark:latest`
 
 For detailed Docker setup and publishing information, see [DOCKER_SETUP.md](DOCKER_SETUP.md).
 
@@ -186,7 +186,7 @@ python run.py --engines "*-m-16-*" --dataset "glove-*"
 
 # Docker usage (recommended)
 docker run --rm -v $(pwd)/results:/app/results --network=host \
-  filipe958/vector-db-benchmark:latest \
+  redis/vector-db-benchmark:latest \
   run.py --host localhost --engines redis-default-simple --dataset random-100
 
 # Get help
diff --git a/docker-build.sh b/docker-build.sh
@@ -6,7 +6,7 @@
 set -e
 
 # Default values
-IMAGE_NAME="filipe958/vector-db-benchmark"
+IMAGE_NAME="redis/vector-db-benchmark"
 TAG="latest"
 PLATFORM=""
 PUSH=false
@@ -35,18 +35,18 @@ usage() {
     echo "Usage: $0 [OPTIONS]"
     echo ""
     echo "Options:"
-    echo "  -n, --name NAME       Docker image name (default: redis-performance/vector-db-benchmark)"
+    echo "  -n, --name NAME       Docker image name (default: redis/vector-db-benchmark)"
     echo "  -t, --tag TAG         Docker image tag (default: latest)"
     echo "  -p, --platform PLATFORM Target platform (e.g., linux/amd64,linux/arm64)"
     echo "  --push                Push image to Docker Hub after building"
     echo "  -h, --help            Show this help message"
     echo ""
     echo "Examples:"
-    echo "  $0                                    # Build with defaults"
-    echo "  $0 -t v1.0.0 --push                 # Build and push with custom tag"
+    echo "  $0                                    # Build with defaults (latest tag)"
+    echo "  $0 -t v1.0.0 --push                 # Build and push version tag"
     echo "  $0 -p linux/amd64,linux/arm64 --push # Multi-platform build and push"
     echo ""
-    echo "Docker Hub Repository: redis-performance/vector-db-benchmark"
+    echo "Docker Hub Repository: redis/vector-db-benchmark"
 }
 
 # Parse command line arguments
@@ -80,13 +80,8 @@ while [[ $# -gt 0 ]]; do
     esac
 done
 
-# Get Git information
-print_info "Gathering Git information..."
-GIT_SHA=$(git rev-parse HEAD 2>/dev/null || echo "unknown")
-GIT_DIRTY=$(git diff --no-ext-diff 2>/dev/null | wc -l || echo "0")
-
-print_info "Git SHA: $GIT_SHA"
-print_info "Git Dirty: $GIT_DIRTY"
+# Prepare for build
+print_info "Preparing Docker build..."
 
 # Build Docker image
 FULL_IMAGE_NAME="${IMAGE_NAME}:${TAG}"
@@ -119,8 +114,8 @@ else
     BUILD_CMD="docker build"
 fi
 
-# Add build arguments and tags
-BUILD_CMD="$BUILD_CMD --build-arg GIT_SHA=$GIT_SHA --build-arg GIT_DIRTY=$GIT_DIRTY -t $FULL_IMAGE_NAME ."
+# Add tags
+BUILD_CMD="$BUILD_CMD -t $FULL_IMAGE_NAME ."
 
 print_info "Executing: $BUILD_CMD"
 
@@ -173,7 +168,7 @@ if eval $BUILD_CMD; then
     echo "  docker run --rm --network=host $FULL_IMAGE_NAME run.py --host localhost --engines redis"
     echo ""
     if [[ "$PUSH" == "true" ]]; then
-        print_info "Image available on Docker Hub: https://hub.docker.com/r/redis-performance/vector-db-benchmark"
+        print_info "Image available on Docker Hub: https://hub.docker.com/r/redis/vector-db-benchmark"
     fi
 else
     print_error "❌ Docker build failed"
diff --git a/docker-run.sh b/docker-run.sh