Fix the container build error: remove pip installs from the CUDA Dockerfile to avoid PEP 668.

coketaste · coketaste · commit d0860cb1cafe · 2025-09-22T12:31:21.000-04:00
Fix the nvcc compile error: stop forcing hardcoded -arch flags (sm_70, sm_75, etc.) and detect the actual GPU arch at build time.
Clean up source code broken by CUDA 13 deprecations: replace uses of memoryClockRate and memoryBusWidth from cudaDeviceProp with cudaDeviceGetAttribute.
diff --git a/modules/module1/examples/03_matrix_multiplication_cuda.cu b/modules/module1/examples/03_matrix_multiplication_cuda.cu
@@ -210,8 +210,13 @@ int main() {
     cudaDeviceProp props;
     CUDA_CHECK(cudaGetDeviceProperties(&props, 0));
     printf("Running on: %s\n", props.name);
-    printf("Peak memory bandwidth: %.1f GB/s\n", 
-           2.0 * props.memoryClockRate * (props.memoryBusWidth / 8) / 1.0e6);
+    // CUDA 13: use cudaDeviceGetAttribute for memory metrics
+    int memClockKHz = 0;
+    int busWidthBits = 0;
+    cudaDeviceGetAttribute(&memClockKHz, cudaDevAttrMemoryClockRate, 0);
+    cudaDeviceGetAttribute(&busWidthBits, cudaDevAttrGlobalMemoryBusWidth, 0);
+    double peakGBs = 2.0 * (memClockKHz / 1e6) * (busWidthBits / 8.0);
+    printf("Peak memory bandwidth: %.1f GB/s\n", peakGBs);
     
     // Cleanup
     free(h_A); free(h_B); free(h_C); free(h_C_ref);
diff --git a/modules/module1/examples/04_device_info_cuda.cu b/modules/module1/examples/04_device_info_cuda.cu
@@ -27,10 +27,14 @@ int main() {
                props.maxThreadsDim[0], props.maxThreadsDim[1], props.maxThreadsDim[2]);
         printf("  Max Grid Size: (%d, %d, %d)\n", 
                props.maxGridSize[0], props.maxGridSize[1], props.maxGridSize[2]);
-        printf("  Memory Clock Rate: %.2f GHz\n", props.memoryClockRate / 1e6);
-        printf("  Memory Bus Width: %d bits\n", props.memoryBusWidth);
+        int memClockKHz = 0;
+        int busWidthBits = 0;
+        cudaDeviceGetAttribute(&memClockKHz, cudaDevAttrMemoryClockRate, i);
+        cudaDeviceGetAttribute(&busWidthBits, cudaDevAttrGlobalMemoryBusWidth, i);
+        printf("  Memory Clock Rate: %.2f GHz\n", memClockKHz / 1e6);
+        printf("  Memory Bus Width: %d bits\n", busWidthBits);
         printf("  Peak Memory Bandwidth: %.2f GB/s\n", 
-               2.0 * props.memoryClockRate * (props.memoryBusWidth / 8) / 1.0e6);
+               2.0 * (memClockKHz / 1e6) * (busWidthBits / 8.0));
         printf("  Multiprocessor Count: %d\n", props.multiProcessorCount);
         printf("  L2 Cache Size: %d bytes\n", props.l2CacheSize);
         printf("  Max Threads per Multiprocessor: %d\n", props.maxThreadsPerMultiProcessor);
diff --git a/modules/module1/examples/05_performance_comparison_cuda.cu b/modules/module1/examples/05_performance_comparison_cuda.cu
@@ -160,8 +160,11 @@ int main() {
     cudaDeviceProp props;
     CUDA_CHECK(cudaGetDeviceProperties(&props, 0));
     printf("GPU: %s\n", props.name);
+    int memClockKHz = 0, busWidthBits = 0;
+    cudaDeviceGetAttribute(&memClockKHz, cudaDevAttrMemoryClockRate, 0);
+    cudaDeviceGetAttribute(&busWidthBits, cudaDevAttrGlobalMemoryBusWidth, 0);
     printf("Peak Memory Bandwidth: %.2f GB/s\n", 
-           2.0 * props.memoryClockRate * (props.memoryBusWidth / 8) / 1.0e6);
+        2.0 * (memClockKHz / 1e6) * (busWidthBits / 8.0));
     
     return 0;
 }
diff --git a/modules/module1/examples/Makefile b/modules/module1/examples/Makefile
@@ -26,7 +26,7 @@ GPU_VENDOR = NONE
 endif
 
 # CUDA architecture detection (prefer actual GPU via nvidia-smi; fallback sm_90)
-CUDA_ARCH ?= $(shell nvidia-smi --query-gpu=compute_cap --format=csv,noheader,nounits 2>/dev/null | head -1 | awk -F. '/^[0-9]+\.[0-9]+$/ {printf "sm_%d%d", $$1, $$2}')
+CUDA_ARCH ?= $(shell nvidia-smi --query-gpu=compute_cap --format=csv,noheader,nounits 2>/dev/null | head -1 | tr -dc '0-9' | sed -e 's/^/sm_/')
 ifeq ($(strip $(CUDA_ARCH)),)
 	CUDA_ARCH := sm_90
 endif
diff --git a/modules/module2/examples/02_memory_coalescing_cuda.cu b/modules/module2/examples/02_memory_coalescing_cuda.cu
@@ -354,10 +354,13 @@ int main() {
     cudaDeviceProp props;
     CUDA_CHECK(cudaGetDeviceProperties(&props, 0));
     printf("Running on: %s\n", props.name);
+    int memClockKHz = 0, busWidthBits = 0;
+    cudaDeviceGetAttribute(&memClockKHz, cudaDevAttrMemoryClockRate, 0);
+    cudaDeviceGetAttribute(&busWidthBits, cudaDevAttrGlobalMemoryBusWidth, 0);
     printf("Global memory bandwidth: %.1f GB/s\n", 
-           2.0 * props.memoryClockRate * (props.memoryBusWidth / 8) / 1.0e6);
-    printf("Memory bus width: %d bits\n", props.memoryBusWidth);
-    printf("Memory clock rate: %d MHz\n", props.memoryClockRate / 1000);
+        2.0 * (memClockKHz / 1e6) * (busWidthBits / 8.0));
+    printf("Memory bus width: %d bits\n", busWidthBits);
+    printf("Memory clock rate: %d MHz\n", memClockKHz / 1000);
     printf("Warp size: %d threads\n", props.warpSize);
     
     // Run benchmarks
diff --git a/modules/module2/examples/05_memory_bandwidth_optimization_cuda.cu b/modules/module2/examples/05_memory_bandwidth_optimization_cuda.cu
@@ -417,10 +417,13 @@ int main() {
     CUDA_CHECK(cudaGetDeviceProperties(&props, 0));
     printf("Running on: %s\n", props.name);
     
-    double theoretical_bandwidth = 2.0 * props.memoryClockRate * (props.memoryBusWidth / 8) / 1.0e6;
+    int memClockKHz = 0, busWidthBits = 0;
+    cudaDeviceGetAttribute(&memClockKHz, cudaDevAttrMemoryClockRate, 0);
+    cudaDeviceGetAttribute(&busWidthBits, cudaDevAttrGlobalMemoryBusWidth, 0);
+    double theoretical_bandwidth = 2.0 * (memClockKHz / 1e6) * (busWidthBits / 8.0);
     printf("Theoretical peak bandwidth: %.1f GB/s\n", theoretical_bandwidth);
-    printf("Memory clock rate: %d MHz\n", props.memoryClockRate / 1000);
-    printf("Memory bus width: %d bits\n", props.memoryBusWidth);
+    printf("Memory clock rate: %d MHz\n", memClockKHz / 1000);
+    printf("Memory bus width: %d bits\n", busWidthBits);
     printf("L2 cache size: %d MB\n", props.l2CacheSize / (1024 * 1024));
     
     // Run benchmarks
diff --git a/modules/module2/examples/Makefile b/modules/module2/examples/Makefile
@@ -26,7 +26,7 @@ GPU_VENDOR = NONE
 endif
 
 # CUDA architecture detection (prefer actual GPU via nvidia-smi; fallback sm_90)
-CUDA_ARCH ?= $(shell nvidia-smi --query-gpu=compute_cap --format=csv,noheader,nounits 2>/dev/null | head -1 | awk -F. '/^[0-9]+\.[0-9]+$/ {printf "sm_%d%d", $$1, $$2}')
+CUDA_ARCH ?= $(shell nvidia-smi --query-gpu=compute_cap --format=csv,noheader,nounits 2>/dev/null | head -1 | tr -dc '0-9' | sed -e 's/^/sm_/')
 ifeq ($(strip $(CUDA_ARCH)),)
 	CUDA_ARCH := sm_90
 endif
diff --git a/modules/module3/examples/Makefile b/modules/module3/examples/Makefile
@@ -26,7 +26,7 @@ GPU_VENDOR = NONE
 endif
 
 # CUDA architecture detection (prefer actual GPU via nvidia-smi; fallback sm_90)
-CUDA_ARCH ?= $(shell nvidia-smi --query-gpu=compute_cap --format=csv,noheader,nounits 2>/dev/null | head -1 | awk -F. '/^[0-9]+\.[0-9]+$/ {printf "sm_%d%d", $$1, $$2}')
+CUDA_ARCH ?= $(shell nvidia-smi --query-gpu=compute_cap --format=csv,noheader,nounits 2>/dev/null | head -1 | tr -dc '0-9' | sed -e 's/^/sm_/')
 ifeq ($(strip $(CUDA_ARCH)),)
 	CUDA_ARCH := sm_90
 endif
diff --git a/modules/module4/examples/01_cuda_streams_basics.cu b/modules/module4/examples/01_cuda_streams_basics.cu
@@ -330,8 +330,11 @@ int main() {
     printf("Compute Capability: %d.%d\n", prop.major, prop.minor);
     printf("Concurrent Kernels: %s\n", prop.concurrentKernels ? "Yes" : "No");
     printf("Async Engine Count: %d\n", prop.asyncEngineCount);
-    printf("Memory Bus Width: %d bits\n", prop.memoryBusWidth);
-    printf("Memory Clock Rate: %.2f MHz\n\n", prop.memoryClockRate / 1000.0f);
+    int memClockKHz = 0, busWidthBits = 0;
+    cudaDeviceGetAttribute(&memClockKHz, cudaDevAttrMemoryClockRate, 0);
+    cudaDeviceGetAttribute(&busWidthBits, cudaDevAttrGlobalMemoryBusWidth, 0);
+    printf("Memory Bus Width: %d bits\n", busWidthBits);
+    printf("Memory Clock Rate: %.2f MHz\n\n", memClockKHz / 1000.0f);
     
     // Allocate host memory
     const int totalSize = TOTAL_SIZE;
diff --git a/modules/module4/examples/02_multi_gpu_programming.cu b/modules/module4/examples/02_multi_gpu_programming.cu
@@ -83,10 +83,13 @@ void printDeviceInfo() {
         printf("Device %d: %s\n", i, prop.name);
         printf("  Compute Capability: %d.%d\n", prop.major, prop.minor);
         printf("  Global Memory: %.2f GB\n", prop.totalGlobalMem / (1024.0*1024.0*1024.0));
-        printf("  Memory Clock Rate: %.2f MHz\n", prop.memoryClockRate / 1000.0);
-        printf("  Memory Bus Width: %d bits\n", prop.memoryBusWidth);
-        printf("  Peak Memory Bandwidth: %.2f GB/s\n", 
-               2.0 * prop.memoryClockRate * (prop.memoryBusWidth / 8) / 1.0e6);
+     int memClockKHz = 0, busWidthBits = 0;
+     cudaDeviceGetAttribute(&memClockKHz, cudaDevAttrMemoryClockRate, i);
+     cudaDeviceGetAttribute(&busWidthBits, cudaDevAttrGlobalMemoryBusWidth, i);
+     printf("  Memory Clock Rate: %.2f MHz\n", memClockKHz / 1000.0);
+     printf("  Memory Bus Width: %d bits\n", busWidthBits);
+     printf("  Peak Memory Bandwidth: %.2f GB/s\n", 
+         2.0 * (memClockKHz / 1e6) * (busWidthBits / 8.0));
         printf("  Multiprocessors: %d\n", prop.multiProcessorCount);
         printf("  Concurrent Kernels: %s\n", prop.concurrentKernels ? "Yes" : "No");
         
diff --git a/modules/module4/examples/Makefile b/modules/module4/examples/Makefile
@@ -26,7 +26,7 @@ GPU_VENDOR = NONE
 endif
 
 # CUDA architecture detection (prefer actual GPU via nvidia-smi; fallback sm_90)
-CUDA_ARCH ?= $(shell nvidia-smi --query-gpu=compute_cap --format=csv,noheader,nounits 2>/dev/null | head -1 | awk -F. '/^[0-9]+\.[0-9]+$/ {printf "sm_%d%d", $$1, $$2}')
+CUDA_ARCH ?= $(shell nvidia-smi --query-gpu=compute_cap --format=csv,noheader,nounits 2>/dev/null | head -1 | tr -dc '0-9' | sed -e 's/^/sm_/')
 ifeq ($(strip $(CUDA_ARCH)),)
 	CUDA_ARCH := sm_90
 endif
diff --git a/modules/module5/examples/Makefile b/modules/module5/examples/Makefile
@@ -26,7 +26,7 @@ GPU_VENDOR = NONE
 endif
 
 # CUDA architecture detection (prefer actual GPU via nvidia-smi; fallback sm_90)
-CUDA_ARCH ?= $(shell nvidia-smi --query-gpu=compute_cap --format=csv,noheader,nounits 2>/dev/null | head -1 | awk -F. '/^[0-9]+\.[0-9]+$/ {printf "sm_%d%d", $$1, $$2}')
+CUDA_ARCH ?= $(shell nvidia-smi --query-gpu=compute_cap --format=csv,noheader,nounits 2>/dev/null | head -1 | tr -dc '0-9' | sed -e 's/^/sm_/')
 ifeq ($(strip $(CUDA_ARCH)),)
 	CUDA_ARCH := sm_90
 endif
diff --git a/modules/module6/examples/Makefile b/modules/module6/examples/Makefile
@@ -25,7 +25,7 @@ GPU_VENDOR = NONE
 endif
 
 # CUDA architecture detection (prefer actual GPU via nvidia-smi; fallback sm_90)
-CUDA_ARCH ?= $(shell nvidia-smi --query-gpu=compute_cap --format=csv,noheader,nounits 2>/dev/null | head -1 | awk -F. '/^[0-9]+\.[0-9]+$/ {printf "sm_%d%d", $$1, $$2}')
+CUDA_ARCH ?= $(shell nvidia-smi --query-gpu=compute_cap --format=csv,noheader,nounits 2>/dev/null | head -1 | tr -dc '0-9' | sed -e 's/^/sm_/')
 ifeq ($(strip $(CUDA_ARCH)),)
 	CUDA_ARCH := sm_90
 endif
diff --git a/modules/module7/examples/Makefile b/modules/module7/examples/Makefile
@@ -25,7 +25,7 @@ GPU_VENDOR = NONE
 endif
 
 # CUDA architecture detection (prefer actual GPU via nvidia-smi; fallback sm_90)
-CUDA_ARCH ?= $(shell nvidia-smi --query-gpu=compute_cap --format=csv,noheader,nounits 2>/dev/null | head -1 | awk -F. '/^[0-9]+\.[0-9]+$/ {printf "sm_%d%d", $$1, $$2}')
+CUDA_ARCH ?= $(shell nvidia-smi --query-gpu=compute_cap --format=csv,noheader,nounits 2>/dev/null | head -1 | tr -dc '0-9' | sed -e 's/^/sm_/')
 ifeq ($(strip $(CUDA_ARCH)),)
 	CUDA_ARCH := sm_90
 endif
diff --git a/modules/module8/examples/Makefile b/modules/module8/examples/Makefile
@@ -25,7 +25,7 @@ GPU_VENDOR = NONE
 endif
 
 # CUDA architecture detection (prefer actual GPU via nvidia-smi; fallback sm_90)
-CUDA_ARCH ?= $(shell nvidia-smi --query-gpu=compute_cap --format=csv,noheader,nounits 2>/dev/null | head -1 | awk -F. '/^[0-9]+\.[0-9]+$/ {printf "sm_%d%d", $$1, $$2}')
+CUDA_ARCH ?= $(shell nvidia-smi --query-gpu=compute_cap --format=csv,noheader,nounits 2>/dev/null | head -1 | tr -dc '0-9' | sed -e 's/^/sm_/')
 ifeq ($(strip $(CUDA_ARCH)),)
 	CUDA_ARCH := sm_90
 endif
diff --git a/modules/module9/examples/Makefile b/modules/module9/examples/Makefile
@@ -26,7 +26,7 @@ GPU_VENDOR = NONE
 endif
 
 # CUDA architecture detection (prefer actual GPU via nvidia-smi; fallback sm_90)
-CUDA_ARCH ?= $(shell nvidia-smi --query-gpu=compute_cap --format=csv,noheader,nounits 2>/dev/null | head -1 | awk -F. '/^[0-9]+\.[0-9]+$/ {printf "sm_%d%d", $$1, $$2}')
+CUDA_ARCH ?= $(shell nvidia-smi --query-gpu=compute_cap --format=csv,noheader,nounits 2>/dev/null | head -1 | tr -dc '0-9' | sed -e 's/^/sm_/')
 ifeq ($(strip $(CUDA_ARCH)),)
 	CUDA_ARCH := sm_90
 endif