Fixed the clockRate property issues

coketaste · coketaste · commit 8301996262dc · 2025-09-22T14:33:06.000-04:00
diff --git a/modules/module4/examples/02_multi_gpu_programming.cu b/modules/module4/examples/02_multi_gpu_programming.cu
@@ -209,7 +209,9 @@ double runMultiGPUWeighted(float *h_data, int size, int numGPUs) {
         CUDA_CHECK(cudaGetDeviceProperties(&prop, gpu));
         
         // Simple weight based on SM count and clock rate
-        weights[gpu] = prop.multiProcessorCount * (prop.clockRate / 1000.0);
+        int gpuClockKHz = 0;
+        cudaDeviceGetAttribute(&gpuClockKHz, cudaDevAttrClockRate, gpu);
+        weights[gpu] = prop.multiProcessorCount * (gpuClockKHz / 1000.0);
         totalWeight += weights[gpu];
     }
     
diff --git a/modules/module5/examples/01_gpu_profiling_cuda.cu b/modules/module5/examples/01_gpu_profiling_cuda.cu
@@ -271,7 +271,9 @@ void analyzeDeviceProperties() {
     printf("Multiprocessors: %d\n", prop.multiProcessorCount);
     printf("Cores per MP: %d (estimated)\n", _ConvertSMVer2Cores(prop.major, prop.minor));
     printf("Total Cores: %d (estimated)\n", prop.multiProcessorCount * _ConvertSMVer2Cores(prop.major, prop.minor));
-    printf("GPU Clock Rate: %.2f GHz\n", prop.clockRate / 1e6);
+    int gpuClockKHz = 0;
+    cudaDeviceGetAttribute(&gpuClockKHz, cudaDevAttrClockRate, device);
+    printf("GPU Clock Rate: %.2f GHz\n", gpuClockKHz / 1e6);
     int memClockKHz = 0, busWidthBits = 0;
     cudaDeviceGetAttribute(&memClockKHz, cudaDevAttrMemoryClockRate, device);
     cudaDeviceGetAttribute(&busWidthBits, cudaDevAttrGlobalMemoryBusWidth, device);
@@ -421,7 +423,9 @@ void calculateTheoreticalLimits() {
     // Compute throughput estimation
     int coresPerSM = _ConvertSMVer2Cores(prop.major, prop.minor);
     int totalCores = prop.multiProcessorCount * coresPerSM;
-    double computeThroughput = totalCores * prop.clockRate / 1e6; // GFLOPS (single precision)
+    int gpuClockKHz = 0;
+    cudaDeviceGetAttribute(&gpuClockKHz, cudaDevAttrClockRate, device);
+    double computeThroughput = totalCores * gpuClockKHz / 1e6; // GFLOPS (single precision)
     printf("Estimated Peak Compute (SP): %.1f GFLOPS\n", computeThroughput);
     
     // Roofline model breakpoint

Original file line number	Diff line number	Diff line change
`@@ -209,7 +209,9 @@ double runMultiGPUWeighted(float *h_data, int size, int numGPUs) {`
`209`	`209`	`CUDA_CHECK(cudaGetDeviceProperties(&prop, gpu));`
`210`	`210`
`211`	`211`	`// Simple weight based on SM count and clock rate`
`212`		`- weights[gpu] = prop.multiProcessorCount * (prop.clockRate / 1000.0);`
	`212`	`+ int gpuClockKHz = 0;`
	`213`	`+ cudaDeviceGetAttribute(&gpuClockKHz, cudaDevAttrClockRate, gpu);`
	`214`	`+ weights[gpu] = prop.multiProcessorCount * (gpuClockKHz / 1000.0);`
`213`	`215`	`totalWeight += weights[gpu];`
`214`	`216`	`}`
`215`	`217`