Add final normalization step for non-NVIDIA devices in Qwen3 Q8_0 FFN layers and update worker grids.

orionpapadakis · orionpapadakis · commit 06ebbc8f954d · 2025-12-11T12:29:11.000+02:00
diff --git a/src/main/java/org/beehive/gpullama3/tornadovm/layers/type/q8_0/Qwen3Q8_0FFNLayers.java b/src/main/java/org/beehive/gpullama3/tornadovm/layers/type/q8_0/Qwen3Q8_0FFNLayers.java
@@ -105,6 +105,9 @@ public GridScheduler updateGridScheduler(GridScheduler tornadoForwardScheduler)
             tornadoForwardScheduler.addWorkerGrid("layer_" + i + ".attention", parallelAttentionWorker);
             tornadoForwardScheduler.addWorkerGrid("layer_" + i + ".attn_output_proj", matmul1Worker);
             tornadoForwardScheduler.addWorkerGrid("layer_" + i + ".ffn_rms_reduce", rmsNormWorker);
+            if (shouldUseFinalNormalization()) {
+                tornadoForwardScheduler.addWorkerGrid("layer_" + i + ".ffn_rms_finalize", rmsNormWorker);
+            }
             tornadoForwardScheduler.addWorkerGrid("layer_" + i + ".rms_ffn_gate_up", fusedFFNW1W3Worker);
             tornadoForwardScheduler.addWorkerGrid("layer_" + i + ".ffn_down_proj", projectionTwoWorker);
         }
@@ -285,6 +288,16 @@ TaskGraph setupSingleQwen3FFNLayer(Qwen3TornadoWeights weights, int layerIndex)
                 qwen3Config.rmsNormEps(),     // epsilon
                 qwen3State.localSize);        // local memory size
 
+        // Final normalization (non-NVIDIA only)
+        if (shouldUseFinalNormalization()) {
+            unifiedLayer.task("ffn_rms_finalize",
+                    TransformerComputeKernelsLayered::reductionFinalNormalization,
+                    context,
+                    qwen3State.tempFFN,       // scale factor (in/out)
+                    qwen3Config.dim(),        // dimension
+                    qwen3Config.rmsNormEps()); // epsilon
+        }
+
         // Fused RMS Apply + Gate/Up Projection + SiLU + GLU
         unifiedLayer.task("rms_ffn_gate_up",
                 TransformerComputeKernelsLayered::fusedRmsNormFFNGateUpQ8_0,