测试用的修改，对照区别用。

Ivy233 · Ivy233 · commit 7f7d57672572 · 2025-03-18T17:09:26.000+08:00
diff --git a/sense-voice/csrc/sense-voice-encoder.cc b/sense-voice/csrc/sense-voice-encoder.cc
@@ -187,23 +187,41 @@ static struct ggml_tensor *encoder_layer_sanm_forward(const sense_voice_hparams
                 //         fsmn_memory = ggml_concat(ctx0, fsmn_memory, fsmn_memory_batch, 2);
                 //     }
                 // }
+                bool flag = false;
                 struct ggml_tensor * im2col = ggml_im2col(ctx0, a, ggml_reshape_4d(ctx0, b, b->ne[0], 1, b->ne[1] * b->ne[2], b->ne[3]), 1, 0, padding, 0, 1, 0, false, GGML_TYPE_F32);
-                im2col = ggml_reshape_4d(ctx0, im2col, im2col->ne[0], im2col->ne[1], im2col->ne[2] / n_batch, n_batch);
-                a = ggml_repeat(ctx0, ggml_cast(ctx0, a, GGML_TYPE_F32), ggml_new_tensor_4d(ctx0, GGML_TYPE_F16, a->ne[0], a->ne[1], a->ne[2], n_batch));
-                struct ggml_tensor * result = ggml_mul_mat(ctx0, a, im2col);
-                fsmn_memory = ggml_reshape_3d(ctx0, result, im2col->ne[1], im2col->ne[2], im2col->ne[3]);
-                // if(n_batch > 1){
-                //     printf("n_batch: %d\n", n_batch);
-                //     printf("a: %ld %ld %ld %ld\n", a->ne[0], a->ne[1], a->ne[2], a->ne[3]);
-                //     printf("b: %ld %ld %ld %ld\n", b->ne[0], b->ne[1], b->ne[2], b->ne[3]);
-                //     printf("im2col: %ld %ld %ld %ld\n", im2col->ne[0], im2col->ne[1], im2col->ne[2], im2col->ne[3]);
+                if(flag){
+                    im2col = ggml_reshape_4d(ctx0, im2col, im2col->ne[0], im2col->ne[1], im2col->ne[2] / n_batch, n_batch); //1
+                    a = ggml_repeat(ctx0, ggml_cast(ctx0, a, GGML_TYPE_F32), ggml_new_tensor_4d(ctx0, GGML_TYPE_F16, a->ne[0], a->ne[1], a->ne[2], n_batch));//2
+                    // printf("a dims: [%d, %d, %d, %d], \n", a->ne[0], a->ne[1], a->ne[2], a->ne[3]);
+                    // printf("im2col dims: [%d, %d, %d, %d], \n", im2col->ne[0], im2col->ne[1], im2col->ne[2], im2col->ne[3]);
+                    struct ggml_tensor * result = ggml_mul_mat(ctx0, a, im2col);
+                    // printf("result dims: [%d, %d, %d, %d], \n", result->ne[0], result->ne[1], result->ne[2], result->ne[3]);
+                    fsmn_memory = ggml_reshape_3d(ctx0, result, im2col->ne[1], im2col->ne[2], im2col->ne[3]); //3
+                    // printf("true - fsmn_memory dims: [%d, %d, %d, %d]\n",
+                    //        fsmn_memory->ne[0], fsmn_memory->ne[1],
+                    //        fsmn_memory->ne[2], fsmn_memory->ne[3]);
+                } else {
+                    a = ggml_repeat(ctx0, ggml_cast(ctx0, a, GGML_TYPE_F32), ggml_new_tensor_3d(ctx0, GGML_TYPE_F16, a->ne[0], a->ne[1], im2col->ne[2]));//2
+                    struct ggml_tensor * result = ggml_mul_mat(ctx0, a, im2col);  
+                    // a => [11, 1, 512, 1], b => [11, X, 2048 = 512 * batch, 1], result => [1, X, 2048, 1]
+                    // a => [11, 1, 512, 1] => [11, 1, 512, batch], im2col => [11, X, 512, batch], result => [1, X, 512, batch]
+                //     struct ggml_tensor * result = ggml_mul_mat(ctx0, ggml_cast(ctx0, a, GGML_TYPE_F32), im2col);
+                    fsmn_memory = ggml_reshape_3d(ctx0, result, im2col->ne[1], im2col->ne[2] / n_batch, im2col->ne[3] * n_batch); //4
+                }
+                if(n_batch > 1){
+                    printf("n_batch: %d\n", n_batch);
+                    printf("a: %ld %ld %ld %ld\n", a->ne[0], a->ne[1], a->ne[2], a->ne[3]);
+                    printf("b: %ld %ld %ld %ld\n", b->ne[0], b->ne[1], b->ne[2], b->ne[3]);
+                    printf("im2col: %ld %ld %ld %ld\n", im2col->ne[0], im2col->ne[1], im2col->ne[2], im2col->ne[3]);
                 //     printf("result: %ld %ld %ld %ld\n", result->ne[0], result->ne[1], result->ne[2], result->ne[3]);
-                //     printf("fsmn_memory: %ld %ld %ld %ld\n", fsmn_memory->ne[0], fsmn_memory->ne[1], fsmn_memory->ne[2], fsmn_memory->ne[3]);
-                //     printf("V: %ld %ld %ld %ld\n", V->ne[0], V->ne[1], V->ne[2], V->ne[3]);
-                // }
+                    printf("fsmn_memory: %ld %ld %ld %ld\n", fsmn_memory->ne[0], fsmn_memory->ne[1], fsmn_memory->ne[2], fsmn_memory->ne[3]);
+                    printf("V: %ld %ld %ld %ld\n", V->ne[0], V->ne[1], V->ne[2], V->ne[3]);
+                }
             }
+
             fsmn_memory = ggml_cont(ctx0, ggml_transpose(ctx0, fsmn_memory));
-            fsmn_memory = ggml_add(ctx0, fsmn_memory, V);
+            //fsmn_memory = ggml_cont(ctx0, fsmn_memory);
+
             ggml_set_name(fsmn_memory, "fsmn_memory");
         }
 
@@ -337,10 +355,12 @@ struct ggml_cgraph *sense_voice_build_graph_encoder(sense_voice_context &pctx,
     cur = encoder_layer_sanm_forward(hparams, pctx, ctx0, cur, model->encoder->encoder0, gf, pctx.params.flash_attn);
 
     // encoders forward
+    printf("begin layer==========================================> \n");
     for (int i=0; i < hparams.n_encoder_layers - 1; i++){
         cur = encoder_layer_sanm_forward(hparams, pctx, ctx0, cur, model->encoder->encoders_layer[i], gf, pctx.params.flash_attn);
     }
 
+    printf("end layer==========================================> \n");
     {
         // after encoder norm
         cur = ggml_norm(ctx0, cur, hparams.eps);
@@ -354,6 +374,7 @@ struct ggml_cgraph *sense_voice_build_graph_encoder(sense_voice_context &pctx,
         cur = encoder_layer_sanm_forward(hparams,  pctx, ctx0, cur, model->encoder->tp_encoders_layer[i], gf, pctx.params.flash_attn);
     }
 
+    printf("end n_tp_encoder_layers==========================================> \n");
     {
         // tp encoder norm
         cur = ggml_norm(ctx0, cur, hparams.eps);