softmax shader

MaxwellGengYF · MaxwellGengYF · commit 703a171ed404 · 2025-04-27T16:13:58.000+08:00
diff --git a/include/luisa/tensor/expression.h b/include/luisa/tensor/expression.h
@@ -12,7 +12,7 @@ namespace luisa::compute {
     LCGRandExpr,                        \
     GEMMExpr,                           \
     ConvExpr,                           \
-    TestExpr
+    SoftmaxExpr
 // clang-format on
 
 #define LUISA_MAKE_TENSOR_EXPR_DECL(CMD) class CMD;
@@ -173,19 +173,14 @@ class LC_TENSOR_API LUISA_TENSOR_EXPR_CLASS_INHERIT(ConvExpr) {
     static luisa::variant<TensorData *, luisa::string> get_output_tensor(TensorData *input_tensor, TensorData *filter_tensor) noexcept;
 };
 
-class LC_TENSOR_API LUISA_TENSOR_EXPR_CLASS_INHERIT(TestExpr) {
+class LC_TENSOR_API LUISA_TENSOR_EXPR_CLASS_INHERIT(SoftmaxExpr) {
 public:
     TensorData *input;
-    TensorData *output;
-    luisa::string_view name;
-    TestExpr(
+    SoftmaxExpr(
         uint64_t idx,
-        TensorData *input,
-        TensorData *output,
-        luisa::string_view name) noexcept;
+        TensorData *input) noexcept;
     void get_tensors(vstd::FuncRef<void(TensorData *, Usage usage)> callback) noexcept override {
-        callback(input, Usage::READ);
-        callback(output, Usage::WRITE);
+        callback(input, Usage::WRITE);
     }
 };
 
diff --git a/include/luisa/tensor/fallback/softmax_impl.h b/include/luisa/tensor/fallback/softmax_impl.h
@@ -0,0 +1,23 @@
+#pragma once
+#include "i_tensor_expr_executor.h"
+#include <luisa/core/stl/variant.h>
+namespace luisa::compute {
+struct SoftmaxImpl : ITensorExprExecutor {
+    SoftmaxExpr *expr;
+    struct LargeBatchShader {
+        ShaderManager::ShaderDispatch sum;
+        ShaderManager::ShaderDispatch final;
+    };
+    luisa::variant<
+        LargeBatchShader,
+        ShaderManager::ShaderDispatch>
+        shaders;
+
+    SoftmaxImpl(
+        DeviceInterface *device,
+        ShaderManager *shader_manager,
+        SoftmaxExpr *expr);
+    ~SoftmaxImpl();
+    void execute(FallbackTensorCallback *callback, CommandList &cmdlist) const override;
+};
+};// namespace luisa::compute
diff --git a/include/luisa/tensor/pass/shader_manager.h b/include/luisa/tensor/pass/shader_manager.h
@@ -3,6 +3,7 @@
 #include <luisa/tensor/expression.h>
 #include <luisa/core/stl/unordered_map.h>
 #include <luisa/vstl/md5.h>
+#include <luisa/vstl/hash_map.h>
 namespace luisa::compute {
 class LC_TENSOR_API ShaderManager {
 public:
@@ -11,11 +12,11 @@ class LC_TENSOR_API ShaderManager {
         std::array<uint, 4> user_ids;
     };
     struct KeyHashEqual {
-        size_t operator()(Key const& k) const noexcept {
+        size_t operator()(Key const &k) const noexcept {
             return luisa::hash64(&k, sizeof(Key), luisa::hash64_default_seed);
         }
-        bool operator()(Key const& a, Key const& b) const noexcept {
-            return std::memcmp(&a, &b, sizeof(Key)) == 0;
+        int operator()(Key const &a, Key const &b) const noexcept {
+            return std::memcmp(&a, &b, sizeof(Key));
         }
     };
     struct ShaderDispatch {
@@ -24,25 +25,30 @@ class LC_TENSOR_API ShaderManager {
         size_t uniform_size;
     };
 private:
-    luisa::unordered_map<Key, ShaderDispatch, KeyHashEqual, KeyHashEqual> _shaders;
+    vstd::HashMap<Key, std::pair<luisa::spin_mutex, ShaderDispatch>, KeyHashEqual, KeyHashEqual> _shaders;
+    luisa::spin_mutex global_mtx;
     DeviceInterface *_device;
 public:
     ShaderManager(DeviceInterface *device) noexcept;
     template<typename Lambda>
         requires(std::is_invocable_r_v<ShaderDispatch, Lambda>)
-    ShaderDispatch add_shader(
+    ShaderDispatch const &add_shader(
         TensorExpr::Tag tag,
         vstd::MD5 hash,
         Lambda &&lambda) noexcept {
         std::array<uint, 4> arr;
         static_assert(sizeof(arr) == sizeof(vstd::MD5));
         std::memcpy(arr.data(), &hash, sizeof(vstd::MD5));
-        auto iter = _shaders.try_emplace(Key{tag, arr}, luisa::lazy_construct([&]() -> ShaderDispatch {
-                                             auto handle = lambda();
-                                             LUISA_ASSERT(handle.shader_handle != invalid_resource_handle);
-                                             return handle;
-                                         }));
-        return iter.first->second;
+        global_mtx.lock();
+        auto iter = _shaders.try_emplace(Key{tag, arr});
+        auto &v = iter.first;
+        global_mtx.unlock();
+        std::lock_guard lck{v.value().first};
+        if (iter.second) {
+            v.value().second = lambda();
+            LUISA_ASSERT(v.value().second.shader_handle != invalid_resource_handle);
+        }
+        return v.value().second;
     }
     ~ShaderManager() noexcept;
 };
diff --git a/include/luisa/tensor/tensor.h b/include/luisa/tensor/tensor.h
@@ -7,7 +7,7 @@
 #include <luisa/tensor/fused_activation.h>
 namespace luisa::compute {
 
-enum struct TensorElementType : uint8_t {
+enum struct TensorElementType : uint32_t {
     Float16,
     Float32,
     Float64,
diff --git a/src/tensor/expression.cpp b/src/tensor/expression.cpp
@@ -119,15 +119,11 @@ ConvExpr::ConvExpr(
     out_tensor = TensorBuilder::get_thd_local()->allocate_tensor(out_tensor_sizes, out_type);
 }
 
-TestExpr::TestExpr(
+SoftmaxExpr::SoftmaxExpr(
     uint64_t idx,
-    TensorData *input,
-    TensorData *output,
-    luisa::string_view name) noexcept
+    TensorData *input) noexcept
     : BaseClass(idx),
-      input(input),
-      output(output),
-      name(name) {
+      input(input) {
 }
 
 Tensor Tensor::matmul(
diff --git a/src/tensor/fallback/matmul_impl.cpp b/src/tensor/fallback/matmul_impl.cpp
@@ -108,36 +108,28 @@ MatMulImpl::MatMulImpl(
         .min_batch_size = min_batch_size,
         .batch = uint(lhs_batch ? 1 : 0) | uint(rhs_batch ? 2 : 0),
         .activation = expr->fused_activation};
+    auto bind_shader = [&]<typename T>() {
+        auto disp_pack = shader_manager->add_shader(
+            TensorExpr::Tag::EGEMMExpr,
+            vstd::MD5{{reinterpret_cast<uint8_t const *>(&key), sizeof(key)}},
+            [&]() {
+                auto disp_pack = gemm_detail::gemm_kernel<T>(lhs_matrix_size, rhs_matrix_size, min_batch_size, lhs_batch, rhs_batch, expr->fused_activation);
+                auto create_info = device->create_shader(ShaderOption{}, Function{disp_pack.kernel.function().get()});
+                return ShaderManager::ShaderDispatch{
+                    create_info.handle,
+                    disp_pack.dispatch_size,
+                    ShaderDispatchCmdEncoder::compute_uniform_size(disp_pack.kernel.function()->unbound_arguments())};
+            });
+        set_disp_pack(disp_pack);
+    };
     switch (expr->lhs_tensor->element_type()) {
         case TensorElementType::Float16: {
             key.type = 0;
-            auto disp_pack = shader_manager->add_shader(
-                TensorExpr::Tag::EGEMMExpr,
-                vstd::MD5{{reinterpret_cast<uint8_t const *>(&key), sizeof(key)}},
-                [&]() {
-                    auto disp_pack = gemm_detail::gemm_kernel<half>(lhs_matrix_size, rhs_matrix_size, min_batch_size, lhs_batch, rhs_batch, expr->fused_activation);
-                    auto create_info = device->create_shader(ShaderOption{}, Function{disp_pack.kernel.function().get()});
-                    return ShaderManager::ShaderDispatch{
-                        create_info.handle,
-                        disp_pack.dispatch_size,
-                        ShaderDispatchCmdEncoder::compute_uniform_size(disp_pack.kernel.function()->unbound_arguments())};
-                });
-            set_disp_pack(disp_pack);
+            bind_shader.template operator()<half>();
         } break;
         case TensorElementType::Float32: {
             key.type = 1;
-            auto disp_pack = shader_manager->add_shader(
-                TensorExpr::Tag::EGEMMExpr,
-                vstd::MD5{{reinterpret_cast<uint8_t const *>(&key), sizeof(key)}},
-                [&]() {
-                    auto disp_pack = gemm_detail::gemm_kernel<float>(lhs_matrix_size, rhs_matrix_size, min_batch_size, lhs_batch, rhs_batch, expr->fused_activation);
-                    auto create_info = device->create_shader(ShaderOption{}, Function{disp_pack.kernel.function().get()});
-                    return ShaderManager::ShaderDispatch{
-                        create_info.handle,
-                        disp_pack.dispatch_size,
-                        ShaderDispatchCmdEncoder::compute_uniform_size(disp_pack.kernel.function()->unbound_arguments())};
-                });
-            set_disp_pack(disp_pack);
+            bind_shader.template operator()<float>();
         } break;
         default: {
             LUISA_ERROR("Only float 16 and float 32 supported.");
diff --git a/src/tensor/fallback/softmax_impl.cpp b/src/tensor/fallback/softmax_impl.cpp
diff --git a/src/tensor/pass/shader_manager.cpp b/src/tensor/pass/shader_manager.cpp
diff --git a/src/xmake.lua b/src/xmake.lua