UbiquitousLearning · chenghuaWang · Jan 31, 2026 · Jan 30, 2026 · Jan 30, 2026 · Jan 30, 2026
diff --git a/mllm/backends/ascend/AscendBackend.cpp b/mllm/backends/ascend/AscendBackend.cpp
@@ -8,12 +8,18 @@
 
 #include "mllm/backends/ascend/ops/AscendElewiseOps.hpp"
 #include "mllm/backends/ascend/ops/AscendX2XOp.hpp"
+#include "mllm/backends/ascend/ops/AscendSiLUOp.hpp"
+#include "mllm/backends/ascend/ops/AscendLinearOp.hpp"
+#include "mllm/backends/ascend/ops/AscendRMSNormOp.hpp"
+#include "mllm/backends/ascend/ops/AscendViewOp.hpp"
+#include "mllm/backends/ascend/ops/AscendMatMulOp.hpp"
+#include "mllm/backends/ascend/ops/AscendSoftmaxOp.hpp"
 
 namespace mllm::ascend {
 
 AscendBackend::AscendBackend() : Backend(kAscend, createAscendAllocator()) {
-  regOpFactory<AscendAddOpFactory>();
-  regOpFactory<AscendX2XOpFactory>();
+ regOpFactory<AscendAddOpFactory,AscendSubOpFactory,AscendMulOpFactory,AscendX2XOpFactory,AscendSiLUOpFactory,
+              AscendLinearOpFactory,AscendRMSNormOpFactory,AscendViewOpFactory,AscendMatMulOpFactory,AscendSoftmaxOpFactory>();
   auto& devices = AscendDeviceMetaInfo::instance().devices;
   for (const auto& device : devices) {
     const auto bytes_to_mb = [](size_t bytes) { return bytes / (1024.0 * 1024.0); };

diff --git a/mllm/backends/ascend/AscendCommon.cpp b/mllm/backends/ascend/AscendCommon.cpp
@@ -217,6 +217,13 @@ void fillAtbTensorDesc(const Tensor& t, atb::TensorDesc& desc) {
   }
 }
 
+void fillAtbTensor(const Tensor& t, atb::Tensor& atb_tensor) {
+  fillAtbTensorDesc(t, atb_tensor.desc);
+  atb_tensor.deviceData = reinterpret_cast<uint8_t*>(t.ptr<void>());
+  // Use MLLM tensor's actual bytes as dataSize to match allocated memory
+  atb_tensor.dataSize = t.bytes();
+}
+
 AscendDeviceMetaInfo::AscendDeviceMetaInfo() {
 #ifndef ASCENDC_CPU_DEBUG
   // Initialize ACL to query devices
@@ -231,7 +238,6 @@ AscendDeviceMetaInfo::AscendDeviceMetaInfo() {
   ret = aclrtGetDeviceCount(&device_count);
   if (ret != ACL_SUCCESS) {
     MLLM_ERROR("Failed to get Ascend device count: {}", ret);
-    aclFinalize();
     return;
   }
 
@@ -266,8 +272,6 @@ AscendDeviceMetaInfo::AscendDeviceMetaInfo() {
     devices.push_back(info);
   }
 
-  // Finalize ACL after enumeration
-  aclFinalize();
 #else
   // In CPU debug mode, add a dummy device
   AscendDeviceInfo info;

diff --git a/mllm/backends/ascend/AscendCommon.hpp b/mllm/backends/ascend/AscendCommon.hpp
@@ -41,6 +41,9 @@ void syncGlobalAtbStream();
 // Convert MLLM Tensor metadata to ATB TensorDesc
 void fillAtbTensorDesc(const Tensor& t, atb::TensorDesc& desc);
 
+// Setup ATB Tensor with correct dataSize calculated by ATB Utils
+void fillAtbTensor(const Tensor& t, atb::Tensor& atb_tensor);
+
 // Ascend device information structure
 struct AscendDeviceInfo {
   std::string name;

diff --git a/mllm/backends/ascend/ops/AscendElewiseOps.cpp b/mllm/backends/ascend/ops/AscendElewiseOps.cpp
@@ -34,9 +34,6 @@ void AscendAddOp::forward(const std::vector<Tensor>& inputs, std::vector<Tensor>
   if (x.dtype() != y.dtype() || x.dtype() != z.dtype()) {
     NYI("AscendAddOp currently requires x/y/z have same dtype");
   }
-  if (x.numel() != y.numel() || x.numel() != z.numel()) {
-    NYI("AscendAddOp demo only supports no-broadcast case (numel equal)");
-  }
 
   atb::infer::ElewiseParam addParam;
   addParam.elewiseType = atb::infer::ElewiseParam::ELEWISE_ADD;
@@ -106,4 +103,174 @@ void AscendAddOp::forward(const std::vector<Tensor>& inputs, std::vector<Tensor>
   atb::DestroyOperation(op);
 }
 
+AscendSubOp::AscendSubOp(const aops::SubOpOptions& options) : aops::SubOp(options) {}
+
+void AscendSubOp::setup(const std::vector<Tensor>& inputs, std::vector<Tensor>& outputs) {
+  BaseOp::setup(inputs, outputs);
+}
+
+void AscendSubOp::forward(const std::vector<Tensor>& inputs, std::vector<Tensor>& outputs) {
+  MLLM_RT_ASSERT_EQ(inputs.size(), 2);
+  MLLM_RT_ASSERT_EQ(outputs.size(), 1);
+
+  const auto& x = inputs[0];
+  const auto& y = inputs[1];
+  auto& z = outputs[0];
+
+  if (x.dtype() != y.dtype() || x.dtype() != z.dtype()) {
+    NYI("AscendSubOp currently requires x/y/z have same dtype");
+  }
+
+  atb::infer::ElewiseParam subParam;
+  subParam.elewiseType = atb::infer::ElewiseParam::ELEWISE_SUB;
+
+  atb::Operation* op = nullptr;
+  auto st = atb::CreateOperation(subParam, &op);
+  if (st != atb::NO_ERROR || op == nullptr) {
+    MLLM_ERROR_EXIT(ExitCode::kAscendError, "ATB CreateOperation(ELEWISE_SUB) failed, status={}", static_cast<int>(st));
+  }
+
+  atb::Context* atb_ctx = getGlobalAtbContext();
+
+  atb::Tensor atb_x;
+  atb::Tensor atb_y;
+  atb::Tensor atb_z;
+
+  fillAtbTensorDesc(x, atb_x.desc);
+  fillAtbTensorDesc(y, atb_y.desc);
+  fillAtbTensorDesc(z, atb_z.desc);
+
+  atb_x.deviceData = reinterpret_cast<uint8_t*>(x.ptr<void>());
+  atb_x.dataSize = x.bytes();
+  atb_y.deviceData = reinterpret_cast<uint8_t*>(y.ptr<void>());
+  atb_y.dataSize = y.bytes();
+  atb_z.deviceData = reinterpret_cast<uint8_t*>(z.ptr<void>());
+  atb_z.dataSize = z.bytes();
+
+  atb::SVector<atb::Tensor> inTensors;
+  atb::SVector<atb::Tensor> outTensors;
+  inTensors.push_back(atb_x);
+  inTensors.push_back(atb_y);
+  outTensors.push_back(atb_z);
+
+  atb::VariantPack vp;
+  vp.inTensors = inTensors;
+  vp.outTensors = outTensors;
+
+  uint64_t workspaceSize = 0;
+  st = op->Setup(vp, workspaceSize, atb_ctx);
+  if (st != atb::NO_ERROR) {
+    MLLM_ERROR_EXIT(ExitCode::kAscendError, "ATB SubOp Setup failed, status={}", static_cast<int>(st));
+  }
+
+  void* workspace = nullptr;
+  int workspace_block_id = -1;
+  if (workspaceSize > 0) {
+    auto& mem_mgr = getAscendMemoryManager();
+    mem_mgr.allocateBlock(static_cast<uint32_t>(workspaceSize), workspace_block_id);
+    mem_mgr.getBlockPtr(workspace_block_id, workspace);
+  }
+  {
+    ASCEND_TIME_SCOPE("AscendSubOp::forward");
+    st = op->Execute(vp, reinterpret_cast<uint8_t*>(workspace), workspaceSize, atb_ctx);
+  }
+  if (st != atb::NO_ERROR) {
+    MLLM_ERROR_EXIT(ExitCode::kAscendError, "ATB SubOp Execute failed, status={}", static_cast<int>(st));
+  }
+
+  syncGlobalAtbStream();
+
+  if (workspace_block_id != -1) {
+    auto& mem_mgr = getAscendMemoryManager();
+    mem_mgr.freeBlock(workspace_block_id);
+  }
+
+  atb::DestroyOperation(op);
+}
+
+AscendMulOp::AscendMulOp(const aops::MulOpOptions& options) : aops::MulOp(options) {}
+
+void AscendMulOp::setup(const std::vector<Tensor>& inputs, std::vector<Tensor>& outputs) {
+  BaseOp::setup(inputs, outputs);
+}
+
+void AscendMulOp::forward(const std::vector<Tensor>& inputs, std::vector<Tensor>& outputs) {
+  MLLM_RT_ASSERT_EQ(inputs.size(), 2);
+  MLLM_RT_ASSERT_EQ(outputs.size(), 1);
+
+  const auto& x = inputs[0];
+  const auto& y = inputs[1];
+  auto& z = outputs[0];
+
+  if (x.dtype() != y.dtype() || x.dtype() != z.dtype()) {
+    NYI("AscendMulOp currently requires x/y/z have same dtype");
+  }
+
+  atb::infer::ElewiseParam mulParam;
+  mulParam.elewiseType = atb::infer::ElewiseParam::ELEWISE_MUL;
+
+  atb::Operation* op = nullptr;
+  auto st = atb::CreateOperation(mulParam, &op);
+  if (st != atb::NO_ERROR || op == nullptr) {
+    MLLM_ERROR_EXIT(ExitCode::kAscendError, "ATB CreateOperation(ELEWISE_MUL) failed, status={}", static_cast<int>(st));
+  }
+
+  atb::Context* atb_ctx = getGlobalAtbContext();
+
+  atb::Tensor atb_x;
+  atb::Tensor atb_y;
+  atb::Tensor atb_z;
+
+  fillAtbTensorDesc(x, atb_x.desc);
+  fillAtbTensorDesc(y, atb_y.desc);
+  fillAtbTensorDesc(z, atb_z.desc);
+
+  atb_x.deviceData = reinterpret_cast<uint8_t*>(x.ptr<void>());
+  atb_x.dataSize = x.bytes();
+  atb_y.deviceData = reinterpret_cast<uint8_t*>(y.ptr<void>());
+  atb_y.dataSize = y.bytes();
+  atb_z.deviceData = reinterpret_cast<uint8_t*>(z.ptr<void>());
+  atb_z.dataSize = z.bytes();
+
+  atb::SVector<atb::Tensor> inTensors;
+  atb::SVector<atb::Tensor> outTensors;
+  inTensors.push_back(atb_x);
+  inTensors.push_back(atb_y);
+  outTensors.push_back(atb_z);
+
+  atb::VariantPack vp;
+  vp.inTensors = inTensors;
+  vp.outTensors = outTensors;
+
+  uint64_t workspaceSize = 0;
+  st = op->Setup(vp, workspaceSize, atb_ctx);
+  if (st != atb::NO_ERROR) {
+    MLLM_ERROR_EXIT(ExitCode::kAscendError, "ATB MulOp Setup failed, status={}", static_cast<int>(st));
+  }
+
+  void* workspace = nullptr;
+  int workspace_block_id = -1;
+  if (workspaceSize > 0) {
+    auto& mem_mgr = getAscendMemoryManager();
+    mem_mgr.allocateBlock(static_cast<uint32_t>(workspaceSize), workspace_block_id);
+    mem_mgr.getBlockPtr(workspace_block_id, workspace);
+  }
+  {
+    ASCEND_TIME_SCOPE("AscendMulOp::forward");
+    st = op->Execute(vp, reinterpret_cast<uint8_t*>(workspace), workspaceSize, atb_ctx);
+  }
+  if (st != atb::NO_ERROR) {
+    MLLM_ERROR_EXIT(ExitCode::kAscendError, "ATB MulOp Execute failed, status={}", static_cast<int>(st));
+  }
+
+  syncGlobalAtbStream();
+
+  if (workspace_block_id != -1) {
+    auto& mem_mgr = getAscendMemoryManager();
+    mem_mgr.freeBlock(workspace_block_id);
+  }
+
+  atb::DestroyOperation(op);
+}
+
 }  // namespace mllm::ascend
diff --git a/mllm/backends/ascend/ops/AscendElewiseOps.hpp b/mllm/backends/ascend/ops/AscendElewiseOps.hpp
@@ -24,4 +24,34 @@ class AscendAddOpFactory final : public TypedOpFactory<OpTypes::kAdd, aops::AddO
   }
 };
 
+class AscendSubOp final : public aops::SubOp {
+ public:
+  explicit AscendSubOp(const aops::SubOpOptions& options);
+
+  void setup(const std::vector<Tensor>& inputs, std::vector<Tensor>& outputs) override;
+  void forward(const std::vector<Tensor>& inputs, std::vector<Tensor>& outputs) override;
+};
+
+class AscendSubOpFactory final : public TypedOpFactory<OpTypes::kSub, aops::SubOpOptions> {
+ public:
+  std::shared_ptr<BaseOp> createOpImpl(const aops::SubOpOptions& options) override {
+    return std::make_shared<AscendSubOp>(options);
+  }
+};
+
+class AscendMulOp final : public aops::MulOp {
+ public:
+  explicit AscendMulOp(const aops::MulOpOptions& options);
+
+  void setup(const std::vector<Tensor>& inputs, std::vector<Tensor>& outputs) override;
+  void forward(const std::vector<Tensor>& inputs, std::vector<Tensor>& outputs) override;
+};
+
+class AscendMulOpFactory final : public TypedOpFactory<OpTypes::kMul, aops::MulOpOptions> {
+ public:
+  std::shared_ptr<BaseOp> createOpImpl(const aops::MulOpOptions& options) override {
+    return std::make_shared<AscendMulOp>(options);
+  }
+};
+
 }  // namespace mllm::ascend