[ascend]Zq/update clamp by aclnn (#1194)

NeosZhang · web-flow · commit 17d721b70ff2 · 2024-05-16T12:56:43.000+08:00
diff --git a/impl/ascend/functions/clamp.cpp b/impl/ascend/functions/clamp.cpp
@@ -4,207 +4,188 @@
  * @copyright  (c) 2023, DeepLink.
  */
 
-#include <cfloat>
-#include <climits>
-#include <limits>
-#include <map>
-#include <string>
-
+#include "../aclnn/acl_scalar.hpp"
+#include "../aclnn/adaptor.hpp"
 #include "../common/acloprunner.hpp"
+#include "../common/utils.hpp"
 
 namespace impl {
 namespace ascend {
 
-// to get the limit value according to diopiDtype
-std::pair<double, double> getFloatMinMaxFromDtype(diopiDtype_t tensorDtype) {
-    switch (tensorDtype) {
-        case diopi_dtype_float16:
-            return std::make_pair(std::numeric_limits<half_float::half>::lowest(), std::numeric_limits<half_float::half>::max());
-        case diopi_dtype_float32:
-            return std::make_pair(std::numeric_limits<float>::lowest(), std::numeric_limits<float>::max());
-        case diopi_dtype_float64:
-            return std::make_pair(std::numeric_limits<double>::lowest(), std::numeric_limits<double>::max());
-        default:
-            break;
-    }
-}
-
-std::pair<int64_t, int64_t> getIntMinMaxFromDtype(diopiDtype_t tensorDtype) {
-    switch (tensorDtype) {
-        case diopi_dtype_int8:
-            return std::make_pair(std::numeric_limits<int8_t>::lowest(), std::numeric_limits<int8_t>::max());
-        case diopi_dtype_uint8:
-            return std::make_pair(std::numeric_limits<uint8_t>::lowest(), std::numeric_limits<uint8_t>::max());
-        case diopi_dtype_int16:
-            return std::make_pair(std::numeric_limits<int16_t>::lowest(), std::numeric_limits<int16_t>::max());
-        case diopi_dtype_uint16:
-            return std::make_pair(std::numeric_limits<uint16_t>::lowest(), std::numeric_limits<uint16_t>::max());
-        case diopi_dtype_int32:
-            return std::make_pair(std::numeric_limits<int32_t>::lowest(), std::numeric_limits<int32_t>::max());
-        case diopi_dtype_uint32:
-            return std::make_pair(std::numeric_limits<uint32_t>::lowest(), std::numeric_limits<uint32_t>::max());
-        case diopi_dtype_int64:
-            return std::make_pair(std::numeric_limits<int64_t>::lowest(), std::numeric_limits<int64_t>::max());
-        case diopi_dtype_uint64:
-            return std::make_pair(std::numeric_limits<uint64_t>::lowest(), std::numeric_limits<uint64_t>::max());
-        case diopi_dtype_bool:
-            return std::make_pair(std::numeric_limits<bool>::lowest(), std::numeric_limits<bool>::max());
-        default:
-            break;
-    }
-}
-
 diopiError_t diopiClamp(diopiContextHandle_t ctx, diopiTensorHandle_t out, diopiConstTensorHandle_t input, diopiConstTensorHandle_t min,
                         diopiConstTensorHandle_t max) {
-    diopiDtype_t outDtype, inputDtype;
-    diopiTensorHandle_t minTmp, maxTmp, boolOut;
-    diopiScalar_t minScalar, maxScalar;
-
     AscendTensor inputAt(input);
     AscendTensor outAt(out);
-    const std::vector<int64_t>& sizes = inputAt.shape();
-    inputDtype = inputAt.dtype();
-    outDtype = outAt.dtype();
 
-    if (min != nullptr) {
-        makeTensorLike(ctx, &minTmp, input, outDtype);
-        broadcast(ctx, minTmp, min, sizes);
-    } else {
-        makeTensorLike(ctx, &minTmp, input, outDtype);
-        if (isFloatingType(outDtype)) {
-            double minVal = getFloatMinMaxFromDtype(outDtype).first;
-            minScalar = constructDiopiScalarT(outDtype, minVal);
-        } else {
-            int64_t minVal = getIntMinMaxFromDtype(outDtype).first;
-            minScalar = constructDiopiScalarT(outDtype, minVal);
-        }
-        diopiFill(ctx, minTmp, &minScalar);
+    if (input == nullptr || inputAt.numel() == 0) {
+        return diopiSuccess;
     }
 
-    if (max != nullptr) {
-        makeTensorLike(ctx, &maxTmp, input, outDtype);
-        broadcast(ctx, maxTmp, max, sizes);
+    castTensor(ctx, inputAt, outAt.dtype());
+
+    if (min != nullptr && max != nullptr) {
+        DIOPI_ASCEND_CALL_ACLNN(aclnnClampTensor, ctx, inputAt, min, max, outAt);
     } else {
-        makeTensorLike(ctx, &maxTmp, input, outDtype);
-        if (isFloatingType(outDtype)) {
-            double maxVal = getFloatMinMaxFromDtype(outDtype).second;
-            maxScalar = constructDiopiScalarT(outDtype, maxVal);
+        if (max != nullptr) {
+            DIOPI_ASCEND_CALL_ACLNN(aclnnClampMaxTensor, ctx, inputAt, max, outAt);
         } else {
-            int64_t maxVal = getIntMinMaxFromDtype(outDtype).second;
-            maxScalar = constructDiopiScalarT(outDtype, maxVal);
+            DIOPI_ASCEND_CALL_ACLNN(aclnnClampMinTensor, ctx, inputAt, min, outAt);
         }
-        diopiFill(ctx, maxTmp, &maxScalar);
     }
 
-    // Perform a clamp operation according PyTorch's special handling of the case when max is less than min.
-    // In this case, update the value of min to be equal to max to ensure correct behavior.
-    makeTensorLike(ctx, &boolOut, input, diopi_dtype_bool);
-    diopiLt(ctx, boolOut, maxTmp, minTmp);
-    diopiMaskedFill(ctx, minTmp, minTmp, boolOut, maxTmp);
-
-    AclOpRunner<3, 1> runner("ClipByValue", ctx);
-    runner.addInput(input, outDtype).addInput(minTmp, outDtype).addInput(maxTmp, outDtype).addOutput(out).run();
     return diopiSuccess;
 }
 
 diopiError_t diopiClampScalar(diopiContextHandle_t ctx, diopiTensorHandle_t out, diopiConstTensorHandle_t input, const diopiScalar_t* minPtr,
                               const diopiScalar_t* maxPtr) {
     AscendTensor inputAt(input);
     AscendTensor outAt(out);
-    diopiDtype_t inputDtype, outDtype;
-    diopiGetTensorDtype(input, &inputDtype);
-    diopiGetTensorDtype(out, &outDtype);
-    diopiScalar_t min, max;
-    double minVal, maxVal;
-
-    if (minPtr != nullptr) {
-        min = *minPtr;
-        if (isFloatingType(min.stype)) {
-            minVal = min.fval;
-        } else {
-            minVal = min.ival;
-        }
-    } else {
-        if (isFloatingType(outDtype)) {
-            double minLimitVal = getFloatMinMaxFromDtype(outDtype).first;
-            min = constructDiopiScalarT(outDtype, minLimitVal);
-            minVal = minLimitVal;
-        } else {
-            int64_t minLimitVal = getIntMinMaxFromDtype(outDtype).first;
-            min = constructDiopiScalarT(outDtype, minLimitVal);
-            minVal = minLimitVal;
-        }
+
+    if (input == nullptr || inputAt.numel() == 0) {
+        return diopiSuccess;
     }
+    castTensor(ctx, inputAt, outAt.dtype());
 
-    if (maxPtr != nullptr) {
-        max = *maxPtr;
-        if (isFloatingType(max.stype)) {
-            maxVal = max.fval;
-        } else {
-            maxVal = max.ival;
-        }
+    if (minPtr != nullptr && maxPtr != nullptr) {
+        DIOPI_ASCEND_CALL_ACLNN(aclnnClamp, ctx, inputAt, minPtr, maxPtr, outAt);
     } else {
-        if (isFloatingType(outDtype)) {
-            double maxLimitVal = getFloatMinMaxFromDtype(outDtype).second;
-            max = constructDiopiScalarT(outDtype, maxLimitVal);
-            maxVal = maxLimitVal;
-        } else {
-            int64_t maxLimitVal = getIntMinMaxFromDtype(outDtype).second;
-            max = constructDiopiScalarT(outDtype, maxLimitVal);
-            maxVal = maxLimitVal;
+        if (minPtr != nullptr) {
+            DIOPI_ASCEND_CALL_ACLNN(aclnnClampMin, ctx, inputAt, minPtr, outAt);
+        }
+        if (maxPtr != nullptr) {
+            DIOPI_ASCEND_CALL_ACLNN(aclnnClampMax, ctx, inputAt, maxPtr, outAt);
         }
     }
 
-    // Perform a clamp operation according PyTorch's special handling of the case when max is less than min.
-    // In this case, update the value of min to be equal to max to ensure correct behavior.
-    if (maxVal < minVal) {
-        min = constructDiopiScalarT(outDtype, maxVal);
-    }
-
-    AclOpRunner<3, 1> runner("ClipByValue", ctx);
-    runner.addInput(input, outDtype).addConstInput(min, outDtype).addConstInput(max, outDtype).addOutput(out).run();
     return diopiSuccess;
 }
 
 diopiError_t diopiClampInp(diopiContextHandle_t ctx, diopiTensorHandle_t input, diopiConstTensorHandle_t min, diopiConstTensorHandle_t max) {
-    return diopiClamp(ctx, input, input, min, max);
+    AscendTensor inputAt(input);
+    if (input == nullptr || inputAt.numel() == 0) {
+        return diopiSuccess;
+    }
+
+    if (min != nullptr && max != nullptr) {
+        DIOPI_ASCEND_CALL_ACLNN(aclnnClampTensor, ctx, input, min, max, input);
+    } else {
+        if (max != nullptr) {
+            DIOPI_ASCEND_CALL_ACLNN(aclnnInplaceClampMaxTensor, ctx, input, max);
+        } else {
+            DIOPI_ASCEND_CALL_ACLNN(aclnnInplaceClampMinTensor, ctx, input, min);
+        }
+    }
+
+    return diopiSuccess;
 }
 
 diopiError_t diopiClampInpScalar(diopiContextHandle_t ctx, diopiTensorHandle_t input, const diopiScalar_t* min, const diopiScalar_t* max) {
-    return diopiClampScalar(ctx, input, input, min, max);
+    AscendTensor inputAt(input);
+    if (input == nullptr || inputAt.numel() == 0) {
+        return diopiSuccess;
+    }
+
+    if (min != nullptr && max != nullptr) {
+        DIOPI_ASCEND_CALL_ACLNN(aclnnClamp, ctx, input, min, max, input);
+    } else {
+        if (max != nullptr) {
+            DIOPI_ASCEND_CALL_ACLNN(aclnnClampMax, ctx, input, max, input);
+        } else {
+            DIOPI_ASCEND_CALL_ACLNN(aclnnClampMin, ctx, input, min, input);
+        }
+    }
+    return diopiSuccess;
 }
 
 DIOPI_API diopiError_t diopiClampMinInpScalar(diopiContextHandle_t ctx, diopiTensorHandle_t input, const diopiScalar_t* min) {
-    return diopiClampMinScalar(ctx, input, input, min);
+    AscendTensor inputAt(input);
+    if (input == nullptr || inputAt.numel() == 0) {
+        return diopiSuccess;
+    }
+
+    DIOPI_ASCEND_CALL_ACLNN(aclnnClampMin, ctx, input, min, input);
+    return diopiSuccess;
 }
 
 DIOPI_API diopiError_t diopiClampMinInp(diopiContextHandle_t ctx, diopiTensorHandle_t input, diopiConstTensorHandle_t min) {
-    return diopiClampMin(ctx, input, input, min);
+    AscendTensor inputAt(input);
+    if (input == nullptr || inputAt.numel() == 0) {
+        return diopiSuccess;
+    }
+
+    DIOPI_ASCEND_CALL_ACLNN(aclnnInplaceClampMinTensor, ctx, input, min);
+    return diopiSuccess;
 }
 
 DIOPI_API diopiError_t diopiClampMinScalar(diopiContextHandle_t ctx, diopiTensorHandle_t out, diopiConstTensorHandle_t input, const diopiScalar_t* min) {
-    return diopiClampScalar(ctx, out, input, min, nullptr);
+    AscendTensor inputAt(input);
+    AscendTensor outAt(out);
+
+    if (input == nullptr || inputAt.numel() == 0) {
+        return diopiSuccess;
+    }
+
+    castTensor(ctx, inputAt, outAt.dtype());
+    DIOPI_ASCEND_CALL_ACLNN(aclnnClampMin, ctx, inputAt, min, outAt);
+    return diopiSuccess;
 }
 
 DIOPI_API diopiError_t diopiClampMin(diopiContextHandle_t ctx, diopiTensorHandle_t out, diopiConstTensorHandle_t input, diopiConstTensorHandle_t min) {
-    return diopiClamp(ctx, out, input, min, nullptr);
+    AscendTensor inputAt(input);
+    AscendTensor outAt(out);
+
+    if (input == nullptr || inputAt.numel() == 0) {
+        return diopiSuccess;
+    }
+
+    castTensor(ctx, inputAt, outAt.dtype());
+    DIOPI_ASCEND_CALL_ACLNN(aclnnClampMinTensor, ctx, inputAt, min, outAt);
+    return diopiSuccess;
 }
 
 DIOPI_API diopiError_t diopiClampMaxInpScalar(diopiContextHandle_t ctx, diopiTensorHandle_t input, const diopiScalar_t* max) {
-    return diopiClampMaxScalar(ctx, input, input, max);
+    AscendTensor inputAt(input);
+    if (input == nullptr || inputAt.numel() == 0) {
+        return diopiSuccess;
+    }
+
+    DIOPI_ASCEND_CALL_ACLNN(aclnnInplaceClampMax, ctx, input, max);
+    return diopiSuccess;
 }
 
 DIOPI_API diopiError_t diopiClampMaxInp(diopiContextHandle_t ctx, diopiTensorHandle_t input, diopiConstTensorHandle_t max) {
-    return diopiClampMax(ctx, input, input, max);
+    AscendTensor inputAt(input);
+    if (input == nullptr || inputAt.numel() == 0) {
+        return diopiSuccess;
+    }
+
+    DIOPI_ASCEND_CALL_ACLNN(aclnnInplaceClampMaxTensor, ctx, input, max);
+    return diopiSuccess;
 }
 
 DIOPI_API diopiError_t diopiClampMaxScalar(diopiContextHandle_t ctx, diopiTensorHandle_t out, diopiConstTensorHandle_t input, const diopiScalar_t* max) {
-    return diopiClampScalar(ctx, out, input, nullptr, max);
+    AscendTensor inputAt(input);
+    AscendTensor outAt(out);
+    if (input == nullptr || inputAt.numel() == 0) {
+        return diopiSuccess;
+    }
+
+    castTensor(ctx, inputAt, outAt.dtype());
+    DIOPI_ASCEND_CALL_ACLNN(aclnnClampMax, ctx, inputAt, max, outAt);
+    return diopiSuccess;
 }
 
 DIOPI_API diopiError_t diopiClampMax(diopiContextHandle_t ctx, diopiTensorHandle_t out, diopiConstTensorHandle_t input, diopiConstTensorHandle_t max) {
-    return diopiClamp(ctx, out, input, nullptr, max);
-}
+    AscendTensor inputAt(input);
+    AscendTensor outAt(out);
+
+    if (input == nullptr || inputAt.numel() == 0) {
+        return diopiSuccess;
+    }
 
+    castTensor(ctx, inputAt, outAt.dtype());
+    DIOPI_ASCEND_CALL_ACLNN(aclnnClampMaxTensor, ctx, inputAt, max, outAt);
+    return diopiSuccess;
+}
 }  // namespace ascend
 }  // namespace impl
diff --git a/impl/ascend_npu/ascend_config.yaml b/impl/ascend_npu/ascend_config.yaml
@@ -24,6 +24,18 @@ ascend:
 - diopiBitwiseOrScalar
 - diopiBitwiseOrInpScalar
 - diopiCastDtype
+- diopiClamp
+- diopiClampInp
+- diopiClampInpScalar
+- diopiClampMax
+- diopiClampMaxInp
+- diopiClampMaxInpScalar
+- diopiClampMaxScalar
+- diopiClampMin
+- diopiClampMinInp
+- diopiClampMinInpScalar
+- diopiClampMinScalar
+- diopiClampScalar
 - diopiCeil
 - diopiCeilInp
 - diopiCol2Im
@@ -244,18 +256,6 @@ ascend_npu:
 - diopiScatterInp
 - diopiScatterScalar
 - diopiScatterInpScalar
-- diopiClamp
-- diopiClampInp
-- diopiClampInpScalar
-- diopiClampMax
-- diopiClampMaxInp
-- diopiClampMaxInpScalar
-- diopiClampMaxScalar
-- diopiClampMin
-- diopiClampMinInp
-- diopiClampMinInpScalar
-- diopiClampMinScalar
-- diopiClampScalar
 - diopiUpsampleLinear
 - diopiUpsampleLinearBackward
 - diopiUpsampleNearest