fix comments and bugs

zewenli98 · zewenli98 · commit a18580333967 · 2025-07-21T17:50:06.000-07:00
diff --git a/py/torch_tensorrt/dynamo/conversion/aten_ops_converters.py b/py/torch_tensorrt/dynamo/conversion/aten_ops_converters.py
@@ -3582,7 +3582,6 @@ def aten_ops_nonzero(
 
 
 @dynamo_tensorrt_converter(torch.ops.aten.linear.default, supports_dynamic_shapes=True)
-@dynamo_tensorrt_converter(torch.ops.aten.linear, supports_dynamic_shapes=True)
 def aten_ops_linear(
     ctx: ConversionContext,
     target: Target,
diff --git a/py/torch_tensorrt/dynamo/conversion/impl/linear.py b/py/torch_tensorrt/dynamo/conversion/impl/linear.py
@@ -7,7 +7,7 @@
 from torch_tensorrt.dynamo.conversion import impl
 from torch_tensorrt.dynamo.conversion._ConversionContext import ConversionContext
 from torch_tensorrt.dynamo.conversion.converter_utils import SourceIR, get_trt_tensor
-from torch_tensorrt.fx.types import TRTTensor
+from torch_tensorrt.dynamo.types import TRTTensor
 
 
 def linear(
@@ -40,7 +40,7 @@ def linear(
         ctx,
         target,
         source_ir,
-        name,
+        f"{name}_matrix_multiply",
         input,
         weight,
         input_matrix_op=trt.MatrixOperation.NONE,
@@ -49,6 +49,6 @@ def linear(
 
     if bias is not None:
         # add bias
-        out = impl.elementwise.add(ctx, target, source_ir, name, out, bias)
+        out = impl.elementwise.add(ctx, target, source_ir, f"{name}_add", out, bias)
 
     return out
diff --git a/py/torch_tensorrt/dynamo/runtime/_PythonTorchTensorRTModule.py b/py/torch_tensorrt/dynamo/runtime/_PythonTorchTensorRTModule.py
@@ -2,7 +2,6 @@
 
 import logging
 from contextlib import nullcontext
-from tempfile import tempdir
 from typing import Any, Dict, List, Optional, Sequence, Tuple
 
 import tensorrt as trt
@@ -539,7 +538,7 @@ def run_standard_execution() -> torch.Tensor | Tuple[torch.Tensor, ...]:
 
                                 with tempfile.TemporaryDirectory() as tmpdir:
                                     self.cudagraph.debug_dump(
-                                        f"{tempdir}/{self.name}_cudagraph.dot"
+                                        f"{tmpdir}/{self.name}_cudagraph.dot"
                                     )
 
                         self.cudagraph.replay()  # type: ignore
diff --git a/tools/perf/perf_run.py b/tools/perf/perf_run.py
@@ -474,9 +474,7 @@ def run_tensorrt(
     # Get I/O tensor information using TensorRT 10 API
     input_names = []
     output_names = []
-    input_dtypes = []
     output_dtypes = []
-    input_shapes = []
     output_shapes = []
 
     for i in range(engine.num_io_tensors):
@@ -487,8 +485,6 @@ def run_tensorrt(
 
         if tensor_mode == trt.TensorIOMode.INPUT:
             input_names.append(tensor_name)
-            input_dtypes.append(torch_dtype_from_trt(tensor_dtype))
-            input_shapes.append(tuple(tensor_shape))
         else:  # trt.TensorIOMode.OUTPUT
             output_names.append(tensor_name)
             output_dtypes.append(torch_dtype_from_trt(tensor_dtype))
@@ -514,6 +510,8 @@ def run_tensorrt(
         dedicated_stream = torch.cuda.Stream()
         current_stream = torch.cuda.current_stream()
 
+        setup_time = timeit.default_timer()
+
         # Warm up
         for i in range(WARMUP_ITER):
             # Wait for current stream to finish
@@ -523,6 +521,7 @@ def run_tensorrt(
             current_stream.wait_stream(dedicated_stream)
             torch.cuda.synchronize()
 
+        infer_start_time = timeit.default_timer()
         # Performance measurement
         for i in range(iters):
             # Wait for current stream to finish
@@ -531,9 +530,12 @@ def run_tensorrt(
             # Wait for TensorRT stream to finish
             current_stream.wait_stream(dedicated_stream)
             torch.cuda.synchronize()
-            end_time = timeit.default_timer()
-            infer_time = end_time - start_time
-            timings.append(infer_time)
+
+        end_time = timeit.default_timer()
+
+    # to compare against torch-trt dynamo apples to apples
+    infer_time = (end_time - infer_start_time + setup_time - start_time) / iters
+    timings.append(infer_time)
 
     recordStats("TensorRT", timings, precision, batch_size, compile_time_s)