update crop to new main standards

justincdavis · justincdavis · commit 540551aafc0c · 2025-12-04T11:50:56.000-08:00
diff --git a/test/common_utils.py b/test/common_utils.py
@@ -276,17 +276,6 @@ def combinations_grid(**kwargs):
     return [dict(zip(kwargs.keys(), values)) for values in itertools.product(*kwargs.values())]
 
 
-def cvcuda_to_pil_compatible_tensor(tensor: "cvcuda.Tensor") -> torch.Tensor:
-    tensor = cvcuda_to_tensor(tensor)
-    if tensor.ndim != 4:
-        raise ValueError(f"CV-CUDA Tensor should be 4 dimensional. Got {tensor.ndim} dimensions.")
-    if tensor.shape[0] != 1:
-        raise ValueError(
-            f"CV-CUDA Tensor should have batch dimension 1 for comparison with PIL.Image.Image. Got {tensor.shape[0]}."
-        )
-    return tensor.squeeze(0).cpu()
-
-
 class ImagePair(TensorLikePair):
     def __init__(
         self,
diff --git a/test/test_transforms_v2.py b/test/test_transforms_v2.py
@@ -25,7 +25,6 @@
     assert_equal,
     cache,
     cpu_and_cuda,
-    cvcuda_to_pil_compatible_tensor,
     freeze_rng_state,
     ignore_jit_no_profile_information_warning,
     make_bounding_boxes,
@@ -3525,7 +3524,7 @@ def test_functional(self, make_input):
             (F.crop_video, tv_tensors.Video),
             (F.crop_keypoints, tv_tensors.KeyPoints),
             pytest.param(
-                F._geometry._crop_cvcuda,
+                F._geometry._crop_image_cvcuda,
                 "cvcuda.Tensor",
                 marks=pytest.mark.skipif(not CVCUDA_AVAILABLE, reason="test requires CVCUDA"),
             ),
@@ -3552,7 +3551,7 @@ def test_functional_image_correctness(self, kwargs, make_input):
         actual = F.crop(image, **kwargs)
 
         if make_input is make_image_cvcuda:
-            image = cvcuda_to_pil_compatible_tensor(image)
+            image = F.cvcuda_to_tensor(image)[0].cpu()
 
         expected = F.to_image(F.crop(F.to_pil_image(image), **kwargs))
 
@@ -3674,7 +3673,7 @@ def test_transform_image_correctness(self, param, value, seed, make_input):
             torch.manual_seed(seed)
 
             if make_input is make_image_cvcuda:
-                image = cvcuda_to_pil_compatible_tensor(image)
+                image = F.cvcuda_to_tensor(image)[0].cpu()
 
             expected = F.to_image(transform(F.to_pil_image(image)))
 
@@ -4527,7 +4526,7 @@ def test_functional(self, make_input):
             (F.resized_crop_video, tv_tensors.Video),
             (F.resized_crop_keypoints, tv_tensors.KeyPoints),
             pytest.param(
-                F.resized_crop_image,
+                F._geometry._resized_crop_image_cvcuda,
                 "cvcuda.Tensor",
                 marks=pytest.mark.skipif(not CVCUDA_AVAILABLE, reason="test requires CVCUDA"),
             ),
@@ -4584,7 +4583,7 @@ def test_functional_image_correctness(self, make_input, interpolation):
         )
 
         if make_input is make_image_cvcuda:
-            image = cvcuda_to_pil_compatible_tensor(image)
+            image = F.cvcuda_to_tensor(image)[0].cpu()
 
         expected = F.to_image(
             F.resized_crop(
@@ -5026,7 +5025,7 @@ def test_functional(self, make_input):
             (F.center_crop_video, tv_tensors.Video),
             (F.center_crop_keypoints, tv_tensors.KeyPoints),
             pytest.param(
-                F._geometry._center_crop_cvcuda,
+                F._geometry._center_crop_image_cvcuda,
                 "cvcuda.Tensor",
                 marks=pytest.mark.skipif(not CVCUDA_AVAILABLE, reason="test requires CVCUDA"),
             ),
@@ -5072,7 +5071,7 @@ def test_image_correctness(self, output_size, make_input, fn):
         actual = fn(image, output_size)
 
         if make_input is make_image_cvcuda:
-            image = cvcuda_to_pil_compatible_tensor(image)
+            image = F.cvcuda_to_tensor(image)[0].cpu()
 
         expected = F.to_image(F.center_crop(F.to_pil_image(image), output_size=output_size))
 
@@ -6376,7 +6375,7 @@ def test_functional(self, make_input, functional):
             (F.five_crop, F.five_crop_video, tv_tensors.Video),
             pytest.param(
                 F.five_crop,
-                F._geometry._five_crop_cvcuda,
+                F._geometry._five_crop_image_cvcuda,
                 "cvcuda.Tensor",
                 marks=pytest.mark.skipif(not CVCUDA_AVAILABLE, reason="test requires CVCUDA"),
             ),
@@ -6386,7 +6385,7 @@ def test_functional(self, make_input, functional):
             (F.ten_crop, F.ten_crop_video, tv_tensors.Video),
             pytest.param(
                 F.ten_crop,
-                F._geometry._ten_crop_cvcuda,
+                F._geometry._ten_crop_image_cvcuda,
                 "cvcuda.Tensor",
                 marks=pytest.mark.skipif(not CVCUDA_AVAILABLE, reason="test requires CVCUDA"),
             ),
@@ -6458,7 +6457,7 @@ def test_correctness_image_five_crop(self, make_input, fn):
         actual = fn(image, size=self.OUTPUT_SIZE)
 
         if make_input is make_image_cvcuda:
-            image = cvcuda_to_pil_compatible_tensor(image)
+            image = F.cvcuda_to_tensor(image)[0].cpu()
 
         expected = F.five_crop(F.to_pil_image(image), size=self.OUTPUT_SIZE)
 
@@ -6489,7 +6488,7 @@ def test_correctness_image_ten_crop(self, make_input, fn_or_class, vertical_flip
         actual = fn(image, **kwargs)
 
         if make_input is make_image_cvcuda:
-            image = cvcuda_to_pil_compatible_tensor(image)
+            image = F.cvcuda_to_tensor(image)[0].cpu()
 
         expected = F.ten_crop(F.to_pil_image(image), size=self.OUTPUT_SIZE, vertical_flip=vertical_flip)
 
diff --git a/torchvision/transforms/v2/_geometry.py b/torchvision/transforms/v2/_geometry.py
@@ -26,7 +26,6 @@
     get_bounding_boxes,
     has_all,
     has_any,
-    is_cvcuda_tensor,
     is_pure_tensor,
     query_size,
 )
@@ -140,6 +139,9 @@ class Resize(Transform):
 
     _v1_transform_cls = _transforms.Resize
 
+    if CVCUDA_AVAILABLE:
+        _transformed_types = Transform._transformed_types + (_is_cvcuda_tensor,)
+
     def __init__(
         self,
         size: Union[int, Sequence[int], None],
@@ -195,7 +197,8 @@ class CenterCrop(Transform):
 
     _v1_transform_cls = _transforms.CenterCrop
 
-    _transformed_types = Transform._transformed_types + (is_cvcuda_tensor,)
+    if CVCUDA_AVAILABLE:
+        _transformed_types = Transform._transformed_types + (_is_cvcuda_tensor,)
 
     def __init__(self, size: Union[int, Sequence[int]]):
         super().__init__()
@@ -255,7 +258,8 @@ class RandomResizedCrop(Transform):
 
     _v1_transform_cls = _transforms.RandomResizedCrop
 
-    _transformed_types = Transform._transformed_types + (is_cvcuda_tensor,)
+    if CVCUDA_AVAILABLE:
+        _transformed_types = Transform._transformed_types + (_is_cvcuda_tensor,)
 
     def __init__(
         self,
@@ -365,7 +369,8 @@ class FiveCrop(Transform):
 
     _v1_transform_cls = _transforms.FiveCrop
 
-    _transformed_types = Transform._transformed_types + (is_cvcuda_tensor,)
+    if CVCUDA_AVAILABLE:
+        _transformed_types = Transform._transformed_types + (_is_cvcuda_tensor,)
 
     def __init__(self, size: Union[int, Sequence[int]]) -> None:
         super().__init__()
@@ -411,7 +416,8 @@ class TenCrop(Transform):
 
     _v1_transform_cls = _transforms.TenCrop
 
-    _transformed_types = Transform._transformed_types + (is_cvcuda_tensor,)
+    if CVCUDA_AVAILABLE:
+        _transformed_types = Transform._transformed_types + (_is_cvcuda_tensor,)
 
     def __init__(self, size: Union[int, Sequence[int]], vertical_flip: bool = False) -> None:
         super().__init__()
@@ -820,7 +826,8 @@ class RandomCrop(Transform):
 
     _v1_transform_cls = _transforms.RandomCrop
 
-    _transformed_types = Transform._transformed_types + (is_cvcuda_tensor,)
+    if CVCUDA_AVAILABLE:
+        _transformed_types = Transform._transformed_types + (_is_cvcuda_tensor,)
 
     def _extract_params_for_v1_transform(self) -> dict[str, Any]:
         params = super()._extract_params_for_v1_transform()
@@ -1132,7 +1139,8 @@ class RandomIoUCrop(Transform):
             Default, 40.
     """
 
-    _transformed_types = Transform._transformed_types + (is_cvcuda_tensor,)
+    if CVCUDA_AVAILABLE:
+        _transformed_types = Transform._transformed_types + (_is_cvcuda_tensor,)
 
     def __init__(
         self,
@@ -1415,6 +1423,9 @@ class RandomResize(Transform):
             v0.17, for the PIL and Tensor backends to be consistent.
     """
 
+    if CVCUDA_AVAILABLE:
+        _transformed_types = Transform._transformed_types + (_is_cvcuda_tensor,)
+
     def __init__(
         self,
         min_size: int,
diff --git a/torchvision/transforms/v2/_transform.py b/torchvision/transforms/v2/_transform.py
@@ -8,7 +8,7 @@
 from torch import nn
 from torch.utils._pytree import tree_flatten, tree_unflatten
 from torchvision import tv_tensors
-from torchvision.transforms.v2._utils import check_type, has_any, is_cvcuda_tensor, is_pure_tensor
+from torchvision.transforms.v2._utils import check_type, has_any, is_pure_tensor
 from torchvision.utils import _log_api_usage_once
 
 from .functional._utils import _get_kernel
@@ -91,7 +91,10 @@ def _needs_transform_list(self, flat_inputs: list[Any]) -> list[bool]:
 
         needs_transform_list = []
         transform_pure_tensor = not has_any(
-            flat_inputs, tv_tensors.Image, tv_tensors.Video, PIL.Image.Image, is_cvcuda_tensor
+            flat_inputs,
+            tv_tensors.Image,
+            tv_tensors.Video,
+            PIL.Image.Image,
         )
         for inpt in flat_inputs:
             needs_transform = True
diff --git a/torchvision/transforms/v2/functional/__init__.py b/torchvision/transforms/v2/functional/__init__.py
@@ -1,6 +1,6 @@
 from torchvision.transforms import InterpolationMode  # usort: skip
 
-from ._utils import is_pure_tensor, register_kernel, is_cvcuda_tensor  # usort: skip
+from ._utils import is_pure_tensor, register_kernel  # usort: skip
 
 from ._meta import (
     clamp_bounding_boxes,
diff --git a/torchvision/transforms/v2/functional/_geometry.py b/torchvision/transforms/v2/functional/_geometry.py