markmc
diff --git a/‎tests/entrypoints/openai/test_serving_chat.py‎
Lines changed: 11 additions & 2 deletions b/‎tests/entrypoints/openai/test_serving_chat.py‎
Lines changed: 11 additions & 2 deletions
diff --git a/‎tests/entrypoints/test_context.py‎
Lines changed: 1 addition & 0 deletions b/‎tests/entrypoints/test_context.py‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎tests/test_outputs.py‎
Lines changed: 1 addition & 0 deletions b/‎tests/test_outputs.py‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎tests/tokenizers_/test_detokenize.py‎
Lines changed: 1 addition & 0 deletions b/‎tests/tokenizers_/test_detokenize.py‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎tests/v1/engine/test_async_llm.py‎
Lines changed: 2 additions & 2 deletions b/‎tests/v1/engine/test_async_llm.py‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎tests/v1/engine/test_engine_core.py‎
Lines changed: 7 additions & 1 deletion b/‎tests/v1/engine/test_engine_core.py‎
Lines changed: 7 additions & 1 deletion
@@ -390,7 +390,9 @@ async def _fake_process_inputs(
         trace_headers,
         priority,
     ):
-        return dict(engine_prompt), {}
+        mock_request = MagicMock()
+        mock_request.request_id = request_id
+        return mock_request, {}
 
     serving_chat._process_inputs = AsyncMock(side_effect=_fake_process_inputs)
     return serving_chat
@@ -662,7 +664,11 @@ async def test_serving_chat_data_parallel_rank_extraction():
     mock_engine.get_tokenizer.return_value = get_tokenizer(MODEL_NAME)
     mock_engine.errored = False
     mock_engine.model_config = MockModelConfig()
+
+    mock_request = MagicMock()
+    mock_request.request_id = "test-request-internal"
     mock_engine.input_processor = MagicMock()
+    mock_engine.input_processor.process_inputs.return_value = mock_request
     mock_engine.io_processor = MagicMock()
 
     # Mock the generate method to return an async generator
@@ -672,6 +678,7 @@ async def mock_generate(*args, **kwargs):
 
         yield RequestOutput(
             request_id="test-request",
+            internal_req_id="test-request-int",
             prompt="test prompt",
             prompt_token_ids=[1, 2, 3],
             prompt_logprobs=None,
@@ -689,7 +696,9 @@ async def mock_generate(*args, **kwargs):
             finished=True,
         )
 
-    mock_engine.generate = AsyncMock(side_effect=mock_generate)
+    mock_engine.generate = MagicMock(
+        side_effect=lambda *args, **kwargs: mock_generate()
+    )
 
     serving_chat = _build_serving_chat(mock_engine)
 
 
@@ -37,6 +37,7 @@ def create_mock_request_output(
 
     return RequestOutput(
         request_id="test-id",
+        internal_req_id="test-id-int",
         prompt="Test prompt",
         prompt_token_ids=prompt_token_ids,
         prompt_logprobs=None,
 
@@ -11,6 +11,7 @@
 def test_request_output_forward_compatible():
     output = RequestOutput(
         request_id="test_request_id",
+        internal_req_id="test_request_id_internal",
         prompt="test prompt",
         prompt_token_ids=[1, 2, 3],
         prompt_logprobs=None,
 
@@ -62,6 +62,7 @@ def _run_incremental_decode(
     )
     request = EngineCoreRequest(
         request_id="",
+        external_req_id="",
         prompt_token_ids=prompt_token_ids,
         mm_features=None,
         sampling_params=params,
 
@@ -253,7 +253,7 @@ async def test_multi_abort(output_kind: RequestOutputKind):
 
         # Use multi-abort to abort multiple requests at once
         abort_request_ids = [request_ids[i] for i in REQUEST_IDS_TO_ABORT]
-        await engine.abort(abort_request_ids)
+        await engine.abort(abort_request_ids, internal=False)
 
         # Wait for all tasks to complete
         results = await asyncio.gather(*tasks, return_exceptions=True)
@@ -548,7 +548,7 @@ async def test_abort_final_output(output_kind: RequestOutputKind):
         await asyncio.sleep(0.5)
 
         # Abort the request
-        await engine.abort(request_id)
+        await engine.abort(request_id, internal=False)
 
         # Wait for generation to complete and return final output
         final_output = await generated
 
@@ -40,10 +40,16 @@
 PROMPT = "I am Gyoubu Masataka Oniwa"
 PROMPT_TOKENS = TOKENIZER(PROMPT).input_ids
 
+_REQUEST_COUNTER = 0
+
 
 def make_request() -> EngineCoreRequest:
+    global _REQUEST_COUNTER
+    _REQUEST_COUNTER += 1
+    request_id = f"request-{_REQUEST_COUNTER}"
     return EngineCoreRequest(
-        request_id=str(uuid.uuid4()),
+        request_id=request_id,
+        external_req_id=f"{request_id}-{uuid.uuid4()}",
         prompt_token_ids=PROMPT_TOKENS,
         mm_features=None,
         sampling_params=SamplingParams(),
Original file line number	Diff line number	Diff line change
`@@ -62,6 +62,7 @@ def _run_incremental_decode(`
`62`	`62`	`)`
`63`	`63`	`request = EngineCoreRequest(`
`64`	`64`	`request_id="",`
	`65`	`+ external_req_id="",`
`65`	`66`	`prompt_token_ids=prompt_token_ids,`
`66`	`67`	`mm_features=None,`
`67`	`68`	`sampling_params=params,`