rh-ai-quickstart · louie-tsai · Nov 12, 2025
diff --git a/helm/templates/servingruntime.yaml b/helm/templates/servingruntime.yaml
@@ -24,6 +24,28 @@ spec:
         - {{ .Values.model.maxModelLen | quote }}
         - '--served-model-name'
         - {{ .Values.model.name }}
+        - '--tensor-parallel-size'
+        - {{ .Values.resources.inference.tp }}
+        - '--dtype'
+        - {{ .Values.model.dtype }}
+        - '--enforce-eager'
+        - '--distributed-executor-backend'
+        - "mp"
+        - '--block-size'
+        - {{ .Values.model.block_size }}
+        - '--max-num-batched-tokens'
+        - {{ .Values.model.max_num_batched_tokens }}
+        - '--max-num-seqs'
+        - {{ .Values.model.max_num_seqs }}
+      env:
+        - name: VLLM_CPU_KVCACHE_SPACE
+          value: "40"
+        - name: VLLM_CPU_SGL_KERNEL
+          value: "1"
+        - name: VLLM_ALLOW_LONG_MAX_MODEL_LEN
+          value: "1"
+        - name: VLLM_RPC_TIMEOUT
+          value: "100000"
       image: {{ .Values.images.vllmRuntime.repository }}:{{ .Values.images.vllmRuntime.tag }}
       name: kserve-container
       ports:
@@ -33,4 +55,4 @@ spec:
   multiModel: false
   supportedModelFormats:
     - autoSelect: true
-      name: vLLM
+      name: vLLM
diff --git a/helm/values.yaml b/helm/values.yaml
@@ -40,14 +40,19 @@ model:
   storageUri: "oci://quay.io/rh-aiservices-bu/tinyllama:1.0"
   name: "tinyllama"
   maxModelLen: 2048
+  dtype: "bfloat16"
+  block_size: "128"
+  max_num_batched_tokens: "2048"
+  max_num_seqs: "256"
 
 resources:
   inference:
     requests:
       cpu: "2"
       memory: "4Gi"
+      tp: "1"
     limits:
       cpu: "8"
       memory: "8Gi"
 
-storageClassName: gp3-csi
+storageClassName: gp3-csi