jiangmuran · jiangmuran · Apr 9, 2026 · Apr 9, 2026
diff --git a/.env.example b/.env.example
@@ -90,3 +90,31 @@ TEMP_VIDEO_TTL_SECONDS=900
 
 # 可选：临时视频落盘目录
 # TEMP_VIDEO_DIR=backend/data/temp_videos
+
+# === 视频口播转写（OpenAI 兼容 /audio/transcriptions，非 TTS）===
+# 需本机安装 ffmpeg。只要填了 OPENAI_WHISPER_BASE_URL，就必须填 OPENAI_WHISPER_API_KEY（勿用 MiMo Key）。
+# 默认开启（代码默认值为 1）；可显式关闭：
+# VIDEO_STT_ENABLED=0
+# VIDEO_STT_ENABLED=1
+#
+# OpenAI 官方 Whisper：
+# OPENAI_WHISPER_BASE_URL=https://api.openai.com/v1
+# OPENAI_WHISPER_API_KEY=sk-...
+# WHISPER_MODEL=whisper-1
+#
+# 硅基流动 ASR（创建语音转文本，勿与 TTS「上传参考音频」upload-voice 混淆）：
+# 文档：https://docs.siliconflow.cn/cn/api-reference/audio/create-audio-transcriptions
+# upload-voice 文档：https://docs.siliconflow.cn/cn/api-reference/audio/upload-voice （仅 TTS 音色，不用于 ASR）
+# OPENAI_WHISPER_BASE_URL=https://api.siliconflow.cn/v1
+# OPENAI_WHISPER_API_KEY=<硅基控制台 API Key>
+# WHISPER_MODEL=TeleAI/TeleSpeechASR
+# WHISPER_MODEL=FunAudioLLM/SenseVoiceSmall
+# 硅基部分模型可不传 language：VIDEO_STT_LANGUAGE= （空）
+#
+# VIDEO_STT_MAX_AUDIO_SECONDS=600
+# 长视频分段转写（秒），默认 480；调小更稳但请求次数更多
+# VIDEO_STT_SEGMENT_SECONDS=480
+# VIDEO_STT_TIMEOUT_SEC=240
+# VIDEO_STT_LANGUAGE=zh
+# 优先请求 verbose_json（带 segments）；网关不支持会自动回退
+# VIDEO_STT_PREFER_VERBOSE_JSON=1