Skip to content

Conversation

@FantasyGmm
Copy link

@FantasyGmm FantasyGmm commented Jan 6, 2026

  • 跨平台支持:修复Linux下二进制文件缺失执行权限及路径查找失败的问题;新增Linux版程序包的下载与适配逻辑。
  • GPU检测优化:更新显卡检测规则,新增对RTX 50系列和Volta架构(如V100)的识别,针对此类硬件自动开启float16以优化性能。
  • ASR核心修复:修复人声分离错误的参数传递,修复了VadMethodEnum的格式问题 。
  • UI与交互:重构下载解压逻辑,增加对系统7z命令的预检查,优化解压失败时的错误提示信息。

对于Ubuntu 24.04 如果运行报错

faster_whisper - ERROR - ffmpeg: error while loading shared libraries: libavcodec.so.58: cannot open shared object file: No such file or directory

需要手动删除下面的文件才能使用Faster-Whisper
rm VideoCaptioner/resource/bin/Faster-Whisper-XXL/_xxl_data/libchromaprint.so.1
上游打包了一个废弃的库 whisper-standalone-win/issues/481

目前仅在Ubuntu 24.04 下测试过

- 移除配置文件中的.exe后缀,统一使用无后缀程序名
- 添加platform_utils工具函数确保二进制文件执行权限
- 实现跨平台程序查找逻辑,支持Windows和Linux不同文件格式
- 添加fallback降级机制,CPU模式下可降级使用普通版本
- 更新设置组件中的程序列表,根据系统平台动态选择
- 优化程序存在性检查逻辑,区分Windows和Linux检测方式
- 为 combo box 项添加 userData 存储程序配置
- 移除通过标签查找程序的逻辑
- 改用 currentData() 直接获取选中的程序配置
- 添加 7z 命令存在性检查,提供平台特定安装建议
- 增加解压前文件存在性验证,避免删除不存在的文件
- 改进错误信息处理,区分不同类型的解压错误
- 优化异常捕获逻辑,提供更详细的错误描述
- 添加解压流程步骤注释,提高代码可读性
- 在 `Faster-Whisper-XXL r245.3` 中已经把 `--ff_mdx_kim2` 改成了 `--ff_vocal_extract mdx_kim2`
- 将 --ff_mdx_kim2 参数更改为 --ff_vocal_extract mdx_kim2
- 修正了语音提取功能的命令行参数格式
- 移除了 SILERO_V4 和 SILERO_V5 的冗余注释
- 简化了枚举值的注释格式
- 更新了 SILERO_V5_FW 注释中的描述
- 调整了 PYANNOTE_ONNX_V3 注释的表述
- 添加 FORCE_FLOAT16_KEYWORDS 白名单常量支持 RTX 50/V100/TITAN V 等显卡
- 重构 is_rtx_50_series 函数为 should_force_float16 支持多架构检测
- 改进显卡名称匹配逻辑,转为大写后进行白名单关键词匹配
- 增强错误处理,防止 GPUtil 异常导致程序崩溃
- 优化日志输出,提供更详细的显卡检测信息
- 扩展检测范围从仅 RTX 50 系列到包含 V100 和 TITAN V 显卡
- 修正了DEFAULT_CHUNK_LENGTH_SEC常量的注释,从20分钟改为10分钟
- 更新了chunk_length参数的文档字符串,明确默认值为600秒(10分钟)
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

None yet

Projects

None yet

Development

Successfully merging this pull request may close these issues.

1 participant