Skip to content

liangbm3/AI-ViewNote

Repository files navigation

AI-ViewNote Logo

AI-ViewNote

🤖 AI-powered video note-taking application that transforms audio and video content into structured text notes.

MIT License Desktop Platform Wails v3 React + TypeScript

AI-ViewNote 是一款基于 Wails v3 构建的现代化桌面应用程序,集成了本地音视频处理、云端语音识别(ASR)以及大语言模型(LLM)能力,帮助用户将视频或音频内容智能转化为结构化的文字笔记。🎯 支持多种笔记风格,满足不同场景的学习和记录需求。

🎥 项目预览

项目预览

✨ 功能特性

  • 🎬 本地音视频处理:集成 FFmpeg,支持音视频格式快速转换与音频提取,确保高效的媒体文件处理能力
  • 🎤 语音转写提取:结合火山引擎等云服务,实现高精度语音到文本(Speech-to-Text)转换,准确率可达95%以上
  • 🧠 AI 智能笔记生成:通过标准 OpenAI 接口(支持多种大模型),对转写文本进行智能分析,生成多种风格的笔记:
    • 📚 知识笔记:结构化的知识总结,包含时间标记,便于复习和查阅
    • 💄 小红书风格:亲切有趣的内容风格,善用 Emoji 和标签,适合社交平台分享
    • 📱 公众号风格:专业的微信公众号文章格式,逻辑清晰、观点鲜明
    • 📝 内容总结:简明扼要的摘要,突出核心观点和关键信息
  • 💬 AI 对话增强:支持基于已生成内容继续发起 AI 聊天,便于追问、扩展和二次整理
  • 🧩 提示词自定义:支持自定义提示词,满足不同场景下的输出风格和内容要求
  • 📸 截图能力:支持任务截图并可配置截图功能开关
  • 📥 结果导出:支持 Markdown 与字幕文件下载,便于沉淀与二次使用
  • 🔔 任务通知与运行行为设置:支持任务完成弹窗提醒、关闭按钮行为配置(后台运行/退出)
  • 🗂️ 任务栏与日志栏体验优化:支持任务栏折叠、日志栏默认行为配置,提升界面可用性
  • 🎨 现代化桌面 UI:前端采用 React + TypeScript + Vite + Tailwind CSS / Radix UI 构建,提供流畅美观的本地用户体验

🚀 近期更新

v1.3.0

  • 新增基于生成内容的 AI 聊天功能
  • 支持自定义提示词
  • 新增截图功能及截图开关配置
  • 修复 AI 对话乱码、Markdown 渲染、提示词与多任务临时目录冲突等问题

v1.2.0

  • 任务栏支持折叠
  • 支持 Markdown 与字幕文件下载
  • 重构 task_service,优化模块化结构

v1.1.0

  • 支持任务完成弹窗通知
  • 支持关闭按钮行为配置(后台运行/退出)
  • 支持日志栏折叠行为配置
  • 失败界面支持展示具体错误信息

⚙️ 配置指南

在使用 AI-ViewNote 之前,需要配置相关服务的 API 密钥以启用完整功能。

🤖 LLM 服务配置

AI-ViewNote 兼容任何支持 OpenAI 接口的大模型服务。以下以火山方舟大模型为例进行配置说明:

  1. 登录方舟控制台,点击开通管理,开通相关模型

  2. 选择开通一个大模型,开通后点击进入详情页查看模型 ID

    方舟控制台

  3. 点击 API Key 管理创建新的 API Key

    API Key 管理

  4. 火山方舟大模型的 OpenAI 接口地址为:

    https://ark.cn-beijing.volces.com/api/v3
    

☁️ TOS 服务配置

对象存储服务用于文件上传和管理。目前支持火山引擎 TOS,未来将引入更多服务提供商。

  1. 打开对象存储服务控制台,点击桶列表并创建新桶

    创建存储桶

  2. 创建完成后进入该存储桶,点击右侧权限管理,找到跨域访问设置并新建规则

    跨域访问设置

  3. 在此页面可以找到 bucketName 和 Endpoint

    存储桶信息

  4. Region 设置:如果地域节点是北京,则 Region 填写 cn-beijing,其他地域同理

  5. 进入 IAM 控制台,新建密钥获取 Access Key 和 Secret Key

    密钥管理

🎯 ASR 服务配置

语音识别服务用于将音频内容转换为文本。目前支持火山引擎语音识别服务,未来将引入更多服务提供商。

  1. 打开音频大模型控制台

  2. 点击语音识别中的录音文件识别(注意:不是录音文件识别大模型

  3. 创建应用后即可获得 AUC_APP_ID、AUC_ACCESS_TOKEN 和 AUC_CLUSTER_ID

    ASR 应用配置

🙏 致谢

特别感谢以下开源项目:

  • Wails v3 - 为本项目提供现代化的桌面应用开发框架
  • AI-Media2Doc - 为本项目提供思路

📄 开源协议

本项目基于 MIT License 协议发布,欢迎个人和商业使用。🎉

About

🤖 AI-powered video note-taking application that transforms audio and video content into structured text notes.

Topics

Resources

License

Stars

Watchers

Forks

Contributors