一个高效的 Claude Code Skill,用于自动提取 Get笔记知识库中的所有文章,保存为 Markdown 文件。
- 🚀 并行提取:支持多线程并发提取,默认3个并发,速度提升3-5倍
- 📝 格式化输出:保存为结构化的 Markdown 文件,包含标题、原链接和完整内容
- ⚡ 高速提取:并行模式下速度约 25-30 篇/分钟
- 📊 实时反馈:显示提取进度、速度和用时统计
- 🔄 自动分页:自动处理所有页面,无需手动翻页
- 💾 断点续传:自动跳过已提取的文章,支持随时中断和继续
- 🛑 优雅停止:Ctrl+C 等待当前批次完成后安全退出
- 📁 智能命名:使用博主名称命名文件夹,自动处理重名冲突
- 🎯 完整内容:提取文章完整正文,非AI摘要
curl -fsSL https://raw.githubusercontent.com/dontbesilent2025/extract-getnote-articles/main/install.sh | bash安装脚本会询问你是要全局安装(所有项目可用)还是安装到当前项目。
全局安装(所有项目可用):
git clone https://github.com/dontbesilent2025/extract-getnote-articles.git ~/.claude/skills/extract-getnote-articles
cd ~/.claude/skills/extract-getnote-articles
npm install项目级安装:
git clone https://github.com/dontbesilent2025/extract-getnote-articles.git ./skills/extract-getnote-articles
cd ./skills/extract-getnote-articles
npm install什么是 Get笔记知识库?
Get笔记提供了"知识库"功能,可以订阅抖音博主的短视频文案。订阅后,博主发布的视频文案会自动同步到你的知识库中。
如何订阅抖音博主?
-
打开 Get笔记 APP
- 如果还没有安装,在应用商店搜索"Get笔记"下载
-
找到想订阅的博主
- 方式1:在 Get笔记 APP 首页,点击"知识库"标签
- 方式2:在抖音 APP 中找到博主,复制其主页链接,然后在 Get笔记中搜索
-
订阅博主
- 进入博主的知识库页面
- 点击"订阅"或"关注"按钮
- 订阅成功后,该博主的文案会出现在你的"我的知识库"中
-
在网页端查看
- 打开 https://www.biji.com
- 登录你的账号
- 在"我的知识库"中找到已订阅的博主
💡 提示:订阅是免费的,但部分博主可能需要付费订阅才能查看完整内容。
打开博主的知识库页面,复制完整的浏览器地址:
https://www.biji.com/subject/QYARpjM0/DEFAULT?followId=785142&followName=博主名称
followName 参数,这样才能正确命名输出文件夹。
在 Claude Code 中(推荐):
直接用自然语言告诉 Claude:
提取这个知识库的文章:https://www.biji.com/subject/QYARpjM0/DEFAULT?followId=...
或者使用 skill 命令:
/extract-getnote-articles https://www.biji.com/subject/QYARpjM0/DEFAULT?followId=...
直接在终端运行:
cd ~/.claude/skills/extract-getnote-articles
node run.js "https://www.biji.com/subject/QYARpjM0/DEFAULT?followId=..."- 浏览器会自动打开
- 如果未登录,会显示登录提示页面
- 在浏览器中登录 Get笔记账号
- 登录成功后,脚本会自动开始提取
- 文章会保存在以博主名称命名的文件夹中
停止提取:
- 在终端按
Ctrl+C,脚本会等待当前批次完成后安全退出 - 在 Claude Code 中告诉 Claude "停止提取"
继续提取:
- 重新运行相同的命令
- 脚本会自动跳过已提取的文章
- 从中断的地方继续提取
提取的文章会保存在 skill 安装目录下,以博主名称命名的文件夹中:
~/.claude/skills/extract-getnote-articles/
├── 博主A/ # 第一次提取
│ ├── 001_文章标题.md
│ ├── 002_文章标题.md
│ └── ...
├── 博主A_2/ # 第二次提取(自动添加序号避免冲突)
│ ├── 001_文章标题.md
│ └── ...
└── 博主B/
└── ...
每篇文章包含:
- 文章标题
- 原始链接
- 完整正文内容
| 模式 | 速度 | 说明 |
|---|---|---|
| 串行模式 | ~10 篇/分钟 | 单线程提取 |
| 并行模式(默认) | ~25-30 篇/分钟 | 3个并发 |
| 高并发模式 | ~40-50 篇/分钟 | 5个并发(需手动设置) |
# 直接调用 extract.js,最后一个参数是并发数
node extract.js "URL" "./输出目录" 0 0 5参数说明:
- 参数1:知识库URL
- 参数2:输出目录
- 参数3:最大页数(0=全部)
- 参数4:最大文章数(0=全部)
- 参数5:并发数(默认3)
# 只提取前50篇文章
node extract.js "URL" "./输出目录" 0 50- Node.js - 运行环境
- Playwright - 浏览器自动化
- Claude Code Skill - 技能系统集成
- ✅ 需要有 Get笔记账号并已登录
- ✅ 需要在 Get笔记 APP 中订阅目标知识库
- ✅ 首次运行需要在浏览器中登录,之后会保持登录状态
- ✅ 提取的文章仅供个人学习使用,请尊重原作者版权
⚠️ 建议并发数不超过5,避免被网站限流⚠️ 提取过程中请保持网络稳定
Q: 如何停止提取?
A: 按 Ctrl+C,脚本会等待当前批次完成后安全退出。下次运行会自动继续。
Q: 提取到一半中断了怎么办?
A: 重新运行相同的命令,脚本会自动跳过已提取的文章,从中断处继续。
Q: 为什么文件夹名后面有 _2、_3?
A: 这是为了避免重名冲突。如果你多次提取同一个博主,会自动添加序号。
Q: 如何提高提取速度?
A: 可以增加并发数,但建议不超过5,避免被限流。
Q: 提取的内容不完整?
A: 确保已在 Get笔记 APP 中订阅该知识库,并且浏览器已登录。
本工具通过浏览器自动化访问你已订阅的 Get笔记内容。这是合法的,原因如下:
1. 授权访问
- 你使用自己的账号和订阅权限
- 只能访问你已订阅的知识库
- 工具不会绕过任何技术保护措施或访问限制
2. 浏览器自动化 ≠ 网络爬虫
- 工具使用 Playwright 自动化浏览器操作
- 相当于你手动点击、浏览、复制的自动化版本
- 类似于浏览器插件、自动填表工具等合法工具
3. 内容来源
- Get笔记已经合法收集了这些内容
- 你通过订阅获得了查看权限
- 工具只是帮你整理你有权访问的内容
法律类比: 这就像你把 Netflix 上看过的电影列表导出来做笔记,或者用工具整理你的 Notion 笔记。你有权限访问的内容,用工具帮你整理,完全合法。
✅ 可以做:
- 个人学习和研究
- 备份你订阅的内容
- 整理知识库笔记
❌ 不要做:
- 商业使用或转售内容
- 二次传播或公开发布
- 侵犯原作者版权
提取的内容版权归原作者所有。请尊重原创,支持正版。如需商业使用,请联系原作者获得授权。
- ✨ 新增并行提取功能,速度提升3-5倍
- ✨ 新增断点续传功能
- ✨ 新增优雅停止功能
- ✨ 使用博主名称命名文件夹
- ✨ 自动处理文件夹重名冲突
- 🐛 修复URL参数丢失问题
- 🐛 修复内容提取不完整问题
MIT License
欢迎提交 Issue 和 Pull Request!