Skip to content

QverisFriends/MagicArt

Repository files navigation

🧙‍♂️ 手势魔法工坊 (Magic Art)

团队:手势魔法
成员:Hallo, Celine

手势魔法工坊 是一个基于计算机视觉(Computer Vision)和生成式 AI 代理(Generative AI Agents)的无接触创意工作室。用户无需键盘或鼠标,仅通过手势和语音即可完成从灵感搜索到艺术创作的全过程。


🛠 技术架构 (Architecture)

本项目采用了 “前端视觉 + 云端智能体” 的混合架构,确保交互的实时性和生成的灵活性。

  1. 视觉交互层 (Visual Core)

    • MediaPipe Hands: 在浏览器端本地运行(60fps),实时捕捉 21 个手部关键点,无需上传视频流,保障隐私。
    • Gesture Logic: 自研手势识别算法,支持防抖动(Anti-jitter)和长按触发(Hold-to-trigger)机制。
  2. 智能体调度层 (Agent Protocol)

    • Qveris Agent System: 核心逻辑基于 Search & Execute 协议。系统不依赖单一模型,而是根据意图动态调度工具。
    • Fallback 机制: 当智能体网络繁忙时,自动降级切换至 Google Gemini API 保障基础服务。
  3. 服务集成 (Integrated Services)

    • 语音转录: Deepgram Nova-2 模型(毫秒级 STT)。
    • 图像生成: 智谱 CogView-3 / Stable Diffusion (通过 Agent 调用)。
    • 灵感搜索: Brave Search API。
    • 语义提炼: Google Gemini 2.5/3.0 Flash。

⚙️ 配置指南 (Configuration)

本项目依赖多个云端 API。在运行前,请确保配置以下密钥。

1. 环境变量配置

在项目根目录创建或检查环境变量(通常在构建平台配置):

  • API_KEY: Google Gemini API Key (可选/备选)。主要作为 Qveris 智能体服务的备选方案。若未配置,将无法使用 Gemini Fallback 模式及部分高级语义润色功能。

2. 服务代码配置 (services/geminiService.ts)

为了方便演示,部分 Keys 可能硬编码在 services/geminiService.ts 中。生产环境部署时,请务必替换为你自己的 Key

需要关注的文件位置:src/services/geminiService.ts

变量名 描述 获取方式
API_CONFIG.qverisKey Qveris Agent 鉴权密钥 联系 Qveris 管理员或部署自有 Agent 网关
TOOLS_CONFIG.deepgram.apiKey Deepgram 语音识别密钥 Deepgram Console
TOOLS_CONFIG.stability.key (可选) Stability AI 绘图密钥 Stability AI Platform

注意: 如果 process.env.API_KEY 未生效,代码会自动尝试使用 Qveris 代理模式。建议确保 Google API Key 可用以获得最佳体验。


🚀 部署与运行 (Deployment)

本项目基于 React (TypeScript) 构建,使用常见的构建工具(如 Vite 或 Webpack)。

本地开发 (Local Development)

  1. 安装依赖

    npm install
    # 或者
    yarn install
  2. 启动开发服务器

    npm start
    # 或者
    npm run dev

    打开浏览器访问 http://localhost:3000 (或控制台提示的端口)。

  3. 授权许可 首次运行时,浏览器会请求 摄像头麦克风 权限,请点击“允许”以启用视觉和语音功能。

构建部署 (Build for Production)

npm run build

构建产物将位于 dist/build/ 目录,可直接部署至 Vercel, Netlify 或任何静态网站托管服务。


📖 操作说明 (User Manual)

系统包含 核心指令风格修饰 两类手势。操作时请确保手部位于摄像头视野中央。

1. 核心流程 (Core Workflow)

手势图标 动作名称 操作方法 功能描述
语音录入 握紧拳头 (保持) 激活麦克风开始录音。松开拳头时自动停止录音并开始转录。
🖐️ 灵感探索 张开手掌 (保持 1秒) 调用智能体搜索网络热门视觉趋势,并将其转化为艺术提示词。
👌 确认生成 OK 手势 (保持 1秒) 提交当前的提示词和风格设置,调用绘图模型生成图片。

2. 风格修饰 (Style Modifiers)

在生成图片前,使用以下手势为提示词注入特定的艺术风格:

手势图标 风格名称 操作方法 风格效果
✌️ 赛博朋克 V字手势 (剪刀手) 注入霓虹灯、高科技、未来城市、机械感元素。
🤘 重金属风 摇滚手势 (收起中指无名指) 注入火焰、暗黑、哥特、硬核、高对比度元素。
🤟 二次元风 爱的手势 (伸出拇指) 注入日系动漫、柔光、粉彩、可爱、梦幻元素。

❓ 常见问题 (Troubleshooting)

Q: 摄像头画面是黑色的? A: 请检查浏览器地址栏是否允许了摄像头权限。另外,确保没有其他应用(如 Zoom/Teams)占用了摄像头。

Q: 手势反应迟钝或识别不准? A:

  1. 确保环境光线充足。
  2. 手部距离摄像头约 0.5 - 1 米。
  3. 背景尽量简洁,避免杂乱背景干扰识别。

Q: 提示 "API Key 缺失"? A: 请参照“配置指南”章节,检查代码中的 Key 是否已正确填入或环境变量是否生效。

Q: 生成图片一直转圈(Loading)? A: 图像生成模型冷启动可能需要 10-20 秒。如果长时间无响应,请尝试点击控制面板右下角的 “自检工具” (扳手图标) 查看服务连接状态。


Made with ❤️ by Hallo & Celine

About

手势魔法工坊

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors