web2json-agent/.env.example at main · ccprocessor/web2json-agent · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
# ============================================
# web2json-agent 环境配置文件
# ============================================
# 使用方法: cp .env.example .env
# 然后修改 .env 文件中的配置值

# ============================================
# API 配置（必填，其他可选填，推荐使用OPENAI中转节点）
# ============================================
OPENAI_API_KEY=your_api_key_here
OPENAI_API_BASE=https://api.openai.com/v1

# ============================================
# 模型配置（可选，推荐使用默认值）
# ============================================

# 默认模型（通用场景，如Schema提取和合并）
DEFAULT_MODEL=claude-sonnet-4-5-20250929
DEFAULT_TEMPERATURE=0.3

# 是否禁用思考模式（针对intern-s1-pro等支持思考模式的模型）
# - true: 禁用思考模式（更快响应，适合简单任务）
# - false: 启用思考模式（默认，更深度思考）
# 注意：仅对支持思考模式的模型有效（如intern-s1-pro）
DISABLE_THINKING_MODE=false

# Agent 规划和执行
AGENT_MODEL=claude-sonnet-4-5-20250929
AGENT_TEMPERATURE=0

# 代码生成
CODE_GEN_MODEL=claude-sonnet-4-5-20250929
CODE_GEN_TEMPERATURE=0.3
CODE_GEN_MAX_TOKENS=16384

# 代码生成 Prompt 版本
# - v1: 原始版本，简洁提取，适合一般场景
# - v2: SWDE优化版本，保留原始格式，增强容错，适合SWDE测评集（默认）
CODE_GEN_PROMPT_VERSION=v2


# ============================================
# Agent 配置（可选）
# ============================================
# 默认迭代轮数（用于Schema学习的样本数量）
# 从输入的HTML文件中选取前N个进行迭代学习，生成最优解析器
# 剩余文件将在解析器生成后自动批量解析
DEFAULT_ITERATION_ROUNDS=3

# Schema模式（可选）
# - auto: 自动模式，Agent自动判断并筛选schema字段（默认）
# - predefined: 预定义模式，使用用户提供的schema模板，Agent只补充xpath等技术信息
SCHEMA_MODE=auto

# 是否启用Schema手动编辑模式（可选）
# - true: 在schema生成后暂停，允许用户手动编辑schema
#   - 如果只修改现有字段：直接使用编辑后的schema进入代码生成阶段
#   - 如果新增字段：将编辑后的schema作为预定义模板，重新执行schema生成
# - false: 不暂停，自动进入代码生成阶段（默认）
ENABLE_SCHEMA_EDIT=false

# 并发控制（避免API限流）
# 同时进行的Schema提取任务数量（每个任务包含HTML和视觉两个并行API调用）
MAX_CONCURRENT_EXTRACTIONS=5
# 同时进行的Schema合并任务数量
MAX_CONCURRENT_MERGES=5

# ============================================
# 布局聚类配置（可选）
# ============================================
# DBSCAN聚类算法参数
# eps: 距离阈值 (1-相似度)，值越小要求相似度越高才归为同一簇
# 推荐范围: 0.03-0.10，默认0.05
CLUSTER_EPS=0.05

# min_samples: 形成簇所需的最小样本数
# 推荐值: 2（至少2个相似页面才形成一个簇）
CLUSTER_MIN_SAMPLES=2

# ============================================
# 浏览器配置（可选）
# ============================================
HEADLESS=true
TIMEOUT=30000
SCREENSHOT_FULL_PAGE=true

# ============================================
# HTML精简配置（可选）
# ============================================
# 精简模式: xpath, aggressive, conservative
# - xpath: 为Schema提取优化，保留定位属性和内容标签（推荐）
# - aggressive: 激进模式，最大化压缩
# - conservative: 保守模式，保留更多原始结构
HTML_SIMPLIFY_MODE=xpath

# 保留的HTML属性（逗号分隔，仅xpath和aggressive模式有效）
HTML_KEEP_ATTRS=class,id,href,src,data-id

# ============================================
# SWDE 评估配置（可选）
# ============================================
# SWDE数据集目录
SWDE_DATASET_DIR=evaluationSet

# SWDE groundtruth目录
SWDE_GROUNDTRUTH_DIR=evaluationSet/groundtruth

# SWDE评估结果输出目录
SWDE_OUTPUT_DIR=output/swde_results

# Python命令
SWDE_PYTHON_CMD=python3

# 是否使用预定义schema模板（从groundtruth自动生成）
# 可选值: true, false (推荐使用 true)
SWDE_USE_PREDEFINED_SCHEMA=true

# 是否恢复之前的运行（跳过已完成的网站）
# 可选值: true, false
# 注意：设置为false时，会在测评开始前自动清理所有旧的evaluation结果
# （包括summary.json、evaluation/目录、_summary/目录等）
# 但保留agent生成的result/、parsers/、schemas/等文件
SWDE_RESUME=false

# 是否跳过已有agent输出
# 可选值: true, false
SWDE_SKIP_AGENT=true

# 是否跳过已有评估结果
# 可选值: true, false
SWDE_SKIP_EVALUATION=false

# 是否强制重新运行所有（覆盖resume/skip选项）
# 可选值: true, false
SWDE_FORCE=false