贡献最新合成的 jp 语料数据集以协助您优化 目前模型在 jp 语境下的 NER 能力 

@neavo 已为您添加权限，可以直链访问 [Dataset](https://huggingface.co/datasets/zye1235357/keyword_gacha_ner_jp_finetune) 下载数据集

其中除了包含 原始文件 还有 合并后的 json 文件：


DATASET_PATH = [
    ("dataset/ner/glm-4-air_35744.json", 1 * 35744),
    ("dataset/ner/glm-4-flash_116551.json", 1 * 116551),
    ("dataset/ner/glm-4-plus_49127.json", 1 * 49127),
    ("dataset/ner/grok-beta_15711.json", 1 * 15711),
]


就语料质量来看，个人认为 grok-beta $\approx$ glm-4-plus $>$ glm-4-flash $>$ glm-4-air (?) 您可以看看语料质量如何，是否可以用于微调



另外想请问您，最新的模型 ”microsoft_mdeberta_v3_base_pretrain_20240916_e2“ 是否仍未发布？

不论是您的 [HF 主页](https://huggingface.co/neavo)， 还是  您最新的 [KG release](https://github.com/neavo/KeywordGacha/releases/tag/MANAUL_BUILD_v0.6.1 )，均无法找到 模型 ”[microsoft_mdeberta_v3_base_pretrain_20240916_e2](https://github.com/neavo/KeywordGachaModel/blob/main/00.py)“


个人想专门微调出一个 jp 专精的 NER 模型（不考虑其它语言），请问您有无具体思路、方法？

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

贡献最新合成的 jp 语料数据集以协助您优化目前模型在 jp 语境下的 NER 能力 #1

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

贡献最新合成的 jp 语料数据集以协助您优化 目前模型在 jp 语境下的 NER 能力 #1

Description

Metadata

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

Issue actions

贡献最新合成的 jp 语料数据集以协助您优化目前模型在 jp 语境下的 NER 能力 #1