Skip to content

贡献最新合成的 jp 语料数据集以协助您优化 目前模型在 jp 语境下的 NER 能力  #1

@1235357

Description

@1235357

@neavo 已为您添加权限,可以直链访问 Dataset 下载数据集

其中除了包含 原始文件 还有 合并后的 json 文件:

DATASET_PATH = [
("dataset/ner/glm-4-air_35744.json", 1 * 35744),
("dataset/ner/glm-4-flash_116551.json", 1 * 116551),
("dataset/ner/glm-4-plus_49127.json", 1 * 49127),
("dataset/ner/grok-beta_15711.json", 1 * 15711),
]

就语料质量来看,个人认为 grok-beta $\approx$ glm-4-plus $>$ glm-4-flash $>$ glm-4-air (?) 您可以看看语料质量如何,是否可以用于微调

另外想请问您,最新的模型 ”microsoft_mdeberta_v3_base_pretrain_20240916_e2“ 是否仍未发布?

不论是您的 HF 主页, 还是 您最新的 KG release,均无法找到 模型 ”microsoft_mdeberta_v3_base_pretrain_20240916_e2

个人想专门微调出一个 jp 专精的 NER 模型(不考虑其它语言),请问您有无具体思路、方法?

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions