Це друга версія українського NER корпусу. Дані першої версії та документацію ви можете знайти тут
Корпус розмічених даних знаходиться в папці v2.0/data.
Всього в корпусі:
- 560 текстів (train: 391, test: 169)
- 21_993 сутностей NER
- 13 типів сутностей
| NashiGroshi | Bruk | Total | |
|---|---|---|---|
| ART | 319 | 316 | 635 |
| DATE | 1496 | 551 | 2047 |
| DOC | 108 | 34 | 142 |
| JOB | 1344 | 638 | 1982 |
| LOC | 1380 | 1620 | 3000 |
| MISC | 102 | 413 | 515 |
| MON | 897 | 46 | 943 |
| ORG | 4431 | 782 | 5213 |
| PCT | 186 | 77 | 263 |
| PERIOD | 341 | 255 | 596 |
| PERS | 1820 | 4415 | 6235 |
| QUANT | 276 | 106 | 382 |
| TIME | 4 | 36 | 40 |
| Total | 12704 | 9289 | 21993 |
Первинним джерелом даних є відкритий корпус українських текстів (папка bruk) та тексти видання «Наші гроші» (папка ng). Для кожного обробленого тексту з корпусу наявні два файли:
- файл з розширенням
txtмістить токенізовану версію тексту - файл з розширенням
annмістить NER-анотації до цього тексту у форматі Brat Standoff Format (кожний рядок файлу містить 3 записи, розділені табуляцією: номер анотації, початковий і кінцевий індекс в тексті — у даному випадку, токенізованому — через пробіл, текст сутності)
Анотація виконана принаймні двома анотаторами на кожний текст за наступними правилами, розбіжності в результатах виправлені третім редактором.
Для тренування і валідації моделей рекомендовано використовувати Стандартне розбиття на DEV і TEST набори.
Ми надаємо сконвертовані у формат IOB дані з використанням стандартного розбиття. Під час цієї конвертації ми прибрали вкладені теги.
Репозиторій також містить скрипти для конвертації даних у інші формати.
Ці дані доступні для використання згідно умов ліцензії "Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License"
"Корпус NER-анотацій українських текстів" by lang-uk is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Based on a work at https://github.com/lang-uk/ner-uk.
