NER-анотація українського корпусу

Опис даних

Це друга версія українського NER корпусу. Дані першої версії та документацію ви можете знайти тут

Корпус розмічених даних знаходиться в папці v2.0/data. Всього в корпусі:

560 текстів (train: 391, test: 169)
21_993 сутностей NER
13 типів сутностей

	NashiGroshi	Bruk	Total
ART	319	316	635
DATE	1496	551	2047
DOC	108	34	142
JOB	1344	638	1982
LOC	1380	1620	3000
MISC	102	413	515
MON	897	46	943
ORG	4431	782	5213
PCT	186	77	263
PERIOD	341	255	596
PERS	1820	4415	6235
QUANT	276	106	382
TIME	4	36	40
Total	12704	9289	21993

Первинним джерелом даних є відкритий корпус українських текстів (папка bruk) та тексти видання «Наші гроші» (папка ng). Для кожного обробленого тексту з корпусу наявні два файли:

файл з розширенням txt містить токенізовану версію тексту
файл з розширенням ann містить NER-анотації до цього тексту у форматі Brat Standoff Format (кожний рядок файлу містить 3 записи, розділені табуляцією: номер анотації, початковий і кінцевий індекс в тексті — у даному випадку, токенізованому — через пробіл, текст сутності)

Анотація виконана принаймні двома анотаторами на кожний текст за наступними правилами, розбіжності в результатах виправлені третім редактором.

Для тренування і валідації моделей рекомендовано використовувати Стандартне розбиття на DEV і TEST набори.

Ми надаємо сконвертовані у формат IOB дані з використанням стандартного розбиття. Під час цієї конвертації ми прибрали вкладені теги.

Репозиторій також містить скрипти для конвертації даних у інші формати.

Ліцензія

Ці дані доступні для використання згідно умов ліцензії "Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License"

"Корпус NER-анотацій українських текстів" by lang-uk is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Based on a work at https://github.com/lang-uk/ner-uk.

Name		Name	Last commit message	Last commit date
Latest commit History 160 Commits
databank		databank
doc		doc
models		models
scripts		scripts
test		test
v1.0		v1.0
v2.0-swapped		v2.0-swapped
v2.0		v2.0
.gitignore		.gitignore
README.md		README.md
README_en.md		README_en.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

NER-анотація українського корпусу

Опис даних

Ліцензія

About

Uh oh!

Releases

Packages

Uh oh!

Contributors 5

Uh oh!

Languages

lang-uk/ner-uk

Folders and files

Latest commit

History

Repository files navigation

NER-анотація українського корпусу

Опис даних

Ліцензія

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors 5

Uh oh!

Languages

Packages