Skip to content

сбор и агрегация личных данных нквдшников с сайта мемориала

Notifications You must be signed in to change notification settings

AlexeevLeonid/NKVDStats

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

11 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Классы

1) Класс Parser отвечает за сбор данных с сайта, работает супердолго и результат уже есть в фале persons.txt.
2) Класс Researcher агрегирует данные

Результирующие файлы

1) persons.txt - хранит в каждой строке разделенные "\t" личные данные каждого нквдшника, по порядку : ФИО, национальность, мето рождения, год рождения, год вступления в партию (НЕ В НКВД, сейчас данные некорректны), причину смерти, место смерти, 41757 записей.
2) Этнический состав.txt - результат работы Researcher, сначала - упрощённое представление (национальность - количество), во второй части то же самое но к каждой национальности список формата место рождения + число в нём родившихся (по возможности обрезано до подтсроки "обл" чтобы хоть как то сгруппировать результаты) и число нквдшников этой национальности на каждую представленную фамилию, в каждом списке рядом с количеством указан, какой они составляют процент от всех нквдшников этой национальности (не хочу лезть в float так что расчет идет с точностью до процента с округлением вниз)
3) Этнический состав 3 последние буквы в фамилии.txt - то же самое, но вместо фамилии статистика берётся по 3 последним буквам фамилии каждого
4) Этнический состав 2 последние буквы в фамилии.txt - то же самое, но 2 буквы
5) Этнический состав растрелянных - этнический состав всех с "ВМН" в графе "причина смерти"

Послесловие(берегите корни)

1) Код говно, писался под пиво и в приоритет ставил время разработки и работоспособность (а ещё я что то где то напутал и дата вступления в компартию в persons.txt записывается некорректно, сейчас впадлу исправлять + парсинг по новой займёт минут 30 но скорее всего ошибка супертупая).
2) Так как парсилась таблица, нет года вступления в нквд (она есть на личной странице но зог подумал что я дудошу сайт и забанил по айпи), огромное количество нквдшников стало таковыми во время войны и очень хочется их отсеять, планирую по году вступления в кпсс, году рождения и причине смерти сделать хоть что то.
3) Фамилии часто не соответствуют национальностям, скорее всего среди русских фамилии других национальностей перепредставлены, записи без национальности составляет 30 тысяч из 42, очень хочется как-либо интерпретировать данные из неё.
4) Для гуманитариев, результирующие файлы лежат в ConsoleApp3(стыд какой) => results

About

сбор и агрегация личных данных нквдшников с сайта мемориала

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages