preprocessing.ipynb: ноутбук с кодом предварительной обработки данных и составления корпуса для обученияchar_rnn.ipynb: код нейронной сети на основе подхода Char-RNNword_embeddings.ipynb: нейронная сеть, реализующая Word Embeddings./data: предобработанные файлы с данными./models: предобученная модель
- python 3.5
- tensorflow 1.4
- keras 2.0
- numpy
- ijson
- pymorphy2
Клонируете репозиторий, устанавливаете зависимости.
Понадобится оригинальный датасет, подготовленный Ильдар Габдрахманов ildarchegg, который нужно распаковать в ./data/ и переименовать файл lenta.json в lenta_full.json.
Запускаете char_rnn.ipynb или word_embeddings.ipynb.
Необходимо распаковать содержимое ./models/model.zip в ./models/, затем запускаем из корня python lenta_ai.py. Параметры генерации можно менять внутри скрипта.
Примеры генерируемых заголовков можно посмотреть здесь: https://lenta-ai.herokuapp.com/