中山大学 自然语言处理项目:中文语言模型。
Keras实现,BiLSTM框架。
-
keras2.3.1版本和tensorflow2.2版本(或者其他相匹配的keras和tensorflow版本) -
keras_contrib库、gensim库、pickle库、tqdm库
jupyter notebook
- 词向量:
sgns.wiki.word文件- 来自于 https://github.com/Embedding/Chinese-Word-Vectors 中“Various Domains”中的“Word”的"Wikipedia_zh 中文维基百科"。
- 代码code文件夹:
task2.ipynb(jupyter notebook格式)和task2.py,建议执行task2.ipynb。- 逐块执行即可得到训练
EPOCH次数之后的测试集的预测结果,并会输出预测结果。EPOCH的取值可在train函数的参数中进行调整。
- 结果:训练集迭代运行25次之后的结果保存为
result.txt文件。
- 数据集data文件夹:
- SIGHAN Microsoft Research数据集的数据。
- 包含
msr_train和msr_test_gold文件。- 两种格式:
.txt和.utf8,前者是方便阅读创建的,后者才是真正程序使用的。
- 两种格式:
result.txt文件为预测结果文件。
- 实验报告:
report.pdf和语言模型实验报告.md
- 项目要求:
期中作业.pdf