Skip to content

潮汕方言白话字语料数据库/Péh-Uē-Jī corpora database of the Teochew-Swatow dialect

Notifications You must be signed in to change notification settings

pujdict/pujcorpora

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

13 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

潮汕方言白话字语料

关于潮汕方言的大量语料散落在各种期刊、论文、图书、辞典、网站、贴吧、知乎文章等地方, 且记音方式混乱(拼音有潮拼、国际音标、白话字乃至自创拼音,声调有调号、调序、五度标记符号、五度标记数值等),口音千差万别,主动查询困难,缺乏统一规范。

此仓库中整理相关语料,电子化记录,便于复用。 录入格式为 YAML,基本格式与白话字辞典项目的词库相同,即:

- 词条*|规范化拼音*|普通话|词性|词条归类:
    扩展项1: 内容
    扩展项2: 内容

读音“标准化”方式如下:

  1. 拼音采用白话字
  2. 声调采用原始调序(1~8)
  3. 变调通过连字符体现(详见白话字辞典项目文档)
  4. 口音不采用具体某地口音,一律转为通用标准音(详见白话字辞典项目文档)

标准化前的原始材料暂不公开。

About

潮汕方言白话字语料数据库/Péh-Uē-Jī corpora database of the Teochew-Swatow dialect

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages