|
5 | 5 | from pythainlp.tag import perceptron, pos_tag, pos_tag_sents, unigram |
6 | 6 | from pythainlp.tag.locations import tag_provinces |
7 | 7 | from pythainlp.tag.named_entity import ThaiNameTagger |
8 | | -from pythainlp.tokenize import ( |
9 | | - word_tokenize, |
10 | | -) |
| 8 | +from pythainlp.tokenize import word_tokenize |
11 | 9 |
|
12 | 10 |
|
13 | 11 | class TestTagPackage(unittest.TestCase): |
14 | | - |
15 | 12 | def test_pos_tag(self): |
16 | 13 | tokens = ["ผม", "รัก", "คุณ"] |
17 | 14 |
|
@@ -81,108 +78,102 @@ def test_ner(self): |
81 | 78 | """คณะวิทยาศาสตร์ประยุกต์และวิศวกรรมศาสตร์ มหาวิทยาลัยขอนแก่น |
82 | 79 | วิทยาเขตหนองคาย 112 หมู่ 7 บ้านหนองเดิ่น ตำบลหนองกอมเกาะ อำเภอเมือง |
83 | 80 | จังหวัดหนองคาย 43000""", |
84 | | - tag=True |
| 81 | + tag=True, |
85 | 82 | ) |
86 | 83 | ) |
87 | 84 |
|
88 | 85 | # arguement `tag` is True |
89 | 86 | self.assertEqual( |
90 | | - ner.get_ner( |
91 | | - "วันที่ 15 ก.ย. 61 ทดสอบระบบเวลา 14:49 น.", |
92 | | - tag=True |
93 | | - ), |
| 87 | + ner.get_ner("วันที่ 15 ก.ย. 61 ทดสอบระบบเวลา 14:49 น.", tag=True), |
94 | 88 | "วันที่ <DATE>15 ก.ย. 61</DATE> " |
95 | | - "ทดสอบระบบเวลา <TIME>14:49 น.</TIME>") |
| 89 | + "ทดสอบระบบเวลา <TIME>14:49 น.</TIME>", |
| 90 | + ) |
96 | 91 |
|
97 | 92 | self.assertEqual( |
98 | 93 | ner.get_ner( |
99 | | - "url = https://thainlp.org/pythainlp/docs/2.0/", |
100 | | - tag=True |
| 94 | + "url = https://thainlp.org/pythainlp/docs/2.0/", tag=True |
101 | 95 | ), |
102 | | - "url = <URL>https://thainlp.org/pythainlp/docs/2.0/</URL>") |
| 96 | + "url = <URL>https://thainlp.org/pythainlp/docs/2.0/</URL>", |
| 97 | + ) |
103 | 98 |
|
104 | 99 | self.assertEqual( |
105 | | - ner.get_ner( |
106 | | - "example@gmail.com", |
107 | | - tag=True |
108 | | - ), |
109 | | - "<EMAIL>example@gmail.com</EMAIL>") |
| 100 | + ner.get_ner("example@gmail.com", tag=True), |
| 101 | + "<EMAIL>example@gmail.com</EMAIL>", |
| 102 | + ) |
110 | 103 |
|
111 | 104 | self.assertEqual( |
112 | | - ner.get_ner( |
113 | | - "รหัสไปรษณีย์ 19130", |
114 | | - tag=True |
115 | | - ), |
116 | | - "รหัสไปรษณีย์ <ZIP>19130</ZIP>") |
| 105 | + ner.get_ner("รหัสไปรษณีย์ 19130", tag=True), |
| 106 | + "รหัสไปรษณีย์ <ZIP>19130</ZIP>", |
| 107 | + ) |
117 | 108 |
|
118 | 109 | self.assertEqual( |
119 | | - ner.get_ner( |
120 | | - "เบอร์โทรศัพท์ 091-123-4567", |
121 | | - tag=True |
122 | | - ), |
123 | | - "เบอร์โทรศัพท์ <PHONE>091-123-4567</PHONE>") |
| 110 | + ner.get_ner("เบอร์โทรศัพท์ 091-123-4567", tag=True), |
| 111 | + "เบอร์โทรศัพท์ <PHONE>091-123-4567</PHONE>", |
| 112 | + ) |
124 | 113 |
|
125 | 114 | self.assertEqual( |
126 | | - ner.get_ner( |
127 | | - "อาจารย์เอกพล ประจำคณะวิศวกรรมศาสตร์ ", |
128 | | - tag=True |
129 | | - ), |
| 115 | + ner.get_ner("อาจารย์เอกพล ประจำคณะวิศวกรรมศาสตร์ ", tag=True), |
130 | 116 | "<PERSON>อาจารย์เอกพล</PERSON> ประจำ<ORGANIZATION>" |
131 | | - "คณะวิศวกรรมศาสตร์</ORGANIZATION> ") |
| 117 | + "คณะวิศวกรรมศาสตร์</ORGANIZATION> ", |
| 118 | + ) |
132 | 119 |
|
133 | 120 | self.assertEqual( |
134 | 121 | ner.get_ner( |
135 | 122 | "มาตรา 80 ปพพ ให้ใช้อัตราภาษีร้อยละ 10.0" |
136 | 123 | " ในการคำนวณภาษีมูลค่าเพิ่ม", |
137 | | - tag=True |
| 124 | + tag=True, |
138 | 125 | ), |
139 | 126 | "<LAW>มาตรา 80 ปพพ</LAW> " |
140 | 127 | "ให้ใช้อัตราภาษี<PERCENT>ร้อยละ 10.0</PERCENT>" |
141 | | - " ในการคำนวณภาษีมูลค่าเพิ่ม") |
| 128 | + " ในการคำนวณภาษีมูลค่าเพิ่ม", |
| 129 | + ) |
142 | 130 |
|
143 | 131 | self.assertEqual( |
144 | | - ner.get_ner( |
145 | | - "ยาว 20 เซนติเมตร", |
146 | | - tag=True |
147 | | - ), |
148 | | - "ยาว <LEN>20 เซนติเมตร</LEN>") |
| 132 | + ner.get_ner("ยาว 20 เซนติเมตร", tag=True), |
| 133 | + "ยาว <LEN>20 เซนติเมตร</LEN>", |
| 134 | + ) |
149 | 135 |
|
150 | 136 | self.assertEqual( |
151 | | - ner.get_ner( |
152 | | - "1 บาท", |
153 | | - pos=True, |
154 | | - tag=True), |
155 | | - "<MONEY>1 บาท</MONEY>") |
| 137 | + ner.get_ner("1 บาท", pos=True, tag=True), "<MONEY>1 บาท</MONEY>" |
| 138 | + ) |
156 | 139 |
|
157 | 140 | self.assertEqual( |
158 | | - ner.get_ner( |
159 | | - "ไทย", |
160 | | - pos=False, |
161 | | - tag=True |
162 | | - ), |
163 | | - "<LOCATION>ไทย</LOCATION>") |
| 141 | + ner.get_ner("ไทย", pos=False, tag=True), "<LOCATION>ไทย</LOCATION>" |
| 142 | + ) |
164 | 143 |
|
165 | 144 | # arguement `tag` is False and `pos` is True |
166 | 145 | self.assertEqual( |
167 | | - ner.get_ner( |
168 | | - "ไทย", |
169 | | - pos=True, |
170 | | - tag=False |
171 | | - ), |
172 | | - [('ไทย', 'PROPN', 'B-LOCATION')]) |
| 146 | + ner.get_ner("ไทย", pos=True, tag=False), |
| 147 | + [("ไทย", "PROPN", "B-LOCATION")], |
| 148 | + ) |
173 | 149 |
|
174 | 150 | # arguement `tag` is False and `pos` is False |
175 | 151 | self.assertEqual( |
176 | 152 | ner.get_ner( |
177 | 153 | "วันที่ 15 ก.ย. 61 ทดสอบระบบเวลา 14:49 น.", |
178 | 154 | pos=False, |
179 | | - tag=False |
| 155 | + tag=False, |
180 | 156 | ), |
181 | | - [('วันที่', 'O'), (' ', 'O'), ('15', 'B-DATE'), |
182 | | - (' ', 'I-DATE'), ('ก.ย.', 'I-DATE'), (' ', 'I-DATE'), |
183 | | - ('61', 'I-DATE'), (' ', 'O'), ('ทดสอบ', 'O'), ('ระบบ', 'O'), |
184 | | - ('เวลา', 'O'), (' ', 'O'), ('14', 'B-TIME'), (':', 'I-TIME'), |
185 | | - ('49', 'I-TIME'), (' ', 'I-TIME'), ('น.', 'I-TIME')]) |
| 157 | + [ |
| 158 | + ("วันที่", "O"), |
| 159 | + (" ", "O"), |
| 160 | + ("15", "B-DATE"), |
| 161 | + (" ", "I-DATE"), |
| 162 | + ("ก.ย.", "I-DATE"), |
| 163 | + (" ", "I-DATE"), |
| 164 | + ("61", "I-DATE"), |
| 165 | + (" ", "O"), |
| 166 | + ("ทดสอบ", "O"), |
| 167 | + ("ระบบ", "O"), |
| 168 | + ("เวลา", "O"), |
| 169 | + (" ", "O"), |
| 170 | + ("14", "B-TIME"), |
| 171 | + (":", "I-TIME"), |
| 172 | + ("49", "I-TIME"), |
| 173 | + (" ", "I-TIME"), |
| 174 | + ("น.", "I-TIME"), |
| 175 | + ], |
| 176 | + ) |
186 | 177 |
|
187 | 178 | # self.assertEqual( |
188 | 179 | # ner.get_ner("แมวทำอะไรตอนห้าโมงเช้า"), |
|
0 commit comments