Skip to content

Commit 96cb32b

Browse files
authored
Update 2025-10-27-ai-oss-monolingual-important.md
1 parent 15e550e commit 96cb32b

File tree

1 file changed

+3
-3
lines changed

1 file changed

+3
-3
lines changed

_posts/2025-10-27-ai-oss-monolingual-important.md

Lines changed: 3 additions & 3 deletions
Original file line numberDiff line numberDiff line change
@@ -11,19 +11,19 @@ comments: true
1111

1212
สำหรับ PyThaiNLP เราพัฒนาชุดซอฟต์แวร์สำหรับประมวลผลภาษาไทยมาตั้งแต่ปี ค.ศ. 2016 ก่อนยุค GenAI มีทั้งตัดคำ โมเดลแยกอารมณ์จากข้อความ (ในอดีต) และอื่น ๆ การมาของ ChatGPT เมื่อปี ค.ศ. 2022 ที่เปลี่ยนโลกของการวิจัยปัญญาประดิษฐ์ไป โลกเข้าสู่ยุคโมเดลภาษาขนาดใหญ่ ถนนแทบทุกสายมุ่งไปทางนี้ ทำให้มีหลายคนเกิดคำถามว่าซอฟต์แวร์เปิด (open source software) เฉพาะภาษา อย่าง PyThaiNLP ที่พัฒนาเครื่องมือพื้นฐานยังสำคัญอยู่ไหม ผลกระทบ LLM กับ PyThaiNLP เป็นอย่างไร แล้วถ้าไม่จำเป็นต้องใช้แล้ว PyThaiNLP จะไปไหน
1313

14-
1. **PyThaiNLP ที่พัฒนาเครื่องมือพื้นฐานยังสำคัญอยู่ไหม**: เราเป็นชุดซอฟต์แวร์เปิดที่เปิดทั้งโมเดล ชุดข้อมูล โค้ด ที่พัฒนามาอย่างยาวนาน ตั้งแต่ปี ค.ศ. 2016 ถ้ามูลค่าในการพัฒนาซอฟต์แวร์ปิดให้ได้ระดับเดียวกันยังคงเป็นค่าใช้จ่ายที่สูง เราผ่านการลองผิดลองถูกมาค่อนข้างเยอะ ปัจจุบันนี้ เรามีฟังก์ชันครบพื้นฐานทั้งหมดแล้ว และมีเครื่องมือทำความสะอาดข้อมูล เครื่องมือทางภาษาศาสตร์ เครื่องมือช่วยต่าง ๆ ที่หาไม่ได้จากที่ไหนอื่นอยู่ใน PyThaiNLP จำนวนมาก กับชุดข้อมูลที่เราปล่อยให้เข้าถึงสาธารณะจากทุกแห่งบนโลกได้ และสุดท้ายนี้ PyThaiNLP ยังคงถูกนำไปใช้เป็นเครื่องมือในการเรียนการสอนวิชาปัญญาประดิษฐ์และภาษาศาสตร์ในหลายมหาวิทยาลัย รวมถึงใช้ในงานวิจัยที่เกี่ยวข้องกับภาษาไทย อ่านงานวิจัยที่ใช้ PyThaiNLP ได้ที่ [Google Scholar](https://scholar.google.com/scholar?start=0&q=%22pythainlp%22)
14+
หนึ่ง **PyThaiNLP ที่พัฒนาเครื่องมือพื้นฐานยังสำคัญอยู่ไหม**: เราเป็นชุดซอฟต์แวร์เปิดที่เปิดทั้งโมเดล ชุดข้อมูล โค้ด ที่พัฒนามาอย่างยาวนาน ตั้งแต่ปี ค.ศ. 2016 ถ้ามูลค่าในการพัฒนาซอฟต์แวร์ปิดให้ได้ระดับเดียวกันยังคงเป็นค่าใช้จ่ายที่สูง เราผ่านการลองผิดลองถูกมาค่อนข้างเยอะ ปัจจุบันนี้ เรามีฟังก์ชันครบพื้นฐานทั้งหมดแล้ว และมีเครื่องมือทำความสะอาดข้อมูล เครื่องมือทางภาษาศาสตร์ เครื่องมือช่วยต่าง ๆ ที่หาไม่ได้จากที่ไหนอื่นอยู่ใน PyThaiNLP จำนวนมาก กับชุดข้อมูลที่เราปล่อยให้เข้าถึงสาธารณะจากทุกแห่งบนโลกได้ และสุดท้ายนี้ PyThaiNLP ยังคงถูกนำไปใช้เป็นเครื่องมือในการเรียนการสอนวิชาปัญญาประดิษฐ์และภาษาศาสตร์ในหลายมหาวิทยาลัย รวมถึงใช้ในงานวิจัยที่เกี่ยวข้องกับภาษาไทย อ่านงานวิจัยที่ใช้ PyThaiNLP ได้ที่ [Google Scholar](https://scholar.google.com/scholar?start=0&q=%22pythainlp%22)
1515

1616
![](https://pythainlp.org/image/genai-20251027/use-pythainlp.png)
1717
> ตัวอย่างของการใช้ PyThaiNLP ในปัจจุบันจากบริษัทผู้พัฒนา LLM
1818
19-
2. **ผลกระทบ LLM กับ PyThaiNLP เป็นอย่างไร**: ข้อนี้อาจทำทุกคนตกใจคือ **PyThaiNLP เราไม่ได้รับผลกระทบทางตรงจากการมาของ ChatGPT หรือ LLM** โดยยอดโหลดของซอฟต์แวร์เรายิ่งสูงขึ้นทุก ๆ ปี แถมเราพบว่า Meta, Huggingface (เท่าที่เปิดเผยสู่สาธารณะ) และอื่น ๆ ต่างยังคงใช้ PyThaiNLP ในขั้นตอนพัฒนาโมเดลของตนเอง ทั้งงานพื้นฐาน ทำความสะอาดข้อมูลสำหรับงานภาษาไทย สิ่งเหล่านี้กลายเป็นโมเดล LLM, ASR และอื่น ๆ จำนวนมาก แสดงให้เห็นว่า เครื่องมือของ PyThaiNLP หลายอย่างยังคงสำคัญสำหรับงานพัฒนาโมเดล GenAI, LLM อยู่ แม้จะเป็นงานเบื้องหลัง แต่ก็เป็นงานที่ยังคงต้องพึ่งพาซอฟต์แวร์พื้นฐานอยู่ เพราะการพัฒนาซอฟต์แวร์เปิดมีส่วนช่วยให้บริษัทบนโลกใบนี้ไม่ว่าอยู่ที่ไหนก็สามารถพัฒนาโมเดลสำหรับภาษาไทยจากการใช้ซอฟต์แวร์เปิด แม้ว่าจะเปลี่ยนจากเมื่อก่อน ผู้คนที่ต้องการทำโมเดล AI ต้องเริ่มจากศึกษาการประมวลภาษาธรรมชาติพื้นฐาน และใช้เครื่องมือพื้นฐานก่อนไปพัฒนาโมเดลทุกครั้ง กลายเป็น API กับป้อนคำสั่งให้ทำตามผ่าน GenAI ก็ตาม
19+
สอง **ผลกระทบ LLM กับ PyThaiNLP เป็นอย่างไร**: ข้อนี้อาจทำทุกคนตกใจคือ **PyThaiNLP เราไม่ได้รับผลกระทบทางตรงจากการมาของ ChatGPT หรือ LLM** โดยยอดโหลดของซอฟต์แวร์เรายิ่งสูงขึ้นทุก ๆ ปี แถมเราพบว่า Meta, Huggingface (เท่าที่เปิดเผยสู่สาธารณะ) และอื่น ๆ ต่างยังคงใช้ PyThaiNLP ในขั้นตอนพัฒนาโมเดลของตนเอง ทั้งงานพื้นฐาน ทำความสะอาดข้อมูลสำหรับงานภาษาไทย สิ่งเหล่านี้กลายเป็นโมเดล LLM, ASR และอื่น ๆ จำนวนมาก แสดงให้เห็นว่า เครื่องมือของ PyThaiNLP หลายอย่างยังคงสำคัญสำหรับงานพัฒนาโมเดล GenAI, LLM อยู่ แม้จะเป็นงานเบื้องหลัง แต่ก็เป็นงานที่ยังคงต้องพึ่งพาซอฟต์แวร์พื้นฐานอยู่ เพราะการพัฒนาซอฟต์แวร์เปิดมีส่วนช่วยให้บริษัทบนโลกใบนี้ไม่ว่าอยู่ที่ไหนก็สามารถพัฒนาโมเดลสำหรับภาษาไทยจากการใช้ซอฟต์แวร์เปิด แม้ว่าจะเปลี่ยนจากเมื่อก่อน ผู้คนที่ต้องการทำโมเดล AI ต้องเริ่มจากศึกษาการประมวลภาษาธรรมชาติพื้นฐาน และใช้เครื่องมือพื้นฐานก่อนไปพัฒนาโมเดลทุกครั้ง กลายเป็น API กับป้อนคำสั่งให้ทำตามผ่าน GenAI ก็ตาม
2020

2121
![](https://pythainlp.org/image/genai-20251027/download-plot.png)
2222
> ยอดโหลดจาก [https://clickpy.clickhouse.com/dashboard/pythainlp](https://clickpy.clickhouse.com/dashboard/pythainlp)
2323
2424
นอกเหนือจากนี้ เราเปิดเผยชุดข้อมูลด้วย ซึ่งชุดข้อมูลเรามีส่วนร่วมในการพัฒนาโมเดลเปิดต่าง ๆ ที่รองรับภาษาไทย ไม่ว่าจะเป็น Thai NER, wisesight_sentiment และอื่น ๆ ทำให้แม้เราจะทำโมเดลออกมาแล้วตกยุคไป นักพัฒนาคนอื่น ๆ ยังสามารถนำชุดข้อมูลไปพัฒนาโมเดลของตนเองที่เก่งกว่าได้ เช่น นำไปเทรนร่วมกับ LLM เป็นต้น สำหรับการพัฒนา PyThaiNLP เรายังได้ใช้ GenAI มาช่วยในการพัฒนาซอฟต์แวร์ PyThaiNLP อยู่บ้างในปัจจุบัน
2525

26-
3. **ถ้าไม่จำเป็นต้องใช้แล้ว PyThaiNLP จะไปไหน**: PyThaiNLP จะยังคงอยู่เป็นซอฟต์แวร์เปิดบนอินเทอร์เน็ตต่อไปพร้อมกับชุดข้อมูล ไม่ว่าจะพัฒนาต่อหรือยุติการพัฒนาก็ตาม อย่างไรก็ตาม ช่องว่างของการรันโมเดลขนาดใหญ่ยังคงเป็นปัญหาใหญ่ของการเข้าถึงเทคโนโลยี ค่าใช้จ่าย ความเป็นส่วนตัว ความปลอดภัยของข้อมูล เป็นปัญหาใหญ่ของการใช้งาน LLM ทั้งแบบรันด้วยตนเองหรือผ่าน API ขณะที่เราสามารถทำสิ่งเดียวกันกับที่ LLM ทำ อย่างเช่น บอกอารมณ์จากข้อความ จากการเทรนโมเดลเองถูกกว่าการใช้ LLM หรือ API โดยมีความแม่นยำไม่ต่างกันนักอยู่ในปัจจุบัน แถมปลอดภัยกว่าสำหรับการรักษาข้อมูล
26+
สาม **ถ้าไม่จำเป็นต้องใช้แล้ว PyThaiNLP จะไปไหน**: PyThaiNLP จะยังคงอยู่เป็นซอฟต์แวร์เปิดบนอินเทอร์เน็ตต่อไปพร้อมกับชุดข้อมูล ไม่ว่าจะพัฒนาต่อหรือยุติการพัฒนาก็ตาม อย่างไรก็ตาม ช่องว่างของการรันโมเดลขนาดใหญ่ยังคงเป็นปัญหาใหญ่ของการเข้าถึงเทคโนโลยี ค่าใช้จ่าย ความเป็นส่วนตัว ความปลอดภัยของข้อมูล เป็นปัญหาใหญ่ของการใช้งาน LLM ทั้งแบบรันด้วยตนเองหรือผ่าน API ขณะที่เราสามารถทำสิ่งเดียวกันกับที่ LLM ทำ อย่างเช่น บอกอารมณ์จากข้อความ จากการเทรนโมเดลเองถูกกว่าการใช้ LLM หรือ API โดยมีความแม่นยำไม่ต่างกันนักอยู่ในปัจจุบัน แถมปลอดภัยกว่าสำหรับการรักษาข้อมูล
2727

2828
นอกจากนี้ PyThaiNLP เราได้มีส่วนร่วมในการอนุรักษ์ภาษาไทย ตราบใดที่ PyThaiNLP ยังอยู่ในอินเทอร์เน็ต ยังคงสามารถใช้งานเพื่อประมวลผลภาษาไทยได้อยู่ และ PyThaiNLP ได้ถูกบรรจุอยู่ภายใต้ [GitHub Arctic Code Vault](https://archiveprogram.github.com/arctic-vault/) ไปแล้วเมื่อปี ค.ศ. 2020 ที่ผ่านมา ซึ่งเป็นโครงการเก็บรักษาซอฟต์แวร์เปิดของมวลมนุษยชาติบน GiHub ไปฝังใต้ดินขั้วโลกเหนือ เก็บรักษาระดับ 1,000 ปี ภาษาไทยเราได้ถูกสำเนาไปด้วย พร้อมกับ PyThaiNLP (และข้อผิดพลาดหรือ bug ไปด้วย) คนยุคพันปีข้างหน้า หากเจอเอกสารภาษาไทยแบบโบราณจากยุคนี้ (กรณียังมีคนใช้งานภาษาไทย) หรือเป็นยุคที่ภาษาไทยอาจหายสาบสูญไปแล้วก็ได้ (กรณีไม่มีคนใช้ภาษาไทยเหลืออยู่) แต่จะยังคงสามารถประมวลผลภาษาไทยจากโค้ด PyThaiNLP ที่ถูกรักษาไว้ได้ มรดกมวลมนุษยชาติทางภาษา ทั้งปรัชญา วัฒนธรรม วรรณกรรม ประเพณี ศาสนา ความคิดและอื่น ๆ ที่เกิดขึ้นในภาษาไทยจะไม่สูญหายไปไหน ถ้าให้คนยุคพันปีข้างหน้าหรือให้ AGI มาช่วยกันถอดโดยไม่มีซอฟต์แวร์พื้นฐานเลย คงจะยังเป็นงานที่ยุ่งยากอยู่ดี
2929

0 commit comments

Comments
 (0)