@@ -11,19 +11,19 @@ comments: true
1111
1212สำหรับ PyThaiNLP เราพัฒนาชุดซอฟต์แวร์สำหรับประมวลผลภาษาไทยมาตั้งแต่ปี ค.ศ. 2016 ก่อนยุค GenAI มีทั้งตัดคำ โมเดลแยกอารมณ์จากข้อความ (ในอดีต) และอื่น ๆ การมาของ ChatGPT เมื่อปี ค.ศ. 2022 ที่เปลี่ยนโลกของการวิจัยปัญญาประดิษฐ์ไป โลกเข้าสู่ยุคโมเดลภาษาขนาดใหญ่ ถนนแทบทุกสายมุ่งไปทางนี้ ทำให้มีหลายคนเกิดคำถามว่าซอฟต์แวร์เปิด (open source software) เฉพาะภาษา อย่าง PyThaiNLP ที่พัฒนาเครื่องมือพื้นฐานยังสำคัญอยู่ไหม ผลกระทบ LLM กับ PyThaiNLP เป็นอย่างไร แล้วถ้าไม่จำเป็นต้องใช้แล้ว PyThaiNLP จะไปไหน
1313
14- 1. **PyThaiNLP ที่พัฒนาเครื่องมือพื้นฐานยังสำคัญอยู่ไหม**: เราเป็นชุดซอฟต์แวร์เปิดที่เปิดทั้งโมเดล ชุดข้อมูล โค้ด ที่พัฒนามาอย่างยาวนาน ตั้งแต่ปี ค.ศ. 2016 ถ้ามูลค่าในการพัฒนาซอฟต์แวร์ปิดให้ได้ระดับเดียวกันยังคงเป็นค่าใช้จ่ายที่สูง เราผ่านการลองผิดลองถูกมาค่อนข้างเยอะ ปัจจุบันนี้ เรามีฟังก์ชันครบพื้นฐานทั้งหมดแล้ว และมีเครื่องมือทำความสะอาดข้อมูล เครื่องมือทางภาษาศาสตร์ เครื่องมือช่วยต่าง ๆ ที่หาไม่ได้จากที่ไหนอื่นอยู่ใน PyThaiNLP จำนวนมาก กับชุดข้อมูลที่เราปล่อยให้เข้าถึงสาธารณะจากทุกแห่งบนโลกได้ และสุดท้ายนี้ PyThaiNLP ยังคงถูกนำไปใช้เป็นเครื่องมือในการเรียนการสอนวิชาปัญญาประดิษฐ์และภาษาศาสตร์ในหลายมหาวิทยาลัย รวมถึงใช้ในงานวิจัยที่เกี่ยวข้องกับภาษาไทย อ่านงานวิจัยที่ใช้ PyThaiNLP ได้ที่ [Google Scholar](https://scholar.google.com/scholar?start=0&q=%22pythainlp%22)
14+ หนึ่ง **PyThaiNLP ที่พัฒนาเครื่องมือพื้นฐานยังสำคัญอยู่ไหม**: เราเป็นชุดซอฟต์แวร์เปิดที่เปิดทั้งโมเดล ชุดข้อมูล โค้ด ที่พัฒนามาอย่างยาวนาน ตั้งแต่ปี ค.ศ. 2016 ถ้ามูลค่าในการพัฒนาซอฟต์แวร์ปิดให้ได้ระดับเดียวกันยังคงเป็นค่าใช้จ่ายที่สูง เราผ่านการลองผิดลองถูกมาค่อนข้างเยอะ ปัจจุบันนี้ เรามีฟังก์ชันครบพื้นฐานทั้งหมดแล้ว และมีเครื่องมือทำความสะอาดข้อมูล เครื่องมือทางภาษาศาสตร์ เครื่องมือช่วยต่าง ๆ ที่หาไม่ได้จากที่ไหนอื่นอยู่ใน PyThaiNLP จำนวนมาก กับชุดข้อมูลที่เราปล่อยให้เข้าถึงสาธารณะจากทุกแห่งบนโลกได้ และสุดท้ายนี้ PyThaiNLP ยังคงถูกนำไปใช้เป็นเครื่องมือในการเรียนการสอนวิชาปัญญาประดิษฐ์และภาษาศาสตร์ในหลายมหาวิทยาลัย รวมถึงใช้ในงานวิจัยที่เกี่ยวข้องกับภาษาไทย อ่านงานวิจัยที่ใช้ PyThaiNLP ได้ที่ [Google Scholar](https://scholar.google.com/scholar?start=0&q=%22pythainlp%22)
1515
1616![ ] ( https://pythainlp.org/image/genai-20251027/use-pythainlp.png )
1717> ตัวอย่างของการใช้ PyThaiNLP ในปัจจุบันจากบริษัทผู้พัฒนา LLM
1818
19- 2. **ผลกระทบ LLM กับ PyThaiNLP เป็นอย่างไร**: ข้อนี้อาจทำทุกคนตกใจคือ **PyThaiNLP เราไม่ได้รับผลกระทบทางตรงจากการมาของ ChatGPT หรือ LLM** โดยยอดโหลดของซอฟต์แวร์เรายิ่งสูงขึ้นทุก ๆ ปี แถมเราพบว่า Meta, Huggingface (เท่าที่เปิดเผยสู่สาธารณะ) และอื่น ๆ ต่างยังคงใช้ PyThaiNLP ในขั้นตอนพัฒนาโมเดลของตนเอง ทั้งงานพื้นฐาน ทำความสะอาดข้อมูลสำหรับงานภาษาไทย สิ่งเหล่านี้กลายเป็นโมเดล LLM, ASR และอื่น ๆ จำนวนมาก แสดงให้เห็นว่า เครื่องมือของ PyThaiNLP หลายอย่างยังคงสำคัญสำหรับงานพัฒนาโมเดล GenAI, LLM อยู่ แม้จะเป็นงานเบื้องหลัง แต่ก็เป็นงานที่ยังคงต้องพึ่งพาซอฟต์แวร์พื้นฐานอยู่ เพราะการพัฒนาซอฟต์แวร์เปิดมีส่วนช่วยให้บริษัทบนโลกใบนี้ไม่ว่าอยู่ที่ไหนก็สามารถพัฒนาโมเดลสำหรับภาษาไทยจากการใช้ซอฟต์แวร์เปิด แม้ว่าจะเปลี่ยนจากเมื่อก่อน ผู้คนที่ต้องการทำโมเดล AI ต้องเริ่มจากศึกษาการประมวลภาษาธรรมชาติพื้นฐาน และใช้เครื่องมือพื้นฐานก่อนไปพัฒนาโมเดลทุกครั้ง กลายเป็น API กับป้อนคำสั่งให้ทำตามผ่าน GenAI ก็ตาม
19+ สอง **ผลกระทบ LLM กับ PyThaiNLP เป็นอย่างไร**: ข้อนี้อาจทำทุกคนตกใจคือ **PyThaiNLP เราไม่ได้รับผลกระทบทางตรงจากการมาของ ChatGPT หรือ LLM** โดยยอดโหลดของซอฟต์แวร์เรายิ่งสูงขึ้นทุก ๆ ปี แถมเราพบว่า Meta, Huggingface (เท่าที่เปิดเผยสู่สาธารณะ) และอื่น ๆ ต่างยังคงใช้ PyThaiNLP ในขั้นตอนพัฒนาโมเดลของตนเอง ทั้งงานพื้นฐาน ทำความสะอาดข้อมูลสำหรับงานภาษาไทย สิ่งเหล่านี้กลายเป็นโมเดล LLM, ASR และอื่น ๆ จำนวนมาก แสดงให้เห็นว่า เครื่องมือของ PyThaiNLP หลายอย่างยังคงสำคัญสำหรับงานพัฒนาโมเดล GenAI, LLM อยู่ แม้จะเป็นงานเบื้องหลัง แต่ก็เป็นงานที่ยังคงต้องพึ่งพาซอฟต์แวร์พื้นฐานอยู่ เพราะการพัฒนาซอฟต์แวร์เปิดมีส่วนช่วยให้บริษัทบนโลกใบนี้ไม่ว่าอยู่ที่ไหนก็สามารถพัฒนาโมเดลสำหรับภาษาไทยจากการใช้ซอฟต์แวร์เปิด แม้ว่าจะเปลี่ยนจากเมื่อก่อน ผู้คนที่ต้องการทำโมเดล AI ต้องเริ่มจากศึกษาการประมวลภาษาธรรมชาติพื้นฐาน และใช้เครื่องมือพื้นฐานก่อนไปพัฒนาโมเดลทุกครั้ง กลายเป็น API กับป้อนคำสั่งให้ทำตามผ่าน GenAI ก็ตาม
2020
2121![ ] ( https://pythainlp.org/image/genai-20251027/download-plot.png )
2222> ยอดโหลดจาก [ https://clickpy.clickhouse.com/dashboard/pythainlp ] ( https://clickpy.clickhouse.com/dashboard/pythainlp )
2323
2424นอกเหนือจากนี้ เราเปิดเผยชุดข้อมูลด้วย ซึ่งชุดข้อมูลเรามีส่วนร่วมในการพัฒนาโมเดลเปิดต่าง ๆ ที่รองรับภาษาไทย ไม่ว่าจะเป็น Thai NER, wisesight_sentiment และอื่น ๆ ทำให้แม้เราจะทำโมเดลออกมาแล้วตกยุคไป นักพัฒนาคนอื่น ๆ ยังสามารถนำชุดข้อมูลไปพัฒนาโมเดลของตนเองที่เก่งกว่าได้ เช่น นำไปเทรนร่วมกับ LLM เป็นต้น สำหรับการพัฒนา PyThaiNLP เรายังได้ใช้ GenAI มาช่วยในการพัฒนาซอฟต์แวร์ PyThaiNLP อยู่บ้างในปัจจุบัน
2525
26- 3. **ถ้าไม่จำเป็นต้องใช้แล้ว PyThaiNLP จะไปไหน**: PyThaiNLP จะยังคงอยู่เป็นซอฟต์แวร์เปิดบนอินเทอร์เน็ตต่อไปพร้อมกับชุดข้อมูล ไม่ว่าจะพัฒนาต่อหรือยุติการพัฒนาก็ตาม อย่างไรก็ตาม ช่องว่างของการรันโมเดลขนาดใหญ่ยังคงเป็นปัญหาใหญ่ของการเข้าถึงเทคโนโลยี ค่าใช้จ่าย ความเป็นส่วนตัว ความปลอดภัยของข้อมูล เป็นปัญหาใหญ่ของการใช้งาน LLM ทั้งแบบรันด้วยตนเองหรือผ่าน API ขณะที่เราสามารถทำสิ่งเดียวกันกับที่ LLM ทำ อย่างเช่น บอกอารมณ์จากข้อความ จากการเทรนโมเดลเองถูกกว่าการใช้ LLM หรือ API โดยมีความแม่นยำไม่ต่างกันนักอยู่ในปัจจุบัน แถมปลอดภัยกว่าสำหรับการรักษาข้อมูล
26+ สาม **ถ้าไม่จำเป็นต้องใช้แล้ว PyThaiNLP จะไปไหน**: PyThaiNLP จะยังคงอยู่เป็นซอฟต์แวร์เปิดบนอินเทอร์เน็ตต่อไปพร้อมกับชุดข้อมูล ไม่ว่าจะพัฒนาต่อหรือยุติการพัฒนาก็ตาม อย่างไรก็ตาม ช่องว่างของการรันโมเดลขนาดใหญ่ยังคงเป็นปัญหาใหญ่ของการเข้าถึงเทคโนโลยี ค่าใช้จ่าย ความเป็นส่วนตัว ความปลอดภัยของข้อมูล เป็นปัญหาใหญ่ของการใช้งาน LLM ทั้งแบบรันด้วยตนเองหรือผ่าน API ขณะที่เราสามารถทำสิ่งเดียวกันกับที่ LLM ทำ อย่างเช่น บอกอารมณ์จากข้อความ จากการเทรนโมเดลเองถูกกว่าการใช้ LLM หรือ API โดยมีความแม่นยำไม่ต่างกันนักอยู่ในปัจจุบัน แถมปลอดภัยกว่าสำหรับการรักษาข้อมูล
2727
2828นอกจากนี้ PyThaiNLP เราได้มีส่วนร่วมในการอนุรักษ์ภาษาไทย ตราบใดที่ PyThaiNLP ยังอยู่ในอินเทอร์เน็ต ยังคงสามารถใช้งานเพื่อประมวลผลภาษาไทยได้อยู่ และ PyThaiNLP ได้ถูกบรรจุอยู่ภายใต้ [GitHub Arctic Code Vault](https://archiveprogram.github.com/arctic-vault/) ไปแล้วเมื่อปี ค.ศ. 2020 ที่ผ่านมา ซึ่งเป็นโครงการเก็บรักษาซอฟต์แวร์เปิดของมวลมนุษยชาติบน GiHub ไปฝังใต้ดินขั้วโลกเหนือ เก็บรักษาระดับ 1,000 ปี ภาษาไทยเราได้ถูกสำเนาไปด้วย พร้อมกับ PyThaiNLP (และข้อผิดพลาดหรือ bug ไปด้วย) คนยุคพันปีข้างหน้า หากเจอเอกสารภาษาไทยแบบโบราณจากยุคนี้ (กรณียังมีคนใช้งานภาษาไทย) หรือเป็นยุคที่ภาษาไทยอาจหายสาบสูญไปแล้วก็ได้ (กรณีไม่มีคนใช้ภาษาไทยเหลืออยู่) แต่จะยังคงสามารถประมวลผลภาษาไทยจากโค้ด PyThaiNLP ที่ถูกรักษาไว้ได้ มรดกมวลมนุษยชาติทางภาษา ทั้งปรัชญา วัฒนธรรม วรรณกรรม ประเพณี ศาสนา ความคิดและอื่น ๆ ที่เกิดขึ้นในภาษาไทยจะไม่สูญหายไปไหน ถ้าให้คนยุคพันปีข้างหน้าหรือให้ AGI มาช่วยกันถอดโดยไม่มีซอฟต์แวร์พื้นฐานเลย คงจะยังเป็นงานที่ยุ่งยากอยู่ดี
2929
0 commit comments