|  | 
|  | 1 | +--- | 
|  | 2 | +layout: post | 
|  | 3 | +title: ซอฟต์แวร์ AI Open Source เฉพาะภาษายังจำเป็นอยู่ไหมกับยุค GenAI | 
|  | 4 | +gh-repo: pythainlp/pythainlp | 
|  | 5 | +gh-badge: [star, fork] | 
|  | 6 | +categories: [news] | 
|  | 7 | +comments: true | 
|  | 8 | +--- | 
|  | 9 | + | 
|  | 10 | +หลังจากที่เราเข้าสู่ยุค GenAI การมาของ ChatGPT จนปัจจุบันนี้ ปัญญาประดิษฐ์ด้านภาษาธรรมชาติกลายเป็นผู้ช่วยที่ทุก ๆ คนสามารถเข้าถึงได้ง่ายดาย ไม่ต้องสร้างโมเดลเอง ปรับแต่งแค่คำสั่งเพื่อใช้งาน ทำให้เกิดคำถามซอฟต์แวร์ AI Open Source เฉพาะภาษายังจำเป็นอยู่ไหมกับยุค GenAI | 
|  | 11 | + | 
|  | 12 | +สำหรับ PyThaiNLP เราพัฒนาชุดซอฟต์แวร์สำหรับประมวลผลภาษาไทยมาตั้งแต่ปี ค.ศ. 2016 ก่อนยุค GenAI มีทั้งตัดคำ โมเดลแยกอารมณ์จากข้อความ (ในอดีต) และอื่น ๆ การมาของ ChatGPT เมื่อปี ค.ศ. 2022 ที่เปลี่ยนโลกของการวิจัยปัญญาประดิษฐ์ไป โลกเข้าสู่ยุคโมเดลภาษาขนาดใหญ่ ถนนแทบทุกสายมุ่งไปทางนี้ ทำให้มีหลายคนเกิดคำถามว่าซอฟต์แวร์เปิด (open source software) เฉพาะภาษา อย่าง PyThaiNLP ที่พัฒนาเครื่องมือพื้นฐานยังสำคัญอยู่ไหม ผลกระทบ LLM กับ PyThaiNLP เป็นอย่างไร แล้วถ้าไม่จำเป็นต้องใช้แล้ว PyThaiNLP จะไปไหน | 
|  | 13 | + | 
|  | 14 | +1. **PyThaiNLP ที่พัฒนาเครื่องมือพื้นฐานยังสำคัญอยู่ไหม**: เราเป็นชุดซอฟต์แวร์เปิดที่เปิดทั้งโมเดล ชุดข้อมูล โค้ด ที่พัฒนามาอย่างยาวนาน ตั้งแต่ปี ค.ศ. 2016 ถ้ามูลค่าในการพัฒนาซอฟต์แวร์ปิดให้ได้ระดับเดียวกันยังคงเป็นค่าใช้จ่ายที่สูง เราผ่านการลองผิดลองถูกมาค่อนข้างเยอะ ปัจจุบันนี้ เรามีฟังก์ชันครบพื้นฐานทั้งหมดแล้ว และมีเครื่องมือทำความสะอาดข้อมูล เครื่องมือทางภาษาศาสตร์ เครื่องมือช่วยต่าง ๆ ที่หาไม่ได้จากที่ไหนอื่นอยู่ใน PyThaiNLP จำนวนมาก กับชุดข้อมูลที่เราปล่อยให้เข้าถึงสาธารณะจากทุกแห่งบนโลกได้  และสุดท้ายนี้ PyThaiNLP ยังคงถูกนำไปใช้เป็นเครื่องมือในการเรียนการสอนวิชาปัญญาประดิษฐ์และภาษาศาสตร์ในหลายมหาวิทยาลัย รวมถึงใช้ในงานวิจัยที่เกี่ยวข้องกับภาษาไทย อ่านงานวิจัยที่ใช้ PyThaiNLP ได้ที่ [Google Scholar](https://scholar.google.com/scholar?start=0&q=%22pythainlp%22) | 
|  | 15 | + | 
|  | 16 | + | 
|  | 17 | +> ตัวอย่างของการใช้ PyThaiNLP ในปัจจุบันจากบริษัทผู้พัฒนา LLM | 
|  | 18 | +
 | 
|  | 19 | +2. **ผลกระทบ LLM กับ PyThaiNLP เป็นอย่างไร**: ข้อนี้อาจทำทุกคนตกใจคือ **PyThaiNLP เราไม่ได้รับผลกระทบทางตรงจากการมาของ ChatGPT หรือ LLM** โดยยอดโหลดของซอฟต์แวร์เรายิ่งสูงขึ้นทุก ๆ ปี แถมเราพบว่า Meta, Huggingface (เท่าที่เปิดเผยสู่สาธารณะ) และอื่น ๆ ต่างยังคงใช้ PyThaiNLP ในขั้นตอนพัฒนาโมเดลของตนเอง ทั้งงานพื้นฐาน ทำความสะอาดข้อมูลสำหรับงานภาษาไทย สิ่งเหล่านี้กลายเป็นโมเดล LLM, ASR และอื่น ๆ จำนวนมาก  แสดงให้เห็นว่า เครื่องมือของ PyThaiNLP หลายอย่างยังคงสำคัญสำหรับงานพัฒนาโมเดล GenAI, LLM อยู่ แม้จะเป็นงานเบื้องหลัง แต่ก็เป็นงานที่ยังคงต้องพึ่งพาซอฟต์แวร์พื้นฐานอยู่ เพราะการพัฒนาซอฟต์แวร์เปิดมีส่วนช่วยให้บริษัทบนโลกใบนี้ไม่ว่าอยู่ที่ไหนก็สามารถพัฒนาโมเดลสำหรับภาษาไทยจากการใช้ซอฟต์แวร์เปิด แม้ว่าจะเปลี่ยนจากเมื่อก่อน ผู้คนที่ต้องการทำโมเดล AI ต้องเริ่มจากศึกษาการประมวลภาษาธรรมชาติพื้นฐาน และใช้เครื่องมือพื้นฐานก่อนไปพัฒนาโมเดลทุกครั้ง กลายเป็น API กับป้อนคำสั่งให้ทำตามผ่าน GenAI ก็ตาม | 
|  | 20 | + | 
|  | 21 | + | 
|  | 22 | +> ยอดโหลดจาก [https://clickpy.clickhouse.com/dashboard/pythainlp](https://clickpy.clickhouse.com/dashboard/pythainlp) | 
|  | 23 | +
 | 
|  | 24 | +นอกเหนือจากนี้ เราเปิดเผยชุดข้อมูลด้วย ซึ่งชุดข้อมูลเรามีส่วนร่วมในการพัฒนาโมเดลเปิดต่าง ๆ ที่รองรับภาษาไทย ไม่ว่าจะเป็น Thai NER, wisesight_sentiment และอื่น ๆ ทำให้แม้เราจะทำโมเดลออกมาแล้วตกยุคไป นักพัฒนาคนอื่น ๆ ยังสามารถนำชุดข้อมูลไปพัฒนาโมเดลของตนเองที่เก่งกว่าได้ เช่น นำไปเทรนร่วมกับ LLM เป็นต้น สำหรับการพัฒนา PyThaiNLP เรายังได้ใช้ GenAI มาช่วยในการพัฒนาซอฟต์แวร์ PyThaiNLP อยู่บ้างในปัจจุบัน | 
|  | 25 | + | 
|  | 26 | +3. **ถ้าไม่จำเป็นต้องใช้แล้ว PyThaiNLP จะไปไหน**: PyThaiNLP จะยังคงอยู่เป็นซอฟต์แวร์เปิดบนอินเทอร์เน็ตต่อไปพร้อมกับชุดข้อมูล ไม่ว่าจะพัฒนาต่อหรือยุติการพัฒนาก็ตาม อย่างไรก็ตาม ช่องว่างของการรันโมเดลขนาดใหญ่ยังคงเป็นปัญหาใหญ่ของการเข้าถึงเทคโนโลยี ค่าใช้จ่าย ความเป็นส่วนตัว ความปลอดภัยของข้อมูล เป็นปัญหาใหญ่ของการใช้งาน LLM ทั้งแบบรันด้วยตนเองหรือผ่าน API ขณะที่เราสามารถทำสิ่งเดียวกันกับที่ LLM ทำ อย่างเช่น บอกอารมณ์จากข้อความ จากการเทรนโมเดลเองถูกกว่าการใช้ LLM หรือ API โดยมีความแม่นยำไม่ต่างกันนักอยู่ในปัจจุบัน แถมปลอดภัยกว่าสำหรับการรักษาข้อมูล | 
|  | 27 | + | 
|  | 28 | +นอกจากนี้ PyThaiNLP เราได้มีส่วนร่วมในการอนุรักษ์ภาษาไทย ตราบใดที่ PyThaiNLP ยังอยู่ในอินเทอร์เน็ต ยังคงสามารถใช้งานเพื่อประมวลผลภาษาไทยได้อยู่ และ PyThaiNLP ได้ถูกบรรจุอยู่ภายใต้ [GitHub Arctic Code Vault](https://archiveprogram.github.com/arctic-vault/) ไปแล้วเมื่อปี ค.ศ. 2020 ที่ผ่านมา ซึ่งเป็นโครงการเก็บรักษาซอฟต์แวร์เปิดของมวลมนุษยชาติบน GiHub ไปฝังใต้ดินขั้วโลกเหนือ เก็บรักษาระดับ 1,000 ปี ภาษาไทยเราได้ถูกสำเนาไปด้วย พร้อมกับ PyThaiNLP (และข้อผิดพลาดหรือ bug ไปด้วย) คนยุคพันปีข้างหน้า หากเจอเอกสารภาษาไทยแบบโบราณจากยุคนี้ (กรณียังมีคนใช้งานภาษาไทย) หรือเป็นยุคที่ภาษาไทยอาจหายสาบสูญไปแล้วก็ได้ (กรณีไม่มีคนใช้ภาษาไทยเหลืออยู่) แต่จะยังคงสามารถประมวลผลภาษาไทยจากโค้ด PyThaiNLP ที่ถูกรักษาไว้ได้ มรดกมวลมนุษยชาติทางภาษา ทั้งปรัชญา วัฒนธรรม วรรณกรรม ประเพณี ศาสนา ความคิดและอื่น ๆ ที่เกิดขึ้นในภาษาไทยจะไม่สูญหายไปไหน ถ้าให้คนยุคพันปีข้างหน้าหรือให้ AGI มาช่วยกันถอดโดยไม่มีซอฟต์แวร์พื้นฐานเลย คงจะยังเป็นงานที่ยุ่งยากอยู่ดี | 
|  | 29 | + | 
|  | 30 | +จากสามข้อขั้นต้น จะเห็นได้ว่า ซอฟต์แวร์เปิดอย่าง open source เฉพาะภาษายังคงจำเป็นแม้ในยุค GenAI ถึงแม้จากงานเบื้องหน้าจะกลายเป็นงานเบื้องหลังก็ตาม และเป็นสิ่งที่ซอฟต์แวร์เปิดทำได้ไม่ว่ายุคสมัยจะเปลี่ยนแปลงไปอย่างไรก็ตาม นี่คือความงดงามของ Open Source | 
|  | 31 | + | 
|  | 32 | +อ่านเพิ่มเติมเกี่ยวกับ PyThaiNLP ได้ที่ [PyThaiNLP: Thai Natural Language Processing in Python](https://aclanthology.org/2023.nlposs-1.4/) | 
|  | 33 | + | 
|  | 34 | + | 
|  | 35 | +**เกี่ยวกับ PyThaiNLP** | 
|  | 36 | + | 
|  | 37 | +PyThaiNLP เป็นกลุ่มนักพัฒนาซอฟต์แวร์เปิดเพื่อการประมวลผลภาษาไทย พวกเราสร้างซอฟต์แวร์และชุดข้อมูลสำหรับภาษาไทย | 
0 commit comments