-
Notifications
You must be signed in to change notification settings - Fork 11
Description
با سلام و احترام
من متوجه شدم که بخشی از واژهها رو بهعنوان واژههای خارجی توی دادههاتون متمایز کردید. الیته این کار بهصورت کامل انجام نشده و تنها مقدار کمی از دادهها بهاین صورت هستند. خواستم پیشنهاد کنم که واژههای خارجی رو متمایز نکنید، چراکه تنها در صورتی میتونید چنین تمایزی رو در دادههاتون قائل بشید که تمایز ریشهشناختی براشون قائل بشید. مثلن واژه «زمان» یک واژه آرامی هست، واژه «کلید» یونانی و واژه «صابون» لاتین است. بااین حال هیچ یک از سخنگوهای زبان فارسی و حتا بسیاری از زبانشناسها از چنین اطلاعات ریشهشناختیای اطلاع ندارند. شما اگر بخواهید واژههای خارجی رو متمایز کنید یا باید از اطلاعات فارسی باستان استفاده کنید یا اگر بخواهید واژههای خارجی اخیر رو متمایز کنید، باید یک معیار عینی برای این «اخیر بودن» ارائهکنید که دستیابی به چنین معیار عینیای اگه غیرممکن نباشه، ساده نیست.
من توی دادهها متوجه شدم که در بعضی از واژهها التقای واکهای وجود داره که میتونه بعدها براتون مشکل ایجادکنه.
پیشنهاد میکنم توی واجنویسی واژهها تقطیع هجایی رو هم لحاظ کنید. چنین چیزی میتونه مانع از مشکلاتی نظیر التقای واکهای بشه.