2nd Call for Papers for the Workshop
NLP for Under-Resourced Languages
Friday, 10 June 2005. Dourdan, France
Held in conjunction with the TALN 2005 conference (6-10 June 2005)
Linguistic work on these languages is often lacking, and must overcome a number of difficulties:
- the presence of many lexical alternatives
- multiple spellings for the same word
- the lack of exhaustive lexicons
- non-standardized transcription methods
- etc.
น่าจะเกี่ยวกับภาษาไทยบ้างนะ
อย่างตัวสะกดของเรา ก็เปลี่ยนไปตามสมัยนิยมบ้าง เปน สอาด
หรือบางคำสะกดผิดกันแพร่หลาย จนถ้านับตามความนิยม มันก็น่าจะเป็นคำที่ ‘ถูก’ อย่าง สาธร/สาทร ราดหน้า/ลาดหน้า
ส่วน transcription ถ้านับเรื่อง transliteration สำหรับภาษาไทย ก็ไม่มีมาตรฐานที่ใช้แพร่หลาย (มาตรฐานน่ะมี แต่ใช้ไม่แพร่หลาย และก็ยังมีข้อยกเว้น โดยเฉพาะเรื่องคำจากภาษาบาลี-สันสกฤต )
รวมทั้งเรื่องการเขียนคำทับศัพท์ด้วย นี่ชัดๆ เลย เขียนกันไปคนละทิศคนละทาง มาตรฐานก็มี (อีกแล้ว) แต่ไม่ค่อยมีใครใช้ อีกทั้งตัวมาตรฐานเอง ก็ยังมีคำยกเว้นอยู่มากมาย คือเว้นให้กับคำที่เขียนจนเป็นที่นิยมไปแล้ว ให้สะกดแบบเดิมไป
ใครสนใจ ส่งงานได้ครับ
more info: English (advert) | French (official site)