CFP: NLP for Under-Resourced Languages


2nd Call for Papers for the Workshop
NLP for Under-Resourced Languages
Friday, 10 June 2005. Dourdan, France

Held in conjunction with the TALN 2005 conference (6-10 June 2005)

Linguistic work on these languages is often lacking, and must overcome a number of difficulties:

  • the presence of many lexical alternatives
  • multiple spellings for the same word
  • the lack of exhaustive lexicons
  • non-standardized transcription methods
  • etc.

น่าจะเกี่ยวกับภาษาไทยบ้างนะ
อย่างตัวสะกดของเรา ก็เปลี่ยนไปตามสมัยนิยมบ้าง เปน สอาด
หรือบางคำสะกดผิดกันแพร่หลาย จนถ้านับตามความนิยม มันก็น่าจะเป็นคำที่ ‘ถูก’ อย่าง สาธร/สาทร ราดหน้า/ลาดหน้า
ส่วน transcription ถ้านับเรื่อง transliteration สำหรับภาษาไทย ก็ไม่มีมาตรฐานที่ใช้แพร่หลาย (มาตรฐานน่ะมี แต่ใช้ไม่แพร่หลาย และก็ยังมีข้อยกเว้น โดยเฉพาะเรื่องคำจากภาษาบาลี-สันสกฤต )
รวมทั้งเรื่องการเขียนคำทับศัพท์ด้วย นี่ชัดๆ เลย เขียนกันไปคนละทิศคนละทาง มาตรฐานก็มี (อีกแล้ว) แต่ไม่ค่อยมีใครใช้ อีกทั้งตัวมาตรฐานเอง ก็ยังมีคำยกเว้นอยู่มากมาย คือเว้นให้กับคำที่เขียนจนเป็นที่นิยมไปแล้ว ให้สะกดแบบเดิมไป

ใครสนใจ ส่งงานได้ครับ

more info: English (advert) | French (official site)


Leave a Reply

This site uses Akismet to reduce spam. Learn how your comment data is processed.