CFP: NLP for Under-Resourced Languages

2nd Call for Papers for the Workshop
NLP for Under-Resourced Languages
Friday, 10 June 2005. Dourdan, France

Held in conjunction with the TALN 2005 conference (6-10 June 2005)

Linguistic work on these languages is often lacking, and must overcome a number of difficulties:

  • the presence of many lexical alternatives
  • multiple spellings for the same word
  • the lack of exhaustive lexicons
  • non-standardized transcription methods
  • etc.

น่าจะเกี่ยวกับภาษาไทยบ้างนะ
อย่างตัวสะกดของเรา ก็เปลี่ยนไปตามสมัยนิยมบ้าง เปน สอาด
หรือบางคำสะกดผิดกันแพร่หลาย จนถ้านับตามความนิยม มันก็น่าจะเป็นคำที่ ‘ถูก’ อย่าง สาธร/สาทร ราดหน้า/ลาดหน้า
ส่วน transcription ถ้านับเรื่อง transliteration สำหรับภาษาไทย ก็ไม่มีมาตรฐานที่ใช้แพร่หลาย (มาตรฐานน่ะมี แต่ใช้ไม่แพร่หลาย และก็ยังมีข้อยกเว้น โดยเฉพาะเรื่องคำจากภาษาบาลี-สันสกฤต )
รวมทั้งเรื่องการเขียนคำทับศัพท์ด้วย นี่ชัดๆ เลย เขียนกันไปคนละทิศคนละทาง มาตรฐานก็มี (อีกแล้ว) แต่ไม่ค่อยมีใครใช้ อีกทั้งตัวมาตรฐานเอง ก็ยังมีคำยกเว้นอยู่มากมาย คือเว้นให้กับคำที่เขียนจนเป็นที่นิยมไปแล้ว ให้สะกดแบบเดิมไป read more

Book: Introducing Speech and Language Processing

Book list

หนังสือที่อยากได้ตอนนี้

Mind Hacks — เห็นมาจากบล็อกของพี่ฮุ้ย น่าสนใจดี

On Intelligence — เล่มนี้ก็เหมือนกัน

Holub on Patterns — อ่านผ่านๆ มาในร้านหนังสือ เป็นเล่มแรกเกี่ยวกับ Design Patterns ที่ผมอ่านรู้เรื่อง 😛

The Geometry of Information Retrieval (C.J. van Rijsbergen) — เกี่ยวกับเรื่อง IR เคยอ่านงานของอาจารย์คนนี้มาบ้างแล้ว (จริงๆ ตอนสมัครเรียนเมื่อสองปีที่แล้ว ก็จะสมัครไปที่นี่ (U of Glasgow) แต่เค้าบอกให้เรียนเอกไปเลย .. แต่เราไม่มั่นใจพอ ขอเรียนโทก่อนละกัน) น่าสนใจมาก ก่อนกลับมานี่ (ประมาณวันที่ 20 มกรา) เคยเห็นมีอยู่หนึ่งเล่มที่ศูนย์หนังสือจุฬา สยาม ใครสนใจลองไปหาเปิดๆ อ่านดูได้ ราคาขายของศูนย์หนังสือจุฬา ประมาณ 3,000 บาท .. -_-“ read more

‘ไม่มีผู้ใช้ชื่อนั้น’

วันนี้นั่งแปลข้อความในวิกิพีเดียภาษาไทย
ได้ประโยคแปลกๆ มาอันนึง

“ไม่มีผู้ใช้ชื่อนั้น”
มันจะงงๆ นิดหน่อย

  • ‘ไม่มี ผู้ใช้ ชื่อ นั้น’ — ไม่มี user ที่ใช้ชื่อที่ว่ามา
  • ‘ไม่มี ผู้ ใช้ ชื่อ นั้น’ — ไม่มี คน (ใครก็ได้) ที่ใช้ชื่อที่ว่ามา

อันนี้ยังไม่ได้นับว่า นั้น เนี่ย อาจจะเป็นชื่อคนได้ 😛

of related topic,
“to him or herself”
for this case, we can see that the form ‘him’ is not actually for the sense ‘him’ but instead ‘himself’.
for natural language processing, e.g. coreference resolution, we may like to take care of this kind of (abbreviated) form as well. read more

New MSN Search

MSN เปิดตัวระบบค้นหาตัวใหม่ มาแนว minimalist แบบเดียวกับที่ทำให้ Google ประสบความสำเร็จมาแล้ว
แถมฟีเจอร์ต่อฟีเจอร์ ดูคร่าวๆ แล้ว มีไม่น้อยหน้ากัน
อย่างลิงก์ไปหาข่าวที่เกี่ยวข้องที่ Google มี MSN ก็มี
ส่วนที่ MS หวังทำเงินไว้เต็มที่ ก็คงที่โฆษณานี่แหละ ลักษณะเหมือน Google เป๊ะ read more

Thai Speech Processing Tutorial #2

from thaispeech at yahoogroups com:
—-

Hello Thai speech members,

I just launched the second tutorial (in Thai) focusing
on the way to construct a N-gram model from a plain
text on a domain of hotel reservation. The tutorial will
bring newcomers closer to real applications of large
vocabulary speech recognition.

Please visit our home page:
http://thaispeech.ex.nii.ac.jp/

Have fun,

———————————————–
Chai Wutiwiwatchai
Furui Laboratory,
Department of Computer Science,
Tokyo Institute of Technology
———————————————- read more