BEST จัด “แข่งขัน” ซอฟต์แวร์ตัดคำไทย
ประโยชน์ของการแข่งขันนี้ นอกจากด้านซอฟต์แวร์แล้ว ยังมีเรื่องของการพัฒนาคลังข้อความ (corpus) และค้นหาความหมายของสิ่งที่เรียกว่า “คำ” ในภาษาไทยอีกด้วย
ครั้งนี้เล่นที่คำ ครั้งหน้าทีมงานวางแผนจะเล่นที่ “ประโยค”
อย่างไรก็ดี ผมว่าที่อาจารย์วิโรจน์ อักษรจุฬาฯ เสนอว่า ภาษาไทยอาจจะไม่มีประโยคก็ได้ ก็ดูเข้าที
สนใจดูได้ที่บทความ
Wirote Aroonmanakun, Thoughts on Word and Sentence Segmentation in Thai, SNLP 2007.
technorati tags:
computational linguistic,
word segmentation,
Thai language
4 responses to “BEST: Word Segmentation”
ใน poster ให้ดูรายละเอียดในเว็บ. ในเว็บก็มี poster. ผมเลยดึงจังหวะรอสักพัก ก่อนจะติด poster ต่อ.
veer: อืม ในเว็บยังไม่มีไรเลย – -"
BEST เป็นความร่วมมือระหว่างอักษรศาสตร์จุฬา, SIIT, วิศวะคอมเกษตร, TCL และเนคเทคครับผมเป็นหนึ่งในคณะทำงานจากเนคเทค เราทราบดีว่าปัญหาใหญ่ของการจัดการภาษาไทยคือการตัดคำที่ต้องการฐานข้อมูลขนาดใหญ่ที่มีมาตรฐาน ซึ่งต้องลงทุนสูงมาก เลยคิดว่าเนคเทคน่าจะมีบทบาทสำคัญในการผลักดันเรื่องดังกล่าว โดยได้รับความเห็นชอบจากผู้เชี่ยวชาญจากหลายฝ่ายต้องขออภัยอ.มานพที่ผมไม่ได้เรียนเชิญมาร่วมจัดงาน เนื่องจากผมไม่มีข้อมูลมากพอว่ามีที่ใดให้ความสนใจอยู่บ้างครับจริงๆ ผมชื่อชัย จบโทจากวิศวะไฟฟ้า จุฬาฯ เมื่อปี 2540 ทำวิจัยเรื่อง Speech recognition มาจนกระทั่งเรื่อง Language processing สนใจเรื่อง Human machine interaction เลยได้มาทำงานด้านนี้โดยตรงที่เนคเทคครับ อยากเชื้อเชิญชาวจุฬาฯ มือดีทุกท่าน รวมทีมมาแข่งกันดูครับเพราะฐานข้อมูลและ Guideline การตัดคำภาษาไทยนี้ ใช้เวลาทำอยู่เกือบปี อยากให้คุ้มค่า โดยมีหลายๆ แห่งได้นำไปใช้ประโยชน์ครับ ตอนนี้ Website เริ่มขึ้นแล้วครับ ยังอาจมีการ Update เนื้อหาอยู่เป็นพักๆ นะครับ รบกวนติดตามบนเว็บได้ครับชัยhttp://www.hlt.nectec.or.th/misterchai/
สวัสดีครับ อ.ชัยเอ เหมือนจะมีอะไรคลาดเคลื่อนนิดหน่อยเหมือนจะเข้าใจว่าผมเป็น อ.มานพ รึเปล่าครับผมไม่ใช่นะครับ (และไม่รู้จักอ.มานพที่ทำเรื่องประมาณ nlp/comling ด้วยครับ)ขอบคุณที่ส่งข่าวคราวเรื่องอัพเดทเว็บไซต์ครับ 🙂