Tag: word break

  • different treatments of Mai Yamok in BEST Corpus

    In the first release of BEST Word Segmented Corpus (free registration required for corpus download), I found different segmentations for May Yamok (repetition mark): |พร้อม|ๆ| |กับ| |ร้อย|ๆ |ปี| |ทั้งๆ ที่| |ต่างๆ| |ดัง| |ย่อ|ๆ| |ว่า| |ย่อ|ๆ |ว่า| (Real data, taken from encyclopedia_00005.txt. ‘|’ is word/token boundary) These are probably intended. Or inconsistency ? Not quite sure,…

  • swath 0.3.4 Released

    โปรแกรมตัดคำ swath ออกรุ่น 0.3.4 แล้ว Swath 0.3.4 released. Swath (Smart Word Analysis for THai) is a word segmentation for Thai. Swath offers 3 algorithms: Longest Matching, Maximal Matching and Part-of-Speech Bigram. The program supports various file input format such as html, rtf, LaTeX as well as plain text. Changes from 0.3.1 (the most recent version…

  • BEST: Word Segmentation

    BEST จัด “แข่งขัน” ซอฟต์แวร์ตัดคำไทย ประโยชน์ของการแข่งขันนี้ นอกจากด้านซอฟต์แวร์แล้ว ยังมีเรื่องของการพัฒนาคลังข้อความ (corpus) และค้นหาความหมายของสิ่งที่เรียกว่า “คำ” ในภาษาไทยอีกด้วย ครั้งนี้เล่นที่คำ ครั้งหน้าทีมงานวางแผนจะเล่นที่ “ประโยค” อย่างไรก็ดี ผมว่าที่อาจารย์วิโรจน์ อักษรจุฬาฯ เสนอว่า ภาษาไทยอาจจะไม่มีประโยคก็ได้ ก็ดูเข้าที สนใจดูได้ที่บทความ Wirote Aroonmanakun, Thoughts on Word and Sentence Segmentation in Thai, SNLP 2007. technorati tags: computational linguistic, word segmentation, Thai language

  • Using dictionary with ICU4J BreakIterator

    การสร้างและเรียกใข้พจนานุกรมสำหรับตัดคำ ใน ICU4J จดวิธีการตัดคำด้วย DictionaryBasedBreakIterator ของ ICU4J และการสร้างพจนานุกรมตัดคำเอง (เฮ้! นี่คือ “จาวา” ขวัญอ่อน? รักสวยรักงาม? .. ระวังถูกงับมือ! เราเตือนคุณแล้วนะ :P) การสร้างไฟล์พจนานุกรมสำหรับตัดคำ ใช้โปรแกรม BuildDictionaryFile สร้างไฟล์พจนานุกรม, วิธีใช้คือ: BuildDictionaryFile input [encoding] [output] [list] input = ข้อมูลเข้า ไฟล์พจนานุกรม เป็นไฟล์ชนิดข้อความ หนึ่งคำต่อหนึ่งบรรทัด encoding = รหัสตัวอักษรของไฟล์พจนานุกรม เช่น TIS-620, UTF-8 (ถ้าไม่ใส่จะใช้ค่าปริยาย คือ UTF-8) output = ข้อมูลออก ผลลัพธ์ เป็นไฟล์ชนิดไบนารี (จะใช้เป็นอินพุตของคอนสตรัคเตอร์ของคลาส DictionaryBasedBreakIterator ต่อไป) list = ข้อมูลออก รายการคำที่ถูกบรรจุในพจนานุกรม (output)…

  • ZWSP with cttex

    แทรก ZWSP (Zero Width Space ช่องว่างความกว้างศูนย์) ระหว่างคำไทยในเอกสาร HTML # cttex -b “&#x200b;” < input.html > output.html คำสั่งข้างบน ใช้กับ cttex-1.30w (ตั้งชื่อไว้งี้ชั่วคราว ย้ำว่าตัวนี้ไม่ใช่ตัวอย่างเป็นทางการ เป็นเพียง “hack” อันนึงเท่านั้น) ที่มีตัวเลือกใหม่ -b ไว้ให้กำหนดตัวแบ่งคำเองได้ แม้จะไม่น่าจะใช้ได้ทันทีกับทุกกรณี (เพราะนี่มันจะตัดดะไปหมดเลย ทั้ง head, meta, script ทุกส่วนในไฟล์ อาจจะทำให้เกิดอาการข้างเคียงได้) แต่ก็น่าจะทำให้สะดวกขึ้นบ้าง นิดหน่อย technorati tags: ZWSP, cttex, Thai, word break

  • cttex 1.30 dict2state stack overflow on Windows

    ทดลอง make cttex 1.30 บน Windows, ปรากฎว่า ตอนแปลงพจนานุกรมเป็น map (โปรแกรม dict2state) เกิด stack overflow เกิดขึ้นกับทั้ง gcc และ Visual C++ 2005 Express Edition บน GNU/Linux + gcc ไม่พบปัญหา ใครพอรู้สาเหตุ/วิธีแก้ ช่วยหน่อยนะครับ ในกระทู้ที่ LTN: stack overflow ใน dict2state ใน cttex 1.30 ขอบคุณครับ 🙂

  • ThaiWrap รุ่น 5

    (บล็อกเก่า ThaiWrap bookmarklet, Auto thaiWrap()) รายการเปลี่ยนแปลง: ตัวแบ่งคำ เปลี่ยนจาก <WBR> มาใช้ zero-width space (U+200B) แทน เนื่องจาก Opera ไม่รู้จัก <WBR> เพิ่มการตรวจเบราเซอร์ เพื่อข้ามการทำงานทั้งหมด ถ้าใช้ Internet Explorer (เหตุผล: 1. จะได้ไม่เสียเวลา เพราะ IE ตัดคำได้อยู่แล้ว 2. IE แสดงผล zero-width space ไม่ได้) ตอนนี้ยังเหลือปัญหา เรื่องไม่ทำงานกับเฟรมที่ซ้อนเฟรม ไล่ DOM reference ตะกี้นี้ เจอละว่ามันผิดตรงไหน (เราไปใช้ window.frames ซึ่งมันจะส่งค่ากลับเฉพาะ frames ระดับบนสุดเท่านั้น, คาดว่า. นอกจากนั้น มันยังไม่อยู่ใน spec ด้วย – อันตราย) แต่ยังไม่รู้จะแก้ไง…

  • Auto thaiWrap()

    จากการแนะนำของคริส (iChris) เขียนวิธีการใช้ฟังก์ชั่นตัดบรรทัด thaiWrap() กับอีเวนต์ onload ไว้แล้ว ที่นี่ เป็นการเอาฟังก์ชั่น thaiWrap() ไปฝังในหน้าเว็บของเราเลย แล้วให้เรียกในอัตโนมัติเมื่อโหลดหน้าเสร็จ ก็จะทำให้หน้าเว็บของเรา ตัดบรรทัดทุกครั้ง (แบบถูกบ้างผิดบ้าง) ไม่ว่าจะใช้เว็บเบราเซอร์รุ่นไหนก็ตาม ตัวอย่าง

  • จากข่าว ยกน้ำหนักหญิงไทย

    ก่อนอื่นก็ขอแสดงความยินดีด้วย กับทั้งทีมเลย ส่วนอันนี้จากข่าว ที่กรุงเทพธุรกิจ —- โฆษกประจำสำนักนายกรัฐมนตรี กล่าวว่า นายสุวัจน์ ยังได้ชี้แจงเกี่ยวกับข่าวที่เสนอว่าไปเอาเหรียญทองมาจากนางสาวอุดมพรมานั้น ความจริงคือนางสาวอุดมพร แจ้งต่อรองนายกรัฐมนตรีว่าอยากได้เหรียญที่เป็นทองคำแท้ จึงรับปากที่จะทำให้ โดยขอยืมเหรียญทองมาทำบล็อคในการทำเหรียญทองคำแท้ และจะส่งเหรียญตัวจริงกลับไป เพราะนางสาวอุดมพร จะต้องใช้ในการทำกิจกรรมต่าง ๆ อีก —- แจ้ง ต่อ รองนายกฯ แจ้ง ต่อรอง นายกฯ อืม…