-
YAiTRON XSLT stylesheets
YAiTRON is a cleaned-up version of NECTEC’s LEXiTRON in a well-formed XML format, created by Vee Satayamas. Its tag names are TEI-inspired. YAiTRON wiki – about YAiTRON and its XML structure data: data-20070709 – release notes extracted data: extracted-20070709 – word list extracted from data-20070709, one part-of-speech per each file scripts: scripts-20070926 – scripts and…
-
GATE experiment at KIND Lab, SIIT
งานทดลองสุดสัปดาห์ที่ผ่านมา เมื่อวานทดลองเขียน wrapper ครอบ Stanford Log-linear Part-Of-Speech Tagger ให้กลายเป็นปลั๊กอินสำหรับใช้กับ GATE (หลังจากตั้งท่ามานาน) pipeline ในรูป มี 3 Processing Resources คือ tokensier, splitter และ tagger tokensier คือ net.siit.gate.DictionaryBasedTokeniser เป็นตัวตัดคำธรรมดา ๆ ใช้พจนานุกรม1 และออกแบบให้ตัดได้คำที่ยาวที่สุด (longest-matching) ทำงานกับ AnnotationSet ของ GATE โดยตรง — จะสร้าง AnnotationSet ชื่อ “Token” ขึ้นมา splitter คือ ANNIE Sentence Splitter เป็นตัวแบ่งประโยค โดยใช้กฎ (ภาษา JAPE เป็นลักษณะ regular expression over annotation)…
-
connectives
คำเชื่อม* ซึ่ง และ โดย ถ้า แต่ หรือ คือ เช่น เมื่อ เพื่อ หาก เนื่องจาก แล้ว ทำให้ เพราะ ว่า สำหรับ ได้แก่ ดังนั้น โดยเฉพาะ อย่างไรก็ตาม พวกนี้เอามาแบ่ง ประโยค (sentence) / อนุพากย์ (clause) ได้มั๊ย ? * คำทั้งหมดได้มาจากคลังข้อความเอกสารด้านการแพทย์ที่แลบ เรียงตามความถี่ที่ปรากฎ – คำแรกพบบ่อยกว่าคำสุดท้ายเกือบ 11 เท่า technorati tags: Thai, KIND, connectives