YAiTRON XSLT stylesheets

YAiTRON is a cleaned-up version of NECTEC’s LEXiTRON in a well-formed XML format, created by Vee Satayamas. Its tag names are TEI-inspired.

  • YAiTRON wiki – about YAiTRON and its XML structure
  • data: data-20070709release notes
  • extracted data: extracted-20070709 – word list extracted from data-20070709, one part-of-speech per each file
  • scripts: scripts-20070926 – scripts and XSLT stylesheets for YAiTRON data manipulation
  • GATE experiment at KIND Lab, SIIT

    งานทดลองสุดสัปดาห์ที่ผ่านมา

    POS-tagged document in GATE

    เมื่อวานทดลองเขียน wrapper ครอบ Stanford Log-linear Part-Of-Speech Tagger ให้กลายเป็นปลั๊กอินสำหรับใช้กับ GATE (หลังจากตั้งท่ามานาน)

    pipeline ในรูป มี 3 Processing Resources คือ tokensier, splitter และ tagger

    tokensier คือ net.siit.gate.DictionaryBasedTokeniser เป็นตัวตัดคำธรรมดา ๆ ใช้พจนานุกรม1 และออกแบบให้ตัดได้คำที่ยาวที่สุด (longest-matching) ทำงานกับ AnnotationSet ของ GATE โดยตรง — จะสร้าง AnnotationSet ชื่อ “Token” ขึ้นมา read more

    connectives

    คำเชื่อม*

    ซึ่ง
    และ
    โดย
    ถ้า
    แต่
    หรือ
    คือ
    เช่น
    เมื่อ
    เพื่อ
    หาก
    เนื่องจาก
    แล้ว
    ทำให้
    เพราะ
    ว่า
    สำหรับ
    ได้แก่
    ดังนั้น
    โดยเฉพาะ
    อย่างไรก็ตาม
    

    พวกนี้เอามาแบ่ง ประโยค (sentence) / อนุพากย์ (clause) ได้มั๊ย ?

    * คำทั้งหมดได้มาจากคลังข้อความเอกสารด้านการแพทย์ที่แลบ เรียงตามความถี่ที่ปรากฎ – คำแรกพบบ่อยกว่าคำสุดท้ายเกือบ 11 เท่า read more