Skip to content

bact' is a name

About
Courses
Media
Publications

Tag: GATE

GATE experiment at KIND Lab, SIIT

งานทดลองสุดสัปดาห์ที่ผ่านมา เมื่อวานทดลองเขียน wrapper ครอบ Stanford Log-linear Part-Of-Speech Tagger ให้กลายเป็นปลั๊กอินสำหรับใช้กับ GATE (หลังจากตั้งท่ามานาน) pipeline ในรูป มี 3 Processing Resources คือ tokensier, splitter และ tagger tokensier คือ net.siit.gate.DictionaryBasedTokeniser เป็นตัวตัดคำธรรมดา ๆ ใช้พจนานุกรม1 และออกแบบให้ตัดได้คำที่ยาวที่สุด (longest-matching) ทำงานกับ AnnotationSet ของ GATE โดยตรง — จะสร้าง AnnotationSet ชื่อ “Token” ขึ้นมา splitter คือ ANNIE Sentence Splitter เป็นตัวแบ่งประโยค โดยใช้กฎ (ภาษา JAPE เป็นลักษณะ regular expression over annotation)…

July 16, 2007
Fix "uses unchecked or unsafe operations" for GATE’s FeatureMap

วันนี้นั่งไล่โค้ดตัวปลั๊กอิน GATE ทั้งวัน กำลังเขียนปลั๊กอินเพื่อเอามาใช้กับโครงการที่กำลังทำอยู่ตอนนี้ที่ SIIT (เอ๊ะ ผมบอกรึยังนะ ว่าผมมาเป็นผู้ช่วยวิจัยอยู่นี่ ไว้ค่อยเล่าว่าทำอะไรละกัน ทีหลัง) ก็ใช้ GATE นี่แหละ วันนี้พยายามแก้ warning ที่เจอมาตั้งแต่วันก่อน แต่ปล่อย ๆ ไปก่อน วันนี้ได้โอกาส ก็มาตามเก็บให้เรียบร้อย โค้ดมันคล้าย ๆ นี้: 1: FeatureMap features = Factory.newFeatureMap(); 2: features.put(“key”, object); บรรทัดที่ 2 เนี่ย พอคอมไพล์ จะทำให้เกิด warning: Note: MyJava.java uses unchecked or unsafe operations. Note: Recompile with -Xlint:unchecked for details. ไปเจอใน forum.java.sun.com เค้าบอกว่า มันเกิดเพราะ…

January 10, 2007
Newline in GATE

ใน GATE, ถ้าเราอยากรู้ว่า เอกสารที่เรากำลังทำงานอยู่เนี่ย มันใช้ อักขระขึ้นบรรทัดใหม่ (newline) แบบไหน ก็เรียกดูได้จากฟีเจอร์ที่ชื่อ “docNewLineType” โดย docNewLineType นี้ เป็น String มีค่าได้ 4 อย่าง: { “CR”, “LF”, “CRLF”, “LFCR” } CR คือ Carriage Return — ปัดแคร่(ไปซ้ายสุด) (\r ในหลายภาษาโปรแกรม), LF คือ Line Feed — เลื่อนบรรทัดใหม่ (\n) เพื่อขึ้นบรรทัดใหม่ เครือญาติ UNIX อย่าง Linux กับ Mac OS X ใช้ LF ตัวเดียว, ใน Mac OS (จนถึงรุ่น 9)…

January 8, 2007
Thai GATE

Thai GATE — General Architecture for Text Engineering, Thai users group http://groups.google.com/group/thaigate กลุ่มผู้ใช้ GATE ชาวไทย ตั้งแล้ว โดย วีร์ 😛 เชิญถกเรื่องการใช้การพัฒนาเกทกันได้ โดยเฉพาะเรื่องที่เกี่ยวกับภาษาไทย 🙂 และเราจะขอ มั่ว เรียกผู้ใช้เกทชาวไทยว่า “Siamigaters” สยามิเกเตอร์ ..เป็นไอ้โขงกันไปเลย 😛 technorati tags: GATE, users group

January 4, 2007

bact' is a name

Proudly powered by WordPress