-
A Collection Of POS Taggers
ACOPOST implements and extends well-known machine learning techniques for Part-of-Speech tagging, and (in the future) provides a uniform environment for testing.
-
TU-SIL machine translation system
Stephen Beale. 1992. “A new approach to machine translation: The TU-SIL translation system.” Journal of Language and Linguistics, Thammasat University, Vol. 10 No. 2 เพิ่งรู้ว่าเคยมีคนทำเรื่องประมาณนี้ที่สินสาดด้วย .. แต่จะไปหามาอ่านได้จากไหนอ่ะ ? เว็บมธ.นี่แม่ง *โคตร* ห่วย deadlink ตลอด เฮ้อ…
-
Lexical Conceptual Structure
LCS Database Documentation, Bonnie J. Dorr, University of Maryland
-
Open Language Tools try out
ตะกี้ลองเล่น Open Language Tools, เป็นโปรแกรมช่วยงานแปลภาษา ทั้งพวกเอกสาร และโปรแกรม ในชุดจะแยกเป็นสองตัว คือ XLIFF Translation Editor กะ XLIFF Filters. ตัวแรกจะเป็นตัวแก้ไข (เป็นตัวที่ผู้แปลจะใช้ทำงาน) ส่วนตัวหลังจะเป็นตัวแปลงไฟล์ต่าง ๆ ให้อยู่ในฟอร์แมต XLIFF เพื่อให้ตัวแรกใช้. (อะไรคือ XLIFF ?) ตัว editor นี่ มี Translation Memory (TM) ให้ใช้ด้วย ตัวอย่างการใช้งาน สมมติเราอยากจะแปลโมดูลใน GNOME ซักอันนึงเป็นไทย, ซึ่งใน GNOME เนี่ย เค้าจะใช้ไฟล์ข้อความในฟอร์แมต PO. เราก็เอาไอ้ไฟล์ PO เนี่ย ไปแปลงเป็น XLIFF ก่อน ด้วย XLIFF Filters, จากนั้นพอได้ไฟล์ XLIFF แล้ว ก็แปลด้วย…
-
UIMA 1.1
Unstructured Information Management Architecture. NLP, IR, machine learning, annotation, etc. -related stuffs. An included SDK works under Eclipse environment (the framework itself is not specific to any IDE or platform). User guide.
-
Thai language processing
สารานุกรมไทยสำหรับเยาวชน เล่มที่ 25 บทที่ 7 การประยุกต์ใช้ภาษาไทยบนคอมพิวเตอร์
-
Charset Detectors
นาน ๆ จะโพสต์อะไรที่มีสาระที ต้องเก็บไว้หน่อย 😛 Mozilla Charset Detectors code: Mozilla, Java document: A composite approach to language/encoding detection Characters and encodings เบื่อเป็นหวัด
-
Analysing movie reviews
Rotten Tomatoes – Movies and Games reviews The Internet Movie Database (IMDb) Movie Review Data, by Bo Pang. For sentiment analysis.
-
Installing NLTK "from scratch"
Note: This is a unfinished work, will polish it later. เข้าค้าง ๆ มานานละ ไม่เสร็จซะที โพสต์ไปก่อนละกัน เดี๋ยวมาแก้ทีหลัง ไม่งั้นลืมแน่ วิธีติดตั้ง NLTK บน UNIX, Mac OS X, และ cygwin บน Windows (ใครมี gcc และ Python 2.4 แล้ว ก็ข้ามส่วนนั้นไปได้เลย สำหรับคนใช้ cygwin เลือกลง gcc, python ได้จากโปรแกรม install ของ cygwin เลย) Install gcc As most UNIX systems already has gcc, I…
-
Uni Potsdam’s Applied Computational Linguistics Lab
Applied Computational Linguistics Lab (AG Angewandte Computerlinguistik) at the University of Potsdam, Germany, now has 2 positions open for experienced researchers in an EU-funded dialogue project. — Details.