bact' is a name

Tag: natural language processing

MySQL Thai full-text parser plug-in idea

MySQL 5.1 allows us to use a customized full-text parser. poakpong ถามเรื่อง fulltext ในฐานข้อมูล MySQL ว่าเอาไว้ทำอะไร ก็คือมันเอาไว้ระบุไว้ที่ช่องข้อมูล (field) ประเภทข้อความ (char, varchar, text) เพื่อบอกให้ MySQL มันทำดัชนี (index) สำหรับการค้นหาแบบ full-text search น่ะ ที่เคย ๆ เขียนกัน เวลาจะหาอะไรใน MySQL เราก็จะใช้ LIKE “%คำที่หา%” โดย LIKE มันจะวิ่งไปเปรียบเทียบข้อความในแต่ละช่องข้อมูล ทำนอง regular expression ส่วนกรณี full-text search ใน MySQL จะใช้คำสั่ง MATCH (ชื่อฟิลด์) AGAINST (คำที่หา) ซึ่งมันจะค้นจากดัชนีคำที่…

February 24, 2008
Corpus-Related Research

สาขาวิจัยที่สามารถใช้ประโยชน์จากคลังข้อความได้ เช่น ภาษาศาสตร์เชิงคำนวณ วัฒนธรรมศึกษา และ การวิเคราะห์วาทกรรม ใน Linguistics of Political Argument: The Spin-Doctor and the Wolf-Pack at the White House [gbook], Alan Partington รองศาสตราจารย์ด้านภาษาศาสตร์ แห่งคณะรัฐศาสตร์ มหาวิทยาลัยคาเมรีโน ประเทศอิตาลี ได้พิจารณาความสัมพันธ์ระหว่างทำเนียบขาวกับสื่อ โดยการวิเคราะห์ทางภาษาศาสตร์จากคลังข้อความ ซึ่งประกอบไปด้วยสรุปคำแถลงข่าวประมาณ 50 ชิ้นในช่วงปีท้าย ๆ ของการดำรงตำแหน่งของประธานาธิบดีคลินตัน โดยหัวข้อนั้น มีตั้งแต่เรื่องในโคโซโวไปจนถึงเรื่องความสัมพันธ์คลินตัน-เลวินสกี งานชิ้นนี้ไม่เหมือนใครก่อนหน้า ตรงที่มันทำให้เราเห็นว่า เราสามารถนำเทคโนโลยี concordance (การแสดงคำที่กำหนดในบริบทต่าง ๆ) และหลักฐานทางภาษาศาสตร์อย่างละเอียด มาใช้ในการศึกษาคุณสมบัติต่าง ๆ ของวาทกรรม ทั้งในตัวบทและกลวิธีการสื่อสารของผู้พูดได้-อย่างไร Tony McEnery and Andrew Wilson, Corpus Linguistics, Edinburgh…

December 27, 2007
BEST: Word Segmentation

BEST จัด “แข่งขัน” ซอฟต์แวร์ตัดคำไทย ประโยชน์ของการแข่งขันนี้ นอกจากด้านซอฟต์แวร์แล้ว ยังมีเรื่องของการพัฒนาคลังข้อความ (corpus) และค้นหาความหมายของสิ่งที่เรียกว่า “คำ” ในภาษาไทยอีกด้วย ครั้งนี้เล่นที่คำ ครั้งหน้าทีมงานวางแผนจะเล่นที่ “ประโยค” อย่างไรก็ดี ผมว่าที่อาจารย์วิโรจน์ อักษรจุฬาฯ เสนอว่า ภาษาไทยอาจจะไม่มีประโยคก็ได้ ก็ดูเข้าที สนใจดูได้ที่บทความ Wirote Aroonmanakun, Thoughts on Word and Sentence Segmentation in Thai, SNLP 2007. technorati tags: computational linguistic, word segmentation, Thai language

December 24, 2007
Understanding Language Understanding

ชอบชื่อหนังสือเล่มนี้จริง ๆ – -“ Understanding Language Understanding: Computational Models of Reading Ashwin Ram and Kenneth Moorman (Ed.) MIT Press, Cambridge, MA, 1999. ISBN 0-262-18192-4 | Google Book Search technorati tags: books, computational linguistics, language understanding, creative reading

December 17, 2007
YAiTRON XSLT stylesheets

YAiTRON is a cleaned-up version of NECTEC’s LEXiTRON in a well-formed XML format, created by Vee Satayamas. Its tag names are TEI-inspired. YAiTRON wiki – about YAiTRON and its XML structure data: data-20070709 – release notes extracted data: extracted-20070709 – word list extracted from data-20070709, one part-of-speech per each file scripts: scripts-20070926 – scripts and…

September 26, 2007
GATE experiment at KIND Lab, SIIT

งานทดลองสุดสัปดาห์ที่ผ่านมา เมื่อวานทดลองเขียน wrapper ครอบ Stanford Log-linear Part-Of-Speech Tagger ให้กลายเป็นปลั๊กอินสำหรับใช้กับ GATE (หลังจากตั้งท่ามานาน) pipeline ในรูป มี 3 Processing Resources คือ tokensier, splitter และ tagger tokensier คือ net.siit.gate.DictionaryBasedTokeniser เป็นตัวตัดคำธรรมดา ๆ ใช้พจนานุกรม1 และออกแบบให้ตัดได้คำที่ยาวที่สุด (longest-matching) ทำงานกับ AnnotationSet ของ GATE โดยตรง — จะสร้าง AnnotationSet ชื่อ “Token” ขึ้นมา splitter คือ ANNIE Sentence Splitter เป็นตัวแบ่งประโยค โดยใช้กฎ (ภาษา JAPE เป็นลักษณะ regular expression over annotation)…

July 16, 2007
Stanford SemLab

Stanford’s Computational Semantics Laboratory technorati tags: computational semantics

July 15, 2007
connectives

คำเชื่อม* ซึ่ง และ โดย ถ้า แต่ หรือ คือ เช่น เมื่อ เพื่อ หาก เนื่องจาก แล้ว ทำให้ เพราะ ว่า สำหรับ ได้แก่ ดังนั้น โดยเฉพาะ อย่างไรก็ตาม พวกนี้เอามาแบ่ง ประโยค (sentence) / อนุพากย์ (clause) ได้มั๊ย ? * คำทั้งหมดได้มาจากคลังข้อความเอกสารด้านการแพทย์ที่แลบ เรียงตามความถี่ที่ปรากฎ – คำแรกพบบ่อยกว่าคำสุดท้ายเกือบ 11 เท่า technorati tags: Thai, KIND, connectives

June 30, 2007
(re)CAPTCHA = Human OCR

ไอเดียโคตรดีอ่ะ CNN: Web registration tool digitizes books But von Ahn said OCR doesn’t always work on text that is older, faded or distorted. In those cases, often the only way to digitize the works is to manually type them into a computer. Von Ahn is working with the Internet Archive, which runs several book-scanning projects,…

May 31, 2007
Celebrating Karen Spärck Jones

Karen Spärck Jones (26 August 1935 – 4 April 2007) คาเรน สปาร์ค โจนส์ (26 สิงหาคม ค.ศ. 1935 – 4 เมษายน ค.ศ. 2007) คาเรน สปาร์ค โจนส์ เสียชีวิตแล้วเมื่อเช้าวันที่ 4 เมษายน ค.ศ. 2007 ขณะอายุ 71 ปี เธอเป็นศาสตราจารย์กิตติคุณด้านคอมพิวเตอร์และสารสนเทศ ที่มหาวิทยาลัยเคมบริดจ์ และเป็นหนึ่งในผู้หญิงที่โดดเด่นที่สุดในวิทยาการคอมพิวเตอร์ สมาชิกบริติชอคาเดมี ที่ซึ่งเธอเคยเป็นรองประธานระหว่าง ค.ศ. 2000 ถึง 2002 คาเรนมีเส้นทางอาชีพที่ยาวนาน เพียบพร้อม และโดดเด่น ในฐานะผู้บุกเบิกสาขาวิทยาการสารสนเทศ นับตั้งแต่วันแรก ๆ ของวงการคอมพิวเตอร์จวบจนปัจจุบัน เธอทำงานวิจัยเรื่องการประมวลผลภาษาและสารสนเทศอัตโนมัติตั้งแต่ช่วงปลายคริสตทศวรรษ 1950 เมื่อเธอร่วมเขียนบทความวิชาการชิ้นหนึ่งลงตีพิมพ์ในหนึ่งในคอลเลคชั่นก่อตั้งที่ยิ่งใหญ่ของสาขาวิชา นั่นคือ Proceedings of…

April 5, 2007