Tag: natural language processing

  • MySQL Thai full-text parser plug-in idea

    MySQL 5.1 allows us to use a customized full-text parser. poakpong ถามเรื่อง fulltext ในฐานข้อมูล MySQL ว่าเอาไว้ทำอะไร ก็คือมันเอาไว้ระบุไว้ที่ช่องข้อมูล (field) ประเภทข้อความ (char, varchar, text) เพื่อบอกให้ MySQL มันทำดัชนี (index) สำหรับการค้นหาแบบ full-text search น่ะ ที่เคย ๆ เขียนกัน เวลาจะหาอะไรใน MySQL เราก็จะใช้ LIKE “%คำที่หา%” โดย LIKE มันจะวิ่งไปเปรียบเทียบข้อความในแต่ละช่องข้อมูล ทำนอง regular expression ส่วนกรณี full-text search ใน MySQL จะใช้คำสั่ง MATCH (ชื่อฟิลด์) AGAINST (คำที่หา) ซึ่งมันจะค้นจากดัชนีคำที่…

  • Corpus-Related Research

    สาขาวิจัยที่สามารถใช้ประโยชน์จากคลังข้อความได้ เช่น ภาษาศาสตร์เชิงคำนวณ วัฒนธรรมศึกษา และ การวิเคราะห์วาทกรรม ใน Linguistics of Political Argument: The Spin-Doctor and the Wolf-Pack at the White House [gbook], Alan Partington รองศาสตราจารย์ด้านภาษาศาสตร์ แห่งคณะรัฐศาสตร์ มหาวิทยาลัยคาเมรีโน ประเทศอิตาลี ได้พิจารณาความสัมพันธ์ระหว่างทำเนียบขาวกับสื่อ โดยการวิเคราะห์ทางภาษาศาสตร์จากคลังข้อความ ซึ่งประกอบไปด้วยสรุปคำแถลงข่าวประมาณ 50 ชิ้นในช่วงปีท้าย ๆ ของการดำรงตำแหน่งของประธานาธิบดีคลินตัน โดยหัวข้อนั้น มีตั้งแต่เรื่องในโคโซโวไปจนถึงเรื่องความสัมพันธ์คลินตัน-เลวินสกี งานชิ้นนี้ไม่เหมือนใครก่อนหน้า ตรงที่มันทำให้เราเห็นว่า เราสามารถนำเทคโนโลยี concordance (การแสดงคำที่กำหนดในบริบทต่าง ๆ) และหลักฐานทางภาษาศาสตร์อย่างละเอียด มาใช้ในการศึกษาคุณสมบัติต่าง ๆ ของวาทกรรม ทั้งในตัวบทและกลวิธีการสื่อสารของผู้พูดได้-อย่างไร Tony McEnery and Andrew Wilson, Corpus Linguistics, Edinburgh…

  • BEST: Word Segmentation

    BEST จัด “แข่งขัน” ซอฟต์แวร์ตัดคำไทย ประโยชน์ของการแข่งขันนี้ นอกจากด้านซอฟต์แวร์แล้ว ยังมีเรื่องของการพัฒนาคลังข้อความ (corpus) และค้นหาความหมายของสิ่งที่เรียกว่า “คำ” ในภาษาไทยอีกด้วย ครั้งนี้เล่นที่คำ ครั้งหน้าทีมงานวางแผนจะเล่นที่ “ประโยค” อย่างไรก็ดี ผมว่าที่อาจารย์วิโรจน์ อักษรจุฬาฯ เสนอว่า ภาษาไทยอาจจะไม่มีประโยคก็ได้ ก็ดูเข้าที สนใจดูได้ที่บทความ Wirote Aroonmanakun, Thoughts on Word and Sentence Segmentation in Thai, SNLP 2007. technorati tags: computational linguistic, word segmentation, Thai language

  • Understanding Language Understanding

    ชอบชื่อหนังสือเล่มนี้จริง ๆ – -“ Understanding Language Understanding: Computational Models of Reading Ashwin Ram and Kenneth Moorman (Ed.) MIT Press, Cambridge, MA, 1999. ISBN 0-262-18192-4 | Google Book Search technorati tags: books, computational linguistics, language understanding, creative reading

  • YAiTRON XSLT stylesheets

    YAiTRON is a cleaned-up version of NECTEC’s LEXiTRON in a well-formed XML format, created by Vee Satayamas. Its tag names are TEI-inspired. YAiTRON wiki – about YAiTRON and its XML structure data: data-20070709 – release notes extracted data: extracted-20070709 – word list extracted from data-20070709, one part-of-speech per each file scripts: scripts-20070926 – scripts and…

  • GATE experiment at KIND Lab, SIIT

    งานทดลองสุดสัปดาห์ที่ผ่านมา เมื่อวานทดลองเขียน wrapper ครอบ Stanford Log-linear Part-Of-Speech Tagger ให้กลายเป็นปลั๊กอินสำหรับใช้กับ GATE (หลังจากตั้งท่ามานาน) pipeline ในรูป มี 3 Processing Resources คือ tokensier, splitter และ tagger tokensier คือ net.siit.gate.DictionaryBasedTokeniser เป็นตัวตัดคำธรรมดา ๆ ใช้พจนานุกรม1 และออกแบบให้ตัดได้คำที่ยาวที่สุด (longest-matching) ทำงานกับ AnnotationSet ของ GATE โดยตรง — จะสร้าง AnnotationSet ชื่อ “Token” ขึ้นมา splitter คือ ANNIE Sentence Splitter เป็นตัวแบ่งประโยค โดยใช้กฎ (ภาษา JAPE เป็นลักษณะ regular expression over annotation)…

  • Stanford SemLab

    Stanford’s Computational Semantics Laboratory technorati tags: computational semantics

  • connectives

    คำเชื่อม* ซึ่ง และ โดย ถ้า แต่ หรือ คือ เช่น เมื่อ เพื่อ หาก เนื่องจาก แล้ว ทำให้ เพราะ ว่า สำหรับ ได้แก่ ดังนั้น โดยเฉพาะ อย่างไรก็ตาม พวกนี้เอามาแบ่ง ประโยค (sentence) / อนุพากย์ (clause) ได้มั๊ย ? * คำทั้งหมดได้มาจากคลังข้อความเอกสารด้านการแพทย์ที่แลบ เรียงตามความถี่ที่ปรากฎ – คำแรกพบบ่อยกว่าคำสุดท้ายเกือบ 11 เท่า technorati tags: Thai, KIND, connectives

  • (re)CAPTCHA = Human OCR

    ไอเดียโคตรดีอ่ะ CNN: Web registration tool digitizes books But von Ahn said OCR doesn’t always work on text that is older, faded or distorted. In those cases, often the only way to digitize the works is to manually type them into a computer. Von Ahn is working with the Internet Archive, which runs several book-scanning projects,…

  • Celebrating Karen Spärck Jones

    Karen Spärck Jones (26 August 1935 – 4 April 2007) คาเรน สปาร์ค โจนส์ (26 สิงหาคม ค.ศ. 1935 – 4 เมษายน ค.ศ. 2007) คาเรน สปาร์ค โจนส์ เสียชีวิตแล้วเมื่อเช้าวันที่ 4 เมษายน ค.ศ. 2007 ขณะอายุ 71 ปี เธอเป็นศาสตราจารย์กิตติคุณด้านคอมพิวเตอร์และสารสนเทศ ที่มหาวิทยาลัยเคมบริดจ์ และเป็นหนึ่งในผู้หญิงที่โดดเด่นที่สุดในวิทยาการคอมพิวเตอร์ สมาชิกบริติชอคาเดมี ที่ซึ่งเธอเคยเป็นรองประธานระหว่าง ค.ศ. 2000 ถึง 2002 คาเรนมีเส้นทางอาชีพที่ยาวนาน เพียบพร้อม และโดดเด่น ในฐานะผู้บุกเบิกสาขาวิทยาการสารสนเทศ นับตั้งแต่วันแรก ๆ ของวงการคอมพิวเตอร์จวบจนปัจจุบัน เธอทำงานวิจัยเรื่องการประมวลผลภาษาและสารสนเทศอัตโนมัติตั้งแต่ช่วงปลายคริสตทศวรรษ 1950 เมื่อเธอร่วมเขียนบทความวิชาการชิ้นหนึ่งลงตีพิมพ์ในหนึ่งในคอลเลคชั่นก่อตั้งที่ยิ่งใหญ่ของสาขาวิชา นั่นคือ Proceedings of…