MySQL Thai full-text parser plug-in idea

MySQL 5.1 allows us to use a customized full-text parser.

poakpong ถามเรื่อง fulltext ในฐานข้อมูล MySQL ว่าเอาไว้ทำอะไร

ก็คือมันเอาไว้ระบุไว้ที่ช่องข้อมูล (field) ประเภทข้อความ (char, varchar, text) เพื่อบอกให้ MySQL มันทำดัชนี (index) สำหรับการค้นหาแบบ full-text search น่ะ read more

Corpus-Related Research

สาขาวิจัยที่สามารถใช้ประโยชน์จากคลังข้อความได้ เช่น
ภาษาศาสตร์เชิงคำนวณ วัฒนธรรมศึกษา และ การวิเคราะห์วาทกรรม

ใน Linguistics of Political Argument: The Spin-Doctor and the Wolf-Pack at the White House [gbook], Alan Partington รองศาสตราจารย์ด้านภาษาศาสตร์ แห่งคณะรัฐศาสตร์ มหาวิทยาลัยคาเมรีโน ประเทศอิตาลี ได้พิจารณาความสัมพันธ์ระหว่างทำเนียบขาวกับสื่อ โดยการวิเคราะห์ทางภาษาศาสตร์จากคลังข้อความ ซึ่งประกอบไปด้วยสรุปคำแถลงข่าวประมาณ 50 ชิ้นในช่วงปีท้าย ๆ ของการดำรงตำแหน่งของประธานาธิบดีคลินตัน โดยหัวข้อนั้น มีตั้งแต่เรื่องในโคโซโวไปจนถึงเรื่องความสัมพันธ์คลินตัน-เลวินสกี read more

BEST: Word Segmentation

BEST จัด “แข่งขัน” ซอฟต์แวร์ตัดคำไทย

ประโยชน์ของการแข่งขันนี้ นอกจากด้านซอฟต์แวร์แล้ว ยังมีเรื่องของการพัฒนาคลังข้อความ (corpus) และค้นหาความหมายของสิ่งที่เรียกว่า “คำ” ในภาษาไทยอีกด้วย read more

Understanding Language Understanding

ชอบชื่อหนังสือเล่มนี้จริง ๆ – -“

Understanding Language Understanding: Computational Models of Reading
Ashwin Ram and Kenneth Moorman (Ed.)
MIT Press, Cambridge, MA, 1999.
ISBN 0-262-18192-4 | Google Book Search

technorati tags:
,
,
,

YAiTRON XSLT stylesheets

YAiTRON is a cleaned-up version of NECTEC’s LEXiTRON in a well-formed XML format, created by Vee Satayamas. Its tag names are TEI-inspired.

  • YAiTRON wiki – about YAiTRON and its XML structure
  • data: data-20070709release notes
  • extracted data: extracted-20070709 – word list extracted from data-20070709, one part-of-speech per each file
  • scripts: scripts-20070926 – scripts and XSLT stylesheets for YAiTRON data manipulation
  • GATE experiment at KIND Lab, SIIT

    งานทดลองสุดสัปดาห์ที่ผ่านมา

    POS-tagged document in GATE

    เมื่อวานทดลองเขียน wrapper ครอบ Stanford Log-linear Part-Of-Speech Tagger ให้กลายเป็นปลั๊กอินสำหรับใช้กับ GATE (หลังจากตั้งท่ามานาน)

    pipeline ในรูป มี 3 Processing Resources คือ tokensier, splitter และ tagger

    tokensier คือ net.siit.gate.DictionaryBasedTokeniser เป็นตัวตัดคำธรรมดา ๆ ใช้พจนานุกรม1 และออกแบบให้ตัดได้คำที่ยาวที่สุด (longest-matching) ทำงานกับ AnnotationSet ของ GATE โดยตรง — จะสร้าง AnnotationSet ชื่อ “Token” ขึ้นมา read more

    connectives

    คำเชื่อม*

    ซึ่ง
    และ
    โดย
    ถ้า
    แต่
    หรือ
    คือ
    เช่น
    เมื่อ
    เพื่อ
    หาก
    เนื่องจาก
    แล้ว
    ทำให้
    เพราะ
    ว่า
    สำหรับ
    ได้แก่
    ดังนั้น
    โดยเฉพาะ
    อย่างไรก็ตาม
    

    พวกนี้เอามาแบ่ง ประโยค (sentence) / อนุพากย์ (clause) ได้มั๊ย ?

    * คำทั้งหมดได้มาจากคลังข้อความเอกสารด้านการแพทย์ที่แลบ เรียงตามความถี่ที่ปรากฎ – คำแรกพบบ่อยกว่าคำสุดท้ายเกือบ 11 เท่า read more

    (re)CAPTCHA = Human OCR

    ไอเดียโคตรดีอ่ะ

    CNN: Web registration tool digitizes books

    But von Ahn said OCR doesn’t always work on text that is older, faded or distorted. In those cases, often the only way to digitize the works is to manually type them into a computer.

    Von Ahn is working with the Internet Archive, which runs several book-scanning projects, to use CAPTCHAs for this instead. Internet Archive scans 12,000 books a month and sends von Ahn hundreds of thousands of files that are images that the computer doesn’t recognize. Those files are downloaded onto von Ahn’s server and split up into single words that can be used as CAPTCHAs at sites all over the Internet. read more

    Celebrating Karen Spärck Jones

    Karen Spärck Jones (26 August 1935 – 4 April 2007)

    คาเรน สปาร์ค โจนส์ (26 สิงหาคม ค.ศ. 1935 – 4 เมษายน ค.ศ. 2007)

    คาเรน สปาร์ค โจนส์ เสียชีวิตแล้วเมื่อเช้าวันที่ 4 เมษายน ค.ศ. 2007 ขณะอายุ 71 ปี เธอเป็นศาสตราจารย์กิตติคุณด้านคอมพิวเตอร์และสารสนเทศ ที่มหาวิทยาลัยเคมบริดจ์
    และเป็นหนึ่งในผู้หญิงที่โดดเด่นที่สุดในวิทยาการคอมพิวเตอร์ read more