SUMMaR: Combining Linguistics and Statistics for Text Summarization

งานจากปี 2006 - We describe a text summarization system that moves beyond standard approaches by using a hybrid approach of linguistic and statistical analysis and by employing text-sort-specific knowledge of document structure and phrases indicating importance. The system is highly modular and entirely XML-based so that different components can be combined easily.

YAiTRON XSLT stylesheets

YAiTRON is a cleaned-up version of NECTEC’s LEXiTRON in a well-formed XML format, created by Vee Satayamas. Its tag names are TEI-inspired.

  • YAiTRON wiki – about YAiTRON and its XML structure
  • data: data-20070709release notes
  • extracted data: extracted-20070709 – word list extracted from data-20070709, one part-of-speech per each file
  • scripts: scripts-20070926 – scripts and XSLT stylesheets for YAiTRON data manipulation
  • OOXML Advertorial — NoOOXML

    OOXML ทำเนียน

    วันนี้เจอโฆษณา “Open XML” ใน ฐานเศรษฐกิจ ฉบับวันที่ 30 ส.ค. – 1 ก.ย. 2550 หน้า 34 (เซคชั่น “ตลาด-ตลาดภูมิภาค”)

    หน้าตาทำเหมือนเป็นบทความ ขึ้นหัวใหญ่ว่า

    “ธุรกิจไทย คนไทย มีทางเลือกหรือไม่ในเวทีระดับโลก
    ประเทศไทยควรโหวตรับมาตรฐานการจัดเก็บเอกสารใหม่หรือไม่…”
    read more

    Thailand’s Economic and Social Data in XML

    Google n-gram are belong to YOU

    กูเกิล แจกโมเดล n-gram
    ซึ่้งกูเกิลใช้ในงานวิจัยต่าง ๆ เช่น การแปลภาษาอัตโนมัติ การแก้ตัวสะกดอัตโนมัติ การสกัดสารสนเทศ ฯลฯ
    โดยโมเดลนี้สร้างจากคำมากกว่า 1 ล้านล้านคำ โดยจะแจกจ่ายผ่าน LDC ในรูปของ DVD 6 แผ่น read more

    Data Interchange Format in Emergency

    Information chaos is the last thing we need in the middle of a chaos.

    Tsunamis, tornados, volcano eruptions, earthquakes, mudflow, landslides, wildfire, flood, avalanche, … we never know what next. — Be prepared.

    บ้านเราปีที่แล้วมีสึนามิ ถัดมาไม่นานที่สหรัฐมีคาทรินา อินเดียมีแผ่นดินถล่ม อินโดแผ่นดินไหวภูเขาไฟระเบิด น้ำท่วมใหญ่ที่เชค และสด ๆ ร้อน ๆ น้ำท่วมโคลนถล่มแถบภาคเหนือตอนล่าง ภัยธรรมชาติ (หรือจะรวมก่อการร้ายเข้าไปด้วยก็ได้) พวกนี้ป้องกันไม่ได้ จะทำได้เพียงเตือนภัยล่วงหน้าก่อนเกิดเพื่อลดการสูญเสียชีวิต และเตรียมระบบเพื่อให้การช่วยเหลือหลังเกิดเหตุการณ์ จากประสบการณ์ที่ผ่านมาเมื่อสึนามิที่ผ่านมา เราพบว่าการแลกเปลี่ยนแบ่งปันข้อมูลระหว่างหน่วยงานบรรเทาภัย เป็นไปอย่างยากลำบาก หรือเป็นไปไม่ได้เลย ทำให้การช่วยเหลือเป็นไปอย่างมีประสิทธิภาพน้อยกว่าที่ศักยภาพจริงจะทำได้ ควรถึงเวลาที่เราจะคิดถึง มาตรฐานสำหรับแลกเปลี่ยนข้อมูลในเหตุการณ์ฉุกเฉิน/ภัยพิบัติ เสียที read more

    Open Source HTML Parsers in Java

    Open Source HTML Parsers in Java, a list by Java-Source.net

    NekoHTML, HTML Parser, Java HTML Parser, Jericho HTML Parser, JTidy, TagSoup, HotSax

    แถม Nux เหมือนจะทำอะไรได้หลายอย่างสารพัดเกี่ยวกับ XML (เป็น wrapper ของตัวอื่น ๆ ด้วย)

    TIGER API 1.8 released

    TIGER API is a library which allows Java programmers to easily access the structure of any corpus given as a TIGER-XML file.

    oeze, one of the authors of TIGER API, has leave a message to us today:

    BTW, Tiger API has moved. This is the new URL: TIGER API.

    We have also included a section describing how to access corpora encoded in Penn Treebank format and other formats.

    Thanks, oeze ! 🙂

    link: http://tigerapi.org

    REXML Nodes and Elements

    REXML, a Ruby-style XML toolkit

    What’s the difference between results from code (1) and (2) below ?
    (element is an XML element)

    Code (1), use Element#elements :

    
    element.elements.each do |e|
     puts e.inspect
    end
    

    Code (2), use Element#to_a :

    
    element.to_a.each do |e|
     puts e.inspect
    end
    

    Update: We can actually use just element.each .. no .to_a requied — thanks to P’Pok for this

    Code (2) will give us texts, elements (as well as other nodes).
    Where code (1) will give us only elements. read more