SUMMaR: Combining Linguistics and Statistics for Text Summarization

We describe a text summarization system that moves beyond standard approaches by using a hybrid approach of linguistic and statistical analysis and by employing text-sort-specific knowledge of document structure and phrases indicating importance. The system is highly modular and entirely XML-based so that different components can be combined easily.

Stede, Manfred, Heike Bieler, Stefanie Dipper, and Arthit Suriyawongkul (2006). SUMMaR: Combining Linguistics and Statistics for Text Summarization. In Proceedings of the 17th European Conference on Artificial Intelligence (ECAI-06), pp 827-828. Riva del Garda, Italy. [PDF]

SUMMaR งานจากปี 2006 ตอนอยู่พอตสดัม เดี๋ยวนี้ทำไม่เป็นแล้วล่ะ ตอนนั้นที่ทำเป็นประมาณ ดูโครงสร้างของเอกสาร หาโซนว่าตรงไหนน่าจะพูดถึงอะไร เอาตรงนี้มารวมกับสถิติคำ โครงการนี้เป็นส่วนหนึ่งของโครงการใหญ่ที่มีพาร์ตเนอร์จากภาคอุตสาหกรรมด้วย เป็นพวกสำนักพิมพ์ หนังสือพิมพ์

ตัวอย่างที่เอามาใช้ในชิ้นนี้ เป็นรีวิวหนัง เลือกเอา Good Bye Lenin! มาใส่ในโปสเตอร์อธิบายงาน :p

เมื่อก่อนแล็บชื่อ Applied Computational Linguistics Lab ตอนนี้เปลี่ยนเป็น Applied Computational Linguistics Discourse Research Lab ละ (ชื่อยาวมาก)

YAiTRON XSLT stylesheets

YAiTRON is a cleaned-up version of NECTEC’s LEXiTRON in a well-formed XML format, created by Vee Satayamas. Its tag names are TEI-inspired.

technorati tags:
,
,
,
,

OOXML Advertorial — NoOOXML

OOXML ทำเนียน

วันนี้เจอโฆษณา “Open XML” ใน ฐานเศรษฐกิจ ฉบับวันที่ 30 ส.ค. – 1 ก.ย. 2550 หน้า 34 (เซคชั่น “ตลาด-ตลาดภูมิภาค”)

หน้าตาทำเหมือนเป็นบทความ ขึ้นหัวใหญ่ว่า

“ธุรกิจไทย คนไทย มีทางเลือกหรือไม่ในเวทีระดับโลก
ประเทศไทยควรโหวตรับมาตรฐานการจัดเก็บเอกสารใหม่หรือไม่…”

ในนั้นมียกคำพูดจากบุคคลในวงการไอทีต่าง ๆ
เช่นจาก คุณฟูเกียรติ จุลนวล ผู้จัดการฝ่ายกลยุทธ์และแพลตฟอร์ม บริษัท ไมโครซอฟท์ (ประเทศไทย) จำกัด
คุณสมเกียรติ อึ้งอารี ประธานกรรมการบริหาร บริษัท ซีเนียร์ คอม จำกัด นายกสมาคมอุตสาหกรรมซอฟต์แวร์ไทย (ATSI)
คุณสุวิภา วรรณสาธพ ผู้อำนวยการเขตอุตสาหกรรมซอฟต์แวร์ประเทศไทย (ซอฟต์แวร์พาร์ค)

ตรงกลาง ๆ “บทความ” ตอนหนึ่งเขียนว่า

“ที่สำคัญ การโหวตครั้งนี้เป็นการทำให้ภาษาไทยได้เข้าไปเป็นหนึ่งในมาตรฐานโลก ซึ่งหากต่อไปจะมีการพัฒนาแอพพลิเคชั่นอะไรขึ้นมาแล้ว ภาษาไทยก็จะเป็นหนึ่งภาษาที่ถูกนำไปพิจารณาด้วย แม้ว่าจะมีผู้ใช้เฉพาะในประเทศไทยเท่านั้น”

… จริงหรือไม่ครับ ?
(แต่เป็นการใช้ภาษาที่ดูดีทีเดียว เขียนแบบให้ความหวังมากในที่แรก จะมีภาษาไทยแน่ ๆ … แต่ในตอนสุดท้ายก็ทิ้งระยะความรับผิดชอบแบบนิ่ม ๆ .. จะถูกนำไปพิจารณาเท่านั้นแหละนะ ไม่ได้สัญญาอะไรมากกว่านี้)

อีกตอนหนึ่งเขียนว่า

“วันนี้เรากำลังมีทางเลือกในการที่จะมีอีกมาตรฐานที่ช่วยในการจัดเก็บเอกสารไว้ใช้งาน ประเทศไทยอาจจะไม่จำเป็นต้องรับรองให้ Open XML เป็นมาตรฐาน ISO ก็ได้ แต่ถามว่า วันนี้เรามีมาตรฐานที่เหมาะสมที่ช่วยในการจัดกับเอกสารที่เรามีใช้งานอยู่แล้วในองค์กร รวมถึงมาตรฐานที่ช่วยให้เอกสารของเราสามารถทำงานร่วมกับระบบงานต่าง ๆ ที่มีใช้งานอยู่แล้วในองค์กร”

อ่านโดยรวมทั้งหมดแล้ว จะเน้นกลุ่มองค์กรที่ใช้งานไมโครซอฟท์ออฟฟิศอยู่แล้ว และสร้างความไม่แน่ใจเกิดขึ้นว่า ถ้า Open XML ไม่ได้เป็นมาตรฐาน ISO แล้วเอกสารทั้งหมดของพวกเขา จะทำงานกับระบบอื่น ๆ ในโลกไม่ได้

ก็ติดตามตรวจสอบกันไปครับ ใครพูดจริงเท็จ พูดครึ่งเดียว พูดบิดเบือน …

แล้ว สมอ. ของไทย จะเชื่อใคร โหวตให้ใคร เพื่อเห็นแก่ประโยชน์ของใคร … ก็ดูกันไป

พวกเราจะไปมีส่วนร่วมอะไรได้ไหม ??


ลองอ่าน รวมความเห็น OOXML จากหลายฝ่าย ที่ Blognone

ถ้าใครพิจารณาแล้ว ไม่สนับสนุนการมีอีกมาตรฐาน (ตอนนี้ ISO มีมาตรฐานการจัดเก็บเอกสารอยู่แล้ว ชื่อว่า OpenDocument)
ก็ไปลงชื่อคัดค้านกัน ที่ No OOXML (ในนั้นมีเหตุผลให้อ่านเป็นข้อ ๆ เลย ลองอ่านดู)


(เลือกรูปอื่น ๆ ไปแปะเว็บ ได้จาก NoOOXML Banners)

technorati tags:
,
,
,

Thailand’s Economic and Social Data in XML

ข้อมูลเศรษฐกิจและสังคม ในรูปแบบ XML
โดย สำนักงานคณะกรรมการพัฒนาการเศรษฐกิจและสังคมแห่งชาติ (สคช.)

ตอนนี้มีข้อมูลอยู่ 3 หมวด

เยี่ยม 🙂

tags:
|
|
|
|

Google n-gram are belong to YOU

กูเกิล แจกโมเดล n-gram
ซึ่้งกูเกิลใช้ในงานวิจัยต่าง ๆ เช่น การแปลภาษาอัตโนมัติ การแก้ตัวสะกดอัตโนมัติ การสกัดสารสนเทศ ฯลฯ
โดยโมเดลนี้สร้างจากคำมากกว่า 1 ล้านล้านคำ โดยจะแจกจ่ายผ่าน LDC ในรูปของ DVD 6 แผ่น

LDC นี่ เป็นหน่วยงานที่ทำงานด้านข้อมูลภาษาศาสตร์ พวกคลังข้อความ (corpus) ข้อมูลที่แจกจ่ายโดย LDC มีหลายประเภท บางประเภทต้องเป็นสมาชิก (เสียเงินค่าสมาชิกแพงอยู่) จึงจะเรียกดูได้ บางประเภทซื้อแยกต่างหากได้โดยไม่ต้องเป็นสมาชิก บางประเภทก็ฟรี — แต่กรณี DVD 6 แผ่นนี่ ยังไงคงต้องเสียค่าส่งแน่ ๆ

Google Research Blog announced:

… we decided to share this enormous dataset with everyone. We processed 1,011,582,453,213 words of running text and are publishing the counts for all 1,146,580,664 five-word sequences that appear at least 40 times. There are 13,653,070 unique words, after discarding words that appear less than 200 times.

Watch for an announcement at the LDC, who will be distributing it soon, and then order your set of 6 DVDs.

ใครอยากจะลอง เชิญได้เลย! 😛

via information retrieval

tags:
|
|
|

Data Interchange Format in Emergency

Information chaos is the last thing we need in the middle of a chaos.

Tsunamis, tornados, volcano eruptions, earthquakes, mudflow, landslides, wildfire, flood, avalanche, … we never know what next. — Be prepared.

บ้านเราปีที่แล้วมีสึนามิ ถัดมาไม่นานที่สหรัฐมีคาทรินา อินเดียมีแผ่นดินถล่ม อินโดแผ่นดินไหวภูเขาไฟระเบิด น้ำท่วมใหญ่ที่เชค และสด ๆ ร้อน ๆ น้ำท่วมโคลนถล่มแถบภาคเหนือตอนล่าง ภัยธรรมชาติ (หรือจะรวมก่อการร้ายเข้าไปด้วยก็ได้) พวกนี้ป้องกันไม่ได้ จะทำได้เพียงเตือนภัยล่วงหน้าก่อนเกิดเพื่อลดการสูญเสียชีวิต และเตรียมระบบเพื่อให้การช่วยเหลือหลังเกิดเหตุการณ์ จากประสบการณ์ที่ผ่านมาเมื่อสึนามิที่ผ่านมา เราพบว่าการแลกเปลี่ยนแบ่งปันข้อมูลระหว่างหน่วยงานบรรเทาภัย เป็นไปอย่างยากลำบาก หรือเป็นไปไม่ได้เลย ทำให้การช่วยเหลือเป็นไปอย่างมีประสิทธิภาพน้อยกว่าที่ศักยภาพจริงจะทำได้ ควรถึงเวลาที่เราจะคิดถึง มาตรฐานสำหรับแลกเปลี่ยนข้อมูลในเหตุการณ์ฉุกเฉิน/ภัยพิบัติ เสียที

Data interchange format for emergency and disaster response:

OpenCARE — [Open] Exchange for Collaborative Activities in Response to Emergencies โครงการนำโดยผู้มีประสบการณ์จากเหตุการณ์สึนามิที่ผ่านมา

tags: , , , , ,

Open Source HTML Parsers in Java

Open Source HTML Parsers in Java, a list by Java-Source.net

NekoHTML, HTML Parser, Java HTML Parser, Jericho HTML Parser, JTidy, TagSoup, HotSax

แถม Nux เหมือนจะทำอะไรได้หลายอย่างสารพัดเกี่ยวกับ XML (เป็น wrapper ของตัวอื่น ๆ ด้วย)

TIGER API 1.8 released

TIGER API is a library which allows Java programmers to easily access the structure of any corpus given as a TIGER-XML file.

oeze, one of the authors of TIGER API, has leave a message to us today:

BTW, Tiger API has moved. This is the new URL: TIGER API.

We have also included a section describing how to access corpora encoded in Penn Treebank format and other formats.

Thanks, oeze ! 🙂

link: http://tigerapi.org

REXML Nodes and Elements

REXML, a Ruby-style XML toolkit

What’s the difference between results from code (1) and (2) below ?
(element is an XML element)

Code (1), use Element#elements :


element.elements.each do |e|
 puts e.inspect
end

Code (2), use Element#to_a :


element.to_a.each do |e|
 puts e.inspect
end

Update: We can actually use just element.each .. no .to_a requied — thanks to P’Pok for this

Code (2) will give us texts, elements (as well as other nodes).
Where code (1) will give us only elements.

If our input is:


<p><b>bold</b> text</p>

Code (1) will give:


<b> ... </>

While code (2) will give:


<b> ... </>
" text"

This tiny difference already wasted me hours, shamed 🙁
I was thought that text is a kind of element, … that’s plain wrong,
both text and element are kinds of node !

For several REXML tutorials/examples I’ve found, where I copied and pasted codes from for my quick-n-dirty-self-education, all of them show only the use of Element#elements but not Element#to_a.

This is probably because all of them only deal with a data-oriented XML, where a use of ‘mix content’ is rare (and indeed not recommended).
But that’s no longer true for document/text-oriented XML — for example, XHTML.

If you going to process a XML with mix content, beware of #elements.

Correct me if I do anything wrong here.
REXML veteran? Share! 😉


Tutorials:
REXML Home |
XML.com |
developerWorks
API docs