งานจากปี 2006 - We describe a text summarization system that moves beyond standard approaches by using a hybrid approach of linguistic and statistical analysis and by employing text-sort-specific knowledge of document structure and phrases indicating importance. The system is highly modular and entirely XML-based so that different components can be combined easily.
Tag: XML
YAiTRON XSLT stylesheets
YAiTRON is a cleaned-up version of NECTEC’s LEXiTRON in a well-formed XML format, created by Vee Satayamas. Its tag names are TEI-inspired.
- see docs/readme.txt for usages
- you need an XSLT processor to run all *.xsl — try “xsltproc” (should be already available on GNU/Linux boxes)
- updates will be available at KIND wiki
OOXML Advertorial — NoOOXML
OOXML ทำเนียน
วันนี้เจอโฆษณา “Open XML” ใน ฐานเศรษฐกิจ ฉบับวันที่ 30 ส.ค. – 1 ก.ย. 2550 หน้า 34 (เซคชั่น “ตลาด-ตลาดภูมิภาค”)
หน้าตาทำเหมือนเป็นบทความ ขึ้นหัวใหญ่ว่า
“ธุรกิจไทย คนไทย มีทางเลือกหรือไม่ในเวทีระดับโลก
ประเทศไทยควรโหวตรับมาตรฐานการจัดเก็บเอกสารใหม่หรือไม่…”
Thailand’s Economic and Social Data in XML
ข้อมูลเศรษฐกิจและสังคม ในรูปแบบ XML
โดย สำนักงานคณะกรรมการพัฒนาการเศรษฐกิจและสังคมแห่งชาติ (สคช.)
ตอนนี้มีข้อมูลอยู่ 3 หมวด
National Income GDP data 1997-2004 Gross Provincial Product (GPP) 2004Quarterly Gross Domestic Product (QGDP) Q2/2006
Google n-gram are belong to YOU
กูเกิล แจกโมเดล n-gram
ซึ่้งกูเกิลใช้ในงานวิจัยต่าง ๆ เช่น การแปลภาษาอัตโนมัติ การแก้ตัวสะกดอัตโนมัติ การสกัดสารสนเทศ ฯลฯ
โดยโมเดลนี้สร้างจากคำมากกว่า 1 ล้านล้านคำ โดยจะแจกจ่ายผ่าน LDC ในรูปของ DVD 6 แผ่น
DITA – Darwin Information Typing Architecture
Data Interchange Format in Emergency
Information chaos is the last thing we need in the middle of a chaos.
Tsunamis, tornados, volcano eruptions, earthquakes, mudflow, landslides, wildfire, flood, avalanche, … we never know what next. — Be prepared.
บ้านเราปีที่แล้วมีสึนามิ ถัดมาไม่นานที่สหรัฐมีคาทรินา อินเดียมีแผ่นดินถล่ม อินโดแผ่นดินไหวภูเขาไฟระเบิด น้ำท่วมใหญ่ที่เชค และสด ๆ ร้อน ๆ น้ำท่วมโคลนถล่มแถบภาคเหนือตอนล่าง ภัยธรรมชาติ (หรือจะรวมก่อการร้ายเข้าไปด้วยก็ได้) พวกนี้ป้องกันไม่ได้ จะทำได้เพียงเตือนภัยล่วงหน้าก่อนเกิดเพื่อลดการสูญเสียชีวิต และเตรียมระบบเพื่อให้การช่วยเหลือหลังเกิดเหตุการณ์ จากประสบการณ์ที่ผ่านมาเมื่อสึนามิที่ผ่านมา เราพบว่าการแลกเปลี่ยนแบ่งปันข้อมูลระหว่างหน่วยงานบรรเทาภัย เป็นไปอย่างยากลำบาก หรือเป็นไปไม่ได้เลย ทำให้การช่วยเหลือเป็นไปอย่างมีประสิทธิภาพน้อยกว่าที่ศักยภาพจริงจะทำได้ ควรถึงเวลาที่เราจะคิดถึง มาตรฐานสำหรับแลกเปลี่ยนข้อมูลในเหตุการณ์ฉุกเฉิน/ภัยพิบัติ เสียที
Open Source HTML Parsers in Java
Open Source HTML Parsers in Java, a list by Java-Source.net
NekoHTML, HTML Parser, Java HTML Parser, Jericho HTML Parser, JTidy, TagSoup, HotSax
แถม Nux เหมือนจะทำอะไรได้หลายอย่างสารพัดเกี่ยวกับ XML (เป็น wrapper ของตัวอื่น ๆ ด้วย)
TIGER API 1.8 released
TIGER API is a library which allows Java programmers to easily access the structure of any corpus given as a TIGER-XML file.
oeze, one of the authors of TIGER API, has leave a message to us today:
BTW, Tiger API has moved. This is the new URL: TIGER API.
We have also included a section describing how to access corpora encoded in Penn Treebank format and other formats.
Thanks, oeze ! 🙂
link: http://tigerapi.org
REXML Nodes and Elements
REXML, a Ruby-style XML toolkit
What’s the difference between results from code (1) and (2) below ?
(element
is an XML element)
Code (1), use Element#elements :
element.elements.each do |e|
puts e.inspect
end
Code (2), use Element#to_a :
element.to_a.each do |e|
puts e.inspect
end
Update: We can actually use just element.each
.. no .to_a
requied — thanks to P’Pok for this
Code (2) will give us texts, elements (as well as other nodes).
Where code (1) will give us only elements.