Tag: XML

  • SUMMaR: Combining Linguistics and Statistics for Text Summarization

    งานจากปี 2006 – We describe a text summarization system that moves beyond standard approaches by using a hybrid approach of linguistic and statistical analysis and by employing text-sort-specific knowledge of document structure and phrases indicating importance. The system is highly modular and entirely XML-based so that different components can be combined easily.

  • YAiTRON XSLT stylesheets

    YAiTRON is a cleaned-up version of NECTEC’s LEXiTRON in a well-formed XML format, created by Vee Satayamas. Its tag names are TEI-inspired. YAiTRON wiki – about YAiTRON and its XML structure data: data-20070709 – release notes extracted data: extracted-20070709 – word list extracted from data-20070709, one part-of-speech per each file scripts: scripts-20070926 – scripts and…

  • OOXML Advertorial — NoOOXML

    OOXML ทำเนียน วันนี้เจอโฆษณา “Open XML” ใน ฐานเศรษฐกิจ ฉบับวันที่ 30 ส.ค. – 1 ก.ย. 2550 หน้า 34 (เซคชั่น “ตลาด-ตลาดภูมิภาค”) หน้าตาทำเหมือนเป็นบทความ ขึ้นหัวใหญ่ว่า “ธุรกิจไทย คนไทย มีทางเลือกหรือไม่ในเวทีระดับโลก ประเทศไทยควรโหวตรับมาตรฐานการจัดเก็บเอกสารใหม่หรือไม่…” ในนั้นมียกคำพูดจากบุคคลในวงการไอทีต่าง ๆ เช่นจาก คุณฟูเกียรติ จุลนวล ผู้จัดการฝ่ายกลยุทธ์และแพลตฟอร์ม บริษัท ไมโครซอฟท์ (ประเทศไทย) จำกัด คุณสมเกียรติ อึ้งอารี ประธานกรรมการบริหาร บริษัท ซีเนียร์ คอม จำกัด นายกสมาคมอุตสาหกรรมซอฟต์แวร์ไทย (ATSI) คุณสุวิภา วรรณสาธพ ผู้อำนวยการเขตอุตสาหกรรมซอฟต์แวร์ประเทศไทย (ซอฟต์แวร์พาร์ค) ตรงกลาง ๆ “บทความ” ตอนหนึ่งเขียนว่า “ที่สำคัญ การโหวตครั้งนี้เป็นการทำให้ภาษาไทยได้เข้าไปเป็นหนึ่งในมาตรฐานโลก ซึ่งหากต่อไปจะมีการพัฒนาแอพพลิเคชั่นอะไรขึ้นมาแล้ว ภาษาไทยก็จะเป็นหนึ่งภาษาที่ถูกนำไปพิจารณาด้วย…

  • Thailand’s Economic and Social Data in XML

    ข้อมูลเศรษฐกิจและสังคม ในรูปแบบ XML โดย สำนักงานคณะกรรมการพัฒนาการเศรษฐกิจและสังคมแห่งชาติ (สคช.) ตอนนี้มีข้อมูลอยู่ 3 หมวด National Income GDP data 1997-2004 Gross Provincial Product (GPP) 2004 Quarterly Gross Domestic Product (QGDP) Q2/2006 เยี่ยม 🙂 tags: XML | data | economic | social | Thailand

  • Google n-gram are belong to YOU

    กูเกิล แจกโมเดล n-gram ซึ่้งกูเกิลใช้ในงานวิจัยต่าง ๆ เช่น การแปลภาษาอัตโนมัติ การแก้ตัวสะกดอัตโนมัติ การสกัดสารสนเทศ ฯลฯ โดยโมเดลนี้สร้างจากคำมากกว่า 1 ล้านล้านคำ โดยจะแจกจ่ายผ่าน LDC ในรูปของ DVD 6 แผ่น LDC นี่ เป็นหน่วยงานที่ทำงานด้านข้อมูลภาษาศาสตร์ พวกคลังข้อความ (corpus) ข้อมูลที่แจกจ่ายโดย LDC มีหลายประเภท บางประเภทต้องเป็นสมาชิก (เสียเงินค่าสมาชิกแพงอยู่) จึงจะเรียกดูได้ บางประเภทซื้อแยกต่างหากได้โดยไม่ต้องเป็นสมาชิก บางประเภทก็ฟรี — แต่กรณี DVD 6 แผ่นนี่ ยังไงคงต้องเสียค่าส่งแน่ ๆ Google Research Blog announced: “All Our N-gram are Belong to You” … we decided to share…

  • DITA – Darwin Information Typing Architecture

    The Darwin Information Typing Architecture (DITA) is an XML-based architecture for authoring, producing, and delivering technical information. — Wikipedia tags: DITA XML content

  • Data Interchange Format in Emergency

    Information chaos is the last thing we need in the middle of a chaos. Tsunamis, tornados, volcano eruptions, earthquakes, mudflow, landslides, wildfire, flood, avalanche, … we never know what next. — Be prepared. บ้านเราปีที่แล้วมีสึนามิ ถัดมาไม่นานที่สหรัฐมีคาทรินา อินเดียมีแผ่นดินถล่ม อินโดแผ่นดินไหวภูเขาไฟระเบิด น้ำท่วมใหญ่ที่เชค และสด ๆ ร้อน ๆ น้ำท่วมโคลนถล่มแถบภาคเหนือตอนล่าง ภัยธรรมชาติ (หรือจะรวมก่อการร้ายเข้าไปด้วยก็ได้) พวกนี้ป้องกันไม่ได้ จะทำได้เพียงเตือนภัยล่วงหน้าก่อนเกิดเพื่อลดการสูญเสียชีวิต และเตรียมระบบเพื่อให้การช่วยเหลือหลังเกิดเหตุการณ์ จากประสบการณ์ที่ผ่านมาเมื่อสึนามิที่ผ่านมา เราพบว่าการแลกเปลี่ยนแบ่งปันข้อมูลระหว่างหน่วยงานบรรเทาภัย เป็นไปอย่างยากลำบาก หรือเป็นไปไม่ได้เลย ทำให้การช่วยเหลือเป็นไปอย่างมีประสิทธิภาพน้อยกว่าที่ศักยภาพจริงจะทำได้ ควรถึงเวลาที่เราจะคิดถึง มาตรฐานสำหรับแลกเปลี่ยนข้อมูลในเหตุการณ์ฉุกเฉิน/ภัยพิบัติ…

  • Open Source HTML Parsers in Java

    Open Source HTML Parsers in Java, a list by Java-Source.net NekoHTML, HTML Parser, Java HTML Parser, Jericho HTML Parser, JTidy, TagSoup, HotSax แถม Nux เหมือนจะทำอะไรได้หลายอย่างสารพัดเกี่ยวกับ XML (เป็น wrapper ของตัวอื่น ๆ ด้วย)

  • TIGER API 1.8 released

    TIGER API is a library which allows Java programmers to easily access the structure of any corpus given as a TIGER-XML file. oeze, one of the authors of TIGER API, has leave a message to us today: BTW, Tiger API has moved. This is the new URL: TIGER API. We have also included a section…

  • REXML Nodes and Elements

    REXML, a Ruby-style XML toolkit What’s the difference between results from code (1) and (2) below ? (element is an XML element) Code (1), use Element#elements : element.elements.each do |e| puts e.inspect end Code (2), use Element#to_a : element.to_a.each do |e| puts e.inspect end Update: We can actually use just element.each .. no .to_a requied…