Tag: XML

  • PDF to XML

    Papers Converting From PDF To XML & MS Word: Avoiding The Pitfalls – Part 1, Part 2 Converting PDF to XML with Publication-Specific Profiles Extracting metadata from PDF file (view in HTML) A Comparative Analysis Framework for Semi-structured Government Regulations (very long, not entirely related to PDF. It is actually a PhD dissertation about legal…

  • John Cowan’s RELAX NG slides

    RELAX NG: DTDs on Warp Drive A 126-slides presentation on RELAX NG, an alternative XML schema language. Formats: OpenOffice.org, PowerPoint, PDF.

  • DTD, W3C XML Schema, RELAX NG, Schematron, Examplotron

    What is your choice? Why?

  • Unicode, XML, TEI, Ω and Scholarly Documents

    โดย Yannis HARALAMBOUS เสนอที่ 16th International Unicode Conference, Amsterdam, 2000 สองตัวแรกส่วนใหญ่คงเคยได้ยินกันมาบ้างแล้ว อยากรู้รายละเอียด ลองอ่าน Unicode, XML TEI คือ Text Encoding Initiative เป็นคล้ายๆ “ข้อแนะนำ” สำหรับการจัดเก็บข้อมูลในคอมพิวเตอร์ ก่อนหน้านี้ใช้ SGML ตอนนี้เริ่มค่อยๆ ปรับเปลี่ยนมาใช้ XML ละ หมายเหตุ: SGML, XML เป็นเพียงแค่ markup language หรือพูดอีกอย่างคือ เป็นเพียงแค่เครื่องมือในการเข้ารหัสเท่านั้น แต่ไม่ได้บอกว่า จะเข้ารหัสยังไง ตัวอย่างเช่น สมมติมี โคลงสี่สุภาพอยู่บทนึง จะเก็บยังไง เก็บทั้งบทรวมกันเป็นก้อนเดียวโดยใส่เครื่องหมายแบ่งบรรทัดลงไปด้วย หรือว่าแยกเป็นสี่ส่วน แต่ละส่วนมีโครงสร้างเหมือนกัน แล้วให้แต่ละส่วนเก็บแต่ละบาท (โคลงสี่สุภาพ 1 บท มี 4 บาท) แล้วจากนั้นค่อยใส่สี่บาทนี้เข้าไปในตัวบทอีกที แล้วเอาตัวบทไปใส่ในตัวโคลงอีกที…

  • Project Log Analyzer

    คุณ pok เขียนถึงวิธีการประยุกต์ใช้ tag เพื่อการวิเคราะห์ log file เอาไว้ เขียนได้น่าอ่านมาก ละเอียด น่าสนใจ 🙂 Project Log Analyzer #1, #2 โดยมีการใช้ Common Digester มาช่วย parse xml file, และ ANTLR ในการ parse query ขออนุญาตสมัครเป็นแฟนบล็อก 🙂

  • Open source XML editors examined

    เก็บไว้ก่อน เดี๋ยวอ่าน นะจ๊ะ [ link ] tags: XML, opensource

  • Vote YES for OpenDocument

    open source เปิดรหัสโปรแกรมว่าทำงานอย่างไรอย่างเดียวไม่พอ ต้องเปิดเผยด้วยว่าเก็บข้อมูลอย่างไร OpenOffice.org 1.0 format –> Open Office XML –> OpenDocument format OpenOffice.org 1.0 format นั้นเป็นรูปแบบการจัดเก็บ ที่โปรแกรม OpenOffice.org รุ่น 1.x ทั้งหลายใช้ รวมไปถึง ปลาดาวออฟฟิศ ออฟฟิศทะเล และ StarOffice ด้วย ต่อมา ทาง Sun Microsystems ก็ได้เสนอรูปแบบนี้ไปยัง OASIS เพื่อพัฒนาเป็นมาตรฐาน โดยได้รับการสนับสนุนจากบริษัทและองค์กรอื่นๆ ในอุตสาหกรรม และเปลี่ยนชื่อเป็น Open Office XML และเมื่อเร็วๆ นี้ รูปแบบนี้ก็ได้ถูกเสนอต่อไปยัง ISO เพื่อพิจารณาเป็นมาตรฐานสากล และเปลี่ยนชื่อเป็น OpenDocument OpenDocument เป็นรูปแบบข้อมูลสำหรับการจัดเก็บเอกสารในสำนักงาน โดยมีพื้นฐานอยู่บนมาตรฐานสากลอย่าง XML และมาตรฐานอื่นๆ เช่น…

  • CLaRK for Corpus building

    อันนี้อีกตัว / another one XML-based, don’t know much in details yet. Will read. Have at least one real world applicatoin, BulTreeBank, the Bulgarian HPSG TreeBank.

  • OpenOffice.org 2.0 will use OASIS Open Office XML Format

    โอเพนออฟฟิศดอทอ็อก 2.0 จะเปลี่ยนไปใช้ โอเพน ออฟฟิศ เอ็กซ์เอ็มแอล ฟอร์แมต (Open Office XML Format) ตามมาตรฐานของ โอเอซิส (OASIS) Below are the default file format names and extensions of the coming OpenOffice.org 2.0. Open Office Text [.oot] Open Office Text Template [.ott] Open Office Master Document [.oom] HTML Document Template [.oth] Open Office Spreadsheet [.oos] Open Office Spreadsheet Template [.ots]…

  • Penn Treebank in XML format

    Vee, you may interest in this one. No instant noodle here. Still have to work something out, but it shouldn’t be a difficult task. TIGERRegistry PTB -> TIGER XML filter, included in TIGERSearch, a treebank explorer package. TIGER API, Java lib for accessing corpus in TIGER XML format.

Exit mobile version