Tag: text processing

  • Web Character Simplification Chart 0.1 #opendream

    ก่อนจะประมวลผลข้อความ เราจำเป็นต้องทำความสะอาดข้อความเสียหน่อย ทั่ว ๆ ไปที่จำเป็นต้องทำ ก็เช่น แปลง new line (\r\n หรือ \n), หรือแปลงให้อยู่ในชุดอักขระ (character set) ที่โปรแกรมใน processing pipeline จะทำงานได้ เช่นแปลง ä เป็น ae หรือแปลง “ ” เป็น ” “, หรือการ normalize ลำดับอักขระ เช่น น.หนู+สระอำ+ไม้โท → น.หนู+ไม้โท+สระอำ, หรือไปถึงขั้นซับซ้อน อย่างแก้ตัวสะกด (กรณีเป็นงานลักษณะจดหมายเหตุ หรือ archival ก็อาจจำเป็นต้องเก็บตัว raw text ก่อนแปลงเอาไว้ด้วย เพราะการแปลงอาจจะ(และมักจะ)เป็น lossy คือแปลงไปแล้วแปลงกลับมาได้ไม่เหมือนเดิม เช่นตัวอย่างข้างบน ที่แปลง “ ” เป็น ” “)…

  • ช่วงช่วง หลินฮุ่ย เคอิโงะ เสื้อแดง เอ็นจีวี นักศึกษา แพนด้า SEO OCR

    OCRopus โอเพ่นซอร์สทูลคิตสำหรับงาน OCR รุ่น 0.4 ออกแล้วครับ น่าจะคอมไพล์อะไรต่าง ๆ ได้ง่ายขึ้นบนแพลตฟอร์มที่ไม่ใช่ GNU/Linux ครับ ดาวน์โหลดได้ทันทีที่เว็บไซต์ OCRopus (โอเพ่นซอร์ส Apache License 2.0) ที่หน้าเว็บ Course: OCRopus สอนการใช้งานและปรับแต่ง OCRopus มีวิธีเขียน Lua และ C++ เพื่อเรียกใช้ OCRopus ด้วย แม้ OCRopus จะรองรับการเพิ่มเติมภาษาใหม่ ๆ เข้าไปได้ แต่ก็ต้องลงแรงหน่อย ตอนนี้ยังใช้ไทยไม่ได้โดยทันที สำหรับคนที่มองหาตัวที่อ่านภาษาไทยได้ และไม่แพงนัก ลองหา ArnThai (อ่านไทย) มาทดสอบดู มีทั้งบนวินโดวส์และลีนุกซ์ (รุ่นบนลีนุกซ์เก่ากว่าหน่อย) ติดต่อเนคเทคได้ ถ้าสนใจนำไปใช้ ที่เคยถาม สามารถตกลงสัญญาอนุญาตได้หลายแบบ สำหรับตัวที่มีประสิทธิภาพดีกว่านั้นและมีความสามารถเพิ่มเติมอื่น ๆ ที่อ่านไทยได้ คือ ABBYY FindReader อ่าน…

  • Gmail’s smarter auto-responses

    กูเกิลแล็บส์มาอีกแล้ว คราวนี้เพิ่มพลังจีเมลด้วย “canned responses” หรือระบบตอบจดหมายอัตโนมัติ ที่เราตั้งล่วงหน้าได้ว่า ถ้ามีจดหมายที่มีคำสำคัญนี้ จากคนนั้น ให้ตอบไปว่ายังไง ประหยัดเวลาตอบอีเมลซ้ำ ๆ ซาก ๆ :p อย่างถ้ามีคำว่า “viagra” มาในเมล เราก็ตั้งให้ตอบกลับไปได้ว่า “Thanks. I do already have good sexes.” อะไรแบบนี้เป็นต้น :p technorati tags: e-mail, Gmail, canned responses

  • swath 0.3.4 Released

    โปรแกรมตัดคำ swath ออกรุ่น 0.3.4 แล้ว Swath 0.3.4 released. Swath (Smart Word Analysis for THai) is a word segmentation for Thai. Swath offers 3 algorithms: Longest Matching, Maximal Matching and Part-of-Speech Bigram. The program supports various file input format such as html, rtf, LaTeX as well as plain text. Changes from 0.3.1 (the most recent version…

  • Newline in GATE

    ใน GATE, ถ้าเราอยากรู้ว่า เอกสารที่เรากำลังทำงานอยู่เนี่ย มันใช้ อักขระขึ้นบรรทัดใหม่ (newline) แบบไหน ก็เรียกดูได้จากฟีเจอร์ที่ชื่อ “docNewLineType” โดย docNewLineType นี้ เป็น String มีค่าได้ 4 อย่าง: { “CR”, “LF”, “CRLF”, “LFCR” } CR คือ Carriage Return — ปัดแคร่(ไปซ้ายสุด) (\r ในหลายภาษาโปรแกรม), LF คือ Line Feed — เลื่อนบรรทัดใหม่ (\n) เพื่อขึ้นบรรทัดใหม่ เครือญาติ UNIX อย่าง Linux กับ Mac OS X ใช้ LF ตัวเดียว, ใน Mac OS (จนถึงรุ่น 9)…

  • Using dictionary with ICU4J BreakIterator

    การสร้างและเรียกใข้พจนานุกรมสำหรับตัดคำ ใน ICU4J จดวิธีการตัดคำด้วย DictionaryBasedBreakIterator ของ ICU4J และการสร้างพจนานุกรมตัดคำเอง (เฮ้! นี่คือ “จาวา” ขวัญอ่อน? รักสวยรักงาม? .. ระวังถูกงับมือ! เราเตือนคุณแล้วนะ :P) การสร้างไฟล์พจนานุกรมสำหรับตัดคำ ใช้โปรแกรม BuildDictionaryFile สร้างไฟล์พจนานุกรม, วิธีใช้คือ: BuildDictionaryFile input [encoding] [output] [list] input = ข้อมูลเข้า ไฟล์พจนานุกรม เป็นไฟล์ชนิดข้อความ หนึ่งคำต่อหนึ่งบรรทัด encoding = รหัสตัวอักษรของไฟล์พจนานุกรม เช่น TIS-620, UTF-8 (ถ้าไม่ใส่จะใช้ค่าปริยาย คือ UTF-8) output = ข้อมูลออก ผลลัพธ์ เป็นไฟล์ชนิดไบนารี (จะใช้เป็นอินพุตของคอนสตรัคเตอร์ของคลาส DictionaryBasedBreakIterator ต่อไป) list = ข้อมูลออก รายการคำที่ถูกบรรจุในพจนานุกรม (output)…

  • Character set detection in Java

    jchardet — a Java port of Mozilla’s automatic charset detection algorithm.

  • Open Source HTML Parsers in Java

    Open Source HTML Parsers in Java, a list by Java-Source.net NekoHTML, HTML Parser, Java HTML Parser, Jericho HTML Parser, JTidy, TagSoup, HotSax แถม Nux เหมือนจะทำอะไรได้หลายอย่างสารพัดเกี่ยวกับ XML (เป็น wrapper ของตัวอื่น ๆ ด้วย)

  • Looking for Structures

    keywords: semi-structured text, unstructured text, structure recognition Retrieving Hierarchical Text Structure from Typeset : Scientific Articles – a Prerequisite for E-Science Text Mining Indexing Real-World Data using Semi-Structured Documents Inferring Structure Information from Typography Dr. Rolf Brugger Modeling Documents for Structure Recognition Using Generalized N-Grams A DTD Extension for Document Structure Recognition Jedi: Extracting and…

  • Parsing Parsing

    Natural Language Parsing (course) @ Uni Heidelberg The Program Transformation Wiki ANTLR tutorial @ The University of Birmingham (+ many other Java-related tutorials) Parsing books: by Dick Grune Modern Compiler Design, Parsing Techniques – A Practical Guide, Parsing Techniques – 2nd Edition Formalism / Tools SDF – Modular Syntax Definition Formalism TXL – The TXL…