Open Source HTML Parsers in Java

Open Source HTML Parsers in Java, a list by Java-Source.net

NekoHTML, HTML Parser, Java HTML Parser, Jericho HTML Parser, JTidy, TagSoup, HotSax

แถม Nux เหมือนจะทำอะไรได้หลายอย่างสารพัดเกี่ยวกับ XML (เป็น wrapper ของตัวอื่น ๆ ด้วย)

Looking for Structures

keywords: semi-structured text, unstructured text, structure recognition

Island Grammars / Parsing

Water of uncertainty. Islands of certainty.

Island Grammars and Island Parsing
+ Document Structure Parsing

Updated: 21 Feb 2005

Parsing Parsing

Natural Language Parsing (course) @ Uni Heidelberg

The Program Transformation Wiki

ANTLR tutorial @ The University of Birmingham (+ many other Java-related tutorials)

Parsing books: by Dick Grune
Modern Compiler Design,
Parsing Techniques – A Practical Guide,
Parsing Techniques – 2nd Edition

Formalism / Tools

Project Log Analyzer

คุณ pok เขียนถึงวิธีการประยุกต์ใช้ tag เพื่อการวิเคราะห์ log file เอาไว้

เขียนได้น่าอ่านมาก ละเอียด น่าสนใจ 🙂

Project Log Analyzer #1, #2

โดยมีการใช้ Common Digester มาช่วย parse xml file, และ ANTLR ในการ parse query

ขออนุญาตสมัครเป็นแฟนบล็อก 🙂