SUMMaR: Combining Linguistics and Statistics for Text Summarization

งานจากปี 2006 - We describe a text summarization system that moves beyond standard approaches by using a hybrid approach of linguistic and statistical analysis and by employing text-sort-specific knowledge of document structure and phrases indicating importance. The system is highly modular and entirely XML-based so that different components can be combined easily.


can we consider “quoting” as a grasp of the whole idea ? or as a grasp of distinguished points ?

if so, it may be interesting to look at a piece of text that being quoted quite a lot – can we use that to improve automatic summarization ?

การ “อ้างคำพูด” / “ยกคำพูด” เนี่ย ถือว่าเป็นการดึงใจความสำคัญออกมารึเปล่า ?

ถ้าใช่ ก็คือ คำพูดที่ยกมานั้น สำคัญ (อาจจะในแง่เป็นตัวแทนของคำพูดทั้งหมดได้ หรือว่าเป็นจุดที่ควรสังเกต)

Summarization for Search Engine

Talking about Document Clustering/Categorization/Classification, about ‘approach’ to aid user access to mountains of pages may be a Summarization.

Instead of just only page title, url, and few first (nonsense) paragraphs from the page.

Short summaries may help users to decide which pages are whattheywant and whattheydontwant.

นอกจากจะแบ่งกลุ่มเอกสารที่หามาได้ ให้หา(ต่อโดยผู้ใช้ว่าอันไหนจะเอา อันไหนไม่เอา)ง่ายๆ แล้ว