SUMMaR: Combining Linguistics and Statistics for Text Summarization

We describe a text summarization system that moves beyond standard approaches by using a hybrid approach of linguistic and statistical analysis and by employing text-sort-specific knowledge of document structure and phrases indicating importance. The system is highly modular and entirely XML-based so that different components can be combined easily.

Stede, Manfred, Heike Bieler, Stefanie Dipper, and Arthit Suriyawongkul (2006). SUMMaR: Combining Linguistics and Statistics for Text Summarization. In Proceedings of the 17th European Conference on Artificial Intelligence (ECAI-06), pp 827-828. Riva del Garda, Italy. [PDF]

SUMMaR งานจากปี 2006 ตอนอยู่พอตสดัม เดี๋ยวนี้ทำไม่เป็นแล้วล่ะ ตอนนั้นที่ทำเป็นประมาณ ดูโครงสร้างของเอกสาร หาโซนว่าตรงไหนน่าจะพูดถึงอะไร เอาตรงนี้มารวมกับสถิติคำ โครงการนี้เป็นส่วนหนึ่งของโครงการใหญ่ที่มีพาร์ตเนอร์จากภาคอุตสาหกรรมด้วย เป็นพวกสำนักพิมพ์ หนังสือพิมพ์

ตัวอย่างที่เอามาใช้ในชิ้นนี้ เป็นรีวิวหนัง เลือกเอา Good Bye Lenin! มาใส่ในโปสเตอร์อธิบายงาน :p

เมื่อก่อนแล็บชื่อ Applied Computational Linguistics Lab ตอนนี้เปลี่ยนเป็น Applied Computational Linguistics Discourse Research Lab ละ (ชื่อยาวมาก)

quoting

can we consider “quoting” as a grasp of the whole idea ? or as a grasp of distinguished points ?

if so, it may be interesting to look at a piece of text that being quoted quite a lot – can we use that to improve automatic summarization ?

การ “อ้างคำพูด” / “ยกคำพูด” เนี่ย ถือว่าเป็นการดึงใจความสำคัญออกมารึเปล่า ?

ถ้าใช่ ก็คือ คำพูดที่ยกมานั้น สำคัญ (อาจจะในแง่เป็นตัวแทนของคำพูดทั้งหมดได้ หรือว่าเป็นจุดที่ควรสังเกต)

ถ้าถูกอ้างถึงบ่อย ๆ หลาย ๆ ที่ ก็แสดงว่าหลาย ๆ คน เห็นพ้องกัน ว่ามันสำคัญ

ถ้าอย่างนั้น ถ้าเรามีชุดตัวอย่าง การอ้างคำพูด พร้อมคำพูดเต็ม ๆ ทั้งหมด อยู่จำนวนนึง ก็เป็นไปได้ที่จะสอนให้คอมพิวเตอร์รู้ได้ว่า วรรคไหนน่าจะอ้างได้ วรรคไหนไม่น่าจะอ้างได้ … เอาไปเสริม การย่อความอัตโนมัติ ได้

hmm…

any idea ?

@ bact.gotoknow.org

Summarization for Search Engine

Talking about Document Clustering/Categorization/Classification, about ‘approach’ to aid user access to mountains of pages may be a Summarization.

Instead of just only page title, url, and few first (nonsense) paragraphs from the page.

Short summaries may help users to decide which pages are whattheywant and whattheydontwant.

นอกจากจะแบ่งกลุ่มเอกสารที่หามาได้ ให้หา(ต่อโดยผู้ใช้ว่าอันไหนจะเอา อันไหนไม่เอา)ง่ายๆ แล้ว

ถ้าเรามีเนื้อหาย่อๆ ของเอกสารแต่ละหน้า ก็น่าจะทำให้ผู้ใช้ตัดสินใจได้ง่ายขึ้น เร็วขึ้น

อ่านเปเปอร์ข้างล่าง ถ้าสนใจ:

For papers about Summarization for Search Engine, try starts from here:

Dragomir R. Radev, Weiguo Fan (2000), “Automatic summarization of search engine hit lists”.

CiteSeer? Hey! Citation graph is also another feature that we can use, .. have no idea about it yet.

จริงๆ การใช้หลักของ citation ในเปเปอร์ มันก็ช่วยบอกอะไรบางอย่างเกี่ยวกะ “ความสำคัญ” และ “ความเกี่ยวข้อง” ของเอกสารได้

ถ้าอ้างถึงกัน มันก็น่าจะเกี่ยวกัน และถ้าถูกอ้างถึงบ่อย ก็แสดงว่ามันน่าจะสำคัญ (ทำนอง PageRank เลย?)

?

จาก whatwewant.www