Talking about Document Clustering/Categorization/Classification, about ‘approach’ to aid user access to mountains of pages may be a Summarization.

Instead of just only page title, url, and few first (nonsense) paragraphs from the page.

Short summaries may help users to decide which pages are whattheywant and whattheydontwant.

นอกจากจะแบ่งกลุ่มเอกสารที่หามาได้ ให้หา(ต่อโดยผู้ใช้ว่าอันไหนจะเอา อันไหนไม่เอา)ง่ายๆ แล้ว

ถ้าเรามีเนื้อหาย่อๆ ของเอกสารแต่ละหน้า ก็น่าจะทำให้ผู้ใช้ตัดสินใจได้ง่ายขึ้น เร็วขึ้น

อ่านเปเปอร์ข้างล่าง ถ้าสนใจ:

For papers about Summarization for Search Engine, try starts from here:

Dragomir R. Radev, Weiguo Fan (2000), “Automatic summarization of search engine hit lists”.

CiteSeer? Hey! Citation graph is also another feature that we can use, .. have no idea about it yet.

จริงๆ การใช้หลักของ citation ในเปเปอร์ มันก็ช่วยบอกอะไรบางอย่างเกี่ยวกะ “ความสำคัญ” และ “ความเกี่ยวข้อง” ของเอกสารได้

ถ้าอ้างถึงกัน มันก็น่าจะเกี่ยวกัน และถ้าถูกอ้างถึงบ่อย ก็แสดงว่ามันน่าจะสำคัญ (ทำนอง PageRank เลย?)


