Tag: information retrieval

  • MTG – CLAM – IUA – CREATE

    คราวที่แล้ว แนะนำ Music Technology Group (MTG) ที่ Universitat Pompeu Fabra (UPF) ไป วันก่อน เข้าไปดูรายชื่อโครงการใน Google Summer of Code ก็ไปเจอชื่อมหาลัย UPF อีกรอบ คือโครงการ “CLAM ( at the Universitat Pompeu Fabra)” CLAM เป็นไลบรารีสำหรับพัฒนางานด้านการวิเคราะห์ สังเคราะห์ และเปลี่ยนรูป สัญญาณเสียงและดนตรี (ภาษา C++ ; สัญญาอนุญาต GPL ; Windows, GNU/Linux, Mac OS X) เขาว่าทุำกอย่างเป็นวัตถุ (object) หมด แล้วก็ยืดหยุ่น ใช้งานได้หลากหลาย — kijjaz (myspace) สนป่าว? 😀…

  • Celebrating Karen Spärck Jones

    Karen Spärck Jones (26 August 1935 – 4 April 2007) คาเรน สปาร์ค โจนส์ (26 สิงหาคม ค.ศ. 1935 – 4 เมษายน ค.ศ. 2007) คาเรน สปาร์ค โจนส์ เสียชีวิตแล้วเมื่อเช้าวันที่ 4 เมษายน ค.ศ. 2007 ขณะอายุ 71 ปี เธอเป็นศาสตราจารย์กิตติคุณด้านคอมพิวเตอร์และสารสนเทศ ที่มหาวิทยาลัยเคมบริดจ์ และเป็นหนึ่งในผู้หญิงที่โดดเด่นที่สุดในวิทยาการคอมพิวเตอร์ สมาชิกบริติชอคาเดมี ที่ซึ่งเธอเคยเป็นรองประธานระหว่าง ค.ศ. 2000 ถึง 2002 คาเรนมีเส้นทางอาชีพที่ยาวนาน เพียบพร้อม และโดดเด่น ในฐานะผู้บุกเบิกสาขาวิทยาการสารสนเทศ นับตั้งแต่วันแรก ๆ ของวงการคอมพิวเตอร์จวบจนปัจจุบัน เธอทำงานวิจัยเรื่องการประมวลผลภาษาและสารสนเทศอัตโนมัติตั้งแต่ช่วงปลายคริสตทศวรรษ 1950 เมื่อเธอร่วมเขียนบทความวิชาการชิ้นหนึ่งลงตีพิมพ์ในหนึ่งในคอลเลคชั่นก่อตั้งที่ยิ่งใหญ่ของสาขาวิชา นั่นคือ Proceedings of…

  • Music Technology Group, Pompeu Fabra University

    MTG กลุ่มเทคโนโลยีดนตรี มหาวิทยาลัย Pompeu Fabra บาร์เซโลนา สเปน The Music Technology Group (MTG), with around 50 researchers and led by Xavier Serra, is one of the world’s largest and most dynamic academic research centers for music technology. Among other fields, the group has gained reputation for Sound Synthesis, Music Information Retrieval, and Interactive Music. The lab…

  • Google n-gram are belong to YOU

    กูเกิล แจกโมเดล n-gram ซึ่้งกูเกิลใช้ในงานวิจัยต่าง ๆ เช่น การแปลภาษาอัตโนมัติ การแก้ตัวสะกดอัตโนมัติ การสกัดสารสนเทศ ฯลฯ โดยโมเดลนี้สร้างจากคำมากกว่า 1 ล้านล้านคำ โดยจะแจกจ่ายผ่าน LDC ในรูปของ DVD 6 แผ่น LDC นี่ เป็นหน่วยงานที่ทำงานด้านข้อมูลภาษาศาสตร์ พวกคลังข้อความ (corpus) ข้อมูลที่แจกจ่ายโดย LDC มีหลายประเภท บางประเภทต้องเป็นสมาชิก (เสียเงินค่าสมาชิกแพงอยู่) จึงจะเรียกดูได้ บางประเภทซื้อแยกต่างหากได้โดยไม่ต้องเป็นสมาชิก บางประเภทก็ฟรี — แต่กรณี DVD 6 แผ่นนี่ ยังไงคงต้องเสียค่าส่งแน่ ๆ Google Research Blog announced: “All Our N-gram are Belong to You” … we decided to share…

  • information & language blogs

    Stat. Graphics & Data Vis. — statistical graphics, data visualization, data analysis, user interfaces Data Mining — data mining, data visualization, data analysis Natural Language Processing — NLP, computational linguistics, machine learning Information Retrieval — IR, machine learning, NLP +1 paper: Less is more: probabilistic models for retrieving fewer relevant documents (pdf) by Harr Chen…

  • Lucene Index

    Lucene index file format Lucene Tutorial | Advanced Text Indexing with Lucene Luke – accesses, diagnoses, & modifies already existing Lucene indexes. Lius – Lucene Index Update and search, make indexes from PDF, HTML, MS Office, OpenOffice.org, .., files จดเก็บ: CyberNeko HTML Parser

  • Latent semantic analysis

    Latent semantic analysis (LSA) / Latent semantic indexing (LSI) & Vectorial semantics

  • QA System – References

    Information Extraction and Question-Answering Systems: Foundations and methods – References — from DFKI Edinburgh Question-Answering Reading Group (Fall 2002) Courses and Slides Related to Question Answering — from AnswerBus Question-Answering Systems: AnswerBus (multilingual) | START

  • Book list

    หนังสือที่อยากได้ตอนนี้ Mind Hacks — เห็นมาจากบล็อกของพี่ฮุ้ย น่าสนใจดี On Intelligence — เล่มนี้ก็เหมือนกัน Holub on Patterns — อ่านผ่านๆ มาในร้านหนังสือ เป็นเล่มแรกเกี่ยวกับ Design Patterns ที่ผมอ่านรู้เรื่อง 😛 The Geometry of Information Retrieval (C.J. van Rijsbergen) — เกี่ยวกับเรื่อง IR เคยอ่านงานของอาจารย์คนนี้มาบ้างแล้ว (จริงๆ ตอนสมัครเรียนเมื่อสองปีที่แล้ว ก็จะสมัครไปที่นี่ (U of Glasgow) แต่เค้าบอกให้เรียนเอกไปเลย .. แต่เราไม่มั่นใจพอ ขอเรียนโทก่อนละกัน) น่าสนใจมาก ก่อนกลับมานี่ (ประมาณวันที่ 20 มกรา) เคยเห็นมีอยู่หนึ่งเล่มที่ศูนย์หนังสือจุฬา สยาม ใครสนใจลองไปหาเปิดๆ อ่านดูได้ ราคาขายของศูนย์หนังสือจุฬา ประมาณ 3,000…

  • ตลกดี ไม้เอก + Java

    จะเข้าเว็บ java.sun.com แต่ขี้เกียจพิมพ์จัดๆ ก็เลยพิมพ์แค่ java ลงในช่อง search box ของ Firefox กะว่ามันโผล่เป็นลิงก์แรกชัวร์ๆ แล้วจะกดเข้าไปดูต่อ ปรากฏว่า Google โชว์แต่เว็บภาษาไทยเต็มไปหมด เราก็ เอ้ย เดี๋ยวนี้ Google มันรู้ว่าเราเป็นคนไทย เลยโชว์แต่เว็บไทยให้ดูเลยเหรอ อะไรมันจะเก่งขนาดนั้น ปรากฏว่าไม่ใช่แฮะ ดันพิมพ์ไม่ดีเอง ไปพิมพ์ ่java คือตอนพิมพ์ ไปกด ไม้เอก ก่อนที่จะกดตัว j (ยังไม่ทันสลับภาษากลับ – สองตัวนี้อยู่ปุ่มเดียวกัน) ผลลัพธ์มันเลยออกมามีแต่เว็บไทย ก็คนชาติอื่นเค้าคงไม่พิมพ์ไม้เอกกันหรอก และส่วนใหญ่ก็เป็นพวกเว็บบอร์ดด้วยน่ะ แบบว่าพิมพ์ผิดกันทั้งบาง ได้ 4 หน้าเชียวนะ (ประมาณ 57 เอกสาร) นี่แค่ที่อยู่บนเน็ตและ Google หาเจอ ไหนจะที่หาไม่เจอ หรือไม่ได้ออนไลน์อีก เพียบแหง sequence checking, normalization, spelling checking…