MTG – CLAM – IUA – CREATE

คราวที่แล้ว แนะนำ Music Technology Group (MTG) ที่ Universitat Pompeu Fabra (UPF) ไป

วันก่อน เข้าไปดูรายชื่อโครงการใน Google Summer of Code ก็ไปเจอชื่อมหาลัย UPF อีกรอบ คือโครงการ “CLAM ( at the Universitat Pompeu Fabra)”

CLAM เป็นไลบรารีสำหรับพัฒนางานด้านการวิเคราะห์ สังเคราะห์ และเปลี่ยนรูป สัญญาณเสียงและดนตรี (ภาษา C++ ; สัญญาอนุญาต GPL ; Windows, GNU/Linux, Mac OS X) เขาว่าทุำกอย่างเป็นวัตถุ (object) หมด แล้วก็ยืดหยุ่น ใช้งานได้หลากหลาย
kijjaz (myspace) สนป่าว? 😀

โครงการ CLAM นี้ พัฒนาโดย Institut Universitari de l’Audiovisual (IUA),
Universitat Pompeu Fabra (ร่วมกับ CREATE – Center for Research in Electronic Art Technology ที่ UC Santa Barbara)

สถาบัน IUA นี้เน้นการศึกษาและวิจัยด้านสื่อดิจิทัล โดยครอบคลุมทั้งด้าน ภาพ เสียง ดนตรี การโต้ตอบ ประสาทวิทยา การรับรู้ อารมณ์ ปัญญาประดิษฐ์ การทำเหมืองข้อมูลและเว็บ – เรียกว่ารอบด้านการสื่อสารล่ะ

ดุริยางคศิลป์ มหิดล, ดุริยางคศาสตร์ ศิลปากร สนใจมั่งป่าว 😀

Sound and Music Computing .org

technorati tags:

Celebrating Karen Spärck Jones

Karen Spärck Jones (26 August 1935 – 4 April 2007)

คาเรน สปาร์ค โจนส์ (26 สิงหาคม ค.ศ. 1935 – 4 เมษายน ค.ศ. 2007)

คาเรน สปาร์ค โจนส์ เสียชีวิตแล้วเมื่อเช้าวันที่ 4 เมษายน ค.ศ. 2007 ขณะอายุ 71 ปี เธอเป็นศาสตราจารย์กิตติคุณด้านคอมพิวเตอร์และสารสนเทศ ที่มหาวิทยาลัยเคมบริดจ์
และเป็นหนึ่งในผู้หญิงที่โดดเด่นที่สุดในวิทยาการคอมพิวเตอร์

สมาชิกบริติชอคาเดมี ที่ซึ่งเธอเคยเป็นรองประธานระหว่าง ค.ศ. 2000 ถึง 2002 คาเรนมีเส้นทางอาชีพที่ยาวนาน เพียบพร้อม และโดดเด่น ในฐานะผู้บุกเบิกสาขาวิทยาการสารสนเทศ นับตั้งแต่วันแรก ๆ ของวงการคอมพิวเตอร์จวบจนปัจจุบัน

เธอทำงานวิจัยเรื่องการประมวลผลภาษาและสารสนเทศอัตโนมัติตั้งแต่ช่วงปลายคริสตทศวรรษ 1950
เมื่อเธอร่วมเขียนบทความวิชาการชิ้นหนึ่งลงตีพิมพ์ในหนึ่งในคอลเลคชั่นก่อตั้งที่ยิ่งใหญ่ของสาขาวิชา นั่นคือ
Proceedings of the 1958 International Conference on Scientific Information in Washington, DC

เธอผลิตผลงานทางทฤษฎีที่โดดเด่นในสาขาการเรียกคืนสารสนเทศและการประมวลผลภาษาธรรมชาติ และได้ทำการทดลองจำนวนมากบนเค้าโครงทางทฤษฎีนี้ งานของเธอเป็นหนึ่งในงานที่ได้รับการอ้างถึงมากที่สุดในสาขา และมีอิทธิพลต่อนักวิจัยและนักปฏิบัติหมดทั้งรุ่น

คาเรนเข้ารับการรักษาโรคมะเร็งเมื่อ ค.ศ. 2002 และเกษียณอย่างเป็นทางการเมื่อ 30 กันยายน ค.ศ. 2002
แต่เธอยังคงมาทำงานที่ห้องปฏิบัติการคอมพิวเตอร์ จนกระทั่งสองสามสัปดาห์ก่อน

เธอได้รับรางวัลเกียรติยศหลายรางวัล ซึ่งรวมถึง ACL Lifetime Achievement Award ใน ค.ศ. 2004,
และใน ค.ศ. 2007 ก็ได้รับรางวัล British Computer Society (BCS) Lovelace Medal
และรางวัล Association for Computer Machinery (ACM) / AAAI Allen Newell Award

ในบทสัมภาษณ์เมื่อเร็ว ๆ นี้ เธอได้พูดถึงการที่เธอได้รับรางวัล Lovelace Medal:

“ฉันตกตะลึง ฉันดูที่รายชื่อผู้ได้รับรางวัลนี้คนก่อน ๆ และคิด: “ฉันมาทำอะไรในกลุ่มคนเหล่านี้?” แต่ฉันพอใจเป็นอย่างยิ่งที่ได้รู้ว่าฉันเป็นผู้หญิงคนแรกที่ได้รับมัน ฉันชื่นชมมันจริง ๆ

“ฉันคิดว่ามันเป็นเรื่องสำคัญที่จะให้มีผู้หญิงมากขึ้นในวิทยาการคอมพิวเตอร์ คำขวัญของฉันคือ: วิทยาการคอมพิวเตอร์นั้นสำคัญมากเกินกว่าที่จะปล่อยไว้กับผู้ชาย (Computing is too important to be left to men)”

“ฉันคิดว่าผู้หญิงนำมุมมองที่แตกต่างมาสู่วิทยาการคอมพิวเตอร์ พวกเธอครุ่นคิดมากกว่า และมีแนวโน้มน้อยกว่าที่จะตรงดิ่งไปเพื่อการแก้ปัญหาทางเทคนิค
ความเชื่อของฉันก็คือ ในทางสติปัญญาแล้ว วิทยาการคอมพิวเตอร์นั้นมีสเน่ห์น่าหลงใหล คุณกำลังพยายามสร้างสิ่งที่มันยังไม่มี”


คาเรนคือผู้คิดค้น IDF (inverted document frequency) ซึ่งเป็นความคิดที่พื้นฐานที่สุดอย่างหนึ่งของการเรียกคืนสารสนเทศ ศาสตร์สำคัญเบื้องหลังอินเทอร์เน็ตเสิร์ชเอนจิ้น

ดูผลงานบางส่วนของคาเรน ได้ที่ โฮมเพจของเธอ, DBLP, Scientific Commons

Obituary on The Times

[ ผ่าน natural language processing blog | ลิงก์ University of Cambridge ]

technorati tags:

Music Technology Group, Pompeu Fabra University

MTG กลุ่มเทคโนโลยีดนตรี มหาวิทยาลัย Pompeu Fabra บาร์เซโลนา สเปน

The Music Technology Group (MTG), with around 50 researchers and led
by Xavier Serra, is one of the world’s largest and most dynamic academic
research centers for music technology. Among other fields, the group has
gained reputation for Sound Synthesis, Music Information Retrieval, and
Interactive Music. The lab is located in a historic building right in
between the old town of Barcelona and the sea.

หัวข้อวิจัยตอนนี้ ก็อย่างเช่น:

  • การประมวลผลสัญญาณเสียงและดนตรี (เน้น spectral modeling)
  • การค้นคืนสารสนเทศดนตรี (เน้นการสกัดคุณลักษณะ)
  • ปฏิสัมพันธ์ระหว่างนักดนตรี-คอมพิวเตอร์ (เน้น non-standard interfaces สำหรับการควบคุมดนตรี)

มีตำแหน่งงานว่างอยู่ สนใจลองกดไปดู

หรือถ้าสนใจเรียน ก็มีทั้งตรี โท เอก ในสาขาเช่น:

  • Sonology
  • Sound and Music Computing
  • Information, Communication and Audiovisual Media Technologies
  • Cognitive Systems and Interactive Media
  • Music Composition and Technologies
  • Comunication and Digital Media

กลุ่ม MTG เป็นส่วนหนึ่งของ Institut Universitari de l’Audiovisual (IUA),
Universitat Pompeu Fabra ซึ่งเน้นการวิจัยด้านสื่อดิจิทัล โดยครอบคลุมทั้งด้าน ภาพ เสียง ดนตรี การโต้ตอบ ประสาทวิทยา การรับรู้ อารมณ์ ปัญญาประดิษฐ์ การทำเหมืองข้อมูลและเว็บ

นอกจากเทคโนโลยี จะเชื่อมไปยังสังคมศาสตร์แล้ว มนุษยศาสตร์ก็เป็นอีกด้าน
สุดท้ายเทคโนโลยีคอมพิวเตอร์ ก็จะกลายเป็นเหมือนเชือกผูกรองเท้า

technorati tags:
,
,

Google n-gram are belong to YOU

กูเกิล แจกโมเดล n-gram
ซึ่้งกูเกิลใช้ในงานวิจัยต่าง ๆ เช่น การแปลภาษาอัตโนมัติ การแก้ตัวสะกดอัตโนมัติ การสกัดสารสนเทศ ฯลฯ
โดยโมเดลนี้สร้างจากคำมากกว่า 1 ล้านล้านคำ โดยจะแจกจ่ายผ่าน LDC ในรูปของ DVD 6 แผ่น

LDC นี่ เป็นหน่วยงานที่ทำงานด้านข้อมูลภาษาศาสตร์ พวกคลังข้อความ (corpus) ข้อมูลที่แจกจ่ายโดย LDC มีหลายประเภท บางประเภทต้องเป็นสมาชิก (เสียเงินค่าสมาชิกแพงอยู่) จึงจะเรียกดูได้ บางประเภทซื้อแยกต่างหากได้โดยไม่ต้องเป็นสมาชิก บางประเภทก็ฟรี — แต่กรณี DVD 6 แผ่นนี่ ยังไงคงต้องเสียค่าส่งแน่ ๆ

Google Research Blog announced:

… we decided to share this enormous dataset with everyone. We processed 1,011,582,453,213 words of running text and are publishing the counts for all 1,146,580,664 five-word sequences that appear at least 40 times. There are 13,653,070 unique words, after discarding words that appear less than 200 times.

Watch for an announcement at the LDC, who will be distributing it soon, and then order your set of 6 DVDs.

ใครอยากจะลอง เชิญได้เลย! 😛

via information retrieval

tags:
|
|
|

information & language blogs

+1 paper:
Less is more: probabilistic models for retrieving fewer relevant documents (pdf)
by Harr Chen & David R. Karger, MIT CSAIL

tags:
|
|
|

Book list

หนังสือที่อยากได้ตอนนี้

Mind Hacks — เห็นมาจากบล็อกของพี่ฮุ้ย น่าสนใจดี

On Intelligence — เล่มนี้ก็เหมือนกัน

Holub on Patterns — อ่านผ่านๆ มาในร้านหนังสือ เป็นเล่มแรกเกี่ยวกับ Design Patterns ที่ผมอ่านรู้เรื่อง 😛

The Geometry of Information Retrieval (C.J. van Rijsbergen) — เกี่ยวกับเรื่อง IR เคยอ่านงานของอาจารย์คนนี้มาบ้างแล้ว (จริงๆ ตอนสมัครเรียนเมื่อสองปีที่แล้ว ก็จะสมัครไปที่นี่ (U of Glasgow) แต่เค้าบอกให้เรียนเอกไปเลย .. แต่เราไม่มั่นใจพอ ขอเรียนโทก่อนละกัน) น่าสนใจมาก ก่อนกลับมานี่ (ประมาณวันที่ 20 มกรา) เคยเห็นมีอยู่หนึ่งเล่มที่ศูนย์หนังสือจุฬา สยาม ใครสนใจลองไปหาเปิดๆ อ่านดูได้ ราคาขายของศูนย์หนังสือจุฬา ประมาณ 3,000 บาท .. -_-“

Designing Usable Electronic Text (Andrew Dillon) — เกี่ยวกับพวก HCI และ Natural Language Generation เปิดผ่านๆ แล้ว ก็น่าสนใจเหมือนกัน ไว้ทำงานมีตังค์ก่อน จะซื้อเก็บไว้ คิดว่าคงได้ใช้บ้างล่ะ

Text to Speech Synthesis: New Paradigms and Advances — ถึงแม้จะทำเรื่องข้อความเป็นหลัก ไม่ได้ทำเรื่องเสียงพูด แต่เห็นเล่มนี้แล้วก็อยากได้ คงไม่ได้เอามาอ่านเองหรอก (อาจจะดูๆ บ้าง) กะว่าจะซื้อให้คนอื่นน่ะ เลยจดๆ ไว้ก่อน ทีมที่เขียนมาจาก USC IMSC เป็นศูนย์วิจัยเกี่ยวกะเรื่องสื่อต่างๆ รวมทั้งเสียงพูดด้วย

Word Sense Disambiguation: Combining Knowledge Sources for Sense Resolution (Mark Stevenson) — อันนี้ก็ตามชื่อหนังสือเลย วีร์ก็น่าจะสนใจ

แต่ก็ นะ ไอ้ที่มีอยู่ ไม่รู้เมื่อไหร่จะอ่านหมด .. ทำไงดี -_-“

(ถ้าซื้อหมดนี่ จนแน่ๆ)

ตลกดี ไม้เอก + Java

จะเข้าเว็บ java.sun.com แต่ขี้เกียจพิมพ์จัดๆ
ก็เลยพิมพ์แค่ java ลงในช่อง search box ของ Firefox
กะว่ามันโผล่เป็นลิงก์แรกชัวร์ๆ แล้วจะกดเข้าไปดูต่อ

ปรากฏว่า Google โชว์แต่เว็บภาษาไทยเต็มไปหมด
เราก็ เอ้ย เดี๋ยวนี้ Google มันรู้ว่าเราเป็นคนไทย เลยโชว์แต่เว็บไทยให้ดูเลยเหรอ
อะไรมันจะเก่งขนาดนั้น

ปรากฏว่าไม่ใช่แฮะ

ดันพิมพ์ไม่ดีเอง
ไปพิมพ์ ่java
คือตอนพิมพ์ ไปกด ไม้เอก ก่อนที่จะกดตัว j
(ยังไม่ทันสลับภาษากลับ – สองตัวนี้อยู่ปุ่มเดียวกัน)

ผลลัพธ์มันเลยออกมามีแต่เว็บไทย
ก็คนชาติอื่นเค้าคงไม่พิมพ์ไม้เอกกันหรอก

และส่วนใหญ่ก็เป็นพวกเว็บบอร์ดด้วยน่ะ
แบบว่าพิมพ์ผิดกันทั้งบาง
ได้ 4 หน้าเชียวนะ (ประมาณ 57 เอกสาร)

นี่แค่ที่อยู่บนเน็ตและ Google หาเจอ
ไหนจะที่หาไม่เจอ หรือไม่ได้ออนไลน์อีก
เพียบแหง

sequence checking, normalization, spelling checking พวกนี้ก็สำคัญแฮะ

อีเมล อีเมล์ อี-เมล เวบ เว็บ เว็ป เค้ก เค็ก สาทร สาธร ช็อคโกเลต ช็อกโกแลต

นึกในหัวอย่างเดียวกัน แต่ใช้สัญลักษณ์ในการสื่อสารไม่ตรงกัน
คนนึงพิมพ์ใส่อย่าง อีกคนพิมพ์หาอีกอย่าง

หาไม่เจอหรอก

ใครทำเรื่อง information retrieval/extraction หรือ lexical chain, coreference resolution พวกนี้ ก็เอาไปคิดต่อกันเองนะครับ 😉