Punctual translation with punctuation marks

ความแตกต่างของคำแปลโดย Google Translate ที่เกิดจากการมีและไม่มีเครื่องหมายวรรคตอน วันนี้พบโดยบังเอิญ (2011.02.18):

  • “ถ่ายในห้อง (มีเครื่องหมายคำพูด) → “shot in the room.
  • ถ่ายในห้อง (ไม่มีเครื่องหมายคำพูด) → Taken in the room.

นี่อาจจะบอกได้ว่า Google Translate ใช้เครื่องหมายวรรคตอนในการคำนวณสถิติเพื่อใช้ในการแปลด้วย

เท่าที่เคยพบ งานทางด้านการประมวลผลภาษาธรรมชาติจำนวนมาก ไม่ค่อยสนใจเครื่องหมายวรรคตอนเท่าไหร่ (เว้นสาขา natural language generation และ discourse analysis) บางทีกรองทิ้งไปเลยก็มี

Say, Bilge and Akman, Varol (1997). Current Approaches to Punctuation in Computational Linguistics

Jones, Bernard (1996). What’s The Point? A (Computational) Theory of Punctuation

Jones, Bernard (1994). Exploring the role of punctuation in parsing natural language text

technorati tags:

Statistical Machine Translation lecture at Kasetsart University

บรรยาย: การแปลภาษาด้วยเครื่องด้วยวิธีทางสถิติ: อะไรที่เป็นไปได้ในวันนี้?

โดย ฟิลิปป์ เคิห์น มหาวิทยาลัยเอดินบะระ สก็อตแลนด์

วันจันทร์ที่ 18 ธันวาคม 2549 – 9:30-11:30 น.

ห้อง 204 ตึกวิศวกรรมคอมพิวเตอร์ (ตึก 15) มหาวิทยาลัยเกษตรศาสตร์ บางเขน


Lecture: Statistical Machine Translation: What is possible today?

by Philipp Koehn, University of Edinburgh, Scotland

Monday, December 18, 2006 – 9:30-11:30 am

Room 204, Computer Engineering Building (Building 15), Kasetsart University



Philipp will give an overview of the current state of the art and the research challenges in machine translation. Translating text from one language to another by computer is one of the oldest challenges in artificial intelligence research, but for many years machine translation (MT) has been considered a dirty word by many for failing to deliver. Today, with the use of novel methods, fast computers and access to large amounts of translated material, we are coming closer to a solution to this problem and it is now possible to build machine translation system within a few hours.

The statistical approach to machine translation provides a set of techniques for automatically learning translation knowledge from existing human translations (bilingual data), and applying that knowledge to translate previously-unseen sentences. When it was first introduced, statistical MT was far too slow and inaccurate to be useful — it was an interesting lab experiment. Now, statistical MT significantly outperforms other methods in many language pairs and domains, at speeds permitting commercial applications like foreign news broadcast translation.

Key issues addressed include:

  • What changes have occurred that now make this possible?
  • How good is the quality and what remains to be done?
  • How has use of phrasal and syntactic knowledge helped?
  • What are the major technical advances of the past few years, and known limitations?
  • What new techniques are now being applied to machine translation to improve quality even further?

Presenter Bio:

Philipp Koehn is a lecturer (Assistant Professor) at the University of Edinburgh. He received his PhD from the University of Southern California, where he was a research assistant at the Information Sciences Institute (ISI) from 1997 to 2003. He was a postdoctoral research associate at the Massachusetts Institute of Technology (MIT) in 2004, and joined the University of Edinburgh as a lecturer in 2005. His research centers on statistical machine translation, but he has also worked on speech in 1999 at AT&T Research Labs and text classification in 2000 at Whizbang Labs. Philipp is a co-founder of Getprice, a German price comparison Internet company, where he acted as CTO from 2000-2005.

technorati tags: 

TU-SIL machine translation system

Stephen Beale. 1992. “A new approach to machine translation: The TU-SIL translation system.” Journal of Language and Linguistics, Thammasat University, Vol. 10 No. 2

เพิ่งรู้ว่าเคยมีคนทำเรื่องประมาณนี้ที่สินสาดด้วย .. แต่จะไปหามาอ่านได้จากไหนอ่ะ ? เว็บมธ.นี่แม่ง *โคตร* ห่วย deadlink ตลอด เฮ้อ…