ความแตกต่างของคำแปลโดย Google Translate ที่เกิดจากการมีและไม่มีเครื่องหมายวรรคตอน วันนี้พบโดยบังเอิญ (2011.02.18):
- “ถ่ายในห้อง (มีเครื่องหมายคำพูด) → “shot in the room.
- ถ่ายในห้อง (ไม่มีเครื่องหมายคำพูด) → Taken in the room.
นี่อาจจะบอกได้ว่า Google Translate ใช้เครื่องหมายวรรคตอนในการคำนวณสถิติเพื่อใช้ในการแปลด้วย
เท่าที่เคยพบ งานทางด้านการประมวลผลภาษาธรรมชาติจำนวนมาก ไม่ค่อยสนใจเครื่องหมายวรรคตอนเท่าไหร่ (เว้นสาขา natural language generation และ discourse analysis) บางทีกรองทิ้งไปเลยก็มี
Say, Bilge and Akman, Varol (1997). Current Approaches to Punctuation in Computational Linguistics
Jones, Bernard (1996). What’s The Point? A (Computational) Theory of Punctuation
Jones, Bernard (1994). Exploring the role of punctuation in parsing natural language text
technorati tags:
machine translation,
punctuation marks,
NLP