หลังจากเอา python-libthai ของวีร์มาใช้กับข้อมูลที่ได้มาจากเว็บ ก็พบปัญหาเรื่อง character encoding นิดหน่อย
Tag: character set
Time for Unicode ?
เราควรจะเปลี่ยนไปใช้รหัสข้อมูลอะไรดี ? สำหรับเอกสารภาษาไทยในโลกยุคอินเทอร์เน็ต
จะ Windows-874, TIS-620 หรือ ISO-8859-11 ก็คงไม่เพียงพอแล้ว สำหรับโลกยุคอินเทอร์เน็ตและสังคมพหุภาษา แม้แต่เอกสาร “ภาษาไทย” ในปัจจุบันก็ยังมีตัวอักษรละตินหรือสัญลักษณ์พิเศษต่าง ๆ แทรกอยู่มากมาย ซึ่งบางตัวก็ไม่ได้มีอยู่ทั้งใน Windows-874, TIS-620 และ ISO-8850-11
Encodings/Charsets in Java
Encoding, Canadian Mind Products’s Java Glossary
a very detailed resources on encoding/charset-related stuffs in Java ละเอียดมาก
List of supported encodings, how to convert them, guide to Readers, other classes/methods, etc.
Plus, Unicode in Java by Jason Orendorff
(เมื่อคืนทดลองใช้ iBATIS (ORM ตัวนึง) กับภาษาไทยใน MySQL ไม่เวิร์กแฮะ ฟิลด์ไหนที่เป็นภาษาไทย get ออกมาแล้วกลายเป็น null หมดเลย)
Character set detection in Java
jchardet — a Java port of Mozilla’s automatic charset detection algorithm.
Charset in MySQL 5
MySQL 5 – Connection Character Sets and Collations
มีปัญหา จะใช้ PEAR::MDB2 อ่านข้อความ utf-8 จาก MySQL (โพสต์ไว้ที่ Narisa.com) ปรากฏว่าข้อความ(ภาษาไทย, ภาษา non-Latin1)กลายเป็น ??? หมดเลย
หาในเน็ตอยู่นาน ปรากฏว่า ต้องเพิ่มคำสั่งนี้เข้าไปก่อนจะเริ่ม query SELECT
Charset Detectors
นาน ๆ จะโพสต์อะไรที่มีสาระที ต้องเก็บไว้หน่อย 😛
- Mozilla Charset Detectors
code: Mozilla, Java
document: A composite approach to language/encoding detection - Characters and encodings
เบื่อเป็นหวัด
ทดสอบ flickr
ถ่ายที่ท่าพระจันทร์ งานรับปริญญาเมื่อสองปีที่แล้ว (ปีที่ออยรับน่ะ)
ด้วย Lomo Supersampler (ถูกขโมยไปแล้ว พร้อมทรัพย์สินมีค่าหลายรายการ)
สรุปว่า flickr ไม่เวิร์กกับภาษาไทย (UTF-8) นะครับ