Tag: character set

  • encode("UTF-8", "ignore") ข้าม ๆ เรื่องที่ทำไม่ได้ใน Python

    หลังจากเอา python-libthai ของวีร์มาใช้กับข้อมูลที่ได้มาจากเว็บ ก็พบปัญหาเรื่อง character encoding นิดหน่อย libthai นั้นปัจจุบันทำงานกับข้อมูลที่เป็นภาษาไทย 8 บิตอยู่ (น่าจะเป็น TIS-620) ตัว python-libthai เลยมีขั้นตอนการแปลงจากยูนิโค้ดไปเป็น 8 บิตก่อน ทีนี้ ปรากฏว่า encoder “CP874”, “TIS_620” และ “ISO8859_11” ของ Python มันดันแปลงตัวอักษรบางตัวไม่ได้ (เนื่องจากใน charset พวกนั้น มันไม่มีตัวอักษรดังกล่าว) โปรแกรมก็เลยจะตาย ถ้าไปเจออักษรพวกนั้น ก่อนตายมันจะโวยทำนองว่า : UnicodeEncodeError: ‘charmap’ codec can’t encode character u’\u200b’ in position 3560: character maps to <undefined> วิธีแก้แบบถึก ๆ คือ เอาหูไปนาเอาตาไปไร่ซะ ignore…

  • Time for Unicode ?

    เราควรจะเปลี่ยนไปใช้รหัสข้อมูลอะไรดี ? สำหรับเอกสารภาษาไทยในโลกยุคอินเทอร์เน็ต จะ Windows-874, TIS-620 หรือ ISO-8859-11 ก็คงไม่เพียงพอแล้ว สำหรับโลกยุคอินเทอร์เน็ตและสังคมพหุภาษา แม้แต่เอกสาร “ภาษาไทย” ในปัจจุบันก็ยังมีตัวอักษรละตินหรือสัญลักษณ์พิเศษต่าง ๆ แทรกอยู่มากมาย ซึ่งบางตัวก็ไม่ได้มีอยู่ทั้งใน Windows-874, TIS-620 และ ISO-8850-11 ได้เวลาเปลี่ยนมาใช้ Unicode ให้หมดรึยังนะ ? (สำหรับงานส่วนใหญ่ ที่ขนาดพื้นที่จัดเก็บข้อมูล/แบนด์วิธ ไม่ได้เป็นข้อจำกัดสำคัญอีกต่อไปแล้ว) ทั้งหน้าเว็บ ไฟล์เอกสาร metadata โค้ดโปรแกรมต่าง ๆ แต่จะใช้อะไรดี UTF-8 หรือ UTF-16 ? Windows NT ขึ้นไป, Windows CE, Java, .NET, Mac OS X และ Qt แพลตฟอร์มเหล่านี้ ใช้ UTF-16 เป็น native character…

  • Encodings/Charsets in Java

    Encoding, Canadian Mind Products’s Java Glossary a very detailed resources on encoding/charset-related stuffs in Java ละเอียดมาก List of supported encodings, how to convert them, guide to Readers, other classes/methods, etc. Plus, Unicode in Java by Jason Orendorff (เมื่อคืนทดลองใช้ iBATIS (ORM ตัวนึง) กับภาษาไทยใน MySQL ไม่เวิร์กแฮะ ฟิลด์ไหนที่เป็นภาษาไทย get ออกมาแล้วกลายเป็น null หมดเลย) technorati tags: characters set, encoding, Java

  • Character set detection in Java

    jchardet — a Java port of Mozilla’s automatic charset detection algorithm.

  • Charset in MySQL 5

    MySQL 5 – Connection Character Sets and Collations มีปัญหา จะใช้ PEAR::MDB2 อ่านข้อความ utf-8 จาก MySQL (โพสต์ไว้ที่ Narisa.com) ปรากฏว่าข้อความ(ภาษาไทย, ภาษา non-Latin1)กลายเป็น ??? หมดเลย หาในเน็ตอยู่นาน ปรากฏว่า ต้องเพิ่มคำสั่งนี้เข้าไปก่อนจะเริ่ม query SELECT $db->query(“SET CHARACTER SET utf8”); แต่ทำแบบนี้ก็กลายเป็นว่า ไม่รู้จะใช้ MDB2 (database abstraction layer) ไปทำไม เพราะ query นี้มันมีเฉพาะ MySQL ! 🙁 มีคนแจ้ง “บั๊ก” (ขอเพิ่มฟีเจอร์) ไว้แล้ว

  • Charset Detectors

    นาน ๆ จะโพสต์อะไรที่มีสาระที ต้องเก็บไว้หน่อย 😛 Mozilla Charset Detectors code: Mozilla, Java document: A composite approach to language/encoding detection Characters and encodings เบื่อเป็นหวัด

  • ทดสอบ flickr

    ถ่ายที่ท่าพระจันทร์ งานรับปริญญาเมื่อสองปีที่แล้ว (ปีที่ออยรับน่ะ) ด้วย Lomo Supersampler (ถูกขโมยไปแล้ว พร้อมทรัพย์สินมีค่าหลายรายการ) สรุปว่า flickr ไม่เวิร์กกับภาษาไทย (UTF-8) นะครับ

Exit mobile version