ความรู้มีเชื้อชาตินะ Thai Digital Collection … เป็นโครงการที่มุ่งสนับสนุนการศึกษา … สำหรับประชาชนคนไทยเท่านั้น … คำตอบที่ถูกต้องสำหรับคำถามต่อไปนี้: ประเทศไทยรวมเลือดเนื้อชาติเชื้อไทย ประโยคต่อไปคือ … เพื่อป้องกันชาวต่างชาติใช้งาน … แต่จำเป็นต้องทำเพื่อปกป้องผลงานของคนไทยให้คนไทยใช้งานเท่านั้น เอาน่ะ อย่างน้อยเขาก็มี ประชารัฐ ให้เลือก, ไม่ใช่ ราชอาณาจักร technorati tags: information access, Thai, protection
ขอยืนยันว่ารัฐบาลได้ให้ความสำคัญกับเรื่องสิทธิมนุษยชน เห็นได้จากนโยบายที่ให้มีการเรียนฟรีและเบี้ยยังชีพเป็นต้น — ชวนนท์ อินทรโกมาลย์สุต เลขานุการรัฐมนตรีว่าการกระทรวงต่างประเทศ, 2553 เจ๋งเป้ง Human Rights Watch ประเทศไทย: สิทธิมนุษยชนถดถอยอย่างหนักในปี 2552, บัวแก้วเตรียมแจงกรณีฮิวแมนไรท์วอทช์ ยันข้อมูลไม่ตรงความจริง technorati tags: human rights, failed, Thailand
Diller เสนอว่า ความแตกต่างของระดับภาษามีเรื่องความขัดแย้งทางวัฒนธรรมอยู่ด้วย ซึ่งสะท้อนออกมาในความขัดแย้งทางระบบการศึกษา การศึกษาและสอนภาษาตามแนว prescriptive (มีภาษาแบบแผนในอุดมคติที่ถูกต้อง) และ descriptive (ภาษาอย่างที่มันเป็น)
ความเดิมจากตอนที่แล้ว ทดลองสร้าง corpus reader ใน NLTK ตอนนี้แก้การ encode ให้ใช้ได้กับ nltk.Text() แล้ว (แทนที่จะเก็บเป็น unicode ก็เก็บเป็น utf-8 encoded str แทน) พร้อมกับเพิ่มตัวอ่านสำหรับคลังข้อความ BEST และ ORCHID ด้วย ตัวอ่านคลัง BEST ในรุ่น 0.3 นี้ เรียกดูเป็นหมวดได้ (ข่าว วรรณกรรม สารานุกรม บทความ) เรียกดูข้อมูลกำกับขอบเขตคำ (word boundaries) ได้ แต่ยังไม่รองรับ <NE>named-entities</NE> กับ <AB>คำย่อ</AB> เนื่องจาก BEST ไม่มีข้อมูลขอบเขตประโยค ตัวอ่านคลังจะสร้างขึ้นเอง โดยสมมติ \n เป็นขอบเขตประโยค ส่วนตัวอ่านคลัง ORCHID ในรุ่น 0.3 นี้ เรียกดูข้อมูลกำกับขอบเขตคำและชนิดคำ (Part-of-Speech)… [Read more…]
อยากจะลองเล่น NLTK กับข้อมูลภาษาไทยดู คิดไปคิดมา เอาข้อมูลจาก foosci.com มาลองดูละกัน เขาเปิดให้ใช้ เป็น ครีเอทีฟคอมมอนส์ แสดงที่มา-อนุญาตแบบเดียวกัน (CC by-sa) แต่ไม่อยากไปดึงมาเอง ขี้เกียจ เห็นว่าโครงการโรตี (อัลฟ่า) โดย Opendream ดูดบล็อกไทยจำนวนหนึ่งมาเก็บไว้ได้ระยะหนึ่งแล้ว เพื่อใช้ในการแนะนำลิงก์ (ดูตัวอย่างที่ keng.ws ที่ท้ายแต่ละโพสต์) ก็เลยเอาจากตรงนั้นมาใช้ละกัน ข้อมูลที่มีเป็น XML ที่ dump มาจาก MySQL เราก็เขียนสคริปต์ก๊อก ๆ แก๊ก ๆ ดึงเฉพาะที่อยากได้ออกมา ด้วย xml.etree.cElementTree (ตอนแรกใช้ ElementTree แตน ๆ แต่อืดเกิน เนื่องจากแฟ้มมันใหญ่) เอา HTML tags ออกด้วย Beautiful Soup แล้วตัดคำด้วย python-libthai ตัดประโยคแบบถึก ๆ ด้วย… [Read more…]
หลังจากเอา python-libthai ของวีร์มาใช้กับข้อมูลที่ได้มาจากเว็บ ก็พบปัญหาเรื่อง character encoding นิดหน่อย libthai นั้นปัจจุบันทำงานกับข้อมูลที่เป็นภาษาไทย 8 บิตอยู่ (น่าจะเป็น TIS-620) ตัว python-libthai เลยมีขั้นตอนการแปลงจากยูนิโค้ดไปเป็น 8 บิตก่อน ทีนี้ ปรากฏว่า encoder “CP874″, “TIS_620″ และ “ISO8859_11″ ของ Python มันดันแปลงตัวอักษรบางตัวไม่ได้ (เนื่องจากใน charset พวกนั้น มันไม่มีตัวอักษรดังกล่าว) โปรแกรมก็เลยจะตาย ถ้าไปเจออักษรพวกนั้น ก่อนตายมันจะโวยทำนองว่า : UnicodeEncodeError: 'charmap' codec can't encode character u'\u200b' in position 3560: character maps to <undefined> วิธีแก้แบบถึก ๆ คือ เอาหูไปนาเอาตาไปไร่ซะ ignore… [Read more…]
สัปดาห์ที่ผ่านมา ปรับปรุงคำแปลภาษาไทยบางส่วนของ WordPress 2.7 มีทั้งแก้ตัวสะกด เปลี่ยนคำ และปรับสำนวนแปล โดยเฉพาะในส่วนของ Dashboard ได้ส่งไปให้ผู้รับผิดชอบการแปลคือคุณ kazama แล้ว ดูรายละเอียดได้ที่เว็บบอร์ด WordThai (ทำในอัตรางานของ Opendream เพื่อใช้กับเว็บไซต์ครีเอทีฟคอมมอนส์ประเทศไทย http://cc.in.th/) อัปเดต: คุณ kazama แจ้งว่า WordPress 2.7.1 กำลังจะออกแล้ว ตัวคำแปลที่ผมเสนอไปนี้ อาจจะยังไม่ได้เข้าไปใน 2.7.1 เพราะต้องรอพิจารณาร่วมกันก่อน ว่าจะเอาอันไหนไม่เอาอันไหน technorati tags: WordPress, Thai, localization
เว็บไซต์เพื่อการรักษาสุขภาพและหาความรู้เกี่ยวกับโรคและอาการเจ็บป่วยต่าง ๆ ด้วยตัวเอง หมอชาวบ้าน http://doctor.or.th/ ตรวจสุขภาพด้วยต้วเอง, แพทย์ทางเลือก, โรคจากการทำงาน, แม่และเด็ก, … technorati tags: doctor, health, health care, Thai
(บล็อกไม่ค่อยได้อัป ก็แจ้งข่าวประชาสัมพันธ์ไปพลาง ๆ ก่อนนะครับ :p) สัมมนาบัณฑิตศึกษา ภาควิชาประวัติศาสตร์ ภาคการศึกษาปลาย 2551 สถานที่ ห้อง 708 อาคารบรมราชกุมารี คณะอักษรศาสตร์ จุฬาลงกรณ์มหาวิทยาลัย เวลา 13.00-16.00 น. จันทร์ 24 พฤศจิกายน 2551 “สถานะทางความรู้ของหนังสือการเมืองภายหลังการปฏิวัติ 2475 (2475-2484)” โดย ณัฐพล ใจจริง นิสิตระดับปริญญาเอก คณะรัฐศาสตร์ จุฬาลงกรณ์มหาวิทยาลัย จันทร์ 15 ธันวาคม 2551 “ประวัติศาสตร์และการเมืองของการฆ่าล้างเผ่าพันธุ์” โดย ประจักษ์ ก้องกีรติ อาจารย์คณะรัฐศาสตร์ มหาวิทยาลัยธรรมศาสตร์ จันทร์ 26 มกราคม 2552 “สถานะของพุทธศาสนาในสังคมไทย หลัง 14 ตุลา” โดย มโน เมตตานันโท เลาหวณิช ประธานมูลนิธิ ชีวันตารักษ์… [Read more…]
If you have any info/pointer you think it may (or may not) related, please do send them to me at arthit # gmail,com or just leave a comment below. Thank you. The finished work will be published online under Creative Commons License, for the benefits of everyone. ผมกำลังทำการบ้านอยู่ครับ จะทำเรื่องวัฒนธรรมแฮกเกอร์ในเมืองไทย ใครมีข้อมูลบอกมาเลยนะครับ ผมอาจจะขอสัมภาษณ์ด้วยใครอยู่ในยุคบีบีเอส ยุค ZzzThai, LTN, TLWG… [Read more…]
2010.09.26
0