-
NEED FOOD OR REST! Restaurant City Offline
at one restaurant in Bangkok … Everything is real. Offline is online. Get NEED FOOD OR REST! balloon: SVG, PNG, PDF technorati tags: Restaurant City, graphic, offline, online
-
change JRE/JDK default version in Mac OS X to Java SE 6 (1.6)
(Update 2009.05.16: add JAVA_JVM_VERSION setting) To build Nutch 1.0, you need JDK 1.6. Unless you’ll got [javac] class file has wrong version 50.0, should be 49.0 error message. For a system that has more than one version of JDK installed. It is possible to change to a desired version only at the time you need…
-
Another Sunny Day animation
I just love this song. It reminds me a long walk over a city I used to spent a good part of my life in. It was raining in the morning, but the sky went very clear after that. Found this animation in YouTube, and love it also. Thanks to this interconnectivity and hypertextuality. —…
-
The Condition of Free Culture
(เงื่อนไขสู่วัฒนธรรมเสรี) ขอคิดต่อจากพี่เทพ … เป็นไปได้ว่า เหตุหนึ่งที่ free culture หรือ วัฒนธรรมเสรี นั้นยังไม่แพร่หลายหรือไปไม่ถึงไหนในบางสังคม ก็เพราะ วัฒนธรรมในสังคมนั้น ๆ ไปกันไม่ได้กับแนวคิด เสรี เป็นพื้นฐานของวัฒนธรรมเสรี … เสรี = ไม่ต้องขออนุญาต คุณสมบัติหลักของ สัญญาอนุญาตแบบเปิด (open licenses) ก็คือ การผู้นำไปใช้ไม่ต้องขออนุญาตผู้ถือครองลิขสิทธิ์ เพียงผู้นำไปใช้ ตกลงยินดีที่จะทำตามเงื่อนไข ที่ทางผู้ถือครองลิขสิทธิ์ประกาศเอาไว้แล้ว-อย่างชัดแจ้ง-ต่อสาธารณะ เขาก็มีสิทธิจะใช้งานนั้นในทันที สิ่งนี้แปลว่า ถ้าคุณทำตามกติกาเดียวกัน ข้อตกลงเดียวกัน คุณก็จะได้รับการปฏิบัติเหมือน ๆ กัน แต่สิ่งง่าย ๆ แบบนั้น ก็อาจจะเป็นเรื่องลำบากในสังคมหลายมาตรฐาน ที่กติกาเดียวกันก็มักจะให้ผลกับคนกลุ่มต่าง ๆ ต่างกัน … เป็นไปได้เช่นกันว่า เหตุหนึ่งที่วัฒนธรรมเสรี นั้นถูกเข้าใจเพี้ยน ๆ ไป เช่นว่า เสรี ก็คือ ให้ใช้ฟรี แค่ขออนุญาตกันก็พอ นั้นก็เพราะ…
-
NLTK corpus readers for NECTEC BEST and ORCHID corpora
ความเดิมจากตอนที่แล้ว ทดลองสร้าง corpus reader ใน NLTK ตอนนี้แก้การ encode ให้ใช้ได้กับ nltk.Text() แล้ว (แทนที่จะเก็บเป็น unicode ก็เก็บเป็น utf-8 encoded str แทน) พร้อมกับเพิ่มตัวอ่านสำหรับคลังข้อความ BEST และ ORCHID ด้วย ตัวอ่านคลัง BEST ในรุ่น 0.3 นี้ เรียกดูเป็นหมวดได้ (ข่าว วรรณกรรม สารานุกรม บทความ) เรียกดูข้อมูลกำกับขอบเขตคำ (word boundaries) ได้ แต่ยังไม่รองรับ <NE>named-entities</NE> กับ <AB>คำย่อ</AB> เนื่องจาก BEST ไม่มีข้อมูลขอบเขตประโยค ตัวอ่านคลังจะสร้างขึ้นเอง โดยสมมติ \n เป็นขอบเขตประโยค ส่วนตัวอ่านคลัง ORCHID ในรุ่น 0.3 นี้ เรียกดูข้อมูลกำกับขอบเขตคำและชนิดคำ (Part-of-Speech)…
-
Anti-censorship website got blocked by Thai university and ISPs
Reports from Thai netizens to Thai Netizen Network‘s mailing list showing yet another attempt from Thai authorities to shut down any media that’s not on their side. Unsurprisingly (and that’s sad to say so), the time comes to Freedom Against Censorship Thailand (FACT). Two commercial ISPs and one university have been reported that they blocked…
-
playing around Thai blog corpus with NLTK
อยากจะลองเล่น NLTK กับข้อมูลภาษาไทยดู คิดไปคิดมา เอาข้อมูลจาก foosci.com มาลองดูละกัน เขาเปิดให้ใช้ เป็น ครีเอทีฟคอมมอนส์ แสดงที่มา-อนุญาตแบบเดียวกัน (CC by-sa) แต่ไม่อยากไปดึงมาเอง ขี้เกียจ เห็นว่าโครงการโรตี (อัลฟ่า) โดย Opendream ดูดบล็อกไทยจำนวนหนึ่งมาเก็บไว้ได้ระยะหนึ่งแล้ว เพื่อใช้ในการแนะนำลิงก์ (ดูตัวอย่างที่ keng.ws ที่ท้ายแต่ละโพสต์) ก็เลยเอาจากตรงนั้นมาใช้ละกัน ข้อมูลที่มีเป็น XML ที่ dump มาจาก MySQL เราก็เขียนสคริปต์ก๊อก ๆ แก๊ก ๆ ดึงเฉพาะที่อยากได้ออกมา ด้วย xml.etree.cElementTree (ตอนแรกใช้ ElementTree แตน ๆ แต่อืดเกิน เนื่องจากแฟ้มมันใหญ่) เอา HTML tags ออกด้วย Beautiful Soup แล้วตัดคำด้วย python-libthai ตัดประโยคแบบถึก ๆ ด้วย…
-
encode("UTF-8", "ignore") ข้าม ๆ เรื่องที่ทำไม่ได้ใน Python
หลังจากเอา python-libthai ของวีร์มาใช้กับข้อมูลที่ได้มาจากเว็บ ก็พบปัญหาเรื่อง character encoding นิดหน่อย libthai นั้นปัจจุบันทำงานกับข้อมูลที่เป็นภาษาไทย 8 บิตอยู่ (น่าจะเป็น TIS-620) ตัว python-libthai เลยมีขั้นตอนการแปลงจากยูนิโค้ดไปเป็น 8 บิตก่อน ทีนี้ ปรากฏว่า encoder “CP874”, “TIS_620” และ “ISO8859_11” ของ Python มันดันแปลงตัวอักษรบางตัวไม่ได้ (เนื่องจากใน charset พวกนั้น มันไม่มีตัวอักษรดังกล่าว) โปรแกรมก็เลยจะตาย ถ้าไปเจออักษรพวกนั้น ก่อนตายมันจะโวยทำนองว่า : UnicodeEncodeError: ‘charmap’ codec can’t encode character u’\u200b’ in position 3560: character maps to <undefined> วิธีแก้แบบถึก ๆ คือ เอาหูไปนาเอาตาไปไร่ซะ ignore…
-
modifying setup.py for libthai Python binding in MacPorts environment
(ปรับปรุง 2009.04.21 พบท่าง่ายกว่าเดิม ดูด้านล่าง) เอา libthai Python binding ที่วีร์ทำเอาไว้มาใช้บน Mac OS X + MacPorts ต้องดัดแปลง setup script นิดนึง เนื่องจากผมติดตั้ง libthai ผ่านทาง MacPorts (ด้วยคำสั่ง sudo port install libthai) ดังนั้นแฟ้มไลบรารี (libthai.a) กับแฟ้ม include (*.h) ทั้งหลาย จึงไม่ได้อยู่ในตำแหน่งปกติที่ apple-gcc จะวิ่งไปหา (ผมใช้ i686-apple-darwin9-gcc-4.0.1 ลองใช้ gcc-4.2, gcc-mp-4.4 ที่อยู่ในเครื่องแล้ว มันบอกไม่รู้จัก flag โน้น flag นี้ ผมก็เซ็ตไม่เป็นด้วย เลยใช้ gcc ตัวที่เขาให้มาแต่เดิมนี่แหละ) จึงจำเป็นต้องแก้ไข setup.py นิดหน่อย เพื่อบอกตำแหน่งของ…
-
on the flip side of Hero
ไม่ว่าการพยายามฆ่าหรือจองล้างจองผลาญ ทักษิณ องคมนตรี หรือ สนธิ ก็น่าหดหู่พอกัน เพราะมันหมายความว่า ในสังคมเรายังมีคนคิดว่า การกำจัดคนหนึ่งคนออกไป จะสามารถแก้ปัญหาอะไรได้ แต่ความคิดนี้คงไม่แปลกอะไร ในสังคมง่อยเปลี้ย-ธุระไม่ใช่-ไม่ยอมช่วยเหลือตัวเอง ที่เรียกหา ฮีโร่-พระเอกขี่ม้าขาว อยู่ตลอดเวลา (ไม่ว่าจะในรูปผู้นำเผด็จการอันเข้มแข็ง ราชาผู้ทรงธรรม กำนันผู้อาทร หรือคณะรัฐประหารผู้เมตตา) ก็คงจำเป็นอยู่เอง ที่พวกเขาจะต้องสร้างด้านตรงข้าม ตัวโกง-ผู้ร้ายมีเขาแหลมในผ้าคลุมสีดำ ให้เป็นต้นเหตุแห่งความชั่วร้ายทั้งปวง เพื่อผ่อนคลายย้ายเทความผิดบาปให้พ้นไปจากตัวพวกเขา ฉันไม่ผิด มันผิด ฉันกลัว ไม่อยากยุ่ง ฮีโร่ ช่วยฉันที หนังซูเปอร์ฮีโร่ที่เต็มโรงตอนนี้ อาจจะบอกภาวะอะไรบางอย่างของสังคม แต่อย่าลืมว่า เมื่อยอดมนุษย์เข้าตาจนเปลี่ยนใจ อะไรจะรับประกัน ว่าเขาจะไม่กลายเป็นผู้ร้ายเสียเอง ? อะไรจะรับประกัน ว่ายอดมนุษย์จะไม่กลายเป็นผู้ร้ายเสียเอง ? จอม เพชรประดับ: นับจากนี้ไป “ประเทศไทย” จะไม่เหมือนเดิม technorati tags: hero, Thailand, politics