โฆษณาว่าจุ 64 GB ก็ต้องใช้ได้จริง 64 GB สิ

"ถ้าผมซื้อลวดเย็บกระดาษหนึ่งกล่องที่เขียนว่า 100 ชิ้น ผมคาดหวังว่ามันจะมีลวดอยู่ประมาณ 100 ชิ้น - ไม่ใช่ 50 เพราะอีก 50 นั้นถูกเอาไปเย็บกล่องนั้นอยู่" -- Thom Holwerda

การแฮ็กคือการเรียนรู้แห่งอนาคต Raspberry Pi: Hacking is a 21st century literacy

Raspberry Pi เป็นคอมพิวเตอร์ขนาดเล็ก กว้างxยาวประมาณเครดิตการ์ด หน้าตามันเหมือนแผงวงจรลุ่นๆ มากกว่าจะเป็นคอมพิวเตอร์สำเร็จ และห่างไกลจากความสวยเนี๊ยบอย่างไอแพด แต่ผู้สร้างก็ตั้งใจจะให้มันเป็นแบบนี้ มันคือจิตวิญญาณแห่งความอยากรู้อยากเห็นจากทศวรรษ 1980 ที่ถูกผลักไปข้างหน้าเพื่อศตวรรษที่ 21 ไม่เพียงแต่ซอฟต์แวร์ที่บรรดาเด็กๆ นักเรียนจะแฮ็กได้ง่ายๆ แต่รวมไปถึงฮาร์ดแวร์ด้วย "hacking" คือ literacy ของโลกอนาคต เพราะ hacking หมายถึงการที่เราสามารถควบคุมเทคโนโลยีได้ด้วยมือเราเอง ไม่ต้องงอนง้อรอเป็นปีๆ ขอจากผู้ผลิตให้เมตตาเพิ่มฟีเจอร์นั่นนี่ให้เรา

พฤหัด 1 + พบค่ำ 4: สร้างวัตถุดิบเพื่อสังคมความคิด [19 พ.ค. 2555]

บันทึกจากงาน พฤหัด OpenStreetMap กับ โรงเรียนพ(ล)บค่ำ @nuling บ.ก.ลายจุด คุยเรื่อง online-offline ไปจนถึงวิกิพีเดีย และโครงการช็อปปิ้งบริจาคหนังสือ

burn a bootable (live) USB drive on Mac OS X

เบิร์นแผ่นติดตั้งอูบุนตูลงไดรฟ์ยูเอสบี ให้บูตจากยูเอสบีได้ ด้วยแมค

ผมไม่ประสบความสำเร็จในการใช้ Disk Utility (GUI) ของ Mac OS X ในการ burn bootable USB สำหรับติดตั้ง Ubuntu (เท่าที่ค้นดูในเน็ต ก็ไม่ค่อยมีใครประสบความสำเร็จ ไม่รู้ทำไม) read more

Chromium OS (Chrome OS) มาแล้น มีซอร์สด้วย

Chromium OS มาแล้น @kengggg กำลังหาทางยัดฟอนต์ไทยใส่ลงไปอยู่ ใครมีฟอนต์อะไรน่าใช้ + สัญญาอนุญาตประมาณ BSD หรือโอเพนซอร์สอื่น ๆ ลองบอกเขาดูครับ

ดูหน้าตาแล้ว ก็น่าจะเหมาะกะเน็ตบุ๊กดีนะ

ถ้าจะ build เอง ไปเอาซอร์สที่ chromium.org ต้องมี Linux ถึงจะ build ได้ read more

[30 Oct] Richard Stallman to give a keynote at FLossEd Bangkok

ฝากบอกต่อครับ

ริชาร์ด สตอลล์แมน ผู้ริเริ่มแนวคิด copyleft และ ซอฟต์แวร์เสรี จะปาฐกถาเปิดงานซอฟต์แวร์เสรีเพื่อการศึกษา FLossEd BK ศุกร์ 30 ตุลานี้ 19:30น. ที่โรงเรียนนานาชาติ เค.ไอ.เอส. ห้วยขวาง [แผนที่] read more

ช่วงช่วง หลินฮุ่ย เคอิโงะ เสื้อแดง เอ็นจีวี นักศึกษา แพนด้า SEO OCR

OCRopus โอเพ่นซอร์สทูลคิตสำหรับงาน OCR รุ่น 0.4 ออกแล้วครับ น่าจะคอมไพล์อะไรต่าง ๆ ได้ง่ายขึ้นบนแพลตฟอร์มที่ไม่ใช่ GNU/Linux ครับ

ดาวน์โหลดได้ทันทีที่เว็บไซต์ OCRopus (โอเพ่นซอร์ส Apache License 2.0)

ที่หน้าเว็บ Course: OCRopus สอนการใช้งานและปรับแต่ง OCRopus มีวิธีเขียน Lua และ C++ เพื่อเรียกใช้ OCRopus ด้วย read more

change JRE/JDK default version in Mac OS X to Java SE 6 (1.6)

(Update 2009.05.16: add JAVA_JVM_VERSION setting)

To build Nutch 1.0, you need JDK 1.6. Unless you’ll got [javac] class file has wrong version 50.0, should be 49.0 error message.

For a system that has more than one version of JDK installed.
It is possible to change to a desired version only at the time you need it (look for j16 script in this thread). I found myself more convenient with just changed the default version. read more

NLTK corpus readers for NECTEC BEST and ORCHID corpora

ความเดิมจากตอนที่แล้ว ทดลองสร้าง corpus reader ใน NLTK

ตอนนี้แก้การ encode ให้ใช้ได้กับ nltk.Text() แล้ว (แทนที่จะเก็บเป็น unicode ก็เก็บเป็น utf-8 encoded str แทน)

พร้อมกับเพิ่มตัวอ่านสำหรับคลังข้อความ BEST และ ORCHID ด้วย

ตัวอ่านคลัง BEST ในรุ่น 0.3 นี้ เรียกดูเป็นหมวดได้ (ข่าว วรรณกรรม สารานุกรม บทความ) เรียกดูข้อมูลกำกับขอบเขตคำ (word boundaries) ได้ แต่ยังไม่รองรับ <NE>named-entities</NE> กับ <AB>คำย่อ</AB> เนื่องจาก BEST ไม่มีข้อมูลขอบเขตประโยค ตัวอ่านคลังจะสร้างขึ้นเอง โดยสมมติ \n เป็นขอบเขตประโยค

ส่วนตัวอ่านคลัง ORCHID ในรุ่น 0.3 นี้ เรียกดูข้อมูลกำกับขอบเขตคำและชนิดคำ (Part-of-Speech) ได้ แต่ยังไม่รองรับขอบเขตย่อหน้า และยังเรียกดูเป็นรายเอกสารไม่ได้ (รุ่นนี้ทำงานกับคลัง ORCHID แบบที่ถูกเอา document-related metadata ออกไป)

ดาวน์โหลด & ติดตั้ง

แพ็คเกจ rotic รุ่น 0.3 ซอร์สโค้ดเผยแพร่ด้วยสัญญาอนุญาต GNU GPLv2 ตาม NLTK – ดาวน์โหลด rotic-0.3.tar.gz

วิธีติดตั้ง อ่าน README.TXT และ INSTALL.TXT – อย่าลืมดาวน์โหลดคลังข้อความมาติดตั้งด้วย รายละเอียดและสัญญาอนุญาตของข้อมูลแต่ละชุด อยู่ใน CORPORA.TXT

มีคำแนะนำอะไร เขียนมาบอกกันได้ครับ อยากจะลองทำให้มันเอาไปใช้ในการเรียนการสอนได้ – ไม่เฉพาะสำหรับนักเรียนคอมพิวเตอร์เท่านั้น แต่สำหรับนักเรียนภาษาศาสตร์ ฯลฯ ด้วย

ตอนนี้ความเร็วไม่ค่อยดีเท่าไหร่ โดยเฉพาะการโหลดตัว ORCHID ซึ่งใหญ่มาก ส่วนหนึ่งเป็นเพราะโค้ดยังซ้ำซ้อนอยู่หลายจุด เช่นตรงการแปลง utf-8 ที่น่าจะทำได้ตั้งแต่ระดับแรก ๆ ที่อ่านเข้ามาเลย ไม่ใช่มาแปลงเอาตอนหลัง-ต้องวนลูปอีกหนึ่งครั้งแบบขณะนี้ โค้ดยัง refactor ได้อีกเยอะ ใครคล่อง Python ก็ช่วยดูหน่อยนะครับ ผมแค่พอเขียนไถ ๆ ได้ ขอบคุณครับ 🙂

ตัวอย่างจาก example.py

1. พิมพ์ข้อความมั่ว ๆ ขึ้นมาจากตัวแบบ n-gram ที่สร้างจากคำในคลัง foosci :


foosci_text = nltk.Text(foosci.words())
foosci_text.generate()

ผลลัพธ์ :

… ซึ่ง ทฤษฎี สรุป ความรู้ ของ เรา เอา ไส้เดือน ไป ปล่อย ใน พื้นที่ ๆ มี ความ สงสัย ระหว่าง ความ เชื่อ เรื่อง มิติ ใหม่ นี้ …

2. พิมพ์ คำ/ชนิดคำ จาก 5 ประโยค แรกของคลัง ORCHID
โปรดสังเกตว่า เราใช้ชุดชนิดคำ (POS/tagset) แบบง่าย สามารถสลับชุดชนิดคำได้โดยสลับค่า simplify_tags :


for sent in orchid.tagged_sents(simplify_tags=True)[0:5]:
    print "[",
    for (word, tag) in sent:
        print word + "/" + tag,
    print "]"

ผลลัพธ์ :

[ การ/FIX ประชุม/V ทาง/N วิชาการ/N /PUNC ครั้ง/C ที่_1/DETN ]
[ โครงการวิจัยและพัฒนา/N อิเล็กทรอนิกส์/N และ/CONJ คอมพิวเตอร์/N ]
[ ปีงบประมาณ/N /PUNC 2531/N ]
[ เล่ม/C /PUNC 1/DETN ]
[ ศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ/N ]

3. หาค่าการกระจายของสองคำ การ และ ความ ใน 4 หมวดของคลัง BEST
โปรดสังเกตว่า ตรงคำที่เราจะป้อนเข้าไปให้ฟังก์ชั่นต่าง ๆ ของ NLTK เราจะแปลงมันเป็น utf-8 encoded str ก่อน :

cfd = nltk.ConditionalFreqDist( (genre, word) for genre in best.categories() for word in best.words(categories=genre)) genres = ['news', 'encyclopedia', 'novel', 'article'] prefixs = [w.encode("utf-8") for w in [u'การ', u'ความ']] cfd.tabulate(conditions=genres, samples=prefixs) read more

encode("UTF-8", "ignore") ข้าม ๆ เรื่องที่ทำไม่ได้ใน Python

หลังจากเอา python-libthai ของวีร์มาใช้กับข้อมูลที่ได้มาจากเว็บ ก็พบปัญหาเรื่อง character encoding นิดหน่อย read more