bact' is a name

Tag: Opendream

Writerly Web: Writing as an Open Web Interface #drumbeat #openweb

เมื่อสองอาทิตย์ที่แล้ว เป็นทีม Opendream ไปเสนอไอเดียสั้น ๆ 5 นาที (ซึ่งทำได้ไม่ทันเวลา) ที่งาน Mozilla Drumbeat @ Neoteny Camp Writerly Web: Writing as an Open Web Interface View more documents from Arthit Suriyawongkul. (โพสต์ครั้งแรกที่ Opendream blog / twitter list @opendream/ers เปิดแล้ว) technorati tags: generative web, open web, nsc1, mozilla drumbeat, ui

December 23, 2009
Web Character Simplification Chart 0.1 #opendream

ก่อนจะประมวลผลข้อความ เราจำเป็นต้องทำความสะอาดข้อความเสียหน่อย ทั่ว ๆ ไปที่จำเป็นต้องทำ ก็เช่น แปลง new line (\r\n หรือ \n), หรือแปลงให้อยู่ในชุดอักขระ (character set) ที่โปรแกรมใน processing pipeline จะทำงานได้ เช่นแปลง ä เป็น ae หรือแปลง “ ” เป็น ” “, หรือการ normalize ลำดับอักขระ เช่น น.หนู+สระอำ+ไม้โท → น.หนู+ไม้โท+สระอำ, หรือไปถึงขั้นซับซ้อน อย่างแก้ตัวสะกด (กรณีเป็นงานลักษณะจดหมายเหตุ หรือ archival ก็อาจจำเป็นต้องเก็บตัว raw text ก่อนแปลงเอาไว้ด้วย เพราะการแปลงอาจจะ(และมักจะ)เป็น lossy คือแปลงไปแล้วแปลงกลับมาได้ไม่เหมือนเดิม เช่นตัวอย่างข้างบน ที่แปลง “ ” เป็น ” “)…

December 7, 2009
[12 Dec] Grails Meeting Day @ Opendream HQ

มนุษย์หุ่นยนต์ @roofimon แจ้งข่าวที่ Narisa.com: Grails Meeting Day 1.0, มาคุยกันเรื่อง Grails เสาร์ที่ 12 ธันวานี้ ที่รังรัก Opendream (แผนที่) MRT สุทธิสาร + ต่อมอไซต์ บอกว่าไป อารียา แมนดารีนา (20 บาท) โอเพ่นดรีมคือบ้านเลขที่ 299/92 12 Dec 2009 at Opendream MRT Suttisarn + motobike taxi to Areeya Mandarina (20 baht) Opendream office is house number 299/92 technorati tags: Grails, community, developers

December 3, 2009
on various things, digital this and information that

[ปรับปรุง 12:46: เพิ่ม Greenstone และลิงก์ libraryhub.in.th ขอบคุณ @markpeak] [ปรับปรุง 2009.07.17: แก้ไขข้อมูลเกี่ยวกับระบบบรรณารักษ์ที่คลาดเคลื่อน ขอบคุณ อ.บุญเลิศ] สี่ห้าวันที่ผ่านมา บุกตะลุยเก็บข้อมูลเกี่ยวกับห้องสมุดและระบบสารสนเทศดิจิทัลให้ :=3 ไม่ได้เน้นไปที่พวก Library 2.0 มากนัก อยากรู้เรื่องระบบข้างใต้เพิ่มเติมมากกว่า การประยุกต์ข้างบนคิดว่าพอเข้าใจไอเดียบ้างแล้วส่วนหนึ่ง (ลองดู นำเสนอโดย @iteau และ @projectlib เกี่ยวกับเรื่องนี้และ TCDC Resource Center – @iteau เขียนควันหลงนิดนึง) เดี๋ยวลองเอามาประกอบกัน เว็บ DegreeTutor แนะนำโอเพ่นซอร์ส ILS (integrated library system) 3 ตัว ได้แก่ Koha, Evergreen ILS, และ VuFind ทุกตัวทำงานกับ OPAC (open public access…

June 2, 2009
NLTK corpus readers for NECTEC BEST and ORCHID corpora

ความเดิมจากตอนที่แล้ว ทดลองสร้าง corpus reader ใน NLTK ตอนนี้แก้การ encode ให้ใช้ได้กับ nltk.Text() แล้ว (แทนที่จะเก็บเป็น unicode ก็เก็บเป็น utf-8 encoded str แทน) พร้อมกับเพิ่มตัวอ่านสำหรับคลังข้อความ BEST และ ORCHID ด้วย ตัวอ่านคลัง BEST ในรุ่น 0.3 นี้ เรียกดูเป็นหมวดได้ (ข่าว วรรณกรรม สารานุกรม บทความ) เรียกดูข้อมูลกำกับขอบเขตคำ (word boundaries) ได้ แต่ยังไม่รองรับ <NE>named-entities</NE> กับ <AB>คำย่อ</AB> เนื่องจาก BEST ไม่มีข้อมูลขอบเขตประโยค ตัวอ่านคลังจะสร้างขึ้นเอง โดยสมมติ \n เป็นขอบเขตประโยค ส่วนตัวอ่านคลัง ORCHID ในรุ่น 0.3 นี้ เรียกดูข้อมูลกำกับขอบเขตคำและชนิดคำ (Part-of-Speech)…

April 28, 2009
playing around Thai blog corpus with NLTK

อยากจะลองเล่น NLTK กับข้อมูลภาษาไทยดู คิดไปคิดมา เอาข้อมูลจาก foosci.com มาลองดูละกัน เขาเปิดให้ใช้ เป็น ครีเอทีฟคอมมอนส์ แสดงที่มา-อนุญาตแบบเดียวกัน (CC by-sa) แต่ไม่อยากไปดึงมาเอง ขี้เกียจ เห็นว่าโครงการโรตี (อัลฟ่า) โดย Opendream ดูดบล็อกไทยจำนวนหนึ่งมาเก็บไว้ได้ระยะหนึ่งแล้ว เพื่อใช้ในการแนะนำลิงก์ (ดูตัวอย่างที่ keng.ws ที่ท้ายแต่ละโพสต์) ก็เลยเอาจากตรงนั้นมาใช้ละกัน ข้อมูลที่มีเป็น XML ที่ dump มาจาก MySQL เราก็เขียนสคริปต์ก๊อก ๆ แก๊ก ๆ ดึงเฉพาะที่อยากได้ออกมา ด้วย xml.etree.cElementTree (ตอนแรกใช้ ElementTree แตน ๆ แต่อืดเกิน เนื่องจากแฟ้มมันใหญ่) เอา HTML tags ออกด้วย Beautiful Soup แล้วตัดคำด้วย python-libthai ตัดประโยคแบบถึก ๆ ด้วย…

April 24, 2009