bact' is a name

Tag: Python

NLTK corpus readers for NECTEC BEST and ORCHID corpora

ความเดิมจากตอนที่แล้ว ทดลองสร้าง corpus reader ใน NLTK ตอนนี้แก้การ encode ให้ใช้ได้กับ nltk.Text() แล้ว (แทนที่จะเก็บเป็น unicode ก็เก็บเป็น utf-8 encoded str แทน) พร้อมกับเพิ่มตัวอ่านสำหรับคลังข้อความ BEST และ ORCHID ด้วย ตัวอ่านคลัง BEST ในรุ่น 0.3 นี้ เรียกดูเป็นหมวดได้ (ข่าว วรรณกรรม สารานุกรม บทความ) เรียกดูข้อมูลกำกับขอบเขตคำ (word boundaries) ได้ แต่ยังไม่รองรับ <NE>named-entities</NE> กับ <AB>คำย่อ</AB> เนื่องจาก BEST ไม่มีข้อมูลขอบเขตประโยค ตัวอ่านคลังจะสร้างขึ้นเอง โดยสมมติ \n เป็นขอบเขตประโยค ส่วนตัวอ่านคลัง ORCHID ในรุ่น 0.3 นี้ เรียกดูข้อมูลกำกับขอบเขตคำและชนิดคำ (Part-of-Speech)…

April 28, 2009
playing around Thai blog corpus with NLTK

อยากจะลองเล่น NLTK กับข้อมูลภาษาไทยดู คิดไปคิดมา เอาข้อมูลจาก foosci.com มาลองดูละกัน เขาเปิดให้ใช้ เป็น ครีเอทีฟคอมมอนส์ แสดงที่มา-อนุญาตแบบเดียวกัน (CC by-sa) แต่ไม่อยากไปดึงมาเอง ขี้เกียจ เห็นว่าโครงการโรตี (อัลฟ่า) โดย Opendream ดูดบล็อกไทยจำนวนหนึ่งมาเก็บไว้ได้ระยะหนึ่งแล้ว เพื่อใช้ในการแนะนำลิงก์ (ดูตัวอย่างที่ keng.ws ที่ท้ายแต่ละโพสต์) ก็เลยเอาจากตรงนั้นมาใช้ละกัน ข้อมูลที่มีเป็น XML ที่ dump มาจาก MySQL เราก็เขียนสคริปต์ก๊อก ๆ แก๊ก ๆ ดึงเฉพาะที่อยากได้ออกมา ด้วย xml.etree.cElementTree (ตอนแรกใช้ ElementTree แตน ๆ แต่อืดเกิน เนื่องจากแฟ้มมันใหญ่) เอา HTML tags ออกด้วย Beautiful Soup แล้วตัดคำด้วย python-libthai ตัดประโยคแบบถึก ๆ ด้วย…

April 24, 2009
encode("UTF-8", "ignore") ข้าม ๆ เรื่องที่ทำไม่ได้ใน Python

หลังจากเอา python-libthai ของวีร์มาใช้กับข้อมูลที่ได้มาจากเว็บ ก็พบปัญหาเรื่อง character encoding นิดหน่อย libthai นั้นปัจจุบันทำงานกับข้อมูลที่เป็นภาษาไทย 8 บิตอยู่ (น่าจะเป็น TIS-620) ตัว python-libthai เลยมีขั้นตอนการแปลงจากยูนิโค้ดไปเป็น 8 บิตก่อน ทีนี้ ปรากฏว่า encoder “CP874”, “TIS_620” และ “ISO8859_11” ของ Python มันดันแปลงตัวอักษรบางตัวไม่ได้ (เนื่องจากใน charset พวกนั้น มันไม่มีตัวอักษรดังกล่าว) โปรแกรมก็เลยจะตาย ถ้าไปเจออักษรพวกนั้น ก่อนตายมันจะโวยทำนองว่า : UnicodeEncodeError: ‘charmap’ codec can’t encode character u’\u200b’ in position 3560: character maps to <undefined> วิธีแก้แบบถึก ๆ คือ เอาหูไปนาเอาตาไปไร่ซะ ignore…

April 22, 2009
modifying setup.py for libthai Python binding in MacPorts environment

(ปรับปรุง 2009.04.21 พบท่าง่ายกว่าเดิม ดูด้านล่าง) เอา libthai Python binding ที่วีร์ทำเอาไว้มาใช้บน Mac OS X + MacPorts ต้องดัดแปลง setup script นิดนึง เนื่องจากผมติดตั้ง libthai ผ่านทาง MacPorts (ด้วยคำสั่ง sudo port install libthai) ดังนั้นแฟ้มไลบรารี (libthai.a) กับแฟ้ม include (*.h) ทั้งหลาย จึงไม่ได้อยู่ในตำแหน่งปกติที่ apple-gcc จะวิ่งไปหา (ผมใช้ i686-apple-darwin9-gcc-4.0.1 ลองใช้ gcc-4.2, gcc-mp-4.4 ที่อยู่ในเครื่องแล้ว มันบอกไม่รู้จัก flag โน้น flag นี้ ผมก็เซ็ตไม่เป็นด้วย เลยใช้ gcc ตัวที่เขาให้มาแต่เดิมนี่แหละ) จึงจำเป็นต้องแก้ไข setup.py นิดหน่อย เพื่อบอกตำแหน่งของ…

April 20, 2009
download attachments from Gmail using FTP/script

(เอ เรามี Python66 ป่าวหว่า ? แบบอันนี้เขียนลง Django66 ได้ป่ะ ?) สรุปว่าเอาไปลง Pylons66 ครับ ดาวน์โหลดแฟ้มจาก Gmail ด้วย FTP (หรือสคริปต์) ง่าย ๆ ไม่ซับซ้อน แค่เรียกตัว ftp daemon (Gmail-FTP proxy) ให้ทำงาน, แล้วก็ใช้โปรแกรม FTP อะไรก็ได้ไปดึงแฟ้มมา. โดยแฟ้มที่จะดึงมาได้นั้น จะต้องเป็นแฟ้มแนบ (attachment) ที่อยู่ในจดหมายที่ติดป้ายว่า ‘ftp’. ตัวโปรแกรม ftp daemon ที่ว่านี้ คือสคริปต์ไพธอน (Python) เล็ก ๆ ที่ชื่อว่า gmailftpd.py มันอยู่ในแพคเกจ libgmail-docs ของ libgmail. ก่อนจะใช้งาน gmailftpd นี้ เราจำเป็นต้องมี libgmail กับ mechanize…

September 21, 2008
install Python alternatives

สวัสดีปีใหม่ — 12-14 เม.ย. ผมและเพื่อน ๆ อยู่ที่ Thai Firefox L10n sprint po2moz ใช้กับ Python 2.5 ไม่ได้ ต้องเป็นรุ่นต่ำกว่านั้น ลง Python (และโปรแกรมอื่น ๆ) หลาย ๆ รุ่นในเครื่อง และวิธีตั้งค่ารุ่นปริยาย ลงที่รุ่นที่อยากได้ apt-get install python2.4 บอกเครื่อง ว่าเรามีหลายรุ่นนะ update-alternatives –install /usr/lib/python python /usr/lib/python2.3 9 update-alternatives –install /usr/lib/python python /usr/lib/python2.4 5 update-alternatives –install /usr/lib/python python /usr/lib/python2.5 1 (–install ลิงก์คำสั่งปริยาย ชื่อคำสั่ง ลิงก์ไปหารุ่นที่ระบุ ลำดับความสำคัญ) จากนั้นก็เลือกรุ่นที่อยากใช้…

April 14, 2008
Abracadacaba

อยากลองลง Abraca (XMMS2 client) แต่ build ไม่ผ่าน มันอยากได้ GTK+ 2.8.0 เรามี 2.11.6 🙁 แก้ไงก็ไม่รู้ด้วย ใช้ระบบ build แปลก ๆ ชื่อ “waf” (เป็น Python หมดเลย อ่านง่าย แต่ไม่เข้าใจ :P) ใน Banshee ถึงแม้เวลานำเพลงเข้าไลบรารีมันจะตั้งชื่อโฟลเดอร์ให้ตามชื่อศิลปินและอัลบั้ม แต่พอเปลี่ยนชื่อทีหลัง มันไม่ยอมเปลี่ยนชื่อโฟลเดอร์+ย้ายให้เรา (iTunes ทำให้) การเรียงโฟลเดอร์ดี ๆ จะอำนวยความสะดวกแก่คนอื่นที่จะมาดูดเพลงจากเครื่องเรา! 😛 technorati tags: Linux, music player

August 26, 2007
Listen (again)

หลังจากใช้ Exaile มาได้สักพัก ค่อนข้างพอใจ แต่ก็ยังมีปัญหากับไอพ็อดนิดหน่อย เล็ก ๆ น้อย ๆ และรู้สึกรำคาญเรื่องปกซีดีที่มันจัดการได้ไม่ค่อยดีนัก หาให้ไม่ค่อยเจอ ฯลฯ ระหว่างไล่ดู Trac ของ Exaile, ข้อมูลเกี่ยวกับการเก็บภาพใน id3 tag ที่ id3.org, และ Mutagen (audio metadata library ภาษา Python โดยทีม Quod Libet) ก็ไปเจออีกโปรแกรมที่ชื่อ Listen ซึ่งดูแล้ว ก็คล้าย ๆ Exaile เลย น่าจะใช้โค้ด (ไลบารี) เหมือนกันหลายตัวด้วยซ้ำ .. เอ้า ลองหน่อย การติดตั้งไม่ยุ่งยาก เพราะมีอยู่ใน repo ของ Ubuntu อยู่แล้ว ก็หาแพ็คเกจชื่อ “listen” ได้เลย ตอนนี้ใช้อยู่ โอเคเลยนะ…

June 2, 2007
Exaile

จากที่บ่น ๆ เรื่องโปรแกรมฟังเพลงบนลีนุกซ์ ไปครั้งที่แล้ว ตอนนี้เราคิดว่าเจอตัวที่ถูกใจแล้วแหละ ใช้ Exaile มาได้แล้วซักพัก ใช้ได้ดีทีเดียว เล่นเพลงที่อยู่ในไอพ็อดได้ ก๊อปเพลงไปได้ แต่ว่าไม่มีฟังก์ชั่น sync นะ มีฟังก์ชั่นที่ชอบและไม่เคยเห็นที่ไหนมาก่อน ก็คือ Dynamic Playlist เป็นการไปดูข้อมูล “เพลงแนะนำ” จาก Last.fm แล้วก็เพิ่มเพลงพวกนั้น (ถ้ามีในเครื่อง) ลงใน playlist อัตโนมัติ เข้าท่า ไม่ช้าด้วย (เร็วกว่า Banshee แยะ) คิดว่าจะใช้ Exaile นี่แหละเป็นหลัก ตัว Exaile นี้ ทีมพัฒนาบอกว่า ตั้งใจให้เป็น clone ของ Amarok (โปรแกรมฟังเพลงบน KDE) โดยใช้ GTK+ แทน Qt โปรแกรมเขียนด้วย Python มีโค้ดหลายส่วนเอามาจาก Ex Falso /…

May 31, 2007
Human readable markups

Non-intrusive text markup languages * Textile *: reference | for Ruby (RedCloth) | for Python (PyTexttile) ** Markdown **: for Perl (Markdown) | for Ruby (RedCloth) List of lightweight markup languages

March 22, 2006