Tag: thai

  • Let’s close it

    Let’s close Firefox Thai bug reports บรรยากาศ ปิดงานบั๊กภาษาไทยในไฟร์ฟอกซ์ ตอนนี้คึกคัก (เช่นคุณ kengggg ที่วันนี้กระหน่ำ add cc บั๊กต่าง ๆ :P) ซึ่งหลาย ๆ คนก็ได้พยายามประชาสัมพันธ์เรื่องนี้ ให้มาช่วยทดสอบกันหน่อย เพราะที่ผ่านมา มีการแก้ไขไปแล้วหลายส่วน แต่ยังไม่มีการทดสอบกันเท่าไหร่นัก ทำให้บางบั๊กยังปิดไม่ได้ (เพราะไม่แน่ใจว่าแก้ได้จริงรึยัง หรือแก้อันนี้แล้วไปทำให้เกิดบั๊กที่อื่นรึเปล่า ฯลฯ) ซึ่งก็มีทั้งการส่งเมลหากัน หรือบอกกล่าวกันในบล็อก เช่นทีมาร์คโพสต์ไป 3 ที่ (ความเห็นของมาร์คและหลาย ๆ คนในโพสต์นั้น น่าสนใจ ลองไปอ่านกันดู จะเห็นทัศนคติที่หลากหลาย) ข้อสังเกตหนึ่งที่ผมเห็น จากการติดตามดูความเคลื่อนไหวใน bugzilla ก็คืองาน contribution จากผู้ใช้ ลีนุกซ์ กับ แมคโอเอส มีมากกว่าจาก วินโดวส์ ?? ไม่รู้ว่าคิดไปเองรึเปล่า นี่ไม่พูดถึงเรื่องโค้ดนะครับ (ซึ่งหลัก ๆ…

  • Dr. Sa-nguan life and thoughts

    จากหนังสือ งานกับอุดมคติของชีวิต นพ.สงวน นิตยารัมภ์พงศ์ (หน้า 3-5) … ผมเข้าร่วมขบวนการกิจกรรมนักศึกษาตั้งแต่ก่อนเหตุการณ์ 14 ตุลา 2516 จนกระทั่งขบวนการกิจกรรมนักศึกษาถูกทำลายในวันที่ 6 ตุลา พ.ศ. 2519 แม้ว่าจะไม่ใช่ประเภทมือไมค์ไฮปาร์ค ซึ่งไม่ใช่สไตล์ของนักศึกษามหิดล แต่เราก็มีรูปแบบกิจกรรมที่ไปเสริมกับนักศึกษามหาวิทยาลัยอื่น ๆ ในแนวทางของเรา ที่ผมมองว่าสังคมนักศึกษาขณะนั้นเป็นสังคมอุดมคติ ก็เพราะในขณะนั้นชีวิตนักศึกษาเป็นสังคมรวมหมู่ที่ทุกคนช่วยเหลือซึ่งกันและกัน เอาใจใส่ซึ่งกันและกัน โดยมีเป้าหมายอย่างเดียวกันก็คือ การที่จะสร้างสังคมที่เป็นธรรม และก็ทำให้ประเทศชาติเป็นประเทศที่มีความยุติธรรม ประชาชนทุกคนมีศักดิ์ศรี ไม่ถูกทอดทิ้ง ผมจำได้ว่ารู้สึกรักและนับถือเพื่อนนักศึกษาหลาย ๆ คน โดยเฉพาะผู้ที่ทุ่มเทชีวิตทั้งกายและใจเพื่อที่จะรับใช้ประชาชน ซึ่งแรงบันดาลใจและตัวอย่างจากคนเหล่านี้ ทำให้ผมมีแนวคิดและมีความฝังใจว่า อยากจะเห็นสังคมรวมหมู่ที่ดีที่ทุกคนแบ่งปันเอื้อเฟื้อซึ่งกันและกัน ซึ่งแนวความคิดนี้เป็นฐานคิดที่สำคัญของระบบหลักประกันสุขภาพถ้วนหน้าที่ว่า เราจะไม่ปล่อยให้พี่น้องในสังคมเดียวกันนี้ต้องป่วยตายและตายไปโดยไม่ได้รับการดูแลด้วยเหตุว่าเขาไม่มีเงิน … เมื่อมีการปราบปรามนักศึกษาผมเองก็มีชื่ออยู่ในบัญชีที่ต้องถูกจับกุมเช่นเดียวกับเพื่อนนักกิจกรรมคนอื่น ๆ อีกหลายคน ในเวลานั้นพวกเราแต่ละคนต้องตัดสินใจเลือกทางชีวิตของตัวเอง ในจำนวนไม่กี่ทางเลือกที่มี ผมตัดสินเลือกที่จะอยู่ต่อสู้ในเมืองต่อไป แม้ว่าต้องหลบซ่อนตัวอยู่ระยะหนึ่งก็ตาม ในขณะที่เพื่อน ๆ จำนวนหนึ่งเลือกที่จะไปจากเมืองเพื่อต่อสู้กับรัฐบาล … นอกจากนั้น ความที่ผมไม่ถูกจับ แม้จะมีรายชื่อตามจับของทางการอยู่ ทำให้ผมไม่สามารถจะได้รับพระราชทานปริญญาบัตรต่อหน้าพระพักตร์สมเด็จพระเจ้าอยู่หัว การรับปริญญาต่อหน้าพระพักตร์และมีรูปถ่ายไปติดที่บ้าน…

  • Time for Unicode ?

    เราควรจะเปลี่ยนไปใช้รหัสข้อมูลอะไรดี ? สำหรับเอกสารภาษาไทยในโลกยุคอินเทอร์เน็ต จะ Windows-874, TIS-620 หรือ ISO-8859-11 ก็คงไม่เพียงพอแล้ว สำหรับโลกยุคอินเทอร์เน็ตและสังคมพหุภาษา แม้แต่เอกสาร “ภาษาไทย” ในปัจจุบันก็ยังมีตัวอักษรละตินหรือสัญลักษณ์พิเศษต่าง ๆ แทรกอยู่มากมาย ซึ่งบางตัวก็ไม่ได้มีอยู่ทั้งใน Windows-874, TIS-620 และ ISO-8850-11 ได้เวลาเปลี่ยนมาใช้ Unicode ให้หมดรึยังนะ ? (สำหรับงานส่วนใหญ่ ที่ขนาดพื้นที่จัดเก็บข้อมูล/แบนด์วิธ ไม่ได้เป็นข้อจำกัดสำคัญอีกต่อไปแล้ว) ทั้งหน้าเว็บ ไฟล์เอกสาร metadata โค้ดโปรแกรมต่าง ๆ แต่จะใช้อะไรดี UTF-8 หรือ UTF-16 ? Windows NT ขึ้นไป, Windows CE, Java, .NET, Mac OS X และ Qt แพลตฟอร์มเหล่านี้ ใช้ UTF-16 เป็น native character…

  • BEST: Word Segmentation

    BEST จัด “แข่งขัน” ซอฟต์แวร์ตัดคำไทย ประโยชน์ของการแข่งขันนี้ นอกจากด้านซอฟต์แวร์แล้ว ยังมีเรื่องของการพัฒนาคลังข้อความ (corpus) และค้นหาความหมายของสิ่งที่เรียกว่า “คำ” ในภาษาไทยอีกด้วย ครั้งนี้เล่นที่คำ ครั้งหน้าทีมงานวางแผนจะเล่นที่ “ประโยค” อย่างไรก็ดี ผมว่าที่อาจารย์วิโรจน์ อักษรจุฬาฯ เสนอว่า ภาษาไทยอาจจะไม่มีประโยคก็ได้ ก็ดูเข้าที สนใจดูได้ที่บทความ Wirote Aroonmanakun, Thoughts on Word and Sentence Segmentation in Thai, SNLP 2007. technorati tags: computational linguistic, word segmentation, Thai language

  • discourse/information/communication people

    จดกันลืม บุคคลน่าสนใจ สาวิตรี คทวณิช คณะภาษาและการสื่อสาร สถาบันบัณฑิตพัฒนบริหารศาสตร์ discourse analysis; critical discourse analysis; language and politics นคร เสรีรักษ์ การคุ้มครองข้อมูลส่วนบุคคล : ข้อเสนอเพื่อการพัฒนาสิทธิรับรู้ข้อมูลข่าวสารในกระบวนการธรรมรัฐไทย (วิทยานิพนธ์ วิทยาลัยสหวิทยาการ มธ.) Freedom of Information and Privacy Protection in Thailand วราภรณ์ วนาพิทักษ์ มาตรการการจัดการการเผยแพร่เนื้อหาที่ไม่เหมาะสมบนอินเทอร์เน็ตของประเทศไทย (วิทยานิพนธ์ วิทยาลัยสหวิทยาการ มธ.) สมสุข หินวิมาน คณะวารสารศาสตร์และสื่อสารมวลชน มหาวิทยาลัยธรรมศาสตร์ cultural studies technorati tags: people, freedom of information, discourse analysis

  • aesthetic of gravity

    สุนทรียศาสตร์ของแรงโน้มถ่วง เรียบเรียงจาก Pierre von Meiss (2000), The Aesthetic of Gravity, Architectural Research Quarterly; Volume 4 /NO.3, London: Cambridge Press โดย post-metropolis — บล็อกนักเรียนไทย การผังเมือง คาสเซิล เยอรมนี [ ผ่าน romance was not built in one day ] technorati tags: aesthetic, gravity, urban planning

  • Thongchai Winichakul Reader

    รวมงานเขียนของ ธงชัย วินิจจะกูล โดย BioLawCom.de technorati tags: Thai, history, Thongchai Winichakul

  • Thai in Firefox 3

    ร่วมพัฒนาส่วนตัดคำไทยด้วย Native API ใน Firefox 3 (ATSUI สำหรับ Mac OS X และ Uniscribe สำหรับ Windows, ส่วน Linux นั้นใช้ Pango ซึ่งพี่เทพซัดนำไปแล้ว) ใครสนใจก็ไปดูกันได้ครับ คันไม้คันมือ ก็ลองแกะ ๆ แก้ ๆ ดูครับ ในนั้นมีแนะแนวไว้แล้วนิดหน่อย ไปเขียนเพิ่มเติมก็ได้ เป็นวิกิ ดูเพิ่มเติมที่ codenone [ ลิงก์ Firefox Thai | ผ่าน openil ] technorati tags: Firefox, Uniscribe, ATSUI, Thai

  • GATE experiment at KIND Lab, SIIT

    งานทดลองสุดสัปดาห์ที่ผ่านมา เมื่อวานทดลองเขียน wrapper ครอบ Stanford Log-linear Part-Of-Speech Tagger ให้กลายเป็นปลั๊กอินสำหรับใช้กับ GATE (หลังจากตั้งท่ามานาน) pipeline ในรูป มี 3 Processing Resources คือ tokensier, splitter และ tagger tokensier คือ net.siit.gate.DictionaryBasedTokeniser เป็นตัวตัดคำธรรมดา ๆ ใช้พจนานุกรม1 และออกแบบให้ตัดได้คำที่ยาวที่สุด (longest-matching) ทำงานกับ AnnotationSet ของ GATE โดยตรง — จะสร้าง AnnotationSet ชื่อ “Token” ขึ้นมา splitter คือ ANNIE Sentence Splitter เป็นตัวแบ่งประโยค โดยใช้กฎ (ภาษา JAPE เป็นลักษณะ regular expression over annotation)…

  • connectives

    คำเชื่อม* ซึ่ง และ โดย ถ้า แต่ หรือ คือ เช่น เมื่อ เพื่อ หาก เนื่องจาก แล้ว ทำให้ เพราะ ว่า สำหรับ ได้แก่ ดังนั้น โดยเฉพาะ อย่างไรก็ตาม พวกนี้เอามาแบ่ง ประโยค (sentence) / อนุพากย์ (clause) ได้มั๊ย ? * คำทั้งหมดได้มาจากคลังข้อความเอกสารด้านการแพทย์ที่แลบ เรียงตามความถี่ที่ปรากฎ – คำแรกพบบ่อยกว่าคำสุดท้ายเกือบ 11 เท่า technorati tags: Thai, KIND, connectives