-
playing around Thai blog corpus with NLTK
อยากจะลองเล่น NLTK กับข้อมูลภาษาไทยดู คิดไปคิดมา เอาข้อมูลจาก foosci.com มาลองดูละกัน เขาเปิดให้ใช้ เป็น ครีเอทีฟคอมมอนส์ แสดงที่มา-อนุญาตแบบเดียวกัน (CC by-sa) แต่ไม่อยากไปดึงมาเอง ขี้เกียจ เห็นว่าโครงการโรตี (อัลฟ่า) โดย Opendream ดูดบล็อกไทยจำนวนหนึ่งมาเก็บไว้ได้ระยะหนึ่งแล้ว เพื่อใช้ในการแนะนำลิงก์ (ดูตัวอย่างที่ keng.ws ที่ท้ายแต่ละโพสต์) ก็เลยเอาจากตรงนั้นมาใช้ละกัน ข้อมูลที่มีเป็น XML ที่ dump มาจาก MySQL เราก็เขียนสคริปต์ก๊อก ๆ แก๊ก ๆ ดึงเฉพาะที่อยากได้ออกมา ด้วย xml.etree.cElementTree (ตอนแรกใช้ ElementTree แตน ๆ แต่อืดเกิน เนื่องจากแฟ้มมันใหญ่) เอา HTML tags ออกด้วย Beautiful Soup แล้วตัดคำด้วย python-libthai ตัดประโยคแบบถึก ๆ ด้วย…
-
foosci.com – Science News Worldwide in Thai
foosci.com ฟูซาย ข่าววิทยาศาสตร์สำหรับทุก ๆ คน คุณ molecularck กำลังปลุกปล้ำปลุกปั้นเว็บใหม่อยู่ foosci.com (ฟูซาย) เป็นเว็บข่าววิทยาศาสตร์ เทคโนโลยี วิศวกรรมศาสตร์ และนวัตกรรม ที่ทุก ๆ คนสามารถส่งข่าวกันเข้าไปได้ครับ โดยทุกข่าวจะเป็นภาษาไทย เพื่อส่งเสริมการรับรู้ข่าววิทยาศาสตร์ของสังคมไทยครับ แหล่งข่าวก็จะมีจากทั้ง สวทช. ห้องวิจัยต่าง ๆ หรือแปลมาจากเว็บต่างประเทศ พวก Science, Nature, ScienceDaily, PhysOrg, Seed แนว ๆ นั้น ใครสนใจ ก็ไปร่วมอ่านร่วมเขียนกันได้ครับ แล้วฝากบอกต่อเพื่อน ๆ ด้วย http://foosci.com technorati tags: foosci.com, science, technology, news, Thai