Tag: corpora

  • NLTK corpus readers for NECTEC BEST and ORCHID corpora

    ความเดิมจากตอนที่แล้ว ทดลองสร้าง corpus reader ใน NLTK ตอนนี้แก้การ encode ให้ใช้ได้กับ nltk.Text() แล้ว (แทนที่จะเก็บเป็น unicode ก็เก็บเป็น utf-8 encoded str แทน) พร้อมกับเพิ่มตัวอ่านสำหรับคลังข้อความ BEST และ ORCHID ด้วย ตัวอ่านคลัง BEST ในรุ่น 0.3 นี้ เรียกดูเป็นหมวดได้ (ข่าว วรรณกรรม สารานุกรม บทความ) เรียกดูข้อมูลกำกับขอบเขตคำ (word boundaries) ได้ แต่ยังไม่รองรับ <NE>named-entities</NE> กับ <AB>คำย่อ</AB> เนื่องจาก BEST ไม่มีข้อมูลขอบเขตประโยค ตัวอ่านคลังจะสร้างขึ้นเอง โดยสมมติ \n เป็นขอบเขตประโยค ส่วนตัวอ่านคลัง ORCHID ในรุ่น 0.3 นี้ เรียกดูข้อมูลกำกับขอบเขตคำและชนิดคำ (Part-of-Speech)…

  • playing around Thai blog corpus with NLTK

    อยากจะลองเล่น NLTK กับข้อมูลภาษาไทยดู คิดไปคิดมา เอาข้อมูลจาก foosci.com มาลองดูละกัน เขาเปิดให้ใช้ เป็น ครีเอทีฟคอมมอนส์ แสดงที่มา-อนุญาตแบบเดียวกัน (CC by-sa) แต่ไม่อยากไปดึงมาเอง ขี้เกียจ เห็นว่าโครงการโรตี (อัลฟ่า) โดย Opendream ดูดบล็อกไทยจำนวนหนึ่งมาเก็บไว้ได้ระยะหนึ่งแล้ว เพื่อใช้ในการแนะนำลิงก์ (ดูตัวอย่างที่ keng.ws ที่ท้ายแต่ละโพสต์) ก็เลยเอาจากตรงนั้นมาใช้ละกัน ข้อมูลที่มีเป็น XML ที่ dump มาจาก MySQL เราก็เขียนสคริปต์ก๊อก ๆ แก๊ก ๆ ดึงเฉพาะที่อยากได้ออกมา ด้วย xml.etree.cElementTree (ตอนแรกใช้ ElementTree แตน ๆ แต่อืดเกิน เนื่องจากแฟ้มมันใหญ่) เอา HTML tags ออกด้วย Beautiful Soup แล้วตัดคำด้วย python-libthai ตัดประโยคแบบถึก ๆ ด้วย…

  • different treatments of Mai Yamok in BEST Corpus

    In the first release of BEST Word Segmented Corpus (free registration required for corpus download), I found different segmentations for May Yamok (repetition mark): |พร้อม|ๆ| |กับ| |ร้อย|ๆ |ปี| |ทั้งๆ ที่| |ต่างๆ| |ดัง| |ย่อ|ๆ| |ว่า| |ย่อ|ๆ |ว่า| (Real data, taken from encyclopedia_00005.txt. ‘|’ is word/token boundary) These are probably intended. Or inconsistency ? Not quite sure,…

  • Corpus-Related Research

    สาขาวิจัยที่สามารถใช้ประโยชน์จากคลังข้อความได้ เช่น ภาษาศาสตร์เชิงคำนวณ วัฒนธรรมศึกษา และ การวิเคราะห์วาทกรรม ใน Linguistics of Political Argument: The Spin-Doctor and the Wolf-Pack at the White House [gbook], Alan Partington รองศาสตราจารย์ด้านภาษาศาสตร์ แห่งคณะรัฐศาสตร์ มหาวิทยาลัยคาเมรีโน ประเทศอิตาลี ได้พิจารณาความสัมพันธ์ระหว่างทำเนียบขาวกับสื่อ โดยการวิเคราะห์ทางภาษาศาสตร์จากคลังข้อความ ซึ่งประกอบไปด้วยสรุปคำแถลงข่าวประมาณ 50 ชิ้นในช่วงปีท้าย ๆ ของการดำรงตำแหน่งของประธานาธิบดีคลินตัน โดยหัวข้อนั้น มีตั้งแต่เรื่องในโคโซโวไปจนถึงเรื่องความสัมพันธ์คลินตัน-เลวินสกี งานชิ้นนี้ไม่เหมือนใครก่อนหน้า ตรงที่มันทำให้เราเห็นว่า เราสามารถนำเทคโนโลยี concordance (การแสดงคำที่กำหนดในบริบทต่าง ๆ) และหลักฐานทางภาษาศาสตร์อย่างละเอียด มาใช้ในการศึกษาคุณสมบัติต่าง ๆ ของวาทกรรม ทั้งในตัวบทและกลวิธีการสื่อสารของผู้พูดได้-อย่างไร Tony McEnery and Andrew Wilson, Corpus Linguistics, Edinburgh…

  • Google n-gram are belong to YOU

    กูเกิล แจกโมเดล n-gram ซึ่้งกูเกิลใช้ในงานวิจัยต่าง ๆ เช่น การแปลภาษาอัตโนมัติ การแก้ตัวสะกดอัตโนมัติ การสกัดสารสนเทศ ฯลฯ โดยโมเดลนี้สร้างจากคำมากกว่า 1 ล้านล้านคำ โดยจะแจกจ่ายผ่าน LDC ในรูปของ DVD 6 แผ่น LDC นี่ เป็นหน่วยงานที่ทำงานด้านข้อมูลภาษาศาสตร์ พวกคลังข้อความ (corpus) ข้อมูลที่แจกจ่ายโดย LDC มีหลายประเภท บางประเภทต้องเป็นสมาชิก (เสียเงินค่าสมาชิกแพงอยู่) จึงจะเรียกดูได้ บางประเภทซื้อแยกต่างหากได้โดยไม่ต้องเป็นสมาชิก บางประเภทก็ฟรี — แต่กรณี DVD 6 แผ่นนี่ ยังไงคงต้องเสียค่าส่งแน่ ๆ Google Research Blog announced: “All Our N-gram are Belong to You” … we decided to share…

  • TIGER API 1.8 released

    TIGER API is a library which allows Java programmers to easily access the structure of any corpus given as a TIGER-XML file. oeze, one of the authors of TIGER API, has leave a message to us today: BTW, Tiger API has moved. This is the new URL: TIGER API. We have also included a section…

  • LOTUS Thai Speech Corpus

    Chai Wutiwiwatchai wrote: NECTEC now lauches a large vocabulary continuous speech corpus namely LOTUS. It is freely downloaded at http://www.nectec.or.th/rdi/lotus It contains both a set of phonetically-balanced sentences with manually phone-boundary marked and three sets of large vocabulary continuous speech sentences covering Thai 5,000 words. Please find out its usefulness in your work. Chai

  • Developing Linguistic Corpora – free book

    Developing Linguistic Corpora: a Guide to Good Practice Edited by Martin Wynne Produced by the Arts and Humanities Data Service (AHDS) Free full text online (html).

  • Creative Commons for Corpus Construction

    เนื้อหาในเว็บที่เป็น Creative Commons (ภาษาไทย) เริ่มเยอะขึ้นเรื่อยๆ แล้ว ถ้าเรารวบรวมเนื้อหาเหล่านี้มาทำ คลังข้อความ (corpus) ได้ เวลาจะเอาข้อมูลในคลังนี้ไปใช้ทำอะไร ก็จะไม่ต้องกังวลเรื่อง license Derestricting web corpus building อืม อืม วีร์: ทำป่าวๆ 😀 เผยแพร่งานของคุณด้วย Creative Commons tags: linguistics, Creative Commons

  • Emdros – a database engine for annotated text

    เมื่อคืนวีร์พูดถึง Emdros ว่าน่าสนใจ สำหรับงานฐานข้อมูลทางภาษาศาสตร์ ก็เลยเข้าไปดูเว็บซะหน่อย Emdros is: an opensource text database engine for storage and retrieval of analyzed or annotated text. applicable especially in corpus linguistics and computational linguistics. equiped with a powerful query-language MQL, based on the Extended MdF mathematical model of text. A short paper explaninig Emdros. ข้างบนจะเห็นคำว่า Extended MdF หรือที่ในเว็บ Emdros จะใช้คำว่า…