Tag: natural language processing

  • Newline in GATE

    ใน GATE, ถ้าเราอยากรู้ว่า เอกสารที่เรากำลังทำงานอยู่เนี่ย มันใช้ อักขระขึ้นบรรทัดใหม่ (newline) แบบไหน ก็เรียกดูได้จากฟีเจอร์ที่ชื่อ “docNewLineType” โดย docNewLineType นี้ เป็น String มีค่าได้ 4 อย่าง: { “CR”, “LF”, “CRLF”, “LFCR” } CR คือ Carriage Return — ปัดแคร่(ไปซ้ายสุด) (\r ในหลายภาษาโปรแกรม), LF คือ Line Feed — เลื่อนบรรทัดใหม่ (\n) เพื่อขึ้นบรรทัดใหม่ เครือญาติ UNIX อย่าง Linux กับ Mac OS X ใช้ LF ตัวเดียว, ใน Mac OS (จนถึงรุ่น 9)…

  • Using dictionary with ICU4J BreakIterator

    การสร้างและเรียกใข้พจนานุกรมสำหรับตัดคำ ใน ICU4J จดวิธีการตัดคำด้วย DictionaryBasedBreakIterator ของ ICU4J และการสร้างพจนานุกรมตัดคำเอง (เฮ้! นี่คือ “จาวา” ขวัญอ่อน? รักสวยรักงาม? .. ระวังถูกงับมือ! เราเตือนคุณแล้วนะ :P) การสร้างไฟล์พจนานุกรมสำหรับตัดคำ ใช้โปรแกรม BuildDictionaryFile สร้างไฟล์พจนานุกรม, วิธีใช้คือ: BuildDictionaryFile input [encoding] [output] [list] input = ข้อมูลเข้า ไฟล์พจนานุกรม เป็นไฟล์ชนิดข้อความ หนึ่งคำต่อหนึ่งบรรทัด encoding = รหัสตัวอักษรของไฟล์พจนานุกรม เช่น TIS-620, UTF-8 (ถ้าไม่ใส่จะใช้ค่าปริยาย คือ UTF-8) output = ข้อมูลออก ผลลัพธ์ เป็นไฟล์ชนิดไบนารี (จะใช้เป็นอินพุตของคอนสตรัคเตอร์ของคลาส DictionaryBasedBreakIterator ต่อไป) list = ข้อมูลออก รายการคำที่ถูกบรรจุในพจนานุกรม (output)…

  • Statistical Machine Translation lecture at Kasetsart University

    บรรยาย: การแปลภาษาด้วยเครื่องด้วยวิธีทางสถิติ: อะไรที่เป็นไปได้ในวันนี้? โดย ฟิลิปป์ เคิห์น มหาวิทยาลัยเอดินบะระ สก็อตแลนด์ วันจันทร์ที่ 18 ธันวาคม 2549 – 9:30-11:30 น. ห้อง 204 ตึกวิศวกรรมคอมพิวเตอร์ (ตึก 15) มหาวิทยาลัยเกษตรศาสตร์ บางเขน ลงทะเบียน Lecture: Statistical Machine Translation: What is possible today? by Philipp Koehn, University of Edinburgh, Scotland Monday, December 18, 2006 – 9:30-11:30 am Room 204, Computer Engineering Building (Building 15), Kasetsart University Register…

  • Google n-gram are belong to YOU

    กูเกิล แจกโมเดล n-gram ซึ่้งกูเกิลใช้ในงานวิจัยต่าง ๆ เช่น การแปลภาษาอัตโนมัติ การแก้ตัวสะกดอัตโนมัติ การสกัดสารสนเทศ ฯลฯ โดยโมเดลนี้สร้างจากคำมากกว่า 1 ล้านล้านคำ โดยจะแจกจ่ายผ่าน LDC ในรูปของ DVD 6 แผ่น LDC นี่ เป็นหน่วยงานที่ทำงานด้านข้อมูลภาษาศาสตร์ พวกคลังข้อความ (corpus) ข้อมูลที่แจกจ่ายโดย LDC มีหลายประเภท บางประเภทต้องเป็นสมาชิก (เสียเงินค่าสมาชิกแพงอยู่) จึงจะเรียกดูได้ บางประเภทซื้อแยกต่างหากได้โดยไม่ต้องเป็นสมาชิก บางประเภทก็ฟรี — แต่กรณี DVD 6 แผ่นนี่ ยังไงคงต้องเสียค่าส่งแน่ ๆ Google Research Blog announced: “All Our N-gram are Belong to You” … we decided to share…

  • information & language blogs

    Stat. Graphics & Data Vis. — statistical graphics, data visualization, data analysis, user interfaces Data Mining — data mining, data visualization, data analysis Natural Language Processing — NLP, computational linguistics, machine learning Information Retrieval — IR, machine learning, NLP +1 paper: Less is more: probabilistic models for retrieving fewer relevant documents (pdf) by Harr Chen…

  • Topic Modeling

    ZDNet: Text mining the New York Times UCI: UCI researchers ‘text mine’ the New York Times, demonstrating evolution of potent new technology UCI researchers performed their experiment using a statistical topic model based on a text model developed at UC Berkeley in 2003. Thanks to an improved solution technique proposed by Mark Steyvers and a…

  • Computational Models of Discourse

    Computational Models of Discourse, a course by Regina Barzilay Johanna Moore and Peter Wiemer-Hastings. Discourse in Computational Linguistics and Artificial Intelligence [pdf] Alistair Knott’s publications tags: discourse computational computational linguistics natural language processing

  • LDC Thai resources

    Thai resources by the Linguistic Data Consortium REFLEX / Low Density Languages / Surprise Language / Website Less Commonly Taught Language / Thai harvest Thai web-based computational linguistics resources, collected by LDC tags: Thai linguistics computational linguistics nlp natural language processing language LDC

  • language translation Questionaire

    ช่วย ๆ กันครับ 🙂 แบบสอบถามการใช้โปรแกรมแปลภาษา — เนื่องด้วยศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ (NECTEC) ได้จัดทำโครงการสํารวจความต้องการใช้โปรแกรมแปลภาษา เพื่อใช้เป็นข้อมูลเบื้องต้น ในการกําหนดแนวทางการพัฒนาเทคโนโลยีที่เกี่ยวข้องกับการแปลภาษา ให้สอดคล้องตามความต้องการของผู้ที่ใช้งานมากที่สุด เพื่อให้บรรลุเป้าหมายดังกล่าวข้างต้น แบบสอบถามชุดนี้จึงถูกจัดทําขึ้น โดยมีเนื้อหาครอบคลุมถึงข้อมูลของผู้ใช้ ความคิดเห็นเกี่ยวกับโปรแกรมแปลภาษา และความคาดหวังต่อโปรแกรมแปลภาษา ทั้งนี้คณะทํางานจะรักษาข้อมูลที่ได้จากการสํารวจดังกล่าว ไว้เป็นความลับ และขอบคุณทุกท่านที่ได้ให้ความร่วมมือเป็นอย่างดีในการตอบแบบสํารวจชุดนี้ ร่วมตอบแบบสอบถาม เว็บไซต์แปลภาษาอังกฤษ↔ไทย Parsit (ภาษิต) tags: machine translation language NLP

  • The 1st School of Asian Applied NLP

    ใครสนใจก็ลองสมัครไปเรียนดูนะครับ รับประมาณ 30 คนได้ ไม่เห็นเค้าพูดถึงค่าใช้จ่ายเลย (หรือว่าออกให้ ฟรี ? :P) Asian Applied Natural Language Processing for Linguistics Diversity and Language Resource Development (ADD) is delighted to announce the call for participation of the First School of Asian Applied NLP (August 21 – September 1, 2006). More information, course outline and detail schedule. Important dates Jul 21,…