เปิดข้อมูลอย่างเดียวไม่พอ ต้องให้มัน machine-readable ด้วย!

สองสัปดาห์ก่อน พยายามจะเอาข้อมูลรายจ่ายภาครัฐมาใช้งาน แต่ก็พบปัญหาในการเอามาใช้ คือข้อมูลเท่าที่หาได้ มันไม่ machine-readable หรือ “อ่านด้วยเครื่องไม่ได้”

เขียนสรุปเอาไว้ที่บล็อกโอเพ่นดรีม: รายจ่ายภาครัฐ ประจำปีงบประมาณ 2544-2554 ในรูปแบบ machine-readable (ดาวน์โหลดข้อมูลในฟอร์แมต OpenDocument)

สาเหตุหลัก ๆ คือ:

  • เป็น PDF ไม่ใช่ CSV หรือข้อมูลในรูปแบบตารางที่คำนวณได้ อย่าง OpenDocument spreadsheet หรือ Excel
  • แย่กว่านั้น บาง PDF เป็นแบบรูปภาพ-สแกนหน้ากระดาษามา แถมเอียงหรือไม่ชัดอีกต่างหาก
  • PDF ที่เหมือนจะเป็นข้อความดี ๆ บางอันก็มีปัญหาการเข้ารหัสชุดตัวอักษร เช่นแสดงให้เห็นเป็น “๔๕,๐๐๐,๐๐๐,๐๐๐” แต่พอ copy มา paste ก็กลายเป็น “Ùı,,,” แบบนี้คือ human-readable แต่ไม่ machine-readable แบบชัด ๆ เลย
  • เอกสารใช้เลขไทย ซึ่งไม่ใช่ว่าทุก machine จะ read มันในฐานะจำนวนได้ — เช่นถ้าพิมพ์ “๔๕” ลงไปในสเปรดชีตของ Google Docs มันก็จะเห็นเป็น ข้อความ (string) “๔๕” แต่ไม่ใช่ จำนวน (int/float) ๔๕ ที่คำนวณได้ (ตัว LibreOffice นั้นเก่งหน่อย จัดการตรงนี้ได้ มองเห็นเป็นจำนวน)

เวลาจะเปิดข้อมูลสาธารณะ ต้องคิดถึงเรื่องพวกนี้ด้วย จะทำยังไง ให้ข้อมูลที่เปิดออกมา มัน machine-readable เพื่อให้คนเอาไปใช้ประโยชน์ต่อได้อย่างเต็มที่

เช่น ถ้าเป็นข้อมูลภาครัฐ การทำอย่างนั้น ก็จะช่วยให้ประชาชนประชาชนไม่จมอยู่กับกองข้อมูลมหาศาล ที่เอาไปใช้ได้ลำบากเหลือเกิน การเข้าถึงข้อมูลที่สะดวกขึ้น ก็จะทำให้ทุกคนสามารถมีส่วนร่วมกับการปกครองได้มากขึ้น ทั้งในแง่การเอาข้อมูลไปใช้ช่วยในการตัดสินใจในท้องถิ่นหรือในธุรกิจของตัวเอง และทั้งในแง่การตรวจสอบส่วนกลาง (ดูเพิ่มเติมที่บทสัมภาษณ์ ไกลก้อง ไวทยการ เรื่อง Open Data การพัฒนาเศรษฐกิจ-สังคม-การเมือง) ให้สมกับหลักการและเหตุผลของ พ.ร.บ.ข้อมูลข่าวสารของราชการ 2540 ที่ว่า:

ในระบอบประชาธิปไตย การให้ประชาชนมีโอกาสกว้างขวางในการได้รับข้อมูลข่าวสารเกี่ยวกับการดำเนินการต่างๆ ของรัฐเป็นสิ่งจำเป็น เพื่อที่ประชาชนจะสามารถแสดงความคิดเห็นและใช้สิทธิทางการเมืองได้โดยถูกต้องกับความจริง อันเป็นการส่งเสริมให้มีความเป็นรัฐบาลโดยประชาชนมากยิ่งขึ้น สมควรกำหนดให้ประชาชนมีสิทธิได้รู้ข้อมูลข่าวสารของราชการ … ทั้งนี้เพื่อพัฒนาระบบประชาธิปไตยให้มั่นคงและจะยังผลให้ประชาชนมีโอกาสรู้ถึงสิทธิหน้าที่ของตนอย่างเต็มที่

ทิม เบอร์เนิร์ส-ลี ผู้คิดค้นเว็บ แนะนำระบบการให้ดาว 5 ดาว เพื่อบอกว่า ข้อมูลเปิด (Linked Open Data) นั้น มีความ “เปิด” มากเพียงใด ดูตัวอย่างได้ที่เว็บไซต์ LiDRC Lab

  • ★ – หนึ่งดาว – มีข้อมูลให้ดาวน์โหลดบนเว็บ (จะฟอร์แมตไหนก็ได้) ด้วยสัญญาอนุญาตแบบเปิด
  • ★★ – สองดาว – จัดข้อมูลดังกล่าวให้เป็นรูปแบบข้อมูลที่มีโครงสร้าง (เช่น Excel แทนที่จะเป็นภาพสแกนของตาราง)
  • ★★★ – สามดาว – ใช้รูปแบบที่เปิดเผยข้อกำหนด ไม่สงวนเป็นความลับ (เช่น CSV แทนที่จะเป็น Excel)
  • ★★★★ – สี่ดาว – ใช้ URI เพื่อระบุสิ่งต่าง ๆ ในข้อมูล เพื่อที่คนจะได้ชี้ตรงมาที่ข้อมูลได้
  • ★★★★★ – ห้าดาว – เชื่อมโยงข้อมูลของคุณเข้ากับชุดข้อมูลอื่น ๆ เพื่อที่จะบอกบริบทของข้อมูล

(ดูรายละเอียดเพิ่มที่ Linked Open Data star scheme by example)

ตอนนี้ข้อมูลราชการของเรา น่าจะอยู่ประมาณ -1 ดาว ไปจนถึง 3 ดาว คือ

  • -1 ดาว : ไม่มีข้อมูลบนเว็บเลย
  • 0 ดาว : มีข้อมูลแต่ไม่แจ้งสัญญาอนุญาต (สำหรับข้อมูลบางอย่างที่กฎหมายระบุว่าไม่มีลิขสิทธิ์ อันนี้ก็ไม่มีปัญหา ก็เป็น 1 ดาวไป)
  • 1 ดาว : แบบที่ว่ามาข้างบน มาเป็น PDF คนอ่านได้ แต่ไม่มีโครงสร้างข้อมูล เครื่องอ่านไม่ได้
  • 2 ดาว : แบบบางชิ้นที่มีอยู่บนเว็บไซต์ data.pm.go.th ฐานข้อมูลเปิดภาครัฐ ที่มาเป็น Excel
  • 3 ดาว : เคยเห็นบางชิ้นบนเว็บไซต์สำนักงานสถิติแห่งชาติ ที่เป็น XML (แต่ยังไม่เห็น Schema นะ)

Thailand Open Data Catalog บัญชีข้อมูลเปิดของไทย

Open Data Thailand เป็นสมุดทะเบียนสำหรับชุดข้อมูลและเนื้อหาแบบเปิด เว็บไซต์นี้ทำงานด้วยซอฟต์แวร์ CKAN ซึ่งทำให้การค้นหา แบ่งปัน และใช้ข้อมูลซ้ำ ไปเป็นได้โดยง่าย โดยเฉพาะการทำงานเหล่านั้นด้วยวิธีการอัตโนมัติด้วยคอมพิวเตอร์

Open Data Thailand is an open registry of data and content packages. Harnessing the CKAN software, this site makes it easy to find, share and reuse content and data, especially in ways that are machine automatable.

ไอเดียของ Open Data Catalog คือ พยายามรวบรวมข้อมูลสาธารณะและข้อมูลภาครัฐ ที่เปิดเผยอยู่แล้วในอินเทอร์เน็ต แต่อาจจะกระจัดกระจายอยู่ หรืออยู่ในรูปแบบที่นำไปใช้ต่อไม่สะดวก มาจัดระบบระเบียบ ให้ค้นหาได้ง่าย เพื่อส่งเสริมการนำข้อมูลเหล่านี้ไปใช้ต่อ เพื่อประโยชน์ของสาธารณะ และหวังผลในเชิงรณรงค์ให้สังคมเห็นความสำคัญของการเปิดเผยข้อมูลสาธารณะในรูปแบบที่นำไปประมวลผลต่อได้โดยง่าย เพื่อกระตุ้นให้ภาครัฐเปิดเผยข้อมูลเหล่านี้ในรูปแบบที่เหมาะสมเองต่อไปในอนาคต ให้เป็นพันธกิจที่รัฐต้องมีต่อสาธารณะ

หลักการข้อมูลภาครัฐแบบเปิด (Open Government Data Principles)

ติดตามข่าว Open Data และ Data Journalism ได้จาก Guardian.co.uk Data Store

technorati tags: , ,

สัมภาษณ์ @klaikong เรื่อง “ข้อมูลเปิดภาคสาธารณะ” กับการพัฒนาเศรษฐกิจ-สังคม-การเมือง #opendata #opengov

Klaikong and Data visualization

ผมสัมภาษณ์ พี่แต๊ก ไกลก้อง ไวทยการ (@klaikong) เอาไว้เมื่อวันที่ 4 ธ.ค. 2553 ที่ผ่านมา ระหว่างเวิร์กช็อป “Open Data Hackathon” ที่ Opendream คุยกันเรื่องความเคลื่อนไหว “ข้อมูลเปิดภาครัฐ” หรือ “ข้อมูลเปิดภาคสาธารณะ” (Open Government Data หรือ Open Public Data) กับความจำเป็นของสังคมไทยที่ภาครัฐจะต้องเปิดเผยข้อมูลให้สาธารณะเข้าถึงได้ เพื่อให้ทุกภาคส่วนสามารถร่วมพัฒนาประเทศไปพร้อม ๆ กัน ด้วยการตัดสินใจบนข้อมูลที่รอบด้าน ในสถานการณ์โลกที่เปลี่ยนแปลงไปอย่างรวดเร็ว วันนี้เพิ่งถอดเทปเสร็จ

มีคุยกันเรื่องรูปแบบข้อมูล รวมถึงความเป็นไปได้ในการจะออกกฎระเบียบที่เกี่ยวข้อง :

เรื่องมาตรฐานข้อมูลเนี่ย ประเทศเราทำไม่ได้จริงซะที คุยกันมานานแล้ว ว่าจะต้องมีระบบมาตรฐาน จะต้องมี standard อะไรต่าง ๆ XML ฯลฯ แต่ถึงทุกวันนี้ เท่าที่เห็น ร้อยละ 80 ข้อมูลก็ยังอยู่ในรูปแบบ PDF ซึ่งอันนี้มันสะท้อนเรื่องวิธีคิดว่า ข้อมูลนี้ก็ยังเป็นข้อมูลของหน่วยงานนั้นอยู่ ถ้าอยากได้ข้อมูลดิบ (raw data) เพื่อจะเอาไปใช้ก็ต้องขออนุญาตก่อน เพราะ PDF มันเอาไปใช้ทำอะไรต่อไม่ได้ ไฟล์ PDF มันสะท้อนความเป็นเจ้าเข้าเจ้าของของข้อมูลอยู่

ถ้าเราพูดถึงการแลกเปลี่ยนข้อมูล ตัว PDF ก็ไม่ได้ออกแบบมาเพื่อจุดประสงค์นี้ … มันไปจบแค่การเปิดเอกสารเพื่อดู … ข้อมูลที่อิเล็กทรอนิกส์ที่จะแลกเปลี่ยนกันแล้วมีประโยชน์เอาไปใช้ต่อได้ มันต้อง “อ่านด้วยเครื่องได้” (machine readable)

สำหรับภาครัฐแล้ว เรามองอินเทอร์เน็ตเป็นสื่อ ดูได้จากการเอากฎหมายสื่อมาใช้กับอินเทอร์เน็ต พอมองเป็นสื่อนั่นแปลว่าการเปิดข้อมูลคือการเผยแพร่ แค่เผยแพร่ก็จบ … มันไม่ใช่ มันต้องไม่จบแค่ขั้นการเผยแพร่

คุยกันเรื่องมิติทางการปกครอง การพัฒนาท้องถิ่น และเศรษฐกิจ ของข้อมูลสาธารณะแบบเปิด :

ถ้าเราคิดว่า ข้อมูลภาครัฐทั้งหมดนั้นมันสร้างขึ้นมาด้วยเงินภาษี ด้วยเงินของสาธารณะ ข้อมูลภาครัฐเหล่านี้ก็ควรจะเป็นข้อมูลสาธารณะ ซึ่งเมื่อคิดได้ดังนี้แล้ว ข้อหนึ่งก็คือ มันต้องเปิดให้สามารถเข้าถึงได้ สองคือ ต้องเปิดในลักษณะที่ทุกคนสามารถเอาข้อมูลนั้นไปใช้ต่อได้ โดยไม่มีข้อจำกัด

การรวบรวมข้อมูลยังไงมันก็เป็นแบบล่างขึ้นบน แต่ปรากฎว่าเมื่อข้อมูลมันไหลขึ้นไปสู่ข้างบนแล้ว มันไม่เคยไหลกลับมาสู่ข้างล่างเลย … เวลาเราพูดถึงการกระจายอำนาจ สิ่งสำคัญอย่างหนึ่งก็คือ ท้องถิ่นต้องมีชุดข้อมูลเพื่อให้ทำงานได้ ให้ตัดสินใจได้ แต่ที่ผ่านมาท้องถิ่นไม่เคยมีข้อมูลเลย แล้วก็เลยไม่มีทักษะในการใช้ข้อมูลไปด้วย … ดังนั้น หนึ่งเลย ข้อมูลที่ท้องถิ่นส่งขึ้นไป ต้องถูกส่งกลับลงมาให้ท้องถิ่นใช้ด้วย

ทุกคนต้องใช้ข้อมูลในการตัดสินใจ โครงการนี้จะดีหรือไม่ดีกับบ้านฉันไหมตัวฉันไหม ก็จะทำให้ไม่ถูกฝ่ายหนึ่งฝ่ายใด ไม่ว่าจะฝ่ายสนับสนุนหรือคัดค้าน ใช้การโน้มน้าวได้ ทุกคนมีข้อมูล และตัดสินใจบนข้อมูลเหล่านี้

เวลาเราบอกว่าเปิดให้ “ทุกคน” เข้าถึงได้ มันรวมถึงภาคธุรกิจด้วย ซึ่งถ้าภาคธุรกิจนำข้อมูลเหล่านี้ไปใช้ แล้วมันสร้างความเจริญทางเศรษฐกิจให้กับประเทศได้ มันก็เหมาะสม ซึ่งตราบใดที่ข้อมูลเหล่านี้มันไม่กระทบต่อสิทธิส่วนบุคคลของประชาชนหรือเป็นภัยต่อความมั่นคง มันก็ควรจะต้องถูกเปิด

อ่านฉบับเต็มที่บล็อกโอเพ่นดรีม – ไกลก้อง ไวทยการ: “Open Data จะทำให้ประเทศเราวิ่งได้เร็วขึ้นอีกมาก”

ปี 2554 ที่จะถึงนี้ โอเพ่นดรีม, ChangeFusion, ธนาคารโลก สำนักงานกรุงเทพ และเพื่อน ๆ รวมถึงเครือข่ายพลเมืองเน็ต จะมีกิจกรรมเกี่ยวกับ Open Public Data ตลอดทั้งปี ตามความถนัดและจุดเน้นของแต่ละองค์กร ขอเชิญชวนทุกคนที่สนใจมาแจมกัน – ติดตามความเคลื่อนไหวได้ที่ OpenData.in.th

technorati tags: , , , ,


Lao44 – Free the Lao documents

Lao44 or Coalition for Lao Information, Communication and Knowledge is the largest repository of documents in Lao language.

The number 44 in Lao44 refers to Article 44 in the Constitution of Lao PDR, which says: Lao citizens have the right and freedom of speech, press and assembly; and have the right to set up associations and to stage demonstrations which are not contrary to the laws.

ลาว44 เป็นเว็บไซต์ที่เก็บรวมรวมเอกสารสาธารณะต่าง ๆ ที่เป็นภาษาลาว

เลขที่ 44 หมายถึงสิทธิพื้นฐานอันหนึ่งของพลเมืองลาวดังที่ระบุไว้ในรัฐธรรมนูญของ ส.ป.ป.ลาว มาตรา 44 ที่ว่า: พลเมืองลาวมีสิทธิเสรีภาพในการพูด, ขีดเขียน, รวมชุมนุม, จัดตั้งสมาคมและเดินขบวนที่ไม่ขัดกับระเบียบกฎหมาย

ຍີນ​ດີ​ຕ້ອນຮັບ​ເຂົ້າສູ່ ລາວ44.

ເລກທີ 44 ຫມາຍ​ເຖີງສິດ​ພື້ນຖານ​ອັນ​ຫນື່ງຂອງ​ພົນລະ​ເມືອງ​ລາວ​ດັ່ງ​ທີ່​ລະບຸ​ໄວ້​ໃນ​ ລັດຖະທຳ​ມະນູ​ນ ຂອງ ສ.ປ.ປ ລາວ
ມາດ​ຕາ​44 ທີ່​ວ່າ: “ພົນ​ລະ​ເມືອງ​ລາວ​ມີ​ສິດ​ເສ​ລີ​ພາບ​ໃນ​ການ​ປາກ​ເວົ້າ​, ຂີດ​ຂຽນ​, ໂຮມ​ຊຸມ​ນຸມ​, ຈັດ​ຕັ້ງ​ສະ​ມາ​ຄົມ​ແລະ​ເດີນ​ຂະບວນ​ທີ່​ບໍ່​ຂັດ​ກັບ​ລະ​ບຽບ​ກົດ​ໝາຍ​”

ໂດຍ ​ອີງ​ໃສ່​ນະ​ໂຍບາຍ​ຂອງ​ພັກ ແລະ ລັດຖະບານດ້ານ​ຂໍ້​ມູນ​ຂ່າວສານ ແລະ ການ​ສື່ສານ ດັ່ງ​ທີ່​ໄດ້​ລະບຸ​ໃນ​ແຜນ​ພັດທະນາ​ເສດຖະກິດ-ສັງຄົມ (2006-2010), ລາວ 44 ປະກອບສ່ວນ​ເຂົ້າ​ໃນ​ການ​ສ້າງ​ຄວາມ​ເຂັ້ມ​ແຂງ​ພ້ອມ​ທັງ​ຊຸກຍູ້​ການ​ມີ​ສ່ວນ​ ຮ່ວມ​ຂອງ​ປວງ​ຊົນ​ເຂົ້າ​ໃນ​ວຽກງານ​ການປົກ​ປັກ​ຮັກສາ ແລະ ສ້າງສາ​ປະ​ເທ​ດຊາດ ໂດຍ​ການ​ເປັນແຫ​ລ່ງຂໍ້​ມູນ​ຂ່າວສານ​ພາສາ​ລາວ ຂອງທຸກໆຂະ​ແຫນງ​ການ​ທົ່ວ​ປະ​ເທດ ເຊັ່ນ: ກະສິກຳ-ປ່າ​ໄມ້, ສຸຂະພາບ, ການ​ສຶກສາ, ພູມ​ປັນຍາ​ທ້ອງ​ຖີ່​ນ, ບົດບາດ ​ຍີ​ງ-ຊາຍ ແລະ ຮວມ​ໄປ​ເຖີງລະບຽບກົດ​ຫມາຍ, ແຜນການ ແລະ ນະ​ໂຍບາຍຕ່າງໆຂ​ອງ ລັດຖະບານ. ຂໍ້​ມູນ​ຂ່າວສານ​ປະກອບມີ​ຫລາຍ​ຮູບ​ຫລາຍ​ສີ​ເຊັ່ນ: ຟ້າຍເອກະສານ, ວິ​ດິ​ໂອ, ຮູບ​ພາບ ແລະ ການ​ສົນທະນາ​ກະທູ້​ຕ່າງໆ ເຊິ່ງຂໍ້​ມູນ​ຂ່າວສານທັງ​ຫມົດ​ເປັນ​ຮູບ​ແບບ​ດິຈີ​ຕ້ອນ.

ລາວ 44 ໄດ້​ຖືກ​ສ້າງ​ຂື້ນ ແລະ ບໍລິຫານ​ຮ່ວມ​ກັນໂດຍອົງການ Helvetas, ອົງການ​ບ້ານ​ຈຸດ​ສູ​ມສາກົນ (VFI), CRWRC, ອົງການ​ມິ​ດຕະພາບ​ເມັນ​ໂນ​ນາຍ (MCC), CIDSE, DED, ອົງການພັດທະນາປະເທດເນເທີແລນ (SNV), ກູ່​ມພັດທະ ນາບົດບາດ​ຍີ​ງ- ຊາຍ (GDG), ສະມາຄົມພັດທະນາກະສິກຳ ແລະ ສີ່ງແວດລ້ອມແບບຍືືນຍົງ (SAEDA), ສະມາຄົມພັດທະນາ ແລະ ຫລຸດຜ່ອນຄວາມທຸກຈົນ (PORDEA), ບໍລິສັດ ທີ່ປຶກສາດ້ານພັດທະນາ & ວິສາຫະກິດ ຈຳກັດ (EDC), ແລະ ສູນອົບຮົມຮ່ວມພັດທະນາ (PADETC) ໂດຍການສະຫນັບສະຫນູນຈາກກອງ​ສົ່ງ​ເສີມ​ກະ​ສິກຳ ແລະ ປ່າ​ໄມ້ (NAFES), ສະ​ຖາ​ບັນ​ຄົ້ນຄວ້າ​ວິທະຍາສາ​ດ ແລະ ເຕັກນິກກະ​ສິກຳ ແລະ ປ່າ​ໄມ້ (NAFRI) ແລະ ​ໂຄງການສົ່ງເສີມກະສິກຳ (LEAP).

ขอบคุณเพื่อน ๆ ในทวิตเตอร์ @tewson @au8ust @kengggg @amaudy @lewcpe สำหรับคำอ่านคำแปลพาสาลาวครับ 🙂

แถม: อ่านลาว – Chrome extension แปลงอักษรลาวเป็นอักษรไทย

technorati tags: , ,