Person API ขุดประกอบประวัติบุคคลจากอินเทอร์เน็ต

วันนี้ได้อ่านเกี่ยวกับบริการของบริษัท FullContact ซึ่งเพิ่งไปซื้อกิจการบริษัท Cobook ผู้ผลิตโปรแกรมสมุดโทรศัพท์ของ Mac มาเมื่อปลายปีก่อน

ความสามารถอันนึงของ Cobook และซอฟต์แวร์คล้ายๆ กัน อย่างตัว Contacts ของ Gmail ก็คือ มันสามารถ “merge” หรือรวมที่อยู่ติดต่อที่ซ้ำๆ กันให้มาเป็นอันเดียวได้ เช่น คนๆ นึงอาจจะมีมีหลายเบอร์โทร มีอีเมล มีทวิตเตอร์ มี LinkedIn มีบัญชีโซเชียลมีเดียอื่นๆ บางบัญชีใช้ชื่อจริง บางบัญชีเป็นชื่อเล่น ซอฟต์แวร์พวกนี้มันช่วยรวมทั้งหมดให้มาอยู่ในระเบียนเดียวกันได้ จะได้จัดการและค้นหาได้ง่ายๆ

แต่ก็ไม่ใช่ว่าจะ merge ได้เสมอไป ก็ได้บ้างไม่ได้บ้าง ตามความกำจัดของข้อมูลที่มีในสมุดโทรศัพท์นั้น ที่ถ้ามีข้อมูลน้อยเกินไปก็อาจจะมองไม่เห็นความเชื่อมโยงระหว่างกัน

FullContact Person API

ของ FullContact นี่เก่งกว่า เพราะมันไม่ได้ใช้เฉพาะข้อมูลเท่าที่เรามีในสมุดโทรศัพท์ มันไปดึงข้อมูลจากอินเทอร์เน็ตและจากแหล่งอื่นๆ มาด้วย ทำให้สามารถเห็นความเชื่อมโยงได้มากขึ้น สามารถประกอบชิ้นส่วนข้อมูลเล็กๆ เข้าด้วยกันเป็นข้อมูลประวัติบุคคลที่สมบูรณ์มากขึ้น

เช่น รู้แค่ชื่ออะไร ทำงานที่ไหน ก็หาเบอร์มือถือหรืออายุได้แล้ว เป็นต้น

คือในทางหนึ่ง มันก็สะดวกดี สำหรับคนที่ต้องการติดต่องานหรือมีธุระอะไรจำเป็น (และชอบธรรม)

แต่มันก็ทำให้เราได้เห็นว่า เครือข่ายสารสนเทศที่เชื่อมโยงไปทุกที่และพลังการประมวลผลของคอมพิวเตอร์ ก็ทำให้การเก็บรวบรวมข้อมูลชิ้นเล็กๆ ที่กระจัดกระจายในเครือข่าย แล้วเอามาประกอบเป็น “profile” หรือ “หน้าตา” ของคนๆ หนึ่ง มันเป็นไปได้ง่ายๆ

Person API ของ FullContact ก็เสนอบริการแบบนั้น มันใช้ข้อมูลที่เก็บรวบรวมมาจากทั่วอินเทอร์เน็ตและฐานข้อมูลที่เปิดเผยสาธารณะ เอามาประมวลผล ต่อจิ๊กซอว์ และสร้างประวัติของบุคคล พร้อมที่อยู่ติดต่อ อายุ และข้อมูลส่วนตัวอื่นๆ ได้

FullContact บอกว่าตัวเองเป็นบริษัทให้บริการ “contact management” ข้อมูลที่ให้บริการก็มี ประวัติบุคคล ชื่อ อีเมล พิกัดที่ตั้ง โดยโฆษณาว่า มีข้อมูลติดต่ออยู่ 1 พันล้านระเบียน สามารถจับคู่ข้อมูลพวกนี้ให้เราได้ 6 ใน 10 ครั้ง ในเวลาแค่ 150 มิลลิวินาที (หนึ่งวินาที จับคู่ให้เราแบบนี้ได้เกือบ 7 คน) และมีความแม่นยำสูงถึง 90%

หน่วยงานความมั่นคงก็ต้องมีอะไรทำนองนี้ใช้แน่ๆ ล่ะครับ ถ้าในตลาดมันมีซะขนาดนี้แล้ว

คำถามหนึ่งที่น่าสนใจคือ การเก็บรวบรวมข้อมูลมาประกอบร่างแบบนี้ ชอบด้วยกฎหมายไหม? คือข้อมูลพวกนี้ คนใช้เน็ตก็เปิดเผยให้กับผู้ให้บริการ หรือโพสต์เอาไว้ในเว็บไซต์หรือโซเชียลมีเดียของตัวเองอยู่แล้ว มันก็น่าจะเป็นข้อมูลที่ไม่ใช่ความลับ และเขาก็สมัครใจจะเปิดเผยเอง แต่ก็นั่นล่ะ การเปิดเผยส่วนนึงให้กับคนนี้ อีกส่วนนึงให้กับคนนั้น คนเปิดนี่ก็ไม่ได้คิดว่าข้อมูลพวกนั้น สุดท้ายมันจะถูกรวมร่าง กลายเป็นข้อมูลแบบสมบูรณ์เกี่ยวกับตัวเขา

เนื่องจากเมืองไทยยังไม่มีกฎหมายคุ้มครองส่วนบุคคลเป็นการเฉพาะ (แม้รัฐธรรมนูญจะระบุถึงสิทธิในความเป็นส่วนตัวเอาไว้หลายมาตรา) เราลองไปดูคำพิพากษาของศาลฎีกาสหรัฐที่คล้ายๆ กับเรื่องนี้กัน

“People disclose the phone numbers that they dial or text to their cellular providers, the URLS that they visit and the e-mail addresses with which they correspond to their Internet service providers, and the books, groceries and medications they purchase to online retailers . . . I would not assume that all information voluntarily disclosed to some member of the public for a limited purpose is, for that reason alone, disentitled to Fourth Amendment protection.” United States v. Jones, 565 U.S. ___, 132 S. Ct. 945, 957 (2012) (Sotomayor, J., concurring).
อ้างจาก International Principles on the Application of Human Rights to Communications Surveillance

“ผู้คนเปิดเผยหมายเลขโทรศัพท์ที่พวกเขาโทรหรือส่งข้อความ ให้กับผู้ให้บริการโทรศัพท์มือถือ เปิดเผยตัวชี้แหล่งในอินเทอร์เน็ต (URL) ที่พวกเขาเข้าชมและที่อยู่อีเมลที่พวกเขาติดต่อด้วย ให้กับผู้ให้บริการอินเทอร์เน็ต และเปิดเผยถึงหนังสือ ของชำ และยาที่พวกเขาซื้อ ให้กับผู้ขายปลีกทางอินเทอร์เน็ต … ศาลไม่เชื่อว่าข้อมูลทั้งหมดที่มีการเปิดเผยโดยสมัครใจให้กับสมาชิกบางคนในพื้นที่สาธารณะเพื่อจุดประสงค์เฉพาะอย่าง ไม่ควรได้รับการคุ้มครองตามข้อแก้ไขรัฐธรรมนูญครั้งที่ 4 (Fourth Amendment) เพียงเพราะเหตุผลนั้นเพียงอย่างเดียว” United States v. Jones, 565 U.S. ___, 132 S. Ct. 945, 957 (2555) (Sotomayor, J., พิพากษายืน).
อ้างจาก หลักการระหว่างประเทศว่าด้วยการใช้หลักสิทธิมนุษยชนกับการสอดแนมการสื่อสาร

Fourth Amendment หรือ ข้อแก้ไขรัฐธรรมนูญครั้งที่ 4 นี่พูดถึงสิทธิในความเป็นส่วนตัว พูดถึงเรื่องการขอค้นตัวค้นบ้าน

ศาลฎีกาในคดีนี้บอกว่า ใช่ คนน่ะเปิดเผยข้อมูลต่างๆ ให้กับผู้ให้บริการ แต่มันก็มีเจตนาในการเปิดเผยอยู่ ว่าเปิดเผยเพราะเขาจะรับบริการนี้ ในครั้งนี้ ดังนั้นข้อมูลก็ควรจะถูกใช้เพื่อการนั้นเท่านั้น ไม่ควรจะถูกเอาไปใช้ในเรื่องอื่นต่อ

เทคโนโลยีเปลี่ยนไปเร็วมาก ข้อมูลออนไลน์มากขึ้นเรื่อยๆ คอมพิวเตอร์เก่งขึ้นเร็วขึ้นเรื่อยๆ กฎหมายควรจะให้ความคุ้มครองที่ได้สัดส่วนกัน

(ภาพประกอบจากเว็บไซต์ FullContact)

MTG – CLAM – IUA – CREATE

คราวที่แล้ว แนะนำ Music Technology Group (MTG) ที่ Universitat Pompeu Fabra (UPF) ไป

วันก่อน เข้าไปดูรายชื่อโครงการใน Google Summer of Code ก็ไปเจอชื่อมหาลัย UPF อีกรอบ คือโครงการ “CLAM ( at the Universitat Pompeu Fabra)”

CLAM เป็นไลบรารีสำหรับพัฒนางานด้านการวิเคราะห์ สังเคราะห์ และเปลี่ยนรูป สัญญาณเสียงและดนตรี (ภาษา C++ ; สัญญาอนุญาต GPL ; Windows, GNU/Linux, Mac OS X) เขาว่าทุำกอย่างเป็นวัตถุ (object) หมด แล้วก็ยืดหยุ่น ใช้งานได้หลากหลาย
kijjaz (myspace) สนป่าว? 😀

โครงการ CLAM นี้ พัฒนาโดย Institut Universitari de l’Audiovisual (IUA),
Universitat Pompeu Fabra (ร่วมกับ CREATE – Center for Research in Electronic Art Technology ที่ UC Santa Barbara)

สถาบัน IUA นี้เน้นการศึกษาและวิจัยด้านสื่อดิจิทัล โดยครอบคลุมทั้งด้าน ภาพ เสียง ดนตรี การโต้ตอบ ประสาทวิทยา การรับรู้ อารมณ์ ปัญญาประดิษฐ์ การทำเหมืองข้อมูลและเว็บ – เรียกว่ารอบด้านการสื่อสารล่ะ

ดุริยางคศิลป์ มหิดล, ดุริยางคศาสตร์ ศิลปากร สนใจมั่งป่าว 😀

Sound and Music Computing .org

technorati tags:

YALE – Yet Another Learning Environment?

YALE – Yet Another Learning Environment?

ถ้าใครรู้จัก Weka .. นั่นแหละ มันคือประมาณ Weka แหละ (ซอฟต์แวร์สำหรับเอาไว้ทดลอง การเรียนรู้ของเครื่อง / การทำเหมืองข้อมูล) แต่ดูสดกว่า คงเพราะมาทีหลัง มีเครื่องมืออำนวยความสะดวกเพิ่มเติมจากที่ Weka มี อย่างตัวเลือก feature หรือเรื่อง XML อ้อ ใช้ตัว classifier/clusterer ของ Weka ใน YALE ได้ด้วยนะ อ่านฟอร์แมต ARFF ของ Weka ก็ได้ ดูจากภาพหน้าจอ YALE ทำ visualization ได้สวยกว่าด้วย

YALE is an environment for machine learning experiments and data mining. Experiments can be made up of a large number of arbitrarily nestable operators and their setup is described by XML files which can easily be created with a graphical user interface. Applications of YALE cover both research and real-world data mining tasks.

Weka นี่มาจากนิวซีแลนด์ ส่วน YALE มาจากเยอรมนี

แถม: Developer.com Gamelan: The Use of Java in Machine Learning by Sione Palu

tags: ,