hidden text in Kapook again

รู้จาก duocore.tv และตามไปอ่านในบล็อก mormmam และ pittaya

เรื่องเดิม ๆ ครับ คล้าย ๆ กับที่เคยเป็นข่าวไปก่อนหน้านี้ กับการทำ search engine “optimization”

Big blackhat SEO in thailand again (รูปภาพ นิกกี้ เพลย์บอย หนุ่มหล่อ ถ่ายแฟชั่น ยั่วน้ำลาย ชาวเกย์)

Hidden text again (รูปภาพ Wonder Girls 5 สาวสวย ดาราเกาหลี)

เท่าที่ดู คราวนี้นี่ไม่ได้เป็น spam เพราะว่าเนื้อหาก็ออกมาทำนองคำค้นพวกนั้น (ไม่เหมือนครั้งก่อน) แต่อย่างไรก็ตาม hidden text นี่มันก็ถือว่าเอาเปรียบเว็บไซต์อื่น ๆ เขา ในแง่ว่าไปดันอันดับคนอื่นในเสิร์ชเอนจิน (ไม่ได้ใช้ clear text เหมือนกันหมด แฟร์ ๆ)

ทั้งนี้ ดูจากโค้ด HTML ในหลาย ๆ หน้า ก็ไม่น่าจะใช่ user-generated content ด้วยแน่ ๆ (อย่างที่เคยอ้างในครั้งก่อน) น่าจะเป็นการเขียนโปรแกรมแทรกชุดคำดังกล่าวเข้าไป

กรณีนี้ผิดไหม ผมก็คงไปตัดสินแทนใครไม่ได้ แต่ละองค์กรก็มีแนวนโยบายการดำเนินธุรกิจที่แตกต่างกันไป เว็บไซต์ไหน เสิร์ชเอนจินไหน ผู้ใช้คนไหน จะคิดอย่างไร ก็เป็นเรื่องของเขาละกันครับ แต่ก็คงจะน่ารักดี ถ้า ทำก็บอกว่าทำ ไม่ต้องโกหก บ่ายเบี่ยง เลี่ยงประเด็น หรือดิสเครดิตคนที่เขาชี้ให้เห็น ไม่มีอะไรน่าอาย ถ้าคิดว่ามันไม่ผิดครับ 🙂

technorati tags:
,
,

MSDN blogs on Nat Lang and Search

ทีมวิจัยพัฒนาของไมโครซอฟท์ ที่ทำด้านภาษาธรรมชาติในโปรแกรมออฟฟิศ และเครื่องมือค้นหาระดับองค์กร

Microsoft Office Natural Language Team Blog
คุณสมบัติที่เกี่ยวข้องในชุดออฟฟิศ ก็จะเป็นพวก ตัดคำ ใส่ยัติภังค์ (hyphenation) ตรวจและแนะนำตัวสะกด ตรวจและแนะนำไวยากรณ์ แปลภาษาอัตโนมัติ ย่อความอัตโนมัติ ค้นหาคำ

Microsoft Enterprise Search Blog
จะเป็นพวกคุณสมบัติการค้นหา ในโปรแกรมฝั่งเซิร์ฟเวอร์ เช่น Search Server, Office SharePoint, Windows SharePoint, Exchange Server, SQL Server รวมไปถึงการทำงานร่วมกับโปรแกรมของบริษัทอื่นด้วย เช่น Lotus Notes
หรือการนำคอมโพเนนท์ที่เกี่ยวข้องของไมโครซอฟท์เอง มาให้บริการในสภาพการทำงานแบบองค์กร เช่น การนำเอา
Virtual Earth Interactive Maps มาใช้

ใครสนใจก็ตามอ่านกันได้ครับ บานเลย – -“

โพสต์ที่น่าสนใจ เช่น สร้างคลังข้อความจากเว็บ ด้วย Live Search API

technorati tags:
,
,
,
,

Goliath vs Networked Davids

Goliath vs Networked Davids
somewhat self-regulated Internet and power of grassroot reporters ?

ข้างล่างเป็นเมลที่เพิ่งส่งออกไป ขี้เกียจจัดหน้า แปะมันงี้เลยละกัน จะนอนแล้ว

เมื่อคนเล่นเน็ต/ผู้ใช้บริการ ตรวจสอบ เว็บไซต์/ผู้ให้บริการ
ที่ทำผิด norm [บรรทัดฐาน] ของสังคมอินเทอร์เน็ต (แม้ว่าอาจจะไม่ผิดกฎหมายก็ตาม)

ผมคิดว่าเรื่องเว็บไซต์ ไม่ใช่เรื่องน่าสนใจนัก (เว็บไซต์ประเภทนี้มีเยอะแยะ)
เมื่อเทียบกับกระบวนการทั้งหมดที่ทำให้เรื่องมัน ‘แดง’ และ ‘ดัง’ ขึ้นมา
ผมคิดว่ากระบวนการนี้น่าสนใจ จึงขอลำดับเหตุการณ์คร่าว ๆ ให้เพื่อน ๆ ได้ทราบกัน
(กรุณาอ่านต่อในรายละเอียดต่อเองในแต่ละลิงก์ – ศัพท์บางคำอาจจะใหม่ แต่ไม่น่าจะยากเกินทำความเข้าใจ)

ผมขอแสดงความเห็นในเรื่องนี้ก่อน ก่อนจะเข้าส่วนของลำดับเหตุการณ์:

  1. เรื่อง blackhat SEO, spamdexing เป็นเรื่องผิดมารยาทต่อผู้ประกอบการรายอื่น
    และละเมิดสิทธิในการรับรู้ข่าวสารที่มีคุณภาพของผู้ใช้อินเทอร์เน็ต
    Google, Yahoo!, Microsoft และเสิร์ชเอนจิ้นต่าง ๆ ควรตรวจสอบ
  2. และ (1) ทำให้เรื่องนี้เกี่ยวข้องกับการปั่นตัวเลขจำนวนผู้เยี่ยมชมเว็บ
    ในแง่โฆษณาแล้ว ตัวเลขนี้มีผลต่อราคาเช่าพื้นที่โฆษณาบนเว็บไซต์
    ทำแบบนี้เท่ากับคนซื้อพื้นที่โฆษณาจ่ายเงินซื้อจำนวนผู้เยี่ยมชมปลอม ?
    เอเยนซี่โฆษณา, media buyer, และศูนย์วิจัย (ที่นำตัวเลขไปใช้) ควรตรวจสอบ
  3. ผมไม่มีปัญหาเท่าไรนัก กับเว็บประเภท xxx คิดว่ามันก็คงต้องมีที่ทางของมัน
    ถ้าต้องการป้องกันลูก พ่อแม่ก็ติด filter ที่เครื่องคอมแต่ละเครื่องได้
  4. แต่กรณีนี้เป็นกรณีพิเศษ ที่ (3) มีความสำคัญ
    เนื่องจาก (บริษัทที่บริหารโดย) ผู้รับผิดชอบเว็บไซต์ดังกล่าวนั้น
    เป็นผู้ดูแล “โครงการอินเทอร์เน็ตสีขาวเพื่อเยาวชน” และ
    “ปลาวาฬ เบราเซอร์ – ท่องเน็ตปลอดภัย ห่วงใยเยาวชน” ด้วย
    ซึ่งจุดประสงค์ของโครงการทั้งสองอันนี้ ขัดกับเนื้อหาประเภท xxx ในเว็บไซต์ดังกล่าวแน่
    ซึ่งเมื่อเป็นแบบนี้ ก็จะเห็นได้ว่า มี conflict of interest
    สสส., กระทรวงศึกษา, สำนักงานคณะกรรมการการศึกษาขั้นพื้นฐาน,
    สมาคมผู้ดูแลเว็บไทย ในฐานะผู้ให้ทุน/สนับสนุน ควรตรวจสอบ
  5. เรื่องนี้เป็นเรื่องที่ผู้ใช้อินเทอร์เน็ต และผู้ประกอบการบนอินเทอร์เน็ตให้ความสนใจมาก
    สมาคมผู้ดูแลเว็บไทย และ สภาวิชาชีพผู้ดูแลเว็บไทย
    ควรจะให้ความเห็นและแสดงจุดยืนในเรื่องดังกล่าวข้างบนให้ชัดเจน เพื่อประโยชน์ของวงการอินเทอร์เน็ตไทย
    (หมายเหตุ: ผู้รับผิดชอบเว็บไซต์ในข่าว เป็นนายกสมาคมผู้ดูแลเว็บไทยคนปัจจุบัน
    http://www.webmaster.or.th/committee.html )

—-

เมื่อคนเล่นเน็ต/ผู้ใช้บริการ ตรวจสอบ เว็บไซต์/ผู้ให้บริการ
ที่ทำผิด norm [บรรทัดฐาน] ของสังคมอินเทอร์เน็ต (แม้ว่าอาจจะไม่ผิดกฎหมายก็ตาม)

เริ่มจากอาการอยู่ไม่สุขของคนเล่นเน็ต
ที่ไปเจอหน้าเว็บแห่งหนึ่ง (เป็น subdomain ของเว็บไซต์ใหญ่อีกที)
จึงได้เขียนบล็อกเกี่ยวกับเรื่องนี้
http://pittaya.com/2008/03/19/xxx-kapook-com/

และข่าวได้กระจายออกไปด้วยเครื่องมือต่าง ๆ
รวมทั้ง IM, microblogging (twitter.com) และ social bookmark
http://zickr.com/internet/xxxkapookcom-1
http://duocore.tv/story.php?id=2630

ชาวเน็ตอื่น ๆ รู้และบอกต่อ เสริมมุมมองและการค้นพบเพิ่มเติมของตัวเอง
http://bact.blogspot.com/2008/03/xxxkapookcom.html
http://www.eblogbiz.com/2008/03/kapook-blackhat-seo.html
[…]
http://www.blognone.com/node/7279

ก่อให้เกิดปฏิกริยาจากตัวเว็บไซต์
ปรับเปลี่ยนหน้าเว็บที่ถูกพูดถึง
ทำให้ว่าง -> เปิดใหม่ เอารูปออก -> เปลี่ยนข้อความ

บล็อกเกอร์บันทึกและรายงานความเปลี่ยนแปลงเหล่านั้น
http://pittaya.com/2008/03/19/where-is-xxx-kapook-com/
http://pittaya.com/2008/03/20/xxx-kapook-com-relaunch/
http://projectlib.wordpress.com/2008/03/20/xxx-kapook-come-back-again/
http://pittaya.com/2008/03/20/x-file-xxx-kapook-com/

และนำไปสู่การรายงาน ของสื่ออินเทอร์เน็ตรายใหญ่
โดยใช้ข้อมูลและภาพจากบล็อกต่าง ๆ
พร้อมกับการสัมภาษณ์ผู้รับผิดชอบเว็บไซต์ดังกล่าว
http://www.manager.co.th/CyberBiz/ViewNews.aspx?NewsID=9510000034021

และปฏิกริยาสะท้อนกลับ (+แสดงเหตุผล/หลักฐานโต้แย้งคำให้สัมภาษณ์)
จากผู้ใช้อินเทอร์เน็ต
http://pittaya.com/2008/03/20/kapook-on-manager/
http://www.eblogbiz.com/2008/03/exoneration-from-kapook.html
[…]
http://arayachon.org/forum/arayachon/413

มีภาษาต่างประเทศด้วย (ญี่ปุ่น, อังกฤษ)
http://thaida.wordpress.com/2008/03/20/kapook%E7%A5%AD%E3%82%8A/
http://www.zezore.com/2008/03/21/news/blackhat-seo-on-kapookcom/

และนำไปสู่การเปิดเวทีเพื่อชี้แจงซักถาม โดยเว็บไซต์ดังกล่าว
ในวันเสาร์ที่ 22 นี้ (บ่ายโมง บ้านไร่กาแฟ เอกมัย)
โดยมีคนจากสมาคมผู้ดูแลเว็บไทยเป็นผู้ประสาน
http://blog.macroart.net/2008/03/kapook-talk-with-webmaster-poramate.html

สรุปภาพรวมเรื่องเทคโนโลยีที่ทำให้เรื่องเหล่านี้เกิดขึ้นได้ ** (น่าสนใจมาก)
http://ipats.exteen.com/20080321/entry

ลิงก์ต่าง ๆ ที่เกี่ยวข้อง
http://pittaya.com/2008/03/21/feedbacks-from-the-blogosphere/

—-

ความเคลื่อนไหวต่าง ๆ หลังจากนี้
สามารถติดตามได้จากบล็อกของ pit http://pittaya.com/
และบล็อกอื่น ๆ ครับ
ทีวีออนไลน์สองแห่งจะทำสกู๊ปเรื่องนี้ด้วย คือ
http://fukduk.tv/ และ http://duocore.tv/

ขอบคุณครับ

🙂

technorati tags:
,
,
,
,
,
,

xxx.kapook.com

This news in English: Blackhat SEO on Kapook.com, at Quando Omni Flunkus Moritati blog

In Japanese 日本語: kapook祭り, タイだ。

เสาร์ 22 มีนา บ่ายโมง – Kapook ชวนคุยเรื่องนี้
@ บ้านไร่กาแฟ เอกมัย (BTS เอกมัย)

pittaya เจ้าเก่าของเรา คุ้ยแคะแกะเว็บเอาเปรียบชาวบ้าน มาให้เราดูกันอีกแล้วครับ

คราวนี้เป็นเว็บยอดฮิตซะด้วย…

xxx.kapook.com

จะเป็นยังไง ลองไปอ่านที่ pittaya เขียนไว้ดู ได้รู้ได้เห็นทั้งหมดแล้วก็ เฮ่อ… อีกแล้วหนอ…

“คลิป sex xxx หนังโป๊ เรื่องเสียว”

เหล่านี้ล้วนเป็นคำที่ติดอันดับการค้นหาสูงอันดับต้น ๆ ในประเทศไทย
และมันก็ยั่วยวนเหลือเกิน ที่จะนำคำเหล่านี้มาใส่ไว้ในเว็บของตัว เพื่อหวังทำอันดับการค้นหาให้สูงขึ้น
หรือที่เราเรียกกันว่า Search Engine Optimization (SEO)

การทำ SEO นั้น จะว่าไปก็เป็นเรื่องที่สามารถทำได้ แต่มันก็มีขอบเขตอยู่ —
การนำเอาคำสำคัญ (คีย์เวิร์ด) ต่าง ๆ มาใส่ไว้ในหน้าเว็บ ทั้ง ๆ ที่ไม่เกี่ยวกับเนื้อหาของเว็บเลย
หรือพูดอีกอย่างก็คือ ใส่เข้ามาเพื่อหวังผลให้อันดับเว็บสูงขึ้นเท่านั้น เป็นเรื่อง อืม จะใช้คำว่าอะไรดี ขี้โกง ได้มั๊ย ? หรือพูดให้สุภาพหน่อยก็คือ ไม่มีความรับผิดชอบต่อผู้ใช้อินเทอร์เน็ต (ทำไมลิงก์ของคุณ ซึ่งไม่ได้เกี่ยวข้องกับสิ่งที่ผู้ใช้ต้องการหา ถึงต้องขึ้นมากินที่ลิงก์อื่น ๆ ที่เกี่ยวข้องกว่าด้วย ?
หรือพูดอีกอย่างก็คือ ทำให้ผู้ใช้ค้นหาข้อมูลที่เกี่ยวข้องได้ลำบากขึ้น ถ้าใช้คำของกูเกิลก็คือ “detract from users’ ability to locate relevant information”)

xxx.kapook.com Blackhat SEO
"xxx" on Truehits

การทำแบบนี้ เรามีชื่อเรียกมันว่า blackhat SEO หรือ spamdexing (spam + indexing ทำให้มีดัชนีขยะในเสิร์ชเอนจิ้น “สแปมเด็กซิ่ง” ชื่อเท่มะ)
และ spamdexing นี้ ก็ผิดนโยบายของกูเกิลและเสิร์ชเอนจิ้นต่าง ๆ ด้วย (อย่างที่ได้ว่าไปแล้วข้างบน)

บางคนอาจจะบอกว่า เอ๊ะ แต่ถ้ากดเข้าไปดูที่ xxx.kapook.com นี่ เราก็จะเจอเนื้อหาหวิว ๆ อะไรเต็มไปหมดเลยนี่ ก็ไม่เห็นจะ spam ตรงไหน หา xxx ก็ได้ xxx ก็โอเคนี่
… ลองไปดูที่ pittaya ชำแหละโค้ด HTML ครับ จะเห็นว่ามันไม่ได้เป็นอย่างนั้น

นอกจากนี้ ลิงก์ที่โยงออกไปจากหน้า xxx.kapook.com นี้ จำนวนหนึ่ง ก็เป็นหน้าสำหรับทำ spamdexing เช่นกัน
เช่นหน้า http://hilight.kapook.com/view/19283
เราจะพบว่า ในหน้านั้นเราจะเจอคำซ้ำ ๆ จำนวนหนึ่ง เพื่อดักเสิร์ชเอนจิ้นอีกเช่นกัน

“ขายตัว ขาย sex เซ็กส์ เซ็กซ์”

kapook spamdexing

ลองดูเรื่องนี้เพิ่มได้จาก ผู้เชี่ยวชาญด้าน SEO ครับ มีทั้งประเด็น hidden text, 1×1 pixels div, SEO rewrite เพื่อเพิ่ม keyword density พร้อมภาพประกอบครับ

 

เอาละ… ลำพังข้อหา spamdexing ก็สาหัสพอแล้ว
แต่สำหรับกรณี xxx.kapook.com นี้ยังไม่หมดแค่นั้น
เพราะยังมีเรื่องของ conflict of interest ด้วย!

conflict of interest ความสนใจขัดแย้งกันเอง ลักลั่นอย่างไร ?

เว็บ Kapook.com นี้ เจ้าของคือ บริษัท บัณฑิต เซ็นเตอร์ จำกัด มี คุณปรเมศวร์ มินศิริ เป็นกรรมการผู้จัดการ

บังเอิญว่าคุณปรเมศวร์คนเดียวกันนี้ ก็เป็นผู้จัดการ โครงการอินเทอร์เน็ตสีขาวเพื่อเยาวชน อีกด้วย (สนับสนุนโดย สำนักงานกองทุนสนับสนุนการสร้างเสริมสุขภาพ-สสส. และ สมาคมผู้ดูแลเว็บไทย)
และเกี่ยวข้องทางใดทางหนึ่งกับ ปลาวาฬ เบราเซอร์ ซึ่งมีสโลแกนว่า “ท่องเน็ตปลอดภัย ห่วงใยเยาวชน” (สนับสนุนโดย กระทรวงศึกษาธิการ, สำนักงานคณะกรรมการการศึกษาขั้นพื้นฐาน, สสส. และ สมาคมผู้ดูแลเว็บไทย)

อ้อ สมาคมผู้ดูแลเว็บไทย ที่สนับสนุนทั้งสองโครงการดังกล่าว มีคุณปรเมศวร์เป็นนายกสมาคมด้วย

thaicleannet.com

ใช้ xxx ด้วย – ต้าน xxx ด้วย

ก็งง ๆ ดีครับ

อาจจะเป็นว่า ธุรกิจก็จะเอา เงินสนับสนุนจากกองทุนก็อยากจะได้ … มันเลือกลำบาก
ก็เลยขอทั้งสองอย่างแล้วกัน … สมัยนี้ใคร ๆ ก็อยากรวยเร็วกันทั้งนั้นนี่นา — บางทีคุณที่ไปว่าเขา ตัวคุณเองถ้ามีโอกาสก็อาจจะทำแบบที่เขาทำก็ได้ จริงไหม ?

ตอนนี้ หลังจาก pit โพสต์ไปไม่นาน Kapook เขาก็ปิด xxx.kapook.com หนีไปแล้ว (ทำเป็นหน้าว่าง ทั้งหน้ามีแค่ <html></html> … “อินเทอร์เน็ตสีขาว” สมใจ) ใครอยากดูร่องรอย ตามไปดูได้ที่ Google cache (หน้า ณ วันที่ 13 มี.ค. 2551 เวลา 00:14:28 GMT) ไม่สมบูรณ์เท่าหน้าจริง พวกเลย์เอาท์นี่เละหมดเลย แต่เนื้อหายังน่าจะครบดี (ดูแบบที่เลย์เอาท์ยังดี ๆ อยู่ ได้ที่บล็อก pittaya เขาจับไว้ได้ทันก่อนโดนลบ) — update: Yahoo! Search cache เก็บไว้ได้ครบทุกอย่างเลย เจ๋งมากลองไปดูได้ครับ

xxx-kapook-com in Google cache (1)
xxx-kapook-com in Google cache (2)

หลักฐานอื่น ๆ ที่แสดงให้เห็นว่า xxx.kapook.com เคยมีอยู่จริง เช่นที่หน้า http://play.kapook.com/vdo/show-31427 ของกระปุกเอง

"xxx.kapook.com" on Google

คลิกเข้าไปแล้วเป็นแบบนี้ มีบอกให้ไป “ติดตามต่อได้ที่ xxx.kapook.com”

play.kapook shows xxx.kapook.com address

 

pittaya อัพเดทวันนี้ (2008.03.20): xxx.kapook.com กลับมาอีกแล้ว ในแบบ ‘เนียนเนียน’ ขึ้น — ข้อความดูเบาลง แต่ใน meta ยังมีคีย์เวิร์ดครบอยู่นะครับ

pit ยังเกาะติด (2008.03.20): Kapook XXX กลายเป็น Kapook X-File?

ต่อมา ผู้จัดการออนไลน์ CyberBiz ลงข่าว ปรเมศร์ยกกรณี xxx.kapook.com บทเรียนราคาแพง ประมาณว่าเป็นความผิดพลาด ไม่ได้ตั้งใจ

ซึ่ง pit ก็ให้ความเห็นต่อคำชี้แจงของกระปุก และ MorMMaM ผู้เชี่ยวชาญ SEO ก็ร่วมชี้จุดน่าสงสัยในคำชี้แจงด้วย — โดยสรุป สั้น ๆ แล้วก็คือ ที่กระปุกว่ามา มันฟังไม่ค่อยขึ้น หลักฐานมันฟ้องชัดเกินไป เว็บ kapook.com มันหลายหน้า ตามแก้ยังไม่หมด และถึงจะแก้ได้หมดแล้ว แต่ที่ Google Cache / Google search results / ลิงก์จากหน้าเว็บอื่น ๆ มันก็ยังอยู่อยู่ดี และไปตามแก้ไม่ได้ด้วย

 

→ สรุปความเห็นผมต่อกรณีนี้+ลำดับเหตุการณ์ ที่ Goliath vs Networked Davids

 

อย่าเผลอ… ครั้งที่แล้วก็ทีนึงแล้ว เรื่อง iframe ขนาด 0 พิกเซล กับฮิตหน้าโฆษณา

 

[ ข่าวนี้ที่ pittaya, Zickr, duocore, Blognone, พันทิป.คอม, lab.tosdn, อารยชน, Manager, SEM, SEO knowledge in Thailand, projectlibthaida (Japanese 日本語 ภาษาญี่ปุ่น)Quando Omni Flunkus Moritati (English ภาษาอังกฤษ) ]

technorati tags: 

MySQL Thai full-text parser plug-in idea

MySQL 5.1 allows us to use a customized full-text parser.

poakpong ถามเรื่อง fulltext ในฐานข้อมูล MySQL ว่าเอาไว้ทำอะไร

ก็คือมันเอาไว้ระบุไว้ที่ช่องข้อมูล (field) ประเภทข้อความ (char, varchar, text) เพื่อบอกให้ MySQL มันทำดัชนี (index) สำหรับการค้นหาแบบ full-text search น่ะ

ที่เคย ๆ เขียนกัน เวลาจะหาอะไรใน MySQL เราก็จะใช้ LIKE "%คำที่หา%"
โดย LIKE มันจะวิ่งไปเปรียบเทียบข้อความในแต่ละช่องข้อมูล ทำนอง regular expression

ส่วนกรณี full-text search ใน MySQL จะใช้คำสั่ง MATCH (ชื่อฟิลด์) AGAINST (คำที่หา)
ซึ่งมันจะค้นจากดัชนีคำที่ MySQL ทำไว้ล่วงหน้า ซึ่งการค้นหาที่ตัวดัชนีแทนที่จะไปหาในตัวข้อความทั้งหมดนี้ ก็จะทำให้การค้นหามีประสิทธิภาพดีกว่า

อย่างไรก็ตาม การใช้ full-text search นี้ ก็ยังมีปัญหาสำหรับภาษาไทย นั่นก็คือ ตัวทำดัชนีคำน่ะ มันยังไม่รองรับภาษาไทย-ภาษาที่ต้องตัดคำก่อน (มีรองรับภาษาจีน/ญี่ปุ่นนิดหน่อย)

full-text search จึงยังใช้ไม่ได้สำหรับภาษาไทย ต้องใช้ LIKE กันไปก่อน

ใน MySQL รุ่น 5.1 (ตอนนี้ยังเป็น Release Candidate อยู่) ปัญหานี้ดูเหมือนจะมีทางออกได้ (ถ้ามีคนลงแรง)
เพราะ MySQL 5.1 เปิดช่องให้เขียน plug-in มาเสริมการทำงานได้ ซึ่งรวมถึง full-text parser plug-in ด้วย

full-text parser นี่ มีเอาไว้สร้างรายการคำเพื่อเอาไปใส่ในดัชนี

ถ้าเรามี full-text parser ที่สร้างรายการคำไทยได้ เราก็จะสามารถใช้ฟังก์ชั่น full-text search บน MySQL กับภาษาไทยได้ทันที ที่ระดับฐานข้อมูลเลย (แน่นอน เราต้องมีสิทธิลงปลั๊กอินที่ว่าลงในเซิร์ฟเวอร์ฐานข้อมูลด้วย ซึ่งในกรณีเราไปเช่าเว็บโฮสต์คนอื่นใช้ ก็คงลำบากหน่อย แต่ถ้าเป็นเครื่องเราเอง ก็ไม่มีปัญหา)

ไลบรารีตัดคำไทยที่ใช้งานได้นั้น เราก็มีแล้ว เช่นใน libthai หรือจะใช้ ICU/libicu ก็ได้ แม้ทั้งหมดนี้จะต้องมีการปรับแต่งเพื่อการสร้างดัชนีด้วย (ลักษณะของคำที่ตัดออกมาเพื่อจัดหน้ากระดาษ เพื่อทำดัชนี เพื่อการแปล เพื่องานที่ต่างกัน ก็มีลักษณะแตกต่างกัน) แต่คิดว่าน่าจะอยู่ในวิสัยที่จะทำได้

เป็นโครงงานจบการศึกษา – senior project – Google Summer of Code – ประกวด NSC … ??

(ภาษาโปรแกรม C หรือ C++)

(อาจจะมีคนทำอยู่/เสร็จแล้วก็ได้ … เหมือน อ.ธวัชชัย กับ พี่สัมพันธ์ เคยสนใจ (แต่ตอนนั้นโครงสร้างพื้นฐานยังไม่อำนวยให้แก้ไขได้ในลักษณะปลั๊กอินเช่นนี้) … ใครรู้อะไรก็แจ้งข่าวหน่อยครับ 😉 )

technorati tags: 

The $25,000,000,000 Eigenvector

บทความอธิบาย พีชคณิตเส้นตรง พีชคณิตเชิงเส้น สิ่งสำคัญของอัลกอริธึม PageRank ของ Google, โดย Kurt Bryan

The $25,000,000,000 Eigenvector: The Linear Algebra Behind Google, in the Education section of the August 2006 issue of SIAM Review. This is a paper I wrote with Tanya Leise at Amherst College. It gives an undergraduate-oriented explanation of the beautiful and simple linear algebra that lies behind an important facet of Google’s PageRank algorithm. The page has some demo code.

[ผ่าน siit.net]

update 2007.05.25: แก้จาก “พีชคณิตเส้นตรง” เป็น “พีชคณิตเชิงเส้น” – ขอบคุณ พ่อหมาอ้วน

technorati tags:

SWSE – Semantic Web Search Engine

เสริชเอนจินสำหรับ Semantic Web
SWSE

SWSE ออกเสียงเหมือน “swishy”
โลโก้เป็นรูปเข็มทิศสองอัน ชี้ไปทางทิศตะวันตกเฉียงใต้ (SW) และตะวันออกเฉียงใต้ (SE)

ทำลายสถิติโลก – สามารถค้นคำตอบจากประโยค RDF จำนวน 7 พันล้านประโยค ได้ภายในเสี้ยววินาที

The Semantic Web Search Engine developed at DERI is able to answer queries with more than 7 billion RDF statements in fractions of a second – the largest number reported so far anywhere in the world. An RDF statement is the entity that makes the Semantic Web semantic. Possible application areas include Social Network Applications and Analysis, eHealth applications, Web Search, location based services, and financial searches.

พัฒนาโดย DERI Galway ไอร์แลนด์ – รายละเอียด [PDF]

[ผ่าน The Register]

technorati tags:
,

Longdo OpenSearch

นั่งทำอยู่ซักพัก เป็นปลั๊กอินเปิดพจนานุกรม Longdo โดยใช้ OpenSearch ลองทดสอบกันดูครับ
มีแนะคำโดยใช้ Google Suggest ช่วยด้วย(!)

ควรจะใช้งานได้กับทั้ง Mozilla Firefox 2 และ Internet Explorer 7 (ผมไม่ได้ลองกะ IE7) ไม่รู้ Opera ได้รึเปล่า
สำหรับ Firefox 2 ตัวเบราว์เซอร์มันควรจะ detect ปลั๊กอินให้อัตโนมัติ ให้สังเกตว่ารูปแว่นขยายมันจะเปลี่ยนเป็นสีส้ม ๆ ลองกดดู จะมีคำว่า “Add Longdo” ให้เลือก (พี่อ็อท: ก็อปโค้ดไปแปะ HTML head ของเว็บ Longdo ได้เลยครับ อันนี้:

<link rel="search" title="Longdo"
href="http://siit.net/members/art/searchplugins/longdo.xml"
type="application/opensearchdescription+xml">

ข้างล่างนี้คือเอกสารที่อ่านตอนทำ ตอนแรกงง ๆ หน่อย เพราะ MozSearch มันตีกะ OpenSearch (ใครว่า Mozilla ชอบมาตรฐานเปิด? – -“):

OpenSearch กับ MozSearch นั้นคล้ายกันมาก แต่ดู MozSearch จะเขียนง่ายกว่า และเจ้าฟังก์ชั่น
suggestions นี่ ใน OpenSearch ยังไม่มี (กำลังเสนออยู่ โดยอิง MozSearch)

Longdo OpenSearch (เป็นคำประกอบ หมายถึงปลั๊กอินค้นหาแบบ OpenSearch สำหรับบริการพจนานุกรม Longdo ไม่ได้เป็นชื่อเฉพาะ “Longdo OpenSearch” นะ เพราะจะผิดสัญญาอนุญาตของ Longdo น่ะ) นั้น ตั้งใจเขียนให้เป็น OpenSearch แต่มีใช้ suggestions ด้วย — ซึ่งมันยังไม่มีในข้อกำหนด OpenSearch
แต่ก็ไม่น่าจะเป็นปัญหา เพราะว่าฟังก์ชั่นนี้เรียกใช้โดยการระบุอีเลเมนต์ Url เพิ่มอีกหนึ่งชุด
โดยกำหนดแอตทริบิวต์ type เป็น “application/x-suggestions+json”
ซึ่งอีเลเมนต์ Url นั้น อยู่ใน schema ของ OpenSearch อยู่แล้ว (= XML ยัง valid)

และโดยข้อกำหนดถ้าตัว application ไม่รองรับ type แบบไหน ก็จะข้ามไป ไม่สนใจ จึงไม่น่าจะมีปัญหากับ IE คือ IE ก็แค่ไม่มีความสามารถเรื่องแนะคำเฉย ๆ อย่างอื่นยังใช้ได้ (แต่ผมยังไม่ได้ทดสอบอยู่ดี เมื่อคืนลง IE7 เสร็จ เปิดมาแล้วแฮงค์ตลอด ใช้ไม่ได้เลย ลองเป็นสิบรอบแล้ว แค่้จะเปิดโปรแกรมยังไม่ได้ … beta quality จริง ๆ – -“)

ตอนเขียนก็ดู ๆ เอกสาร ประกอบกับตัวอย่าง google.xml ที่มากับ Firefox 2

ตรงส่วนอีเลเมนต์ Image นั้น ในตัวอย่าง google.xml (ซึ่งเป็น MozSearch) ใช้เป็น base64 เก็บข้อมูลตรง ๆ เลย:

<Image width="16"
height="16">data:image/x-icon;base64,(ข้อมูลรูปภาพ)</Image>

แต่ใน ตัวอย่างที่เว็บ OpenSearch เห็นใช้เป็นลิงก์:

<Image height="64" width="64"
type="image/png">http://example.com/websearch.png</Image>

(ตรง type จะเป็นภาพแบบไหนก็ได้ gif, jpg, png, ico)

ตัว Longdo OpenSearch นี่ ใช้ base64 😛 โดยข้อมูลรูปภาพนั้น ก็ก็อปมาจากปลั๊กอินเก่า

คือใน Firefox 2 นี่ เวลาเราติดตั้งปลั๊กอิน Mycroft มันจะแปลงเป็น MozSearch/OpenSearch
(root element เป็นของ MozSearch แต่มีใช้ XML namespace OpenSearch ด้วย)
ให้อัตโนมัติ รูปที่เคยเป็นไฟล์แยกต่างหาก มันก็จะแปลงเป็น base64 ยัดลงมาใน XML ให้
.. เราก็ไปก็อปไอ้ข้อมูลตรงนั้นแหละมาใช้
แต่ถ้าจะแปลงเองจากรูปโดยตรงเลย ที่เว็บมอซิลล่าเค้าแนะนำให้ใช้เว็บ URI kitchen ช่วยแปลง

พูดถึงวิธีเก็บรูป ไม่แน่ใจว่า MozSearch กับ OpenSearch มันต่างกันตรงนี้มั๊ย หรือว่าใช้แบบไหนก็ได้ทั้งคู่
ตรงนี้ถ้ามองว่าอันไหนโปร่งใส/transparent กว่า ก็ต้องบอกว่า เก็บ url รูปน่ะโปร่งใสดูดีกว่า
แต่ถ้าพูดถึงประสิทธิภาพ รูปไอคอนขนาดเล็ก ๆ แบบนี้ จะให้เปิด connection อีกหนึ่งอันเพื่อดาวน์โหลด มันก็ อืม คงไม่คุ้ม ก็เก็บรวมมันไว้ในไฟล์เดียวเลยละกัน เป็นไบนารี/base64 … แต่แบบนี้มันก็ ไม่ค่อยจะ XML ?

ก็แล้วแต่เลือกล่ะ

จะทำ: ทำรายการแนะคำจากข้อมูลพจนานุกรมโดยเฉพาะ ?

ปรับปรุง:

  • 2006.07.21 – ชี้แจ้งเรื่องชื่อปลั๊กอิน+สัญญาอนุญาต, เพิ่ม “จะทำ”
  • 2006.07.20 – เพิ่มข้อมูลเทคนิก

tags:






Even Search Engine DO Politics

Kosmix is a topic-specific search engine, that gives you results in a particular viewpoint of your choice.

Search for “global warming” in Politics, it will give you views of Libertarian, Liberal, and Conservative.

The same goes for other two topics, Health (basic info, alternative medicine, diet & nutrition, etc.) and Travel (hotels, travels guides, museums, etc.).

น่าจะมีรุ่นภาษาไทย หัวข้อการเมือง — เลือกมุมมอง เชียร์ทักษิณ เชียร์ฝ่ายค้าน เชียร์พันธมิตร เชียร์ม็อบ ฯลฯ 😛