อะไรคือ robots.txt ?
Sep 07
news, บทความ adsense, cms, Google No Comments
ปัญหาเกิดขึ้นกับเว็บเน่าๆ ของผมแล้ว
“แล้วเกิดอะไรขึ้นเหรอ” ปัญหามันมีอยู่ว่า โฆษณาของ Adsense ไม่แสดงบนเว็บผมนะสิ
“แล้วมันหายไปไหน” ลองเปิดจาก IE,Firefox ก็ยังไม่แสดงโฆษณา
และลองลบ file cookie ออกแล้วก็ยังไม่แสดงโฆษณา
“ทำยังไงที่นี้” เข้าที่ดูที่ www.google.com/adsense เพื่อดูรายงาน
ปรากฎว่า ทางเว็บ Adsense บอกว่า “URL ที่ถูกบล็อค” เหตุผลที่ถูกบล็อค “ไม่พบ”
ก็สร้างไฟล์ robots.txt ขึ้นที่หน้า index ของเว็บเรา ตามตัวอย่างนี้
ความหมาย robots.txt
การกำหนดวิธีที่ป้องกันไม่ให้ spider หรือ bot เข้ามาเก็บหน้าเว็บเพจต้องห้ามของเรา
Spider หรือ Bot เป็นโปรแกรมของ Search Engine ที่ทำตัวเป็นนักค้นหาและท่องเว็บ
จากนั้นจะทำการบอกให้ ระบบ Search Engine Database ว่าควรเก็บหน้าเว็บเพจนั้นไว้หรือไม่
robots.txt เป็น file ที่บอก Search engine ว่า ” ไม่ต้องมาเก็บเว็บไซต์ของฉัน
หรือหน้าเว็บบางหน้า หรือไฟล์บางไฟล์ โรบอต (Robot) เป็นโปรแกรมเก็บข้อมูลในอินเตอร์เน็ต
ซึ่งบางครั้ง เรียกว่าสไปเดอร์ (Spider) หรือ ครอว์เลอร์(Crawler) จะทําหน้าที่รวบรวมไฟล์ HTML
เพื่อมาเป็นข้อมูล สําหรับสร้างดัชนีค้นหา ให้กับ เสิร์จเอ็นจิน (Search Engine) โดยทั่วไปแล้ว
โรบอตจะกลับมาที่เว็บไซต์ที่อ่านไปแล้ว เพื่อตรวจสอบ การเปลี่ยนแปลง ตามระยะเวลาที่กําหนด
ดังนั้นเราต้องสร้างไฟล์ robots.txt ขึ้นมา
เพื่อกำหนดว่าจะให้ Robot เข้าไปยังโฟลเดอร์ไหนได้บ้าง เราสามารถกำหนดได้
ข้อดีของมันคือ ยกตัวอย่างเช่น คุณมีไฟล์รูป xxx แล้วดันไปอัพในโฟลเดอร์ xxx/test.jpeg
หากคุณไม่ซ่อน Robot ไว้รับรองได้เป็นดาราในเนตแน่นอนครับ
ดังนั้นเราต้องมีอะไรที่ไม่ให้บอทมันวิ่งมาเก็บไฟล์ในโฟลเดอร์นี้เป็นต้น
robots.txt จะต้องนำมาวางไว้ที่ Root Directory (ไดเรกเทอรี่เริ่มต้นของเวบไซค์)
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: /feed
Disallow: /comments
Disallow: /category/*/*
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Allow: /wp-content/uploads
# Google Image
User-agent: Googlebot-Image
Disallow:
Allow: /*
# Google AdSense
User-agent: Mediapartners-Google*
Disallow:
Allow: /*
# Internet Archiver Wayback Machine
User-agent: ia_archiver
Disallow: /
# digg mirror
User-agent: duggmirror
Disallow: /
# Does anyone care I love Google Apache htaccess
Sitemap: http://ninebo.com/sitemap.xml
ที่มา… gootum, rapeeseoaff
RSS
