Back to Question Center
0

Semalt ໃຫ້ຄໍາແນະນໍາກ່ຽວກັບວິທີການຈັດການກັບ Bots, Spiders ແລະ Crawlers

1 answers:

ນອກເຫນືອຈາກການສ້າງ ເຄື່ອງຈັກຊອກຫາ URL ທີ່ເປັນມິດ, ໄຟລ໌ .htaccess ຊ່ວຍໃຫ້ເວັບໄຊທ໌ທ໌ບອທ໌ບອທ໌ທ໌ຕ່າງໆຈາກການເຂົ້າເຖິງເວັບໄຊທ໌ຂອງພວກເຂົາ. ຫນຶ່ງໃນວິທີທີ່ຈະປ້ອງກັນຫຸ່ນຍົນເຫຼົ່ານີ້ແມ່ນຜ່ານໄຟລ໌ robots.txt. ຢ່າງໃດກໍ່ຕາມ, Ross Barber, ຜູ້ຈັດການສົບຜົນສໍາເລັດຂອງລູກຄ້າ Semalt ກ່າວວ່າລາວໄດ້ເຫັນຕົວກວາດເວັບທີ່ບໍ່ສົນໃຈຄໍາຮ້ອງຂໍນີ້. ຫນຶ່ງໃນວິທີທີ່ດີທີ່ສຸດແມ່ນການນໍາໃຊ້ໄຟລ໌ .htaccess ເພື່ອຢຸດພວກມັນຈາກດັດສະນີເນື້ອຫາຂອງທ່ານ.

ບອທ໌ເຫຼົ່ານີ້ແມ່ນຫຍັງ?

ພວກເຂົາເປັນຊະນິດຂອງຊໍແວທີ່ໃຊ້ໂດຍເຄື່ອງຈັກຊອກຫາເພື່ອລຶບເນື້ອຫາໃຫມ່ຈາກອິນເຕີເນັດສໍາລັບຈຸດປະສົງດັດສະນີ.

ພວກເຂົາປະຕິບັດຫນ້າທີ່ດັ່ງຕໍ່ໄປນີ້:

  • ໄປຢ້ຽມຢາມຫນ້າເວັບທີ່ທ່ານໄດ້ເຊື່ອມຕໍ່ກັບ
  • ກວດສອບລະຫັດ HTML ຂອງທ່ານສໍາລັບຂໍ້ຜິດພາດ
  • ພວກເຂົາປະຫຍັດຫນ້າເວັບທີ່ທ່ານເຊື່ອມຕໍ່ກັບແລະເບິ່ງຫນ້າເວັບຕ່າງໆທີ່ເຊື່ອມໂຍງກັບເນື້ອຫາຂອງທ່ານ
  • .
  • ພວກເຂົາດັດປັບເນື້ອຫາຂອງທ່ານ

ຢ່າງໃດກໍຕາມ, ບາງ bots ແມ່ນເປັນອັນຕະລາຍແລະຄົ້ນຫາເວັບໄຊທ໌ຂອງທ່ານສໍາລັບທີ່ຢູ່ອີເມວແລະແບບຟອມຕ່າງໆທີ່ຖືກນໍາໃຊ້ເພື່ອສົ່ງຂໍ້ຄວາມຫຼື spam ທີ່ບໍ່ຕ້ອງການໃຫ້ທ່ານ. ຄົນອື່ນກໍ່ຊອກຫາຊ່ອງຫວ່າງຄວາມປອດໄພໃນລະຫັດຂອງທ່ານ .

ແມ່ນຫຍັງທີ່ຈໍາເປັນໃນການຂຸດຂີ້ເຫຍື້ອເວັບ

ກ່ອນທີ່ຈະໃຊ້ໄຟລ໌ .htaccess, ທ່ານຈໍາເປັນຕ້ອງກວດເບິ່ງສິ່ງຕ່າງໆດັ່ງຕໍ່ໄປນີ້:

1 ເວັບໄຊທ໌ຂອງທ່ານຕ້ອງໃຊ້ໃນເຄື່ອງແມ່ຂ່າຍຂອງ Apache. ໃນປັດຈຸບັນ, ເຖິງແມ່ນວ່າບໍລິສັດເວັບໄຊຕ໌ທີ່ເປັນເຈົ້າພາບເຄິ່ງເຄິ່ງຫນຶ່ງໃນການເຮັດວຽກຂອງເຂົາເຈົ້າ, ໃຫ້ທ່ານເຂົ້າເຖິງໄຟລ໌ທີ່ຕ້ອງການ.

2 ທ່ານຄວນຈະສາມາດເຂົ້າເຖິງບັນທຶກຂອງເຄື່ອງແມ່ຂ່າຍຂອງບໍລິສັດຂອງເວັບໄຊທ໌ຂອງທ່ານເພື່ອໃຫ້ທ່ານສາມາດຊອກຫາບ່ອນທີ່ບອທ໌ທ໌ໄດ້ໄປຢ້ຽມຢາມຫນ້າເວັບຂອງທ່ານ.

ໃຫ້ສັງເກດວ່າບໍ່ມີທາງທີ່ທ່ານຈະສາມາດສະກັດບັອດທີ່ເປັນອັນຕະລາຍທັງຫມົດເວັ້ນເສຍແຕ່ວ່າທ່ານປິດພວກມັນທັງຫມົດ, ເຖິງແມ່ນວ່າທ່ານຄິດວ່າເປັນປະໂຫຍດ. ບອທ໌ໃຫມ່ຈະມາເຖິງທຸກໆມື້, ແລະຄົນເກົ່າຈະຖືກດັດແປງ. ວິທີທີ່ມີປະສິດທິຜົນຫຼາຍທີ່ສຸດແມ່ນການຮັກສາລະຫັດຂອງທ່ານແລະເຮັດໃຫ້ມັນຍາກສໍາລັບ bots ທີ່ spam ທ່ານ.

ການລະບຸບັອດ

Bots ສາມາດຖືກກໍານົດໂດຍທີ່ຢູ່ IP ຫຼືຈາກ "String ຕົວແທນຜູ້ໃຊ້ຂອງພວກເຂົາ" ທີ່ພວກເຂົາສົ່ງອອກໃນຫົວ HTTP. ຕົວຢ່າງ, Google ໃຊ້ "Googlebot."

ທ່ານອາດຕ້ອງການບັນຊີລາຍຊື່ນີ້ດ້ວຍ 302 ບອທ໌ຖ້າທ່ານມີຊື່ຂອງ bot ທີ່ທ່ານຕ້ອງການທີ່ຈະຮັກສາໄວ້ໂດຍໃຊ້ .htaccess

ອີກວິທີຫນຶ່ງຄືການດາວໂຫລດໄຟລ໌ທັງຫມົດຈາກເຄື່ອງແມ່ຂ່າຍແລະເປີດໃຫ້ເຂົາເຈົ້າໃຊ້ຕົວແກ້ໄຂຂໍ້ຄວາມສະຖານທີ່ຂອງພວກເຂົາຢູ່ໃນເຄື່ອງແມ່ຂ່າຍອາດຈະມີການປ່ຽນແປງຂຶ້ນຢູ່ກັບການຕັ້ງຄ່າຂອງເຄື່ອງແມ່ຂ່າຍຂອງທ່ານ. ການຊ່ວຍເຫຼືອຈາກເວັບໂຮດຕິ້ງຂອງທ່ານ

ຖ້າທ່ານຮູ້ວ່າຫນ້າເວັບໄດ້ຖືກໄປຢ້ຽມຢາມຫຼືເວລາໄປຢ້ຽມຢາມມັນກໍ່ງ່າຍກວ່າທີ່ຈະມາກັບ bot ທີ່ບໍ່ຕ້ອງການ. ທ່ານສາມາດຊອກຫາໄຟລ໌ເຂົ້າກັບຂໍ້ກໍານົດເຫຼົ່ານີ້.

ເມື່ອໃດທີ່, ທ່ານໄດ້ສັງເກດວ່າ bots ທ່ານຈໍາເປັນຕ້ອງຖືກປິດບັງ; ຫຼັງຈາກນັ້ນທ່ານສາມາດປະກອບເຂົ້າໃນໄຟລ໌ .htaccess. ກະລຸນາສັງເກດວ່າການປິດບັອບແມ່ນບໍ່ພຽງພໍທີ່ຈະຢຸດມັນ. ມັນອາດຈະກັບຄືນມາດ້ວຍ IP ຫຼືຊື່ໃຫມ່.

ວິທີການບລັອກ

ດາວໂຫລດສໍາເນົາຂອງເອກະສານ .htaccess. ເຮັດການສໍາຮອງຂໍ້ມູນຖ້າຈໍາເປັນ.

ວິທີການ 1: ການບລັອກໂດຍ IP

ຕົວຢ່າງໂຄ້ດນີ້ຈະຕັນບອທ໌ໂດຍໃຊ້ IP address 19700.1

ຄໍາສັ່ງປະຕິເສດ, ອະນຸຍາດໃຫ້

ປະຕິເສດຈາກ 197001

ເສັ້ນທໍາອິດຫມາຍຄວາມວ່າເຄື່ອງແມ່ຂ່າຍຈະປິດການຮ້ອງຂໍທັງຫມົດທີ່ສອດຄ້ອງກັບຮູບແບບທີ່ທ່ານໄດ້ກໍານົດແລະອະນຸຍາດໃຫ້ທຸກຄົນອື່ນ.

ເສັ້ນທີສອງບອກເຄື່ອງແມ່ຂ່າຍທີ່ອອກຫນ້າ 403: ຫ້າມຫນ້າ

ວິທີທີ່ 2: ການບລັອກໂດຍຕົວແທນຜູ້ໃຊ້

ວິທີທີ່ງ່າຍທີ່ສຸດແມ່ນການນໍາໃຊ້ເຄື່ອງຈັກ rewrite ຂອງ Apache

RewriteEngine On

RewriteCond% {HTTP_USER_AGENT} BotUserAgent

RewriteRule. - [F, L]

ເສັ້ນທໍາອິດໃຫ້ແນ່ໃຈວ່າໂມດູນສະຫຼຸບໄດ້ຖືກເປີດໃຊ້. ສາຍທີສອງແມ່ນເງື່ອນໄຂທີ່ກົດລະບຽບນີ້ນໍາໃຊ້ກັບ. "F" ໃນແຖວ 4 ບອກເຄື່ອງແມ່ຂ່າຍໃຫ້ກັບຄືນ 403: ຫ້າມໃນຂະນະທີ່ "L" ຫມາຍຄວາມວ່ານີ້ແມ່ນກົດລະບຽບສຸດທ້າຍ.

ຫຼັງຈາກນັ້ນທ່ານຈະອັບໂຫລດໄຟລ໌ .htaccess ກັບເຄື່ອງແມ່ຂ່າຍຂອງທ່ານແລະ overwrite ມັນທີ່ມີຢູ່ແລ້ວ. ດ້ວຍເວລາ, ທ່ານຈະຕ້ອງອັບເດດ IP ຂອງ bot. ໃນກໍລະນີທີ່ທ່ານເຮັດຜິດພາດ, ພຽງແຕ່ອັບໂຫລດການສໍາຮອງທີ່ທ່ານໄດ້ເຮັດ.

November 29, 2017
Semalt ໃຫ້ຄໍາແນະນໍາກ່ຽວກັບວິທີການຈັດການກັບ Bots, Spiders ແລະ Crawlers
Reply