Spiders
Boty, pająki, wyszukiwarki… jak kto nazwie - tak będzie dobrze ;) Ale o czym chcę napisać?
Dziś moje zacne forum odwiedziły nowe spidery, co niezmiernie mnie denerwuje i zmuszony jestem do blokowania owych pajączków (to strasznie transferożerne zwierzęta) …Okazuje się, że nie tak łatwo jest zablokować pajączki… nieraz mają one po 40 adresów IP i wyłapać wszystkie to jak syzyfowa praca, dlatego że skoro ma ich aż tyle to pewnie ciągle liczba ta się zwiększa…
Sposobów na takie upierdliwe dziady jest dwa:
1. powszechnie znany i lubiany robots.txt,
2. powszechnie znany i mniej lubiany .htacces,
Więc tak… mój robots.txt wygląda następująco (może komuś się przyda):
User-agent: Twiceler-0.9 Disallow: / User-agent: Slurp Disallow: / User-agent: msnbot Disallow: / User-agent: McBot Disallow: / User-agent: ia_archiver Disallow: / User-agent: CazoodleBot Disallow: / User-agent: * Disallow: /memberlist.php Disallow: /statistics.php Disallow: /logs/ Disallow: /admin/ Disallow: /next_topic/ Disallow: /postlink/ Disallow: /prev_topic/ Disallow: /cache/ Disallow: /tmp/ Disallow: /cgi-bin/ Disallow: /gg.php Disallow: /gg.htm Disallow: /posting.php Disallow: /posting.htm Disallow: /printview.php Disallow: /printview.htm Disallow: /privmsg.php Disallow: /privmsg.htm Disallow: /report.php Disallow: /report.htm Disallow: /tellafriend.php Disallow: /profile.php?mode=register Disallow: /search.php Disallow: /faq.php Disallow: /login.php
Twiceler - bot niezwykle upierdliwy, właściwie nie widzę sensu dla którego miałbym go wpuszczać w progi swojej witryny… Właścicielem okazuje się facet który na co dzień zajmuje się końmi, więc co on do cholery robi w sieci?! (robots.txt na niego nie działa),
Yahoo! Slurp - bot już nie tak upierdliwy, ale ze względu na wstręt do Yahoo! postanowiłem go zablokować,
msnbot - jakiś szperacz Microsoftu, a co za tym idzie => patrz Yahoo! Slurp,
McBot - ?
ia_archiver - został zablokowany za nadmierne trafienia, jak można w ciągu godziny wywalić ponad 6000 hitów? Po za tym strona domowa bota zostawia wiele do życzenia…
CazoodleBot - coś nowego - niepotrzebnego…
Zablokowanie owych botów przez robots.txt nie zawsze daje oczekiwane wyniki, ale warto poszperać w Google owej strony bota i upewnić się czy reflektuje on robots.txt, można to także sprawdzić przez logi dostępu serwera :)
Przykład śladu jaki zostawił u mnie CazoodleBot:
72.36.115.50 - - [01/Jan/2008:07:47:54 +0100] "GET /robots.txt HTTP/1.0" 200 701 "-" "CazoodleBot/CazoodleBot-0.1 (CazoodleBot Crawler; http://www.cazoodle.com/cazoodlebot; cazoodlebot@cazoodle.com)" 72.36.115.50 - - [01/Jan/2008:07:47:54 +0100] "GET /groupcp.php HTTP/1.0" 200 13792 "-" "CazoodleBot/CazoodleBot-0.1 (CazoodleBot Crawler; http://www.cazoodle.com/cazoodlebot; cazoodlebot@cazoodle.com)"
Jak widać, parametr “GET” mówi nam o tym czy bot korzysta z robots.txt czy też nie, ten akurat skorzystał (na jego szczęście), a nie widzac przeszkód zabrał się dalej za szperanie mojej witryny o czym widać przy następnej pozycji…
Dość tego pitolenia ;) pora na zdecydowane blokowanie po IP przez .htaccess, oto mój plik (cześc odpowiadająca za dostęp):
#znalezione w necie Deny from 12.148.209.196 Deny from 12.175.0.35 Deny from 12.222.95.33 Deny from 128.208.4.118 Deny from 128.255.244.87 Deny from 128.84.98.173 Deny from 129.44.123.12 Deny from 137.118.240.180 Deny from 140.247.60.123 Deny from 141.156.149.234 Deny from 141.156.35.62 Deny from 146.203.20.245 Deny from 157.130.53.242 Deny from 193.95.111.138 Deny from 194.102.56.130 Deny from 195.222.1.154 Deny from 195.251.235.67 Deny from 195.9.126.226 Deny from 198.64.149.243 Deny from 200.69.248.64 Deny from 203.124.153.237 Deny from 203.199.124.111 Deny from 204.92.59.152 Deny from 205.225.207.186 Deny from 205.225.207.190 Deny from 206.145.80.235 Deny from 206.169.2.194 Deny from 207.164.34.59 Deny from 208.179.49.21 Deny from 209.120.234. Deny from 209.152.43.249 Deny from 209.167.50.22 Deny from 209.234.157.107 Deny from 210.200.105. Deny from 211.152.14. Deny from 211.157.8.44 Deny from 211.99. Deny from 213.186.38.67 Deny from 213.252.152.13 Deny from 213.42.2. Deny from 213.56.44.118 Deny from 216.157.225.36 Deny from 216.185.57. Deny from 216.46.79.46 Deny from 216.74.173.209 Deny from 217.162.212.174 Deny from 217.171.172.7 Deny from 217.22.62.69 Deny from 217.227.37.62 Deny from 217.37.100.141 Deny from 217.43.212.22 Deny from 217.73.165.40 Deny from 218.13.195.230 Deny from 218.30.13.176 Deny from 218.93.5.48 Deny from 218.93.6.227 Deny from 218.93.7.43 Deny from 219.129.179. Deny from 220.73.165.76 Deny from 24.107.14.244 Deny from 24.126.19.6 Deny from 24.136.55.144 Deny from 24.153.151.50 Deny from 24.153.151.51 Deny from 24.161.201.195 Deny from 24.173.210.90 Deny from 24.173.79.238 Deny from 24.194.153.236 Deny from 24.243.39.114 Deny from 24.248.74.254 Deny from 4.43.126.10 Deny from 61.173.9.203 Deny from 61.177. Deny from 61.177.77.168 Deny from 61.178.85.117 Deny from 62.119.133. Deny from 62.177.137.205 Deny from 62.194.0.71 Deny from 62.194.118.54 Deny from 62.194.67.18 Deny from 62.194.7.89 Deny from 62.194.86.81 Deny from 62.252.192.11 Deny from 62.254.128.7 Deny from 63.231.82.207 Deny from 64.140.49.67 Deny from 64.140.49.68 Deny from 64.140.49.69 Deny from 64.231.195.107 Deny from 64.56.225.45 Deny from 64.81.88.11 Deny from 65.172.164.2 Deny from 65.93.130.29 Deny from 65.95.158.205 Deny from 65.95.33.209 Deny from 66.119.128.66 Deny from 66.183.223.233 Deny from 66.21.128.30 Deny from 66.214.102.7 Deny from 66.215.16.3 Deny from 66.27.146.58 Deny from 66.68.64.207 Deny from 66.96.238.245 Deny from 66.98.136.28 Deny from 67.113.198.63 Deny from 67.68.196.209 Deny from 67.84.9.127 Deny from 67.96.63.103 Deny from 67.96.63.116 Deny from 68.109.140.254 Deny from 68.192.120.178 Deny from 68.36.192.74 Deny from 68.39.132.160 Deny from 68.7.115.241 Deny from 69.15.60.42 Deny from 69.162.182.209 Deny from 69.28.130.229 Deny from 69.28.130.230 Deny from 69.28.130.231 Deny from 69.31.79.226 Deny from 69.44.60.201 Deny from 69.46.135.17 Deny from 69.48.94.231 Deny from 80.129.214.179 Deny from 80.218.77.179 Deny from 81.186.53.253 Deny from 81.199.83.26 Deny from 81.57.110.146 Deny from 82.166.132. Deny from 82.166.132.74 Deny from 82.193.64.21 Deny from 82.195.131.177 Deny from 83.116.38.172 Deny from 220.180.245.12 Deny from 38.99.13.126 Deny from 38.99.44.106 Deny from 38.117.64.101 Deny from 208.53.138.150 Deny from 67.159.45.52 #ia_archiver Deny from 64.208.172.181 #Twiceler Deny from 64.202.165.131 Deny from 209.250.234.50 Deny from 66.197.222.149 Deny from 208.53.147.110 Deny from 38.99.13.121 Deny from 38.99.44.101 Deny from 64.1.215.166 Deny from 208.36.144.6 Deny from 38.99.13.122 Deny from 38.99.44.102 Deny from 64.1.215.162 Deny from 208.36.144.7 Deny from 38.99.13.123 Deny from 38.99.44.103 Deny from 64.1.215.163 Deny from 208.36.144.8 Deny from 38.99.13.124 Deny from 38.99.44.104 Deny from 64.1.215.164 Deny from 208.36.144.9 Deny from 38.99.13.125 Deny from 38.99.44.105 Deny from 64.1.215.165 Deny from 208.36.144.10 #Cazoodle bot Deny from 72.36.115.50
Jak widać, blokowanie przez .htaccess jest bardzo proste i przynosi wyniki natychmiast
Na dziś tyle o botach, pozdrawiam ;)
No comments
Jump to comment form | comments rss [?] | trackback uri [?]