Spiders

Boty, pająki, wyszukiwarki… jak kto nazwie - tak będzie dobrze ;) Ale o czym chcę napisać?
Dziś moje zacne forum odwiedziły nowe spidery, co niezmiernie mnie denerwuje i zmuszony jestem do blokowania owych pajączków (to strasznie transferożerne zwierzęta) …Okazuje się, że nie tak łatwo jest zablokować pajączki… nieraz mają one po 40 adresów IP i wyłapać wszystkie to jak syzyfowa praca, dlatego że skoro ma ich aż tyle to pewnie ciągle liczba ta się zwiększa…

Sposobów na takie upierdliwe dziady jest dwa:

1. powszechnie znany i lubiany robots.txt,
2. powszechnie znany i mniej lubiany .htacces,

Więc tak… mój robots.txt wygląda następująco (może komuś się przyda):

User-agent: Twiceler-0.9
Disallow: /

User-agent: Slurp
Disallow: /

User-agent: msnbot
Disallow: /

User-agent: McBot
Disallow: /

User-agent: ia_archiver
Disallow: /

User-agent: CazoodleBot
Disallow: /

User-agent: *
Disallow: /memberlist.php
Disallow: /statistics.php
Disallow: /logs/
Disallow: /admin/
Disallow: /next_topic/
Disallow: /postlink/
Disallow: /prev_topic/
Disallow: /cache/
Disallow: /tmp/
Disallow: /cgi-bin/
Disallow: /gg.php
Disallow: /gg.htm
Disallow: /posting.php
Disallow: /posting.htm
Disallow: /printview.php
Disallow: /printview.htm
Disallow: /privmsg.php
Disallow: /privmsg.htm
Disallow: /report.php
Disallow: /report.htm
Disallow: /tellafriend.php
Disallow: /profile.php?mode=register
Disallow: /search.php
Disallow: /faq.php
Disallow: /login.php

Twiceler - bot niezwykle upierdliwy, właściwie nie widzę sensu dla którego miałbym go wpuszczać w progi swojej witryny… Właścicielem okazuje się facet który na co dzień zajmuje się końmi, więc co on do cholery robi w sieci?! (robots.txt na niego nie działa),
Yahoo! Slurp - bot już nie tak upierdliwy, ale ze względu na wstręt do Yahoo! postanowiłem go zablokować,
msnbot - jakiś szperacz Microsoftu, a co za tym idzie => patrz Yahoo! Slurp,
McBot - ?
ia_archiver - został zablokowany za nadmierne trafienia, jak można w ciągu godziny wywalić ponad 6000 hitów? Po za tym strona domowa bota zostawia wiele do życzenia…
CazoodleBot - coś nowego - niepotrzebnego…

Zablokowanie owych botów przez robots.txt nie zawsze daje oczekiwane wyniki, ale warto poszperać w Google owej strony bota i upewnić się czy reflektuje on robots.txt, można to także sprawdzić przez logi dostępu serwera :)

Przykład śladu jaki zostawił u mnie CazoodleBot:

72.36.115.50 - - [01/Jan/2008:07:47:54 +0100] "GET /robots.txt HTTP/1.0" 200 701 "-" "CazoodleBot/CazoodleBot-0.1 (CazoodleBot Crawler; http://www.cazoodle.com/cazoodlebot; cazoodlebot@cazoodle.com)"
72.36.115.50 - - [01/Jan/2008:07:47:54 +0100] "GET /groupcp.php HTTP/1.0" 200 13792 "-" "CazoodleBot/CazoodleBot-0.1 (CazoodleBot Crawler; http://www.cazoodle.com/cazoodlebot; cazoodlebot@cazoodle.com)"

Jak widać, parametr “GET” mówi nam o tym czy bot korzysta z robots.txt czy też nie, ten akurat skorzystał (na jego szczęście), a nie widzac przeszkód zabrał się dalej za szperanie mojej witryny o czym widać przy następnej pozycji…
Dość tego pitolenia ;) pora na zdecydowane blokowanie po IP przez .htaccess, oto mój plik (cześc odpowiadająca za dostęp):

#znalezione w necie
Deny from 12.148.209.196
Deny from 12.175.0.35
Deny from 12.222.95.33
Deny from 128.208.4.118
Deny from 128.255.244.87
Deny from 128.84.98.173
Deny from 129.44.123.12
Deny from 137.118.240.180
Deny from 140.247.60.123
Deny from 141.156.149.234
Deny from 141.156.35.62
Deny from 146.203.20.245
Deny from 157.130.53.242
Deny from 193.95.111.138
Deny from 194.102.56.130
Deny from 195.222.1.154
Deny from 195.251.235.67
Deny from 195.9.126.226
Deny from 198.64.149.243
Deny from 200.69.248.64
Deny from 203.124.153.237
Deny from 203.199.124.111
Deny from 204.92.59.152
Deny from 205.225.207.186
Deny from 205.225.207.190
Deny from 206.145.80.235
Deny from 206.169.2.194
Deny from 207.164.34.59
Deny from 208.179.49.21
Deny from 209.120.234.
Deny from 209.152.43.249
Deny from 209.167.50.22
Deny from 209.234.157.107
Deny from 210.200.105.
Deny from 211.152.14.
Deny from 211.157.8.44
Deny from 211.99.
Deny from 213.186.38.67
Deny from 213.252.152.13
Deny from 213.42.2.
Deny from 213.56.44.118
Deny from 216.157.225.36
Deny from 216.185.57.
Deny from 216.46.79.46
Deny from 216.74.173.209
Deny from 217.162.212.174
Deny from 217.171.172.7
Deny from 217.22.62.69
Deny from 217.227.37.62
Deny from 217.37.100.141
Deny from 217.43.212.22
Deny from 217.73.165.40
Deny from 218.13.195.230
Deny from 218.30.13.176
Deny from 218.93.5.48
Deny from 218.93.6.227
Deny from 218.93.7.43
Deny from 219.129.179.
Deny from 220.73.165.76
Deny from 24.107.14.244
Deny from 24.126.19.6
Deny from 24.136.55.144
Deny from 24.153.151.50
Deny from 24.153.151.51
Deny from 24.161.201.195
Deny from 24.173.210.90
Deny from 24.173.79.238
Deny from 24.194.153.236
Deny from 24.243.39.114
Deny from 24.248.74.254
Deny from 4.43.126.10
Deny from 61.173.9.203
Deny from 61.177.
Deny from 61.177.77.168
Deny from 61.178.85.117
Deny from 62.119.133.
Deny from 62.177.137.205
Deny from 62.194.0.71
Deny from 62.194.118.54
Deny from 62.194.67.18
Deny from 62.194.7.89
Deny from 62.194.86.81
Deny from 62.252.192.11
Deny from 62.254.128.7
Deny from 63.231.82.207
Deny from 64.140.49.67
Deny from 64.140.49.68
Deny from 64.140.49.69
Deny from 64.231.195.107
Deny from 64.56.225.45
Deny from 64.81.88.11
Deny from 65.172.164.2
Deny from 65.93.130.29
Deny from 65.95.158.205
Deny from 65.95.33.209
Deny from 66.119.128.66
Deny from 66.183.223.233
Deny from 66.21.128.30
Deny from 66.214.102.7
Deny from 66.215.16.3
Deny from 66.27.146.58
Deny from 66.68.64.207
Deny from 66.96.238.245
Deny from 66.98.136.28
Deny from 67.113.198.63
Deny from 67.68.196.209
Deny from 67.84.9.127
Deny from 67.96.63.103
Deny from 67.96.63.116
Deny from 68.109.140.254
Deny from 68.192.120.178
Deny from 68.36.192.74
Deny from 68.39.132.160
Deny from 68.7.115.241
Deny from 69.15.60.42
Deny from 69.162.182.209
Deny from 69.28.130.229
Deny from 69.28.130.230
Deny from 69.28.130.231
Deny from 69.31.79.226
Deny from 69.44.60.201
Deny from 69.46.135.17
Deny from 69.48.94.231
Deny from 80.129.214.179
Deny from 80.218.77.179
Deny from 81.186.53.253
Deny from 81.199.83.26
Deny from 81.57.110.146
Deny from 82.166.132.
Deny from 82.166.132.74
Deny from 82.193.64.21
Deny from 82.195.131.177
Deny from 83.116.38.172
Deny from 220.180.245.12
Deny from 38.99.13.126
Deny from 38.99.44.106
Deny from 38.117.64.101
Deny from 208.53.138.150
Deny from 67.159.45.52
#ia_archiver
Deny from 64.208.172.181
#Twiceler
Deny from 64.202.165.131
Deny from 209.250.234.50
Deny from 66.197.222.149
Deny from 208.53.147.110
Deny from 38.99.13.121
Deny from 38.99.44.101
Deny from 64.1.215.166
Deny from 208.36.144.6
Deny from 38.99.13.122
Deny from 38.99.44.102
Deny from 64.1.215.162
Deny from 208.36.144.7
Deny from 38.99.13.123
Deny from 38.99.44.103
Deny from 64.1.215.163
Deny from 208.36.144.8
Deny from 38.99.13.124
Deny from 38.99.44.104
Deny from 64.1.215.164
Deny from 208.36.144.9
Deny from 38.99.13.125
Deny from 38.99.44.105
Deny from 64.1.215.165
Deny from 208.36.144.10
#Cazoodle bot
Deny from 72.36.115.50

Jak widać, blokowanie przez .htaccess jest bardzo proste i przynosi wyniki natychmiast

Na dziś tyle o botach, pozdrawiam ;)


About this entry