Anasayfa > Programlama > Apache > Web robotlari ve onlari kontrol altinda tutmak...

Web robotlari ve onlari kontrol altinda tutmak...




Konu: Apache Yazar: Serkan Tarih: 01/04/02 
robots.txt ile web robotlarini kontrol etmek

Iyi huylu butun web robotlari (aksi belirtilmedice butun yazi iyi huylu
robotlar uzerine yazilmistir), bir web sitesini indekslemek istedikleri
zaman,sistem yoneticisi tarafindan kendileri icin birakilan "robots.txt" isimli
dosyayi ararlar.Bu dosya web sunucusunun,dokumanlar klasorunde(Document Root)
ve ismi ayni yukarida bahsedilen sekilde,(butun harfler kucuk olmali)
"robots.txt" olmalidir.

Bu dosyanin iceriginde,ingilizcesi "user agent" veya "user agent prefixes"
olarak tabir edilen bir liste ve ardindan gelen hangi cesit URL tiplerinin
kabul ve red edilecegine dair bilgiler yer alir.Genel olarak bu robotlarin ele
alinmasinda * ozel karekteri kullanilmaktadir :

User-Agent: *
Disallow: /cgi-bin/
Disallow: /haberler/genel/

Not: Burada kullanilan * kesinlikle bir "wildcard" , genelleme veya kisayol
sembolu degildir.

Robot faaliyetlerine karsi butun siteyi yasaklamak istersek:

User-Agent: *
Disallow: /

seklinde yazmamiz gereklidir.

Belirlediginiz robotlarin siteyi indexlemesini istiyorsaniz o zaman bos bir
"Disallow" satiri kullanilmalidir.Ardindan ise istenilen robotlar girilmelidir.

User-Agent: *
Disallow /

User-Agent: BelirlenenRobot
Disallow:
Disallow: /cgi-bin/
Disallow: /haberler/genel/

Ne "User-Agent" nede "Disallow" alanlari "wildcard" ile genellestirilmis olarak
tanimlanamazlar.(wildcard, *,?,+ vb. isaretlerle oraya gelecek olan karekteri
genellemek icin kullanilan yontemin adidir.)

Bu komutlar ile bir cesit dosya uzantisinin indexlenmesini yasaklamak ta olasi
degildir.Ayni zamanda bir "Allow" komutu da mevcut degildir.Bu su anlama
gelmektedir :

"Bu klasoru indexlemeye kapat fakat su istedigim dosyalari bu yasagin haricinde
tut"

demek olasi degildir.

Bunu yapmak icin mutlaka ilgili HTML taglari kullanilmali (robots etiketleri)
ve ancak bu sekilde bir yonetim saglanmalidir.

Robotlar bir siteyi indexlemek istedikleri zaman, ilgili "robots.txt" dosyasini
da onbellege (robots.txt dosyasi ilgili robotun cache'ine alinir)
almaktadirlar.Bu nedenle bu dosya icin mutlaka bir "gecerli omur suresi"
belirlenmeli ve boylece robotun bir dahaki indexleme isleminde kendi
onbelleginde bu dosyayi okuyup siteyi buna gore indexlemesine izin
verilememelidir.Bunu yapmak icin asagidaki yolu kullanamak mumkundur :

<Location /robots.txt>
ExpiresDefault "access 3 days"
</Location>

Onemli : "robots.txt" tamamen gonullu bir mekanizmadir.Ne sizin bu dosyayi web
sunucunuza koymaniz,nede ilgili web robotunun burada gosterilen yasaklayici
kurallara uymasi zorunlu degildir.

Robotlari HTML etiketleri ile kontrol altinda tutmak

Bazi (hepsi DEGIL) web robotlari web sayfalariniz icinde <head> ...</head>
alanlari arasina yazilmis ve indexleme amaciyla kullanilacak olan HTML
etiketlerini ararlar.Bu sekilde web robotlari o sayfa uzerindeki linkleri
izleyip izlemeyeceklerine karar verirler :

<META NAME="ROBOTS" CONTENT="NOINCLUDE, NOFOLLOW">

bunlarin yerine (tam tersi olarak) asagidaki seceneklerde bu opsiyonlara kabul
izni de verilebilirdi :

<META NAME="ROBOTS" CONTENT="INCLUDE, FOLLOW">

Bu sekilde yazimlarin esi olabilcek iki adet komut bulunmaktadir.Yukarida
yazilan birinci ve ikinci ornege uygun olacak sekilde "NONE" ve "ALL"
komutlarni da kullanabilirdik.

Robotlari, erisim kontrol kurallarina gore kontrol altinda tutmak

Yukarida yazilan kurallara uymayan,veya uymak istemeyen kotu amacli robotlar da
sitenizi indekslemeye calisabilir.Ornegin bir alisveris magazasinin kredi karti
bolumu bu tip girislerden korunmalidir.

Simdi bize sorun yaratabilecek bazi robotlara nasil cevap verecegimizi
gorelim...

Olaya iki sekilde yaklasmak mumkun : "BrowserMatch" ve "SetEnvIf"

simdi de nasil kullanabilcegimizi gorelim,

BrowserMatchNoCase .*crawler.* robot
BrowserMatchNoCase .*robot.* robot
SetEnvIf Remote_Host .*koturobot\.com robot
<Location /indeksleme-yapilamaz-alan/>
order allow,deny
allow from all
deny from env=robot
</Location>

veya mod_rewrite modulunu kullanarak asagida gosterilen sekilde,

RewriteCond %{HTTP_USER_AGENT} .*robot.* [NC,OR]
RewriteCond %{HTTP_USER_AGENT} .*crawler.* [NC,OR]
RewriteCond %{REMOTE_HOST} koturobot.com$ [NC]
RewriteCond ^/indeksleme-yapilamaz-alan/ - [F]

Bazi robotlar "User-Agent" basligi kullanmadan islem yaptiklari icin onlari
yakalamanin tek yolu REMOTE_HOST veya IP adreslerinden faydalanmaktir...

Robotlarin Ilgisini cekmek Onlara Sevimli Gorunmek

Robotlar web'te her zaman gezinmektedir.Hic duyrulmamis bir web sitesi bile
komple bir sekilde bu robotlar tarafindan,robotun bagli bulundugu arama
servisine arsivlenebilir veya indexlenebilir...

Cogu zaman sitenin kurucusu tarafindan, bilinen genel arama sitelerine sayfanin
indekslenmesi icin bir istekte bulunulur.

Bu istegi yapabilceginiz en gelisimis sitelerden birisi,

http://www.submit-it.com/ dur...

Robotun dogru bilgiyi indekslediginden emin olmak

Bazi web robotlari (Hepsi Degil) hazirlanan elektronik sayfalarda Meta HTML taglarinin olup
olmadigini kontrol eder.Boylece sayfa ile ilgili bazi onbilgiler elde edilebilir.Web kullanicilari
da sizin verdiginiz anahtar kelimlere gore sayfaniza ulasir ve en dogru bilgiyi en kisa zamanda
almis olurlar...

Simdi sayfamiz icin bazi META etiketleri hazirlayarak,robotlarin bunlara gore sitemizi
indexlemesini saglayalim :

<META NAME="Author" CONTENT="Serkan Hadi Ceylani">
<META NAME="Description" CONTENT="Sitemize gelin ve teknolojinin son gelismelerini takip
edin...">
<META NAME="Keywords" CONTENT="turkce türkçe kaynak dinamik web tasarim forum sohbet
programlama">

Ilk satirda sayfanin yazari,ikinci satirda sayfa icin kisa aciklama,ucuncu satirda ise o sayfaya
ait anahtar kelimleri tanimlamis oldum.

Bir kucuk UYARI : Bazi web robotlari bu anahtar kelimelere gore sitenin amacini tesbit
edebiliyor.Eger guvenligi on plana alip,sitenizin genede belirli anahtar kelimlerle indexlenmesini
istiyorsaniz,kelimeleri buradaki gibi degil de sayfanin <body> bolumnde arkaplan rengi ile
ayni fontu secerek sayfanin icine yaziniz...

Daha Fazla Bilgi

Iyi robotlar,kotu robotlar,aktif robotlar,gizemli robotlar,bu konudaki e-posta listeleri vb.
hakkinda daha fazla bilgiyi,

http://info.webcrawler.com/mak/projects/robots/robots.html

adresinde alabilirsiniz.

Saglicakla Kalin...

Serkan Hadi Ceylani
Tampa/Florida
USA

Bu makale hakkında ek bilgi eklemek için buraya tıklayınız

Bu makalenin yazar yada kaynağını bildirmek için tıklayınız.

Digg this Post! Add Post to del.icio.us Bookmark Post in Technorati Furl this Post!
Eklenme tarihi: 6-2-2006  Okunma: 1684

Bu Makaleye Verilen Puan:    Bu makaleye puan verilmemiş.
Bu Makaleye Puan Ver  

Bölüm Başlık Kullanıcı Yorumları


Bu makaleye yorum gönderilmemiş, ilk yorumu sen gönder !
Reklam Netinternet
Bazı hakları saklıdır: İçeriğin editör ve yazarlarımız tarafından oluşturulan kısımları ve site tasarımının hakkı saklıdır.  Bu sayfa en iyi 1280x1024 ve 1024x768 çözünürlükte izlenir.
Powered by BilgiPortal v2.2
Emlak Yorumlar Müzik estetik