|
| Makaleler |
| Toplam Makale |
2714 |
| Yayında |
2554 |
| Bekleyenler |
160 |
| Görüntüleme |
11282689 |
|
|
|
Web robotlari ve onlari kontrol altinda tutmak...
Konu: Apache Yazar: Serkan Tarih: 01/04/02 robots.txt ile web robotlarini kontrol etmek
Iyi huylu butun web robotlari (aksi belirtilmedice butun yazi iyi huylu robotlar uzerine yazilmistir), bir web sitesini indekslemek istedikleri zaman,sistem yoneticisi tarafindan kendileri icin birakilan "robots.txt" isimli dosyayi ararlar.Bu dosya web sunucusunun,dokumanlar klasorunde(Document Root) ve ismi ayni yukarida bahsedilen sekilde,(butun harfler kucuk olmali) "robots.txt" olmalidir.
Bu dosyanin iceriginde,ingilizcesi "user agent" veya "user agent prefixes" olarak tabir edilen bir liste ve ardindan gelen hangi cesit URL tiplerinin kabul ve red edilecegine dair bilgiler yer alir.Genel olarak bu robotlarin ele alinmasinda * ozel karekteri kullanilmaktadir :
User-Agent: * Disallow: /cgi-bin/ Disallow: /haberler/genel/
Not: Burada kullanilan * kesinlikle bir "wildcard" , genelleme veya kisayol sembolu degildir.
Robot faaliyetlerine karsi butun siteyi yasaklamak istersek:
User-Agent: * Disallow: /
seklinde yazmamiz gereklidir.
Belirlediginiz robotlarin siteyi indexlemesini istiyorsaniz o zaman bos bir "Disallow" satiri kullanilmalidir.Ardindan ise istenilen robotlar girilmelidir.
User-Agent: * Disallow /
User-Agent: BelirlenenRobot Disallow: Disallow: /cgi-bin/ Disallow: /haberler/genel/
Ne "User-Agent" nede "Disallow" alanlari "wildcard" ile genellestirilmis olarak tanimlanamazlar.(wildcard, *,?,+ vb. isaretlerle oraya gelecek olan karekteri genellemek icin kullanilan yontemin adidir.)
Bu komutlar ile bir cesit dosya uzantisinin indexlenmesini yasaklamak ta olasi degildir.Ayni zamanda bir "Allow" komutu da mevcut degildir.Bu su anlama gelmektedir :
"Bu klasoru indexlemeye kapat fakat su istedigim dosyalari bu yasagin haricinde tut"
demek olasi degildir.
Bunu yapmak icin mutlaka ilgili HTML taglari kullanilmali (robots etiketleri) ve ancak bu sekilde bir yonetim saglanmalidir.
Robotlar bir siteyi indexlemek istedikleri zaman, ilgili "robots.txt" dosyasini da onbellege (robots.txt dosyasi ilgili robotun cache'ine alinir) almaktadirlar.Bu nedenle bu dosya icin mutlaka bir "gecerli omur suresi" belirlenmeli ve boylece robotun bir dahaki indexleme isleminde kendi onbelleginde bu dosyayi okuyup siteyi buna gore indexlemesine izin verilememelidir.Bunu yapmak icin asagidaki yolu kullanamak mumkundur :
<Location /robots.txt> ExpiresDefault "access 3 days" </Location>
Onemli : "robots.txt" tamamen gonullu bir mekanizmadir.Ne sizin bu dosyayi web sunucunuza koymaniz,nede ilgili web robotunun burada gosterilen yasaklayici kurallara uymasi zorunlu degildir.
Robotlari HTML etiketleri ile kontrol altinda tutmak
Bazi (hepsi DEGIL) web robotlari web sayfalariniz icinde <head> ...</head> alanlari arasina yazilmis ve indexleme amaciyla kullanilacak olan HTML etiketlerini ararlar.Bu sekilde web robotlari o sayfa uzerindeki linkleri izleyip izlemeyeceklerine karar verirler :
<META NAME="ROBOTS" CONTENT="NOINCLUDE, NOFOLLOW">
bunlarin yerine (tam tersi olarak) asagidaki seceneklerde bu opsiyonlara kabul izni de verilebilirdi :
<META NAME="ROBOTS" CONTENT="INCLUDE, FOLLOW">
Bu sekilde yazimlarin esi olabilcek iki adet komut bulunmaktadir.Yukarida yazilan birinci ve ikinci ornege uygun olacak sekilde "NONE" ve "ALL" komutlarni da kullanabilirdik.
Robotlari, erisim kontrol kurallarina gore kontrol altinda tutmak
Yukarida yazilan kurallara uymayan,veya uymak istemeyen kotu amacli robotlar da sitenizi indekslemeye calisabilir.Ornegin bir alisveris magazasinin kredi karti bolumu bu tip girislerden korunmalidir.
Simdi bize sorun yaratabilecek bazi robotlara nasil cevap verecegimizi gorelim...
Olaya iki sekilde yaklasmak mumkun : "BrowserMatch" ve "SetEnvIf"
simdi de nasil kullanabilcegimizi gorelim,
BrowserMatchNoCase .*crawler.* robot BrowserMatchNoCase .*robot.* robot SetEnvIf Remote_Host .*koturobot\.com robot <Location /indeksleme-yapilamaz-alan/> order allow,deny allow from all deny from env=robot </Location>
veya mod_rewrite modulunu kullanarak asagida gosterilen sekilde,
RewriteCond %{HTTP_USER_AGENT} .*robot.* [NC,OR] RewriteCond %{HTTP_USER_AGENT} .*crawler.* [NC,OR] RewriteCond %{REMOTE_HOST} koturobot.com$ [NC] RewriteCond ^/indeksleme-yapilamaz-alan/ - [F]
Bazi robotlar "User-Agent" basligi kullanmadan islem yaptiklari icin onlari yakalamanin tek yolu REMOTE_HOST veya IP adreslerinden faydalanmaktir...
Robotlarin Ilgisini cekmek Onlara Sevimli Gorunmek
Robotlar web'te her zaman gezinmektedir.Hic duyrulmamis bir web sitesi bile komple bir sekilde bu robotlar tarafindan,robotun bagli bulundugu arama servisine arsivlenebilir veya indexlenebilir...
Cogu zaman sitenin kurucusu tarafindan, bilinen genel arama sitelerine sayfanin indekslenmesi icin bir istekte bulunulur.
Bu istegi yapabilceginiz en gelisimis sitelerden birisi,
http://www.submit-it.com/ dur...
Robotun dogru bilgiyi indekslediginden emin olmak
Bazi web robotlari (Hepsi Degil) hazirlanan elektronik sayfalarda Meta HTML taglarinin olup olmadigini kontrol eder.Boylece sayfa ile ilgili bazi onbilgiler elde edilebilir.Web kullanicilari da sizin verdiginiz anahtar kelimlere gore sayfaniza ulasir ve en dogru bilgiyi en kisa zamanda almis olurlar...
Simdi sayfamiz icin bazi META etiketleri hazirlayarak,robotlarin bunlara gore sitemizi indexlemesini saglayalim :
<META NAME="Author" CONTENT="Serkan Hadi Ceylani"> <META NAME="Description" CONTENT="Sitemize gelin ve teknolojinin son gelismelerini takip edin..."> <META NAME="Keywords" CONTENT="turkce türkçe kaynak dinamik web tasarim forum sohbet programlama">
Ilk satirda sayfanin yazari,ikinci satirda sayfa icin kisa aciklama,ucuncu satirda ise o sayfaya ait anahtar kelimleri tanimlamis oldum.
Bir kucuk UYARI : Bazi web robotlari bu anahtar kelimelere gore sitenin amacini tesbit edebiliyor.Eger guvenligi on plana alip,sitenizin genede belirli anahtar kelimlerle indexlenmesini istiyorsaniz,kelimeleri buradaki gibi degil de sayfanin <body> bolumnde arkaplan rengi ile ayni fontu secerek sayfanin icine yaziniz...
Daha Fazla Bilgi
Iyi robotlar,kotu robotlar,aktif robotlar,gizemli robotlar,bu konudaki e-posta listeleri vb. hakkinda daha fazla bilgiyi,
http://info.webcrawler.com/mak/projects/robots/robots.html
adresinde alabilirsiniz.
Saglicakla Kalin...
Serkan Hadi Ceylani Tampa/Florida USA
Bu makale hakkında ek bilgi eklemek için buraya tıklayınız
Bu makalenin yazar yada kaynağını bildirmek için tıklayınız.
Eklenme tarihi: 6-2-2006 Okunma: 1565
|
| Bu Makaleye Verilen Puan: |
Bu makaleye puan verilmemiş.
|
Kullanıcı Yorumları
Bu makaleye yorum gönderilmemiş, ilk yorumu sen gönder !
İlgili Dökümanlar
|
|
|