Python'da Xpath Ile Web Scraping

Python'da Xpath Ile Web Scraping

Python ve Xpath ile web scraping işlemlerini oldukça rahat yapabilirsiniz, ayrıca diğer programlama dillerine göre python'un thread özelliği ile örümcek tarzı uygulamaları çok daha hızlı çalıştırabilirsiniz.

Aşağıdaki örnekte Al Jazeera sitesindeki bir haberin başlığını çekeceğiz.

Örneği yaparken Google chrome ile ilgili sayfaya girip haber başlığını CTRL  + C ile inspect edip copy xpath ile xpathini kopyaladım ve string() içine alarak direk string olarak gelmesini sağladım.

from lxml import etree, html
import requests

url = 'http://www.aljazeera.com.tr/haber/hong-kongda-buyuk-protesto'
r = requests.get(url, allow_redirects=False)
dom = html.fromstring(r.text)
title = dom.xpath('string(//*[@id="header-story"]/hgroup/h1)').strip()

print title

 

Faydalı Linkler

http://docs.python-guide.org/en/latest/scenarios/scrape/
http://scraping.pro/5-best-xpath-cheat-sheets-and-quick-references/

Sorularınızı özel mesaj ile iletebilirsiniz.

YORUMLAR