【张亚楠】Selenium+PhantomJS+Xpath抓取网页JS内容
之前抓一个爬虫代理网站,发现在port上做了点手脚,使用了JS去计算port的方式,比如<script>document.write((2773^seal)+837);</script>。就这样一个改动搞得我费劲心思,用最笨的方法虽然能 … 阅读全文
之前抓一个爬虫代理网站,发现在port上做了点手脚,使用了JS去计算port的方式,比如<script>document.write((2773^seal)+837);</script>。就这样一个改动搞得我费劲心思,用最笨的方法虽然能 … 阅读全文
我差不多用了一年的时间,陆陆续续将一些SEO最常见的技术需求片段,写入了一个模块之中。目前为止,这个模块的完善程度,已经做到可以节省我日常的大部分代码量。 比如最典型的例子,查排名。用Python最基础的实现,也要加载urllib模块先将关键词编码,再urll … 阅读全文
python的爬虫框架,scrapy,采集效率非常高,一只蜘蛛跑一万url采集标题之类的10分钟不到就搞定了,当然了,可以同时跑多只蜘蛛。 首先是scrapy的安装教程,就不搬砖了,直接贴上地址: http://blog.csdn.net/pleasecall … 阅读全文
手中有一个20W的URL列表的TXT文件,想把这20W的页面的title/description/keywords都提取出来,shell只能单线程,而且通过curl方式采集不稳定;火车头采集器倒是可以多线程,但是处理这种比较大的URL列表,URL导入时间已经久 … 阅读全文
目的 分析某行业中,用户最关心的一些需求,再根据这一需求去调整站内TDK,以及一些频道、内容的规划 过程 1、下载安装cygwin:http://www.cygwin.com/ 2、cygwin安装时别忘记安装curl,wget,iconv,lynx,dos2 … 阅读全文
今天来介绍一下python这个工具,之所以我不称呼它为程序语言,是因为它确实只是我在SEO中使用的工具,其他的大部分功能我目前还真没有用到,不过python确实是一款不错的程序语言,至少我认为的,简单、粗暴、直接! 一、python是什么? python(英语 … 阅读全文