首页 » Python

【张亚楠】Selenium+PhantomJS+Xpath抓取网页JS内容

2016-02-02　yuzidada

暂无评论　5,412次浏览

之前抓一个爬虫代理网站，发现在port上做了点手脚，使用了JS去计算port的方式，比如<script>document.write((2773^seal)+837);</script>。就这样一个改动搞得我费劲心思，用最笨的方法虽然能 … 阅读全文

ZERO:SEO用途的PYTHON模块介绍与下载

2016-02-02　yuzidada

暂无评论　4,593次浏览

我差不多用了一年的时间，陆陆续续将一些SEO最常见的技术需求片段，写入了一个模块之中。目前为止，这个模块的完善程度，已经做到可以节省我日常的大部分代码量。比如最典型的例子，查排名。用Python最基础的实现，也要加载urllib模块先将关键词编码，再urll … 阅读全文

2016-02-02　yuzidada

暂无评论　5,682次浏览

python的爬虫框架，scrapy，采集效率非常高，一只蜘蛛跑一万url采集标题之类的10分钟不到就搞定了，当然了，可以同时跑多只蜘蛛。首先是scrapy的安装教程，就不搬砖了，直接贴上地址： http://blog.csdn.net/pleasecall … 阅读全文

2016-02-02　yuzidada

暂无评论　7,790次浏览

手中有一个20W的URL列表的TXT文件，想把这20W的页面的title/description/keywords都提取出来，shell只能单线程，而且通过curl方式采集不稳定；火车头采集器倒是可以多线程，但是处理这种比较大的URL列表，URL导入时间已经久 … 阅读全文

2016-02-02　yuzidada

暂无评论　6,565次浏览

目的分析某行业中，用户最关心的一些需求，再根据这一需求去调整站内TDK，以及一些频道、内容的规划过程 1、下载安装cygwin：http://www.cygwin.com/ 2、cygwin安装时别忘记安装curl，wget，iconv，lynx，dos2 … 阅读全文

2015-12-17　yuzidada

暂无评论　4,140次浏览

今天来介绍一下python这个工具，之所以我不称呼它为程序语言，是因为它确实只是我在SEO中使用的工具，其他的大部分功能我目前还真没有用到，不过python确实是一款不错的程序语言，至少我认为的，简单、粗暴、直接！一、python是什么？ python（英语 … 阅读全文