Proxy_Logo3

单线程代理自动搜刮、验证、轮转的流程图

正好最近需要大量采集某度,而传统的报头伪装及网关轮转已经满足不了了(其实主要是不想sleep。。。),所以捣鼓一下上proxy rotation这个大招了。个人写脚本的习惯之一是先画流程图做好流程控制,这样coding就只是打字的功夫了。值得注意的是下面的流程图是单线程版的,多线程若强制使用该流程,会涉及到资源争抢的问题,甚至出现堆栈溢出等不可控错误。最后感谢牛牛总赞助代理源。 0115PS:牛牛总你的代理源很不靠谱啊,赶脚我背你坑了。 0124PS:多线程琢磨了下,最终生产环境使用的方案是,一个守护进程用于搜刮和验证,另一个进程负责跑采集任务。 阅读全文
CoreSeek

CENTOS下抢先体验coreseek 5

coreseek 5的难产是出了名的了,从年前就开始即将发布,这眼瞅着2014都快完了还在即将发布,Orz了。。。 直到前两天有人爆粗了github网址(https://github.com/nzinfo/csft)才知道原来早就托管代码了。看了眼branch,csft5赫然在目。从注释来看,似乎是2.2.6版本的sphinx。喜欢尝鲜的可以开始玩玩啦。 下面是懒人的无脑安装过程: 阅读全文
shingling

面向CJK字符集的python shingling算法的两个实现注意点

由于网上没有现成的支持CJK字符集的shingling算法,前些日子我小小的研究了一下,并在本文中就遇到的坑做一些记录吧。 shingling算法本身的原理很简单,他类似于n-gram模型,根据移动窗口N,将一篇文档依次切割成单长为N的特征集合。对于英文而言,文档特征的最小粒度是单词。而对于CJK字符集而言,最小的粒度是单字。在python中,英文文档转换至最小的粒度只需要简单的按照空格split就可以得到单词粒度的列表对象了。但伟大的CJK这里就走不通了,后来一想直接将字符串转换成list不就行了么,大家可以尝试下面的代码: 阅读全文
1-12110FI107

【5分钟教程】CENTOS安装shadowsocks服务端并以dameon方式在后台自启动

前几个月搞了个免费的shadowsocks账号,今天突然无缘无故连接不上了。鉴于稳定性及跨平台性(IOS,安卓都有)完爆gae(不知道还能存活多久。。。),因此只能自己动手搭建服务端了。 值得一提的是,百度上搜索shadowsocks有好多篇编译安装shadowsocks的教程(C with libev版,除此以外还有nodejs版和python版),但问题是安装依赖包都要装个大半天,所以我就直接pass了。而CENTOS默认又不带node-js及npm,所以我选择最简单的python版来安装。接着尝试按照github上的官方教程来做,但是他的教程关键步骤缺失,导致我在CENTOS下装不… 阅读全文
route-301-e1382410716532-600x480

URL多重跳转及HTTP状态码检查脚本免费下载【windows cmd命令行版】

今天整理文件夹的时候找到了这个脚本,这是我两年前刚到途牛那会为了校验多重跳转错误而写的,原理其实就是curl进行header请求和follow location而已。对于有shell编程基础的童鞋而言写一个不过是分分钟的事情。但如果你对于shell环境搭建不熟悉,又恰恰需要类似功能的话,可以直接下载我的这个小脚本来玩玩。这个脚本是当年用cmd编写的,并且打包了curl,轻巧简便。 阅读全文
1365732336140

百度产品经理笔试题及我的愚见

最近网上流传的2014百度产品经理笔试题(估计是校招笔试)很适合锻炼产品思维,尤其是加强对搜索产品的理解,这个对于SEO从业人员来说也是很有意义的,因为只有当你的思维和搜索产品PM思维是统一的一致的,你做出来的页面才是搜索引擎喜欢的、用户喜欢的高质量页面。所以下面做个转载并且不自量力的答一些题目,有空我就全答完。 百度的产品经理笔试今年全部为开放式回答,1个小时,1张白纸,回答两个大题。题目基本上一题为产品分析题,一题为产品设计题。个人认为这些问题对产品经理的阅读能力、理解能力、思考能力以及解决问题的能力都有着不错的考验。半个小时的时间说多不多,说少不少,怎么在有限的时间里表达出自己的想… 阅读全文
捕获

在百度SERP出图的注意点

和百度官方确认了下,原理是如果想要自己的页面在百度SERP中出图则一定要保证robots.txt中没有对Baiduspider-image做封禁,事实是如果对Baiduspider-image封禁了的话,百度会使用Baiduspider/2.0来抓图片,但是如果你连Baiduspider 2.0都封禁了的话,那就bye bye了。 问题是有些网站(尤其是自建cdn服务器的网站)的图片会放在云存储上,站长会利用src来引用。这个时候就一定要注意外链服务器域名的robots.txt文件,有些黑心云存储提供商为了降低服务器宽带负载会对所有爬虫做禁止抓取,后果自然是呵呵了。 这里推荐下七牛… 阅读全文

【0417更新】百度取消SERP中目标网站URI的展示

【0417】百度再次更新了URL摘要的规则,现在展示的字数,竟然是不规则的,如果域名名字很长的话就。。。   【0402】下面的内容经和百度官方确认为BUG 今年百度网页搜索继SERP ajax化之后的又一大动作就是取消SERP中目标网站URI的展示。我曾经在以往的文章中分析及对比过百度与google在URL截断上的努力和尝试,但万万没想到的是百度昨天竟然自暴自弃,完全砍掉了URI的展示。至此百度成了唯一一个不展示URI的SE,真是前无古人的“创举”,鉴于360的屁颠跟风风格(360曾经学习百度做中转页跳转到目标网页,但是结果一坨屎,甚至还导致了360流量在约半月的… 阅读全文
crossDomain

新版GA配置跨顶级域跟踪的方法

新版GA(universal analytics)最大的利好消息是跨域追踪简便化,尤其是跨顶级域的追踪配置变得出奇的方便。 但尴尬的是GA的开发文档竟然写的乱七八糟的(https://developers.google.com/analytics/devguides/collection/analyticsjs/cross-domain)。而且还有错误。 经个人测试后最终正确的代码段如下: 【本篇文章来自道哥博客http://www.seodug.com/,您看到的可能只是采集的结果,原主题会不断更新以提供高质量的内容,如果您想看到更多100%原创,高质量,一线实战SEO的分享和… 阅读全文