道哥谈SEO技术

在百度SERP出图的注意点

道哥 — Sun, 04 May 2014 12:23:45 +0000

和百度官方确认了下，原理是如果想要自己的页面在百度SERP中出图则一定要保证robots.txt中没有对Baiduspider-image做封禁，事实是如果对Baiduspider-image封禁了的话，百度会使用Baiduspider/2.0来抓图片，但是如果你连Baiduspider 2.0都封禁了的话，那就bye bye了。问题是有些网站（尤其是自建cdn服务器的网站）的图片会放在云存储上，站长会利用src来引用。这个时候就一定要注意外链服务器域名的robots.txt文件，有些黑心云存储提供商为了降低服务器宽带负载会对所有爬虫做禁止抓取，后果自然是呵呵了。这里推荐下七牛云存储，免费注册并验证手机后就拥有10G空间+每月10G下行流量，免费提供二级域名形式的外链，采取的是主动式上传的方式，个人的看法是相比加速乐，安全宝这种全站CDN方式更灵活些。点击这里注册。版权所有：道哥谈SEO技术《在百度SERP出图的注意点》本文链接：http://www.seodug.com/ued/baidu-serp-pt/特别声明：除特别标注，本站文章均为原创，遵循CC BY-NC 3.0，转载请注明出处

版权所有：道哥谈SEO技术《在百度SERP出图的注意点》
本文链接：http://www.seodug.com/ued/baidu-serp-pt/
特别声明：除特别标注，本站文章均为原创，遵循CC BY-NC 3.0，转载请注明出处

【0417更新】百度取消SERP中目标网站URI的展示

道哥 — Wed, 02 Apr 2014 05:24:42 +0000

【0417】百度再次更新了URL摘要的规则，现在展示的字数，竟然是不规则的，如果域名名字很长的话就。。。【0402】下面的内容经和百度官方确认为BUG 今年百度网页搜索继SERP ajax化之后的又一大动作就是取消SERP中目标网站URI的展示。我曾经在以往的文章中分析及对比过百度与google在URL截断上的努力和尝试，但万万没想到的是百度昨天竟然自暴自弃，完全砍掉了URI的展示。至此百度成了唯一一个不展示URI的SE，真是前无古人的“创举”，鉴于360的屁颠跟风风格（360曾经学习百度做中转页跳转到目标网页，但是结果一坨屎，甚至还导致了360流量在约半月的时间内被错误识别为referral流量，后来抄不下去了，于是就乖乖的改成直接跳到目标网页了），后面有无来者还真不好说。如果说SERP ajax化的目的及结果是提高搜索用户体验的话，这次砍掉URI的展示无异于自捅一刀，或者说中文搜索的小白用户真那么多？版权所有：道哥谈SEO技术《【0417更新】百度取消SERP中目标网站URI的展示》本文链接：http://www.seodug.com/ranking-system/baidu-serp-uri/特别声明：除特别标注，本站文章均为原创，遵循CC BY-NC 3.0，转载请注明出处

版权所有：道哥谈SEO技术《【0417更新】百度取消SERP中目标网站URI的展示》
本文链接：http://www.seodug.com/ranking-system/baidu-serp-uri/
特别声明：除特别标注，本站文章均为原创，遵循CC BY-NC 3.0，转载请注明出处

新版GA配置跨顶级域跟踪的方法

道哥 — Mon, 24 Feb 2014 12:47:22 +0000

新版GA（universal analytics）最大的利好消息是跨域追踪简便化，尤其是跨顶级域的追踪配置变得出奇的方便。但尴尬的是GA的开发文档竟然写的乱七八糟的（https://developers.google.com/analytics/devguides/collection/analyticsjs/cross-domain）。而且还有错误。经个人测试后最终正确的代码段如下：【本篇文章来自道哥博客http://www.seodug.com/,您看到的可能只是采集的结果,原主题会不断更新以提供高质量的内容,如果您想看到更多100%原创,高质量,一线实战SEO的分享和分析请到道哥博客http://www.seodug.com/】在添加完代码后一般就大功告成了。今天研究了下，还有另外一种方法可以实现类似的效果，那就是直接在后台中利用referral exclusion list来实现。将多个域名填入即可。不过这么做会有问题，那就是当用户访问从A网站上点击链接跳至B网站后，会被记为新的一个直接流量visit，对报表的影响是visits,bounce rate等数据都会虚高。因此第一种方法，也就是利用js给链接自动加clientid以及timestamp参数是更稳妥更值得推荐的方法。版权所有：道哥谈SEO技术《新版GA配置跨顶级域跟踪的方法》本文链接：http://www.seodug.com/keywords-anaylsis/ua-cross-domain-tracking/特别声明：除特别标注，本站文章均为原创，遵循CC BY-NC 3.0，转载请注明出处

版权所有：道哥谈SEO技术《新版GA配置跨顶级域跟踪的方法》
本文链接：http://www.seodug.com/keywords-anaylsis/ua-cross-domain-tracking/
特别声明：除特别标注，本站文章均为原创，遵循CC BY-NC 3.0，转载请注明出处

2014新起点

道哥 — Sat, 04 Jan 2014 13:00:01 +0000

1，在别人恐慌时贪婪，在别人贪婪时恐慌。 2，人无我有，人有我精。 3，哪里有用户那里就该有营销。 4，不要把过程当成目的，更不能为了过程而过程。 5，既然想，就要干，这是一个行动大于思考的时代，执行力大于一切。版权所有：道哥谈SEO技术《2014新起点》本文链接：http://www.seodug.com/ued/2014-on-the-way/特别声明：除特别标注，本站文章均为原创，遵循CC BY-NC 3.0，转载请注明出处

版权所有：道哥谈SEO技术《2014新起点》
本文链接：http://www.seodug.com/ued/2014-on-the-way/
特别声明：除特别标注，本站文章均为原创，遵循CC BY-NC 3.0，转载请注明出处

分享个GA小技巧——获取referral的完整URL

道哥 — Wed, 18 Dec 2013 02:27:40 +0000

用GA的都知道referral是只显示URI而不显示query string的。在绝大部分情况下，这很不方便，尤其是经常在referral中发现来自于百度，搜搜等莫名其妙未被统计入organic流量的情况。只能说真TMD的EGG PAIN。解决方法就是利用filter直接将referral地址写入user defined value，然后再需要的报告中选择secondary dimension的user defined value即可。由于很简单，所以我就只截个图了。版权所有：道哥谈SEO技术《分享个GA小技巧——获取referral的完整URL》本文链接：http://www.seodug.com/web-analysis/get-full-referral-url-in-ga/特别声明：除特别标注，本站文章均为原创，遵循CC BY-NC 3.0，转载请注明出处

版权所有：道哥谈SEO技术《分享个GA小技巧——获取referral的完整URL》
本文链接：http://www.seodug.com/web-analysis/get-full-referral-url-in-ga/
特别声明：除特别标注，本站文章均为原创，遵循CC BY-NC 3.0，转载请注明出处

GA新版功能的不完全解读

道哥 — Mon, 04 Nov 2013 02:29:24 +0000

最近GA做了两次大规模改版，修改了GA使用率最高的traffic source、content面板以及最核心的advanced segment功能。此举对习惯了使用老版界面的用户又产生了一定的冲击（拥抱变化吧= =），一开始我也是各种蛋疼不习惯，但是在用了段时间后的确感受到了GA团队的用心良苦，下面我就为大家解读下此次GA改版带来的一些新变化以及目的：首先来谈一下traffic source以及content面板这两个面板在改版后整个更名，新名称为Acquisition以及Behavior，个人偏好的中文翻译为“流量获取”以及“用户行为”。这看似闲的蛋疼换汤不换药的更名实际背后是有美好的初衷，那就是GA团队的重新定义的ABC分析流程（Acquisition-Behavior-Conversions，流量获取-用户行为-用户转化）。为了让ABC分析流程更直观，GA在Acquisition下新增了两个报告分别为overview以及channels。打开overview一目了然的就可以看到各个channel的访问量，用户体验指标以及目标转化（或电商收入）。要知道以前要看个渠道的电商收入还得找那不起眼的ecommerce explorer才能找到啊。。。现在清晰多了。【本篇文章来自道哥博客http://www.seodug.com/,您看到的可能只是采集的结果,原主题会不断更新以提供高质量的内容,如果您想看到更多100%原创,高质量,一线实战SEO的分享和分析请到道哥博客http://www.seodug.com/】这里有些老用户可能会说了，不就是把原来的medium拿出来换个名字叫channel么，其实不然，这两者是包含的关系。channel是可以在GA的profile设置中点击Channel Grouping进行自定义的，包含但不仅限于medium,source。这样你完全可以实现任意渠道的组合，比如可以将2345.com/referral以及hao.360.cn/referral合并成一个名为“网址导航站”的channel。需要注意的是，channel的自定义并非实时生效的。说完了面板再来说一下advanced segment功能这次advanced segment高级细分功能的更新除了UI变化外还有个重大且让人兴奋的细节变更，那就是filter by users。这个功能不细心发现不了，因为GA在老版本中所有的高级细分都是且只是针对visits的，而此次加入的按照users来细分可以说是又一个进步。很多人看到这里肯定是一头雾水，filter by visits和filter by users有啥区别？举个简单的例子，大家只要新建两个segment，选择landing page contain 某一类URL，然后一个选择为filter by visits一个选择为filter by users。同时应用这两个细分。结果类似于上面，可以明显看到的是UV是完全相同的，但是visits，pv等都不同，filter by users的明显要高。因为filter by visits的landing page统计只记录该用户当次访问特定着陆页的数据，而filter by users还包括了该用户此后回访产生的visits以及pv，自然就要来的更高了。这正是此次高级细分升级带来的最大利好消息，仅仅是一个按钮的区别，却提供了非常丰富的细分维度的，对于数据分析师而言可以直接统计各渠道投入带来的用户的行为数据了，这真的让人欣喜不已。版权所有：道哥谈SEO技术《GA新版功能的不完全解读》本文链接：http://www.seodug.com/web-analysis/ga-new-version/特别声明：除特别标注，本站文章均为原创，遵循CC BY-NC 3.0，转载请注明出处

版权所有：道哥谈SEO技术《GA新版功能的不完全解读》
本文链接：http://www.seodug.com/web-analysis/ga-new-version/
特别声明：除特别标注，本站文章均为原创，遵循CC BY-NC 3.0，转载请注明出处

GA报表熟悉度测验题（答案已更新）

道哥 — Wed, 30 Oct 2013 02:22:14 +0000

昨天有一个任务，是要从GA中抽取四个省各城市2012年及2013年1-10月的UV及PV数据生成类似下面的报表结果我愣是脑子进水的ctrl+c,ctrl+v做了将近一个小时，晚上睡觉的时候怎么想怎么不对劲，然后突然灵光乍现，早上过来5分钟就搞定了这活。。。但是把报表结构小改了下，改成这种：【本篇文章来自道哥博客http://www.seodug.com/,您看到的可能只是采集的结果,原主题会不断更新以提供高质量的内容,如果您想看到更多100%原创,高质量,一线实战SEO的分享和分析请到道哥博客http://www.seodug.com/】然后想到似乎以前也有人问我过这个问题，所以干脆拿这个问题出来考考大家对GA的熟悉程度吧。欢迎回复留下你的方法。你们啊看了问题都在群里讨论也没人来评论嘛。算了，我来更新答案：第一步，新建自定义报表的过程就省略不提了。到这里首先需要理解的是GA export到xlsx的数据实际就是折线图上的数据。而默认的折线图数据是汇总数据。第二步，理解了原理后，我们需要做的就是将每个城市的数据绘制到折线图上就可以了。说到这里很多人都该明白怎么做了，那就是使用长久被人忽视的plot rows功能。勾选具体城市后我们点击plot rows按钮，数据就到折线图上啦。第三步，要记得再多选一个metric，因为默认的metric只有uv或者visits，而我们的报表还需要pv，方法同样很简单：第四步，导出成xlsx，再去看看会多出来n个dataset的sheet，其中的数据就是我们需要的城市数据，而且按月排列非常规整。接下来需要做的就是将这个xlsx中的数据一个个复制，然后转置粘贴（因为dataset当中的数据是竖排的）到汇总的xlsx文件就大功告成啦！版权所有：道哥谈SEO技术《GA报表熟悉度测验题（答案已更新）》本文链接：http://www.seodug.com/web-analysis/ga-test/特别声明：除特别标注，本站文章均为原创，遵循CC BY-NC 3.0，转载请注明出处

浏览器原生支持的unicode编码类型

道哥 — Tue, 29 Oct 2013 01:43:51 +0000

我测试下来分别有以下几种unicode编码浏览器是能够自动识别并转换成对应中文的： 1，html实体及html实体编号 html实体大家肯定都知道，最常见的就是 代表空格。但很多人没留意的是html实体编号其实浏览器也是可以自动识别的，特征是:&#{10进制数字};或者是&#x{16进制数字};。其实html实体说白了就是使用10进制或16进制的unicode进行加密的而已，浏览器都能识别。【本篇文章来自道哥博客http://www.seodug.com/,您看到的可能只是采集的结果,原主题会不断更新以提供高质量的内容,如果您想看到更多100%原创,高质量,一线实战SEO的分享和分析请到道哥博客http://www.seodug.com/】 2，\u以及\x编码 \u以及\x这两者都是16进制的unicode加密算法，和html实体编号一样，其实不过是将&#替换成了\u或者\x而已，但是注意必须保持小写，因为\U和\X是不能够被识别的。这里要重点提一下\u+，这种加密我印象中也看到过，但是刚才测试了下，根本没法识别成正常字符嘛，至此我对使用这种算法加密字符的只能表示不理解了。备注：这两种方式只能用在js中，\u可用于中文编码，而\x只适用于英文编码。而html实体与实体编号是直接可以用在html源码中的。这里肯定有人会问，上面的这个乱七八糟的东东能用来干嘛？：其实这类编码的原始目的是为了让中文在不同的环境下都能很好的显示，所以一般都会将中文转化为unicode格式，而浏览器很聪明的会自动解码其为对应字符。举个案例：百度旅游的文字蛋疼到全部都是ajax获取的（还让不让人采集了？！！！），而返回的json数据就是利用\u编码进行的加密。除此以外如果细心的话，你会再各种各样有意思的网站上发现这类编码的身影，然后呵呵。。。版权所有：道哥谈SEO技术《浏览器原生支持的unicode编码类型》本文链接：http://www.seodug.com/server-tech/browser-unicoded-chars/特别声明：除特别标注，本站文章均为原创，遵循CC BY-NC 3.0，转载请注明出处

curl及lynx命令执行效率的对比

道哥 — Thu, 29 Aug 2013 07:04:59 +0000

在用于下载网页上执行lynx -source以及curl -s的结果是完全相同的，而且肉眼观察下来两者的执行效率也应该是完全一样的，但本着闲的蛋疼不做死不会死的精神，我花了点时间测试了这两个命令在执行效率。测试用到的命令行如下：以及【本篇文章来自道哥博客http://www.seodug.com/,您看到的可能只是采集的结果,原主题会不断更新以提供高质量的内容,如果您想看到更多100%原创,高质量,一线实战SEO的分享和分析请到道哥博客http://www.seodug.com/】备注：curl.sh以及lynx.sh的作用就是利用lynx -source以及curl -s抓取urls.txt当中的3000条url。为了避免目标网站的承载能力以及VPS本身的网速波动影响测试结果，所以我抓取的是localhost网站，并且分别抓取了3次，每次均记录。最终平均后的结果如下： curl： real 32m6.875suser 0m14.939ssys 0m16.223s lynx： real 32m34.912suser 0m37.764ssys 0m17.281s 总结：对比两者可以看到，两个脚本的总执行时间(real)相差了28秒，而CPU时间（user+sys）上相差了24秒。所以结论是如果你自己有写一个爬虫系统，并且在需要大批量的抓取网页时，应该选择curl。版权所有：道哥谈SEO技术《curl及lynx命令执行效率的对比》本文链接：http://www.seodug.com/server-tech/curl-or-lynx/特别声明：除特别标注，本站文章均为原创，遵循CC BY-NC 3.0，转载请注明出处

大中型网站全自动收录抽查系统思路概述

道哥 — Tue, 25 Jun 2013 06:34:32 +0000

夜息的“SEO的数据分析II – 如何改善网站收录”一文中详细介绍了如何从分析网站收录到改善收录率来提升SEO流量，这个任务需要我们建立一个体系来监控不同类型页面甚至是不同频道的收录率以便于长期掌控SEO流量的走势。但是大中型网站少则以万计的URL数量导致了收录的监控本身成了个很繁琐的事情，那么较效率又不失精度的解决办法就是随机抽样来查收录率(可参考天极网废小米的百度收录抽查一文)，但是如果没有技术上的配合，手动做这个事情的话依旧费时费力而且不讨巧，比如用excel来做随机抽样，一来效率低下，二来单条URL的抽中概率无法保证。因此，建立一个全自动收录抽查系统势在必行。这篇文章主要是谈一下思路，具体的代码实现各位可以使用自己熟悉的语言去写，python,shell啥的都可以。我用的是shell写的，因为lynx -dump抽取URL的功能实在是太方便了。尽管python没有lynx库，但是如果你系统安装了lynx并且能够通过命令行调用到lynx的话也是一样的，我懒得折腾了而已。由于lynx是这个脚本的核心，所以花些时间重点说明一下吧，更何况像centos等操作系统默认是没有安装lynx的，我们需要手工安装。首先ssh或者使用putty登陆到服务器，然后下载lynx安装包。我下载的是2.8.7版本，在命令行中输入wget http://lynx.isc.org/release/lynx2.8.7.tar.bz2 。下载完成后进行解压bunzip2 lynx2.8.7.tar.bz2 。得到lynx2.8.7.tar后再解压一下tar -xvf lynx2.8.7.tar 。然后进入目录cd lynx2-8-7。然后输入 ./configure，在完成后输入make install就可以了，如果登陆服务器用的不是root账号得要sudo make install，否则会提示permission denied报错。如果你是sudo安装的lynx，shell脚本中一定要补全lynx的路径来做网址查询，因为cron执行的任务是不会使用用户账号的环境变量的，而路径通常是/usr/local/bin/lynx，当然不同操作系统可能会有细微不同，我们用whereis lynx查询一下具体路径即可。接下来开始讲正题，思路是这样子的，我们先将这个系统分成两个部分：第一部分为本篇文章的重点也就是抓取网站分类页及产品页URL，并随机等概率的抽取URL。第二部分为批量检查这两类URL的收录，并且输出数据。先从第一部分做起来，整个流程其实类似于爬虫抓取网站：第一步，我们定义好我们自己的起点（可以是首页也可以是其他的频道页等，挑选起点的原则是保证大部分分类页都能被一次提取到），接着利用lynx去挨个遍历这些起点页URL，注意抓取深度只有这1层，然后利用grep将分类页URL利用正则表达式的具体规则提取出来，再下来对刚才得到的所有分类页URL列表进行去重后保存为fenleiye.txt。如果需要监控的频道比较多的话，在正则规则上稍作变化分别提取多保存几个文件也就可以了。这里为了简单起见就一视同仁都当分类页提取了。【本篇文章来自道哥博客http://www.seodug.com/,您看到的可能只是采集的结果,原主题会不断更新以提供高质量的内容,如果您想看到更多100%原创,高质量,一线实战SEO的分享和分析请到道哥博客http://www.seodug.com/】第二步，接下来我们开始第二轮的抓取，同样抓取深度为1层，对于一个网站而言事实上总共只抓了两层而已，但是视网站规模大小这第二次抓取的耗时可能会相当长。同样我们利用lynx去挨个遍历这些分类页URL，利用正则提取产品页的所有URL并去重保存为chanpinye.txt。第三步，通过刚才的两步我们已经得到所有的分类页及产品页URL列表了，现在的问题是将其从中按照一定的比例随机抽样出来，注意此处的随机算法需要保证所有的URL都拥有相同的抽中概率，并且保证所有的URL都一定有被抽过，这么做就能最大限度地保证抽样结果的公正性。我的算法是这么设计的：首先定义期望的随机抽样结果数量变量samplingno，假设我们定义为2000，也就是说我们希望理想情况下最终能从URL列表中抽样个2000条URL出来。其次，定义分类页URL数量变量为fenleiyeno，假设为8000。那么按照假设每个URL被抽中的概率就是2000/8000=1/4=25%，那么我们对每条URL生成区间为1-4的随机整数，如果随到1（25%的概率），那么代表该URL抽中并将该条URL输出到抽样结果列表当中。这里需要注意的是一个四舍五入的问题，因为刚才fenleiyeno是8000，除以samplingno的2000得出的区间上限为4，但如果分类页数量是9001的话，做整除得出的还是4（shell中expr的除法默认是整除），这样会导致抽出的样本数最终偏多，因此判断一下如果小数位>0.5则区间上限自增1。在9001这个情况下就是5，那么每条20%的概率，抽出来大概在1900条左右的样子，也就可以了。至此第一部分完工。我们得到了下图分类页及产品页抽样后的URL列表。第二部分也不难，有了列表后我们只需要批量去百度查收录即可，偷懒的话直接用zero写的批量查百度收录的python脚本即可，或者自己动手写一个类似的脚本也行，用shell的话，核心的采集代码就一行。由于现成的解决方案太多这部分我就不细说了。在上面脚本都写完调试完后，将脚本加入服务器的cron任务，每周一凌晨跑一下（如果数据量小的话每天跑都行），这样等到周一上班的时候就等着看现成的数据吧。版权所有：道哥谈SEO技术《大中型网站全自动收录抽查系统思路概述》本文链接：http://www.seodug.com/optimize-indexrate/get-url-lists-and-sampling/特别声明：除特别标注，本站文章均为原创，遵循CC BY-NC 3.0，转载请注明出处