答案往往就在评论里-有心阅读法则之11

答案往往就在评论里.  有心阅读的法则11。

之前断断续续写过一些. 今天增加一个.

1. 甄别爬虫节点和原出处.

如今打开百度检索有一个特色, 首页出现的几乎是一模一样的内容. 而且都没有注明出处. 不说广告了.那是花钱就能排的名次.

这些雷同的内容都是大大小小垃圾域名下面的内容, 然后被百度搜索收录. 原理其实都差不多垃圾域名爬优质的blog或者论坛或者网站, 百度再爬这些站.

百度虽然也会定期拔掉一些站, 但仍然阻挡不了层出不穷的.  也曾心存困惑, 难倒是某度的技术问题?  又想这不可能. 其实最后还是策略问题, 就是想不想做这件事。

比如:你看到这些第一层垃圾信息. 再往下dig一层. 一般就是第2页或者第3页的搜索结果了, 反而比第一页更有价值. 因为往往真实的信息源处在后面.

反观Google 信息源是第一位. 所有山寨 以及爬出来的文字 都是权重比较低的。

所以主动甄别信息源 会有助于降低获得信息的成本. 比如: 去原出处查看文章. 还会看到修正版本. 配图啊 源码啊什么的 包括别人的评论都有。山寨的信息节点就没有这些了。

2.  除去信息节点, 更宝贵的是读者一字千金般的评论.  经常性的会有醍醐灌顶之感觉.   如果之前,你不习惯去看评论的话,  以后可以修正一下自己.  答案往往就在评论里.

 

Read More