博客被全站抓取了-蚊子-前端博客

全站前端都的内容被扒了，如何处理呢？

今天早晨本来想看看访问量的统计数据，结果发现有几个不太了解的网站的 referer，就想看看这个网站长的什么样子，如果是个聚合类型的网站，抓个几篇文章也无所谓。结果打开这个网站后，惊呆了，跟我的网站一模一样，路由一样/样式一样/js 脚本一样，连 demo 也一并抓去了。

就跟爬虫似的，凡是能链接到的地方，全部被抓取，然后在他的服务器上形成一套完整的网站。看这个盗版网站的源代码：

蚊子的前端博客-蚊子的前端博客

tppabs标签是什么鬼？tppabs 标签是离线浏览器下载完整个网页后，在图片或超级链接标签内加入的标签，以记录该图片或超级链接指向的原始地址。也是这烂网站通过爬虫把整站了扒下来。

投诉到运营商那边时，运营商是建议静态资源添加 referer 或者 IP 黑名单等，但这种方式并不能解决问题。毕竟他已经把内容全部抓取到本地了。

昨天晚上发现，至少有 3 个域名抓取了我的网站，目前还没发现更多，有 2 个是通过阿里云购买的，这两个我通过阿里云的邮件给他回复了消息，进行了严厉的警告，实在不行，接下来的措施就是投诉到工信部了。不过早晨发现他网站上抓取到的内容已经被清除了。

使用site关键搜索这个网址，发现他不止抓取过我这一个网站，其他网站也被全站抓取后：

蚊子的前端博客-蚊子的前端博客

盗版网站的域名是 2017 年注册的，不知道他这是想干嘛。而且我的网站流量也不高，通过关键词搜索的话，导到他域名上的流量不会很多。

目前是在 js 里添加了一个对当前域名的校验，如果不是自己的域名，则直接跳转。

这次被恶意全站抓取，也不会是最后一次。

蚊子的前端博客-蚊子的前端博客

博客被全站抓取了