用nutch-12抓取腾讯的新闻网页为什么下载的网页只有部分内容

小编：　　我抓取的内容，用记事本打开查看htm文件，似乎都是在遇到#cmt_login时就没有内容了，怎样修改才能将完整的网页抓下来...　　我抓取的内容，用记事本打开查看htm文件，似乎都是在遇到#cmt_login时就没有内容了，怎样修改才能将完整的网页抓下来　　可选中1个或多个下面的关键词，搜索相关资料

　　我抓取的内容，用记事本打开查看htm文件，似乎都是在遇到#cmt_login时就没有内容了，怎样修改才能将完整的网页抓下来...

　　我抓取的内容，用记事本打开查看htm文件，似乎都是在遇到#cmt_login时就没有内容了，怎样修改才能将完整的网页抓下来

　　可选中1个或多个下面的关键词，搜索相关资料。也可直接点“搜索资料”搜索整个问题。

　　展开全部你这个是因为后面的数据都是用js脚本ajax方式加载的吧，源文件估计下不下来的。要用支持ajax的采集器才可以。

　　另外看到你有成千上百个，还有一点很重要，就是要防止腾讯封你的ip，你访问量大的时候，超过一个人正常的访问，很有可能会被封锁ip。

　　有啥疑问我都可以帮到你，对网页数据采集我算是混了很多年经验了，你碰到的这些问题我基本都碰到过。呵呵，希望能帮到你。追问我抓取的是腾讯的新闻类的网页，就算是ajax方式加载的，爬虫也应该都能把文件抓取到本地来吧，就像你在浏览器里打开一个网页，数据不都是加载好了吗？

　　我看了抓取的网页，都是在要登陆的那个地方没有内容了，不登陆的话在浏览器中也能够看到新闻啊。

　　我用的是nutch-1.2在抓取数据追答这个跟登录没关系，ajax加载的爬虫现在比较牛逼的都是会加载这些数据的，但是你这样保存下来的一般只有源码，里面有javascript

　　数据时javascript运行后显示在界面上的。所以你用浏览器能看到，你说的这个采集器我没用过哦。不了解，你搜数据农场。看看，他们是专业突破各种防采集措施，我用过这个来采集亚*马逊的商品,很多ajax，比较牛叉能搞定。你参考一下。本回答由网友推荐已赞过已踩过你对这个回答的评价是？评论收起

　　展开全部有些需要模拟登陆在可以抓取的。你要做一下配置。或者对nutch进行二次开发。我都是二次开发之后抓取的。已赞过已踩过你对这个回答的评价是？评论收起

　　展开全部直接下载网页不就好了追问一个容易下，可是有成千上百个，而且还不知道在哪里？已赞过已踩过你对这个回答的评价是？评论收起收起更多回答（1）为你推荐：1 2 3

当前网址：http://www.hbxwzx.com/tiyu/2019-05-03/93234.html

免责声明：本文仅代表作者个人观点，与河北新闻网无关。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。

你可能喜欢的：