用nutch-12抓取腾讯的新闻网页为什么下载的网页只有部分内容

来源:本站 浏览

小编:  我抓取的内容,用记事本打开查看htm文件,似乎都是在遇到#cmt_login时就没有内容了,怎样修改才能将完整的网页抓下来...  我抓取的内容,用记事本打开查看htm文件,似乎都是在遇到#cmt_login时就没有内容了,怎样修改才能将完整的网页抓下来  可选中1个或多个下面的关键词,搜索相关资料

  我抓取的内容,用记事本打开查看htm文件,似乎都是在遇到#cmt_login时就没有内容了,怎样修改才能将完整的网页抓下来...

  我抓取的内容,用记事本打开查看htm文件,似乎都是在遇到#cmt_login时就没有内容了,怎样修改才能将完整的网页抓下来

  可选中1个或多个下面的关键词,搜索相关资料。也可直接点“搜索资料”搜索整个问题。

  展开全部你这个是因为后面的数据都是用js脚本ajax方式加载的吧,源文件估计下不下来的。要用支持ajax的采集器才可以。

  另外看到你有成千上百个,还有一点很重要,就是要防止腾讯封你的ip,你访问量大的时候,超过一个人正常的访问,很有可能会被封锁ip。

  有啥疑问我都可以帮到你,对网页数据采集我算是混了很多年经验了,你碰到的这些问题我基本都碰到过。呵呵,希望能帮到你。追问我抓取的是腾讯的新闻类的网页,就算是ajax方式加载的,爬虫也应该都能把文件抓取到本地来吧,就像你在浏览器里打开一个网页,数据不都是加载好了吗?

  我看了抓取的网页,都是在要登陆的那个地方没有内容了,不登陆的话在浏览器中也能够看到新闻啊。

  我用的是nutch-1.2在抓取数据追答这个跟登录没关系,ajax加载的爬虫现在比较牛逼的都是会加载这些数据的,但是你这样保存下来的一般只有源码,里面有javascript

  数据时javascript运行后显示在界面上的。所以你用浏览器能看到,你说的这个采集器我没用过哦。不了解,你搜数据农场。看看,他们是专业突破各种防采集措施,我用过这个来采集亚*马逊的商品,很多ajax,比较牛叉能搞定。你参考一下。本回答由网友推荐已赞过已踩过你对这个回答的评价是?评论收起

  展开全部有些需要模拟登陆在可以抓取的。你要做一下配置。或者对nutch进行二次开发。我都是二次开发之后抓取的。已赞过已踩过你对这个回答的评价是?评论收起

  展开全部直接下载网页不就好了追问一个容易下,可是有成千上百个,而且还不知道在哪里?已赞过已踩过你对这个回答的评价是?评论收起收起更多回答(1)为你推荐:1 2 3

当前网址:http://www.hbxwzx.com/tiyu/2019-05-03/93234.html

免责声明:本文仅代表作者个人观点,与河北新闻网无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。

你可能喜欢的: