问题 如何抓取HTTPS javascript网页


我试图通过在线目录监控日常价格。 该站点使用HTTPS并使用javascript生成目录页面。我如何与网站连接并使其生成我需要的页面?

我已经在其他可以轻松访问HTML的网站上完成了这项工作,生成后解析HTML也没有问题。

我只懂Python和Java。

提前致谢。


4950
2018-04-06 05:41


起源



答案:


看一眼 的HtmlUnit  - 无头Java浏览器,可以完全由您的代码控制。这里可以看到一个简单的例子: http://htmlunit.sourceforge.net/gettingStarted.html

(强制警告:通过屏幕抓取网站,您可能会破坏其ToS,并可能打开诉讼;检查您是否被允许在开始之前执行此操作)


10
2018-04-06 05:48





如果他们已经创建了一个与他们的JavaScript接口的Web API,那么您可以直接抓取它,而不是尝试使用HTML路由。

如果他们对它进行了模糊处理或由于某些其他原因而无法使用该选项,那么您基本上需要一个Web浏览器来评估JavaScript,然后废弃浏览器的DOM。也许写一个浏览器插件?


1
2018-04-06 05:44





我使用webkit通过它的python绑定来抓取javascript内容。 见这里的例子


1
2018-04-12 00:57