admin 管理员组文章数量: 887021
Selenium
Selenium工具,是数据采集利器,尤其是对js的操作。相对于jsoup、httpclient工具,其最大的不同就是通过操作浏览器的方式获取数据,类似于用户点击,移动鼠标等。比如,说最近想开发采集Quora(https://www.quora/)的小软件,发现这个网页都是js操作,数据查看,使用的鼠标滚动的方式,类似的网站还有国内的网易新闻等(http://news.163/)。针对这些网站,其最好的方式是使用Selenium调用浏览器采集。
关于Selenium的安装,博主已在这篇博客中介绍了https://blog.csdn/qy20115549/article/details/77456473。
java使用Selenium
Selenium可以直接打开火狐浏览器、谷歌浏览器以及IE浏览器,进而获取页面的内容,同时也可以进行表单操作等,关于java使用Selenium调出浏览器的案例程序,读者可参考我之前的博客(https://blog.csdn/qy20115549/article/details/77915024)。
这里主要介绍在不打开浏览器 GUI的情况在浏览器中执行我们的Selenium脚本。在这里,以火狐为案例,我的版本为56.0(64位)。以下为案例程序:
FirefoxBinary firefoxBinary = new FirefoxBinary();
firefoxBinary.addCommandLineOptions("--headless");
System.setProperty("webdriver.gecko.driver", "chrome\\geckodriver.exe");
FirefoxOptions firefoxOptions = new FirefoxOptions();
firefoxOptions.setBinary(firefoxBinary);
FirefoxDriver driver = new FirefoxDriver(firefoxOptions);
driver.get("http://www.baidu");
String title = driver.getTitle();
System.out.println(title);
driver.quit();
程序的运行结果如下:
本文标签: 打开浏览器 数据 selenium java 采爬取
版权声明:本文标题:Selenium不打开浏览器采爬取数据 Java 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://www.freenas.com.cn/jishu/1728363246h1233902.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论