首页技术总结正文内容

golang使用selenium逐页爬取url

技术总结

更新时间：2024-12-23 02:37:35 4

admin 管理员组

文章数量: 887021

一、centos7安装chrome

[root@localhost ~]# echo '[google-chrome]
name=google-chrome
baseurl=http://dl.google/linux/chrome/rpm/stable/x86_64
enabled=1
gpgcheck=1
gpgkey=https://dl.google/linux/linux_signing_key.pub
'> /etc/yum.repos.d/google-chrome.repo
[root@localhost ~]# yum -y install google-chrome-stable --nogpgcheck

二、查看chrome版本

[root@localhost ~]# google-chrome-stable --no-sandbox

三、下载chromedriver
到该网站 http://npm.taobao/mirrors/chromedriver/下载对应版本并解压到/root下

四、代码

package main

import (
	"context"
	"fmt"
	"log"
	"time"

	"github/tebeka/selenium"
	"github/tebeka/selenium/chrome"
)

const (
	//设置常量 分别设置chromedriver.exe的地址和本地调用端口
	seleniumPath = `/home/chromedriver`
	port         = 9515
)

var (
	chromeCaps = chrome.Capabilities{
		Prefs: map[string]interface{}{ // 禁止加载图片，加快渲染速度
			"profile.managed_default_content_settings.images": 2,
		},
		Path: "",
		Args: []string{
			// "--headless",
			"--start-maximized",
			"--window-size=1920x1080",
			"--no-sandbox",
			"--user-agent=Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36",
			"--disable-gpu",
			"--disable-impl-side-painting",
			"--disable-gpu-sandbox",
			"--disable-accelerated-2d-canvas",
			"--disable-accelerated-jpeg-decoding",
			"--test-type=ui",
			"--ignore-certificate-errors",
		},
	}
	//设置selenium服务的选项,设置为空。根据需要设置。
	ops     = []selenium.ServiceOption{}
	service *selenium.Service
	//设置浏览器兼容性，设置浏览器名称为chrome
	caps = selenium.Capabilities{"browserName": "chrome"}
)

// Init 初始化一个service后台服务
func InitService() (*selenium.Service, error) {
	//1.开启selenium服务
	return selenium.NewChromeDriverService(seleniumPath, port, ops...)
}

// [+] 遍历index下标, 一页页抓取文章url---------------------------------------------------------------------------------------------
func Spider(parse ParseFactory) (err error) {
	//1.加载自定义浏览器配置
	caps.AddChrome(chromeCaps)
	//2.将浏览器挂载到selenium driver上, 调用浏览器urlPrefix: 测试参考：DefaultURLPrefix = "http://127.0.0.1:4444/wd/hub"
	wd, err := selenium.NewRemote(caps, fmt.Sprintf("http://127.0.0.1:%v/wd/hub", port))
	if err != nil {
		err = fmt.Errorf("unable create browser, err: %v", err)
		return
	}
	defer wd.Close()
	if err = parse.Run(wd); err != nil {
		log.Fatal(1001, err)
	}
	return
}

func schedule(links []string) {
	var worker1 = make(chan bool, 1)
	var worker2 = make(chan bool, 1)
	var worker3 = make(chan bool, 1)
	var worker4 = make(chan bool, 1)
	worker1 <- true
	worker2 <- true
	worker3 <- true
	worker4 <- true
	n := len(links) / 4
	for {
		select {
		case <-worker1:
			go func() {
				Spider(&ReadArticalParser{ArticleLink: links[:n]})
				worker1 <- true
			}()
		case <-worker2:
			go func() {
				Spider(&ReadArticalParser{ArticleLink: links[n : n*2]})
				worker2 <- true
			}()
		case <-worker3:
			go func() {
				Spider(&ReadArticalParser{ArticleLink: links[n*2 : n*3]})
				worker3 <- true
			}()
		case <-worker4:
			go func() {
				Spider(&ReadArticalParser{ArticleLink: links[n*3:]})
				worker4 <- true
			}()
		default:
			time.Sleep(time.Second * 3)
		}
	}
}

func main() {
	service, err := InitService()
	if err != nil {
		log.Fatal(0001, err)
	}
	defer service.Stop()
	// 获取所有文章链接
	linksParser := &LinksBuildParser{BaseURL: "https://blog.csdn/qq_38900565?t=1"}
	if err := Spider(linksParser); err != nil {
		log.Fatal(0002, err)
	}
	schedule(linksParser.ArticleLink)
}

// [+] 工厂方法封装爬虫器 ------------------------------------------------------------------------------------------------------------
type ParseFactory interface {
	Run(selenium.WebDriver) error
}

// [-] LinksBuildParser 链接爬取器
type LinksBuildParser struct {
	BaseURL     string
	ArticleLink []string
}

func (l *LinksBuildParser) Run(wd selenium.WebDriver) (err error) {
	//1.打开根页
	if err = wd.Get(l.BaseURL); err != nil {
		return
	}
	for {
		// 4.抓取当前文章
		l.ParseLink(wd)
		// 5.点击下一页
		e, err := wd.FindElement(selenium.ByCSSSelector, "[class='js-page-next js-page-action ui-pager']")
		if err != nil {
			break
		}
		e.Click()
	}
	return nil
}

// 抓取当前页面链接
// type ParseLink func(selenium.WebDriver)
func (l *LinksBuildParser) ParseLink(wd selenium.WebDriver) {
	eles, err := wd.FindElements(selenium.ByXPATH, `//*[@id="articleMeList-blog"]/div[2]/div[@class='article-item-box csdn-tracking-statistics']`)
	if err != nil {
		log.Println(2001, err)
		return
	}
	for _, ele := range eles {
		readE, err := ele.FindElement(selenium.ByXPATH, "div[@class='info-box d-flex align-content-center']/p/span[@class='read-num']")
		text, err := readE.Text()
		if err != nil {
			log.Println(2002, err)
			continue
		}
		if len([]byte(text)) > 4 {
			log.Println(2003, "阅读过万", text)
			continue
		}
		a, err := ele.FindElement(selenium.ByXPATH, "h4/a")
		if err != nil {
			log.Println(2004, err)
			continue
		}
		if link, err := a.GetAttribute("href"); err == nil {
			l.ArticleLink = append(l.ArticleLink, link)
		}

	}
}

// [-] 文章阅读器
type ReadArticalParser struct {
	ArticleLink []string
}

func (r *ReadArticalParser) Run(wd selenium.WebDriver) (err error) {
	log.Println(3000, wd.SetPageLoadTimeout(time.Second*15))
	for _, link := range r.ArticleLink {
		// ctx, cancel := context.WithTimeout(context.Background(), time.Second*15)
		// go r.Read(ctx, wd, link)
		// time.Sleep(time.Second * 15)
		// cancel()
		if err := wd.Get(link); err != nil {
			log.Println(3001, err)
		}
		time.Sleep(time.Second * 15)
	}
	return nil
}

func (r *ReadArticalParser) Read(ctx context.Context, wd selenium.WebDriver, link string) {
	quit := make(chan bool, 1)
	go func() {
		if err := wd.Get(link); err != nil {
			log.Println(3002, err)
		}
		quit <- true
	}()
	for {
		select {
		case <-ctx.Done():
			return
		case <-quit:
			return
		default:
			time.Sleep(time.Second)
		}
	}
}

本文标签： selenium golang URL 逐页爬取

版权声明：本文标题：golang使用selenium逐页爬取url 内容由网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://www.freenas.com.cn/jishu/1726436794h960374.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

发表评论

全部评论 0

暂无评论

技术交流 – FreeNAS中文网

golang使用selenium逐页爬取url

更多相关文章

selenium 不打开浏览器窗口模拟浏览器

python selenium 处理弹窗_python 让selenium(webdriver ) 不打开浏览器（弹出窗口）运行（静默模式启动）...

IDEA切换 Springboot初始化 URL

用selenium来连接已经打开的浏览器遇到的问题

python selenium爬虫 不打开网页不打开浏览器

Python之selenium的打开浏览器的二种方式

selenium 接管已经打开的本地浏览器窗口

selenium自动化打开浏览器不受信任解决办法

selenium连接已经存在的edge浏览器

python selenium在浏览器打开一个新窗口

Chrome浏览器开机自启指定url全屏展示

selenium 下载webdriver浏览器驱动

windows7 下搭建golang开发环境

Selenium不打开浏览器采爬取数据 Java

python selenium不启动浏览器 爬取数据的方法

selenium操作浏览器

selenium以手机浏览模式打开浏览器

html隐藏浏览器url,JavaScript:用JS函数隐藏浏览器地址栏

【Python之Selenium】Chrome浏览器启动参数配置

selenium调用浏览器打印功能，并保存为PDF

发表评论

推荐文章

模拟器cpu设置_三款另类的68k Mac模拟器

用windows nt 4.0创建基本卷不兼容_【电脑知识】有关磁盘（硬盘）逻辑卷（分区）的介绍...

创业投资——辞职创业前的10堂课

iodelay 使用总结

Windows 客户端操作系统和服务器操作系统的对应关系

热门文章

Windows7升级Windows10：优化步骤与注意事项

VirtualBox安装windows教程

Python基础入门（七）

⑪霍兰德RC*型如何选专业？高考志愿填报选专业

ArcGIS Pro玩转BIM应用浅谈

xp升级win7系统如何操作 xp怎么升级到win7系统

XP下卸载WINDOWS7

Visual Studio 2008 序列号 激活 vs2008

彻底删除Navicat

parallels7安装windows7失败原因

最新文章

Raid技术

LSI_阵列卡操作手册

破解Centos7_root用户密码

Redhat重置Root用户密码方法

远程批量修改linux服务器密码的脚本

Windows7 系统安全设置权限技巧

（Windows系统）详细介绍Windows系统 含有英文版

最新Windows 11教育版下载：专为教育设计的系统！

Win7系统下搭建NFS服务器

零基础使用UltraISO制作并安装纯净Win10系统指南

python selenium爬虫不打开网页不打开浏览器

python selenium不启动浏览器爬取数据的方法

Visual Studio 2008 序列号激活 vs2008

（Windows系统）详细介绍Windows系统含有英文版