技术交流 – FreeNAS中文网

FreeNAS中文网是一个编程技术交流的平台，欢迎技术员程序猿前来投稿！

扫一扫

扫一扫

首页技术总结正文内容

零代码编程：用ChatGPT批量提取网页上的文本信息内容

技术总结

更新时间：2024-12-22 16:08:45 3

admin 管理员组

文章数量: 887006

现在有很多个网页：

要批量提取网页内的文本：

可以在ChatGPT中这样写提示词：

你是一个Python专家，写一段Python程序，完全提取网页文本内容的任务，下面是一步步的步骤：

打开表格文件，文件路径：F：\传感器企业大全(传感器专家网)20230714.xlsx；

获取表格E2单元格到E3939的单元格的内容，如“/brand/6182.html”，前面加上“https://www.sensorexpert”，构成一个URL，注意：从第2行开始读取；

打开这个URL，Request headers为：

Authority:

http://www.sensorexpert

:Method:

GET

:Path:

/brand/6182.html

:Scheme:

https

Accept:

text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7

Accept-Encoding:

gzip, deflate, br

Accept-Language:

zh-CN,zh;q=0.9,en;q=0.8

Cache-Control:

max-age=0

Sec-Ch-Ua:

"Not.A/Brand";v="8", "Chromium";v="114", "Google Chrome";v="114"

Sec-Ch-Ua-Mobile:

?0

Sec-Ch-Ua-Platform:

"Windows"

Sec-Fetch-Dest:

document

Sec-Fetch-Mode:

navigate

Sec-Fetch-Site:

none

Sec-Fetch-User:

?1

Upgrade-Insecure-Requests:

1

User-Agent:

Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36

定位xpath=/html/body/div[1]/div/div/div[2]/div[3]/div/div[1]/div/div/p[5]/strong 的strong 元素，提取里面的内容,设为变量:sensortitile,打印输出；

定位class="content-company"的div元素，使用 xpath('.//text()') 来获取所有子元素的文本，并使用 join() 方法将它们连接在一起，然后使用 strip() 方法进行清理；提取的文本内容设为变量:sensorcompany；

在F盘新建一个Excel：传感器企业简介.xlsx，第1列写入sensortitile，第2列写入sensorcompany，第3列内容为“传感器企业大全(传感器专家网)20230714.xlsx”中的URL；

注意：每一步都要输出信息；

如果没有获取到strong 元素或div元素内容，就写入空值；

每爬取1个URL内容，随机暂停3秒以内；

要有应对反爬虫的措施，比如设置请求头；

程序运行后的结果：

本文标签：信息内容批量文本代码网页

版权声明：本文标题：零代码编程：用ChatGPT批量提取网页上的文本信息内容内容由网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://www.freenas.com.cn/jishu/1729014966h1307096.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

chatgpt赋能Python-python对话机器人代码

技术总结

2月前

介绍 Python是一门流行的高级编程语言，可以用于开发各种类型的软件。其中，Python还被用于制作聊天机器人，也就是能够和人类用户进行交互，并回答用户提出的问题的机器人。要开发一款Python对话机器人，需要使用一些Python框

Windows - Intel(R) Wireless-AC 9462 该设备无法启动（代码 10）笔记本网卡出现感叹号无法连 wifi 解决方案

技术总结

2月前

前言一台华硕笔记本，出现了网卡无法启动，导致 wifi 无法连接问题。如下图所示，电脑突然断网，wifi 图标变为地球，无法搜索与连接：查看设备首先

【已解决】联想小新Pro14适配器打感叹号（代码56）无法上网原因解决！亲测有效

技术总结

2月前

昨天，昨天，昨天！就在昨天，早上到公司后打开电脑发现电脑连不了网络了，看了下网络适配器全是打的感叹号，代码报

无线网卡(需驱动)代码56解决方案及后续操作

技术总结

2月前

Ⅰ：操作系统 win10 并且网络支持wifi6协议 Ⅱ：dell笔记本最多wifi5协议（自带网卡，由于wifi5太慢，买了wifi6网卡插在电脑上） Ⅲ：无线网卡（外接）支持wifi6协

一些不错的网页

技术总结

2月前

http:www.zhengdazhiarchives1749 书签栏信息收集二级域名查询,子域名查询-站长帮手网 ZoomEye - Cyberspace Search Engine 360威胁情报中心 SSL证书在线检测工具

win11网络正常但是经常加载不出来网页的解决办法

技术总结

2月前

试了网上说的什么重置网络和Internet，取消代理啥的都不行，最后找了是路由器的问题，登录自己的路由器设置网页，以小米路由器为例地址为192.168.

(已解决)网卡驱动Intel(R) Wi-Fi 6 AX200 160MHz，设备无法启动(代码10)

技术总结

2月前

电脑由于重装系统后双显示屏无法正常工作，于是卸载了原先驱动，重启后发现无法连接wifi了， win键X打开设备管理器查看网络适配器，发现Intel(R

在window平台大模型LoRA微调实战（完整代码带数据）

技术总结

2月前

一大模型LoRA微调环境 1 LORA微调环境： 关键硬件配置 ：3060显卡 12G的显存操作系统：window 10 64位开发工具：

【Python】ChatGPT的API调用并实现文章生成（附代码）

技术总结

2月前

实操目标：最近ChatGPT大火，在3.5版本后开放了接口API，所以很多人开始进行实操，这里我就用python来为大家实现一下，如何调用API并提问返回文章的说明实操内容：获取API书写python调用框架封装到pyqt中，实现U

为什么我电脑的所有浏览器都开不了网页

技术总结

2月前

一、问题描述二、解决办法1、把注册表中的 ProxyEnable 数值 1 改为 02、360安全卫士修复三、他山之石一、问题描述使用某些代理上网软件，没恢复设置会出现：网络连接正常&

Windows 系统错代码

技术总结

1月前

0-操作成功完成。 1-函数不正确。 2-系统找0-操作成功完成。 1-函数不正确。 2-系统找不到指定的文件。 3-系统找不到指定的路径。 4-系统无法打开文件。 5-拒绝访问。 6-句柄无效。 7-存储控制块被损坏。 8-存储空间不足&

Win10电脑如何批量修改文件名

技术总结

1月前

有时候由于工作需要，就想要修改文件名称以方便分辨类别。但是文件太多的时候又该如何处理呢？其实我们可以批量修改这些文件名，这里就和大家讲讲方法吧。更多系统教程尽在小白系统重

在Windows系统中，批量复制文件夹下所有或者部分文件的名称

技术总结

1月前

当在使用Windows系统中，需要批量复制某一个文件夹下所有或者部分文件的名称时，可以使用如下方法： 第一步：打开需要批量复制文件名称的文件夹&

GetLastError 函数错误信息代码大全

技术总结

1月前

〖0〗-操作成功完成。〖1〗-功能错误。〖2〗-系统找不到指定的文件。〖3〗-系统找不到指定的路径。〖4〗-系统无法打开文件。〖5〗-拒绝访问。〖6〗-句柄无效。〖7〗-存储控制块被损坏。〖8〗-存储空间不足&#xf

腾讯QQ中批量删除好友的方法

技术总结

28天前

不知道腾讯为什么不增加这个功能，这个需求是有的，为啥不做呢？不懂网上看到有这种需求，好友多了，好多不联系的&#xff0c

Windows下如何使用VScode编写C语言代码及运行

技术总结

23天前

Windows下如何使用VScode编写C语言代码及scanf的输入运行配置一、安装VS code及插件1.VS code官网下载地址2.VS code插件安装二、配置gcc环境（MinGW-w64文件配置&

Llinux初学记录（二）——文本编辑工具VIM

技术总结

18天前

修改时间：20241122 首先在LInux中下载VIM：sudo apt-get install vim VIM编辑器有3中工作模式：输入模式、指令模式和底行模式 1

edge不能打开html网页,Win10系统edge浏览器无法打开网页的解决方法

技术总结

17天前

Win10系统edge无法打开网页怎么办？Win10作为新系统，用户总是能碰到奇奇怪怪的问题。这不，有位用户反馈说：在连网状态下，

Windows下C++开机启动代码实现 [转]

技术总结

12天前

Windows下C开机启动代码实现 [转] 原文链接：《Windows下C开机启动功能实现》修改“GISRestart”为需要开机自启动的程序名称，然后直接调用函数即可 #include <

python编的程序转换成android可执行代码_有python代码怎么编成可执行的exe程序?

技术总结

10天前

用python编写程序可以编译成exe文件吗 Windows下怎么把python脚本编译成exe母亲用她那柔弱的双肩支撑起了多少个破碎的家，母亲用她那深邃的眼眸拯救了多少个无望的灵魂，母亲用她那坚

发表评论

全部评论 0

暂无评论

推荐文章

windows系统玩《模拟人生 4》免安装版本

理德名人故事：金融天才——乔治·索罗斯

win11装家庭版还是专业版好_u盘装win11专业版详细教程

Win10问题篇：一次性永久关闭win10系统自动更新。

chromedriver安装教程(windows版)

热门文章

恢复Windows默认文件资源管理器（Files设置后，恢复亲测可用）
1月前
FreeSWITCH 架构
28天前
美国的车库文化
28天前
quarkus依赖注入之八：装饰器（Decorator）
28天前
源码搭建B2B2C体系电商多级分销商城，小程序、H5
28天前
猿人学第5题
28天前
w ndows7有线网络连接不上,七仔教你学Windows 7：如何连接网络
18天前
windows 7 调整无线和有线网络的优先级
18天前
Linux系统(CentOS7)NFS服务搭建详细操作&linux挂载windows共享目录
18天前
CLion2024安装包（亲测可用）
10天前

最新文章

Raid技术
8月前
LSI_阵列卡操作手册
8月前
破解Centos7_root用户密码
8月前
Redhat重置Root用户密码方法
8月前
远程批量修改linux服务器密码的脚本
8月前
[转]笔记本电脑处理器(CPU)性能排行榜
13秒前
project安装包的下载和安装教程
2分钟前
测试模式 windows2008 内部版本7601
5分钟前
如何区分自己的windows系统是正版还是盗版？从零基础到精通，收藏这篇就够了！
6分钟前
windows下查看系统证书（一）
8分钟前