admin 管理员组

文章数量: 887021


2024年2月27日发(作者:小数取整的公式)

南开大学2021年9月《网络爬虫与信息提取》作业考核试题及答案参考

1. 当运行爬虫代码后,出现“Forbidden by ”提示后,说明当前时间段被爬取的网站无法访问。( )

当运行爬虫代码后,出现“Forbidden by ”提示后,说明当前时间段被爬取的网站无法访问。( )

A.正确

B.错误

参考答案:B

2. 通常使用( )工具来模拟浏览器进行爬虫请求

um

Driver

ver

参考答案:A

3. process_spider_input(response, spider)是在爬虫运行yield item或者yield t( )的时候调用。( )

T.对

F.错

参考答案:F

4. RoboMongo是MongoDB的管理软件。( )

T.对

F.错

参考答案:T

5. Python中条件语句在使用or连接的多个表达式中,只要有一个表达式为真,那么后面的表达式就不会执行。( )

Python中条件语句在使用or连接的多个表达式中,只要有一个表达式为真,那么后面的表达式就不会执行。( )

A.正确

B.错误

参考答案:A

6. HTTP状态码中303状态码明确表示客户端应当采用POST方法获取资源。( )

A.正确

B.错误

参考答案:B

7. MongoDB是一个关系数据库产品。( )

A.正确

B.错误

参考答案:B

8. Python正则表达式中“.*”是贪婪模式,获取最长的满足条件的字符串。( )

A.正确

B.错误

参考答案:A

9. Python中若定义object="12345",则print(object[::-1])输出( )

Python中若定义object="12345",则print(object[::-1])输出( )

A.1

B.5

C.54321

D.程序报错

参考答案:C

10. Selenium必须加载对应的webdriver才能模拟浏览器访问。( )

Selenium必须加载对应的webdriver才能模拟浏览器访问。( )

A.正确

B.错误

参考答案:A

11. HTTP常用状态码表明服务器不允许访问那个资源的是( )

A.500

B.503

C.403

D.405

参考答案:C

12. Redis是遵守BSD协议、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库。( )

T.对

F.错

参考答案:T

13. Redis中列表读取数据命令lrange中l代表left,即从左侧开始读取。( )

Redis中列表读取数据命令lrange中l代表left,即从左侧开始读取。( )

A.正确

B.错误

参考答案:B

14. 使用python定制mitmproxy,下面的语句请求的是( )。{s["User-Agent"]}

使用python定制mitmproxy,下面的语句请求的是( )。{s["User-Agent"]}

s

B.文本内容

C.目标网站

-agent

参考答案:D

15. Python中写CSV文件的writerow方法参数为包含字典的列表类型。( )

Python中写CSV文件的writerow方法参数为包含字典的列表类型。( )

A.正确

B.错误

参考答案:B

16. 在Scrapy的目录下,哪个文件负责存放爬虫文件?( )

s文件夹

参考答案:A

17. Charles是一个收费软件,如果没有注册,安装以后的前30天可以正常使用。30天以后,虽然功能不会缩水,但每过30分钟Charles会自动关闭一次。( )

A.正确

B.错误

参考答案:A

18. 使用Charles,可以轻松截获手机App和微信小程序的数据包,从而开发出直接抓取App后台和小程序后台的爬虫。( )

使用Charles,可以轻松截获手机App和微信小程序的数据包,从而开发出直接抓取App后台和小程序后台的爬虫。( )

A.正确

B.错误

参考答案:A

19. 使用UI Automatorr让屏幕向右滚动的操作是得到相应控件后使用命令d( )。( )

T.对

F.错

参考答案:F

20. 下面代码一共执行循环多少次( ): for i in range(10): print(i ** i)

A.9

B.10

C.11

D.0

参考答案:B

21. 最常见的HTTP请求类型有( )

最常见的HTTP请求类型有( )

E

参考答案:AB

22. process_spider_output(response,result,output)是在下载器中间件处理完成后,马上要进入某个回调函数parse_xxx( )前调用。( )

A.正确

B.错误

参考答案:B

23. 使用异步加载技术的网站,被加载的内容可以在源代码中找到。( )

T.对

F.错

参考答案:F

24. Python中跳过本次循环应用关键字( )

ue

参考答案:B

25. Python中直接对浮点数进行计算有print(0.1+0.2),则结果为0.3。( )

A.正确

B.错误

参考答案:B

26. BS4可以用来从( )中提取数据

C.数据库

参考答案:AB

27. ( )是Scrapy官方开发的,用来部署、运行和管理Scrapy爬虫的工具。

( )是Scrapy官方开发的,用来部署、运行和管理Scrapy爬虫的工具。

d

Deploy

_Deploy

参考答案:A

28. 对Charles设置代理时,Ip可以设置为127.0.0.1,端口为8888。( )

T.对

F.错

参考答案:T

29. 在Windows中下若要运行Redis可以运行redis-server/usr/local/etc/。( )

A.正确

B.错误

参考答案:B

30. “curl 爬虫服务器IP地址:6800/-d project=工程名-d

job=爬虫JOBID”该命令的作用是启动爬虫。( )

A.正确

B.错误

参考答案:B


本文标签: 爬虫 使用 命令 运行 文件