网友您好, 请在下方输入框内输入要搜索的题目:
题目内容
(请给出正确答案)
14、网站根目录中哪个文件里面的内容会告诉爬虫哪些数据是可以爬取的,哪些数据是不可以爬取的
A.robot.txt
B.robot.html
C.robots.txt
D.robots.html
参考答案和解析
A
更多 “14、网站根目录中哪个文件里面的内容会告诉爬虫哪些数据是可以爬取的,哪些数据是不可以爬取的A.robot.txtB.robot.htmlC.robots.txtD.robots.html” 相关考题
考题
在Scrapy工程的settings.py文件中,哪个配置项,如果设置为True,那么Scrapy就会自动跳过网站不允许爬取的内容()
A.ROBOTSTXT_OBEYB.ROBOTSTXT_JUDGEC.ROBOTSTXTD.ROBOTSTXT_IF
考题
使用了RedisSpider作为爬虫的父类以后,爬虫会直接监控()中的数据,并不读取start_urls中的数据。
A、RedisB、RedisSpiderC、SpiderD、MongoDB
考题
按照()爬取的网页内容根据目录层次深浅来爬行页面,处于较浅目录层次的页面首先被爬行,当同一层次中的页面爬行完毕后,爬虫再深入下一层继续爬行。
A、深度优先策略B、广度优先策略C、PageRank优先策略D、随机爬行策略
考题
整站采集的步骤一般是()。
A、匹配href连接地址;与原本地址拼接;读取网页中的A标签;找到关联网页并爬取B、读取网页中的A标签;匹配href连接地址;与原本地址拼接;找到关联网页并爬取C、找到关联网页并爬取;读取网页中的A标签;与原本地址拼接;匹配href连接地址D、找到关联网页并爬取;与原本地址拼接;匹配href连接地址;读取网页中的A标签
考题
使用了百度分享的网页可以更快地被百度爬虫发现,从而帮助网站的内容更快地被百度抓取。请问百度分享能使网页被快速抓取的原因是什么?()A、百度分享吸引爬虫抓取链接到百度数据库中,再由爬虫提交收录B、真实分享行为可以将链接直接存储到百度数据库中,并加速爬虫提交收录C、爬虫直接将分享的链接提交收录D、百度分享只能加速爬虫从数据库提交收录,不能影响链接的存储
考题
问答题在OMC中取相关报表需要配置哪些数据?
热门标签
最新试卷