robots.txt是一个用来告诉搜索引擎爬虫哪些页面可以或者不能被爬取的文本文件, 搜索引擎会遵循robots.txt规则对网站进行爬取。
robots.txt一般放在根目录下,比如www.xxx.com/robots.txt。
www.xxx.com/robots.txt
例如
User-agent: * //所有搜索引擎 Disallow: /api/ //不能爬取的路径 Allow: / //可以爬取的路径 Sitemap: <https://www.oversaas.club/sitemap.xml>