1.通过命令行创建scrapy工程项目
scrapy startproject (工程名)scrapy startproject myxml
2.利用爬虫模板设置爬虫文件
在这个过程中我们可以先利用 scrapy genspider -l(小写的L)命令查看当前的爬虫模板 如:scrapy genspider -t 模板名 爬虫文件名 允许的域名scrapy genspider -t xmlfeed myxmlspider sina.com.cn
注释:
scrapy genspider -l 查看当前可以使用的爬虫模板 scrapy genspider -t 创建爬虫文件
3.将scrapy工程项目导入到pycharm中
4.编写Item文件(items.py),定义需要关注的数据
import scrapyclass ..(scrapy.Item):name = scrapy.Field()email = scrapy.Field()...
5.编写爬虫文件(如上面的myxmlspider.py)
6.编辑scrapy在pycharm的运行环境 在Run中选择Edit Configuration 点击"+"创建一个"Python" 相关配置如下: