博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
scrapy工程创建及pycharm运行
阅读量:6681 次
发布时间:2019-06-25

本文共 594 字,大约阅读时间需要 1 分钟。

1.通过命令行创建scrapy工程项目

scrapy startproject (工程名)

scrapy startproject myxml

 

 

2.利用爬虫模板设置爬虫文件

在这个过程中我们可以先利用 scrapy genspider -l(小写的L)命令查看当前的爬虫模板
如:scrapy genspider -t 模板名 爬虫文件名 允许的域名

scrapy genspider -t xmlfeed myxmlspider sina.com.cn

注释:

scrapy genspider -l 查看当前可以使用的爬虫模板
scrapy genspider -t 创建爬虫文件

 

 

 

3.将scrapy工程项目导入到pycharm中

 

4.编写Item文件(items.py),定义需要关注的数据

import scrapyclass ..(scrapy.Item):name = scrapy.Field()email = scrapy.Field()...

 

 

5.编写爬虫文件(如上面的myxmlspider.py)

 

6.编辑scrapy在pycharm的运行环境
在Run中选择Edit Configuration
点击"+"创建一个"Python"
相关配置如下:

 

转载于:https://www.cnblogs.com/xiaomingzaixian/p/7119160.html

你可能感兴趣的文章
mac 使用“终端”远程登录 linux 主机
查看>>
avhttp终于支持了gzip/chunked
查看>>
《设计模式 系列》- 创建型模式 - 状态模式
查看>>
WebService之Axis2快速入门(4): 传输二进制文件
查看>>
subversion中去除不需要的目录
查看>>
Android内核开发:从源码树中删除出厂的app应用
查看>>
Node.js+Express商业开发中的安全性考虑
查看>>
Python 学习笔记 - 上下文
查看>>
linux技术手册
查看>>
jquery的验证formValidator
查看>>
poj 其他
查看>>
UNIX epoch -- 为什么UNIX的时间起始于1970.01.01
查看>>
推荐10个HTML5游戏网站
查看>>
ios中的动画
查看>>
在pcDuino实现AP–wifi热点共享
查看>>
mysql实时记录客户端提交的sql语句
查看>>
多线程学习笔记(五)
查看>>
pyspider爬虫学习-教程3-Render-with-PhantomJS.md
查看>>
107个常用Javascript语句
查看>>
关联表更新
查看>>