有的时候,爬取速度不快,就要想一些其他的办法。
比如多进程多线程以及异步。
不过一般的网站都会对其有限制,所以还得看实际情况具体来选取爬虫方式。
爬虫并不复杂。爬虫更关键的是在,爬虫,反爬虫和反反爬虫这一块。
多进程分布式与异步的代码如下:
1 | from urllib.request import urlopen, urljoin |
1 | import aiohttp |
Stay Hungry,Stay Foolish
有的时候,爬取速度不快,就要想一些其他的办法。
比如多进程多线程以及异步。
不过一般的网站都会对其有限制,所以还得看实际情况具体来选取爬虫方式。
爬虫并不复杂。爬虫更关键的是在,爬虫,反爬虫和反反爬虫这一块。
多进程分布式与异步的代码如下:
1 | from urllib.request import urlopen, urljoin |
1 | import aiohttp |