Get busy living

Stay Hungry,Stay Foolish


  • 首页

  • 分类

  • 归档

  • gitbook

  • 关于

  • 搜索

爬取百度百科词条写入数据库

发表于 2018-12-25 | 分类于 python练习
这是在把百度百科上从一个词条中,随机选择一个关键字,然后从这个关键词的词条中,继续这样一个步骤,同时保存到数据库。如果遇到某词条下没有其他关键字,就会返回到上一个关键字处,目前有一个问题,就是两条关键词都只有一个的话,会进入循环。数据库中可以设置url唯一数据库这一块的操作,得先安装pymysql。 ...
阅读全文 »

读取TXT_PDF

发表于 2018-12-25 | 分类于 python练习
这个是我学习爬取TXT和PDF的代码,前半段是读取TXT,后半段是读取PDF,PDF中使用了第三方库,pdfminer3k,使用pip安装即可。pip install pdfminer3k。PDF其中注释掉的为读取网络上的PDF文档。代码如下: 123456789101112131415161718 ...
阅读全文 »

爬虫整理(五)slenium

发表于 2018-12-25 | 分类于 python练习
首先使用pip安装并加入环境变量123456789101112131415161718192021222324from selenium import webdriverfrom selenium.webdriver.chrome.options import Options# firefox pl ...
阅读全文 »

PandaTV爬取主播人气并排序

发表于 2018-12-25 | 分类于 python练习
很早前,第一次爬虫,就用的re加urllib原生爬虫。这次重新来爬取一次PandaTV主播人气排名,来练一下手。毕竟看直播嘛,颜值区更喜欢一点。就以颜值区为例,颜值区url = ‘https://www.panda.tv/cate/yzdr'。结果保存在运行目录下的`PandaTV主播人气排 ...
阅读全文 »

慕课网数据采集总结

发表于 2018-12-25 | 分类于 python练习
https://www.imooc.com/video/12637 课程地址
阅读全文 »

爬虫整理(一)使用re和urllib

发表于 2018-12-25 | 分类于 python练习
完整代码123456789101112131415161718192021from urllib.request import urlopenhtml = urlopen( "https://morvanzhou.github.io/static/scraping/basic-str ...
阅读全文 »

爬虫整理(三)Requests

发表于 2018-12-25 | 分类于 python练习
Requests 是一个 Python 的外部模块, 需要手动安装. 使用 pip 安装就好了. 1234567import requestsimport webbrowser # 使用浏览器打开param = {"wd": "itswl.github&q ...
阅读全文 »

爬虫整理(二)BeautifulSoup

发表于 2018-12-25 | 分类于 python练习
BeautifulSoup 解析:基础本段完整代码 具体安装过程可自行搜索。beautifulSoup使用过程 选择要爬的网址 (url) 使用 python 打开这个网址 (urlopen等) 读取网页信息 (read() 出来) 将读取的信息放入 BeautifulSoup 使用 Beauti ...
阅读全文 »

(18) python异常

发表于 2018-11-14 | 分类于 python基础
异常异常的概念 程序在运行时,如果 Python 解释器 遇到 到一个错误,会停止程序的执行,并且提示一些错误信息,这就是 异常 程序停止执行并且提示错误信息 这个动作,我们通常称之为:抛出(raise)异常 程序开发时,很难将 所有的特殊情况 都处理的面面俱到,通过 异常捕获 可以针对突发事件 ...
阅读全文 »

(19) 网络编程

发表于 2018-11-14 | 分类于 python基础
Python进行网络编程,就是在Python程序本身这个进程内,连接别的服务器进程的通信端口进行通信。 TCP/IP 简介互联网上每个计算机的唯一标识就是IP地址,类似123.123.123.123。如果一台计算机同时接入到两个或更多的网络,比如路由器,它就会有两个或多个IP地址,所以,IP地址对应 ...
阅读全文 »
1…28293031
WeiLai

WeiLai

好学近乎知,力行近乎仁,知耻近乎勇

307 日志
23 分类
4 标签
GitHub E-Mail 简书 Facebook
© 2026 WeiLai