瀚海独行
dxcl
音乐赏
生命如花朵绽放
或许遥远,或许就在路边
梦里不觉秋已深,余情岂是为他人
那就是我曾经统治的世界
不畏惧风沙满目皆繁华
I’ll try hard to soar to the heaven I dreamed.
为了梦中彼岸,我要全力飞翔
来时芳华,去时白头
忘你不舍,寻你不休
观墨识文
前言最近偶尔会心生感慨,但想要记录些什么的时候却又提笔忘言,恰如此时此刻。好在互联网让人与世界得以连接,在此中我可以看到更多人与世事,阅尽千帆,尽尝百态。因做此篇,旨在记录在互联网上看到的令我有所感悟的文章,观墨识文,浅尝咸淡,略品其味。
十周年。
感谢无数朋友这么多年来,每天私信提醒我还有XX天就X周年了,让我每天都梦回那高考倒计时青春的年代。(咬牙切齿) 感谢无数朋友这么多年来,每天私信询问我是否还活着,让我感受到了人性的温暖。(狗头斜视) 感谢无数朋友这么多年来,每天私信和我分享他们的故事,让我可以体验不同的人生。(感恩比心)
首先是例行报告,简单概括,我还活着,身体健康,父母身体算不上好,但无大碍。只差临门一脚,就能还清债务,已经又能看见未来了,还需继续努力。
每个十年,都不过惊鸿一瞥,却是人生的一段重要旅程。 这十年对我来说,也是很特殊的一段时光。我人生中很多重要的节点刻在了这十年的里程碑里,有些剧情已经落幕,有些情节还在上演。我思考了很多关于十周年的时候我会写点什么,真到了今天,突然有点语塞,静下心来回忆这十年,发现原来想说的居然有那么多,但是大部分 ...
Python学习记录之下载网站图片
前言这几天做图片爬虫上头了,感觉确实很方便但内容的重复性很大。掌握了一个网站的爬取方法就有很大的拓展空间,因此记录一下近期一个图片爬虫。
思路与实践首先用浏览器的检查元素定位到网页首页图片
元素指向的是预览图,但想要获取的是原图,于是要跳转到详情页面再获取图片(如果能直接获取到图片id就更好了,但是我没找到。。。同时预览图的链接也没找到,如果能找到的话爬取效率会提升很多)
所以要获取的是 /illust/59158837 并进入指向的网页
1234567891011121314151617181920def Askurl(url): #获取网页源码 headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.92 Safari/537.36'} # 请求头要添加,不然访问失败 response = re ...
Python学习记录之批量爬取知乎图片
前言前几天学了根据json爬取网页源码中没有的内容,知乎就是这种类型。正好最近没有好看的图片做博客封面,就用这种方式一劳永逸吧。在查阅资料的时候发现可以用两种方式实现图片获取。
方法一123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051import requestsfrom bs4 import BeautifulSoupimport reimport osdef Askurl(url): headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.92 Safari/537.36'} # 请求头要添加,不然访问失败 response = requests.get(url = ...
Python学习记录之根据关键词筛选(json爬取)
前言前几天研究人民网新闻排行榜时发现了一篇文章,当时感觉讲的内容挺多没细看,今天再翻出来感觉讲的特别详细,对于新手的我真是受益匪浅,也解答了我的很多疑惑,主要是爬取网页的json信息,各种头信息的用处,反爬机制和应对办法等等。附链接:(133条消息) Python爬虫实战 | 人民网爬虫 根据关键词筛选新闻文章亮出锋芒,剑指苍穹-CSDN博客人民网爬虫
思路及实践在搜索界面进行搜索,得到的页面源码中找不到所需信息,在调试—网络中的文件发现所需信息
获取json源码123456789101112131415161718192021222324252627def fetchUrl(url, kw, page): # 请求头 headers = { "Accept": "application/json, text/plain, */*", "Content-Type": "application/json;charset=UTF-8", &quo ...
Python学习记录之文件写入
前言算是整了个活吧,先爬取人民网的新闻排行榜,再写入到md文件里面,按照博客的格式样式进行编辑,可以直接作为博客文件发表。整体没有什么难度,就当练手了。
直接上源码1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950515253545556575859606162636465666768697071727374757677787980818283848586878889909192939495# -*- codeing = utf-8 -*-# @time:2021/12/31 12:44import timefrom bs4 import BeautifulSoupimport reimport requestsimport xlwtimport sqlite3 #进行SQlite数据库操作from selenium import webdriverfrom selenium.webdriver.chrome.service import Servic ...
新闻
标题
链接
大江奔涌绘宏图
http://politics.people.com.cn/n1/2022/0105/c1001-32323985.html
《壬寅年》特种邮票今日首发
http://ent.people.com.cn/n1/2022/0105/c1012-32324705.html
北京冬奥会倒计时一个月—这些冬奥项目你都get了吗?
http://ent.people.com.cn/n1/2022/0105/c1012-32324181.html
民航局对多个入境航班发出熔断指令 要求11家航司做好机票退改等工作
http://ent.people.com.cn/n1/2022/0105/c1012-32324452.html
北京冬奥会倒计时一个月—中国已获173个参赛席位
http://ent.people.com.cn/n1/2022/0105/c1012-32324204.html
人民网评:向算法“技术霸凌”说不
http://opinion.people.com.cn/n1/2022/0105/c223228-323244 ...
Python学习记录之简单交互(微博热搜)
前言这次主要通过tkinter进行简单的交互操作,但感觉就目前看来这个功能没啥用处,于是没有深入研究。同时学习了一下更复杂的re正则表达式(虽然这次没用的上)
python 正则 re模块(详细版) - 风,又奈何 - 博客园 (cnblogs.com)
思路与实践研究微博源码的时候发现意外的简单(并不是),以为用requests就可以轻松爬取,但爬取之后却返回了一个错误的源码
大概是微博的身份识别系统吧,经过测试发现在网页滞留几秒之后才能正常进入,于是使用selenium进行操作(requests应该也能做到,以后研究)
1234567891011121314def Askurl(url): s = Service(r"E:\python\PyCharm Community Edition 2021.3.1\plugins\python-ce\helpers\typeshed\stubs\selenium\selenium\webdriver\chrome\chromedriver.exe") option = webdriver.ChromeOpt ...
Python学习记录之数据库基础操作
前言爬取网易云的过程中发现每次测试数据都需要把整个程序从头运行一次,效率太低,于是就想到了直接把爬取的数据存到数据库里一劳永逸。
贴一篇基础教程(131条消息) python之sqlite3使用详解_hunyxv的博客-CSDN博客_python sqlite3
建立数据库
123456789101112131415161718191,建表:cu.execute('create table catalog (id integer primary key,pid integer,name varchar(10) UNIQUE)') 上面语句创建了一个叫catalog的表,它有一个主键id,一个pid,和一个name,name是不可以重复的。2,插入数据:cu.execute("insert into catalog values(0, 0, 'name1')") cu.execute("insert into catalog values(1, 0, ...