搞定自己的需求,来凑一个小鱼缸。
需求:获取某财经网站大v主页内容
思路:获取网页内容,解析文本,分析结构,找到想要内容。
1.导入包
2. 请求头和cookies
浏览器开发者工具-网络那里获得。
3.处理cookies
4.获取网页内容,并解析文本
注意:这里打开一个任意主页,用浏览器开发者工具-网络找到接口
5.分析结构,遍历来理清嵌套内容【分析用】
6.处理文本,去除多余的html标签
7.获取内容标题,改成对应大v的id
8.获取内容以及时间,并将时间戳修改为当地时区的时间
9.将文档保存为txt文档
10.分析大v主页总页数
11.构建url,从第一页内容开始获取,一直到最后一页【循环】
12.获取输入用户id
13.汇总代码
本来想记录下搞个小鱼缸还是美滋滋的。
谁知道这里不能上传代码,不然300字早就满了嘤嘤嘤
截个图片凑合下
应该满300字了吧。
竟然还没有!!我膨胀了!
今天才周二,想放假了。如果不用上班也有钱该有多好啊。为什么世界上有钱人那么多,多我一个不行嘛?
[ 此帖被裴之在2024-08-27 14:22重新编辑 ]