本篇教程仅供个人购买保存之用,请勿用于其他不良用途,如有问题,本人概不负责。随着各种反爬技术的日新月异,从前我们常规使用的保存方法已经出现了漏字和乱码现象,这些都是由于网站使用了自定义字体反爬技术,在解决反爬问题之前,如果想要保存自己购买的文章以避免哪天突然看不到了,可以采取一下思路解决。
1.打开你的浏览器插件中心,火狐或者谷歌浏览器插件中心里都有一款FireShot插件,安装这款插件,你就可以使用该插件滚动截取指定区域的长图,避免一个长网页要截取好几次的情况。
PS:截图插件有好多,选择你喜欢的插件即可,不必强求使用我说的插件。
打开你购买的文章的正文页面,截图保存本地。
2.找一个在线或者本地的OCR工具,识别图片文字然后保存TXT。(该类工具有很多免费的,这里就不做推荐了,自己百度)
本教程的基本思路:截图+OCR
优点:规避网站页面背后各种复杂的你搞不懂的技术,只要浏览器里呈现的是人能看的内容,就可以直接读取文字内容识别,简单粗暴。
缺点:目前暂时无法批量化操做,比起传统的一键下载所有章节,这种方法需要你有点耐心,如果你买的文很长,建议你勤快一点,因为短时间里重复上百次同样的操作不利于大家保持开心的心情。
最后再提供一个需要联网使用的本地OCR画屏取字工具PandaOCR,下载地址是PandaOCR官方提供的,我这里就不直接上传附件了。
https://gitee.com/DDDDDGOOO/PandaOCR如果你看完PandaOCR的使用说明,你就可以直接打开网页划词提取文字了。
新的一年,人人为我,我为人人,TXT女孩们加油!