网页文字去干扰码的手动方法_派派后花园

用户中心 游戏论坛 社区服务
发帖 回复
阅读:6993 回复:13

[网络取书] 网页文字去干扰码的手动方法

刷新数据 楼层直达
pcitrus

ZxID:1506420

等级: 热心会员
举报 只看楼主 使用道具 楼主   发表于: 2009-04-07 0

不少软件可以方便快捷地执行类似以及更多操作,如“TXT小说下载工具”(绿色免安装,但是不支持英文操作系统)、“网络取书”等。(派派有很多软件可下载。)
这里简单地解释一些原理。

去水印方法一:颜色区分
水印:使用不同于正文的字体颜色。
如果水印文字保持同一种字体颜色,可以将所有这种颜色的文字替换成null从而清除。
如果水印文字用了几种不同颜色,我们难以一一替换所有颜色的文字。
只要正文始终保持同一种字体颜色,那么可以将所有这种颜色的文字提取出来。

在晋江非VIP网页上,用鼠标连击三次选择章节内容,保持格式粘贴到Word里。
以鼠标随意选中几个正文文字,查看其字体颜色。(要么是Automatic,要么从more color -> custom查看RGB数值。)
Ctrl F, in Find box enter nothing, instead, (More -> ) format -> Font -> Font color -> Autotamic (or enter the RGB values).
Find in -> Main document. (All text color is selected.)
Click once on the Word document.
Ctrl C.
Paste into Notepad.



去水印方法二:字符替换
在晋江非VIP网页上,用鼠标连击三次选择章节内容,Copy all text to Notepad. copy from Notepad to Word. (removes formatting)

第一步,查找" 保护版权!尊重作者!反对盗版!@ Copyright of 晋江原创网 @",将其替换成null.
第二步,行末的乱字符其规律为“的+字母及数字+换行符”,例如“的cedebb6e872f53”。
启用通配符,将"的[a-z,0-9]@^13"替换成"^p"。
(注:^13跟^p差不多,而且可以在启用通配符情况下使用。)

或者,第二步,去除任意字母,去除任意数字,再消除"的^p"。

之后进行格式整理,如将^13替换成^p,消除空格、空行等。
录制一个宏来自动完成去水印的工作
Create a word document. Record a macro, type a name, save in THIS document.
Record.
Then save as macro-enabled Word document (so that it now carries the macro).



删除广告及干扰码

冗余的关键词,如“×××首发0起0点××”、“http/www.×××.com/cn”、“更新时间:××××××××××××”等。
如果是固定不变的“冗余的关键词”,在Word里进行替换即可。

但是如果是后半部分变化的“冗余的关键词”,如“更新时间:××××××××××××”、“字数:××××”,则

方法一:
用Excel处理。前提是它们单列一行。
(如果不是,则先在Word里,在冗余的关键词前加入段落符号^p,再复制到Excel里。)
Excel-数据-导入外部数据-导入数据
查找冗余的关键词”,把找到的内容全部选中,编辑-清除-全部。
粘贴到记事本里。

方法二:
在Word里,如果文中多次出现如下自成一段的关键词
章节字数:2449 更新时间:07-09-30 18:48
其特点是数字部分次次不同,但是“章节字数:”、“更新时间:”固定不变,则可
查找“章节字数*-*:”,use wildcards;替换成null。
这样“章节字数:2449 更新时间:07-09-30 18:”部分全部清除。
接着,查找“^p^#^#^p”
替换成^p,则这样段落全部删除。

最后可以用排版软件,如Gidot Typesetter,除去段落末尾半角的干扰符。
有很多现成的排版软件、文本整理器,可以快捷地批量处理空行、空格、段首空两格、段落合并等问题。
两个人的舞会

ZxID:278034


等级: 内阁元老
配偶: 老両
『四季很好,只要你在』
举报 只看该作者 沙发   发表于: 2009-04-07 0
感谢分享

但是有点难懂啊

或者说

基本没看懂
『青梅枯萎 竹马老去 从此我爱上的人都像你』
wuyesizhan

ZxID:5578604

等级: 派派新人
举报 只看该作者 板凳   发表于: 2009-04-08 0
又学了一招
sjm666cn

ZxID:395265

等级: 派派新人
举报 只看该作者 地板   发表于: 2009-04-08 0
感谢分享 试试看
阳光村寨

ZxID:643294

等级: 略知一二
举报 只看该作者 4楼  发表于: 2009-04-09 0
这个可以用来整理晋江的小说吗?汗我的问题可能白痴了点。。。
风遥怜

ZxID:280269

等级: 牛刀小试
戚顾王道~~~
举报 只看该作者 5楼  发表于: 2009-04-09 0
要是有什么软件就好了,这个看上去好麻烦……8过要是能看懂的话也很好啊,但素,偶是电脑FC
sy19885321

ZxID:409409

等级: 热心会员
举报 只看该作者 6楼  发表于: 2009-04-11 0
是不错的方法,谢谢了。
hali01

ZxID:4458182

等级: 寒窗墨者
举报 只看该作者 7楼  发表于: 2009-04-13 0
去水印方法二:字符替换

经常用这个
其他的看起来好复杂,想都没想过……
不过还是谢谢
妖王殿

ZxID:3342379

等级: 读书识字
举报 只看该作者 8楼  发表于: 2009-04-13 0
对付晋江应该有点用,但不懂什么叫做通配符,该怎么启用阿?
niu56477

ZxID:825872

等级: 热心会员
What I wish is ashes to ashes!
举报 只看该作者 9楼  发表于: 2009-06-19 0
完全不知道在说什么。。。
生命,那是一个奢侈的代名词
孤鹜长天

ZxID:6914297

等级: 小有名气
简单生活就是快乐,家人平安就是幸福
举报 只看该作者 10楼  发表于: 2009-06-19 0
看起来很详细,问题是我是脑盲,就会看书 收藏先,找会的人请教
流水不腐
户枢不蠹
-------------------饿死不看耽美
361478021

ZxID:777478

等级: 牙牙学语
举报 只看该作者 11楼  发表于: 2009-06-19 0
        研究了半天
浮云若梦

ZxID:6766824

等级: 略有小成
原来所有的狭路都是为了以后的相逢,两两相望 两两相忘
举报 只看该作者 12楼  发表于: 2009-06-20 0
研究了半天 看起来好难啊
心情不好的时候就去超市捏捏方便面
andrea19

ZxID:7065172

等级: 自由撰稿
懒人一个!
举报 只看该作者 13楼  发表于: 2009-06-20 0
不是太好用地方法!我现在用TXT整理器!
发帖 回复