不少软件可以方便快捷地执行类似以及更多操作,如“TXT小说下载工具”(绿色免安装,但是不支持英文操作系统)、“网络取书”等。(派派有很多软件可下载。)
这里简单地解释一些原理。
去水印方法一:颜色区分
水印:使用不同于正文的字体颜色。
如果水印文字保持同一种字体颜色,可以将所有这种颜色的文字替换成null从而清除。
如果水印文字用了几种不同颜色,我们难以一一替换所有颜色的文字。
只要正文始终保持同一种字体颜色,那么可以将所有这种颜色的文字提取出来。
在晋江非VIP网页上,用鼠标连击三次选择章节内容,保持格式粘贴到Word里。
以鼠标随意选中几个正文文字,查看其字体颜色。(要么是Automatic,要么从more color -> custom查看RGB数值。)
Ctrl F, in Find box enter nothing, instead, (More -> ) format -> Font -> Font color -> Autotamic (or enter the RGB values).
Find in -> Main document. (All text color is selected.)
Click once on the Word document.
Ctrl C.
Paste into Notepad.
去水印方法二:字符替换
在晋江非VIP网页上,用鼠标连击三次选择章节内容,Copy all text to Notepad. copy from Notepad to Word. (removes formatting)
第一步,查找" 保护版权!尊重作者!反对盗版!@ Copyright of 晋江原创网 @",将其替换成null.
第二步,行末的乱字符其规律为“的+字母及数字+换行符”,例如“的cedebb6e872f53”。
启用通配符,将"的[a-z,0-9]@^13"替换成"^p"。
(注:^13跟^p差不多,而且可以在启用通配符情况下使用。)
或者,第二步,去除任意字母,去除任意数字,再消除"的^p"。
之后进行格式整理,如将^13替换成^p,消除空格、空行等。
录制一个宏来自动完成去水印的工作
Create a word document. Record a macro, type a name, save in THIS document.
Record.
Then save as macro-enabled Word document (so that it now carries the macro).
删除广告及干扰码
冗余的关键词,如“×××首发0起0点××”、“http/www.×××.com/cn”、“更新时间:××××××××××××”等。
如果是固定不变的“冗余的关键词”,在Word里进行替换即可。
但是如果是后半部分变化的“冗余的关键词”,如“更新时间:××××××××××××”、“字数:××××”,则
方法一:
用Excel处理。前提是它们单列一行。
(如果不是,则先在Word里,在冗余的关键词前加入段落符号^p,再复制到Excel里。)
Excel-数据-导入外部数据-导入数据
查找冗余的关键词”,把找到的内容全部选中,编辑-清除-全部。
粘贴到记事本里。
方法二:
在Word里,如果文中多次出现如下自成一段的关键词
章节字数:2449 更新时间:07-09-30 18:48
其特点是数字部分次次不同,但是“章节字数:”、“更新时间:”固定不变,则可
查找“章节字数*-*:”,use wildcards;替换成null。
这样“章节字数:2449 更新时间:07-09-30 18:”部分全部清除。
接着,查找“^p^#^#^p”
替换成^p,则这样段落全部删除。
最后可以用排版软件,如Gidot Typesetter,除去段落末尾半角的干扰符。
有很多现成的排版软件、文本整理器,可以快捷地批量处理空行、空格、段首空两格、段落合并等问题。