立即注册 登录
返回首页

清华园 http://zasq.net/?166473 [收藏] [复制] [分享] [RSS]

日志

[转载]校对入门

已有 840 次阅读2016-7-24 10:02

转自嘀嘀咕咕空间

鉴于俺是从一个完全不懂滴小白,成长为一个半瓢水滴小白,故从俺个人滴角度来谈谈校对的一些情况,欢迎探讨!

俗话说:工欲善其事必先利其器,搞校对之前,首先要把工具准备好,准备工作充分了,弄起来就比较得心应手了。
严格来说,校对需要的工具比较多,不过最常用的是四个:
1、文本编辑器,这个俺选用的是EMEDITOR,网上有破解版本,建议使用专业版(功能更加强大);
2、文本校对工具,这个俺选用的是TXTFORMAT,个人认为最为强大的文本校对工具(没有之一)!
3、文本排版工具,其实有很多脚本(EMEDITOR的脚本)可以完成排版工作,不过那个需要更多的去了解脚本的知识,所以可以跟俺一样,选择早安E书大师(天空E书);
4、CHM打包工具,事实上,到了最后制作CHM的时候,已经是异常简单了,因为绝大多数工作在前面都已经处理完了,用HUGECHM找到生成好的文件夹,然后指定INDEX文件就OK了。
上述工具,除了第三个,其他的俺都放在了俺的专栏帖子里面(已置顶),需要的请直接去下载即可。(http://www.zazww.com/forum.php?mod=viewthread&tid=472637&extra=page%3D1)
早安E书大师的下载链接为(http://www.zazww.com/forum.php?mod=viewthread&tid=207085&extra=page%3D1)

一般的校对步骤有以下几步:
1、选取文本(这个会放在后续日志中进一步说明);
2、校对文本(EMEDITOR+TXTFORMAT);
3、排版打包(早安E书大师);
4、制作CHM(HUGECHM)。
 
上文谈到了工具的选择,本篇就从校对的起点开始谈起,呵呵。
很多朋友对于选书存在着一些疑问,这里谈谈俺个人的看法吧。
现在网上的书很多,各种类型基本上也被写成套路文了,看啥书那就是见仁见智了。俺一般是通过几个大的原站,看排行榜!
虽然排行榜并不能代表绝对,但就跟考试一样的道理,谁都知道考试并不是万能的,但有个总还是能起到比较重要的作用嘛,呵呵。
现在各原站(首发站)的排行榜分类基本上都大同小异,这样倒也方便俺们找书,呵呵。
一般来说,自己比较喜欢的类型排名在前30的,基本上都还是过得去的(月榜)。
选好了之后,可以先在原站看看免费章节(这点很重要)!通常看个十几章~几十章,大概这本书咋样,心中就有数了。
选定了之后,就可以去找一下原文了(这里原文特指尚未处理的文本)。
原文的搜索有两个途径:1、通过搜索引擎(百度或是360或是其他的知名搜索引擎);2、各大D站。
这里说说第二项:D站。俺这里不能直接给出D站的链接(请理解,呵呵),不过说说名字让大家自己去找应该无鸭梨的。
俺用的比较多的站点包括有:爱奇、新笔下、2345小说、棉花糖、ABC小说、一丝文学、吞噬小说、顶点小说、7788、妙笔阁……
一定注意:没有哪一个站是万能的!比较合适的做法是,先随机抽取若干章看一下,关键看看广告多不多、内容是否缺失、标点符号是否齐全等等!
这个过程要有耐心,毕竟是D站,指望着能比得上原站那就是个笑话,呵呵。只能说矮子里面拔将军,尽量找一些稍微好一点的罢了。
随机抽取章节查看的时候,选择三分之一位置的章节、二分之一位置的章节、四分之三位置的章节,前面的一般问题不大,千万不要看了前面十来章,觉得没问题就OK了,切记切记!
前面的章节,一般都来自于原站原文,基本上除了广告,其他的不会有啥问题的,所以要选择中间或是后面的章节来查看!
很多时候,需要从几个站弄文本,然后进行拼凑,请做好心理准备,呵呵。
推荐一种比较靠谱的做法,下载3-4个站的文本,然后选择其中一个来处理,剩下的几个作为备用。
再次说明一下,校对是个体力活,一定要有耐心!很多时候,你折腾了半天,结果废掉了,实属正常,呵呵。

还有一种弄原文的途径,就是通过论坛。
其实俺们坛子里就有很多的文本待处理,花点时间,仔细的找找,说不定会有惊喜,呵呵。
当然也可以去其他的坛子找找看,一样的有可能会有惊喜哦,其他坛子就不点名了,自己去百度一下:校对(精校)小说(下载/分享)论坛。

下一篇俺会谈谈文本的预处理,呵呵。
 
今天来谈谈文本的预处理,呵呵。
文本的预处理包括几个方面:
1、选材,这个很重要,直接关系到后续的工作是否好处理!
2、章节处理;
3、通用处理。
首先来看选材,比较合适的一种做法是,多看看,再来决定。例如,我们要校对某书,先百度一下,看看有多少网站能够提供原始素材的。
可以先去原站(首发站)弄一些免费章节下来,用于基础性的比对工作,因为免费章节通常会有数十章或是100多章,一般来说,整体故事会在前面的章节预先做好铺垫,那么很多后面出现的屏蔽字可能在前面章节都能够找到!
另外,建议用百度百科查看一下该书的信息,有些书百科会比较相近的进行介绍(什么秘境啊、装备啊、女主啊之类的),这里面也可能会包含有后面章节出现的屏蔽字!
下载的网站前面已经介绍过了,就不重复了,请注意,再次强调,没有哪个网站是绝对OK的,更多时候是因书而定的,这本书在这个站可能非常不错(章节齐全、错漏较少),在另一个站可能就很稀烂,而换一本书,可能情况就截然相反了!所以建议多看几个站,然后下载2-3个(视情况而定,或许需要更多)版本备用。
选好了版本之后就可以开始来处理后续的步骤了。上述中2、3部分可以交换使用,这个要看具体情况而定。例如,如果原文中广告信息里面带有第XX章的信息,那么就优先处理3,再来处理2!
章节处理可以用两种工具来完成:TXTFORMAT、早安E书大师(天空E书,以下简称E书)。
首先将文本放在某个指定目录(任意指定,最好是固定放在某个位置,因为TXTFORMAT具有记忆功能,后面校对的时候会很方便,呵呵),然后打开TXTFORMAT

选定目录后单击“确定”按钮。

然后在TXTFORMAT窗口上方的工具栏里面,选择文件分割/章节处理

单击“重新获取章节名”按钮,这个过程根据文本的大小会花费不同的时间,请耐心等候……

然后再单击“导出章节标题列表”按钮

TXTFORMAT会给出相应提示,单击“确定”按钮即可。当然也可以直接用“文件分割/章节整理”的小窗口来进行比对,呵呵。

TXTFORMAT会自动打开生成的目录文件(默认路径是放在TXTFORMAT所在的目录,文件名默认为:ChapterList.txt)

凡是出现了问号的章节(例如上图中第二章、第三章、第十六章等)都是有问题的,上图第二栏是章节文中的字数,第三栏是章节的正序号!

根据这个章节文件,可以比较方便的定位有问题的章节!直接打开原文,定位到有问题的章节,进行相应处理即可。

对比章节一般去原站进行对比即可。

这里面有几个地方需要注意一下:

1、有的章节名不规范,例如这样:第二十二 XXX,缺少“章”字,这个直接在原文中补上“章”字即可;

2、缺章(经与原站对比后),先记录下来,然后去百度、贴吧或是其他站点下载该章;

3、重复章节,这里分为两种情况:原站原本就是重复章节名(内容不同),可以注明一下;再一种就是文本本身重复了(内容相同),直接删掉即可;

4、章节名没有第章关键字,例如这样:212.  213.  214.  ,这时候需要先处理一下,用EMEDITOR打开原文,按住CTRL+F键,出现如下窗口

单击“替换”按钮,如下图所示:

在查找的输入框中输入:[0-9]{1,4}[.]{1}   在替换为输入框中输入:第\0章 (注意章字后面带有一个空格!),然后勾选“使用正则表达式”,单击“替换全部”按钮。

注意:这样替换会导致出现  第212章章 XXX的情况,再来将“章章 ”替换为“章 ”就行了。

这里有个问题要注意一下,就是这种替换可能会导致正文中的数字也被替换了,所以在替换之前先检查一下。在上面的查找窗口中,点击“全部提取”按钮(注意需要先填写好正则表达式,参见替换窗口),EMEDITOR会将所有满足条件的文本全部提取出来,这样就便于检查了,呵呵。

此文篇幅较长,关于通用处理部分就放在下一次再来说吧,呵呵。

再来谈谈通用处理的问题。

一个文本,一般来说里面会带有屏蔽字、广告等之类的需要去除的内容,这些废物内容有很多其实是带有共性的,这样的话,可以归为通用处理的范畴。
先来看广告部分,广告一般会放在章节的首尾,用一些特殊符号标识出来,例如:【】、()、()、-等,可以随机的抽取几章看一下,就能发现这类共性符号。
另外一个很重要的广告标识,就是所谓的“PS”部分,可以直接全文搜索“PS”,然后全部提取出来,如下图所示:

点击“全部提取”按钮,会出现一个新的文本,如下图所示:

这时候就可以来观察一下,有没有共性的内容,上述截图中,我们可以看到,PS前面会带有空格,PS后面截止到回车符(截图中的下箭头标记)部分,全部是求票类信息,都是可以去掉的!

然后我们可以在新文本中用正则表达式来测试一下去除废物内容是否可行,如下图所示:

在查找输入框中输入 (冒号之后的内容):[ ]{4}[ps]{2}.*

然后点击“查找全部”按钮,看是否有效?请注意,务必要仔细检查,谨防删除了正文内容!切记切记!不然到时候哭都没地方哭滴!

确认无误后,点击“替换”按钮,将其替换为“”(空)即可。

在点击“替换全部”按钮之前,保险起见,请回到原文,利用这个正则表达式再次搜索,并提取全部,然后查找全部再次检查!确认没问题后就可以点击“替换全部”一次性清理掉这些广告内容了。

请注意:如果发现有不满足条件的,先行找到该地方,用其他内容暂时替换一下,再清除了废物内容后再替换回来即可!

上述正则表达式的含义为:[ ]这个表示单个空格,{4}这个表示有4个,对应截图中“PS”标记前的空格;[ps]{2}表示以下几种情况(pp、ss、ps、sp),在不特别标注的情况下,正则表达式忽略大小写的区别;后面的.*则表示任意多个字符,截止到终止符为止(这里是硬回车符,也就是截图中的下箭头)。

当然,文本的PS信息可能有很多种不同的变化形式,例如:【PS】、P.S等等,无论哪种变化形式,都可以找出其对应的规律,然后用正则表达式进行处理。

正则表达式的范畴很广,这里就不一一列举了,针对常见的情况简要的说明一下,一般来说,用[]这个符号包含待搜索的字符;用{2}这个符号标识字符的个数(中英文无差异,即一个汉字等价于一个字符,数字代表了个数,自己去数一下就行了,呵呵);[0-9]这个表示从数字0到数字9,顺序任意;[a-z]这个表示字符a到字符z,顺序任意(大小写无所谓),有兴趣的朋友可以百度一下常用的正则表达式,自己多试一下,呵呵。

同理,可以用上述方法处理另一类较常见的广告信息:未完待续,大家可以自行试验一下,呵呵。

下一篇我们会谈一下使用TF进行文本校对,也就是俗称的“软校”。

今天来谈一谈最重要的校对工具TXTFORMAT的常见用法,呵呵。

TXTFORMAT(以下简称TF)是绿色版,直接解压就可以用了。打开之后如下图所示:

选择“文件”菜单里面的“打开”,定位到存放文本的目录,然后确定

在窗口的右上方有一个“常用正则表达式”的下拉框,这里面包含了校对文本可能会用到的几乎绝大多数功能,如下图所示:

这其中,使用的比较多的包括有:广告及其他问题(几乎是必用)、含有PS的行、引号不匹配、屏蔽字、半角标点符号、字母串、数字串、不常见的特殊字符、不规则的标点符号、硬回车、无标点的行尾等。

目前论坛针对校对版的要求是:广告和屏蔽字必须要处理,对应到TF中就是:广告及其他问题、含有PS的行、屏蔽字,当然如果有充足的时间,可以尽量的多检查几项。

从下拉框中选择某一个选项(例如广告及其他问题),然后单击“查找下一个”按钮

TF会根据预先设定的规则进行查找并定位,请根据实际情况进行处理,注意:并非找出来的都是广告!

文本全部检查完毕后,TF会给出相应提示,这时需要将光标放在文本的最前方(第一行),然后再来选择第二个检查项(例如屏蔽字),如此反复,直到将所需要的检查工作全部完成,保存退出即可。

TF是一款非常强大好用的校对工具,但在使用过程中,也需要注意几点:慎用“全部替换选定”!这个地方很容易出纰漏!有时候会莫名其妙的系统自动去掉了替换后的文字,结果导致误删除!另外,有些选项比较古老了,基本上用不上,没必要把所有选项都用一遍!TF有个很实用的功能,就是当你一次弄不完的时候,下次再进入的时候,它会帮你定位到上次最后的位置(当然需要你记住你当时用了哪个选项:是PS还是屏蔽字等)!

一般来说,读校+软校(TF)是比较合适的做法,当然也可以直接单独使用软校,但不建议单独使用读校,因为读校很难检查出某些问题(例如标点符号错误)。

到这里,关于校对的东西就差不多结束了,后续日志中俺会说一下早安E书大师和HUGECHM的常见用法,呵呵。

今天我们来看一下早安E书大师的用法,呵呵。

早安E书大师(以下简称E书)的主要作用是排版和打包,这两个环节是制作E书的最后环节了,经由此环节处理之后,用生成工具生成一下就可以做出CHM电子书了。下载链接为(http://www.zazww.com/forum.php?mod=viewthread&tid=207085&extra=page%3D1),E书是绿色版,直接解压就可以使用了。
先来看一下排版的用法,打开E书,如下图所示:

在左边,选择“辅助功能”-“文本排版”,如下图所示

排版主要由两步构成,首先单击窗口下方的“第一步”,选择文本的路径,如下图所示

可以任意更换文本的存放路径(将路径复制到上图高亮的输入框中),这里我们是使用的默认路径(也就是E书的目录),注意,这里是文本的存放路径(目录),不是文本!

单击“提交”按钮,E书给给出相应提示,如下图所示:

确定后会自动跳转到第二步,如下图所示

首先还是复制文本的存放路径(目录),这里是:C:\Tools\早安E书(请根据实际情况更改),排版关键词的意思是,E书是通过什么关键词来区分章节的,这里使用的关键词是“第章”,意味着文本中凡是出现第XX章的地方,均视为章节名,例如:第326章、第一千零二十一章等。后面的20表示的是第章之间限制字数,这里设定为20意思是说“第章”关键字之间,最多只能有20个字符(汉字)!这样设定的目的是为了避免出现正文中有“第章”关键字,从而导致E书将正文内容错误的判断为章节名!一般情况下,设定为12~14基本上就可以了。另外,有的文本用的是“第二十八节”这种章节名,那么只需要将截图中的“章”替换为“节”字即可。

确认无误后单击“提交”按钮,如下图所示

E书会给出相应提示,到这里,排版工作就已经完成了。排版的第三步是用于处理特殊文本的,一般不需要理会。

排版后会生成两个文本,一个是原文,一个是原文2,

其中,原文2(这里是《都市血影》2.txt)就是我们需要的排版后的文本了。

在这里,有几个问题需要注意一下:

1、第一个章节名之前不要带有过多内容,通常写上“正文”两字即可(这两个字在制作后的E书中起到一个先导的作用)

在第一章之前必须要有这个!否则E书无法定位章节名的起始位置。

2、章节名与内容之间,如果是本章的内容,则无空行,如果是上一章的内容,则有两个空行,如下图所示

注意,空行之中不能有空格!

3、如果文本带有卷名,则卷名与章节名之间,如果是本卷下的章节,空两行!如果是上一卷的章节,则空三行!如下图所示

 

注意,如果是非标准的章节名,需要手工调整,例如上图中的“锲子”章节。

下一篇会继续谈E书的制作,呵呵。

今天来谈一下E书的最后工序-制作。

制作需要用到两个工具:早安E书和HUGECHM,首先用早安E书将待制作的文本整理好,然后再用HUGECHM生成CHM文件。
打开早安E书,在左边选择“导入文本”,然后再单击“浏览”按钮,定位到文本所在的位置,选中文本并确定即可

单击“进行单文本导入”按钮,程序会将文本导入进来(注意,在导入文本之前,应该对文本进行过校对和排版),如下图所示:

在这里可以核对章节序号和名称等信息,同时,也可以在程序中对文本进行修改(通过左边的菜单栏)

其中,管理书籍、管理章卷、管理文章这三个是最常用的。

管理书籍是对文本的全文信息进行处理,管理章卷是对文本的卷、章节等信息进行处理,管理文章是对文本的正文内容进行处理。

处理完毕之后,单击“确认导入操作”按钮,如下图所示:

填写必要的信息(可以跟后期生成CHM文件进行对比,来了解这里如何填写,呵呵),单击“提交”按钮

点击左边的“阅读书本”,选择相应的模板和列数(每行显示多少列),如下图所示

选择好了之后单击“确定”按钮即可。可以再次通过左边的菜单“阅读文本”重新选择列数和模板,直至不再修改为止。

模板选择好了之后,单击左边的菜单“管理书籍”,并选择“生成WEB”选项,如下图所示

单击“执行按钮”,程序会将模板和文本进行打包,并给出相应提示

到了这一步,基本上就已经完成了,剩下的,就是将所有内容生成到CHM文件中即可(注意电子书的位置信息,后面HUGECHM需要用到)。

打开HUGECHM,如下图所示:

首先选择打包文件夹的位置(上图中的第一步后面的“打开”小按钮),然后选择“INDEX文件”的位置(第二步的小按钮)

找到刚才使用早安E书打包文本所在的文件夹,并选中,然后单击“确定”按钮

再来选择封面文件(第二步,Index文件),如下图所示:

选中“Index.htm”文件,并单击“打开”按钮进行确认,选中HUGECHM窗口中的“初始窗口最大化”选项,并单击“4、开始打包”按钮,HUGECHM会进行打包操作,生成的CHM文件默认会放在打包文件夹的下面(早安E书的“Book”文件夹里面)。

至此,关于校对和制作的基础知识就全部结束了,所用到的工具在本系列文章中仅提到了一小部分常用的,其他的功能大家有兴趣可以自行摸索一下,需要提醒的是,注意备份!

最后说两句题外话,校对是个很辛苦的工作,需要的是耐心和细心,任何大神都是从菜鸟成长起来的,鉴于个人的精力和时间有限,在校对的过程中难免会出现疏漏之处,还望大家多体谅多包涵!至于标注,个人的看法是,只要不违背坛子的相关规定,可以随意,既可以标注为[校对全本],也可以标注为[精校全本],没必要去计较那么多,所谓的校对,事实上并无所谓的标准!也不存在严格意义上的精校!大家如果想要收藏文本,可以在校对本的基础上,自己再来慢慢润色调整就行了。

请希望发布校对本的朋友们注意,本论坛的校对标准是:1、屏蔽字要处理;2、广告类信息要处理!其他的一些问题,可以自行的来进行相应的处理(例如章节序号的重排、引号的不正确用法等),欢迎大家共同参与进来,我为人人,人人为我,呵呵。


路过

雷人

握手

鲜花

鸡蛋

评论 (0 个评论)

facelist doodle 涂鸦板

您需要登录后才可以评论 登录 | 立即注册

QQ|Archiver|手机版|小黑屋| ( Q群816270601 )

GMT+8, 2024-5-14 11:43 , Processed in 0.558965 second(s), 24 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

返回顶部