【一步校書郎】分割扫描本PDF书籍方法

先说明:

1、这个法子适合小尺寸屏幕的设备,比如手机。如果你的是10吋平板,而且觉得看上去已经很舒服,自不必理会这个。

2、这法子最适合分割扫描版的古籍电子书,即每页字数不多、字号不小的书籍。如果是现代书刊,最多二分一为单页。现代书刊排版上字数普遍很多,字号很小,即便分割完,看起来也很困难,这个是改变不了的,尤其是直排的现代书,还是不要用手机看了(横排可以转屏,直排没地转)。

旧书的扫描文件大多是以下两种方式

1这是四合一的缩印

 

2这是直接扫描的原本

读旧书,哪怕是电子书也还是扫描版最可靠,但是,读扫描版很尴尬的地方就是:你不可能时时抱着电脑,所以必然要进入移动终端;但是无论平板、手机、甚至电脑屏幕,都免不了上下左右移动书页,这有字号小的问题,也有一个很实际的问题就如上两图所示,2面或者4面在一页显示。我做这个就是为了把这些“合体”的PDF分成单面文件放进手机看。还是上述所说,可以分割现代排印的书籍,但即使分作单面也还嫌字号太小,最好还是用平板看。而且直接扫描的古籍原本绝无版权问题,其他当代排印书籍则都不可避免。

言归正传。

把书页改回单面,这个事情想过很久,只是一直不得法,无他,几十页好说,了不起一页一页对回去,几百页、几千页呢?比如图一所示《全唐诗》缩印本,计9册,在我删除所有封面、封底、扉页之类后,得6986页,4面一页,恢复到单面就要27944页,一页页对回去?会对死人嘀,而且出错的可能性无限放大。

想了一阵子后,终于有解决方案,需要几个软件配合。

软件准备

Acobat——注意,没有Reader,这个是Adobe 出品的PDF制作编辑软件,Reader只是它的阅读器。需要用到它的裁剪页面、提取页面、合并文件几个功能。也因为有这个可用,所以我不太清楚其他有哪个软件可以实现这些功能,有兴趣的可以找找。(Ps:这是商业软件,要购买或者破解使用,我已经忘记这个能不能搞定了,试试吧 http://yunpan.cn/QaHR3ZIdgyXrB  访问密码 464e)

excel——需要点公式知识,偶公式不太精,所以有点缺陷。具体的工作表文末有下载链接。(Ps:2010用揭凯是最好的)

记事本——windows系统自带的即可。需要一些批处理方面的知识,也就是简单的DOS命令。免费。批处理文件文末下载。注意:批处理文件不能双击编辑,需要鼠标右键,弹出菜单选择“编辑”才可以。

工作流程

1、处理PDF。如图一,需要将四个面单独裁剪出来,另存为四个独立文件,命名1234,顺序也就是阅读顺序,即上右1、上左2、下右3、下左4。图二则需要将多余部分裁掉,之后裁出页面,顺序相同,右1、左2。大家都知道旧书是从右向左读的吧。当代印刷书籍顺序要反过来。注意:裁剪不要太“苦”,多留些富余量,以免有的页面文字被裁掉。Tips:这步不需要每次关闭acobat,另存之后再次打开裁剪页面就可以重新裁剪,然后另存为新的文件,如此重复。

2、单独设一个新的目录,把新的四个文件1.pdf、2.pdf……,存进去分别打开,“提取页面为单独文件”,于是可以得到类似“1 001.pdf”这样的文件,1是源文件名,001则是该页面在源文件的自然序号,也就是第几页页码,这个号码有多少,要看源文件有多少页,如上述《全唐诗》最后一个文件就是“1 6986.pdf”。Tips:注意要选择全部提取,一定选择“提取为单独文件”,页数少的书,这一步会很快,页数多的也只要等一下即可。所有4个新文件全部提取完毕之后,必须把这4个文件删除,目录里只保留几百-几万个单独页面PDF。文件名从“1 0001.pdf”到“4 6986.pdf”

3、提取文件夹内文件的目录列表。DOS命令#dir C:\路径\*.pdf >>1.txt#。用的时候把#去掉。此时,你新设的目录里多了一个名为1.txt的记事本文件,打开,删除所有最后不是以.pdf结尾的行,关闭。

红框内是删除部分。绿框内是不需要导入execl的部分:文件建立日期、时间和文件大小

4、打开excle,先进入“4in1数据”表刷新数据,只要你没改名,找到你的1.txt刷即可。然后根据你的文件,进入相应“4in1改”或“2in1改”

5、修改工作薄。我一直没有找到完全自动的方法,所以工作簿的N列数据需要手动修改。N1=IF(D:D=1,1,””),N2=IF(D:D=1,N1+4,””),这都没有问题,但是,当D=2的时候,需要把相应的单元格改成N6987=IF(D:D=2,2,””),其下一个单元格改成N6988=IF(D:D=2,N6987+4,””),这样才能继续下拉数据,3/4类推。

6、所有数据满值之后,拷贝A-M列有数据的行到ren.bat,开始整理,正式给各个文件改名。在ren.bat内,需要用替换功能把所有的制表符,也就是很长的空格去掉、把所有的X替换成引号(英文引号)、把所有的空格去掉、把所有的[替换成一个空格,关闭文件。然后双击运行,你可以看到CMD,命令提示符窗口运行。这是重命名,基本dos命令就是#ren a.pdf b.pdf#,因为提取的PDF文件名中间有个空格的缘故,所以要用引号使之成为独立文件名,即#ren “1 1.pdf” “001.pdf”#

7、改名后的文件名已经完全符合原书页码顺序,此时需要全选这些PDF文件,右键在acobat中合并,需要时间长短视书大小不等。

8、得到的新文件保存到其他地方。删除文件夹。或者运行del.bat删除文件夹内所有PDF和txt文件,批处理的文件留着下次用。基本dos命令#del a.pdf#

9、打开新的PDF,侧边栏,书签,全选然后删掉。合并的PDF文件是合并一个文件即以该文件名建立一个书签,我们是一页一文件,所以这些书签没意义。若用9.0版以上,且文件在180M以上,可以进行缩减PDF,时间比较长。

用到的批处理下载:

压缩包内文件:

ch更名.xlsx——excle2010文件,使用方法见4/5

del.bat——删除目录内所有pdf和txt文件
dir.bat——当前目录文件列表
ren.bat——当前目录文件批量改名

http://yunpan.cn/QaHqGEcHtUKaS  访问密码 43e8

再提示:ren和del必须在新目录内执行,否则改错删错东东不要找我~~

最后的Ps:5的问题我始终没有想出对策。详述就是需要N列对D列做出判断,如D1=1,则N1=1,如D2=1,则N1+1,即N2=N1+4,即N2=5这个在第一序列,即D列=1时候当然没问题,但是当D=2时候,必须要重新手工录入Dx=2,则Nx=2,Nx+1=(Nx+1)+4,但是我总觉得应该有自动判断第一序列终止,第二乃至第三序列开始的法子,只是想不出来……

所以,只能列入拙技栏,总算还不是很复杂。不过,就算不复杂现在我自己用到这法子时候也少了,俺已经有了读旧书扫描版的神器

只要依照图示分栏,再辅以切边功能,只有一小部分左右边距明显差异的才要这个流程,大部分已不需要如此麻烦。好吧,这就是得瑟一下~~下一步是要想法子把底色比图2更深的书保证清晰度的条件下去色,当然也是批处理。

 

类似文章

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注