【一步校書郎】分割扫描本PDF书籍方法

先说明：

1、这个法子适合小尺寸屏幕的设备，比如手机。如果你的是10吋平板，而且觉得看上去已经很舒服，自不必理会这个。

2、这法子最适合分割扫描版的古籍电子书，即每页字数不多、字号不小的书籍。如果是现代书刊，最多二分一为单页。现代书刊排版上字数普遍很多，字号很小，即便分割完，看起来也很困难，这个是改变不了的，尤其是直排的现代书，还是不要用手机看了（横排可以转屏，直排没地转）。

旧书的扫描文件大多是以下两种方式

读旧书，哪怕是电子书也还是扫描版最可靠，但是，读扫描版很尴尬的地方就是：你不可能时时抱着电脑，所以必然要进入移动终端；但是无论平板、手机、甚至电脑屏幕，都免不了上下左右移动书页，这有字号小的问题，也有一个很实际的问题就如上两图所示，2面或者4面在一页显示。我做这个就是为了把这些“合体”的PDF分成单面文件放进手机看。还是上述所说，可以分割现代排印的书籍，但即使分作单面也还嫌字号太小，最好还是用平板看。而且直接扫描的古籍原本绝无版权问题，其他当代排印书籍则都不可避免。

言归正传。

把书页改回单面，这个事情想过很久，只是一直不得法，无他，几十页好说，了不起一页一页对回去，几百页、几千页呢？比如图一所示《全唐诗》缩印本，计9册，在我删除所有封面、封底、扉页之类后，得6986页，4面一页，恢复到单面就要27944页，一页页对回去？会对死人嘀，而且出错的可能性无限放大。

想了一阵子后，终于有解决方案，需要几个软件配合。

软件准备

Acobat——注意，没有Reader，这个是Adobe 出品的PDF制作编辑软件，Reader只是它的阅读器。需要用到它的裁剪页面、提取页面、合并文件几个功能。也因为有这个可用，所以我不太清楚其他有哪个软件可以实现这些功能，有兴趣的可以找找。（Ps:这是商业软件，要购买或者破解使用，我已经忘记这个能不能搞定了，试试吧 http://yunpan.cn/QaHR3ZIdgyXrB 访问密码 464e）

excel——需要点公式知识，偶公式不太精，所以有点缺陷。具体的工作表文末有下载链接。（Ps：2010用揭凯是最好的）

记事本——windows系统自带的即可。需要一些批处理方面的知识，也就是简单的DOS命令。免费。批处理文件文末下载。注意：批处理文件不能双击编辑，需要鼠标右键，弹出菜单选择“编辑”才可以。

工作流程

1、处理PDF。如图一，需要将四个面单独裁剪出来，另存为四个独立文件，命名1234，顺序也就是阅读顺序，即上右1、上左2、下右3、下左4。图二则需要将多余部分裁掉，之后裁出页面，顺序相同，右1、左2。大家都知道旧书是从右向左读的吧。当代印刷书籍顺序要反过来。注意：裁剪不要太“苦”，多留些富余量，以免有的页面文字被裁掉。Tips：这步不需要每次关闭acobat，另存之后再次打开裁剪页面就可以重新裁剪，然后另存为新的文件，如此重复。

2、单独设一个新的目录，把新的四个文件1.pdf、2.pdf……，存进去分别打开，“提取页面为单独文件”，于是可以得到类似“1 001.pdf”这样的文件，1是源文件名，001则是该页面在源文件的自然序号，也就是第几页页码，这个号码有多少，要看源文件有多少页，如上述《全唐诗》最后一个文件就是“1 6986.pdf”。Tips：注意要选择全部提取，一定选择“提取为单独文件”，页数少的书，这一步会很快，页数多的也只要等一下即可。所有4个新文件全部提取完毕之后，必须把这4个文件删除，目录里只保留几百-几万个单独页面PDF。文件名从“1 0001.pdf”到“4 6986.pdf”

3、提取文件夹内文件的目录列表。DOS命令#dir C:\路径\*.pdf >>1.txt#。用的时候把#去掉。此时，你新设的目录里多了一个名为1.txt的记事本文件，打开，删除所有最后不是以.pdf结尾的行，关闭。

红框内是删除部分。绿框内是不需要导入execl的部分：文件建立日期、时间和文件大小

4、打开excle，先进入“4in1数据”表刷新数据，只要你没改名，找到你的1.txt刷即可。然后根据你的文件，进入相应“4in1改”或“2in1改”

5、修改工作薄。我一直没有找到完全自动的方法，所以工作簿的N列数据需要手动修改。N1=IF(D:D=1,1,””)，N2=IF(D:D=1,N1+4,””)，这都没有问题，但是，当D=2的时候，需要把相应的单元格改成N6987=IF(D:D=2,2,””)，其下一个单元格改成N6988=IF(D:D=2,N6987+4,””)，这样才能继续下拉数据，3/4类推。

6、所有数据满值之后，拷贝A-M列有数据的行到ren.bat，开始整理，正式给各个文件改名。在ren.bat内，需要用替换功能把所有的制表符，也就是很长的空格去掉、把所有的X替换成引号（英文引号）、把所有的空格去掉、把所有的[替换成一个空格，关闭文件。然后双击运行，你可以看到CMD，命令提示符窗口运行。这是重命名，基本dos命令就是#ren a.pdf b.pdf#，因为提取的PDF文件名中间有个空格的缘故，所以要用引号使之成为独立文件名，即#ren “1 1.pdf” “001.pdf”#

7、改名后的文件名已经完全符合原书页码顺序，此时需要全选这些PDF文件，右键在acobat中合并，需要时间长短视书大小不等。

8、得到的新文件保存到其他地方。删除文件夹。或者运行del.bat删除文件夹内所有PDF和txt文件，批处理的文件留着下次用。基本dos命令#del a.pdf#

9、打开新的PDF，侧边栏，书签，全选然后删掉。合并的PDF文件是合并一个文件即以该文件名建立一个书签，我们是一页一文件，所以这些书签没意义。若用9.0版以上，且文件在180M以上，可以进行缩减PDF，时间比较长。

用到的批处理下载：

压缩包内文件：

ch更名.xlsx——excle2010文件，使用方法见4/5

del.bat——删除目录内所有pdf和txt文件
dir.bat——当前目录文件列表
ren.bat——当前目录文件批量改名

http://yunpan.cn/QaHqGEcHtUKaS 访问密码 43e8

再提示：ren和del必须在新目录内执行，否则改错删错东东不要找我～～

最后的Ps：5的问题我始终没有想出对策。详述就是需要N列对D列做出判断，如D1=1，则N1=1，如D2=1，则N1+1，即N2=N1+4，即N2=5这个在第一序列，即D列=1时候当然没问题，但是当D=2时候，必须要重新手工录入Dx=2,则Nx=2,Nx+1=(Nx+1）+4，但是我总觉得应该有自动判断第一序列终止，第二乃至第三序列开始的法子，只是想不出来……

所以，只能列入拙技栏，总算还不是很复杂。不过，就算不复杂现在我自己用到这法子时候也少了，俺已经有了读旧书扫描版的神器

只要依照图示分栏，再辅以切边功能，只有一小部分左右边距明显差异的才要这个流程，大部分已不需要如此麻烦。好吧，这就是得瑟一下～～下一步是要想法子把底色比图2更深的书保证清晰度的条件下去色，当然也是批处理。

类似文章

发表回复 取消回复

发表回复取消回复