【一步校書郎】全唐詩校勘——松字部第一
重启校勘。
木门,定“松”字。
取全唐诗txt文本选字,忘记前三部是怎么选了,只觉得直接用excel筛选含松字的诗句做标记,然后删除无标记诗句很麻烦,很慢。筛选到80卷之后决定改法子,简录步骤,省得以后再忘:
1、用word打开全唐诗txt文本,用“替换”将所有换行符号“^P”换成“#”。用替换将所有“##”替换为“”空,以删除原文本空行。(很慢)
2、因文本原有“卷1_1”这样的标志,所以所有的“#卷”替换成“^P卷”,保存为新txt(很慢)
3、打开excel,数据-文本数据-选择新的txt文本
4、因原文本诗词题目有【】分隔,所以筛选-不包含【的数据,以检查是否有错,并方便删除原文本中的卷次,即“卷一~卷九百”,并删除所有无汉字行。
5、原文本有诗词首字为“卷”字,如“卷帘黄叶落”、有补遗卷无题、无作者名直接从诗句开始一卷的,如“卷796都来消帝力”,还有类似无名氏直接空名的,等等问题,在word替换之后,都在excel中单成一行,此类,用记事本查找所在卷次、诗题,一一在excel中改到其后。改完后,excel中可保证一行一个题目,所有诗都跟在题目后居于同一行内。全唐诗数百万字,尽皆保存于一个工作簿的A1列,42861行。保存为txt。
6、用word打开刚保存的txt,将原文本“卷1_1【题目】”替换选择“更多通配符”,将“_*【”替换为“】”,即原标题部分改为“卷1】题目】”。保存为txt
7、excel引用新保存的txt,用“【”作为分隔符,如此“卷x”单独成一列,用“替换”删除“卷”字,设置单元格格式,将阿拉伯数码改为中文小写,1改为“一”。
8、此法更改后,会有如“一百〇一”、“一百一十一”这样的表述,古文中不这么表达数字。选取此列,复制到临时新建的txt文本“a.txt”,保存。用word打开a.txt,将“〇”替换为空,“百一十”替换为“百十”,即109、110、111对应一百九、一百十、一百十一。保存覆盖a.txt 。PS:用word替换比直接用txt快。
9、全选a.txt内容,复制到excel的A1列,检查行数符合。前新开一列补充“卷”字,后新建一列补充“】”符号,另存为txt。用word打开此txt,用“替换”删除空格。保存txt。
至此,原始数据修整完毕。选择“松”字。
1、excel引入修整完的txt文本数据,筛选含有“松”字的行,复制。
2、将选择毕的数据粘贴入word。将所有“#”替换为换行符“^P”,此时,一个换行符即一首诗。保存,并另存txt。
3、excel引入新文本,筛选包含“】”的行,可得所有诗题。复制到新文本。保存
4、excel引入新文本,以“】”为分隔符,则卷次、题目、作者各为一列,全选复制入“考订参阅书名”excel模板,另存为“松.xls”。
5、从全唐诗作者人名表查询名字有松字者,如曹松、皇甫松、杜之松、张松龄,在松字word文档检索名字,再检索松字,诗题正文无者删除。
6、795、796、寒山300篇、花蕊宫词等卷手工删除无松字篇。
检查虚拟机xpmode可运行。
将“人名不入选字”条加入凡例。
更新原建立之批处理文件“启动套.bat”内文件路径。
检查备份网盘skydrive、百度云、360正常备份
新建word文档,名“日志”,此后不再用outlook日记功能记录日志。
顺便的统计:涉及诗3308篇,697P,41万字。依前3部大约的规律,松字部完结之时最少要到1500P,字数近或破百万……,今年杯具了
至此,准备工作完成,输入法切回繁体,開工。