PDF文本翻译中表格处理的方法比较


  【摘 要】笔者汇总多次表格翻译时可能使用的工具和方法,通过近期PDF书籍翻译时遇到的批量表格为例,对从简单原始操作到利用工具手动编辑绘制(不考虑CAT软件在表格翻译上可发挥的最佳效果)加以说明。笔者希望不负此前在表格翻译处理上所耗时间,利用该文总结对比所列方式,以期今后翻译遇到各式表格时能较快选择最适方案,使翻译之外的处理效率最大化。
  【关键词】表格翻译;PDF文件;转换;排版
  中图分类号:H159 文献标志码:A 文章编号:11007-0125(2018)15-0226-02
  (一)试想无软件辅助下会如何解决表格问题?第一,在word内新建表格手动录入数据;第二,若表格可选且光标滑动有序(图1),直接在pdf内复制表格选择性粘贴到word,后利用word“文本转表格”一键搞定;第三,word13等版本直接转换打开pdf,后批量替换更改;第四,复制图2表格到word,选中“显示标记”按钮(各版本word中样式不一,但均位于“段落”框)得到含格式标记的文本(标记高亮如图3),识别真空格(如Type和of中间)和制表符(^t,如data和50中间),利用替换功能自填制表符,最后“文本转换为表格”(注意此处选“制表符)得图4。上述操作处理单张表格时确有优点。
  以下借助工具批量处理左图5表格样式。图中可知各行列非等距,还应照顾页眉页脚和表格倒置的版面。考虑到格式特殊性和后续批量替换翻译等问题,先将含表格的页面单独提取成独立pdf(避免整体文档转换时仅表格页错乱)。以下为表格处理时可能出现问题的阶段及基于各个工具的产出效果:
  (一)直接利用PDF软件或在线工具实现pdf转excel表格(处理简单表格时也可直接复制粘贴后微调)。优点:避免复杂表格转为word时因页面内除表格外因素而造成的紊乱;缺点:需重新制作页眉、页脚和角注等要素。
  (二)同(一)实现pdf转word文档(优缺点与(一)中相反,另可免去下文操作(三))
  A.Nitro Pro 9
  转为excel识别率高,缺点是无法识别不齐整的表格数据,如单列有多层的标题栏(下图6,上下分别为原图和识别图)是此次表格处理的难点和特殊性;纵列数据偏移。转为word可直接使用(除标题栏稍偏移外)。
  B.Adobe Acrobat X Pro
  转为excel标题栏效果差。转为word需微调但不影响直接使用。
  C.ABBYYFineReader 12 Corporate,或有每日上传上限的在线免费版http://ocr.abbyy.cn/
  内容上无法识别符号如箭头;i与1之间识别度低;无法识别。转为word时最严重的问题还是与下文的DE问题类似,只是反应在硬回车上;转为excel时数据不齐整、单元格边框不匹配、遗漏分割等美观问题。尽管问题不乏,但我们必须熟知ABBYY与众不同的优点:1.处理扫描版格式时,该软件OCR(光学字符识别)功能的高识别度不容置疑;2.处理更加复杂图表时,可根据提示的疑似错误字符直接以对照模式修改,方便直观;3.可自动按照识别类型(表格、文本、背景图片等)手动调整识别区域,提高生成率。
  D.cloudconvert(免费)
  仅支持转为word,识别准确率和结构上都较为匹配,但识别规则可能仅依从源表的排列模式,对于需合并但分行的信息之间仍存在软回车,这对后续批量替换翻译极为不利。
  E、smallpdf(免费)
  转为excel时按照表格数量会自动生成多个工作簿,增加了合并工作簿的操作(使用VBA功能或第三方工具);转为word时页面效果优于cloudconvert,但存在相同问题。
  F.桌面出版(DTP)软件Adobe Illustrator
  打开翻译pdf的表格所在页,利用直接编辑功能(Nitro和acrobat也可不同程度直接编辑)和无法编辑部分重新制作的优势,变更和绘制(注意pdf待译和译出字体的间距倾斜加粗等系列问题),完成后保存为EPS(Encapsulated PostScript)格式,便可直接插入word中使用。缺点显然易见,即处理的精细度与批量的冲突,一次只可编辑一张表格,所以仅在表格极为复杂且格式非单一时可考虑使用。按此流程处理则不再仅限于文本翻译,可归为本地化。
  (三)表格翻译在excel中完成后插入word
  少量表格时,复制粘贴需要注意空格会以方框样式呈现,手动一次性替换即可;或可将excel另存为网页格式,后打开方式选word即可。
  (四)与表格翻译相关含分节符或分栏符的格式文本
  分节符本是为了强制中断前文格式而改成所需格式,该优点在处理文档翻译时却摇身成了麻烦。所以此类格式文本的问题是各栏文本间距可调以及底部文本连续性,如照此也利用分节符或分栏符,可能又需要更改适应的中文字体、行距等,且任何更改可谓牵一发而动全身(使用频率最高的是“下一页”分节符)。而我建议重新创建表格,利用表格约束文本布局,使其错落有致。
  鉴于笔者遇到表格翻译的次数及样式种类有限,以上总结均非具普遍性,仅作自身和其他译员的参考,期望得到指正与建议。此外,仍有未尝试的各类方法待笔者学习,如Kutools for Excel對于重新排列直接粘贴性表格数据的作用,其他含OCR功能的软件如onenote等。更者,CAT工具处理各类表格的能力及为此所需做的导入前表格处理准备。笔者在此愿翻译市场上优秀软件的完善和兴起,更望译者不止于翻译,能为自己营建更高效的翻译环境。
  参考文献:
  [1]陈永杰,邢宝山,张祥合,李桃.利用Adobe Acrobat7.0实现PDF格式文件的转换[J].编辑学报,2006.
  [2]于晓燕.把PDF文档应用于电子排版领域[J].自动化技术与应用,2005.
  [3]田玲. Word表格文件转换成Excel表格文件中的“选择性粘贴”命令应用研究[J].计算机光盘软件与应用,2014.