HTML预览功能支持doc、docx、pdf及rtf格式文件

Mitratech博客文章横幅:如何提升工作绩效指南

在Trakstar Hire平台上,用户常做的一件事就是查看候选人简历。我们提供简历快速预览功能,让用户无需逐个下载并打开文件。同时我们希望该功能运行快速高效(因为用户通常会一次性筛选大量简历)。事实证明,这确实是个棘手的问题。

Trakstar Hire 接受几乎所有格式的简历(doc、docx、pdf、rtf、odt 等)。 预览这些文件的一种方式是使用嵌入式文档查看器(如谷歌文档、Zoho、Scribd等)。这需要(a)实时转换(导致速度变慢),或(b)将文档存储在这些平台上(首次操作同样缓慢,成本增加,且需将客户数据托付给第三方服务)。这两种方案我们都不满意。

我们决定为用户提供简历文本预览功能。表面看来,这似乎相当简单。像Apache Tika这样的工具在这方面相当可靠且高效。然而,直接转换为纯文本的简历可读性很差——尤其当原始文件包含大量格式时。表格会变形,排版精美的简历往往显得杂乱无章。我们需要更优的解决方案。

我们最终选择的方法是先将所有文档转换为HTML格式,再将HTML转换为文本。HTML具备保留关键格式的能力,为文本转换提供了通用基础。早期寻找文档转HTML工具时,多数尝试都指向OpenOffice(以无头服务器模式运行)。 遗憾的是,OpenOffice存在诸多缺陷,在批量转换文档时频繁崩溃。它带来的失眠之夜,远超我应用程序其他代码的总和。最终我们发现了Abiword,其转换过程可靠得多。

我目前正在用超过10万份文档测试Abiword。到目前为止运行良好。在PDF转HTML过程中发现些许小问题,但尚可接受。今后处理PDF文档时我会改用pdf2html替代Abiword。

将HTML转换为(可读)文本是拼图的另一块。我们使用基于文本的网页浏览器w3m来解决这个问题。它能很好地将标记转换为可读文本(使用点、破折号等符号)。最终效果相当美观。

希望这对遇到类似问题的人有所帮助。

– 拉古


编者按:本文最初发表于Trakstar.com。2023年4月,Mitratech收购了绩效管理、人才招聘和劳动力分析解决方案的领先供应商Trakstar。此后,我们对内容进行了更新,以反映Mitratech在支持整个员工生命周期(从招聘、入职到学习和发展)以及在不断增长的人力资源产品组合中整合人力资源合规最佳实践方面的更广泛承诺。