java - 在hOCR文件中,超立方体:获取单词可信度( x_wconf )

  显示原文与译文双语对照的内容
109 5

我正在使用Java通过命令行调用正方体,输出模式被设置为 hOCR 。 我几乎不知道任何与C 编程相关的东西,我可以阅读源代码,但是这就是关于。

我希望能够在hOCR文件中得到单词的可信度信息。 我在网上找到了一些"解答"。 更改设置文件中的值以更改和重新编译源。

我正在使用最新的超正方体版本,如何从Java中得到 confidence ( x_wconf )?

时间: 原作者:

100 1

hOCR是 HTML,因此你需要一个HTML解析器来提取你想要的属性。 尝试使用 jsoupHtmlCleaner或者HTML解析器。

...