PaddleOCR-VL能識(shí)別109種語言的文本、表格、公式和圖表等復(fù)雜元素,包括全球主要語言以及俄語、阿拉伯語和印地語等多種語言。在最新的用于評(píng)估現(xiàn)實(shí)場景中多樣化文檔解析性能的基準(zhǔn)測試工具OmniDocBench榜單中,PaddleOCR-VL以92.6綜合得分拿下全球第一,并且在OmniDocBench v1.5、OmniDocBench v1.0均是第一。
PaddleOCR-VL在OmniDocBench v1.5上實(shí)現(xiàn)了整體、文本、公式、表格和閱讀順序的SOTA性能,在所有關(guān)鍵指標(biāo)上均超越現(xiàn)有流水線工具、通用VLM和其他專用文檔解析模型。

論文中提到,PaddleOCR-VL在文檔解析任務(wù)中實(shí)現(xiàn)了最佳性能,其擅長識(shí)別復(fù)雜的文檔元素,例如文本、表格、公式和圖表,適用于手寫文本和歷史文檔等各種具有挑戰(zhàn)性的內(nèi)容類型。
百度給出的官方手寫文本示例中,圖片中文字寫作相對(duì)規(guī)范,有較少不清晰文字,模型識(shí)別結(jié)果中錯(cuò)誤較少。
