騰訊推出PDF識別神器:復雜文檔解析準確率超98%
來源:快科技 編輯:非小米 時間:2024-06-21 19:30人閱讀
快科技6月21日消息,騰訊云大模型知識引擎新鮮出爐,它有一項新能力——大模型知識引擎文檔解析!
基于騰訊優圖實驗室自研新一代多模態文檔解析大模型,它能先通過版面分析定位文檔所有內容的位置和類型,再對文本表格公式等內容進行精準識別,最后按照我們人類的閱讀順序輸出連貫可讀的內容。
比如,面對帶表的PDF文檔,特別表格沒有框的,它能通過融合行列關系特征和元素特征來預測表格的行列間隔線。
算法能推理并對表格數據和結構進行正確復原,極大提高識別準確率。每次復制表格都數據錯位的人有福了!
不僅中英文,它還支持20+語言,以及繁體字、生僻字等多種類字體。
更驚喜的是,它還支持將識別后的圖片、PDF文檔轉換為Markdown格式輸出。
騰訊表示,大模型知識引擎文檔解析目前對復雜文檔的解析準確率可達98%以上。
目前,這項文檔解析功能已在多個產品上線,大家也可點此在線體驗。
分享到:
本站所有文章、數據、圖片均來自互聯網,一切版權均歸源網站或源作者所有。
如果侵犯了你的權益請來信告知我們刪除。郵箱:business@qudong.com