
(서울=연합뉴스) 오지은 기자 = 한글과컴퓨터[030520]가 오픈소스 PDF 데이터 추출 부문에서 벤치마크 1위 성능을 달성한 '오픈데이터로더 PDF v2.0'을 12일 공개했다.
이번 버전의 특징은 AI 방식과 직접 추출 방식을 결합한 하이브리드 엔진이다.
기업과 개발자는 외부 서버로 데이터 유출 우려 없이 차단된 로컬 환경에서 고성능 PDF 데이터 추출 기능을 무료로 활용할 수 있다.
이번 버전에는 문서 내 복잡한 요소를 추출하는 무료 AI 애드온 4종이 탑재됐다.
광학문자인식(OCR)은 이미지 기반 PDF와 스캔 문서의 텍스트 인식률을 높였고 표 추출은 AI 모델로 병합된 셀 등 복잡한 표 구조를 정밀하게 분석한다.
수식 추출은 과학이나 수학 논문의 복잡한 수식을 로컬 환경에서 인식하며 차트 분석은 차트가 의미하는 맥락을 문장 형태로 설명한다.
정지환 한컴 최고기술책임자(CTO)는 "오픈데이터로더 PDF v2.0은 AI 하이브리드 엔진과 아파치 2.0 라이선스 전환으로 누구나 자유롭게 활용하고 확장할 수 있는 개방형 PDF 데이터 플랫폼으로 진화했다"라고 말했다.
built@yna.co.kr
(끝)
<저작권자(c) 연합뉴스, 무단 전재-재배포, AI 학습 및 활용 금지>