문서 자동화, OCR, 챗봇 등과 같은 프로젝트를 진행하다 보면 PDF 내의 표(table)를 추출하는 일이 자주 생깁니다. 그런데 PDF 표를 설명할 때 “embedded table”이라는 표현이 종종 사용됩니다. 단순히 “표”라고 하면 될 것 같은데, embedded table은 무엇을 의미하는 걸까요?
오늘은 PDF에 포함된 embedded table의 개념과 그 종류를 쉽게 정리해보겠습니다.
1. PDF Embedded Table이란?
PDF에서 embedded table(임베디드 테이블)이란, PDF 문서 안에 포함된 표를 의미합니다. 이 표는 두 가지 방식 중 하나로 표현될 수 있습니다.
1) 그래픽 형태의 표
표가 그림처럼 포함되어 있어 내용을 직접 복사하거나 분석하기 어렵습니다. 예를 들어, 종이를 스캔해서 만든 PDF에 있는 표는 대부분 이런 방식입니다.
2) 구조화된 형태의 표
표 안의 내용이 글자(텍스트)나 데이터로 저장되어 있어, 컴퓨터가 내용을 읽고 처리할 수 있습니다. 이 경우 프로그램을 이용하여 표를 쉽게 추출하거나 변환할 수 있습니다.
요약하자면, PDF 속 표는 그림처럼 보이기만 하는 경우와 실제로 글자와 데이터로 구성된 경우가 있으며, 어떤 방식으로 만들어졌는지에 따라 처리 방법이 달라집니다.
2. PDF Embedded Table의 종류
PDF 문서 안에 있는 표는 겉보기엔 비슷해 보여도, 실제로는 만들어진 방식에 따라 4가지 종류로 나눌 수 있습니다. 각각의 특징을 쉽게 정리해보겠습니다.
1) Graphical Tables (Images or Vector Graphics) : 그림으로 된 표
PDF 내에서 표가 이미지나 벡터 그래픽으로 표시된 경우입니다. 이 경우 표의 데이터가 이미지로 표현되기 때문에, 내용을 직접 다루거나 텍스트를 추출하는 것이 쉽지 않습니다. 일반적으로 종이를 스캔해서 만든 pdf에서 많이 볼 수 있습니다.
2) Tagged PDF Tables (Structured) : 구조화된 표
표에 'Table', 'Row', 'Cell'과 같이 표 구조를 설명하는 정보 (=태그)가 붙어 있습니다. 이러한 태그 덕분에 표의 구조를 프로그램이 이해할 수 있어, 데이터 추출이 훨씬 용이해집니다. 다만 이러한 표는 디지털 PDF에서만 존재합니다. 정부 기관이나 회사에서 만든 공식 보고서 PDF들 일부의 경우 찾아 볼 수 있습니다.
3. Form Field Tables (Form Field Tables) : 입력 가능한 표
경우에 따라 표 안에 텍스트 입력 칸이나 체크박스 필드가 있어, 사용자가 직접 데이터를 입력할 수 있도록 구성되어 있습니다. 이는 마치 온라인 설문지처럼 동작하며, 프로그램이 입력한 내용을 쉽게 읽을 수 있습니다. 이러한 형태 역시 디지털 PDF에서만 볼 수 있으며, 온라인 신청서나 견적서 같은 문서에서 찾아볼 수 있습니다.
4. 인터랙티브 표 (Interactive Tables) : 상호작용하는 표
이 표들은 일반적으로 데이터를 입력할 수 있는 필드를 포함하고 있으며, 더 똑똑하게 작동하는 표 입니다. 예를 들어 값을 입력하면 자동 계산이 되거나, 선택에 따라 내용이 바뀌는 표도 있습니다. 이러한 표는, 동작을 제어하기 위해 JavaScript가 포함되어 있을 수도 있습니다. 예를 들어, 입력하면 자동으로 값을 계산해주는 가계부 파일 등이 여기에 포함됩니다.
PDF 종류에 대한 더 자세한 정보는 여기(https://stackoverflow.com/questions/63494812/how-can-i-distinguish-a-digitally-created-pdf-from-a-searchable-pdf)에서 확인할 수 있습니다.
PDF에 있는 표는 단순히 보이는 것처럼 그림일 수도 있고, 컴퓨터가 이해할 수 있도록 정리된 데이터일 수도 있습니다.
어떤 방식으로 만들어졌느냐에 따라 추출 방법도 완전히 달라지기 때문에, 이를 구분하는 것이 중요합니다.
참고 링크
How to Extract Embedded Tables from PDFs: Types of tables and Python Libraries Explained
What Are Embedded Tables in PDFs?
medium.com