스캔된 PDF · 이미지 PDF 도 가능한가요?

아닙니다. 본 도구는 PDF 안의 텍스트 레이어만 추출 — 스캔본·사진 PDF 는 OCR 이 필요합니다. 결과가 비어 있으면 PDF 가 이미지 기반이라는 신호.

파일이 어디로 전송되나요?

아닙니다. pdfjs-dist 로 브라우저에서만 파싱 — 파일 자체와 추출된 텍스트 모두 외부로 나가지 않습니다. 기밀 문서에도 안전.

표는 셀 순서대로 텍스트 흐름으로 나옵니다 (구조 보존은 어려움). 그림 안 텍스트는 OCR 이 아니라 추출 불가. 복잡한 표가 많은 PDF 는 결과 수동 정리 필요.

예시

파일: report-2026.pdf (12 페이지)
모드: per-page (페이지별 분리)
출력 형식: Markdown

## 1 페이지

yutils 사용 분석 보고서
2026년 5월 13일

## 2 페이지

요약
- 도구 진입 동선: 검색 65%, 즐겨찾기 22%
- 가장 많이 쓰인 도구: Base64, JSON Formatter, JWT
...

PDF 내부 텍스트 레이어 기반 추출이라 OCR 이 필요한 이미지·스캔 본은 빈 결과가 나옵니다. 모든 처리는 pdfjs-dist 로 브라우저에서만 수행.

사용법 / 자주 묻는 질문

Q.스캔된 PDF · 이미지 PDF 도 가능한가요?: A.아닙니다. 본 도구는 PDF 안의 텍스트 레이어만 추출 — 스캔본·사진 PDF 는 OCR 이 필요합니다. 결과가 비어 있으면 PDF 가 이미지 기반이라는 신호.
Q.파일이 어디로 전송되나요?: A.아닙니다. pdfjs-dist 로 브라우저에서만 파싱 — 파일 자체와 추출된 텍스트 모두 외부로 나가지 않습니다. 기밀 문서에도 안전.
Q.표와 그림은 어떻게 처리되나요?: A.표는 셀 순서대로 텍스트 흐름으로 나옵니다 (구조 보존은 어려움). 그림 안 텍스트는 OCR 이 아니라 추출 불가. 복잡한 표가 많은 PDF 는 결과 수동 정리 필요.

재미있는 사실

PDF 의 텍스트 추출이 어려운 이유 — PDF 는 '렌더링 명령' 의 시퀀스 (이 좌표에 이 글자 그려라) 이지 '문단 구조' 가 아님. 줄바꿈·문단·표 구조는 좌표 휴리스틱으로 추정. 그래서 같은 PDF 라도 도구마다 추출 결과가 다름.
ISO 32000-1 §7.8 Content Streams
OCR 없이 텍스트 추출 불가능한 PDF 가 의외로 많음 — 스캔 이미지를 PDF 안에 박은 경우 (옛 문서·스캐너 출력·재인쇄 PDF). PDF 의 'selectable text' 여부로 미리 확인 가능 — 드래그해서 안 잡히면 OCR 필요.
Wikipedia — OCR
pdfjs-dist (이 도구가 사용) 는 Mozilla 가 만든 순수 JS PDF 렌더러. Firefox 의 내장 PDF viewer 가 바로 이것 — Web PDF 의 de-facto 표준. 2011 년 출시, 현재까지 활발 유지.
Mozilla pdf.js