Skip to content

PDF & OCR

Đọc PDF + OCR ảnh / PDF scan thành text — trả vào Excel cell.

3 lệnh trong nhóm

LệnhMục đíchEngineLicense
PDF ManagerĐọc PDF, gộp / tách / xoay trangPdfiumViewerPremium
OCROCR file ảnh / PDF scan → textGemini VisionPremium
Screen Clip OCRCapture vùng màn hình → OCR ngayGemini VisionPremium

PDF Manager

DVD Addin → nhóm File và In → split-button PDF / OCRPDF Manager.

Dialog mở với các tab:

Tab Read PDF

  • Chọn file PDF → render preview các trang.
  • Click trang → text content được trích xuất → paste vào Excel cell active.
  • Hỗ trợ PDF có text layer (không phải scan).

Phù hợp cho: bảng giá vật tư PDF, biên bản trích lục, danh sách công ty.

Tab Merge PDF

  • Chọn nhiều file PDF (multi-select).
  • Drag/drop để sort thứ tự.
  • Click Merge → output 1 file PDF tổng hợp.

Tab Split PDF

  • Chọn 1 file PDF.
  • Chọn:
    • Split mỗi N trang (vd: 1 file mới = 5 trang gốc).
    • Split tại các trang (vd: tách tại trang 3, 7, 15).
  • Output: nhiều file PDF với pattern filename {original}_part1.pdf, _part2.pdf, ...

Tab Rotate PDF

  • Chọn file PDF.
  • Chọn các trang + góc xoay (90 / 180 / 270).
  • Click Rotate → ghi đè file gốc HOẶC lưu file mới.

OCR (Optical Character Recognition)

DVD Addin → nhóm File và In → menu PDF/OCROCR.

Dialog mở:

Bước 1 — Chọn nguồn

  • File ảnh.png, .jpg, .jpeg, .webp.
  • File PDF.pdf (scan, không có text layer).
  • Clipboard — ảnh đang trong clipboard (Ctrl+C ảnh từ Snipping Tool).

Bước 2 — Tùy chọn

  • Vùng output: cell active / vùng cố định / new sheet.
  • Format output:
    • Plain text — paste raw text.
    • Table — AI nhận diện cấu trúc bảng → paste thành nhiều cell.
    • Markdown — preserve format markdown.
  • Ngôn ngữ — tiếng Việt / Anh / Trung / Auto-detect.
  • Prompt thêm (tùy chọn) — gợi ý cho AI:
    • "Chỉ trích cột Tên + Giá."
    • "Bỏ qua header và footer."
    • "Số có dấu chấm là thập phân, không phải nghìn."

Bước 3 — Chạy OCR

Click OCR → addin gửi ảnh + prompt tới Gemini Vision → đợi response → paste kết quả vào Excel.

Gemini OCR vs Tesseract

DVDAddin dùng Gemini Vision thay vì Tesseract local. Lý do:

  • Chính xác hơn ~30-50% trên tiếng Việt có dấu.
  • Hiểu cấu trúc bảng / form / chữ viết tay.
  • Nhược: cần internet, cần API key, có rate limit.

Trong tương lai có thể thêm tùy chọn Tesseract offline cho user không có Internet.

Screen Clip OCR

DVD Addin → nhóm File và In → menu PDF/OCRScreen Clip OCR.

Quick workflow:

  1. Click lệnh → màn hình bị dim, cursor đổi thành dấu thập.
  2. Drag chọn vùng cần OCR (vd: vùng bảng giá trong PDF reader đang mở).
  3. Thả chuột → addin tự capture vùng → gửi Gemini Vision → paste text vào Excel cell active.

Phím tắt: nếu set trong Preferences → có thể bind Ctrl+Shift+O hoặc tương tự để clip OCR cực nhanh.

File PDF có DRM / password protected

  • File có password mở → addin không đọc được (Pdfium từ chối).
  • File có DRM (signing only) → vẫn đọc được text/render.
  • File flatten (ảnh chỉ) → cần OCR thay vì Read PDF.

Khắc phục sự cố

OCR sai nhiều dấu / chữ tiếng Việt

  • Đảm bảo ảnh đủ rõ (≥ 300 DPI).
  • Trong prompt thêm thêm: "Văn bản tiếng Việt có dấu, lưu ý ký tự ô, ờ, ư, ự."
  • Đổi sang model gemini-2.5-pro trong Preferences — chính xác hơn flash cho OCR phức tạp.

"Gemini API error 429"

Rate limit. Đợi 1 phút hoặc nâng tier API.

OCR Bảng → output 1 cell duy nhất

  • Đổi format output sang Table thay vì Plain text.
  • Hoặc trong prompt: "Tách thành các cột riêng biệt bởi tab, mỗi hàng 1 dòng."

PDFium DLL not found

Bộ cài đặt thiếu pdfium.dll. Re-install DVDAddin từ setup.exe mới nhất.

License gating

LệnhFreeActivated/Trial
PDF Manager (Read/Merge/Split/Rotate)
OCR✗ (cần API + license)
Screen Clip OCR

Tất cả lệnh PDF/OCR đều premium.

Liên quan

Released under DVDAddin License.