Skip to content

Làm sạch Dữ liệu Thông minh (Smart Data Cleaning)

Gói Standard

Tính năng có sẵn ở bản Standard trở lên.

Wizard giải quyết các sai sót structural thường gặp khi nhận file Excel từ đối tác / xuất từ phần mềm khác: dòng trống, dữ liệu trùng, cell có whitespace thừa, format không nhất quán, ký tự ẩn (zero-width space, BOM, non-breaking space).

Mở dialog

DVD Addin → nhóm Văn bản và Số → dropdown Xử lý văn bản → bấm Làm sạch dữ liệu thông minh.

Workflow 3 bước

Bước 1 — Chọn scope

OptionMô tả
SelectionChỉ vùng đang chọn
Active sheetToàn sheet hiện tại
Multiple sheetsGroup sheet trước (Ctrl+click tab)

Bước 2 — Tick các cleanup options

Nhóm 1 — Whitespace

OptionHành động
Trim leading/trailing spaceXóa space đầu + cuối mỗi cell
Collapse internal whitespace"Hà Nội" → "Hà Nội"
Remove non-breaking space (NBSP)Xóa ký tự U+00A0 (hay xuất hiện khi copy từ web)
Remove zero-width spaceXóa U+200B, U+200C, U+200D, U+FEFF (BOM) — invisible nhưng gây sai VLOOKUP
Strip CR/LF inside cellXóa xuống dòng trong cell

Nhóm 2 — Rows / Cells

OptionHành động
Delete blank rowsXóa toàn bộ row không có data ở mọi column
Delete hidden rowsXóa row bị hide (sau filter)
Delete duplicate rowsGiữ row đầu, xóa các row có giá trị giống ở các cột chỉ định
Delete cell stylesCleanup styles thừa (workbook nhiều style → file nặng + chậm)

Nhóm 3 — Format

OptionHành động
Standardize date formatDetect format hỗn loạn (DD/MM, MM/DD, ISO...) → unify về DD/MM/YYYY
Strip number formattingXóa format $/đ/dấu phân cách → để Excel re-format
Auto-detect number-as-textCell '1234'1234 (number)
Remove leading apostropheXóa ' đầu cell text

Nhóm 4 — Text

OptionHành động
Lower / Upper / Title caseApply case rule
Remove accents"Hà Nội" → "Ha Noi"
Strip special charactersBỏ ký tự ngoài alphanumeric + space

Bước 3 — Preview + Apply

Bấm 🔍 Preview:

  • Dialog hiện trên grid: rows sẽ bị xóa (highlight đỏ), cells sẽ đổi (highlight vàng), unchanged (no color)
  • Tổng kết: "Will delete 12 rows, modify 487 cells in 1,250 affected cells"

Bấm ✓ Apply changes → thực hiện. Tất cả vào Excel undo stack — Ctrl+Z reverts được.

Use case điển hình

Sau khi import từ phần mềm dự toán

Vấn đềTick options
Cột tên công việc có space đầu + space đôiTrim + Collapse whitespace
Cột mã định mức là text với apostrophe đầuRemove leading apostrophe
Dòng tổng cộng / phân cách trống xen kẽDelete blank rows
Cột số tiền có ký hiệu "đ" + dấu chấm phân cáchStrip number formatting

Sau khi nhận file từ đối tác nước ngoài

Vấn đềTick options
Date format MM/DD/YYYY (Mỹ)Standardize date → DD/MM/YYYY
Số dùng comma decimal (Châu Âu)Strip number formatting + manually re-detect
Encoding UTF-8 BOM ẩn ở đầu cellRemove zero-width space

Cleanup workbook trước khi save

Vấn đềTick options
File 50MB chỉ có 1000 dòng → bị bloatDelete cell styles + Delete blank rows
Filter trước khi save → row hiddenDelete hidden rows
Copy từ Word có nhiều ký tự non-printableRemove NBSP + zero-width

Save profile

Tick các option → bấm 💾 Save profile → đặt tên (vd "Import GXD cleanup"). Lần sau load profile = áp dụng same set options.

Profile lưu ở %APPDATA%\DVDAddin\CleaningProfiles\<name>.json.

License gating

TierDùng được
Trial / Activated✅ Tất cả
Standard✅ Tất cả
Pro✅ Tất cả
Expired / Unactivated🔒 Locked

Tips

  • Backup trước Apply: bật chế độ "AutoBackup before cleaning" trong Preferences → addin save copy của workbook trước
  • Combine workflow: Data Cleaning trước → Bulk Find/Replace sau (cleanup whitespace trước thì regex match dễ hơn)
  • Detect duplicates by subset of columns: dialog cho phép chọn cột nào tham gia comparison (vd: cùng "Mã định mức" + "Đơn vị" = duplicate)

Liên quan

Released under DVDAddin License.