Làm sạch Dữ liệu Thông minh (Smart Data Cleaning)
Gói Standard
Tính năng có sẵn ở bản Standard trở lên.
Wizard giải quyết các sai sót structural thường gặp khi nhận file Excel từ đối tác / xuất từ phần mềm khác: dòng trống, dữ liệu trùng, cell có whitespace thừa, format không nhất quán, ký tự ẩn (zero-width space, BOM, non-breaking space).
Mở dialog
DVD Addin → nhóm Văn bản và Số → dropdown Xử lý văn bản → bấm Làm sạch dữ liệu thông minh.
Workflow 3 bước
Bước 1 — Chọn scope
| Option | Mô tả |
|---|---|
| Selection | Chỉ vùng đang chọn |
| Active sheet | Toàn sheet hiện tại |
| Multiple sheets | Group sheet trước (Ctrl+click tab) |
Bước 2 — Tick các cleanup options
Nhóm 1 — Whitespace
| Option | Hành động |
|---|---|
| Trim leading/trailing space | Xóa space đầu + cuối mỗi cell |
| Collapse internal whitespace | "Hà Nội" → "Hà Nội" |
| Remove non-breaking space (NBSP) | Xóa ký tự U+00A0 (hay xuất hiện khi copy từ web) |
| Remove zero-width space | Xóa U+200B, U+200C, U+200D, U+FEFF (BOM) — invisible nhưng gây sai VLOOKUP |
| Strip CR/LF inside cell | Xóa xuống dòng trong cell |
Nhóm 2 — Rows / Cells
| Option | Hành động |
|---|---|
| Delete blank rows | Xóa toàn bộ row không có data ở mọi column |
| Delete hidden rows | Xóa row bị hide (sau filter) |
| Delete duplicate rows | Giữ row đầu, xóa các row có giá trị giống ở các cột chỉ định |
| Delete cell styles | Cleanup styles thừa (workbook nhiều style → file nặng + chậm) |
Nhóm 3 — Format
| Option | Hành động |
|---|---|
| Standardize date format | Detect format hỗn loạn (DD/MM, MM/DD, ISO...) → unify về DD/MM/YYYY |
| Strip number formatting | Xóa format $/đ/dấu phân cách → để Excel re-format |
| Auto-detect number-as-text | Cell '1234' → 1234 (number) |
| Remove leading apostrophe | Xóa ' đầu cell text |
Nhóm 4 — Text
| Option | Hành động |
|---|---|
| Lower / Upper / Title case | Apply case rule |
| Remove accents | "Hà Nội" → "Ha Noi" |
| Strip special characters | Bỏ ký tự ngoài alphanumeric + space |
Bước 3 — Preview + Apply
Bấm 🔍 Preview:
- Dialog hiện trên grid: rows sẽ bị xóa (highlight đỏ), cells sẽ đổi (highlight vàng), unchanged (no color)
- Tổng kết: "Will delete 12 rows, modify 487 cells in 1,250 affected cells"
Bấm ✓ Apply changes → thực hiện. Tất cả vào Excel undo stack — Ctrl+Z reverts được.
Use case điển hình
Sau khi import từ phần mềm dự toán
| Vấn đề | Tick options |
|---|---|
| Cột tên công việc có space đầu + space đôi | Trim + Collapse whitespace |
| Cột mã định mức là text với apostrophe đầu | Remove leading apostrophe |
| Dòng tổng cộng / phân cách trống xen kẽ | Delete blank rows |
| Cột số tiền có ký hiệu "đ" + dấu chấm phân cách | Strip number formatting |
Sau khi nhận file từ đối tác nước ngoài
| Vấn đề | Tick options |
|---|---|
| Date format MM/DD/YYYY (Mỹ) | Standardize date → DD/MM/YYYY |
| Số dùng comma decimal (Châu Âu) | Strip number formatting + manually re-detect |
| Encoding UTF-8 BOM ẩn ở đầu cell | Remove zero-width space |
Cleanup workbook trước khi save
| Vấn đề | Tick options |
|---|---|
| File 50MB chỉ có 1000 dòng → bị bloat | Delete cell styles + Delete blank rows |
| Filter trước khi save → row hidden | Delete hidden rows |
| Copy từ Word có nhiều ký tự non-printable | Remove NBSP + zero-width |
Save profile
Tick các option → bấm 💾 Save profile → đặt tên (vd "Import GXD cleanup"). Lần sau load profile = áp dụng same set options.
Profile lưu ở %APPDATA%\DVDAddin\CleaningProfiles\<name>.json.
License gating
| Tier | Dùng được |
|---|---|
| Trial / Activated | ✅ Tất cả |
| Standard | ✅ Tất cả |
| Pro | ✅ Tất cả |
| Expired / Unactivated | 🔒 Locked |
Tips
- Backup trước Apply: bật chế độ "AutoBackup before cleaning" trong Preferences → addin save copy của workbook trước
- Combine workflow: Data Cleaning trước → Bulk Find/Replace sau (cleanup whitespace trước thì regex match dễ hơn)
- Detect duplicates by subset of columns: dialog cho phép chọn cột nào tham gia comparison (vd: cùng "Mã định mức" + "Đơn vị" = duplicate)
Liên quan
- Bulk Find/Replace — pattern-based replacement
- Tiện ích văn bản — single-cell text operations
- Chuyển mã (Encoding) — TCVN3/Unicode/VNI conversion