Chuyển âm thanh (Transcribe Audio)
Chuyển file âm thanh (MP3, WAV, M4A, ...) hoặc thu trực tiếp từ microphone → text → ghi vào Excel cell.
Ứng dụng: chuyển ghi âm họp dự án sang biên bản, archive cuộc gọi khách hàng, chuyển voice note thành note Excel.
Mở dialog
DVD Addin → nhóm File và In → split-button Công cụ File → menu Chuyển âm thanh.
2 mode
Mode 1 — Chuyển file âm thanh có sẵn
- Click Chuyển âm thanh → dialog mở.
- Tab From File:
- Browse → chọn file
.mp3,.wav,.m4a,.ogg,.flac,.aac,.opus. - Ngôn ngữ — Auto-detect / Vietnamese / English / Chinese / Japanese / ...
- Output cell — nơi ghi text kết quả.
- Format:
- Plain text — paragraph liền mạch.
- Timestamped —
[00:00:15] ...,[00:01:23] ...(subtitle-style). - Speaker-separated — Speaker 1 / Speaker 2 (chỉ khi audio đa người).
- Browse → chọn file
- Click Transcribe → addin upload file lên Gemini → đợi response → paste vào cell.
Mode 2 — Record + Transcribe ngay
- Tab Record:
- Click ● Record → mic bắt đầu thu.
- Status hiện: thời gian + sóng âm waveform.
- Click ■ Stop → kết thúc.
- Audio tạm được lưu vào
%TEMP%. - Click Transcribe → gửi Gemini → paste vào cell.
Phù hợp cho: quick voice note → text trong Excel.
Tùy chọn nâng cao
Speaker diarization
Tick Detect speakers trong tab Speaker-separated mode → AI cố gắng nhận diện và tách dialogue:
Speaker 1: Anh có thể cập nhật tiến độ móng cho tôi không?
Speaker 2: Đến chiều nay đã đổ xong bê tông lót. Ngày mai sẽ đặt cốt thép.
Speaker 1: Vật liệu đã về đủ chưa?
Speaker 2: Đã về 80%. Phần còn lại nhập kho ngày mai.Accuracy của diarization
Speaker diarization KHÔNG hoàn hảo — nhầm lẫn khi có nhiều speaker hoặc voice tương tự. Manual review sau khi transcribe.
Custom vocabulary
Trong Prompt thêm (tùy chọn), gợi ý cho AI nhận diện thuật ngữ chuyên ngành:
Văn bản về xây dựng. Lưu ý các thuật ngữ:
- Tên dự án: "MHC Văn Phòng".
- Mã CT: MHC1130, MHC1140, MHC1150.
- Nhân sự: "anh Đặng", "chị Lan", "trưởng BCH Hùng".Cải thiện đáng kể độ chính xác với tên riêng + chữ viết tắt.
Long audio (> 30 phút)
File > 30 phút có thể vượt rate limit Gemini. Workaround:
- Split audio trước khi upload (dùng Audacity / FFmpeg).
- Compress audio xuống MP3 64kbps → upload nhanh hơn.
DVDAddin tự động compress nếu file > 50MB.
Format file âm thanh được hỗ trợ
| Format | Hỗ trợ | Ghi chú |
|---|---|---|
| MP3 | ✓ | Phổ biến, nhỏ |
| WAV | ✓ | Quality cao nhưng lớn |
| M4A | ✓ | iPhone voice memo |
| AAC | ✓ | Web video |
| FLAC | ✓ | Lossless |
| OGG/OPUS | ✓ | Open source |
| WMA | ✗ | Convert sang MP3 trước |
| AMR | ✗ | Convert sang MP3 (ffmpeg -i in.amr out.mp3) |
| HEAAC | ✗ | Convert |
Khắc phục sự cố
"File size too large"
Gemini giới hạn ~20MB/request. File lớn hơn → split hoặc compress.
Transcript sai nhiều chữ tiếng Việt
- Audio chất lượng thấp / nhiều noise.
- Chọn lại ngôn ngữ Vietnamese (không phải Auto).
- Dùng prompt "Văn bản tiếng Việt có dấu" trong custom vocabulary.
"API quota exceeded"
Gemini free tier limit: 15 req/phút, 1500/ngày. Đợi reset hoặc nâng tier.
Microphone không hoạt động (mode Record)
- Windows Settings → Privacy → Microphone → "Allow apps to access" = ON.
- Excel chưa được cấp quyền mic → Settings → Privacy → Microphone → bật cho Excel.
Audio capture lúc Record bị giật / lossy
- Tắt các app khác chiếm mic (Zoom, Teams, OBS).
- Đổi default mic device trong Windows Sound Settings.
License gating
Transcribe Audio yêu cầu license active.
Liên quan
- PDF & OCR — tương tự nhưng cho ảnh / PDF scan.
- AI Assistant — paste transcript vào → AI tóm tắt / phân tích.
- Send Email — gửi transcript qua mail.