open-notes

🌵 Pronunciation Scoring for Education (PS)

🎯 Mục tiêu hướng tới: Xây dựng hệ thống chấm điểm hoặc hỗ trợ phát hiện lỗi phát âm cho người học Tiếng Anh. Tập trung vào 3 nhiệm vụ nhỏ:

⏳ Kế hoạch & Nhiệm vụ chi tiết

Phase Deadline Task Description Resources
01_Nghiên cứu tổng quan & Chuẩn bị dữ liệu 02/06 - 02/07, 2025 W01_Tổng quan về bài toán Pronunciation Scoring - Phân tích 3 chức năng, mục tiêu chính của bài toán (detect, score, feedback).
- Nghiên cứu một số paper quan trọng liên quan đến PS (GOP, DNN-GOP, Wav2Vec-Scoring).
- Nghiên cứu một số kiến trúc PS tổng thể (gồm phần thu âm, xử lý âm thanh, phân tích, chấm điểm và phản hồi cho người học).
 
    W02: Thu thập và tìm hiểu một số bộ dữ liệu công khai - Lựa chọn, tìm các bộ dữ liệu người Việt nói Tiếng Anh hoặc người không phải bản địa nói tiếng Anh.
- Chuẩn hóa âm thanh sao cho có định dạng đảm bảo tính phù hợp và chât lượng.
- Tạo transcript đi kèm, chuyển sang dạng phát âm từng âm tiết.
- Căn khớp âm thanh với văn bản, sử dụng một số công cụ căn khớp để xác định chính xác vị trí từng âm thanh trong câu nói (Montreal Forced Aligner hoặc Gentle).
 
    W03: Chạy mô hình đánh giá cơ bản và phân tích lỗi - Dùng một số mô hình đơn giản có sẵn như GOP để chấm điểm từng âm người học phát ra, từ đó biết âm nào phát đúng, âm nào sai.
- Dựa vào kết quả mô hình, đánh giá thủ công, xác định một số lỗi phổ biến mà người Việt thường mắc phải khi nói tiếng Anh.
- Lựa chọn hoặc tự tạo một bộ dữ liệu thủ công, tự gán nhãn đúng sai nhằm so sánh kết quả mà mô hình đưa ra.
 
    W04: Phân tích đặc trưng & Thử nghiệm mô hình chấm điểm - Lấy đặc điểm của âm thanh để phân tích mở rộng, sử dụng môt số công cụ như librosa hoặc openSMILE để trích xuất một số đặc điểm quan trọng (độ cao giọng, độ vang, hình dạng âm thanh,v.v.).
- Sử dụng một số thuật toán dễ huấn luyện để ước lượng điểm phát âm của người học dựa trên các đặc trưng đã trích xuất.
- Thử nghiệm và phản hồi cơ bản như âm nào người học đã nói sai, cách phát âm đúng là gì.v.v.
 
02_Thử nghiệm mô hình & Tối ưu hóa 02/07 - 02/08, 2025 W01_Huấn luyện mô hình phát hiện lỗi phát âm (Mispronunciation Detection) - Sử dụng một số mô hình âm thanh truyền thống hoăc hiện đại để tinh chỉnh trên dữ liệu phát âm sai (HuBERT, Wav2Vec2).
- So sánh kết quả của mô hình này với phương pháp truyền thống GOP ở phare 01 xem cái náo phát hiện lỗi tốt hơn.
- Kiểm thử bằng tay để kiểm tra mô hình bằng cách tự tạo bộ dữ liệu gán nhãn thủ công.
 
    W02_Huấn luyện mô hình chấm điểm phát âm (Pronunciation Scoring) - Sử dụng mô hình học máy hoặc học sâu để lấy đặc trưng âm thanh, sau đó đưa vào một số mô hình đơn giản nhắm tính ra điểm tổng thể cho mỗi câu nói.
- So sánh điểm máy chấm với điểm dữ liệu chấm thực tế để đo độ tương đồng (correlation).
 
    W03_Tạo phản hồi sửa lỗi cho người học - Khi mô hình phát hiện ra lỗi phát âm, hệ thống cần xác định lỗi nào, gợi ý sửa lỗi đó.
- Tạo mẫu gợi ý phát âm chuẩn theo text hoặc audio,v.v.
 
    W04_Đánh giá lại mô hình - Đánh giá tổng thể hiệu suất các mô hình bằng các chỉ số phổ biến khác như precision, recall.
- Với mô hình chấm điểm. sử dụng độ đo sai số trung bình MSE để đánh giá.
 
03_Triển khai và kiểm thử thực tế 02/08 - 02/09, 2025 W01_Tích hợp hoàn chỉnh các mô hình - Ghép các thành phần chính: phát hiện lỗi, chấm điểm, phàn hồi sửa lỗi vào cùng một hệ thống.
- Thiết kết luồng xử lý từ nhận âm thanh đầu vao cho đến khi đưa ra kết quả cuối cùng cho người dùng.
 
    W02&W03_Kiểm thử với các phàn hồi thực tế - Thu thập phản hồi để đánh giá và cải thiện, tinh chỉnh thêm mô hình hoặc hệ thống.
- Tổng hợp các góp ý để lên kế hoạch nâng cấp hoặc chỉnh sửa.
 
    W04_Tổng kết và báo cáo kết quả - Đánh giá tổng quan về hiệu quả của hệ thống và những hạn chế còn tồn tại.
- Viết báo cáo kỹ thuật tổng hợp kết quả nghiên cứu và triển khai hệ thống thực tế.
- Đề xuất hướng cải thiện tiếp theo.
 

🛢️ Datasets

No. Name Details Link
01 Speechocean762 - Tập dữ liệu giọng nói phục vụ cho bài toán đánh giá phát âm.
- Gồm 5000 câu tiếng Anh được phát âm bởi 250 người không phải bản địa, trong đó một nửa là trẻ em. Nhãn được các chuyên gia ngôn ngữ đánh giá ở ba cấp độ: cấp câu (sentence-level), cấp từ (word-level), cấp âm vị (phoneme-level).
[speechocean762]
02 L2-ARCTIC - Bộ dữ liệu gồm 26.867 câu thoại của 24 người không phải bản địa, có cân bằng giới tính.
- Tổng 27 giờ âm thanh và có gán nhãn lỗi phát âm (thay âm, thiếu âm, thêm âm)
[l2-arctic]
03 LibriSpeech - Bộ dữ liệu lớn gần 1000 giờ gồm các đoạn ghi âm sách nói tiếng Anh.
- Được chia thành hai type chính (clean và other), trong đó clean được cho là dễ dàng nhận dạng hơn còn other có tiềng ồn và khó nhận biết hơn.
[librispeech]