open-notes

Tổng quan về bài toán Pronunciation Scoring (PS)

Phase 01: Nghiên cứu tổng quan & Chuẩn bị dữ liệu\

Description

Nội dung

Tổng quan về bài toán

Hệ thống hỗ trợ học ngôn ngữ bằng máy tính (Computer-Assisted Language Learing - CALL) mang lại nhiều lợi ích thiết thực trong giáo dục, đặc biệt là đối với giáo viên và học sinh. Những hệ thống này cho phép cung cấp phản hồi liên tục cho người học mà không cần sự giám sát thường trực của giáo viên, hỗ trợ việc tự học, khuyến khích sử dụng ngôn ngữ một cách tương tác thay vì phụ thuộc vào các phương pháp học truyền thống như học thuộc lòng hay ghi chép. Bên cạnh đó, CALL cũng góp phần đơn giản hóa và tự động hóa các quy trình đánh giá năng lực ngôn ngữ.

Một trong những thành phần cốt lõi và đầy thác thức trong hệ thông CALL là chấm điểm phát âm (Pronuncation Scoring). Đây là nhiệm vụ quan trọng nhằm đánh giá mức độ chĩnh xác trong các phát âm của người học so với chuẩn của người bản ngữ. Hệ thống chầm điểm phát âm hiệu quả không chỉ giúp phát hiện và sửa lỗi kịp thời mà còn cung cấp phản hồi mang tính dài hạn về năng lực phát âm của người học.

Trong nhiều năm qua, đã có rất nhiều các nghiên cứu, hướng tiếp cận chính như:

Ngoài ra, các nghiên cứu khác cũng khai thác triệt để những yếu tố đặc trưng của âm thanh như trường độ, ngữ điệu, v.v, nhằm đánh giá chất lượng phát âm một cách toán diện hơn. Tuy nhiên, chúng vấn đang gặp phải rất nhiều những thách thức liên quan đến sự phụ thuộc vào dữ liệu, sự nhất quát và công bằng trong đánh giá và sự thích nghi khi dữ liệu giọng nói đa dạng.

Một số phương pháp nổi bật

Goodness of Pronunciation

GOP (Goodness of Pronunciation) là phương pháp là một trong những ký thuật nổi bật, với mục tiêu đo lường mức độ khớp giữa phát âm của người học và cách phát âm chuẩn của người bản ngữ, tính tại mức âm vị (phone-level). Gỉa sử khi chúng ta phát âm từ cat nó sẽ có hai âm vị là /ka//et/. GOP sẽ chấm điểm xem người dùng đã phát âm /ka/ tốt đến đâu và /et/ tốt đến đâu.

Công thức GOP:

\[\text{GOP} = \frac{1}{NF_\text{(p)}} \cdot \left| \text{log} \left( \frac{p(O^\text{(p)}) | p}{\max_{q \in \mathbf{Q}} p(O^\text{(p)}) | q} \right) \right|\]

Nếu tỷ lệ này tiến đến gần 1, có nghĩa là âm vị đúng khớp rất tốt, và không có âm vị nào khác khớp tốt hơn đáng kể. Điều này chứng tỏ bạn đã phát âm rất tốt. Ngược lại, có nghĩa là có một hoặc nhiều âm vị khác khớp với đoạn âm thanh đó hơn so với âm vị đúng, đồng nghĩa với bạn phát âm chưa chuẩn.

Hệ thống Pronunciation Scoring: Sơ đồ khối của cơ chế chấm điểm dựa trên phương pháp GOP được thể hiện như trong hình. Cụ thể sẽ trải qua 4 giai đoạn:

Hạn chế của phương pháp GOP:

DNN-based GOP

Các hệ thống chấm điểm phát âm thường được huấn luyện chỉ với dữ liệu giọng nói của người bản xứ. Trong khi đó, giọng nói của người học ngôn ngữ (phi bản xứ) lại có nhiều khác biệt, đặc biệt là khi họ phát âm sai. Nhiều nghiên cứu chỉ ra rằng việc huấn luyện hệ thống trực tiếp bằng dữ liệu giọng nói của người học phi bản xứ giúp cho hệ thống tốt hơn. Tuy nhiên việc thu thập dữ liệu và gán nhãn chi tiết dữ liệu giọng nói phi bản xứ là một thách thức vô cùng tốn kém và mất thời gian. Phương pháp này tiếp cận dựa trên transfer learning DNN-based GOP:

Mở rộng công thức tính GOP với DNN:

So với phương pháp tính toán GOP truyền thống như được trình bày ở Goodness of Pronunciation, trong đó GOP được tính dựa trên các mô hình âm học GMM (Gausian Mixture Models). Trong những năm gần đây, một loạt các nghiên cứu đã chỉ ra những cải thiện đáng kể khi sử dụng các mô hình âm học dựa trên DNN (Deep Neural Networks). DNN có khả năng học và mô hình hóa các đặc trưng âm thanh phức tạp tốt hơn nhiều so với GMM.

Khi sử dụng các mô hình âm học dựa trên DNN, điểm GOP của một âm vị đích $p$ bắt đầu từ khung thời gian $\text{T}$ và có độ dài $\text{D}$ được tính như sau:

\[\textbf{GOP}_{p} = -\frac{1}{D} \sum^{\text{T+D-1}}_\text{t=T} \log P_{t}(p|O)\]

Trong đó:

Các dữ liệu âm thanh đầu vào vẫn được ép khung dựa trên transcipt tương ứng, tuy nhiên các mô hình âm học DNN thường được huấn luyện để tạo ra xác suất hậu nghiệm cho một tập hợp các senones (một đơn vị âm học nhỏ hơn và chi tiết hơn phone - thường đại diện cho một trạng thái cụ thể của một phone). Vì vậy để có xác suất hậu nghiệm cho một phone đích, chúng ta cần tổng hợp các xác suất hậu nghiệm của tất cả các senones tương ứng với âm đích đó.

Cấu trúc mô hình đề xuất:

Nhìn chung phương pháp này cũng tương tự như GOP basline truyền thống, cả hai đều tuân thủ theo nhiều quy trình riêng lẻ, từ việc xử lý dữ liệu âm thanh cho đến đưa ra điểm số phát âm cho từng âm vị.

Đầu vào của hệ thống vẫn là dữ liệu âm thanh dạng sóng âm thanh (waveform) và transcipt tương ứng. Sau đó chúng sẽ được đưa qua các bước:

Sự khác biệt chính giữa GOP baseline và mô hình đề xuất chính là cách DNN tạo ra các điểm số xác suất ở cấp khung. Mô hình đề xuất đơn giản hóa quá trình bằng cách huấn luyện DNN để trực tiếp dự đoán xác suất phát âm đúng của âm vị, thay vì thông qua trung gian senone. Điều này giúp mô hình tập trung trực tiếp hơn vào nhiệm vụ phát hiện lỗi phát âm.