Notes on Data Aggregation, Training, and Evaluation Strategies
Trong nghiên cứu này, tập trung vào các mô hình đơn lẻ (single models). Mục tiêu là phân tích cách gộp dữ liệu từ nhiều nguồn, triển khai huấn luyện và đánh giá để đảm bảo tính tổng quát hóa và khả năng so sánh giữa các bộ dữ liệu khác nhau.
Experiments setup
Áp dụng 3 chiến lược huấn luyện và đánh giá bao gồm:
-
Chiến lược 1. Gộp dữ liệu thống nhất (Unified Training). Tất cả các bộ dữ liệu được tiền xử lý theo cùng một chuẩn, gộp thành một tập duy nhất. Dữ liệu được chia theo tỷ lệ cố định (train/dev/test 70/15/15) để huấn luyện và đánh giá.
-
Chiến lược 2. Đánh giá chéo theo bộ dữ liệu (Cross-Dataset Evaluation). Mô hình được huấn luyện trên một bộ dữ liệu cụ thể và đánh giá trên các bộ dữ liệu khác. Quy trình này giúp phân tích khả năng khái quát hóa và độ ổn định của mô hình.
-
Chiến lược 3. Huấn luyện đa nguồn với đánh giá chéo (Multi-Source Training). Tất cả các bộ dữ liệu được gộp lại trong quá trình huấn luyện. Tuy nhiên, đánh giá được tiến hành riêng biệt trên tập test của từng bộ dữ liệu, cho phép quan sát hiệu suất trên từng phân phối khác nhau.
Data Aggregation
Dựa vào thông tin thống kê, đặc điểm của các bộ dữ liệu [datasets-overview], thực hiện mapping về dữ liệu dạng 2 nhãn.
Datasets | Label | Class |
---|---|---|
Herlev | superficiel | Normal |
intermediate | Normal | |
columnar | Normal | |
light dysplastic | Abnormal | |
moderate_dysplastic | Abnormal | |
severe dysplastic | Abnormal | |
carcinoma in situ | Abnormal | |
LBC | NILM | Normal |
LSIL | Abnormal | |
HSIL | Abnormal | |
SCC | Abnormal | |
Hicervix | ASC_H | Abnormal |
ASC_US | Abnormal | |
HSIL | Abnormal | |
LSIL | Abnormal | |
SCC | Abnormal | |
SipakMed | Dyskeratotic (DYSK) | Abnormal |
Koilocytotic (KOIL) | Abnormal | |
Metaplastic (META) | Normal | |
Parabasal (PARA) | Normal | |
Superficial-Moderate (SM) | Normal | |
BVA | ASC_H | Abnormal |
ASC_US | Abnormal | |
HSIL | Abnormal | |
LSIL | Abnormal | |
SCC | Abnormal |
Bảng 1. Bảng quy đổi nhãn tương ứng trên từng bộ dữ liệu dựa trên quy ước phân loại trong tế bào học tử cung.
Sau khi mapping tiến hành gộp dữ liệu và thu được bộ dữ liệu lớn được thống kê mô tả như sau:
Dataset | Normal | Abnormal | Total |
---|---|---|---|
Herlev | 242 | 675 | 917 |
LBC | 0 | 963 | 963 |
HiCervix | 0 | 8,840 | 8,840 |
SIPaKMed | 1,618 | 2,472 | 4,090 |
Hospital A | 0 | 22,434 | 22,434 |
Total | 1,860 | 35,384 | 37,244 |
Bảng 2. Bảng dữ liệu thống kê sau khi tiến hành gộp dữ liệu từ 5 bộ riêng biệt, với hai nhãn bình thường + bất thường.
Cross-Dataset Evaluation
-
Ý tưởng. Trong chiến lược này, các mô hình được huấn luyện trên bộ dữ liệu Bệnh viện A và sau đó đánh giá khả năng khái quát hóa (generalization) trên nhiều bộ dữ liệu công khai khác nhau. Toàn bộ dữ liệu được quy đổi về cùng một nhiệm vụ phân loại nhị phân (normal vs. abnormal).
-
Ưu điểm. Đánh giá được khả năng khái quát hóa của mô hình sang nguồn dữ liệu khác và cho phép so sánh mức độ phụ thuộc phân phối dữ liệu giữa các kiến trúc.
-
Nhược điểm. Không tận dụng được toàn bộ dữ liệu có sẵn, việc dẫn đến sự khái quát hóa kém hoàn toàn có thể xảy ra.
Đánh giá.
-
Mô hình huấn luyện trên dữ liệu Bệnh viện A đạt hiệu suất cao.
-
Khi đánh giá trên các bộ dữ liệu công khai, F1-score giảm cho thấy sự phụ thuộc vào phân phối dữ liệu gốc.
-
Nhóm InceptionV3 / InceptionResNetV2 vượt trội hơn VGG16 và ResNet101 khoảng hơn 10% điểm F1-score.
-
MobileNetV2 và Xception đạt kết quả trung bình nhưng ổn định, cân bằng giữa độ chính xác và chi phí tính toán.
Đánh giá chéo cho thấy mô hình duy trì hiệu suất trên trung bình với dữ liệu mới, nhưng vẫn còn khoảng cách lớn so với tập gốc.
Dataset | Model | Accuracy | Precision | Recall | F1-Score |
---|---|---|---|---|---|
Hospital A | MobileNetV2 | 65.51 | 72.84 | 73.05 | 72.41 |
InceptionV3 | 69.93 | 77.24 | 76.25 | 76.57 | |
InceptionResNetV2 | 71.62 | 78.36 | 78.12 | 78.04 | |
VGG16 | 61.94 | 69.22 | 69.15 | 68.65 | |
ResNet101 | 58.83 | 65.08 | 65.91 | 64.41 | |
Xception | 65.58 | 71.74 | 72.75 | 71.18 | |
Herlev | MobileNetV2 | 57.13 | 64.27 | 64.62 | 63.58 |
InceptionV3 | 61.12 | 68.34 | 67.41 | 67.05 | |
InceptionResNetV2 | 63.48 | 70.21 | 69.67 | 69.14 | |
VGG16 | 53.26 | 60.38 | 60.71 | 59.63 | |
ResNet101 | 50.47 | 57.16 | 57.42 | 56.54 | |
Xception | 57.39 | 64.11 | 65.08 | 63.62 | |
LBC Pap Smear | MobileNetV2 | 54.72 | 61.14 | 61.85 | 61.02 |
InceptionV3 | 58.43 | 65.12 | 65.07 | 64.78 | |
InceptionResNetV2 | 60.07 | 66.83 | 66.14 | 66.02 | |
VGG16 | 51.29 | 57.41 | 57.82 | 57.09 | |
ResNet101 | 48.75 | 54.62 | 55.18 | 54.71 | |
Xception | 54.06 | 60.72 | 61.41 | 60.38 | |
HiCervix | MobileNetV2 | 52.63 | 59.82 | 60.44 | 59.67 |
InceptionV3 | 56.38 | 62.94 | 63.05 | 62.58 | |
InceptionResNetV2 | 58.07 | 65.11 | 64.82 | 64.55 | |
VGG16 | 49.41 | 55.48 | 56.02 | 55.17 | |
ResNet101 | 47.22 | 53.27 | 53.68 | 53.01 | |
Xception | 52.05 | 58.74 | 59.16 | 58.42 | |
SIPakMed | MobileNetV2 | 54.82 | 61.37 | 61.92 | 61.14 |
InceptionV3 | 58.63 | 64.95 | 65.21 | 64.58 | |
InceptionResNetV2 | 60.42 | 67.24 | 67.01 | 66.73 | |
VGG16 | 51.73 | 57.68 | 58.12 | 57.42 | |
ResNet101 | 49.28 | 55.02 | 55.41 | 54.86 | |
Xception | 54.15 | 60.34 | 60.82 | 60.02 |
Bảng 3. Đánh giá hiệu suất của các mô hình được huấn luyện trên BVA trên các bộ dữ liệu công khai khác.
Unified Training
-
Ý tưởng. Tất cả các bộ dữ liệu được tiền xử lý theo cùng một chuẩn (kích thước, số lớp normal vs. abnormal, v.v.). Sau đó được gộp lại thành một tập dữ liệu duy nhất để huấn luyện và đánh giá.
-
Ưu điểm. Dễ triển khai, tạo ra tập dữ liệu đủ lớn giúp mô hình học được nhiều đặc trưng hơn.
-
Nhược điểm. Đặc thù phân phối bộ dữ liệu có thể bị mất đi, dẫn đến kết quả đánh giá không phản ánh đầy đủ khả năng khái quát hóa cho mỗi nguồn dữ liệu riêng biệt.
Kết quả đánh giá.
-
Nhìn chung hiệu suât tổng thể khá đồng đều, các mô hình InceptionResNetV2 và Xception cho kết quả cao nhất vượt trội so với các mô hình cổ điển VGG16.
-
Sự khác biệt giữa các chỉ số, độ đô hiệu suất là không lớn, tuy nhiên không phản ánh hết được khả năng tương thích theo từng miền dữ liệu riêng lẻ.
Model | Accuracy | Precision | Recall | F1-Score |
---|---|---|---|---|
MobileNetV2 | 71.12 | 71.85 | 70.43 | 70.82 |
InceptionV3 | 73.21 | 73.88 | 72.65 | 72.94 |
InceptionResNetV2 | 74.95 | 75.41 | 73.88 | 74.11 |
VGG16 | 70.42 | 70.11 | 69.87 | 69.35 |
ResNet101 | 71.76 | 71.94 | 70.68 | 71.28 |
Xception | 73.48 | 73.92 | 72.75 | 73.02 |
Bảng 4. So sánh hiệu suất của các mô hình đơn lẻ sau khi được huấn luyện và đánh giá trên bộ dữ liệu được gộp.
Multi-Source Training
-
Ý tưởng. Trong chiến lược này, nhiều bộ dữ liệu được gộp chung để huấn luyện, đảm bảo mô hình tiếp xúc với phân phối phong phú và đa dạng. Quá trình đánh giá sau đó được thực hiện riêng biệt trên từng bộ dữ liệu, cho phép phân tích hiệu suất trong từng ngữ cảnh cụ thể.
-
Ưu điểm. Giúp mô hình tiếp xúc với phân phối dữ liệu đa dạng, tăng khả năng khái quát hóa, cho phép nhìn thấy được hiệu suất riêng biệt của từng nguồn dữ liệu.
-
Hạn chế. Có thể bị bias nếu một bộ dữ liệu từ một nguồn vượt trội hơn (ví dụ bộ Hircervix và BVA).
Đánh giá. Toàn bộ dữ liệu train của 5 bộ dữ liệu được gộp lại để huấn luyện, quá trình dánh giá các mô hình sẽ sử dụng tập test của từng bộ dữ liệu gốc.
-
Nhóm Inception (V3, ResNetV2) vẫn ổn định và vượt trội hơn.
-
MobileNetV2, Xception cho kết quả trung bình nhưng khá đồng đều trên các bộ dữ liệu.
-
VGG16, ResNet101 consistently thấp hơn, đặc biệt trên HiCervix.
Kết quả phản ánh rằng huấn luyện đa nguồn giúp duy trì hiệu suất tương đối khá trên các tập test khác nhau, dù vẫn có chênh lệch theo từng phân phối dữ liệu.
Model | Hospital A | Herlev | LBC | HiCervix | SIPakMed |
---|---|---|---|---|---|
MobileNetV2 | 70.42 | 62.18 | 59.87 | 58.41 | 61.22 |
InceptionV3 | 74.63 | 66.32 | 63.95 | 61.72 | 65.48 |
InceptionResNetV2 | 73.58 | 68.77 | 66.42 | 63.18 | 67.23 |
VGG16 | 67.11 | 59.24 | 57.13 | 54.62 | 58.04 |
ResNet101 | 64.88 | 57.86 | 55.42 | 53.01 | 56.27 |
Xception | 69.14 | 63.02 | 60.71 | 64.02 | 68.11 |
Bảng 5. . Kết quả F1-Score (%) của các mô hình theo từng bộ dữ liệu (được đánh giá trên tập test).