Notes on Data Aggregation, Training, and Evaluation Strategies

Trong nghiên cứu này, tập trung vào các mô hình đơn lẻ (single models). Mục tiêu là phân tích cách gộp dữ liệu từ nhiều nguồn, triển khai huấn luyện và đánh giá để đảm bảo tính tổng quát hóa và khả năng so sánh giữa các bộ dữ liệu khác nhau.

Experiments setup

Áp dụng 3 chiến lược huấn luyện và đánh giá bao gồm:

Chiến lược 1. Gộp dữ liệu thống nhất (Unified Training). Tất cả các bộ dữ liệu được tiền xử lý theo cùng một chuẩn, gộp thành một tập duy nhất. Dữ liệu được chia theo tỷ lệ cố định (train/dev/test 70/15/15) để huấn luyện và đánh giá.
Chiến lược 2. Đánh giá chéo theo bộ dữ liệu (Cross-Dataset Evaluation). Mô hình được huấn luyện trên một bộ dữ liệu cụ thể và đánh giá trên các bộ dữ liệu khác. Quy trình này giúp phân tích khả năng khái quát hóa và độ ổn định của mô hình.
Chiến lược 3. Huấn luyện đa nguồn với đánh giá chéo (Multi-Source Training). Tất cả các bộ dữ liệu được gộp lại trong quá trình huấn luyện. Tuy nhiên, đánh giá được tiến hành riêng biệt trên tập test của từng bộ dữ liệu, cho phép quan sát hiệu suất trên từng phân phối khác nhau.

Data Aggregation

Dựa vào thông tin thống kê, đặc điểm của các bộ dữ liệu [datasets-overview], thực hiện mapping về dữ liệu dạng 2 nhãn.

Datasets	Label	Class
Herlev	superficiel	Normal
	intermediate	Normal
	columnar	Normal
	light dysplastic	Abnormal
	moderate_dysplastic	Abnormal
	severe dysplastic	Abnormal
	carcinoma in situ	Abnormal

LBC	NILM	Normal
	LSIL	Abnormal
	HSIL	Abnormal
	SCC	Abnormal

Hicervix	ASC_H	Abnormal
	ASC_US	Abnormal
	HSIL	Abnormal
	LSIL	Abnormal
	SCC	Abnormal

SipakMed	Dyskeratotic (DYSK)	Abnormal
	Koilocytotic (KOIL)	Abnormal
	Metaplastic (META)	Normal
	Parabasal (PARA)	Normal
	Superficial-Moderate (SM)	Normal

BVA	ASC_H	Abnormal
	ASC_US	Abnormal
	HSIL	Abnormal
	LSIL	Abnormal
	SCC	Abnormal

Bảng 1. Bảng quy đổi nhãn tương ứng trên từng bộ dữ liệu dựa trên quy ước phân loại trong tế bào học tử cung.

Sau khi mapping tiến hành gộp dữ liệu và thu được bộ dữ liệu lớn được thống kê mô tả như sau:

Dataset	Normal	Abnormal	Total
Herlev	242	675	917
LBC	0	963	963
HiCervix	0	8,840	8,840
SIPaKMed	1,618	2,472	4,090
Hospital A	0	22,434	22,434
Total	1,860	35,384	37,244

Bảng 2. Bảng dữ liệu thống kê sau khi tiến hành gộp dữ liệu từ 5 bộ riêng biệt, với hai nhãn bình thường + bất thường.

Cross-Dataset Evaluation

Ý tưởng. Trong chiến lược này, các mô hình được huấn luyện trên bộ dữ liệu Bệnh viện A và sau đó đánh giá khả năng khái quát hóa (generalization) trên nhiều bộ dữ liệu công khai khác nhau. Toàn bộ dữ liệu được quy đổi về cùng một nhiệm vụ phân loại nhị phân (normal vs. abnormal).
Ưu điểm. Đánh giá được khả năng khái quát hóa của mô hình sang nguồn dữ liệu khác và cho phép so sánh mức độ phụ thuộc phân phối dữ liệu giữa các kiến trúc.
Nhược điểm. Không tận dụng được toàn bộ dữ liệu có sẵn, việc dẫn đến sự khái quát hóa kém hoàn toàn có thể xảy ra.

Đánh giá.

Mô hình huấn luyện trên dữ liệu Bệnh viện A đạt hiệu suất cao.
Khi đánh giá trên các bộ dữ liệu công khai, F1-score giảm cho thấy sự phụ thuộc vào phân phối dữ liệu gốc.
Nhóm InceptionV3 / InceptionResNetV2 vượt trội hơn VGG16 và ResNet101 khoảng hơn 10% điểm F1-score.
MobileNetV2 và Xception đạt kết quả trung bình nhưng ổn định, cân bằng giữa độ chính xác và chi phí tính toán.

Đánh giá chéo cho thấy mô hình duy trì hiệu suất trên trung bình với dữ liệu mới, nhưng vẫn còn khoảng cách lớn so với tập gốc.

Dataset	Model	Accuracy	Precision	Recall	F1-Score
Hospital A	MobileNetV2	65.51	72.84	73.05	72.41
	InceptionV3	69.93	77.24	76.25	76.57
	InceptionResNetV2	71.62	78.36	78.12	78.04
	VGG16	61.94	69.22	69.15	68.65
	ResNet101	58.83	65.08	65.91	64.41
	Xception	65.58	71.74	72.75	71.18

Herlev	MobileNetV2	57.13	64.27	64.62	63.58
	InceptionV3	61.12	68.34	67.41	67.05
	InceptionResNetV2	63.48	70.21	69.67	69.14
	VGG16	53.26	60.38	60.71	59.63
	ResNet101	50.47	57.16	57.42	56.54
	Xception	57.39	64.11	65.08	63.62

LBC Pap Smear	MobileNetV2	54.72	61.14	61.85	61.02
	InceptionV3	58.43	65.12	65.07	64.78
	InceptionResNetV2	60.07	66.83	66.14	66.02
	VGG16	51.29	57.41	57.82	57.09
	ResNet101	48.75	54.62	55.18	54.71
	Xception	54.06	60.72	61.41	60.38

HiCervix	MobileNetV2	52.63	59.82	60.44	59.67
	InceptionV3	56.38	62.94	63.05	62.58
	InceptionResNetV2	58.07	65.11	64.82	64.55
	VGG16	49.41	55.48	56.02	55.17
	ResNet101	47.22	53.27	53.68	53.01
	Xception	52.05	58.74	59.16	58.42

SIPakMed	MobileNetV2	54.82	61.37	61.92	61.14
	InceptionV3	58.63	64.95	65.21	64.58
	InceptionResNetV2	60.42	67.24	67.01	66.73
	VGG16	51.73	57.68	58.12	57.42
	ResNet101	49.28	55.02	55.41	54.86
	Xception	54.15	60.34	60.82	60.02

Bảng 3. Đánh giá hiệu suất của các mô hình được huấn luyện trên BVA trên các bộ dữ liệu công khai khác.

Unified Training

Ý tưởng. Tất cả các bộ dữ liệu được tiền xử lý theo cùng một chuẩn (kích thước, số lớp normal vs. abnormal, v.v.). Sau đó được gộp lại thành một tập dữ liệu duy nhất để huấn luyện và đánh giá.
Ưu điểm. Dễ triển khai, tạo ra tập dữ liệu đủ lớn giúp mô hình học được nhiều đặc trưng hơn.
Nhược điểm. Đặc thù phân phối bộ dữ liệu có thể bị mất đi, dẫn đến kết quả đánh giá không phản ánh đầy đủ khả năng khái quát hóa cho mỗi nguồn dữ liệu riêng biệt.

Kết quả đánh giá.

Nhìn chung hiệu suât tổng thể khá đồng đều, các mô hình InceptionResNetV2 và Xception cho kết quả cao nhất vượt trội so với các mô hình cổ điển VGG16.
Sự khác biệt giữa các chỉ số, độ đô hiệu suất là không lớn, tuy nhiên không phản ánh hết được khả năng tương thích theo từng miền dữ liệu riêng lẻ.

Model	Accuracy	Precision	Recall	F1-Score
MobileNetV2	71.12	71.85	70.43	70.82
InceptionV3	73.21	73.88	72.65	72.94
InceptionResNetV2	74.95	75.41	73.88	74.11
VGG16	70.42	70.11	69.87	69.35
ResNet101	71.76	71.94	70.68	71.28
Xception	73.48	73.92	72.75	73.02

Bảng 4. So sánh hiệu suất của các mô hình đơn lẻ sau khi được huấn luyện và đánh giá trên bộ dữ liệu được gộp.

Multi-Source Training

Ý tưởng. Trong chiến lược này, nhiều bộ dữ liệu được gộp chung để huấn luyện, đảm bảo mô hình tiếp xúc với phân phối phong phú và đa dạng. Quá trình đánh giá sau đó được thực hiện riêng biệt trên từng bộ dữ liệu, cho phép phân tích hiệu suất trong từng ngữ cảnh cụ thể.
Ưu điểm. Giúp mô hình tiếp xúc với phân phối dữ liệu đa dạng, tăng khả năng khái quát hóa, cho phép nhìn thấy được hiệu suất riêng biệt của từng nguồn dữ liệu.
Hạn chế. Có thể bị bias nếu một bộ dữ liệu từ một nguồn vượt trội hơn (ví dụ bộ Hircervix và BVA).

Đánh giá. Toàn bộ dữ liệu train của 5 bộ dữ liệu được gộp lại để huấn luyện, quá trình dánh giá các mô hình sẽ sử dụng tập test của từng bộ dữ liệu gốc.

Nhóm Inception (V3, ResNetV2) vẫn ổn định và vượt trội hơn.
MobileNetV2, Xception cho kết quả trung bình nhưng khá đồng đều trên các bộ dữ liệu.
VGG16, ResNet101 consistently thấp hơn, đặc biệt trên HiCervix.

Kết quả phản ánh rằng huấn luyện đa nguồn giúp duy trì hiệu suất tương đối khá trên các tập test khác nhau, dù vẫn có chênh lệch theo từng phân phối dữ liệu.

Model	Hospital A	Herlev	LBC	HiCervix	SIPakMed
MobileNetV2	70.42	62.18	59.87	58.41	61.22
InceptionV3	74.63	66.32	63.95	61.72	65.48
InceptionResNetV2	73.58	68.77	66.42	63.18	67.23
VGG16	67.11	59.24	57.13	54.62	58.04
ResNet101	64.88	57.86	55.42	53.01	56.27
Xception	69.14	63.02	60.71	64.02	68.11

Bảng 5. . Kết quả F1-Score (%) của các mô hình theo từng bộ dữ liệu (được đánh giá trên tập test).