Phân tích một cách đơn giản nhất TOÀN BỘ dữ liệu thi THPT 2018 (khoảng gần 1 triệu thí sinh với hơn 5 triệu bài thi) để định dạng các địa phương là "nghi phạm" gian lận với các giả thiết sau đây: mục tiêu gian lận là nâng điểm phục vụ cho việc thi đại học (không tính mục tiêu khác), và nâng cho khá nhiều thí sinh (khoảng 1% trở lên - Hà Giang đang là 2%).
Với các giả thiết trên, việc gian lận thi cử với số lượng đủ lớn sẽ làm giảm số bài thi điểm thấp và tăng số bài thi điểm cao, dẫn đến tỷ lệ bài thi điểm cao tăng lên đáng kể.
Chưa cần đến các công cụ phân tích dữ liệu, chưa cần đến ngôn ngữ R. Tạm dùng Excel đã.
Chúng ta sẽ phân tích tỷ lệ bài thi điểm cao cho 3 khối thi chỉ gồm các môn thi trắc nghiệm là thi A, A1 và B. Sẽ chia làm 3 mức điểm cao là 24, 25.5 và 27 ứng với điểm trung bình mỗi môn là 8, 8.5 và 9. Chúng ta không gọi 7 là cao, vì điểm 7 trắc nghiệm mới chỉ tương đương với điểm 6 tự luận (làm được 6 điểm, chọn hú họa trong 4 điểm được 1 điểm nữa, cộng là 7).
Trước hết cho khối A. Trên 3 đồ thị (xem hình 1, hình 2, hình 3) là biểu diễn tỷ lệ thí sinh đạt 24, 25.5 và 27 trở lên, cho toàn quốc và cho 63 tỉnh thành (tính mệt phết - thỉnh thoảng đơ máy). Đường đỏ nằm ngang là mức của toàn quốc. Ngồi ngắm nghía, thấy ngay nghi phạm Hà Giang với tỷ lệ cao vọt trong cả 3 ngưỡng điểm. Một số quê hương "đất học" cũng có tỷ lệ cao hơn trung bình, có thể bỏ qua. Nhìn kỹ hơn thấy có Kon Tum và Điện Biên nhô lên - trông nghi nghi - để phân tích thêm các khối khác xem thế nào. Với đồ thị cho 27 điểm trở lên, Hòa Bình xuất hiện - cũng đưa vào danh sách nghi vấn chờ xem xét tiếp.
Chuyển sang khối A1 (xem hình 3, hình 4). Vẫn nghi can Hà Giang nổi trội. Trong các đồ thị cho khối A1, Lai Châu xuất hiện, và nổi trội lên hai 2 địa danh là Sơn La và Hòa Bình. Diễn nôm ra là Top 4 địa phương có tỷ lệ thí sinh khối A1 từ 25.5 điểm trở lên cao nhất toàn quốc theo thứ tự là Hà Giang, Lai Châu, Hòa Bình, Sơn La. Còn Top 3 tỷ lệ thí sinh 27 điểm trở lên là Hà Giang, Sơn La, Hòa Bình.
Chuyển sang khối B (hình 5, hình 6). Trong khối thi này Kon Tum và Điện Biên chiếm ngôi vô địch trong tỷ lệ thí sinh điểm cao. Đứng đầu các địa phương có tỷ lệ thí sinh khối B đạt 24 điểm trở lên là Kon Tum và Điện Biên. Đứng đầu các địa phương có tỷ lệ thí sinh 25.5 điểm trở lên là Hà Giang (lại Hà Giang), Lai Châu (lại Lai Châu), Kon Tum và Điện Biên. Và đứng đầu các địa phương có thí sinh khối B điểm 27 trở lên là Điện Biên, Hà Giang, Kon Tum, Sơn La - những cái tên quen thuộc...
Phân tích sâu hơn, phân tích điểm thi cho từng môn, phân tích các khối thi khác theo cách trên sẽ có thể rút ra thêm các minh chứng thống kê khẳng định các nghi vấn trên. Nhưng tóm lại chỉ phân tích một cách giản đơn, có thể thấy rằng:
- Hà Giang: nghi can số 1, nổi trội trong cả 3 khối A, A1, B, đã được Bộ GDĐT kiểm tra và kết luận đúng là có sai phạm.
- Sơn La: xuất hiện trong khối B, khối A1, đang được Bộ kiểm tra
- Hòa Bình: xuất hiện trong khối A, A1 - đã bắt đầu được báo chí nhắc đến.
- Lai Châu: xuất hiện trong khối A1 và khối B - cần xem xét.
- Kon Tum, Điện Biên: thấp thoáng trong khối A và thực sự nổi bật trong khối B. Cần nghiêm túc xem xét.
Cũng lưu ý là qua phân tích không thấy dấu hiệu nổi bật tại Lào Cai, Bạc Liêu như báo chí nói tới, cho nên ở đấy nếu có tiêu cực chắc chỉ là diện hẹp.
Và tất nhiên nghi vấn khi chưa có kết luận thì chỉ dừng ở nghi vấn, và vẫn có khả năng là một số địa phương giỏi đột xuất. Khi đó xin lỗi vì nghi vấn do số liệu chỉ ra như vậy, và xin chúc mừng các địa phương nổi trội.