Một kì thi tốt nghiệp THPT quốc gia nữa lại trôi qua. Nối tiếp bài viết phân tích điểm thi đại học năm 2020, đến hẹn lại lên, năm nay mình tiếp tục phân tích điểm thi năm 2021 với một số sự so sánh so với năm trước kèm theo một số insight thú vị khác, dĩ nhiên là không thể thiếu phần so sánh năng lực học tập thể hiện bằng kết quả kì thi giữa các tỉnh, vùng miền với nhau.

I. So sánh phổ điểm giữa năm 2021 và năm 2020

Biểu đồ Histogram điểm Toán giữa năm 2020 và 2021
Biểu đồ Histogram điểm Toán giữa năm 2020 và 2021
Điểm yếu vị (mode - giá trị xuất hiện nhiều nhất) của cả 2 năm đều giống nhau là 7,8. Tuy nhiên mật độ phân bố điểm cho các câu dễ và vừa năm nay lại lớn hơn nhiều so với năm trước, đặc biệt là ở xung quanh điểm yếu vị. Nhưng tiếp theo đó, biểu đồ năm 2021 có một cú đổ dốc cực mạnh thể hiện mật độ phân bố điểm cho các câu khó nhỏ hơn năm 2020.
Điều này có thể chỉ ra rằng tính phân loại thí sinh của đề Toán năm nay không được tốt, khi mà độ khó của các câu hỏi chỉ nằm ở hai thái cực: cực dễ và cực khó.
Biểu đồ Histogram điểm Văn giữa năm 2020 và 2021
Biểu đồ Histogram điểm Văn giữa năm 2020 và 2021
Biểu đồ Histogram điểm Văn giữa 2 năm không có nhiều sự khác biệt, và đều có đường cong khá chuẩn.
Biểu đồ Histogram điểm tiếng Anh giữa năm 2020 và 2021
Biểu đồ Histogram điểm tiếng Anh giữa năm 2020 và 2021
Đây là hình ảnh tốn nhiều giấy mực của báo chí trong kì thi tốt nghiệp THPT năm nay, khi mà biểu đồ có đến tận 2 đỉnh (một đỉnh cho nhóm học sinh kém ở 4 điểm và đỉnh còn lại cho nhóm học sinh giỏi ở 9 điểm). Ở đây có sự chênh lệch vùng miền rất lớn về chất lượng dạy và học ngoại ngữ, tại những vùng thành phố hoặc vùng kinh tế phát triển, môn tiếng Anh được đầu tư tốt hơn. Tuy nhiên, biểu đồ Histogram năm ngoái (và cả những năm trước nữa) có hình dạng phân bố rất bình thường. Giáo dục không thể chỉ trong 1 năm mà có thể thay đổi chất lượng dạy và học như vậy, nhất là trong năm qua bị ảnh hưởng bởi dịch COVID-19.
“Đề thi quốc gia mang tính chuẩn hoá thì phải phân bố đảm bảo tính ngẫu nhiên, đảm bảo độ công bằng. Ma trận bố trí câu hỏi từ dễ nâng dần đến khó chứ không thể rất dễ xong sang ngay rất khó, khó hẳn. Chính nguyên nhân này dẫn đến phổ điểm có 2 cực như vậy” - TS Hoàng Ngọc Vinh - thành viên nhóm tư vấn Ủy ban quốc gia về đổi mới GDĐT
Và cũng chính TS Hoàng Ngọc Vinh nhận xét rằng:
“Đề ra như vậy không đảm bảo công bằng trong tuyển sinh bởi đề không được chuẩn hoá. Đề chuẩn hoá phân bố theo hình chuông để biết được cùng với chương trình giáo dục quốc gia như vậy tại sao có vùng điểm trung bình thấp, vùng lại cao để từ đó có cách đầu tư, thiếu cơ sở vật chất hay đội ngũ giáo viên để làm chính sách giáo dục. Khi đó, kỳ thi quốc gia mới có ý nghĩa.
Tất nhiên năm nào cũng thế, cho dù phổ điểm có tròn hay méo thì bài ca "một kì thi thành công", "phản ánh khách quan kết quả học tập của thí sinh", "đề thi có tính phân loại tốt" vẫn luôn được vang lên trên mọi phương tiện truyền thông đại chúng :))

II. Phân tích toàn cảnh học lực và điểm thi

Phần này mình sẽ sử dụng 3 metrics là điểm thi trung bình toàn tỉnh, tỷ lệ học sinh giỏi (được điểm 9 trở lên), và phương sai của phổ điểm (dùng để đo mức độ phân tán thống kê của điểm thi, phương sai cao đồng nghĩa với sự bất bình đẳng giáo dục, nhiều thí sinh điểm cao học giỏi nhưng cũng có nhiều thí sinh điểm thấp học kém). Một biểu đồ sẽ gồm 3 bản đồ, theo thứ tự như trên từ trái qua phải và chỉ hiển thị top 15 tỉnh. Đầu tiên hãy đến với môn Toán
Biểu đồ môn Toán theo thứ tự từ trái sang phải: điểm thi TB, tỷ lệ HSG và phương sai
Biểu đồ môn Toán theo thứ tự từ trái sang phải: điểm thi TB, tỷ lệ HSG và phương sai
Ta có thể thấy một xu hướng rất rõ rệt đó là những tỉnh có điểm TB môn toán cao nhất đều co cụm ở 2 trung tâm đất nước là Hà Nội và TP HCM, miền Trung đóng góp 1 đại diện duy nhất là thành phố cảng Đà Nẵng, chứng tỏ vị trí địa lý là nhân tố quan trọng quyết định học vấn, hay thậm chí là sự giàu mạnh của cả một vùng miền. Nhưng khi xét đến tỷ lệ số học sinh giỏi thì miền Bắc và miền Trung hoàn toàn áp đảo, miền Nam thậm chí không có một địa phương nào góp mặt trong top (năm 2020 có duy nhất TP.HCM). Và sau khi xét cả bản đồ cuối cùng về phương sai thì chúng ta có thể rút ra được một số insight sau:
_ Miền Nam học Toán đều hơn miền Bắc, không có hiện tượng bất bình đẳng môn Toán ở miền Nam (giống năm 2020).
_ Miền Bắc vùng xung quanh Hà Nội học Toán rất giỏi, đặc biệt là Nam Định dẫn đầu cả điểm trung bình lẫn tỷ lệ học sinh giỏi, mà lại không hề có sự bất bình đẳng ở đây (cứ 2 học sinh thi Toán ở Nam Định lại có 1 học sinh được 8 điểm trở lên). Lại thêm 1 năm nữa Nam Định đẫn đầu điểm thi môn Toán trên toàn quốc.
_ Thanh Hóa tiếp tục thể hiện sự bất bình đẳng giáo dục khi 2 năm liên tiếp đứng top 1 trong BXH phương sai của phổ điểm môn Toán.
Biểu đồ môn Văn theo thứ tự từ trái sang phải: điểm thi TB, tỷ lệ HSG và phương sai
Biểu đồ môn Văn theo thứ tự từ trái sang phải: điểm thi TB, tỷ lệ HSG và phương sai
Qua 3 bản đồ của môn văn thì ta có thể rút ra những insight sau:
_ Miền Nam không còn thống trị về điểm môn Văn như năm 2020 nữa, và tỉnh An Giang năm nay đã nhường lại ngôi vua cho tỉnh Hà Nam, 2 tỉnh này đều có những kết quả về môn văn rất tốt trong nhiều năm liền. Đặc biệt, năm nay có sự trỗi dậy của 3 tỉnh miền Trung Thanh-Nghệ-Tĩnh ở cả hạng mục điểm trung bình lẫn tỉ lệ học sinh giỏi.
_ Đối với miền Nam, vẫn như năm 2020, chúng ta thấy rất ít sự bất bình đẳng về điểm môn Văn lẫn môn Toán, chứng tỏ lực học rất đều chứ không bị lệnh nhiều như miền Bắc.
Biểu đồ môn tiếng Anh theo thứ tự từ trái sang phải: điểm thi TB, tỷ lệ HSG và phương sai
Biểu đồ môn tiếng Anh theo thứ tự từ trái sang phải: điểm thi TB, tỷ lệ HSG và phương sai
Biểu đồ về điểm thi môn tiếng Anh cho ta thấy:
_ Miền Nam lại một năm nữa vượt trội trong môn tiếng Anh nếu xét về điểm trung bình khi so với miền Bắc.
_ Các tỉnh giỏi tiếng Anh chủ yếu nằm xung quanh các trung tâm TP lớn và những địa điểm du lịch nổi tiếng có nhiều người nước ngoài.
_ Lại một môn nữa thể hiện sự đồng đều trong lực học của các tỉnh miền Nam (dựa vào bản đồ phương sai).
_ TP.HCM tiếp tục dẫn đầu nước với một phổ điểm kinh dị, hình dáng phân bố điểm tiếng Anh của các tỉnh nằm top gần như chỉ có một đỉnh nằm ở 9 điểm thay vì 2 đỉnh như hầu hết các tỉnh thành khác.
Biểu đồ Histogram điểm tiếng Anh của TP.HCM
Biểu đồ Histogram điểm tiếng Anh của TP.HCM

Tổng kết lại:

_ Các tỉnh học giỏi thường co cụm xung quanh các TP lớn, cụ thể là thủ đô Hà Nội và TP HCM. Có thể thấy tình trạng bất bình đẳng giáo dục thể hiện rất rõ ràng ở miền Bắc, và ngược lại đối với miền Nam.
_ Nằm trong top điểm TB và tỷ lệ HSG của cả 3 môn và không hề có sự bất bình đẳng nào, chưa kể top 1 môn Toán với điểm số vượt xa phần còn lại, hoàn toàn chính xác khi gọi Nam Định là "đất học".
_ Hầu hết các phân tích ở trên đều tương đồng với năm 2020. Có thể có những đặc điểm cố hữu về giáo dục, học vấn của các tỉnh, vùng miền gây ra bởi tính chất địa lý hoặc các sự kiện lớn trong lịch sử. Sở GD&ĐT các tỉnh thành có thể dựa vào đây để đề ra những chính sách nhằm cải thiện năng lực học vấn, giúp cho quê hương mình ngày một văn minh, giàu đẹp.
Một ví dụ cho luận điểm trên là các tỉnh miền Trung với sự coi trọng các môn Toán Lý Hóa mà bỏ qua tiếng Anh trong hàng năm trời. Nhưng vào năm vừa rồi, một số lãnh đạo sở GD&ĐT tỉnh Nghệ An đã xét thêm tiêu chí điểm IELTS trong các đợt thi tuyển vào cấp 2, cấp 3, các trường chuyên nhằm đẩy mạnh phong trào học tập tiếng Anh. Đó là chưa đề cập đến bậc đại học khi mà các trường top đầu đều đưa điểm IELTS vào một trong những tiêu chí để xét tuyển. Đây đều là những chính sách giúp thúc đẩy trình độ tiếng Anh của thế hệ trẻ Việt Nam lên một cách đáng kể.

III. Phân tích thêm về môn Lịch sử

Môn này khá là đặc biệt, bởi vì năm nào nó cũng đội sổ về điểm thi, học sinh ai cũng ghét nó, thế nên mình quyết định phân tích thêm về môn này để xem có insight gì thú vị không.
Biểu đồ môn Lịch sử theo thứ tự từ trái sang phải: điểm thi TB, tỷ lệ HSG và phương sai
Biểu đồ môn Lịch sử theo thứ tự từ trái sang phải: điểm thi TB, tỷ lệ HSG và phương sai
_ Bản đồ điểm trung bình phân bổ khá rải rác.
_ Bản đồ tỉ lệ học sinh giỏi và phương sai thì không hề có sự xuất hiện của một tỉnh miền Nam nào, dù vẫn góp một nửa trong top điểm trung bình. Lại một lần nữa miền Nam cho thấy sự đồng đều trong lực học một cách đáng kinh ngạc.
_ Kể cả là môn Lịch sử thì Nam Định vẫn nằm top cả điểm TB lẫn tỷ lệ HSG.

IV. Mối quan hệ tương quan giữa điểm các môn thi và GDP bình quân đầu người

Hệ số tương quan giữa điểm thi và GRDP bình quân đầu người của các tỉnh
Hệ số tương quan giữa điểm thi và GRDP bình quân đầu người của các tỉnh
GDP là chỉ tiêu dùng cho phạm vi quốc gia, chính xác hơn thì phải là GRDP (dùng cho phạm vi tỉnh thành), nhưng về bản chất 2 chỉ tiêu này là một, chỉ khác nhau về phạm vi tính toán, cho nên mình dùng từ GDP để bạn đọc không bị cảm giác lạ lẫm khó hiểu. Và số liệu GDP là của năm 2018 do mình không thể tìm thấy số liệu thống kê mới hơn. Mặc dù điểm thi của năm 2021 và GDP là của năm 2018 nhưng xếp hạng về cả 2 tiêu chí trên đều không có nhiều sự xáo trộn trong 3 năm qua, nên mình sẽ thử tính sự tương quan giữa điểm thi đại học của các môn và GDP bình quân đầu người.
Như chúng ta có thể thấy ở hình bên, điểm môn tiếng Anh có sự tương quan cao nhất với GDP bình quân đầu người, đặc biệt là tỷ lệ học sinh giỏi tiếng Anh khi hệ số tương quan lên đến gần 0.8, thể hiện sự tương quan rất mạnh. Môn Toán có hệ số tương quan ở mức trung bình. Thú vị nhất là sự tương quan âm giữa tỷ lệ học sinh giỏi của môn Sử và GDCD với GDP bình quân đầu người (nghĩa là tỷ lệ học sinh giỏi môn sử và GDCD càng cao thì tỉnh càng nghèo, tất nhiên đây là mối quan hệ tương quan chứ không phải nhân quả). Mặc dù là mối tương quan yếu (-0.3 với môn Sử và -0.22 với môn GDCD), nhưng đây cũng là điều đáng để suy nghĩ (có thể do gian lận thi cử hoặc phong cách học đều cả môn chính lẫn môn phụ ở các tỉnh nghèo, hay chỉ đơn giản là sự ngẫu nhiên).

V. Kết bài

Trên đây là bài phân tích của mình về điểm thi tốt nghiệp THPT năm 2021. Mong rằng sau bài viết này, các bạn có thể thấy được sự thú vị của Data Science, đặc biệt là ở mảng Data Analytic. Với những bạn muốn tham khảo cách mình xử lí data thì mình có để link Github (kèm với dữ liệu) ở phía dưới:
Sắp tới mình sẽ viết thêm nhiều bài viết về khoa học dữ liệu, phân tích insight từ các bộ dữ liệu hay, và cả những chủ đề thú vị khác nữa. Nếu không muốn bỏ lỡ thì hãy follow mình nhé :))