"Over-fitting" và ý nghĩa thực tế trong đời sống

Không nói ra thì ai cũng biết chuyện hôn nhân là chuyện hệ trọng. Vì tính hệ trọng của nó nên đòi hỏi người ta phải suy nghĩ cẩn thận. Nhưng một vấn đề  trong thống kê học và machine learning có tên là "over-fitting" (1) khuyên bạn không nên suy nghĩ nhiều quá. Trong cuốn sách "Algorithms to live by" tác giả bàn về ý nghĩa của over-fitting trong việc chọn người bạn đời, thói thần tượng hoá, kĩ nghệ luyện gà đá, tiến hoá và thực phẩm, và ở đây tôi tóm lược vài ý chính như là một giải trí cuối năm cho các bạn.


"Đại số đạo đức"

Nhà tiến hoá học Charles Darwin là một người rất cẩn thận. Trước khi đi đến quyết định thành hôn, ông ngồi xuống suy tính và cân nhắc lợi và hại của hôn nhân, và những suy nghĩ này được viết xuống trong cuốn nhật kí năm 1838. Ông liệt kê những lợi ích của hôn nhân như có người đồng hành trong đời, có người chit-chat như nghe nhạc, và có người chăm sóc khi về già. Nhưng ông cũng nghĩ đến những điều bất lợi của hôn nhân như mất thì giờ ghê gớm, mất tự do đi đây đó mà ông muốn, thêm lo lắng bởi con cái, và có ít tiền hơn để ... mua sách (Hình 1). Tất cả chỉ giới hạn trong 1 trang giấy.

Hình 1: Nhật kí của Charles Darwin cân nhắc lợi và hại của hôn nhân 

Cuối cùng, ông quyết định thành hôn, và ông viết xuống kết luận này bằng kí hiệu QED mà có lẽ nhiều người trong chúng ta đều biết. Ông thành hôn với người em họ là Emma Wedgwood vào ngày 29/1/1839. Hai người có đến 10 người con. Có thể nói là một cuộc hôn nhân thành công.

Những suy nghĩ và cân nhắc của Darwin có thể xem là một sự tính toán. Benjamin Franklin gọi những "tính toán" định tính là "Moral Algebra" -- đại số đạo đức. Nhiều người trong chúng ta có lẽ nghĩ rằng những quyết định quan trọng trong đời cần phải dựa vào đại số đạo đức càng nhiều càng tốt. Thoạt đầu mới nghe qua thì cũng có lí, vì đúng là suy nghĩ càng nhiều, chúng ta càng có nhiều lựa chọn và từ đó đi đến quyết định tối ưu. Nhưng trong thực tế thì không hẳn như thế: suy nghĩ nhiều chưa chắc đã tốt.

Over-fitting là gì?

Để hiểu vấn đề này, chúng ta có thể xem việc cân nhắc của Darwin như là một cách mô hình dữ liệu. Mô hình dữ liệu có nghĩa là tìm phương trình để mô tả các mối tương quan dựa trên dữ liệu thực tế, mà tiếng Anh gọi là "model fitting". Có nhiều mô hình có thể sử dụng để mô tả một mối liên quan. Vấn đề là làm sao tìm mô hình tốt nhất. Nếu mối liên quan cần 2 tham số, mà mô hình dùng 1 tham số thì được gọi là under-fitting; nhưng nếu mô hình dùng đến 5 tham số thì sẽ xảy ra tình trạng over-fitting. Tương tự, suy nghĩ nhiều quá sẽ dẫn đến over-fitting, hay nói theo ngôn ngữ dân gian là "tẩu hoả nhập ma."

Có thể minh hoạ cho vấn đề over-fitting qua một ví dụ về mối tương quan giữa mức độ hài lòng trong cuộc sống và thời gian 10 năm sau thành hôn. Các nhà nghiên cứu tâm lí học thực hiện một nghiên cứu trên một số cặp vợ chồng và hỏi họ về sự hài lòng trong đời sống sau khi thành hôn (1), và biểu đồ dưới đây (Hình 2) trình bày mối tương quan đó. Nhưng có thể thấy, nhìn chung thì mức độ hài lòng suy giảm theo thời gian, nhưng mối liên quan với thời gian không hẳn tuân theo phương trình đường thẳng. Trong 3 năm đầu, mức độ suy giảm khá nhanh, nhưng sau đó tăng trong năm thứ 4 và 5; sau 5 năm thành hôn thì mức độ hài lòng lại suy giảm nữa.

Hình 2: mối liên quan giữa mức độ hài lòng trong cuộc sống và thời gian sau thành hôn  

Vấn đề của chúng ta là tìm một phương trình (hay mô hình) tốt nhất để mô tả mối liên quan đó. Gọi mức độ hài lòng là y, và thời gian sau thành hôn là t, mô hình đơn giản nhất là hồi qui tuyến tính đơn giản (tức chỉ có 1 tham số) dưới dạng y = a + b*t (trong đó a là điểm khởi đầu, và b là tham số liên quan đến t). Mô hình này mô tả khá tốt mối liên quan (xem Hình 3, đường đứt đoạn). Mô hình này giải thích được 90% sự khác biệt của dữ liệu.

Hình 3mối liên quan giữa mức độ hài lòng trong cuộc sống và thời gian sau thành hôn được mô tả qua 3 mô hình: tuyến tính (one-factor model); đa thức bậc 2 (two-factor model); và mô hình đa thức bậc 9. 

Nhưng vì trong thực tế mức độ hài lòng tăng vào năm thứ 4-5 và giảm sau đó, nên có lẽ mô hình tốt hơn là mô hình đa thức bậc hai, hay nói trắng ra là phương trình bậc hai: y = a + b*t + c*t^2 (trong đó t^2 là t bình phương và c là tham số mới liên quan đến t^2). Mô hình 2 tham số này (đường đứt đoạn dài) quả thật tốt hơn mô hình tuyến tính 1 tham số. Nhưng mô hình 2 tham số này giải thích được 93% phương sai của y, tức là vẫn còn 7% chưa giải thích được.

Nhưng chúng ta thử "thừa thắng xông lên" tìm mô hình giải thích 100% phương sai của y xem sao. Với máy tính và chương trình R, chỉ cần 2 phút là chúng ta đã có mô hình 9 tham số có thể giải thích gần 100% phương sai của y. Mô hình này thật là tốt, tốt nhất so với hai mô hình đơn giản kia.

Nhưng chúng ta đừng quên rằng một mục đích khác của mô hình hoá dữ liệu là tiên lượng -- tiên lượng tương lai. Tương lai là cái mà chúng ta chưa quan sát được. Câu hỏi là 3 mô hình trên (1 tham số, 2 tham số, và 9 tham số) thì mô hình nào dự báo tốt nhất cho năm 11, 12, v.v.  Không ngạc nhiên khi mô hình 1 tham số tiên lượng mức độ hài lòng tiếp tục giảm trong năm 11, còn mô hình 2 tham số cũng tiên lượng giảm nhưng giảm một chút thôi.  Nhưng điều kì lạ là mô hình 9 tham số tiên lượng rằng năm thứ 11 sau thành hôn thì mức độ hài lòng giảm như là xe hơi lao dốc xuống núi! Đành rằng mức độ hài lòng có thể suy giảm, nhưng không thể nào giảm đột ngột như mô hình 9 tham số dự báo như thế. Có cái gì nghịch lí ở đây: mô hình giải thích nhiều dữ liệu nhất lại là mô hình tiên lượng tồi nhất!

Thật ra, "hiện tượng" mà mô hình giải thích mối tương quan tốt nhất nhưng tiên lượng tồi nhất không phải là mới, vì nó đã được các nhà khoa học thống kê học phát hiện từ xưa (thời Mosteller) và đặt tên là over-fitting. Đối nghịch với over-fitting là under-fitting. Mô hình hồi qui tuyến tính 1 tham số được xem là under-fitting. Mô hình 9 tham số được gọi là over-fitting. Có lẽ mô hình đa thức bậc 2 là tối ưu nhất. Tôi nói "có lẽ" là vì chúng ta chưa làm xét nghiệm để xác định mô hình nào là tối ưu; chúng ta mới dùng cảm quan và trực giác mà thôi.

"Mặc áo" cho dữ liệu

Như vậy, over-fitting xảy ra khi mô hình có nhiều tham số hơn cần thiết. Tình trạng này cũng giống y chang việc chọn quần áo. Nếu quần áo quá chật hay quá rộng đều tạo ấn tượng không tốt, mà còn bất tiện. Nhưng chọn quần áo vừa thân hình một cá nhân, ngoài sở thích cá nhân, còn là một nghệ thuật. Do đó, việc mô hình dữ liệu khoa học cũng có thể ví von như là mặc áo cho dữ liệu.

Với cách ví von đó, tôi nghĩ có thể xem nhà thống kê học như là người thợ may. Người thợ may, trước khi tiến hành cắt vải, phải đo lường cẩn thận (hay nói theo ngôn ngữ nhà nghề là lấy ni, tấc) để có thể cắt vải đúng kích thước. Nhà thống kê học cũng như thế: trước khi chọn mô hình cho dữ liệu, họ phải xem xét phân bố của dữ liệu, đơn vị đo lường, chuẩn hoá dữ liệu (standardization), và đánh giá các mối liên quan, trước khi chọn mô hình thích hợp. Các thông số của bộ quần áo chính là tham số của mô hình thống kê. Cái software để ước tính tham số chính là cái máy may. 

Nhưng người thợ may có kinh nghiệm còn phải xem xét đến khía cạnh thẩm mĩ, họ phải nhìn người khách hàng, cân nhắc giữa sắc diện và cấu trúc thân thể, để đi đến màu sắc của vải, chọn chất liệu, để sau cùng có một bộ đồ không chỉ vừa vặn mà còn thanh nhã. Tương tự, nhà thống kê học có kinh nghiệm còn phải quan tâm đến cách trình bày dữ liệu một cách đẹp đẽ và trang nhã qua thiết kế biểu đồ. Biểu đồ phải có phẩm chất tốt, có màu sắc và font chữ ai cũng đọc được (chứ không phải loại biểu đồ Excel). Nhà thống kê học còn phải quan tâm đến ý nghĩa của kết quả phân tích (chứ không chỉ cho ra những kết quả vô nghĩa). Cái khác biệt giữa một nhà khoa học và một kĩ thuật viên là ở chỗ này: nhà khoa học phải hiểu biết ý nghĩa của kết quả phân tích, còn kĩ thuật viên thì chỉ quan tâm đến sự chính xác và mẹo tính toán nhanh hơn. (Ở đây, không nói ai quan trọng hơn ai, vì cả hai đều quan trọng). 


Ý nghĩa cuộc sống của over-fitting

Tình trạng này cũng giống như suy nghĩ nhiều quá có thể giúp chúng ta giải thích được những gì mình quan sát trong quá khứ (và hiện tại), nhưng nó không hẳn giúp ích chúng ta trong quyết định cho tương lai mà có thể làm cho tình hình rối lên. Nhưng under-fitting thì lại bỏ sót và tiên lượng kém chính xác. Thành ra, nghệ thuật của mô hình hoá các mối liên quan là tìm một mô hình không có quá nhiều tham số mà cũng không có quá ít tham số. Nghệ thuật này cũng là nghệ thuật sống: tìm cách sống trung dung.

Đọc đến đây có lẽ các bạn "có tuổi" cỡ thế hệ thôi nghĩ ngay đến thuyết "Trung dung" của Tử Tư. Trong sách "Trung dung", Tử Tư khuyên người quân tửnên giữ cách sống trung hòa, không thái quá. Do đó, tôi nghĩ mô hình tốt nhất trong khoa học cũng giống như mẫu người "quân tử" của Tử Tư vậy. Người quân tử hành xử giữ thế trung bình giữa hai thái cực, thì mô hình tốt cũng chính là mô hình nằm giữa hai thái cực qua đơn giản và quá phức tạp.

Over-fitting có ý nghĩa trong vấn đề sùng bái thần tượng mà tiếng Anh họ gọi là idolatry. Vào thời xa xưa, người ta sùng bái thần thánh và nặn tượng cho họ. Dù chỉ là đất sét thôi, nhưng dân chúng ai cũng vái lạy vì người ta nghĩ các tượng đất sét này là biểu tượng của thần linh. Trong các thể chế toàn trị như Cuba và Romania, chúng ta hay thấy nạn sùng bái thần tượng, mà theo đó người dân được dạy và buộc phải xem họ như là thần thánh, là cha mẹ dân tộc.  Sùng bái thần tượng giúp cho người ta cảm thấy thoải mái vì có cảm hứng và có người để cầu cạnh (và cầu nguyện) nhưng nó làm người ta quên đi hiện tình. Sự sùng bái thần tượng là một hình thức của over-fitting trong đời sống tâm linh. Over-fitting cũng giống như là một hình thức thần tượng hoá dữ liệu (dân trong nghề gọi là "data idolatry"), và đó cũng là hệ quả của việc tập trung thái quá vào những gì chúng ta có thể đo lường được, nhưng thiếu tập trung vào vấn đề.

Tình trạng over-fitting còn có thể giải thích tại sao những thực phẩm ngon miệng [nói chung] lại có hại cho sức khoẻ. Những chất dinh dưỡng cơ bản như đường, muối, mỡ đều rất cần thiết cho sự tiến hoá của nhân loại qua hàng triệu năm, nhưng ngày nay lại có tác hại đến sức khoẻ con người. Ăn nhiều muối có thể làm tăng huyết áp, và dẫn đến mấy bệnh tim mạch nguy hiểm. Ăn nhiều mỡ và đường thì khói nói ai cũng biết là có hại cho sức khoẻ. Ngày xưa, khi thực phẩm khan hiếm, thì những chất dinh dưỡng đó là những "luxury" của cuộc sống, và chúng là biểu tượng của cách ăn uống lành mạnh. Nhưng khi công nghệ chế biến hoàn thiện thì các chất dinh dưỡng đó trở nên thừa thải và con người tiêu thụ như không có ngày mai -- một hiện tượng tiêu thụ thái quá. Thế là từ những "good guys", các chất dinh dưỡng đó và nhiều thực phẩm khác được xem là "bad guys" trong cuộc sống hiện đại.

Over-fitting cũng có thể giải thích tại sao VN đứng hạng cao trong PISA hay các kì thi Olympic, mà hệ thống giáo dục bị chính người trong nước đánh giá thấp. Ở Việt Nam không chỉ có kĩ nghệ dạy và học thêm (ngoài giờ), mà còn có hẳn những chương trình luyện thi để chiếm các giải thưởng quốc tế.  Đó là những chương trình dạy và học tủ để chuẩn bị cho những kì thi có cấu trúc cố định. Chiến lược tập trung vào một nhóm nhỏ và một số môn học giúp cho Việt Nam có nhiều giải thưởng quốc tế, nhưng đứng trên bình diện quần thể thì đa số học sinh không hưởng lợi gì đáng kể từ những kĩ nghệ đó. Chiến lược luyện gà chọi cũng giống như tập trung tìm một mô hình nhằm giải thích các mối liên quan phức tạp trong một môi trường có kiểm soát, nhưng khi ứng dụng mô hình cho tương lai hay cho một quần thể lớn thì mô hình đó hoàn toàn thất bại. Đó chính là sự thất bại của  ứng dụng một mô hình over-fitting cho một quần thể độc lập. Tình trạng over-fitting cũng giải thích tại sao việc nhồi nhét kiến thức cho học sinh, sinh viên không hẳn là tốt cho tương lai của họ, và giải thích tại sao sinh viên VN có thể học tốt ở bậc thấp, nhưng càng lên cao thì sinh viên VN càng kém.

Các bạn có thể nghĩ thêm về ý nghĩa của over-fitting trong các khía cạnh đời sống chính trị - xã hội khác, kể cả trong quyết định hôn nhân. Hôn nhân, nói cho cùng là một thí nghiệm tình cảm xã hội. Cái khó của thí nghiệm này là có quá nhiều thông tin mà chúng ta chưa có phương tiện để đo chính xác, và có khá nhiều nhiễu. (Chẳng hạn như làm sao chúng ta đo lường chính xác được sự hài lòng của "đối tượng". Trong cuộc cạnh tranh tình cảm thì có khá nhiều yếu tố nhiễu làm chúng ta mất tập trung.) Trong điều kiện nhiễu thông tin và thiếu chính xác, mô hình rất dễ trở nên over-fitting.  Nói cách khác, chúng ta không nên suy nghĩ nhiều quá trước quyết định hôn nhân.

Nếu không suy nghĩ nhiều quá thì suy nghĩ ít? Không phải. Một cách khắc phục tình trạng over-fitting là suy nghĩ có kiểm soát, có định hướng. Nói theo ngôn ngữ thống kê học là mô hình cần phải có yếu tố để kiểm soát các tham số, không có chúng quá lạc quan, và mô hình đó có tên chung là " regularized model" (2). Nhưng có lẽ giải pháp thực tế hơn là suy nghĩ theo mô thức có tên phức tạp là "heuristics", có thể hiểu là "xấp xỉ". Nhà tâm lí học Daniel Kahneman gọi đó là "suy nghĩ nhanh" mà tôi có lần điểm sách "Thinking, fast and slow". Trong tình huống phức tạp, đa yếu tố, phương pháp suy nghĩ nhanh, ngạc nhiên thay, có hiệu quả diệu kì. Lí thuyết này (heuristics) đã từng đem lại giải Nobel cho nhà kinh tế Harry Markowitz năm 1990. Markowitz cho biết khi đối đầu với tình huống quá phức tạp, ông tìm cách suy nghĩ xấp xỉ heuristics.

Quay lại vấn đề quyết định hôn nhân, bài học từ "over-fitting" là đừng suy nghĩ nhiều quá, mà suy nghĩ trung dung thôi. Suy nghĩ trung dung là dùng ít thông tin hơn nhưng và thông tin có chất lượng cao (gọi là substantial data) nhưng vẫn đạt được độ chính xác tốt.  Trường hợp của Darwin mà tôi đề cập trong phần đầu minh chứng cho điều này. Cái yếu tố quan trọng nhất trong phân tích của Darwin là ông thấy trước một viễn ảnh chỉ làm việc, làm việc, và làm việc mà không có con cái hay "người đồng hành" chia ngọt xẻ bùi, còn yếu tố có ít tiền hơn để mua sách chỉ là yếu tố nhiễu mà thôi.

Ngoài ra, việc giới hạn những cân nhắc trong 1 trang giấy có nghĩa là Darwin cũng áp dụng nguyên tắc kiểm soát (mà ông có thể không biết) trước khi đi đến quyết định sau cùng, và quyết định đó hoá ra rất tốt. Xin nhắc lại bài học quan trọng là: khi đứng trước một tình huống phức tạp với nhiều thông tin, đặc biệt là thông tin nhiễu, suy nghĩ ít theo hướng tiết kiệm là phương án tốt nhất.

====

(1) Vấn đề over-fitting sẽ được bàn trong workshop sắp tới về machine learning ở ĐH TĐT. Chúng ta sẽ bàn về ý nghĩa của over-fitting trong các mô hình phổ biến trong khoa học với vài ví dụ thú vị.

(2) Nhưng đây là chủ đề khác mà chúng tôi sẽ bàn trong khoá học Machine Learning vào tháng 1 tới đây.



Không có nhận xét nào:

Đăng nhận xét

Dịch vụ SEO