"Over-fitting" và ý nghĩa thực tế trong đời sống

Không nói ra thì ai cũng biết chuyện hôn nhân là chuyện hệ trọng. Vì tính hệ trọng của nó nên đòi hỏi người ta phải suy nghĩ cẩn thận. Nhưng một vấn đề  trong thống kê học và machine learning có tên là "over-fitting" (1) khuyên bạn không nên suy nghĩ nhiều quá. Trong cuốn sách "Algorithms to live by" tác giả bàn về ý nghĩa của over-fitting trong việc chọn người bạn đời, thói thần tượng hoá, kĩ nghệ luyện gà đá, tiến hoá và thực phẩm, và ở đây tôi tóm lược vài ý chính như là một giải trí cuối năm cho các bạn.


"Đại số đạo đức"

Nhà tiến hoá học Charles Darwin là một người rất cẩn thận. Trước khi đi đến quyết định thành hôn, ông ngồi xuống suy tính và cân nhắc lợi và hại của hôn nhân, và những suy nghĩ này được viết xuống trong cuốn nhật kí năm 1838. Ông liệt kê những lợi ích của hôn nhân như có người đồng hành trong đời, có người chit-chat như nghe nhạc, và có người chăm sóc khi về già. Nhưng ông cũng nghĩ đến những điều bất lợi của hôn nhân như mất thì giờ ghê gớm, mất tự do đi đây đó mà ông muốn, thêm lo lắng bởi con cái, và có ít tiền hơn để ... mua sách (Hình 1). Tất cả chỉ giới hạn trong 1 trang giấy.

Hình 1: Nhật kí của Charles Darwin cân nhắc lợi và hại của hôn nhân 

Cuối cùng, ông quyết định thành hôn, và ông viết xuống kết luận này bằng kí hiệu QED mà có lẽ nhiều người trong chúng ta đều biết. Ông thành hôn với người em họ là Emma Wedgwood vào ngày 29/1/1839. Hai người có đến 10 người con. Có thể nói là một cuộc hôn nhân thành công.

Những suy nghĩ và cân nhắc của Darwin có thể xem là một sự tính toán. Benjamin Franklin gọi những "tính toán" định tính là "Moral Algebra" -- đại số đạo đức. Nhiều người trong chúng ta có lẽ nghĩ rằng những quyết định quan trọng trong đời cần phải dựa vào đại số đạo đức càng nhiều càng tốt. Thoạt đầu mới nghe qua thì cũng có lí, vì đúng là suy nghĩ càng nhiều, chúng ta càng có nhiều lựa chọn và từ đó đi đến quyết định tối ưu. Nhưng trong thực tế thì không hẳn như thế: suy nghĩ nhiều chưa chắc đã tốt.

Over-fitting là gì?

Để hiểu vấn đề này, chúng ta có thể xem việc cân nhắc của Darwin như là một cách mô hình dữ liệu. Mô hình dữ liệu có nghĩa là tìm phương trình để mô tả các mối tương quan dựa trên dữ liệu thực tế, mà tiếng Anh gọi là "model fitting". Có nhiều mô hình có thể sử dụng để mô tả một mối liên quan. Vấn đề là làm sao tìm mô hình tốt nhất. Nếu mối liên quan cần 2 tham số, mà mô hình dùng 1 tham số thì được gọi là under-fitting; nhưng nếu mô hình dùng đến 5 tham số thì sẽ xảy ra tình trạng over-fitting. Tương tự, suy nghĩ nhiều quá sẽ dẫn đến over-fitting, hay nói theo ngôn ngữ dân gian là "tẩu hoả nhập ma."

Có thể minh hoạ cho vấn đề over-fitting qua một ví dụ về mối tương quan giữa mức độ hài lòng trong cuộc sống và thời gian 10 năm sau thành hôn. Các nhà nghiên cứu tâm lí học thực hiện một nghiên cứu trên một số cặp vợ chồng và hỏi họ về sự hài lòng trong đời sống sau khi thành hôn (1), và biểu đồ dưới đây (Hình 2) trình bày mối tương quan đó. Nhưng có thể thấy, nhìn chung thì mức độ hài lòng suy giảm theo thời gian, nhưng mối liên quan với thời gian không hẳn tuân theo phương trình đường thẳng. Trong 3 năm đầu, mức độ suy giảm khá nhanh, nhưng sau đó tăng trong năm thứ 4 và 5; sau 5 năm thành hôn thì mức độ hài lòng lại suy giảm nữa.

Hình 2: mối liên quan giữa mức độ hài lòng trong cuộc sống và thời gian sau thành hôn  

Vấn đề của chúng ta là tìm một phương trình (hay mô hình) tốt nhất để mô tả mối liên quan đó. Gọi mức độ hài lòng là y, và thời gian sau thành hôn là t, mô hình đơn giản nhất là hồi qui tuyến tính đơn giản (tức chỉ có 1 tham số) dưới dạng y = a + b*t (trong đó a là điểm khởi đầu, và b là tham số liên quan đến t). Mô hình này mô tả khá tốt mối liên quan (xem Hình 3, đường đứt đoạn). Mô hình này giải thích được 90% sự khác biệt của dữ liệu.

Hình 3mối liên quan giữa mức độ hài lòng trong cuộc sống và thời gian sau thành hôn được mô tả qua 3 mô hình: tuyến tính (one-factor model); đa thức bậc 2 (two-factor model); và mô hình đa thức bậc 9. 

Nhưng vì trong thực tế mức độ hài lòng tăng vào năm thứ 4-5 và giảm sau đó, nên có lẽ mô hình tốt hơn là mô hình đa thức bậc hai, hay nói trắng ra là phương trình bậc hai: y = a + b*t + c*t^2 (trong đó t^2 là t bình phương và c là tham số mới liên quan đến t^2). Mô hình 2 tham số này (đường đứt đoạn dài) quả thật tốt hơn mô hình tuyến tính 1 tham số. Nhưng mô hình 2 tham số này giải thích được 93% phương sai của y, tức là vẫn còn 7% chưa giải thích được.

Nhưng chúng ta thử "thừa thắng xông lên" tìm mô hình giải thích 100% phương sai của y xem sao. Với máy tính và chương trình R, chỉ cần 2 phút là chúng ta đã có mô hình 9 tham số có thể giải thích gần 100% phương sai của y. Mô hình này thật là tốt, tốt nhất so với hai mô hình đơn giản kia.

Nhưng chúng ta đừng quên rằng một mục đích khác của mô hình hoá dữ liệu là tiên lượng -- tiên lượng tương lai. Tương lai là cái mà chúng ta chưa quan sát được. Câu hỏi là 3 mô hình trên (1 tham số, 2 tham số, và 9 tham số) thì mô hình nào dự báo tốt nhất cho năm 11, 12, v.v.  Không ngạc nhiên khi mô hình 1 tham số tiên lượng mức độ hài lòng tiếp tục giảm trong năm 11, còn mô hình 2 tham số cũng tiên lượng giảm nhưng giảm một chút thôi.  Nhưng điều kì lạ là mô hình 9 tham số tiên lượng rằng năm thứ 11 sau thành hôn thì mức độ hài lòng giảm như là xe hơi lao dốc xuống núi! Đành rằng mức độ hài lòng có thể suy giảm, nhưng không thể nào giảm đột ngột như mô hình 9 tham số dự báo như thế. Có cái gì nghịch lí ở đây: mô hình giải thích nhiều dữ liệu nhất lại là mô hình tiên lượng tồi nhất!

Thật ra, "hiện tượng" mà mô hình giải thích mối tương quan tốt nhất nhưng tiên lượng tồi nhất không phải là mới, vì nó đã được các nhà khoa học thống kê học phát hiện từ xưa (thời Mosteller) và đặt tên là over-fitting. Đối nghịch với over-fitting là under-fitting. Mô hình hồi qui tuyến tính 1 tham số được xem là under-fitting. Mô hình 9 tham số được gọi là over-fitting. Có lẽ mô hình đa thức bậc 2 là tối ưu nhất. Tôi nói "có lẽ" là vì chúng ta chưa làm xét nghiệm để xác định mô hình nào là tối ưu; chúng ta mới dùng cảm quan và trực giác mà thôi.

"Mặc áo" cho dữ liệu

Như vậy, over-fitting xảy ra khi mô hình có nhiều tham số hơn cần thiết. Tình trạng này cũng giống y chang việc chọn quần áo. Nếu quần áo quá chật hay quá rộng đều tạo ấn tượng không tốt, mà còn bất tiện. Nhưng chọn quần áo vừa thân hình một cá nhân, ngoài sở thích cá nhân, còn là một nghệ thuật. Do đó, việc mô hình dữ liệu khoa học cũng có thể ví von như là mặc áo cho dữ liệu.

Với cách ví von đó, tôi nghĩ có thể xem nhà thống kê học như là người thợ may. Người thợ may, trước khi tiến hành cắt vải, phải đo lường cẩn thận (hay nói theo ngôn ngữ nhà nghề là lấy ni, tấc) để có thể cắt vải đúng kích thước. Nhà thống kê học cũng như thế: trước khi chọn mô hình cho dữ liệu, họ phải xem xét phân bố của dữ liệu, đơn vị đo lường, chuẩn hoá dữ liệu (standardization), và đánh giá các mối liên quan, trước khi chọn mô hình thích hợp. Các thông số của bộ quần áo chính là tham số của mô hình thống kê. Cái software để ước tính tham số chính là cái máy may. 

Nhưng người thợ may có kinh nghiệm còn phải xem xét đến khía cạnh thẩm mĩ, họ phải nhìn người khách hàng, cân nhắc giữa sắc diện và cấu trúc thân thể, để đi đến màu sắc của vải, chọn chất liệu, để sau cùng có một bộ đồ không chỉ vừa vặn mà còn thanh nhã. Tương tự, nhà thống kê học có kinh nghiệm còn phải quan tâm đến cách trình bày dữ liệu một cách đẹp đẽ và trang nhã qua thiết kế biểu đồ. Biểu đồ phải có phẩm chất tốt, có màu sắc và font chữ ai cũng đọc được (chứ không phải loại biểu đồ Excel). Nhà thống kê học còn phải quan tâm đến ý nghĩa của kết quả phân tích (chứ không chỉ cho ra những kết quả vô nghĩa). Cái khác biệt giữa một nhà khoa học và một kĩ thuật viên là ở chỗ này: nhà khoa học phải hiểu biết ý nghĩa của kết quả phân tích, còn kĩ thuật viên thì chỉ quan tâm đến sự chính xác và mẹo tính toán nhanh hơn. (Ở đây, không nói ai quan trọng hơn ai, vì cả hai đều quan trọng). 


Ý nghĩa cuộc sống của over-fitting

Tình trạng này cũng giống như suy nghĩ nhiều quá có thể giúp chúng ta giải thích được những gì mình quan sát trong quá khứ (và hiện tại), nhưng nó không hẳn giúp ích chúng ta trong quyết định cho tương lai mà có thể làm cho tình hình rối lên. Nhưng under-fitting thì lại bỏ sót và tiên lượng kém chính xác. Thành ra, nghệ thuật của mô hình hoá các mối liên quan là tìm một mô hình không có quá nhiều tham số mà cũng không có quá ít tham số. Nghệ thuật này cũng là nghệ thuật sống: tìm cách sống trung dung.

Đọc đến đây có lẽ các bạn "có tuổi" cỡ thế hệ thôi nghĩ ngay đến thuyết "Trung dung" của Tử Tư. Trong sách "Trung dung", Tử Tư khuyên người quân tửnên giữ cách sống trung hòa, không thái quá. Do đó, tôi nghĩ mô hình tốt nhất trong khoa học cũng giống như mẫu người "quân tử" của Tử Tư vậy. Người quân tử hành xử giữ thế trung bình giữa hai thái cực, thì mô hình tốt cũng chính là mô hình nằm giữa hai thái cực qua đơn giản và quá phức tạp.

Over-fitting có ý nghĩa trong vấn đề sùng bái thần tượng mà tiếng Anh họ gọi là idolatry. Vào thời xa xưa, người ta sùng bái thần thánh và nặn tượng cho họ. Dù chỉ là đất sét thôi, nhưng dân chúng ai cũng vái lạy vì người ta nghĩ các tượng đất sét này là biểu tượng của thần linh. Trong các thể chế toàn trị như Cuba và Romania, chúng ta hay thấy nạn sùng bái thần tượng, mà theo đó người dân được dạy và buộc phải xem họ như là thần thánh, là cha mẹ dân tộc.  Sùng bái thần tượng giúp cho người ta cảm thấy thoải mái vì có cảm hứng và có người để cầu cạnh (và cầu nguyện) nhưng nó làm người ta quên đi hiện tình. Sự sùng bái thần tượng là một hình thức của over-fitting trong đời sống tâm linh. Over-fitting cũng giống như là một hình thức thần tượng hoá dữ liệu (dân trong nghề gọi là "data idolatry"), và đó cũng là hệ quả của việc tập trung thái quá vào những gì chúng ta có thể đo lường được, nhưng thiếu tập trung vào vấn đề.

Tình trạng over-fitting còn có thể giải thích tại sao những thực phẩm ngon miệng [nói chung] lại có hại cho sức khoẻ. Những chất dinh dưỡng cơ bản như đường, muối, mỡ đều rất cần thiết cho sự tiến hoá của nhân loại qua hàng triệu năm, nhưng ngày nay lại có tác hại đến sức khoẻ con người. Ăn nhiều muối có thể làm tăng huyết áp, và dẫn đến mấy bệnh tim mạch nguy hiểm. Ăn nhiều mỡ và đường thì khói nói ai cũng biết là có hại cho sức khoẻ. Ngày xưa, khi thực phẩm khan hiếm, thì những chất dinh dưỡng đó là những "luxury" của cuộc sống, và chúng là biểu tượng của cách ăn uống lành mạnh. Nhưng khi công nghệ chế biến hoàn thiện thì các chất dinh dưỡng đó trở nên thừa thải và con người tiêu thụ như không có ngày mai -- một hiện tượng tiêu thụ thái quá. Thế là từ những "good guys", các chất dinh dưỡng đó và nhiều thực phẩm khác được xem là "bad guys" trong cuộc sống hiện đại.

Over-fitting cũng có thể giải thích tại sao VN đứng hạng cao trong PISA hay các kì thi Olympic, mà hệ thống giáo dục bị chính người trong nước đánh giá thấp. Ở Việt Nam không chỉ có kĩ nghệ dạy và học thêm (ngoài giờ), mà còn có hẳn những chương trình luyện thi để chiếm các giải thưởng quốc tế.  Đó là những chương trình dạy và học tủ để chuẩn bị cho những kì thi có cấu trúc cố định. Chiến lược tập trung vào một nhóm nhỏ và một số môn học giúp cho Việt Nam có nhiều giải thưởng quốc tế, nhưng đứng trên bình diện quần thể thì đa số học sinh không hưởng lợi gì đáng kể từ những kĩ nghệ đó. Chiến lược luyện gà chọi cũng giống như tập trung tìm một mô hình nhằm giải thích các mối liên quan phức tạp trong một môi trường có kiểm soát, nhưng khi ứng dụng mô hình cho tương lai hay cho một quần thể lớn thì mô hình đó hoàn toàn thất bại. Đó chính là sự thất bại của  ứng dụng một mô hình over-fitting cho một quần thể độc lập. Tình trạng over-fitting cũng giải thích tại sao việc nhồi nhét kiến thức cho học sinh, sinh viên không hẳn là tốt cho tương lai của họ, và giải thích tại sao sinh viên VN có thể học tốt ở bậc thấp, nhưng càng lên cao thì sinh viên VN càng kém.

Các bạn có thể nghĩ thêm về ý nghĩa của over-fitting trong các khía cạnh đời sống chính trị - xã hội khác, kể cả trong quyết định hôn nhân. Hôn nhân, nói cho cùng là một thí nghiệm tình cảm xã hội. Cái khó của thí nghiệm này là có quá nhiều thông tin mà chúng ta chưa có phương tiện để đo chính xác, và có khá nhiều nhiễu. (Chẳng hạn như làm sao chúng ta đo lường chính xác được sự hài lòng của "đối tượng". Trong cuộc cạnh tranh tình cảm thì có khá nhiều yếu tố nhiễu làm chúng ta mất tập trung.) Trong điều kiện nhiễu thông tin và thiếu chính xác, mô hình rất dễ trở nên over-fitting.  Nói cách khác, chúng ta không nên suy nghĩ nhiều quá trước quyết định hôn nhân.

Nếu không suy nghĩ nhiều quá thì suy nghĩ ít? Không phải. Một cách khắc phục tình trạng over-fitting là suy nghĩ có kiểm soát, có định hướng. Nói theo ngôn ngữ thống kê học là mô hình cần phải có yếu tố để kiểm soát các tham số, không có chúng quá lạc quan, và mô hình đó có tên chung là " regularized model" (2). Nhưng có lẽ giải pháp thực tế hơn là suy nghĩ theo mô thức có tên phức tạp là "heuristics", có thể hiểu là "xấp xỉ". Nhà tâm lí học Daniel Kahneman gọi đó là "suy nghĩ nhanh" mà tôi có lần điểm sách "Thinking, fast and slow". Trong tình huống phức tạp, đa yếu tố, phương pháp suy nghĩ nhanh, ngạc nhiên thay, có hiệu quả diệu kì. Lí thuyết này (heuristics) đã từng đem lại giải Nobel cho nhà kinh tế Harry Markowitz năm 1990. Markowitz cho biết khi đối đầu với tình huống quá phức tạp, ông tìm cách suy nghĩ xấp xỉ heuristics.

Quay lại vấn đề quyết định hôn nhân, bài học từ "over-fitting" là đừng suy nghĩ nhiều quá, mà suy nghĩ trung dung thôi. Suy nghĩ trung dung là dùng ít thông tin hơn nhưng và thông tin có chất lượng cao (gọi là substantial data) nhưng vẫn đạt được độ chính xác tốt.  Trường hợp của Darwin mà tôi đề cập trong phần đầu minh chứng cho điều này. Cái yếu tố quan trọng nhất trong phân tích của Darwin là ông thấy trước một viễn ảnh chỉ làm việc, làm việc, và làm việc mà không có con cái hay "người đồng hành" chia ngọt xẻ bùi, còn yếu tố có ít tiền hơn để mua sách chỉ là yếu tố nhiễu mà thôi.

Ngoài ra, việc giới hạn những cân nhắc trong 1 trang giấy có nghĩa là Darwin cũng áp dụng nguyên tắc kiểm soát (mà ông có thể không biết) trước khi đi đến quyết định sau cùng, và quyết định đó hoá ra rất tốt. Xin nhắc lại bài học quan trọng là: khi đứng trước một tình huống phức tạp với nhiều thông tin, đặc biệt là thông tin nhiễu, suy nghĩ ít theo hướng tiết kiệm là phương án tốt nhất.

====

(1) Vấn đề over-fitting sẽ được bàn trong workshop sắp tới về machine learning ở ĐH TĐT. Chúng ta sẽ bàn về ý nghĩa của over-fitting trong các mô hình phổ biến trong khoa học với vài ví dụ thú vị.

(2) Nhưng đây là chủ đề khác mà chúng tôi sẽ bàn trong khoá học Machine Learning vào tháng 1 tới đây.



Qui luật 37% (và ứng dụng cho việc tìm người yêu)

Nghĩ lại trong thống kê học có những hằng số hết sức lí thú và quan trọng. Chúng ta đã biết những con số như 0.05 (trị số P), 1.96 (hằng số của phân bố chuẩn) có ảnh hưởng đến cuộc sống như thế nào. Nhưng có lẽ ít ai biết đến qui luật 37%. Đây là một qui luật mới được tái khám phá, nhưng có nhiều ứng dụng trong y khoa, khoa học, tìm nhân viên, thậm chí ... tình yêu.



Qui luật 37% bắt đầu từ một vấn đề hết sức nan giải, có tên là "The Secretary Problem" (Vấn đề Thư kí). Vấn đề này được phát biểu như sau:

• Có một vị trí thư kí trống; 

• Công ti có n ứng viên xin vào vị trí đó;

• Các ứng viên được phỏng vấn tuần tự, nhưng thứ tự hoàn toàn ngẫu nhiên, và do đó, xác suất người thích hợp nhất là 1/n;

• Một khi ứng viên được phỏng vấn và bị từ chối, thì ứng viên đó sẽ không được quay lại tham gia vào qui trình tìm; 

• Tương tự, khi một ứng viên được chấp nhận, thì qui trình tìm người thư kí sẽ chấm dứt.

Vấn đề là n có thể lớn, và công ti không có đủ thì giờ cũng như tài nguyên để phỏng vấn tất cả. Do đó, câu hỏi đặt ra là công ti cần phải phỏng vấn bao nhiêu người (k) để có xác suất chọn đúng người cao nhất.

Lời đáp cho câu hỏi này hoá ra hết sức đơn giản: 36.79%, hay làm chẵn là 37%. Nói cụ thể hơn, công ti nên phỏng vấn 37% số ứng viên đầu tiên, bỏ qua tất cả số ứng viên đó, và chọn ứng viên đầu tiên sau 37% có kinh nghiệm tốt hơn những ứng viên trước. Đáp số này còn cho phép công ti kết luận rằng xác suất mà công ti chọn được ứng viên tốt nhất là 37%. Con số 37% thật ra là 1/e (e ở đây là hằng số Euler, tức là 2.718). Chi tiết tính toán (không khó) có thể tham khảo qua trang này (1).

Lịch sử cận đại của Vấn đề Thư kí có lẽ bắt đầu từ thập niên 1950s, nhưng người đầu tiên giải vấn đề này thì chưa rõ. Trên tập san khoa học, người đầu tiên chứng minh Qui luật 37% là nhà thống kê học lừng danh Dennis Lindley (2, hình) vào năm 1961. Mới đây, Qui luật 37% được tái khám phá qua cuốn sách rất thú vị có tựa đề là "The Mathematics of Love" (Toán học của tình yêu) của tác giả Hannah Fry (University College of London), và cuốn Risk Savvy của Giáo sư tâm lí học Gerg Gigerenzer (một "hero" của tôi). Đây là hai cuốn sách được viết cho đại chúng, rất dễ hiểu, rất giải trí cho những dịp nghỉ hè. Nhưng tác giả cũng tự chứng tỏ là những người rất am hiểu về xác suất trong cuộc sống, đặc biệt là áp dụng lí thuyết xác suất trong ... tình yêu.

Dennis Lindley

Thật vậy, Qui luật 37% cũng có thể ứng dụng trong việc tìm người bạn đời. Như các bạn có thể đoán được, theo Qui luật này, bạn không nên kết hôn với người mình mới quen lần đầu, mà phải cố gắng làm quen và "đánh giá" một số n người. Sau đó, bạn làm quen và "tìm hiểu" n/e người, và chọn người sau n/e có phẩm hạnh tốt nhất so với n/e người kia.

Giả dụ như bạn có "cỡ mẫu" là 50 người (hơi nhiều!), bạn nên làm quen với 18 người trước để thu thập thông tin, sau đó bạn chọn người 19 trở đi có phẩm hạnh tốt hơn 18 người kia. Do đó, "người tình trăm năm" của bạn có thể là người 19, hay 20, hay thậm 25. Dĩ nhiên, sau khi đã chọn được người thích hợp sau người thứ 18 thì phải ngưng, không cần tìm thêm nữa.

Một khó khăn là xác định bạn cần bao nhiêu n ứng viên. Chúng ta có thể áp dụng công thức ước tính cỡ mẫu để xác định n với một sai số mẫu e%. Tuy nhiên, việc chọn bạn tình là chuyện rất nghiêm trọng, nên có thể sai số mẫu phải hạ thấp xuống cỡ e = 1% hay 2%.

Dĩ nhiên, trong giới nghiên cứu y khoa "hardcore", thì chẳng ai mà không biết đến Qui luật 37%, vì nó đã từng được lí giải và ứng dụng trong thực tế nghiên cứu lâm sàng. Trong y khoa học, qui luật này có tên là "Stopping rule" và được ứng dụng trong các nghiên cứu lâm sàng giai đoạn I, nhưng cái "twist" hơi phức tạp hơn một chút.

Cố nhiên, Qui luật 37% không chỉ ứng dụng trong y khoa, tìm người bạn tình tối ưu, hay tìm nhân viên, mà còn được ứng dụng trong nhiều lĩnh vực và tình huống khác, tuỳ vào sự sáng tạo của người ứng dụng. Nên nhớ rằng Qui luật 37% cho chúng ta kết quả với xác suất tối ưu chỉ 37%, tức vẫn có thể sai 63%. Nhưng với nhiều ứng viên mà chúng ta không biết gì về họ, thì Qui luật 37% vẫn là giải pháp tốt nhất và rẻ nhất để tìm đúng người.

Một ứng dụng sáng tạo khác của Qui luật 37% là tìm tuổi thành hôn tối ưu. Nếu độ tuổi thành hôn trong khoảng 18-40, chúng ta có khoản thời gian 22 năm để chọn. Như vậy Qui luật 37% cho biết chúng ta nên chọn tuổi 27, tức là sau tuổi 26 (0.37*22 + 18). Bởi vì nếu thành hôn trước tuổi 26 sẽ có thể sẽ bỏ mất các ứng viên tốt.

Bởi vì bản chất của kết quả vẫn là xác suất, nên cần phải xem xét các khía cạnh dương tính giả (tức chọn sai người) và âm tính giả (tức bỏ sót người tốt), nhưng đây là chủ đề của một cái note khác. Hi vọng rằng qua Qui luật 37% các bạn đã tiết kiệm thì giờ để tìm nhân viên hay tìm người tình trăm năm.

===

(1) https://plus.maths.org/content/solution-optimal-stopping-problem

(2) Dennis Lindley (1923-2013) là một trong những nhà thống kê học distinguished nhất trên thế giới, đứng chung hàng với các "đại thụ" như David Cox, C. R. Rao, H. Jeffreys, Sam Wilks, I. J. Good, Fred Mosteller. Khác với những người cùng thời theo trường phái tần số, Giáo sư Lindley theo trường phái Bayes và có những đóng góp quan trọng. Trong một bài báo năm 2008 trên Stat Sci, Dennis Lindley đặt nền móng cho khoa học thống kê trong thế kỉ 21: thống kê học là một khoa học của bất định; bất định nên được "đo" bằng xác suất; sự bất định của dữ liệu là điều kiện của tham số; và do đó, suy luận thống kê phải theo trường phái ... Bayes. Phải có trải nghiệm thực tế mới thấy ý tưởng này của ông rất đúng và rất thích hợp.


Nên lựa chọn nhà hàng nào để thưởng thực dịp năm mới

Vào dịp tất niên, cùng bạn bè hay đồng nghiệp đi ăn ở các nhà hàng cao cấp là việc khá phổ biến trong giới công sở. Nhưng giữa vô vàn nhà hàng như vậy, đâu sẽ là sự lựa chọn tốt nhất cho bạn? Hãy cùng Eatout điểm danh 5 nhà hàng lý tưởng cho bữa tất niên cuối  năm nhé!

1. Pots ‘n Pans

* Không gian và món ăn
Pots ‘n Pans là một nhà hàng mang phong cách fusion vô cùng độc đáo tại Hà Nội. Thực đơn cho bữa tiệc ở đây khá đặc biệt với những món ăn Âu - Việt kết hợp như Gan ngỗng Pháp ăn cùng với bánh Brioche vừng và puree củ dền, Thăn bò Wagu nướng ăn kèm sốt vanilla cà phê, hay Cá tuyết Chi Lê ăn cùng salad táo xanh và ngũ cốc caramel. Kết thúc bữa tiệc, đừng quên thưởng thức bánh Mont Blanc đầy tinh tế với phomai béo ngậy và sốt caramel hấp dẫn.Đi kèm với mỗi món ăn, là một loại rượu vang thượng hạng đã được nhà hàng lựa chọn cẩn thận và nhập khẩu từ nhiều vùng quốc gia trên thế giới, giúp đư tới bạn trải nghiệm ẩm thực tròn vẹn nhất.
Không gian ở đây rất đẹp và sang trọng, được thiết kế theo phong cách hiện đại nhưng vẫn giữ được nét cổ điển và lãng mạn. Nội thất tinh tế, có rất nhiều bức tranh nghệ thuật được treo trên tường. Nhà hàng gồm 3 tầng, với phòng VIP riêng tư được thiết kế với sức chứa từ 20-30 khách, giúp bạn thoải mái tổ chức bữa tiệc cuối năm cùng đồng nghiệp thật vui vẻ.


* Chất lượng và giá cả
Với một nhà hàng cao cấp tại Hà Nội như vậy, mức giá từ 400.000đ trở lên cho hai người cũng không phải là quá đắt. Hãy thử tới Pots ‘n Pans một lần để trải nghiệm phong cách ẩm thực fusion cực kỳ độc đáo này nhé!
Địa chỉ: Pots ‘n Pans - 57 Bùi Thị Xuân, Hai Bà Trưng, Hà Nội
Giờ mở cửa: 11:00 - 23:00

2. Nhà hàng Tôm Hùm

* Không gian và món ăn
Với các thực khách yêu thích hải sản nói chung và tôm hùm nói riêng ở Hà Nội, các bạn không cần phải đi đâu xa mà chỉ cần đến nhà hàng Tôm Hùm để chìm đắm vào “vương quốc thu nhỏ” của thế giới hải sản tươi sống thơm ngn rồi. Tôm hùm ở đây khoongg hổ danh là nguyên liệu chính, con nào cũng tươi rói, thịt chắc nịch với lớp bỏ sáng bóng. Bạn có thể lựa chọn từ thực đơn vô cùng phong phú của nhà hàng như chiên, nướng, hấp, bỏ lò,…Dưới bàn tay điệu nghệ của các đầu bếp nơi đây, các món ăn vừa giữ được những hương vị tự nhiên, vừa có thể tạo ra dấu ấn riêng biệt khiến thực khách không thể nào quên. Một số món ăn đặc sắc ở đây là Tôm hùm bỏ lò phomai, Cua Hoàng đế, Bào ngư Nhật tiềm rau xanh,…
Không gian ở nhà hàng vô cùng thanh lịch và sang trọng. Với lối kiến trúc cổ điển mang hơi hướng của giới quý tộc Pháp gia đoạn thế kỷ 19, nhà hàng rất thích hợp cho những buổi tiệc hay chiêu đãi. Bên cạnh đó, nhà hàng cũng có khu vực phòng VIP, có sức chứa từ 10 tới 30 người, với ánh đèn vàng ấm áp, dành cho những bữa ăn thân mật cùng gia đình bạn.


* Giá cả và chất lượng
Khi tới nhà hàng Tôm Hùm, bạn không chỉ được thưởng thức những món ăn ngon trong một không gian sang trọng mà còn được phục vụ bởi đội ngũ nhân viên chuyên nghiệp và bài bản. Mức giá ở đây dao động từ 400.000đ tới 500.000đ cho một người, tuy hơi đắt nhưng rất tương xứng với chất lượng của nhà hàng. Hãy ghé thử một lần để cảm nhận nhé hương vị cực kỳ khác biệt từ nhà hàng ở Hà Nội này nhé.
Địa chỉ: 168 Nguyễn Khánh Toàn, Cầu Giấy, Hà Nội
Giờ mở cửa: 10:30 - 22:30

3. MasterChef

* Không gian và món ăn
Nhà hàng MasterChef đã trở thành điểm đến thú vị với thực khách sành ăn tại Hà Nội bởi những món lạ miệng. Với 25 năm kinh nghiệm trong ngành ẩm thực và tư duy sáng tạo, bếp trưởng Phạm Tuấn Hải - vị giám khảo tài năng và khắt khe của “Vua đầu bếp” Việt luôn không ngừng tạo ra những món ăn mới, hấp dẫn. Anh thường kết hợp, dung hòa giữa nhiều nền ẩm thực khác nhau với dấu ấn riêng về mùi vị, cách chế biến cũng như các chi tiết trang trí. Điểm đặc biệt là những món ăn này vẫn giữ được "cái hồn" của ẩm thực Việt, phảng phất trong đó một hương vị quê nhà dân dã. Đó là bít tết sốt vang đỏ thơm nồng nàn, gan ngỗng Pháp sốt xoài hay những món tưởng quen mà lạ như bún trộn cá hồi nướng; miến xào cua thơm lừng và đa dạng các loại ốc hiếm như ốc đỏ, ốc khê, ốc tỏi…
Với phong cách như vậy, không gian quán cũng được pha trộn đôi chút. Những chiếc cửa sổ mái vòm tròn to theo lối kiến trúc Pháp cổ, được kết hợp với bức tường gạch nung đậm chất làng quê Việt Nam, tất cả ăn khớp với nhau một cách hài hoà, khiến mọi thực khách tới đây đều cảm thấy thoải mái xen lẫn thích thú.


* Chất lượng và giá cả
Nhà hàng MasterChef có chất lượng đồ ăn tương đối tốt, mức giá khoảng 250.000đ tới 300.000đ cho một người là khá hợp lý. Quán lại có không gian rộng rãi, bạn có thể cùng bạn bè hay người thân tới để thưởng thức những món ăn ở đây nhé!
Địa chỉ: 28 Hàng Tre, Hoàn Kiếm, Hà Nội | 404 Xã Đàn, Đống Đa, Hà Nội
Giờ mở cửa: 10:00 - 22:00

4. Salmonoid

* Không gian và món ăn
Nhà hàng là sự giao thoa giữa fine-dining và bistro, định hướng phục vụ những món ăn chất lượng độc đáo chuyên từ cá hồi trong một không gian lãng mạn, nhẹ nhàng của ngôi biệt thự cổ kiến trúc Pháp. Salmonoid cũng là nhà hàng Âu đầu tiên ở Hà Nội chuyên về cá hồi, cùng với sự kết hợp thú vị với ẩm thực Việt, nhà hàng Salmonoid luôn mang lại những trải nghiệm thú vị cho khách ăn. Một số món tiêu biểu ở nhà hàng có thể kể tới là Nem cá hồi, Cá hồi cà ri, Cá hồi hun khói, Súp cá hồi,…
Đường lên Salmonoid là một con ngõ nhỏ, cũ kỹ và cổ kính trong khu trung tâm Hà Nội. Nhưng chỉ cần bước qua cánh cửa, dường như ta đã đi vào một thế giới hoàn toàn đối lập. Những bức tường trắng được được ốp theo hoạ tiết xương cá, nội thất với phong cách đơn giản và hiện đại, gồm các gam màu đen và nâu gỗ ấm áp. Salmonoid còn có một khoảng ban công lộng gió, rất thích hợp để ngồi vào các buổi tối mát trời, vừa nhâm nhi những món ăn ngon, vừa trò chuyện trong không gian thoáng đãng, dưới ánh đèn vàng sáng khẽ.


* Chất lượng và giá cả
Không phải là một địa điểm quá lý tưởng cho những cuộc gặp gỡ trang trọng với đối tác, cũng không phải một nhà hàng sang trọng cho những dịp đặc biệt. Tuy nhiên nếu cần không gian dễ chịu, riêng tư với ánh sáng êm dịu, cho những cuộc tụ họp gia đình hoặc gặp gỡ bạn bè, một nơi đủ lãng mạn cho bữa tối 2 người với mức giá khoảng 500.000 – 600.000/ người thì Salmonoid là một nhà hàng ngon mà bạn nên ghé thăm.
Địa chỉ: 32C Cao Bá Quát, Ba Đình, Hà Nội
Giờ mở cửa: 10:00 - 23:00

5. Crystal Jade Palace

* Không gian và món ăn
Nhà hàng Crystal Jade Palace là một thương hiệu nổi tiếng đã dành được nhiều giải thưởng danh giá trong lĩnh vực ẩm thực. Không gian ở đây được thiết kế lộng lẫy mà tinh tế, đẳng cấp với đội ngũ phục vụ chuyên nghiệp. Bên cạnh khu vực ăn chính với nhiều bàn ghế được sắp xếp một cách hợp lý thì nhà hàng còn có những phòng ăn riêng tư, có chỗ chứa từ 10 tới 20 người, rất phù hợp nếu bạn muốn tổ chức tiệc cho gia đình hay bạn bè.
Là một trong những chuỗi nhà hàng danh tiếng nhất Châu Á, Crystal Jade Palace phục vụ các món ăn Trung Hoa tinh tuý từ vùng Quảng Châu với hải sản tươi sống, hơn 20 loại Dimsum và các món ăn độc đáo do những người đầu bếp tài hoa chế biến. Thực khách tới đây có thể thưởng thức những món ăn nổi tiếng như Phật nhảy tường, Súp yến nấu với thịt và trứng cua,… Ngoài ra, bạn có thể gọi thử những món ăn thông dụng hơn như Vịt quay Bắc Kinh trứ danh hay Cua sốt cay Singapore. Thậm chí, những món mang âm hưởng bữa cơm thường nhật như Tôm xào hoa lơ, Cải làn xào tóp mỡ, Thịt lợn xào dứa sốt chua ngọt,… cũng góp mặt để làm phong phú thêm những lựa chọn cho khách hàng.


* Giá cả và chất lượng
Đây là một nhà hàng cao cấp tại Hà Nội hội tụ đủ hai yếu tố: đồ ăn ngon và dịch vụ chu đáo, khiến mọi thực khách tới đây đều hài lòng. Tuy nhiên, bạn sẽ phải cân nhắc một chút về yếu tố kinh tế trước khi ghé thăm. Crytstal Jade Palace có mức giá tương đối cao, dao động từ 100.000đ tới 500.000đ cho một món ăn.
Địa chỉ: Khách sạn JW Marriot Hà Nội, 8 Đỗ Đức Dục, Mễ Trì, Nam Từ Liêm, Hà Nội
Giờ mở cửa: 11:30 - 14:30 | 18:00 - 20:00

Thông báo thứ 3 (sau cùng) về lớp học Machine Learning

Chỉ còn 1 tuần nữa là đóng sổ ghi danh workshop Machine Learning ở TDTU. Các bạn nào chưa ghi danh thì nên ghi danh trước ngày 31/12 cho tiện việc in ấn bài giảng (rất nhiều). Sau ngày đó là khoá sổ (1), và cũng như năm ngoái, sẽ không có dzu dzi với ghi danh trễ, không có "tại vì bởi" sau ngày khoá sổ.


Hiện nay thì workshop đã đạt được con số lí tưởng (để chia nhóm thực hành), chưa kể học viên "nội bộ". Điều thú vị là năm nay ngoài y khoa, còn có thêm nhiều bạn từ doanh nghiệp và kinh tế. Do đó, chúng tôi phải lấy ví dụ bên kinh tế để làm bài giảng. Như các bạn biết, Trường dành ưu tiên cho nghiên cứu sinh, nên đây là cơ hội để các bạn học thêm một công nghệ mới. Sau workshop này, chúng tôi sẽ nghỉ một thời gian để suy nghĩ cách làm mới và lâu dài hơn. Do đó, sẽ không có một workshop như thế này vào năm tới.

Có vài em nghiên cứu sinh ở nước ngoài hỏi tôi có thể đưa chương trình giảng lên internet. Câu trả lời là không. Vả lại, thu hình thì rất nhiêu khê và có vấn đề về phẩm chất. Làm cho có mà phẩm chất kém thì tôi không bao giờ làm, vì có lẽ chẳng ai nghe được. Làm để cho ra một sản phẩm với âm thanh tốt thì tốn kém và Trường chưa có điều kiện để thu hình.

Mong gặp lại các bạn vào đầu tháng 1.

====
(1) Liên lạc ghi danh: ThS. Nguyễn Hoàng Nam. Điện thoại: (08) 37755 037. Điện thư: nguyenhoangnam@tdt.edu.vn.
Sau đây là danh sách bài giảng trong lớp học. Như các bạn thấy, đây là workshop được thiết kế theo motif rất khác với các lớp theo motif khoa học máy tính. Mục tiêu của chúng tôi là trang bị cho các học viên kiến thức và kĩ năng về ứng dụng Machine Learning trong khoa học và Dữ liệu Lớn trong nghiên cứu y khoa, KHXH và kinh tế:
1 Overview of Machine Learning (Tổng quan về mô hình hoá bằng máy tính)
2 Review of R language (Ôn tập về ngôn ngữ R) 
3 Data editing (Biên tập dữ liệu) 
4 Data management for analysis (Quản lí dữ liệu) 
5a Graphical analysis using R, part I (Phân tích biểu đồ, phần I) 
5b Graphical analysis using R, part II (Phân tích biểu đồ, phần II)
6 Introduction to ggplot2 (Giới thiệu chương trình ggplot2) 
6a Histogram (biểu đồ phân bố) 
6b Correlational plot (Biểu đồ tương quan) 
6c Box plot (Biểu đồ hộp)
7 Descriptive analysis (Phân tích mô tả) 
8 Correlation analysis (Phân tích tương quan) 
9 Introduction to simple linear regression (Hồi qui tuyến tính đơn giản) 
10 Interpretation of linear regression analysis (Diễn giải kết quả phân tích mô hình hồi qui tuyến tính) 
11 Model checking (Kiểm tra giả định của mô hình hồi qui tuyến tính) 
12 Interpretation of R2 (Diễn giải ý nghĩa của hệ số xác định) 
13 Multiple linear regression (Mô hình hồi qui tuyến tính đa biến) 
14 Multiple linear regression: Interaction and categorical predictors (Ảnh hưởng tương tác và biến phân loại) 
15 Problem of multicollinearity (Vấn đề đa cộng tuyến) 
16 Variable selection in multiple linear regression (Phương pháp chọn biến số liên quan trong mô hình hồi qui tuyến tính đa biến) 
16a LASSO method (Phương pháp LASSO) 
17 Introduction to logistic regression model (Giới thiệu mô hình hồi qui logistic)
18 Multivariable logistic regression (Mô hình logistic đa biến) 
19 Interpretation of logistic regression model (Diễn giải mô hình hồi qui logistic) 
20 Variable selection in logistic regression (Phương pháp chọn biến số liên quan trong mô hình hồi qui logistic đa biến) 
21 Evaluation of logistic regression model (Đánh giá mô hình logistic) 
22 Building a predictive model based on logistic regression (Xây dựng mô hình tiên lượng dựa trên hồi qui logistic) 
23 Introduction to Machine Learning approaches (Giới thiệu các phương pháp machine learning 'hiện đại') 
24 Introduction to "caret" package (Giới thiệu chương trình R "caret")
24a Using caret for linear regression and logistic regression (Sử dụng caret cho mô hình hồi qui tuyến tính và hồi qui logistic) 
25 Introduction to bootstrap methods (Giới thiệu các phương pháp tái chọn mẫu) 
26 K-nearest neighbours (Mô hình "Láng giềng gần nhất") 
27 Random forest (Phương pháp "Rừng ngẫu nhiên")
28 Support vector machines (Phương pháp đa tuyến tính)
29 Neural networks (Phương pháp "Mạng thần kinh")
30 Linear discriminant analysis (Phân tích phân định tuyến tính) 
31 Principal component analysis (Phân tích thành tố) 
32 Cluster analysis (Phân tích cụm) 
33 Factor analysis (Phân tích yếu tố) 
34 Handling of missing values (Phương pháp xử lí số liệu trống)

Dịch vụ SEO