George Box và hành trình đến khoa học thống kê

Trong lúc chúng ta đang bàn về ứng dụng toán, tôi xin trân trọng giới thiệu bài nói chuyện của Giáo sư George Box – là một trong những “đại thụ” của khoa học thống kê trong thế kỉ 20, với rất nhiều đóng góp cơ bản và quan trọng cho khoa học, đặc biệt là những đóng góp về mô hình phân tích số liệu thời gian (time series models), kiểm định chất lượng, nghệ thuật và khoa học.  Ông là tác giả của câu nói nổi tiếng “All models are wrong, but some are useful” (tất cả các mô hình đều sai, nhưng có vài mô hình có ích).  Ông là chủ tịch thứ 73 của Hội Thống kê Hoa Kì (American Statistical Association).  Ông là một nhà khoa học hiền hậu, vui tính – và khiêm tốn.  Ông tự gọi mình là một nhà thống kê bất đắc dĩ, vì ông đến với thống kê học qua chiến tranh.  Năm nay, Giáo sư George Box đã 92 tuổi, vẫn sống ở Madison, Wisconsin – nhân dịp kỉ niệm 50 năm Bộ môn Thống kê học của trường Đại học Wisconsin, do chính ông sáng lập vào năm 1960.
Bài nói chuyện tuy mang tính cá nhân, nói về con đường ông đến với thống kê học, nhưng còn cung cấp vài dữ liệu và bài học quí báu về ứng dụng thống kê trong khoa học và kĩ nghệ.
Dịch và giới thiệu: Nguyễn Văn Tuấn – tiasang
Tôi muốn kể cho các bạn nghe câu chuyện tôi đã trở thành một nhà khoa học thống kê như thế nào. Tôi sinh ra ở bên Anh.  Năm 1939 tôi là một thanh niên 19 tuổi đời. Dạo đó, tôi lớn tiếng phê phán Chính phủ Anh hèn nhát vì chẳng dám có hành động gì để ngăn cản Hitler.
Vì thế, khi chiến tranh nổ ra, tôi quyết định nhập ngũ, dù lúc đó tôi sắp xong bằng cử nhân hóa học.  Tôi nhất định bỏ học để đi lính.  Họ sắp xếp cho tôi công tác trong ngành công binh (và khi tôi nhìn thấy cây cầu, tôi nghĩ đến chuyện tính toán làm sao để giật sập được một cây cầu). Nhưng chưa thực hiện được ý định giật sập cầu, thì họ thuyên chuyển tôi sang một trung tâm bí mật chuyên làm thí nghiệm khoa học ở miền Nam nước Anh.  Lúc đó, quân đội Đức đang dội bom London mỗi đêm. Chính phủ Anh nghĩ đến tình huống xấu nhất là Đức sẽ dùng đến khí độc. Công việc của chúng tôi là tìm cách đối phó với tình huống xấu nhất khí Đức ra tay.

Thời đó, trung tâm thí nghiệm tôi làm việc là nơi hội tụ rất nhiều nhà khoa học sáng chói nhất của Anh quốc.  Chúng tôi làm rất nhiều thí nghiệm trên động vật, và tôi lúc đó chỉ là một phụ tá trong phòng thí nghiệm với nhiệm vụ sản xuất những sinh phẩm cần thiết cho thí nghiệm.  Sếp của tôi là một giáo sư sinh lí học, nhưng ông được quân đội Anh cho mang hàm đại tá; còn tôi được đeo lon trung sĩ.

Những kết quả thí nghiệm của tôi dao động rất lớn, và tôi không biết làm gì với những kết quả như thế.  Tôi nói với sếp đại tá rằng “Chúng ta cần một nhà thống kê học”.  Sếp tôi hỏi “Làm sao chúng ta có thể kiếm được một nhà thống kê lúc này, thế anh có biết gì về thống kê không?” Tôi nói “Chẳng biết gì cả, tôi có lần đọc một cuốn sách của một người có tên là R. A. Fisher nhưng tôi chẳng hiểu gì cả.”  Sếp nói “Nếu anh đã từng đọc sách đó thì anh là người có kiến thức nhất về thống kê ở đây rồi, vậy anh thử làm đi”, và tôi nói, “Yes, sir” (tuân lệnh).  Tôi đề nghị cơ quan quân đội cung cấp thêm những bài báo khoa học và sách giáo khoa về thống kê, và họ đáp ứng tất cả đề nghị của tôi.

Trong thời gian 3, 4 năm sau đó, tôi tiến hành thiết kế và phân tích hàng trăm thí nghiệm. Đủ loại thí nghiệm.  Trong danh sách những bài báo khoa học của tôi, 2 bài đầu tiên mô tả một số công trình tôi làm lúc đó.

Có dạo, tôi gặp một vấn đề thống kê mà tôi không giải quyết được, và một nhà khoa học lâu năm đề nghị tôi nên liên lạc R. A. Fisher [1].  Tôi viết thư cho Fisher, và ông mời tôi đến gặp ông ở Đại học Cambridge.  Nhưng cơ quan quân đội không biết cách nào để gửi một trung sĩ đến gặp một giáo sư, và thế là họ ra một công văn đặc biệt để tôi cỡi ngựa đi Cambridge.

Tôi đến Cambridge vào một ngày tuyệt đẹp. Fisher nói “OK, chúng ta sẽ ngồi dưới tàng cây kia, tôi sẽ tìm hiểu hàm probits và anh sẽ tìm hàm nghịch đảo nhé”  [2]. Và, thế là vấn đề được giải quyết, và đó chính là lúc tôi nghĩ đến vấn đề hoán chuyển số liệu [3].

Khi cuộc chiến sắp kết thúc, chúng tôi phát hiện rằng Đức đã phát triển độc khí: đó là khí Tabun và vài hóa chất khác mà mức độ độc hại rất cao, khoa học chưa bao giờ biết đến. Thế là tôi trở thành một thành viên trong một nhóm nghiên cứu các độc khí này ngay tại trung tâm nghiên cứu của Đức.  Trung tâm này nằm ở phía Bắc nước Đức, lúc đó đang bị bỏ hoang sau khi Đức thất trận.  Đoàn chúng tôi có đến 50 xe tải chở những thiết bị khoa học đi qua những thành phố, thị trấn tiêu điều của Bỉ và Đức.  Khi đến nơi, tôi tiến hành khá nhiều nhiều thí nghiệm hóa học.

Đến khi tôi được giải ngũ, quân đội Anh trao tặng huy chương ghi nhận những đóng góp của tôi cho khoa học trong thời chiến.  Họ còn tử tế trả tiền cho tôi theo học tại Đại học London (University College London, hay UCL). Ở UCL, tôi theo học thống kê học dưới sự hướng dẫn của Giáo sư E. S. Pearson [4].  Tôi phải tiêu ra 18 tháng trời để hoàn tất văn bằng cử nhân.  Sau bằng cử nhân, tôi theo học thạc sĩ và nghiên cứu tiến sĩ.

Trong thời gian tôi theo học tại UCL, tôi có những mùa hè rất có ích.  Thật ra, tôi không có nghỉ hè; tôi dùng thời gian nghỉ hè để thực tập trong hãng hóa chất Imperial Chemical Industries (ICI), hãng hóa chất lớn nhất nước Anh thời đó.  Tôi giúp ICI O.L. Davies biên tập cuốn sách Statistical Methods in Research and Production [5]. Có lẽ qua việc giúp biên soạn cuốn sách trên, nên sau khi tốt nghiệp, ICI mời tôi làm việc cho họ.

Tám năm kế tiếp là thời gian hạnh phúc nhất đời tôi. Phòng khoa học của ICI sản xuất rất nhiều sản phẩm, nào là thuốc nhuộm, vải nylon, áo mưa, v.v…  Một nhóm chuyên gia về hóa chất và kĩ sư cùng nhau hợp lực phát triển và cải tiến rất nhiều qui trình sản xuất.  Tôi là một thành viên trong nhóm đó.  Tôi có cơ hội tiến hành rất nhiều thí nghiệm nhằm gia tăng năng suất với chi phí ít nhất.  Ngoài ra, tôi còn giúp các nhà hóa học thiết kế thí nghiệm để kiểm tra chất lượng sản phẩm.  Trong thời gian làm việc ở đây, tôi rất bận bịu, tối ngày đi lên đi xuống giải thích, hướng dẫn cho công nhân và đồng nghiệp làm thí nghiệm theo những qui trình mới.

Tôi rất thích công việc thí nghiệm, và không có ý định rời bỏ kĩ nghệ để theo đuổi sự nghiệp khoa bảng.  Nhưng trong quá trình giải quyết những vấn đề thực tế, tôi có vài ý tưởng để phát triển phương pháp thống kê.  Tôi có viết một số bài báo và công bố trên các tập san chuyên ngành thống kê.

Năm 1952 tôi ngạc nhiên nhận được thư của Đại học North Carolina (Raleigh) mời làm giáo sư thỉnh giảng (visiting professor) một năm.  Hội đồng quản trị hãng ICI đồng ý cho tôi đi một năm, nhưng họ cũng nói rõ rằng họ muốn tôi quay về Anh sau khi xong việc bên Mĩ.  Họ (ICI) thu xếp để tôi đi Mĩ trên tàu Queen Mary, một chuyến viễn du thú vị.  Tôi có một năm tuyệt vời ở Raleigh, nơi tôi gặp Stu Hunter [6], lúc đó mới là một nghiên cứu sinh.  Chúng tôi làm việc chung với nhau về phương pháp “response surface” [7].

Sau khi xong hợp đồng, tôi quay về Anh và làm việc cho ICI thêm được 3 năm.

Năm 1956, John Tukey [8] ở Bell Labs gọi gọi điện tôi hầu như mỗi buổi sáng.  Ông ấy muốn tôi sang Đại học Princeton làm giám đốc nhóm nghiên cứu kĩ thuật thống kê (Statistical Techniques Research Group — STRG) lúc đó đang được thành lập.  Sau cùng, tôi đành nghe theo lời ông ấy và lại lên đường đi Mĩ vào cuối năm 1956.  Tôi kéo theo Stu Hunter, Don Behnken, Collin Mallows, Geoff Watson, Henry Scheffé, Merve Muller, Norman Draper [9], và nhiều người khác tham gia nhóm nghiên cứu.  Nhóm này rất thành công, vì đã làm nhiều nghiên cứu rất hay, với nhiều công trình khoa học được công bố. Đó cũng là năm tôi gặp Gwilym Jenkins lần đầu tiên [10].

Chúng tôi tin rằng những ý tưởng mới trong thống kê học thường xuất phát từ những vấn đề khoa học đặc thù.  Một ý tưởng mà chúng tôi manh nha lúc đó là làm sao thiết kế và xây dựng được một cái hệ thống tự động tối ưu hóa (automatic optimiser, một kĩ thuật để điều chỉnh đầu vào sao cho đầu ra tối đa), nhưng các nhà hóa học không mặn mà mấy với ý tưởng đó.

Năm 1960, Đại học Wisconsin mời tôi đến nói chuyện trong 2 seminar.  Một seminar về khoa học thống kê, và một seminar về ý tưởng thành lập một bộ môn thống kê.  Tôi nói với họ những ý tưởng của tôi về định hướng nghiên cứu của Bộ môn Thống kê học.  Và, thế là họ nói nếu tôi có ý tưởng như thế, thì tôi là người tốt nhất thực hiện ý tưởng đó. Họ đề nghị tôi tham gia Wisconsin.

Tôi rời Princeton đi Wisconsin.  Đến Wisconsin, tôi bắt tay vào việc thành lập bộ môn thống kê học vào mùa thu năm đó, và địa điểm là một cái chòi tên là Nissen gần bờ hồ. Dạo đó, cái chòi này hay bị ngập lụt, và mỗi lần ngập lụt, sách vở trôi lềnh bềnh, trông rất nhếch nhác.

Một nhà hóa học nổi tiếng tên là Olaf Hougen ở Wisconsin rất thích ý tưởng về hệ thống tự động tối ưu hóa của chúng tôi.  Ông ấy đề nghị chúng tôi xin tài trợ từ Quĩ Khoa học Quốc gia (National Science Foundation — NSF).  Thế là chúng tôi xin được tài trợ từ NSF.  Sau 3 năm trầy trật nghiên cứu, chúng tôi xây dựng được một cái máy tối ưu hóa – và nó có vận hành hiệu quả.  Đây chính là nơi mà Gwilym Jenkins và tôi có thêm kinh nghiệm về sử dụng các mô hình bất ổn (non-stationary), mô hình động (dynamics) và mô hình ước lượng phi tuyến tính (non-linear estimation). Chúng tôi viết thành một cuốn sách Time Series Analysis Forecasting and Control [11]. Cuốn này đã được tái bản lần thứ 4.

Bộ môn Toán của Đại học Wisconsin muốn bỏ tất cả những môn học dính dáng đến thống kê, và họ đề nghị bộ môn chúng tôi phụ trách dạy những môn đó.  Thế là tôi trở thành giảng viên dạy những môn mà sau này người ta gọi là “Advanced Theory of Statistics”.  Lúc đó, tôi có 7 nghiên cứu sinh, trong đó có Bill Hunter, George Tiao và Sam Wu.  Tôi còn nhớ George Tiao là một “bell-wether” của tôi.  Bất cứ lúc nào tôi thấy anh ta có vẻ lo lắng, tôi phải nhìn vào bảng đen xem mình có viết gì sai không.

Ngay từ đầu, tôi đã nhận ra rằng sinh viên học khá nhiều về lí thuyết thống kê, nhưng họ chẳng biết sử dụng thống kê cho việc gì. Thế là tôi thiết lập cái mà sau này người ta gọi là “Monday night beer session”.  Mỗi thứ Hai, chúng tôi tụ tập uống bia và thảo luận khoa học thống kê ngay tại nhà tôi ở.  Đó không phải là một khóa học chính thức, học viên chẳng cần có điều kiện gì để nhập học, cũng chẳng có thi cử hay tính điểm gì cả.  Khóa học mở cho mọi người, ai thích thì đến uống bia và học.  Chúng tôi có nghiên cứu sinh và giảng viên từ các khoa thống kê, kĩ thuật, thương nghiệp, và y khoa tham dự. Chúng tôi còn có nhiều người chuyên đi săn tìm những vấn đề thực tế để đưa vào khóa học và thảo luận.  Trung bình, mỗi vấn đề được trình bày trong khoảng 20 phút, và sau đó là phần thảo luận cách giải quyết vấn đề.  Khóa học được duy trì vài thập niên sau đó, và có thể nói là rất thành công.  Mãi đến nay tôi vẫn nghe nhiều đồng nghiệp đề cập đến khóa học bia vào đêm thứ Hai!  Tôi nghĩ nhiều người học cách giải quyết vấn đề từ “khóa học” đó.

Tôi rất là may mắn trong tình bạn và được sự ủng hộ của nhiều người.  Tôi đã nhận quá nhiều từ bạn bè trong suốt cuộc đời.  Và, với các bạn đó, tôi muốn nói lời “Cám ơn”.

Khoa học thống kê (statistical science) đóng một vai trò cực kì quan trọng trong việc phát triển khoa học thực nghiệm.  Tuy lịch sử của khoa học thống kê rất lâu đời, nhưng khoa học thống kê hiện đại chỉ mới khởi đầu từ những năm cuối thế kỉ 19 và đầu thế kỉ 20. Cho đến nay, có thể nói khoa học thống kê “chinh phục” hầu như tất cả các lĩnh vực khoa học thực nghiệm, xã hội học, kinh tế học, và thậm chí văn học. Có người ví von về tốc độ phát triển khoa học thống kê ngang hàng với Attila, Mohammed! Trong khi ở các nước tiên tiến hay trong vùng, bất cứ đại học nào cũng có bộ môn thống kê học, ở nước ta không một đại học nào có môn học này.  Số chuyên gia thống kê cũng rất ít. Có thể nói không ngoa rằng khoa học thống kê ở nước ta còn kém hơn khoa học thống kê Âu châu vào thế kỉ 17, 18. Tình trạng “lạc hậu” về khoa học thống kê ở nước ta đã làm ảnh hưởng không nhỏ đến khoa học nước nhà.  Vì các bộ môn khoa học thực nghiệm ở nước ta chưa được sự hỗ trợ từ khoa học thống kê, cho nên rất nhiều nghiên cứu khoa học ở nước ta chưa có chất lượng cao, và chưa thể công bố trên các tập san khoa học quốc tế.

Ghi chú của người dịch:
[1] Ronald A. Fisher là một nhà sinh học và thống kê học sáng chói nhất trong thế kỉ 20. Có thể nói ông là “cha đẻ” của thống kê hiện đại.  Ông là tác giả của phương pháp điểm định F (F test), Fisher’s exact test, lí thuyết di truyền học, và rất nhiều sáng kiến độc đáo khác. Cuốn sách kinh điển Statistical Methods for Research Workers của ông có ảnh hưởng cực kì lớn đến khoa học hiện đại. Fihser là cha vợ của George Box.

[2] Trong thống kê học, probit là một hàm số nghịch đảo của hàm phân bố tích lũy (inverse cumulative distribution). Hàm probit thường được sử dụng trong các mô hình phân tích nhị phân.

[3] Ở đoạn này, ông muốn nói đến thuật toán hoán chuyển có tên là “Box-Cox transformation”.  Cox là lấy tên của một nhà thống kê học trứ danh tên là David R. Cox, một đại thụ lớn nhất trong ngành thống kê học của thế kỉ 20, người phát minh ra mô hình hồi qui logistic, mô hình phân tích biến cố, làm một cuộc cách mạng trong khoa học thực nghiệm, kể cả y học.

[4] Egon S. Pearson là một nhà thống kê học nổi tiếng vào thế kỉ 20, cùng với Jerzy Neyman “sáng tác” ra Neyman-Pearson lemma và phát triển lí thuyết về kiểm định giả thuyết (test of significance).  Egon Pearson là con trai của Karl Pearson, một người học trò xuất sắc của Francis Galton.  Karl Pearson (hay thường biết đến là KP) là triết gia khoa học (tác giả cuốn “The Grammar of Science” có ảnh hưởng sâu sắc đến Albert Einstein) và cha đẻ của phương pháp kiểm định Chi-square, một trong những người khai sinh ra khoa học thống kê hiện đại vào cuối thế kỉ 19.  KP là người sáng lập Bộ môn Thống kê học tại University College London vào năm 1901, đó là bộ môn thống kê học đầu tiên trên thế giới.

[5] Trong bài nói chuyện trên, ông có kể về sự ra đời của cuốn sách Statistical Methods in Research and Production nhưng ông không kể hết câu chuyện (có lẽ do tính khiêm tốn của ông).  Thật ra, thoạt đầu ông được yêu cầu đọc bản thảo và kiểm tra lỗi biên tập, nhưng trong quá trình đọc ông đã phát hiện và sửa đổi quá nhiều trong bản thảo, nhiều đến nổi tác giả O. L. Davies nhất định đề tên ông là một đồng tác giả.  Cuốn sách có chất lượng hơn so với bản thảo.  O. L. Davies, một nhà thống kê học, tiên phong trong lĩnh vực ứng dụng thống kê trong kĩ nghệ sản xuất và kiểm định chất lượng sản phẩm.

[6] Stuart Hunter, cựu giáo sư thống kê của Đại học Princeton. Hunter là học trò của George Box, là người đề ra ý tưởng “reliability” trong kĩ nghệ sản xuất, và sau này có những đóng góp quan trọng cho khoa học thống kê qua kiểm định chất lượng sản phẩm công nghiệp.

[7] Response surface là thuật ngữ thống kê dùng để mô tả những phương pháp tìm hiểu mối tương quan giữa nhiều biến tiên lượng và nhiều biến phụ thuộc. Phương pháp này được George Box và K B Wilson công bố lần đầu tiên vào năm 1951, và sau này trở nên phương pháp chuẩn trong thiết kế thí nghiệm.

[8] John Tukey, một nhà hóa học sau này trở thành nhà thống kê học, với những đóng góp quan trọng trong việc phát triển thống kê học vào giữa thế kỉ 20.  Tukey là một trong những người đóng vai trò chủ chốt trong Bộ môn Thống kê học của Đại học Princeton trong thập niên 1960s-1970s.  Đóng góp của ông cho thống kê hiện đại bàng bạt trong mọi ngành hẹp, bao gồm lí thuyết đồ thị, tính toán thống kê, khoa học luận, v.v…

[9] Ở đây, Giáo sư Box nhắc đến tên của nhiều nhà khoa học thống kê nổi tiếng như Collin Mallows, Geoff Watson, Henry Scheffé. Collin Mallows là người phát triển chỉ số “Cp” trong phân tích hồi qui tuyến tính. Chỉ số Mallow’s Cp được dùng để xác định số biến cần thiết cho một mô hình hồi qui.  Geoffrey S. Watson là một nhà thống kê học người Úc, nguyên chủ nhiệm Bộ môn Thống kê học của Đại học Princeton. Ông có nhiều đóng góp quan trọng và cơ bản cho vật lí, sinh học phân tử và hành vi động vật. Ông cũng chính là “cha đẻ” của phương pháp kiểm định Durbin-Watson hay sử dụng trong các mô hình hồi qui tuyến tính.  Henry Scheffé, gốc Đức nhưng định cư ở Mĩ, là một nhà thống kê học nổi tiếng với cuốn sách Analysis of Variance (Phân tích Phương sai).

[10] Gwilym Jenkins là một kĩ sư và nhà thống kê học người Anh. Ông là người cùng với George Box phát triển những mô hình về phân tích số liệu thời gian (time series model) có tên là “Box-Jenkins models” hay “Box-Jenkins Methodology”. Ông là đồng tác giả cuốn sách kinh điển và nổi tiếng “Time series analysis: Forecasting and control” mà Giáo sư George Box nhắc đến trong bài nói chuyện.