thăm statistics.vn ! Và, nhân dịp ngày mồng Một của Tết Tân
Mão 2011, statistics.vn kính chúc các bạn một năm mới an lành và
nhiều may mắn.
statistics.vn là một sáng kiến của một nhóm các anh chị em đã
tham gia các khóa tập huấn về phân tích thống kê và nghiên
cứu khoa học trong thời gian 5 năm qua; đặc biệt là một nỗ
lực của một số bác sĩ, kĩ sư, giảng viên, và chuyên gia
hiện đang làm việc trong các đại học và trung tâm nghiên cứu
trong và ngoài nước. Tất cả họ đều có một mẫu số chung:
quan tâm đến việc ứng dụng thống kê trong nghiên cứu khoa
học. Tất cả anh chị em đều làm việc trên tinh thần tình
nguyện, và không nhận bất cứ thù lao nào.
Mục tiêu số 1 của statistics.vn là nhằm giới thiệu các
phương pháp thống kê hiện đại có thể ứngdụng cho nghiên
cứu khoa học. Mục tiêu thứ 2 là chia sẻ kiến thức và kinh
nghiệm, kể cả những kĩ năng thực tế, trong việc phân tích
dữ liệu. Sau cùng, statistics.vn cũng muốn giới thiệu khoa học
thống kê đến công chúng và nhất là giới phóng viên báo chí
vốn có nhu cầu sử dụng thống kê hàng ngày. Chính vì lí do
sau cùng này mà trang web có chuyên mục Thống kê và xã hội...
<a
href="http://www.statistics.vn/index.php?option=com_content&view=article&id=60:thay-cho-loi-chuc-mung-nam-moi">Trích
lời giới thiệu của blogger Nguyễn Văn Tuấn</a></div>
Con số thống kê có thể kết tội và bỏ tù một người, bất
kể người đó thuộc thành phần xã hội nào. Trong những
phiên tòa mà chứng cứ bằng hiện vật không đầy đủ, các
công tố viên có khi sử dụng con số xác suất để như là
một chứng cứ để tác động đến bồi thẩm đoàn rằng khả
năng bị báo vô tội là rất thấp. Một khi công tố viên
"chứng minh" khả năng vô tội quá thấp, thì việc kết tội
bị cáo quá dễ dàng. Nhưng trong thực tế, rất ít công tố
viên và bồi thẩm đoàn am hiểu xác suất, hoặc hiểu nhưng
diễn giải sai. Ngay cả các chuyên gia làm chứng (expert witness)
cũng có khi tính toán sai. Vì những sai lầm sơ đẳng về cách
hiểu và tính toán, nhiều người vô tội đã bị kết án, và
đôi khi hệ quả rất bi thảm cho người bị kết án sai.
<h2>Trường hợp Sally Clark</h2>
Một trong những kết cục bi thảm do hiểu sai thống kê và kết
án sai là trường hợp của bà Sally Clark. Bà là một luật sư,
xuất thân từ một gia đình trung lưu ở Anh. Bà hạ sinh hai
người con trai, nhưng cả hai đều chết một cách đột ngột
sau khi sinh. Đứa con đầu lòng chết lúc 11 tuần tuổi (1996).
Đứa con thứ hai chết lúc 8 tuần sau khi sinh (1997). Cả hai
đều không rõ nguyên nhân. Trong y văn, những trường hợp này
được gọi là "hội chứng đột tử" (SIDS – sudden infant
death syndrome). Ngay sau khi người con trai thứ hai chết, bà Clark
bị cảnh sát bắt, hầu tòa, và bị kết tội giết con, bởi
vì theo một chuyên gia y khoa, xác suất mà hai người con chết
một cách ngẫu nhiên trong một gia đình trung lưu như thế là
chỉ 1 trên 73 triệu. Nói cách khác, theo chuyên gia này, xác
suất hai trẻ chết trong gia đình không do yếu tố ngẫu nhiên
là rất cao (hàm ý cố sát) và do đó ông đã thuyết phục bồi
thẩm đoàn kết án bà Clark.
Con số xác suất (1/73 triệu) nổi tiếng đó là "tác phẩm"
của ông Roy Meadow, người làm nhân chứng chuyên gia trong phiên
tòa kết tội Sally Clark. Ông Roy Meadow là một giáo sư nhi khoa,
một chuyên gia có nhiều công trình nghiên cứu về hội chứng
đột tử, và cũng chính là cha đẻ của hội chứng "Munchausen
syndrome by proxy" (có nghĩa là hội chứng tâm lí mà cha mẹ có
ý gây tổn thương cho con cái để được chú ý). Ông còn là
một người đấu tranh chống lạm dụng trẻ em, và là tác giả
của cuốn sách "The ABC of Child Abuse". Do đó, "bằng
chứng" của ông mang tính thuyết phục khá cao đối với bồi
thẩm đoàn.
Cho đến nay, nguyên nhân của đột tử vẫn chưa rõ ràng, nhưng
yếu tố môi trường và di truyền được xem là quan trọng.
Giới y tế biết được 3 yếu tố nguy cơ có thể làm tăng nguy
cơ đột tử: (i) mẹ dưới 27 tuổi; (ii) có người hút thuốc
lá trong nhà; và (iii) gia đình thuộc diện nghèo khó. Nếu gia
đình không có bất cứ yếu tố nguy cơ nào thì xác suất đột
tử là 1 trên 8543; gia đình có một yếu tố nguy cơ thì xác
suất tăng lên 1/1616; 2 yếu tố nguy cơ: 1/596; và 3 yếu tố nguy
cơ thì xác suất đột tử là 1/214.
Gia đình của Sally Clark không có yếu tố nguy cơ nào. Do đó,
Giáo sư Meadow lí giải rằng xác suất đột tử trong một gia
đình trung lưu như Clark là khoảng 1 trên 8543. Ông lí giải
tiếp rằng nếu 2 trẻ cùng chết trong một gia đình thì xác
suất là 1/8543 x 1/8543 và kết quả là khoảng 1 trên 73 triệu.
Nói cách khác, ông cho rằng xác suất mà Sally Clark có tội là 1
trừ cho 1/73.000.000 = 0.99999999999 (tức bằng 1 hay 100%). Khi tòa
án hỏi gợi ý tư vấn một chuyên gia về thống kê, thì cả
công tố viên và Giáo sư Meadow đều nói rằng đây không phải
là "rocket science" (ý nói vấn đề đơn giản) nên không cần
đến chuyên gia thống kê. Họ tự tin rằng họ thành thạo về
thống kê và xác suất. Toà án kết án bà Sally Clark phạm tội
giết người, và phạt tù chung thân.
Khi sự việc được báo chí tường thuật, các nhà thống kê
học bắt đầu chú ý, và họ chỉ ra hai sai lầm cực kì sơ
đẳng nhưng rất tai hại trong lí giải của Gs Meadow. Sai lầm
thứ nhất liên quan đến giả định đằng sau cách tính, và sai
lầm thứ hai là sự nhầm lẫn về ý nghĩa của xác suất.
Sai lầm thứ nhất là ông giả định rằng xác suất 2 trẻ em
chết trong một gia đình độc lập với nhau (nên nhân 2 xác
suất với nhau). Giả định này sai, vì đột tử có thể có
nguyên nhân từ môi trường và di truyền, mà hai em là anh em,
tức có thể có cùng gen và cùng mẹ (cùng môi trường) nên 2
hiện tượng không thể độc lập. Thật ra, nếu 1 trẻ bị
đột tử thì xác suất trẻ thứ 2 chết bị đột tử rất cao.
Theo phân tích của Giáo sư Ray Hill (một chuyên gia về thống
kê), nếu gia đình đã có một bé đột tử, thì xác suất
đột tử của bé thứ hai tăng 10 đến 22 lần. Nói tóm lại,
cách tính của Giáo sư Meadow (nhân 2 xác suất) là hoàn toàn sai
lầm.
Sai lầm thứ hai là giáo sư Meadow lẫn lộn giữa xác suất bà
Sally Clark giết con với xác suất trùng hợp về đột tử. Xác
suất mà Gs Meadow tính toán là xác suất trùng hợp, tức là xác
suất mà hai ca độ tử xảy ra một cách ngẫu nhiên. Nhưng câu
trả lời mà người ta cần biết là với dữ liệu nghiên cứu
có được, xác suất mà bà Clark sát hại con là bao nhiêu.
Tiến sĩ Helen Joyce thì áp dụng Định lí Bayes với kết quả
cho thấy xác suất đứa trẻ thứ 2 tử vong vì "nguyên nhân
tự nhiên" (không phải cố sát) là 62.5%.
Ngày 29/1/2003, sau khi luật sư bà Sally Clark kháng án, với nhân
chứng mới từ một giáo sư thống kê học, tòa án tuyên bố
Sally Clark vô tội. Tòa án cũng khiển trách Gs Meadow vì đưa
bằng chứng sai. Hội đồng y khoa Anh kỉ luật giáo sư Meadow,
tước chức danh, và cấm hành nghề thầy thuốc. Tuy nhiên, sau
này, ông kháng án, và được cho hành nghề thầy thuốc, nhưng
uy tín thì bị tổn hại nghiêm trọng. Phần bà Sally Clark, sau
khi trả tự do vài năm, bà qua đời vào tháng 3 năm 2007, thọ 42
tuổi.
<h2>Trường hợp Lucia de Berk</h2>
Một trường hợp diễn giải sai lầm ý nghĩa của xác suất
cũng dẫn đến án tù cho một y tá ở Hà Lan. Tháng 3/2003, Lucia
de Berk bị cảnh sát Hà Lan truy tố ra tòa vì tội giết người
và tội cố sát. Thoạt đầu, chứng cứ trình bày trước tòa
có vẻ thuyết phục. Cảnh sát điều tra cho biết có 7 bệnh
nhân trong bệnh viện Juliana đột ngột tử vong trong thời gian
bà de Berk làm việc (1999-2001), và những trường hợp tử vong
này xảy ra hoặc là gần, hoặc là ngay tại khu điều trị de
Berk phục vụ. Ngoài ra, de Berk tại hiện trường trong hầu
hết những trường hợp tử vong xảy ra. Tuy nhiên, ngoài bối
cảnh câu chuyện, không có thêm chứng cứ bằng hiện vật nào
chứng minh de Berk có liên can đến các trường hợp tử vong.
Ngay cả khi bốc mộ để phân tích DNA, người ta cũng không
thấy dấu vết nào liên quan đến de Berk. Tuy nhiên, dựa vào
tính toán của luật sư và nhà thống kê tài tử, tòa tuyên
kết án de Berk tôi giết người và cố sát, với án phạt tù
chung thân.
Henk Elffers là một giáo sư luật và cũng là một nhà thống kê
học tài tử. Ông tính toán rằng xác suất mà de Berk hiện
diện một cách ngẫu nhiên trong các trường hợp tử vong như
thế là 1 trên 342 triệu. Kết quả này thật ra là một tích
số của hai trị số P mà ông tính từ một phương pháp kiểm
định thống kê Fisher (còn gọi là Fisher's test, lấy tên của
Ronald Fisher, một "cha đẻ" của thống kê học hiện đại
và một chuyên gia di truyền học nổi tiếng người Anh). Dựa
vào "chứng cứ" này, tòa án Hà Lan kết tội de Berk là giết
người và cố sát, và phạt tù chung thân. De Berk bị dư luận
công chúng và báo chí cho là một người giết người hàng
loạt (serial killer). Riêng de Berk trước sau vẫn duy trì rằng bà
bị oan.
Nhưng nhà toán học Richard Gill cho rằng tòa án đã phạm phải
sai lầm nghiêm trọng. Con số 1/342 triệu là hoàn toàn sai, và
chẳng liên quan gì đến trường hợp của de Berk. Vì dữ liệu
tính toán Elffers thu thập là từ khu điều trị của bệnh viện
mà de Berk phục vụ, chứ không thu thập thêm dữ liệu ở các
bệnh viện khác để so sánh. Thêm vào đó, cách tính của Giáo
sư Elffers là chẳng những cực kì vô lí, mà còn … hài hước;
không một ai học thống kê mà nhân hai trị số P và đi đến
một kết luận. Cách tính của Elffers cho thấy ông ta chẳng
biết gì về thống kê và xác suất. Qua phân tích lại dữ
liệu, Giáo sư Gill ước tính rằng "xác suất tình cờ"
(trong trường hợp của de Berk xuất hiện tại hiện trường)
là 1/48, thậm chí 1/5, chứ nhất định không thể nào 1 trên 342
triệu.
Một sự kiện quan trọng khác mà tòa án không xem xét đến là
trước khi de Berk về làm việc tại bệnh viện Juliana, đã có 7
trường hợp đột ngột tử vong cũng ngay hoặc gần khu điều
trị mà der Berk làm việc. Trong thời gian de Berk làm việc
(1999-2001) có thêm 7 ca tử vong. Sau khi bị các chuyên gia chỉ ra
những sai lầm trong cách tính, một ủy ban đặc nhiệm đã
được tòa án thành lập để thẩm định lại bản án. Các
chuyên gia gồm các bác sĩ và các nhà thống kê học cũng vận
động để kháng án cho de Berk. Đến năm 2008, bà được tạm
trả tự do trong khi điều tra tiếp.
Ngay 14/4/2010 vừa qua, một phiên tòa phúc thẩm đã xem xét lại
bằng chứng và lí giải của các chuyên gia, tòa án bác bỏ
bản án cũ, và tuyên bố bà de Berk vô tội. Công tố viện Hà
Lan phải xin lỗi de Berk. Các luật sư của bà đang "bận rộn"
đòi bồi thường cho thân chủ họ.
<h2>Học xác suất!</h2>
Hai lĩnh vực luật và thống kê có một số điểm tương
đồng, nhưng cũng có điểm khác nhau quan trọng. Cả hai chuyên
môn đều liên quan đến việc thu thập dữ liệu hay bằng
chứng, xác định ý nghĩa của dữ liệu, và đi đến kết
luận dựa vào dữ liệu và logic. Tuy cả hai nhà thống kê học
và luật sư đều có nhiệm vụ cung cấp tư vấn cho khách hàng,
nhưng nhà thống kê học trình bày thông tin một cách khách quan
không thiên vị ai (theo nguyên tắc khoa học), còn luật sư còn
có vai trò biện minh cho khách hàng của mình và do đó họ trình
bày thông tin thiếu tính khách quan. Trong khi giới luật sư và
tòa án đòi hỏi một câu trả lời "có" hoặc "không", "đúng"
hay "sai", thì giới khoa học như nhà thống kê học không bao
giờ phát biểu khẳng định. Đối với khoa học, phương pháp
khoa học và thống kê chẳng chứng minh một giả thuyết nào
cả; mà chỉ có dữ liệu có nhất quán với giả thuyết hay
không mà thôi, và ngay cả kết luận nhất quán cũng kèm theo
một số điều kiện và giả định. Thật vậy, bất cứ kết
luận hay câu trả lời nào của giới khoa học thống kê cũng
đều kèm theo điều kiện và giả định. Mà, trong thực tế,
nhiều khi chúng ta không biết được giả định đúng hay sai.
Do đó, tuy hai ngành nghề đều thu thập bằng chứng, nhưng cách
trình bày và diễn giải bằng chứng thì rất khác nhau.
Đối với khoa học thống kê, bất định là một qui luật hơn
là một ngoại lệ, và đây chính là điểm mâu thuẫn với tòa
án. Trong bất cứ lĩnh vực hoạt động nào của xã hội, trong
cái nhìn của khoa học đều có yếu tố bất định. Mỗi
quyết định của con người, dù là chánh án tối cao, đều có
khả năng sai lầm. Mỗi hành động dù được thực hiện với
ý định tốt nhưng đều có khả năng gây tác hại. Ngược
lại, đối với tòa án, bất định là điều khó chấp nhận,
bởi vì phán quyết của tòa án là xác định. Chính vì do ảo
tưởng xác định nên trong quá khứ tòa án và luật pháp đã
phạm phải nhiều sai lầm, và sai lầm của họ dẫn đến
nhiều tai họa cho nạn nhân, cho người vô tội. Nnhân vô thập
toàn. Không ai có thể tránh sai lầm. Vấn đề đặt ra không
phải là tránh sai lầm (vì điều này không thể), mà là làm sao
tối thiểu hóa sai lầm và sống với bất định một cách sáng
suốt.
Tình trạng bất định được định lượng hóa bằng con số
xác suất. Do đó, sống một cách sáng suốt với bất định
chính là tối thiểu hóa xác suất sai lầm. Các phương pháp
thống kê hiện đại giúp cho chúng ta hạn chế sai lầm đến
mức thấp nhất về lâu về dài. Để hạn chế sai lầm, chúng
ta cần phải hiểu ý nghĩa của con số xác suất và nhất là
giả định đằng sau cách tính.
Về ý nghĩa của xác suất, có hai cách hiểu cơ bản. Cách
hiểu thứ nhất là xác suất là một tần số về lâu về dài.
Nói xác suất sai lầm 1% có thể hiểu rằng trong 100 quyết
định tương tự về lâu về dài sẽ có 1 quyết định sai. Ở
đây, cái mâu thuẫn cơ bản của việc ứng dụng xác suất
trong luật pháp là xác suất là con số được ước tính từ
một quần thể với tử số nhỏ hơn mẫu số, còn quyết
định của tòa án thường cho một cá nhân. Một cá nhân thì
không có mẫu số. Do đó, nhìn như thế để thấy cách hiểu
về xác suất theo ý nghĩa tần số không có giá trị cho tòa
án.
Cách hiểu thứ hai về xác suất là một thước đo về khả
năng, về mức độ tin cậy, hay một thước đo về tình trạng
kiến thức. Nói xác suất ông Obama thắng cứ 90% có nghĩa là
theo cảm nhận cá nhân rằng ông ấy có khả năng thắng cứ cao
hơn là thất cử. Trong thực tế, chúng ta chẳng bao giờ chứng
minh được điều gì 100% (xác định); chúng ta chỉ có thể thu
thập chứng cứ, dữ liệu để tăng khả năng phán quyết đúng
càng cao càng tốt. Nhưng như trường hợp của Lucia de Berk và
Sally Clark cho thấy, vấn đề không phải là dữ liệu, mà là
phương pháp thu thập và phân tích dữ liệu sao cho phù hợp
với nguyên lí khoa học và logic. Do đó, trong thế giới hiện
đại (và luôn luôn bất định), công dân – kể cả các quan
tòa và bồi thẩm đoán – chẳng những phải học chữ, mà còn
phải học xác suất.
***********************************
Entry này được tự động gửi lên từ trang Dân Luận
(http://danluan.org/node/7711), một số đường liên kết và hình
ảnh có thể sai lệch. Mời độc giả ghé thăm Dân Luận để
xem bài viết hoàn chỉnh. Dân Luận có thể bị chặn tường
lửa ở Việt Nam, xin đọc hướng dẫn cách vượt tường lửa
tại đây (http://kom.aau.dk/~hcn/vuot_tuong_lua.htm) hoặc ở đây
(http://docs.google.com/fileview?id=0B_SKdt9lFNAxZGJhYThiZDEtNGI4NC00Njk3LTllN2EtNGI4MGZhYmRkYjIx&hl=en)
hoặc ở đây (http://danluan.org/node/244).
Dân Luận có các blog dự phòng trên WordPress
(http://danluan.wordpress.com) và Blogspot (http://danluanvn.blogspot.com),
mời độc giả truy cập trong trường hợp trang Danluan.org gặp
trục trặc... Xin liên lạc với banbientap(a-còng)danluan.org để
gửi bài viết cho Dân Luận!
Không có nhận xét nào:
Đăng nhận xét