Penyalahgunaan Statistik (2)

Posted: January 6, 2010 in Serba-Serbi
Tags: ,

Statistics is Fun. Melanjutkan Penyalahgunaan Statistik (1) dari video kuliah intro to computer science:

(2). Hati-hati dengan sampel yang tidak representatif (non-response bias).

Tidak ada yang melakukan studi yang tidak trivial yang mengambil sampel tiap orang. Hanya pembaca pikiran (mind readers) yang tahu apa yang mereka lewatkan. Kecuali, orang-orang dengan sengaja melewatkan sesuatu :) . Hal yang tidak jarang kita lihat.

Ada mantan Profesor di salah satu universitas Amerika, yang mendirikan group penelitian, mengklaim bahwa orang-orang gay di Amerika mempunyai rata-rata jangka waktu hidup 43 tahun. Mereka melakukan studi penuh dengan statistik untuk menunjukkan klaim ini.

Intinya, mereka menghitung angka-angka dengan memeriksa koran-koran gay, cerita kematian, dan pengumuman kematian di koran. Mereka mencatat siapa saja yang ada di koran-koran tersebut yang diberitakan meninggal, mengambil data berapa umur mereka saat meninggal, kemudian menghitung rata-ratanya, dan mengatakan hasilnya 43. Dan tentu saja, mereka kemudian menganalisisnya secara statistik, menunjukkan bagaimana rupa kurvanya, distribusinya, significance-nya. Semua matematikanya valid.

Masalahnya, sampelnya sangat tidak representatif. Apa yang menyebabkan sampelnya tidak representatif? Tidak semua orang-orang gay meninggal saat itu :) . Jika kita melihat pengumuman kematian di koran, kita hanya mendapati orang-orang yang meninggal. Jelas membuat angkanya menjadi lebih kecil. Dan lagi, kita mendapati orang-orang yang hanya diberitakan di koran. Biasanya, koran lebih pada kalangan perkotaan dibanding luar perkotaan. Dan masih banyak lagi problemnya. Percaya atau tidak, paper ini di-publish dan seseorang sudah memeriksa matematikanya. Tetapi faktanya, hal itu tidak relevan karena sampelnya salah.

(3). Data enhancement (Baca datanya lebih daripada yang

diimplikasikannya).

Ini seperti praktikum fisika di SMA. Kita mendapat data yang kita tahu tidak cocok dengan rumusnya, lalu kita perbaiki datanya :) .

Tapi, bukan itu tepatnya. Data enhancement di sini berarti baca datanya lebih daripada yang diimplikasikannya.

Sebagai contoh, ada orang yang memperingatkan untuk berkendara secara aman. Berkendara secara aman merupakan hal bagus. Mereka memberitahukan 400 terbunuh di jalan utama sepanjang akhir pekan. Kedengarannya sangat buruk, sampai kita mengetahui faktanya bahwa kira-kira 400 orang tewas dalam periode 3 hari. Dan faktanya, tidak lebih pada liburan akhir minggu. Mereka hanya melaporkan berapa yang tewas, tetapi tidak memberitahukan konteksnya.

Moralnya, kita menempatkan data sesuai konteksnya. Data yang di luar konteks tanpa perbandingan biasanya tidak berarti.

Varian dari ini adalah ekstrapolasi. Kutipan yang umum di statistik, sebagian besar kecelakaan kendaraan bermotor terjadi dalam jarak 10 mil dari rumah. Memang benar. Tapi apa artinya ini. Orang cenderung mengatakan bahaya berkendara di dekat rumah. Tetapi faktanya, sebagian besar perjalanan dalam jarak 10 mil dari rumah :) . Dan lagi, kita tidak tahu persis rumah yang dimaksud. Rumah berarti di mana mobil diletakkan di garasi yang tercatat dalam form registrasi.

Jadi, data enhancement menyarankan kita menyimpan mobil di Alaska. Dan kita tidak perlu berkendara dalam jarak 10 mil dari rumah sehingga kita menjadi lebih aman :) .

Happy Statistics … :)

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Connecting to %s