Perbedaan Regresi Logistik (Logit) dan Probit

Table of Contents

Perbedaan Mendasar Logit dan Probit

Kedua model ini (logit dan probit) menyediakan model statistik yang memberikan probabilitas bahwa variabel respon dependen merupakan bentuk diktonomi yang berupa bilangan biner 0 atau 1. Keduanya sangat mirip dan sering memberikan hasil yang hampir sama, namun karena masing-masing menggunakan fungsi yang berbeda untuk menghitung probabilitas, hasilnya terkadang sedikit berbeda.
 
 
 
 

Preferensi disipliner

Logit – yang sering dikenal sebagai regresi logistik – model ini lebih populer dalam ilmu kesehatan seperti epidemiologi karena koefisien dapat ditafsirkan dalam hal rasio odds. Model-model probit dapat digeneralisasi untuk menjelaskan varian kesalahan yang tidak konstan dalam pengaturan ekonometrik yang lebih maju (dikenal sebagai model probit heteroskedastik) oleh karenanya probit digunakan dalam beberapa konteks oleh para ekonom dan ilmuwan politik.
 
Intinya adalah bahwa perbedaan dalam hasil sangat kecil sehingga kemampuan kita dalam memahami hasil lebih besar daripada perbedaan kecil antara dua pendekatan ini.

 

Logit atau Probit?

Jika terdapat pertanyaan lebih baik, logit atau probit, kesimpulan saya adalah lebih baik menggunakan probit , karena dari hasil hampir memberikan kecocokan statistik untuk data yang sama. Pengecualian yang paling mencolok adalah ketika model logit memberikan kecocokan yang lebih baik adalah Ketika dalam kasus "variabel independen ekstrim" (yang saya jelaskan di bawah).
 
Berikut ini merupakan ringkasan kesimpulan keputusan praktis mengenai apakah model multivariat logit versus probit memberikan kecocokan yang lebih baik terhadap data (kesimpulan ini juga berlaku untuk model univariat, tetapi hanya mensimulasikan efek untuk dua variabel independen):
  • Dalam sebagian besar skenario, model logit dan probit cocok data dengan sama baiknya, dengan dua pengecualian berikut.
  • Logit jelas lebih baik dalam kasus "variabel independen ekstrim" . Ini adalah variabel independen di mana satu nilai terutama besar atau kecil akan sangat sering menentukan apakah variabel dependen adalah 0 atau 1, menimpa efek dari sebagian besar variabel lain. Hahn dan Soyer secara resmi mendefinisikannya demikian (hlm. 4): Tingkat variabel independen yang ekstrim melibatkan pengaruh dari tiga kejadian. Pertama, tingkat variabel independen ekstrim terjadi pada ekstrim atas atau bawah variabel independen. Misalnya, katakanlah variabel independen x mengambil nilai 1, 2, dan 3.2. Level variabel independen ekstrim akan melibatkan nilai-nilai pada x = 3,2 (atau x = 1). Kedua, proporsi yang substansial (misalnya, 60%) dari total n harus berada pada tingkat ini. Ketiga, probabilitas keberhasilan pada tingkat ini sendiri haruslah ekstrem (misalnya, lebih besar dari 99%).
  • Probit lebih baik dalam hal "model efek acak" dengan ukuran sampel sedang atau besar (sama dengan logit untuk ukuran sampel kecil). Untuk model efek tetap, probit dan logit sama baiknya. Saya tidak begitu mengerti apa yang dimaksud Hahn dan Soyer dengan "model efek acak" dalam artikel mereka. Meskipun banyak definisi yang ditawarkan, definisi istilah tersebut sebenarnya ambigu dan tidak konsisten . Tetapi karena logit tidak pernah lebih tinggi dari probit dalam hal ini, intinya diperdebatkan dengan hanya memilih probit.
Berdasarkan analisis Hahn dan Soyer, kesimpulan saya adalah untuk selalu menggunakan model probit kecuali dalam kasus variabel independen ekstrim, di mana logit kasus harus dipilih . Variabel independen ekstrim tidak terlalu umum, dan harusnya mudah dikenali. Dengan aturan praktis ini, tidak masalah apakah model tersebut adalah model efek acak atau tidak. Dalam kasus di mana model adalah model efek acak (di mana probit lebih disukai) tetapi ada variabel independen yang ekstrim (di mana logit lebih disukai), meskipun Hahn dan Soyer tidak mengomentari ini, bahwa efek dari variabel independen ekstrim lebih dominan, dan logit akan lebih disukai.