Lojistik Regresyon
Descripción
Lojistik Regresyon Teori ve SPSS Çözümleri Pınar Bayrak 30.10.2013
1
LOJİSTİK REGRESYON Regresyon analizi, herhangi bir değişkenin bir veya birden fazla değişkenle arasındaki ilişkinin matematik bir fonksiyon şeklinde yazılmasıdır1. Lojistik regresyon da bağımlı değişkenin dichotomus, bağımsız değişkenlerin ise kategorik veya sürekli olduğu bir çoklu regresyondur2. Lojistik regresyon da bir regresyon analizi olarak aynı şekilde tanımlanabilir. Ancak, lineer regresyondan gerek teori gerek yapı olarak fark gösterir. Sayabileceğimiz belli başlı farklılıklar şunlardır:
Lineer regresyonda bağımlı değişken sürekli iken lojistik regresyonda kategoriktir. Sürekli bağımlı değişkene sahip olmadığı için hesaplamalarımızı lineer regresyonda olduğu gibi en küçük kareler yöntemi üzerinden yapamayız. Maksimum Likelyhood Metodu kullanmamız gerekmektedir. Çünkü bağımlı değişkenin normal dağıldığını söyleyemeyiz. Lineer regresyonda teste başlamadan önce test edilmesi gereken önemli varsayımlar bulunmakta iken lojistik regresyonda çoklu doğrusal bağlantı (multicollinearity) ve aykırı değerler (outliers) dışında test etmemiz gereken varsayım bulunmamaktadır.
Lojistik regresyon ikili kategorik bağımlı değişkene sahiptir. Kazan/kaybet, kredi ver/kredi verme, hasta hayatını kaybeder/hasta yaşar vb. Yani bağımlı değişkenimiz 1 veya 0 değerlerinden birisini alır. Buradan yola çıkarak lojistik regresyonun olasılıklar üzerinden çalıştığını söyleyebiliriz. Regresyon formülüne baktığımızda da olasılık hesaplarının modelin temelini oluşturduğunu görebiliriz. Logit (p) = log [p/(1-p)] = ln [p/(1-p)] Logit (p) = log [p/(1-p)] = ln [p/(1-p)] Logit [p(x)] = log [p(x)/1-p(x)]=a+b1x1+b2x2+…..+bixi P = exp(a+b1x1+b2x2+…..+bixi) / 1+exp(a+b1x1+b2x2+…..+bixi) Yukarıda da görüldüğü gibi model, bir olayın gerçekleşme olasılığı ve gerçekleşmeme olasılığının birbirine bölünmesinin doğal logaritmasının alınması ile kurulmaktadır. Logaritmik dağılımın kullanılmasının nedeni dağılımı normalleştirebilmektir. Kısacası kategorik değişken 1 ve 0 iken + sonsuz ile – sonsuz arasında değer alır. Bir örnek yardımı ile hesaplamaların ve olasılıkların önemini açıklamaya çalışalım.
1
Neyran Orhunbilge, Uygulamalı Regresyon ve Korelasyon Analizi, Gözden Geçirilmiş İkinci Baskı, İ.Ü Basım ve Yayınevi Müdürlüğü, İstanbul 2012, s:12 2 Andy Field, Discovering Statistics Using SPSS, Sage Publications, 2005, s:218
2
Tablo:1
Tablo:2 Tablo 1’de verilen değişkenlerden firmaların finansal durumları (FD) ile büyüklükleri (BÜ) arasındaki ilişki incelenerek tek kategorik değişkenli lojistik regresyon modeli açıklanmaktadır Tablo 2’de, firmaların FD ve BÜ değişkenlerine göre dağılımı gösterilmekte ve bu tablodaki bilgilerden yararlanarak aşağıdaki olasılıklar hesaplanmaktadır3: MARJİNAL OLASILIKLAR Herhangi bir firmanın iflas etmeme olasılığı=P(FD=1)= 9/18=0,5 Herhangi bir firmanın iflas etme olasılığı= P(FD=0)= 8/18=0,5 Herhangi bir firmanın büyük olma olasılığı=P(BÜ=1)=8/18=0,44 KOŞULLU OLASILIKLAR Büyük bir firmanın iflas etme olasılığı=P(FD=0 / BÜ=1)=2/8=0,25 Küçük bir firmanın iflas etme olasılığı=P(FD=1 / BÜ=0)=3/10=0,30 Olasılıklar bazı durumlarda üstünlük oranı (odds ratio) olarak da gösterilebilmekte ve olasılık ile üstünlük oranı birbirine çevrilebilmektedir. Örnek olarak yukarıda olasılık olarak ifade ettiğimiz değerleri üstünlük oranı cinsinden ifade edelim: 3
Şeref Kalaycı, SPSS Uygulamalı Çok Değişkenli İstatistik Teknikleri, 5. Baskı, Asil Yayın Dağıtım Ltd. Şti, Ankara 2010, s:277
3 Herhangi bir firmanın iflas etmeme üstünlük oranı= ÜO(FD=1)= 9/9=1 Büyük bir firmanın iflas etmeme üstünlük oranı=ÜO(FD=1 / BÜ=1)=6/2=3 Küçük bir firmanın iflas etmeme üstünlük oranı= ÜO(FD=1 / BÜ=0)=3/7=0,43 Birbirlerine çevrilebileceğini söylemiş olduğumuz olasılıkları üstünlük oranları cinsinden şu şekilde ifade edebiliriz: Büyük bir firmanın iflas etmeme olasılığı P(FD=1 / BÜ=1)=ÜO(FD=1 / BÜ=1)/1+ÜO(FD=1 / BÜ=1)=3/1+3=0,75 Büyük bir firmanın iflas etmeme üstünlük oranı ÜO(FD=1 / BÜ=1)= P(FD=1 / BÜ=1)/ 1- P(FD=1 / BÜ=1)=0,75/1-0,75=3 Sonrasında elde ettiğimiz değerlerin doğal algoritmalarının alınması gerekmektedir. ÜO(FD=1 / BÜ=1)=ln(3)=1,0986 ÜO(FD=1 / BÜ=0)=ln(0,43)=-0,844 Buradan hareketle lojistik regresyon formülümüzü şu şekilde kaleme alabiliriz: Ln[ÜO(FD=1 / BÜ)]=-0,844+1,0986 BÜ Buradan hareketle büyük firmaların iflas etmeme üstünlük oranlarının küçük olanlara kıyasla daha yüksek olacağını söyleyebiliriz. Kısacası 1-0 arasında değişen olasılıkların (üstünlük oranlarının) oluşturduğu bir dağılımdır lojistik regresyon dağılımı. Basit bir grafikle lojistik regresyon dağılımını şu şekilde gösterebiliriz:
SPSS İLE ÇÖZÜM Lojistik regresyona başlamadan önce test varsayımlarının yerine getirilip getirilmediğini kontrol etmemiz gerekmektedir. Yukarıda da bahsettiğimiz üzere çoklu doğrusal bağlantı ve aykırı değer (outlier) olup olmadığını kontrol etmemiz gerekmektedir. Çoklu doğrusal bağlantı olup olmadığını kontrol etmek için “collinearity diagnostics” altında yer alan VIF ve tolerance değerlerine bakmamız gerekmektedir. Tolerance değeri 1’e yakınsa ve VIF değerleri
4 10’dan küçükse çoklu doğrusal bağlantı olmadığını söyleyebiliriz. Ancak lojistik regresyon menüsü altında bu testi yapabilmemize olanak sağlayacak bir araç bulunmamaktadır. Bu nedenle lineer regresyon menüsü altından bu testin sonuçlarını kontrol ettikten sonra lojistik regresyona başlamamız tavsiye edilmektedir4. Bunun için SPSS’in Analyze menüsü altından sırasıyla Regression ve Linear komutları seçilmelidir. Bağımlı değişken yukarıda yer alan dependent alanına atıldıktan sonra bağımsız değişken(ler), independents alanına atılmalıdır. Statistics sekmesinin altından sadece collinearity seçeneği seçilerek analiz yapılır. Kontrol edilmesi gereken tolerance ve VIF değerlerinde bir sorun yoksa analize devam edilebilir. Aykırı değerleri lojistik regresyon altından da kontrol edebildiğimiz için Analyze menüsü altından sırasıyla Regression ve Binary Logistic seçilir. Bağımlı değişken dependent alanına atılır. Bağımsız değişken(ler) ise covariates alanına atılır. Burada dikkat edilmesi gereken en önemli unsur kategorik bağımsız değişkenlerin işaretlenmesidir. Bunun nedeni lineer regresyonda kendi oluşturduğumuz kukla değişkenleri lojistik regresyonun kendisinin hazırlıyor olmasıdır. Bunun için categorical alanına girilerek kategorik değişkenler categorical covariates kısmına atılır. Change contrast alanında contrast alanı default olarak indicator seçeneğinde bırakılır. Referance categori için ise first veya last alanlarından bir tanesi seçilebilir. Burada referans olarak hangi değişkeni almak istediğimize karar vermiş olmaktayız. Değişkenlerimizi tanımladıktan sonra analiz sonuçlarının data setine yazdırılması için save komutuna gireriz. Predicted values alanından probabilities ve group membership; residuals alanından da unstandardized alanları seçilir. Influence’ın altında kalan Cook’s istatistiği ise bize varsayımlarımızdan bir tanesi olan aykırı değer olup olmaması hakkında bilgi vermesi bakımından seçilmesi gereken bir alandır. Options seçeneği altından seçmemiz gerekenler ise sırasıyla; classification plots, Hosmer_Lemeshow goodness of fit, casewise listing of residuals, CI for EXP(B)’dir. Aşağıda yer alan classification cutoff değeri ise hangi değerden sonra olasılığın 1’e veya hangi değerin altında kalırsa 0’a yuvarlanacağı bilgisini vermesi bakımından önemlidir. Genellikle 0,5 olarak seçilir. Son olarak Ok seçilerek analize başlanır. Aldığımız çıktıyı yorumlamak için belli tablolara göz atmamız gerekmektedir. Bunlar: 1) Veriyi özetleyen tablolar: • Case Processing Summary: Örnek büyüklüğü ile ilgili kontrolün yapılabileceği tablodur. Kayıp değer var mı, analize kaç gözlem girdi. Bu tabloya bakarak bilgi sahibi olabiliriz. • Dependent Variable Encoding: Bağımlı değişkenin kodlanma şeklini gösterir. Kategorik bir değişken olduğu için sonuçları yorumlarken bize yardımcı olacak tablolardan bir tanesidir. • Categorical Variable Codings: Kategorik değişkenlerin kodlanma şekillerini ve frekanslarını gösterir. Kategorik değişkenleri modele sokmak için kukla değişken üretirken hangi değişkenin
4
Lojistik regresyon menüsü altında çoklu doğrusal bağlantı testi bulunmamakla birlikte utilities menüsü altında custom dialogs ve custom dialog builder seçenekleri yardımıyla testi istediğimiz şekilde düzenleyip lojistik regresyon altında da varsayım testlerini tanımlayabiliriz.
5 referans olarak alınmış olduğunu kontrol edebileceğimiz tablodur. Bir diğer kullanılma yeri ise az sayıda gözlemler içeren grupların olup olmadığına bakabilmemizdir. 2) Block 0: Beginning Block Bağımsız değişkenler dışarıda tutulduğunda analiz sonuçlarını verir. Bu aslında daha sonra bağımsız değişkenlerin de eklendiği model ile karşılaştırma yapmak için temel sağlar. 3) Block 1: Method=Enter Model, burada test edilmeye başlanır çünkü bağımsız değişkenler burada modele dahil edilir. Modele değişkenler dahil edilip çıkartıldıkça logaritmik olarak likelyhoodun azalıp azalmadığı kontrol edilir5. Bu alanda yer alan test sonuçlarını Block 0 ile karşılaştırır ve yorum yaparız. Bu blok altında yorumlamamız gereken tablolar aşağıdaki gibidir. • Omnibus Test of Model Coefficients: Goodness of fit test olarak ifade edebileceğimiz bir testtir. Block 0’da ve Block 1’de elde ettiğimiz sonuçlar arasında anlamlı bir fark olup olmadığı test edilmektedir. Anlamlılık düzeyleri (significance levels) kontrol edilir. Bu test için kurduğumuz hipotezler şu şekildedir: H0: Block 1 ile Block 0 arasında anlamlı bir fark yoktur. H1: Block 1 ile Block 0 arasında anlamlı bir fark vardır. Sig 0,05 ise modelin-tahminlerin gözlemlerden farklılaşmadığı sonucuna ulaşırız. Kısacası modelin tahmin edebilirliği, gerçek durum ile benzeşmektedir diyebiliriz. • Model Summary: Modelin kullanışlılığının test edildiği bir tablodur. Bağımsız değişkenlerin, bağımlı değişkeni ne kadar açıkladığını gösteriyor (% olarak). Nagelkerke sonuçlarının kullanılması önerilmektedir. • Classification Table: Modelin doğru tahmin yapabilirliğini gösterir. Block 0 ile karşılaştırılır. Modelin genel tahmin düzeyini gösteren overall percentage ve değişkenlerin tekil yüzdelerinin Block 0’dan büyük olması beklenmektedir. Bu durumda bağımsız değişken(ler)in analize dahil edilmesinin modelin tahmin edebilme yeteneğini artırdığını gösterir.
5
Barbara G. Tabachnick & Linda S. Fidell, Using Multivariate Statistics, Third Edition, HarperCollins Publishers, 1996, s:583
6 • Variables in the Equation: Modelde yer alan değişkenlerin önemini gösteren tablodur. Wald Test olarak da adlandırabiliriz. Significance 0,05’den küçük olan değişkenlerin anlamlı olduğunu söyleyebiliriz ancak tüm değişkenleri genellikle modele dahil ederiz. Ancak bu değişkenleri modele dahil etmek istemezsek analizin en başına dönerek bu değişkenleri çalışmadan çıkarmamız daha sağlıklı sonuç verecektir. B sütunu, formülde değişkenlerin katsayılarını verir. İşaretleri, ilişkinin yönünü göstermesi bakımından önemlidir. Exp (B) değerleri ise, değer 1 br değiştiğinde bağımlı değişkeni ne kadar değiştirdiğini gösterir. 1’den küçük bir değer varsa yorumlarken 1/sayı alarak değerlendirme yaparız. • Casewise List: Modelin uymadığı gözlemler sıralanır. Bunlar zresid>=2 olanlardır. 2,5’den büyük olanlar ise daha kolay tespit edilir. Bu veriler ışığında aşağıda yer alan örnek olayları ve SPSS çıktılarını inceleyelim. ÖRNEK 1: SLEEP4ED6 Deneklerin uyku problemi olup olmamasını etkileyen değişkenleri tespit etmek amacıyla bir araştırma düzenlenmiştir. Araştırmada katılımcılardan yaş, cinsiyet, akşam uyudukları süre (saat), uykuda kalma problemleri var mı, uykuya dalma problemleri var mı bilgileri toplanmıştır. Cinsiyet, uykuda kalma problemi ve uykuya dalma problemi olup olmaması bilgileri kategorik olarak toplanmıştır. Analyze-regression-binary logistic sekmeleri altından analize başladıktan sonra elde ettiğimiz tablolar ve yorumları aşağıdaki şekildedir: Önce varsayım testleri yapmalıyız. İlk olarak çoklu doğrusal bağlantı olup olmamasına bakılmalıdır. Tolerance 1’e yakın yüksek, VIF 10’dan küçük. Çoklu doğrusal bağlantı olmadığını söyleyebiliriz. Aykırı değerler için cook’s distance kontrol edilir. Cook’s distance değerlerinde 1’den büyük bir değer yok. Aykırı değer problemi olmadığını söyleyebiliriz. Varsayımlar tamamlandığı için lojistik regresyon analizine geçilebilir. Veriyi özetleyen tablolara bakalım: Case Processing Summary a
Unweighted Cases
N Included in Analysis
Selected Cases
Missing Cases Total
Unselected Cases Total
Percent 241
88,9
30
11,1
271
100,0
0
,0
271
100,0
a. If weight is in effect, see classification table for the total number of cases.
6
Julie Pallant, SPSS Survival Manuel, 4th Edition, Allen Unwin, 2011
7
Buradan yola çıkarak toplam 271 gözlem yapıldığını ancak 30 gözlemin modele dâhil edilmediğini görmekteyiz. Dependent Variable Encoding Original Value
Internal Value
no
0
yes
1
Yukarıdaki tablo bize bağımlı değişkenimizin hangi değerleri aldığını göstermektedir. Burada uyku problemi olmama 0 ile gösterilirken uyku problemi olanlar 1 ile gösterilmektedir. Categorical Variables Codings Frequency
Parameter coding (1)
uykuya dalma problemi var
no
151
,000
mı?
yes
90
1,000
uykuda kalma problemi var
no
138
,000
mı?
yes
103
1,000
female
140
,000
male
101
1,000
cinsiyet
Yukarıdaki tablo ise bize tanımlamış olduğumuz ve birer kukla değişken (dummy variable) yaratmış olduğumuz kategorik değişkenlerin hangilerinin referans olarak alınıp 0 ile gösterildiklerini açıklamaktadır. Block 0: Beginning Block Classification Table
a,b
Observed
Predicted uyku problemi var mı? no
uyku problemi var mı? Step 0
Percentage Correct
yes
no
138
0
100,0
yes
103
0
,0
Overall Percentage a. Constant is included in the model. b. The cut value is ,500
İleride bakacağımız Block 1 ile karşılaştıracağımız tablodur.
57,3
8 Block 1: Method=Enter Omnibus Tests of Model Coefficients Chi-square
Step 1
df
Sig.
Step
76,020
5
,000
Block
76,020
5
,000
Model
76,020
5
,000
Kurduğumuz hipotezler şu şekildedir: H0: Block 1 ile Block 0 arasında anlamlı bir fark yoktur. H1: Block 1 ile Block 0 arasında anlamlı bir fark vardır. Model significance level < 0,05 olduğu için yeni kurduğumuz modelin ilk modelden anlamlı bir şekilde farklı olduğunu söyleyebiliriz. Hosmer and Lemeshow Test Step 1
Chi-square
df
10,019
Sig. 8
,264
Kurduğumuz hipotezler şu şekildedir: H0: Tahmin edilen değerler ile gözlenen değerler arasında anlamlı bir farklılık yoktur. H1: Tahmin edilen değerler ile gözlenen değerler arasında anlamlı bir farklılık vardır. Significance level > 0,05 olmalı. 0,264 burada. Bu nedenle tahmin edilen değerler ile gözlenen değerler arasında anlamlı bir farklılık olmadığı sonucuna ulaşabiliriz. Kısacası modelin tahmin edebilirliği, gerçek durum ile benzeşmektedir. Model Summary Step
1
-2 Log
Cox & Snell R
Nagelkerke R
likelihood
Square
Square
252,976
a
,271
,363
a. Estimation terminated at iteration number 5 because parameter estimates changed by less than ,001.
Burada 0,363 olduğu için biraz düşük olduğunu söyleyebiliriz ancak 0,3’in üzeri kabul edilebilir bir düzeydir. Bu nedenle modelin orta düzeyde açıklayıcılığı olduğunu söyleyebiliriz.
9
Classification Table
a
Observed
Predicted uyku problemi var mı? no
uyku problemi var mı? Step 1
Percentage Correct
yes
no
110
28
79,7
yes
32
71
68,9
Overall Percentage
75,1
a. The cut value is ,500
Block 0’da %57 idi. Burada %75 olduğuna göre modelin tahmin edebilme oranının yükseldiğini söyleyebiliriz. Variables in the Equation B
Step 1
a
S.E.
Wald
df
Sig.
Exp(B)
cinsiyet(1)
-,108
,315
,118
1
,731
,897
yaş
-,006
,014
,193
1
,660
,994
uyku_saati
-,448
,165
7,366
1
,007
,639
1,984
,325
37,311
1
,000
7,274
,716
,339
4,464
1
,035
2,046
1,953
1,451
1,812
1
,178
7,053
uykuda_kalma_proble mi(1) uykuya_dalma_proble mi(1) Constant
a. Variable(s) entered on step 1: cinsiyet, yaş, uyku_saati, uykuda_kalma_problemi, uykuya_dalma_problemi.
Tabloyu kontrol ettiğimizde, cinsiyet ve yaş significance 0,05’den büyük oldukları için modele dahil edilmeyebilir. Yapılması gereken işlem bu değişkenlerin çıkartılıp analizin tekrar yapılmasıdır. Ancak bunun kararı araştırmacıya aittir. Uyku saati, uykuda kalma ve uykuya dalma süreleri ise modeldeki belirgin açıklayıcı değişkenlerdir. Tablodaki katsayılardan yola çıkarak formülü şu şekilde yazabiliriz. Log P(x)=1,953 - 0,108cinsiyet - 0,006yaş - 0,448uyku saati + 1,984uykuda kalma problemi + 0,0716 uykuya dalma problemi • Casewise List: Modelin uymadığı caseler sıralanır. Bunlar zresid>=2 olanlardır. 2,5’den büyük olanlar ise daha kolay tespit edilir. Bu gözlemler analizden çıkarılarak test tekrar yapılabilir. Bunun kararının araştırmacı tarafından verilmesi gerekmektedir.
10
Casewise List Case
Selected a
Status
Observed
Predicted
b
Predicted Group
uyku problemi
Temporary Variable Resid
ZResid
var mı? 42
S
n**
,870 y
-,870
-2,583
224
S
y**
,126 n
,874
2,633
227
S
y**
,133 n
,867
2,554
235
S
y**
,119 n
,881
2,721
265
S
y**
,121 n
,879
2,697
a. S = Selected, U = Unselected cases, and ** = Misclassified cases. b. Cases with studentized residuals greater than 2,000 are listed.
ÖRNEK 2: CORONER HEART DISEASE7 Yaş değişkeninin kalp damar hastalıklarının ortaya çıkmasında belirleyici olup olmadığı araştırılmıştır. Doğası gereği cinsiyet bilgisi kategorik olarak toplanmıştır. Analyze-regression-binary logistic sekmeleri altından analize başladıktan sonra elde ettiğimiz tablolar ve yorumları aşağıdaki şekildedir: Önce varsayım testleri yapmalıyız. Çoklu doğrusal bağlantı olup olmamasına bakılmalıdır ilk sırada. Tolerance 1’e yakın yüksek, VIF 10’dan küçük. Çoklu doğrusal bağlantı olmadığını söyleyebiliriz. Aykırı değerler için cook’s distance kontrol edilir. Cook’s distance değerlerinde 1’den büyük bir değer yok. Aykırı değer problemi olmadığını söyleyebiliriz. Varsayımlar tamamlandığı için lojistik regresyon analizine geçilebilir. Veriyi özetleyen tablolara bakalım: Case Processing Summary a
Unweighted Cases
N Included in Analysis
Selected Cases
Missing Cases Total
Unselected Cases Total
Percent 100
100,0
0
,0
100
100,0
0
,0
100
100,0
a. If weight is in effect, see classification table for the total number of cases.
Bu tablodan yola çıkarak kayıp değerimiz olmadığını söyleyebiliriz. 7
http://www.umass.edu/statdata/statdata/index.html
11
Dependent Variable Encoding Original Value
Internal Value
Absent
0
Present
1
Tablo bize, kalp damar hastalıklarına sahip olmanın 1 ile, hastalığa sahip olmamanın ise 0 ile gösterildiğini söylemektedir. Tek bir sürekli bağımsız değişkene sahip olduğumuz için Categorical Variable Codings tablosu bulunmamaktadır. Block 0: Beginning Block Classification Table
a,b
Observed
Predicted CHD Absent
Percentage Correct
Present
Absent
57
0
100,0
Present
43
0
,0
CHD Step 0
Overall Percentage
57,0
a. Constant is included in the model. b. The cut value is ,500
Block 1: Method=Enter Omnibus Tests of Model Coefficients Chi-square
Step 1
df
Sig.
Step
29,310
1
,000
Block
29,310
1
,000
Model
29,310
1
,000
Kurduğumuz hipotezler şu şekildedir: H0: Block 1 ile Block 0 arasında anlamlı bir fark yoktur. H1: Block 1 ile Block 0 arasında anlamlı bir fark vardır. Model significance level < 0,05 olduğu için yeni kurduğumuz modelin ilk modelden anlamlı bir şekilde farklı olduğunu söyleyebiliriz. Hosmer and Lemeshow Test Step 1
Chi-square ,890
df
Sig. 8
,999
12 Kurduğumuz hipotezler şu şekildedir: H0: Tahmin edilen değerler ile gözlenen değerler arasında anlamlı bir farklılık yoktur. H1: Tahmin edilen değerler ile gözlenen değerler arasında anlamlı bir farklılık vardır. Significance level > 0,05 olmalı. 0,999 burada. Bu nedenle tahmin edilen değerler ile gözlenen değerler arasında anlamlı bir farklılık olmadığı sonucuna ulaşabiliriz. Kısacası modelin tahmin edebilirliği, gerçek durum ile benzeşmektedir. Model Summary Step
-2 Log
Cox & Snell R
Nagelkerke R
likelihood
Square
Square
1
107,353
a
,254
,341
a. Estimation terminated at iteration number 5 because parameter estimates changed by less than ,001.
Burada 0,341 olduğu için biraz düşük olduğunu söyleyebiliriz ancak 0,3’in üzeri kabul edilebilir bir düzeydir. Bu nedenle modelin orta düzeyde açıklayıcılığı olduğunu söyleyebiliriz. Classification Table
a
Observed
Predicted CHD Absent
Percentage
Present
Correct
Absent
45
12
78,9
Present
14
29
67,4
CHD Step 1
Overall Percentage
74,0
a. The cut value is ,500
Block 0’da %57 idi. Burada %74 olduğuna göre modelin tahmin edebilme oranının yükseldiğini söyleyebiliriz. Variables in the Equation B
Step 1
a
AGE Constant
S.E.
Wald
df
Sig.
Exp(B)
,111
,024
21,254
1
,000
1,117
-5,309
1,134
21,935
1
,000
,005
a. Variable(s) entered on step 1: AGE.
Tabloyu kontrol ettiğimizde, yaş değişkeninin significance seviyesi 0,05’den küçük olduğu için açıklayıcı değişken olduğunu söyleyebiliriz. Tablodaki katsayılardan yola çıkarak formülü şu şekilde yazabiliriz. Log P(x)=-5,309 + 0,111yaş
13 b
Case
Selected a Status
Casewise List Observed Predicted Predicted Group CHD
Temporary Variable Resid
ZResid
5
S
P**
,073 A
,927
3,554
16
S
P**
,121 A
,879
2,694
97
S
A**
,857 P
-,857
-2,447
a. S = Selected, U = Unselected cases, and ** = Misclassified cases. b. Cases with studentized residuals greater than 2,000 are listed.
ÖRNEK 3: DEATH PENALTY8 İşlenen suçun ağırlığı ve ırkın, mahkemenin ölüm cezası alıp almama kararında belirleyici olup olmadığını belirlemek amacıyla toplanan veriler analiz edilmek istenmektedir. İşlenen suçun ağırlığı 16 arasında değişen interval bir ölçek yardımıyla ölçülmüştür. Irk değişkeni ise beyaz ve siyah olarak ikili kategorik alınmıştır. Analyze-regression-binary logistic sekmeleri altından analize başladıktan sonra elde ettiğimiz tablolar ve yorumları aşağıdaki şekildedir: Önce varsayım testleri yapmalıyız. Çoklu doğrusal bağlantı olup olmamasına bakılmalıdır ilk sırada. Tolerance 1’e yakın yüksek, VIF 10’dan küçük. Çoklu doğrusal bağlantı olmadığını söyleyebiliriz. Aykırı değerler için cook’s distance kontrol edilir. Cook’s distance değerlerinde 1’den büyük bir değer yok. Aykırı değer problemi olmadığını söyleyebiliriz. Varsayımlar tamamlandığı için lojistik regresyon analizine geçilebilir. Veriyi özetleyen tablolara bakalım: Case Processing Summary a
Unweighted Cases
N Included in Analysis
Selected Cases
Missing Cases Total
Unselected Cases Total
Percent 362
100,0
0
,0
362
100,0
0
,0
362
100,0
a. If weight is in effect, see classification table for the total number of cases.
Kayıp değer yoktur. 362 gözlemin tümü analize dâhil edilmiştir.
8
David W. Hosmer & Stanley Lemeshow & Rodney X. Sturdivant, Applied Logistic Regression, Third Edition, Wiley, 2013
14
Dependent Variable Encoding Original Value
Internal Value
No Death
0
Death
1
Bağımlı değişkenimize baktığımızda ölüm cezası almama 0, alma 1 ile gösterilmektedir. Categorical Variables Codings Frequency
Parameter coding (1)
Black
232
,000
White
130
1,000
Race
Tabloyu kontrol ettiğimizde kategorik bağımsız değişkenimizden siyah ırk referans olarak alınmıştır. Block 0: Beginning Block Classification Table
a,b
Observed
Predicted Death No Death No Death
Percentage Correct
Death
303
0
100,0
59
0
,0
Death Step 0
Death Overall Percentage
83,7
a. Constant is included in the model. b. The cut value is ,500
Block 1: Method=Enter Omnibus Tests of Model Coefficients Chi-square
Step 1
df
Sig.
Step
208,402
2
,000
Block
208,402
2
,000
Model
208,402
2
,000
Kurduğumuz hipotezler şu şekildedir: H0: Block 1 ile Block 0 arasında anlamlı bir fark yoktur. H1: Block 1 ile Block 0 arasında anlamlı bir fark vardır. Model significance level < 0,05 olduğu için yeni kurduğumuz modelin ilk modelden anlamlı bir şekilde farklı olduğunu söyleyebiliriz.
15
Hosmer and Lemeshow Test Step
Chi-square
1
df
Sig.
1,167
4
,884
Kurduğumuz hipotezler şu şekildedir: H0: Tahmin edilen değerler ile gözlenen değerler arasında anlamlı bir farklılık yoktur. H1: Tahmin edilen değerler ile gözlenen değerler arasında anlamlı bir farklılık vardır. Significance level > 0,05 olmalı. 0,884 burada. Bu nedenle tahmin edilen değerler ile gözlenen değerler arasında anlamlı bir farklılık olmadığı sonucuna ulaşabiliriz. Kısacası modelin tahmin edebilirliği, gerçek durum ile benzeşmektedir. Model Summary Step
-2 Log
Cox & Snell R
Nagelkerke R
likelihood
Square
Square
1
113,477
a
,438
,743
a. Estimation terminated at iteration number 7 because parameter estimates changed by less than ,001.
Burada 0,743 olduğu için yüksek düzeyde açıklayıcılık bulunduğunu söyleyebiliriz. Classification Table
a
Observed
Predicted Death No Death No Death
Percentage Correct
Death
297
6
98,0
16
43
72,9
Death Step 1
Death Overall Percentage
93,9
a. The cut value is ,500
Block 0’da %83 idi. Burada %94 olduğuna göre modelin tahmin edebilme oranının yükseldiğini söyleyebiliriz. Variables in the Equation B
S.E.
Wald
df
Sig.
Exp(B)
95% C.I.for EXP(B) Lower
Step 1
a
Upper
Aggression
1,540
,187
67,989
1
,000
4,663
3,234
6,724
Race(1)
1,811
,536
11,406
1
,001
6,114
2,138
17,486
Constant
-6,676
,757
77,683
1
,000
,001
a. Variable(s) entered on step 1: Aggression, Race.
16 Tabloyu kontrol ettiğimizde. Tüm değişkenlerin açıklayıcı olduğunu söyleyebiliriz. Tablodaki katsayılardan yola çıkarak formülü şu şekilde yazabiliriz. Log P(x)=-6,676 + 1,540Agression + 1,811Race Casewise List Case
Selected a
Status
Observed
Predicted
b
Predicted Group
Death
Temporary Variable Resid
ZResid
1
S
D**
,035 N
,965
5,274
2
S
D**
,035 N
,965
5,274
63
S
D**
,006 N
,994
13,042
262
S
D**
,027 N
,973
6,040
297
S
D**
,113 N
,887
2,797
298
S
D**
,113 N
,887
2,797
a. S = Selected, U = Unselected cases, and ** = Misclassified cases. b. Cases with studentized residuals greater than 2,000 are listed.
ÖRNEK 4: MYOPIA9 Kişilerin miyop olmalarında çeşitli faktörlerin etkisi araştırılmaktadır. Bu değişkenleri şu şekilde sıralayabiliriz: Yaş, cinsiyet (kategorik), SPHEQ (Spherical Equivalent Refraction), AL (Axial Length), ACD (Anterior Chamber Depth), LTI (Lens Thickness), VCD (Vitreous Chamber Depth), SPORTHR (Haftada kaç spor yapılıyor), READHR (Haftada kaç saat okuma yapılıyor), COMPHR (Haftada kaç saat bilgisayar karşısında geçiriliyor), STUDYHR (Haftada kaç saat ders çalışılıyor), TVHR (Haftada kaç saat TV seyrediliyor), Mommy (Annede miyop var mı-kategorik),
9
http://www.umass.edu/statdata/statdata/index.html
17 Daddy (Babada miyop var mı-kategorik) Analyze-regression-binary logistic sekmeleri altından analize başladıktan sonra elde ettiğimiz tablolar ve yorumları aşağıdaki şekildedir: Önce varsayım testleri yapmalıyız. Çoklu doğrusal bağlantı olup olmamasına bakılmalıdır ilk sırada. Tolerance 1’e yakın yüksek, VIF 10’dan küçük. Çoklu doğrusal bağlantı olmadığını söyleyebiliriz. Aykırı değerler için cook’s distance kontrol edilir. 1 gözlem için Cook’s distance değerinin 1’den büyük olduğunu görmekteyiz. Çok büyük bir problem taşımamakla birlikte bu gözlemi analizden çıkararak tekrar analizi çalıştırabiliriz. Varsayımlar tamamlandığı için lojistik regresyon analizine geçilebilir. Veriyi özetleyen tablolara bakalım: Case Processing Summary a
Unweighted Cases
N Included in Analysis
Selected Cases
Percent 618
100,0
0
,0
618
100,0
0
,0
618
100,0
Missing Cases Total
Unselected Cases Total
a. If weight is in effect, see classification table for the total number of cases.
618 gözlemden hepsi analize dâhil edilmiştir. Kayıp değer yoktur. Dependent Variable Encoding Original Value
Internal Value
No
0
Yes
1
Bağımlı değişkenimize bakıldığında katılımcının miyop olmaması 0 ile, miyop olması 1 ile gösterilmektedir diyebiliriz. Categorical Variables Codings Frequency
Parameter coding (1)
0
310
,000
1
308
1,000
No
305
,000
Yes
313
1,000
Male
316
,000
Female
302
1,000
DADDY
MOMMY
GENDER
18 Kategorik bağımsız değişkenlerimizden hangilerinin referans alındığını gösteren tablodur. Block 0: Beginning Block Classification Table
a,b
Observed
Predicted MYOPIC No
Percentage Correct
Yes
No
537
0
100,0
Yes
81
0
,0
MYOPIC Step 0
Overall Percentage
86,9
a. Constant is included in the model. b. The cut value is ,500
Block 1: Method=Enter Omnibus Tests of Model Coefficients Chi-square
Step 1
df
Sig.
Step
180,409
14
,000
Block
180,409
14
,000
Model
180,409
14
,000
Kurduğumuz hipotezler şu şekildedir: H0: Block 1 ile Block 0 arasında anlamlı bir fark yoktur. H1: Block 1 ile Block 0 arasında anlamlı bir fark vardır. Model significance level < 0,05 olduğu için yeni kurduğumuz modelin ilk modelden anlamlı bir şekilde farklı olduğunu söyleyebiliriz. Hosmer and Lemeshow Test Step 1
Chi-square 7,452
df
Sig. 8
,489
Kurduğumuz hipotezler şu şekildedir: H0: Tahmin edilen değerler ile gözlenen değerler arasında anlamlı bir farklılık yoktur. H1: Tahmin edilen değerler ile gözlenen değerler arasında anlamlı bir farklılık vardır. Significance level > 0,05 olmalı. 0,489 burada. Bu nedenle tahmin edilen değerler ile gözlenen değerler arasında anlamlı bir farklılık olmadığı sonucuna ulaşabiliriz. Kısacası modelin tahmin edebilirliği, gerçek durum ile benzeşmektedir.
19
Model Summary Step
-2 Log
Cox & Snell R
Nagelkerke R
likelihood
Square
Square
1
299,668
a
,253
,469
a. Estimation terminated at iteration number 7 because parameter estimates changed by less than ,001.
Burada 0,469 olduğu için biraz düşük olduğunu söyleyebiliriz ancak 0,3’in üzeri kabul edilebilir bir düzeydir. Bu nedenle modelin orta düzeyde açıklayıcılığı olduğunu söyleyebiliriz. Classification Table Observed
a
Predicted MYOPIC No
Percentage Correct
Yes
No
521
16
97,0
Yes
46
35
43,2
MYOPIC Step 1
Overall Percentage a.
90,0
The cut value is ,500
b.
Block 0’da %87 idi. Burada %90 olduğuna göre modelin tahmin edebilme oranının yükseldiğini söyleyebiliriz. Variables in the Equation B AGE
df
Sig.
Exp(B)
,225
,030
1
,863
,962
,617
,342
3,250
1
,071
1,854
-4,105
,466
77,482
1
,000
,016
-30,482
39,079
,608
1
,435
,000
ACD
31,626
39,130
,653
1
,419
54341024910536,625
LTI
29,621
39,164
,572
1
,449
7317026310698,471
VCD
30,109
39,101
,593
1
,441
11913712375092,969
-,051
,021
5,809
1
,016
,950
READHR
,080
,049
2,594
1
,107
1,083
COMPHR
,042
,046
,860
1
,354
1,043
STUDYHR
-,173
,097
3,177
1
,075
,841
TVHR
-,016
,029
,294
1
,588
,985
MOMMY(1)
,715
,321
4,956
1
,026
2,044
DADDY(1)
,777
,320
5,882
1
,015
2,175
4,441
8,244
,290
1
,590
84,878
SPHEQ AL
a
Wald
-,039
GENDER(1)
Step 1
S.E.
SPORTHR
Constant
20 Tablodaki katsayılardan yola çıkarak formülü şu şekilde yazabiliriz. Log P(x)=4,441 - 0,039Yaş + 0,617Cinsiyet - 4,105SPHEQ- 30,482AL + 31,626ACD + 29,621LTI + 30,109 VCD - 0,051SPORTHR + 0,08READHR + 0,42COMPHR - 0,173STURYHR - 0,016TVHR + 0,715MOMMY + 0,777DADDY Casewise List Case
Selected a
Status
Observed
Predicted
b
Predicted Group
MYOPIC
Temporary Variable Resid
ZResid
28
S
Y**
,066 N
,934
3,748
78
S
Y**
,139 N
,861
2,491
124
S
Y**
,042 N
,958
4,805
216
S
Y**
,062 N
,938
3,895
245
S
Y**
,053 N
,947
4,243
282
S
Y**
,024 N
,976
6,411
330
S
Y**
,079 N
,921
3,426
346
S
Y**
,004 N
,996
15,041
370
S
Y**
,057 N
,943
4,060
427
S
Y**
,141 N
,859
2,471
494
S
Y**
,128 N
,872
2,609
510
S
Y**
,083 N
,917
3,330
571
S
Y**
,057 N
,943
4,063
587
S
Y**
,047 N
,953
4,478
614
S
Y**
,040 N
,960
4,887
a. S = Selected, U = Unselected cases, and ** = Misclassified cases. b. Cases with studentized residuals greater than 2,000 are listed.
21 KAYNAKÇA Hosmer, David W. & Lemeshow, Stanley & Sturdivant, Rodney X.; Applied Logistic Regression, Third Edition, Wiley, 2013 Field, Andy; Discovering Statistics Using SPSS, Sage Publications, 2005 Kalaycı, Şeref; SPSS Uygulamalı Çok Değişkenli İstatistik Teknikleri, 5. Baskı, Asil Yayın Dağıtım Ltd. Şti, Ankara 2010 Orhunbilge, Neyran; Uygulamalı Regresyon ve Korelasyon Analizi, Gözden Geçirilmiş İkinci Baskı, İ.Ü Basım ve Yayınevi Müdürlüğü, İstanbul 2012 Pallant, Julie; SPSS Survival Manuel, 4th Edition, Allen Unwin, 2011 Tabachnick, Barbara G. & Fidell, Linda S. Using Multivariate Statistics, Third Edition, HarperCollins Publishers, 1996 http://www.umass.edu/statdata/statdata/index.html
Lihat lebih banyak...
Comentarios