Lojistik Regresyon

July 27, 2017 | Autor: Pınar Bayrak | Categoría: Research Methodology, Market Research

Descripción

Lojistik Regresyon Teori ve SPSS Çözümleri Pınar Bayrak 30.10.2013

1

LOJİSTİK REGRESYON Regresyon analizi, herhangi bir değişkenin bir veya birden fazla değişkenle arasındaki ilişkinin matematik bir fonksiyon şeklinde yazılmasıdır1. Lojistik regresyon da bağımlı değişkenin dichotomus, bağımsız değişkenlerin ise kategorik veya sürekli olduğu bir çoklu regresyondur2. Lojistik regresyon da bir regresyon analizi olarak aynı şekilde tanımlanabilir. Ancak, lineer regresyondan gerek teori gerek yapı olarak fark gösterir. Sayabileceğimiz belli başlı farklılıklar şunlardır:  



Lineer regresyonda bağımlı değişken sürekli iken lojistik regresyonda kategoriktir. Sürekli bağımlı değişkene sahip olmadığı için hesaplamalarımızı lineer regresyonda olduğu gibi en küçük kareler yöntemi üzerinden yapamayız. Maksimum Likelyhood Metodu kullanmamız gerekmektedir. Çünkü bağımlı değişkenin normal dağıldığını söyleyemeyiz. Lineer regresyonda teste başlamadan önce test edilmesi gereken önemli varsayımlar bulunmakta iken lojistik regresyonda çoklu doğrusal bağlantı (multicollinearity) ve aykırı değerler (outliers) dışında test etmemiz gereken varsayım bulunmamaktadır.

Lojistik regresyon ikili kategorik bağımlı değişkene sahiptir. Kazan/kaybet, kredi ver/kredi verme, hasta hayatını kaybeder/hasta yaşar vb. Yani bağımlı değişkenimiz 1 veya 0 değerlerinden birisini alır. Buradan yola çıkarak lojistik regresyonun olasılıklar üzerinden çalıştığını söyleyebiliriz. Regresyon formülüne baktığımızda da olasılık hesaplarının modelin temelini oluşturduğunu görebiliriz. Logit (p) = log [p/(1-p)] = ln [p/(1-p)] Logit (p) = log [p/(1-p)] = ln [p/(1-p)] Logit [p(x)] = log [p(x)/1-p(x)]=a+b1x1+b2x2+…..+bixi P = exp(a+b1x1+b2x2+…..+bixi) / 1+exp(a+b1x1+b2x2+…..+bixi) Yukarıda da görüldüğü gibi model, bir olayın gerçekleşme olasılığı ve gerçekleşmeme olasılığının birbirine bölünmesinin doğal logaritmasının alınması ile kurulmaktadır. Logaritmik dağılımın kullanılmasının nedeni dağılımı normalleştirebilmektir. Kısacası kategorik değişken 1 ve 0 iken + sonsuz ile – sonsuz arasında değer alır. Bir örnek yardımı ile hesaplamaların ve olasılıkların önemini açıklamaya çalışalım.

1

Neyran Orhunbilge, Uygulamalı Regresyon ve Korelasyon Analizi, Gözden Geçirilmiş İkinci Baskı, İ.Ü Basım ve Yayınevi Müdürlüğü, İstanbul 2012, s:12 2 Andy Field, Discovering Statistics Using SPSS, Sage Publications, 2005, s:218

2

Tablo:1

Tablo:2 Tablo 1’de verilen değişkenlerden firmaların finansal durumları (FD) ile büyüklükleri (BÜ) arasındaki ilişki incelenerek tek kategorik değişkenli lojistik regresyon modeli açıklanmaktadır Tablo 2’de, firmaların FD ve BÜ değişkenlerine göre dağılımı gösterilmekte ve bu tablodaki bilgilerden yararlanarak aşağıdaki olasılıklar hesaplanmaktadır3: MARJİNAL OLASILIKLAR Herhangi bir firmanın iflas etmeme olasılığı=P(FD=1)= 9/18=0,5 Herhangi bir firmanın iflas etme olasılığı= P(FD=0)= 8/18=0,5 Herhangi bir firmanın büyük olma olasılığı=P(BÜ=1)=8/18=0,44 KOŞULLU OLASILIKLAR Büyük bir firmanın iflas etme olasılığı=P(FD=0 / BÜ=1)=2/8=0,25 Küçük bir firmanın iflas etme olasılığı=P(FD=1 / BÜ=0)=3/10=0,30 Olasılıklar bazı durumlarda üstünlük oranı (odds ratio) olarak da gösterilebilmekte ve olasılık ile üstünlük oranı birbirine çevrilebilmektedir. Örnek olarak yukarıda olasılık olarak ifade ettiğimiz değerleri üstünlük oranı cinsinden ifade edelim: 3

Şeref Kalaycı, SPSS Uygulamalı Çok Değişkenli İstatistik Teknikleri, 5. Baskı, Asil Yayın Dağıtım Ltd. Şti, Ankara 2010, s:277

3 Herhangi bir firmanın iflas etmeme üstünlük oranı= ÜO(FD=1)= 9/9=1 Büyük bir firmanın iflas etmeme üstünlük oranı=ÜO(FD=1 / BÜ=1)=6/2=3 Küçük bir firmanın iflas etmeme üstünlük oranı= ÜO(FD=1 / BÜ=0)=3/7=0,43 Birbirlerine çevrilebileceğini söylemiş olduğumuz olasılıkları üstünlük oranları cinsinden şu şekilde ifade edebiliriz: Büyük bir firmanın iflas etmeme olasılığı P(FD=1 / BÜ=1)=ÜO(FD=1 / BÜ=1)/1+ÜO(FD=1 / BÜ=1)=3/1+3=0,75 Büyük bir firmanın iflas etmeme üstünlük oranı ÜO(FD=1 / BÜ=1)= P(FD=1 / BÜ=1)/ 1- P(FD=1 / BÜ=1)=0,75/1-0,75=3 Sonrasında elde ettiğimiz değerlerin doğal algoritmalarının alınması gerekmektedir. ÜO(FD=1 / BÜ=1)=ln(3)=1,0986 ÜO(FD=1 / BÜ=0)=ln(0,43)=-0,844 Buradan hareketle lojistik regresyon formülümüzü şu şekilde kaleme alabiliriz: Ln[ÜO(FD=1 / BÜ)]=-0,844+1,0986 BÜ Buradan hareketle büyük firmaların iflas etmeme üstünlük oranlarının küçük olanlara kıyasla daha yüksek olacağını söyleyebiliriz. Kısacası 1-0 arasında değişen olasılıkların (üstünlük oranlarının) oluşturduğu bir dağılımdır lojistik regresyon dağılımı. Basit bir grafikle lojistik regresyon dağılımını şu şekilde gösterebiliriz:

SPSS İLE ÇÖZÜM Lojistik regresyona başlamadan önce test varsayımlarının yerine getirilip getirilmediğini kontrol etmemiz gerekmektedir. Yukarıda da bahsettiğimiz üzere çoklu doğrusal bağlantı ve aykırı değer (outlier) olup olmadığını kontrol etmemiz gerekmektedir. Çoklu doğrusal bağlantı olup olmadığını kontrol etmek için “collinearity diagnostics” altında yer alan VIF ve tolerance değerlerine bakmamız gerekmektedir. Tolerance değeri 1’e yakınsa ve VIF değerleri

4 10’dan küçükse çoklu doğrusal bağlantı olmadığını söyleyebiliriz. Ancak lojistik regresyon menüsü altında bu testi yapabilmemize olanak sağlayacak bir araç bulunmamaktadır. Bu nedenle lineer regresyon menüsü altından bu testin sonuçlarını kontrol ettikten sonra lojistik regresyona başlamamız tavsiye edilmektedir4. Bunun için SPSS’in Analyze menüsü altından sırasıyla Regression ve Linear komutları seçilmelidir. Bağımlı değişken yukarıda yer alan dependent alanına atıldıktan sonra bağımsız değişken(ler), independents alanına atılmalıdır. Statistics sekmesinin altından sadece collinearity seçeneği seçilerek analiz yapılır. Kontrol edilmesi gereken tolerance ve VIF değerlerinde bir sorun yoksa analize devam edilebilir. Aykırı değerleri lojistik regresyon altından da kontrol edebildiğimiz için Analyze menüsü altından sırasıyla Regression ve Binary Logistic seçilir. Bağımlı değişken dependent alanına atılır. Bağımsız değişken(ler) ise covariates alanına atılır. Burada dikkat edilmesi gereken en önemli unsur kategorik bağımsız değişkenlerin işaretlenmesidir. Bunun nedeni lineer regresyonda kendi oluşturduğumuz kukla değişkenleri lojistik regresyonun kendisinin hazırlıyor olmasıdır. Bunun için categorical alanına girilerek kategorik değişkenler categorical covariates kısmına atılır. Change contrast alanında contrast alanı default olarak indicator seçeneğinde bırakılır. Referance categori için ise first veya last alanlarından bir tanesi seçilebilir. Burada referans olarak hangi değişkeni almak istediğimize karar vermiş olmaktayız. Değişkenlerimizi tanımladıktan sonra analiz sonuçlarının data setine yazdırılması için save komutuna gireriz. Predicted values alanından probabilities ve group membership; residuals alanından da unstandardized alanları seçilir. Influence’ın altında kalan Cook’s istatistiği ise bize varsayımlarımızdan bir tanesi olan aykırı değer olup olmaması hakkında bilgi vermesi bakımından seçilmesi gereken bir alandır. Options seçeneği altından seçmemiz gerekenler ise sırasıyla; classification plots, Hosmer_Lemeshow goodness of fit, casewise listing of residuals, CI for EXP(B)’dir. Aşağıda yer alan classification cutoff değeri ise hangi değerden sonra olasılığın 1’e veya hangi değerin altında kalırsa 0’a yuvarlanacağı bilgisini vermesi bakımından önemlidir. Genellikle 0,5 olarak seçilir. Son olarak Ok seçilerek analize başlanır. Aldığımız çıktıyı yorumlamak için belli tablolara göz atmamız gerekmektedir. Bunlar: 1) Veriyi özetleyen tablolar: • Case Processing Summary: Örnek büyüklüğü ile ilgili kontrolün yapılabileceği tablodur. Kayıp değer var mı, analize kaç gözlem girdi. Bu tabloya bakarak bilgi sahibi olabiliriz. • Dependent Variable Encoding: Bağımlı değişkenin kodlanma şeklini gösterir. Kategorik bir değişken olduğu için sonuçları yorumlarken bize yardımcı olacak tablolardan bir tanesidir. • Categorical Variable Codings: Kategorik değişkenlerin kodlanma şekillerini ve frekanslarını gösterir. Kategorik değişkenleri modele sokmak için kukla değişken üretirken hangi değişkenin

4

Lojistik regresyon menüsü altında çoklu doğrusal bağlantı testi bulunmamakla birlikte utilities menüsü altında custom dialogs ve custom dialog builder seçenekleri yardımıyla testi istediğimiz şekilde düzenleyip lojistik regresyon altında da varsayım testlerini tanımlayabiliriz.

5 referans olarak alınmış olduğunu kontrol edebileceğimiz tablodur. Bir diğer kullanılma yeri ise az sayıda gözlemler içeren grupların olup olmadığına bakabilmemizdir. 2) Block 0: Beginning Block Bağımsız değişkenler dışarıda tutulduğunda analiz sonuçlarını verir. Bu aslında daha sonra bağımsız değişkenlerin de eklendiği model ile karşılaştırma yapmak için temel sağlar. 3) Block 1: Method=Enter Model, burada test edilmeye başlanır çünkü bağımsız değişkenler burada modele dahil edilir. Modele değişkenler dahil edilip çıkartıldıkça logaritmik olarak likelyhoodun azalıp azalmadığı kontrol edilir5. Bu alanda yer alan test sonuçlarını Block 0 ile karşılaştırır ve yorum yaparız. Bu blok altında yorumlamamız gereken tablolar aşağıdaki gibidir. • Omnibus Test of Model Coefficients: Goodness of fit test olarak ifade edebileceğimiz bir testtir. Block 0’da ve Block 1’de elde ettiğimiz sonuçlar arasında anlamlı bir fark olup olmadığı test edilmektedir. Anlamlılık düzeyleri (significance levels) kontrol edilir. Bu test için kurduğumuz hipotezler şu şekildedir: H0: Block 1 ile Block 0 arasında anlamlı bir fark yoktur. H1: Block 1 ile Block 0 arasında anlamlı bir fark vardır. Sig 0,05 ise modelin-tahminlerin gözlemlerden farklılaşmadığı sonucuna ulaşırız. Kısacası modelin tahmin edebilirliği, gerçek durum ile benzeşmektedir diyebiliriz. • Model Summary: Modelin kullanışlılığının test edildiği bir tablodur. Bağımsız değişkenlerin, bağımlı değişkeni ne kadar açıkladığını gösteriyor (% olarak). Nagelkerke sonuçlarının kullanılması önerilmektedir. • Classification Table: Modelin doğru tahmin yapabilirliğini gösterir. Block 0 ile karşılaştırılır. Modelin genel tahmin düzeyini gösteren overall percentage ve değişkenlerin tekil yüzdelerinin Block 0’dan büyük olması beklenmektedir. Bu durumda bağımsız değişken(ler)in analize dahil edilmesinin modelin tahmin edebilme yeteneğini artırdığını gösterir.

5

Barbara G. Tabachnick & Linda S. Fidell, Using Multivariate Statistics, Third Edition, HarperCollins Publishers, 1996, s:583

6 • Variables in the Equation: Modelde yer alan değişkenlerin önemini gösteren tablodur. Wald Test olarak da adlandırabiliriz. Significance 0,05’den küçük olan değişkenlerin anlamlı olduğunu söyleyebiliriz ancak tüm değişkenleri genellikle modele dahil ederiz. Ancak bu değişkenleri modele dahil etmek istemezsek analizin en başına dönerek bu değişkenleri çalışmadan çıkarmamız daha sağlıklı sonuç verecektir. B sütunu, formülde değişkenlerin katsayılarını verir. İşaretleri, ilişkinin yönünü göstermesi bakımından önemlidir. Exp (B) değerleri ise, değer 1 br değiştiğinde bağımlı değişkeni ne kadar değiştirdiğini gösterir. 1’den küçük bir değer varsa yorumlarken 1/sayı alarak değerlendirme yaparız. • Casewise List: Modelin uymadığı gözlemler sıralanır. Bunlar zresid>=2 olanlardır. 2,5’den büyük olanlar ise daha kolay tespit edilir. Bu veriler ışığında aşağıda yer alan örnek olayları ve SPSS çıktılarını inceleyelim. ÖRNEK 1: SLEEP4ED6 Deneklerin uyku problemi olup olmamasını etkileyen değişkenleri tespit etmek amacıyla bir araştırma düzenlenmiştir. Araştırmada katılımcılardan yaş, cinsiyet, akşam uyudukları süre (saat), uykuda kalma problemleri var mı, uykuya dalma problemleri var mı bilgileri toplanmıştır. Cinsiyet, uykuda kalma problemi ve uykuya dalma problemi olup olmaması bilgileri kategorik olarak toplanmıştır. Analyze-regression-binary logistic sekmeleri altından analize başladıktan sonra elde ettiğimiz tablolar ve yorumları aşağıdaki şekildedir: Önce varsayım testleri yapmalıyız. İlk olarak çoklu doğrusal bağlantı olup olmamasına bakılmalıdır. Tolerance 1’e yakın yüksek, VIF 10’dan küçük. Çoklu doğrusal bağlantı olmadığını söyleyebiliriz. Aykırı değerler için cook’s distance kontrol edilir. Cook’s distance değerlerinde 1’den büyük bir değer yok. Aykırı değer problemi olmadığını söyleyebiliriz. Varsayımlar tamamlandığı için lojistik regresyon analizine geçilebilir. Veriyi özetleyen tablolara bakalım: Case Processing Summary a

Unweighted Cases

N Included in Analysis

Selected Cases

Missing Cases Total

Unselected Cases Total

Percent 241

88,9

30

11,1

271

100,0

0

,0

271

100,0

a. If weight is in effect, see classification table for the total number of cases.

6

Julie Pallant, SPSS Survival Manuel, 4th Edition, Allen Unwin, 2011

7

Buradan yola çıkarak toplam 271 gözlem yapıldığını ancak 30 gözlemin modele dâhil edilmediğini görmekteyiz. Dependent Variable Encoding Original Value

Internal Value

no

0

yes

1

Yukarıdaki tablo bize bağımlı değişkenimizin hangi değerleri aldığını göstermektedir. Burada uyku problemi olmama 0 ile gösterilirken uyku problemi olanlar 1 ile gösterilmektedir. Categorical Variables Codings Frequency

Parameter coding (1)

uykuya dalma problemi var

no

151

,000

mı?

yes

90

1,000

uykuda kalma problemi var

no

138

,000

mı?

yes

103

1,000

female

140

,000

male

101

1,000

cinsiyet

Yukarıdaki tablo ise bize tanımlamış olduğumuz ve birer kukla değişken (dummy variable) yaratmış olduğumuz kategorik değişkenlerin hangilerinin referans olarak alınıp 0 ile gösterildiklerini açıklamaktadır. Block 0: Beginning Block Classification Table

a,b

Observed

Predicted uyku problemi var mı? no

uyku problemi var mı? Step 0

Percentage Correct

yes

no

138

0

100,0

yes

103

0

,0

Overall Percentage a. Constant is included in the model. b. The cut value is ,500

İleride bakacağımız Block 1 ile karşılaştıracağımız tablodur.

57,3

8 Block 1: Method=Enter Omnibus Tests of Model Coefficients Chi-square

Step 1

df

Sig.

Step

76,020

5

,000

Block

76,020

5

,000

Model

76,020

5

,000

Kurduğumuz hipotezler şu şekildedir: H0: Block 1 ile Block 0 arasında anlamlı bir fark yoktur. H1: Block 1 ile Block 0 arasında anlamlı bir fark vardır. Model significance level < 0,05 olduğu için yeni kurduğumuz modelin ilk modelden anlamlı bir şekilde farklı olduğunu söyleyebiliriz. Hosmer and Lemeshow Test Step 1

Chi-square

df

10,019

Sig. 8

,264

Kurduğumuz hipotezler şu şekildedir: H0: Tahmin edilen değerler ile gözlenen değerler arasında anlamlı bir farklılık yoktur. H1: Tahmin edilen değerler ile gözlenen değerler arasında anlamlı bir farklılık vardır. Significance level > 0,05 olmalı. 0,264 burada. Bu nedenle tahmin edilen değerler ile gözlenen değerler arasında anlamlı bir farklılık olmadığı sonucuna ulaşabiliriz. Kısacası modelin tahmin edebilirliği, gerçek durum ile benzeşmektedir. Model Summary Step

1

-2 Log

Cox & Snell R

Nagelkerke R

likelihood

Square

Square

252,976

a

,271

,363

a. Estimation terminated at iteration number 5 because parameter estimates changed by less than ,001.

Burada 0,363 olduğu için biraz düşük olduğunu söyleyebiliriz ancak 0,3’in üzeri kabul edilebilir bir düzeydir. Bu nedenle modelin orta düzeyde açıklayıcılığı olduğunu söyleyebiliriz.

9

Classification Table

a

Observed

Predicted uyku problemi var mı? no

uyku problemi var mı? Step 1

Percentage Correct

yes

no

110

28

79,7

yes

32

71

68,9

Overall Percentage

75,1

a. The cut value is ,500

Block 0’da %57 idi. Burada %75 olduğuna göre modelin tahmin edebilme oranının yükseldiğini söyleyebiliriz. Variables in the Equation B

Step 1

a

S.E.

Wald

df

Sig.

Exp(B)

cinsiyet(1)

-,108

,315

,118

1

,731

,897

yaş

-,006

,014

,193

1

,660

,994

uyku_saati

-,448

,165

7,366

1

,007

,639

1,984

,325

37,311

1

,000

7,274

,716

,339

4,464

1

,035

2,046

1,953

1,451

1,812

1

,178

7,053

uykuda_kalma_proble mi(1) uykuya_dalma_proble mi(1) Constant

a. Variable(s) entered on step 1: cinsiyet, yaş, uyku_saati, uykuda_kalma_problemi, uykuya_dalma_problemi.

Tabloyu kontrol ettiğimizde, cinsiyet ve yaş significance 0,05’den büyük oldukları için modele dahil edilmeyebilir. Yapılması gereken işlem bu değişkenlerin çıkartılıp analizin tekrar yapılmasıdır. Ancak bunun kararı araştırmacıya aittir. Uyku saati, uykuda kalma ve uykuya dalma süreleri ise modeldeki belirgin açıklayıcı değişkenlerdir. Tablodaki katsayılardan yola çıkarak formülü şu şekilde yazabiliriz. Log P(x)=1,953 - 0,108cinsiyet - 0,006yaş - 0,448uyku saati + 1,984uykuda kalma problemi + 0,0716 uykuya dalma problemi • Casewise List: Modelin uymadığı caseler sıralanır. Bunlar zresid>=2 olanlardır. 2,5’den büyük olanlar ise daha kolay tespit edilir. Bu gözlemler analizden çıkarılarak test tekrar yapılabilir. Bunun kararının araştırmacı tarafından verilmesi gerekmektedir.

10

Casewise List Case

Selected a

Status

Observed

Predicted

b

Predicted Group

uyku problemi

Temporary Variable Resid

ZResid

var mı? 42

S

n**

,870 y

-,870

-2,583

224

S

y**

,126 n

,874

2,633

227

S

y**

,133 n

,867

2,554

235

S

y**

,119 n

,881

2,721

265

S

y**

,121 n

,879

2,697

a. S = Selected, U = Unselected cases, and ** = Misclassified cases. b. Cases with studentized residuals greater than 2,000 are listed.

ÖRNEK 2: CORONER HEART DISEASE7 Yaş değişkeninin kalp damar hastalıklarının ortaya çıkmasında belirleyici olup olmadığı araştırılmıştır. Doğası gereği cinsiyet bilgisi kategorik olarak toplanmıştır. Analyze-regression-binary logistic sekmeleri altından analize başladıktan sonra elde ettiğimiz tablolar ve yorumları aşağıdaki şekildedir: Önce varsayım testleri yapmalıyız. Çoklu doğrusal bağlantı olup olmamasına bakılmalıdır ilk sırada. Tolerance 1’e yakın yüksek, VIF 10’dan küçük. Çoklu doğrusal bağlantı olmadığını söyleyebiliriz. Aykırı değerler için cook’s distance kontrol edilir. Cook’s distance değerlerinde 1’den büyük bir değer yok. Aykırı değer problemi olmadığını söyleyebiliriz. Varsayımlar tamamlandığı için lojistik regresyon analizine geçilebilir. Veriyi özetleyen tablolara bakalım: Case Processing Summary a

Unweighted Cases

N Included in Analysis

Selected Cases

Missing Cases Total

Unselected Cases Total

Percent 100

100,0

0

,0

100

100,0

0

,0

100

100,0

a. If weight is in effect, see classification table for the total number of cases.

Bu tablodan yola çıkarak kayıp değerimiz olmadığını söyleyebiliriz. 7

http://www.umass.edu/statdata/statdata/index.html

11

Dependent Variable Encoding Original Value

Internal Value

Absent

0

Present

1

Tablo bize, kalp damar hastalıklarına sahip olmanın 1 ile, hastalığa sahip olmamanın ise 0 ile gösterildiğini söylemektedir. Tek bir sürekli bağımsız değişkene sahip olduğumuz için Categorical Variable Codings tablosu bulunmamaktadır. Block 0: Beginning Block Classification Table

a,b

Observed

Predicted CHD Absent

Percentage Correct

Present

Absent

57

0

100,0

Present

43

0

,0

CHD Step 0

Overall Percentage

57,0

a. Constant is included in the model. b. The cut value is ,500

Block 1: Method=Enter Omnibus Tests of Model Coefficients Chi-square

Step 1

df

Sig.

Step

29,310

1

,000

Block

29,310

1

,000

Model

29,310

1

,000

Kurduğumuz hipotezler şu şekildedir: H0: Block 1 ile Block 0 arasında anlamlı bir fark yoktur. H1: Block 1 ile Block 0 arasında anlamlı bir fark vardır. Model significance level < 0,05 olduğu için yeni kurduğumuz modelin ilk modelden anlamlı bir şekilde farklı olduğunu söyleyebiliriz. Hosmer and Lemeshow Test Step 1

Chi-square ,890

df

Sig. 8

,999

12 Kurduğumuz hipotezler şu şekildedir: H0: Tahmin edilen değerler ile gözlenen değerler arasında anlamlı bir farklılık yoktur. H1: Tahmin edilen değerler ile gözlenen değerler arasında anlamlı bir farklılık vardır. Significance level > 0,05 olmalı. 0,999 burada. Bu nedenle tahmin edilen değerler ile gözlenen değerler arasında anlamlı bir farklılık olmadığı sonucuna ulaşabiliriz. Kısacası modelin tahmin edebilirliği, gerçek durum ile benzeşmektedir. Model Summary Step

-2 Log

Cox & Snell R

Nagelkerke R

likelihood

Square

Square

1

107,353

a

,254

,341

a. Estimation terminated at iteration number 5 because parameter estimates changed by less than ,001.

Burada 0,341 olduğu için biraz düşük olduğunu söyleyebiliriz ancak 0,3’in üzeri kabul edilebilir bir düzeydir. Bu nedenle modelin orta düzeyde açıklayıcılığı olduğunu söyleyebiliriz. Classification Table

a

Observed

Predicted CHD Absent

Percentage

Present

Correct

Absent

45

12

78,9

Present

14

29

67,4

CHD Step 1

Overall Percentage

74,0

a. The cut value is ,500

Block 0’da %57 idi. Burada %74 olduğuna göre modelin tahmin edebilme oranının yükseldiğini söyleyebiliriz. Variables in the Equation B

Step 1

a

AGE Constant

S.E.

Wald

df

Sig.

Exp(B)

,111

,024

21,254

1

,000

1,117

-5,309

1,134

21,935

1

,000

,005

a. Variable(s) entered on step 1: AGE.

Tabloyu kontrol ettiğimizde, yaş değişkeninin significance seviyesi 0,05’den küçük olduğu için açıklayıcı değişken olduğunu söyleyebiliriz. Tablodaki katsayılardan yola çıkarak formülü şu şekilde yazabiliriz. Log P(x)=-5,309 + 0,111yaş

13 b

Case

Selected a Status

Casewise List Observed Predicted Predicted Group CHD

Temporary Variable Resid

ZResid

5

S

P**

,073 A

,927

3,554

16

S

P**

,121 A

,879

2,694

97

S

A**

,857 P

-,857

-2,447

a. S = Selected, U = Unselected cases, and ** = Misclassified cases. b. Cases with studentized residuals greater than 2,000 are listed.

ÖRNEK 3: DEATH PENALTY8 İşlenen suçun ağırlığı ve ırkın, mahkemenin ölüm cezası alıp almama kararında belirleyici olup olmadığını belirlemek amacıyla toplanan veriler analiz edilmek istenmektedir. İşlenen suçun ağırlığı 16 arasında değişen interval bir ölçek yardımıyla ölçülmüştür. Irk değişkeni ise beyaz ve siyah olarak ikili kategorik alınmıştır. Analyze-regression-binary logistic sekmeleri altından analize başladıktan sonra elde ettiğimiz tablolar ve yorumları aşağıdaki şekildedir: Önce varsayım testleri yapmalıyız. Çoklu doğrusal bağlantı olup olmamasına bakılmalıdır ilk sırada. Tolerance 1’e yakın yüksek, VIF 10’dan küçük. Çoklu doğrusal bağlantı olmadığını söyleyebiliriz. Aykırı değerler için cook’s distance kontrol edilir. Cook’s distance değerlerinde 1’den büyük bir değer yok. Aykırı değer problemi olmadığını söyleyebiliriz. Varsayımlar tamamlandığı için lojistik regresyon analizine geçilebilir. Veriyi özetleyen tablolara bakalım: Case Processing Summary a

Unweighted Cases

N Included in Analysis

Selected Cases

Missing Cases Total

Unselected Cases Total

Percent 362

100,0

0

,0

362

100,0

0

,0

362

100,0

a. If weight is in effect, see classification table for the total number of cases.

Kayıp değer yoktur. 362 gözlemin tümü analize dâhil edilmiştir.

8

David W. Hosmer & Stanley Lemeshow & Rodney X. Sturdivant, Applied Logistic Regression, Third Edition, Wiley, 2013

14

Dependent Variable Encoding Original Value

Internal Value

No Death

0

Death

1

Bağımlı değişkenimize baktığımızda ölüm cezası almama 0, alma 1 ile gösterilmektedir. Categorical Variables Codings Frequency

Parameter coding (1)

Black

232

,000

White

130

1,000

Race

Tabloyu kontrol ettiğimizde kategorik bağımsız değişkenimizden siyah ırk referans olarak alınmıştır. Block 0: Beginning Block Classification Table

a,b

Observed

Predicted Death No Death No Death

Percentage Correct

Death

303

0

100,0

59

0

,0

Death Step 0

Death Overall Percentage

83,7

a. Constant is included in the model. b. The cut value is ,500

Block 1: Method=Enter Omnibus Tests of Model Coefficients Chi-square

Step 1

df

Sig.

Step

208,402

2

,000

Block

208,402

2

,000

Model

208,402

2

,000

Kurduğumuz hipotezler şu şekildedir: H0: Block 1 ile Block 0 arasında anlamlı bir fark yoktur. H1: Block 1 ile Block 0 arasında anlamlı bir fark vardır. Model significance level < 0,05 olduğu için yeni kurduğumuz modelin ilk modelden anlamlı bir şekilde farklı olduğunu söyleyebiliriz.

15

Hosmer and Lemeshow Test Step

Chi-square

1

df

Sig.

1,167

4

,884

Kurduğumuz hipotezler şu şekildedir: H0: Tahmin edilen değerler ile gözlenen değerler arasında anlamlı bir farklılık yoktur. H1: Tahmin edilen değerler ile gözlenen değerler arasında anlamlı bir farklılık vardır. Significance level > 0,05 olmalı. 0,884 burada. Bu nedenle tahmin edilen değerler ile gözlenen değerler arasında anlamlı bir farklılık olmadığı sonucuna ulaşabiliriz. Kısacası modelin tahmin edebilirliği, gerçek durum ile benzeşmektedir. Model Summary Step

-2 Log

Cox & Snell R

Nagelkerke R

likelihood

Square

Square

1

113,477

a

,438

,743

a. Estimation terminated at iteration number 7 because parameter estimates changed by less than ,001.

Burada 0,743 olduğu için yüksek düzeyde açıklayıcılık bulunduğunu söyleyebiliriz. Classification Table

a

Observed

Predicted Death No Death No Death

Percentage Correct

Death

297

6

98,0

16

43

72,9

Death Step 1

Death Overall Percentage

93,9

a. The cut value is ,500

Block 0’da %83 idi. Burada %94 olduğuna göre modelin tahmin edebilme oranının yükseldiğini söyleyebiliriz. Variables in the Equation B

S.E.

Wald

df

Sig.

Exp(B)

95% C.I.for EXP(B) Lower

Step 1

a

Upper

Aggression

1,540

,187

67,989

1

,000

4,663

3,234

6,724

Race(1)

1,811

,536

11,406

1

,001

6,114

2,138

17,486

Constant

-6,676

,757

77,683

1

,000

,001

a. Variable(s) entered on step 1: Aggression, Race.

16 Tabloyu kontrol ettiğimizde. Tüm değişkenlerin açıklayıcı olduğunu söyleyebiliriz. Tablodaki katsayılardan yola çıkarak formülü şu şekilde yazabiliriz. Log P(x)=-6,676 + 1,540Agression + 1,811Race Casewise List Case

Selected a

Status

Observed

Predicted

b

Predicted Group

Death

Temporary Variable Resid

ZResid

1

S

D**

,035 N

,965

5,274

2

S

D**

,035 N

,965

5,274

63

S

D**

,006 N

,994

13,042

262

S

D**

,027 N

,973

6,040

297

S

D**

,113 N

,887

2,797

298

S

D**

,113 N

,887

2,797

a. S = Selected, U = Unselected cases, and ** = Misclassified cases. b. Cases with studentized residuals greater than 2,000 are listed.

ÖRNEK 4: MYOPIA9 Kişilerin miyop olmalarında çeşitli faktörlerin etkisi araştırılmaktadır. Bu değişkenleri şu şekilde sıralayabiliriz: Yaş, cinsiyet (kategorik), SPHEQ (Spherical Equivalent Refraction), AL (Axial Length), ACD (Anterior Chamber Depth), LTI (Lens Thickness), VCD (Vitreous Chamber Depth), SPORTHR (Haftada kaç spor yapılıyor), READHR (Haftada kaç saat okuma yapılıyor), COMPHR (Haftada kaç saat bilgisayar karşısında geçiriliyor), STUDYHR (Haftada kaç saat ders çalışılıyor), TVHR (Haftada kaç saat TV seyrediliyor), Mommy (Annede miyop var mı-kategorik),

9

http://www.umass.edu/statdata/statdata/index.html

17 Daddy (Babada miyop var mı-kategorik) Analyze-regression-binary logistic sekmeleri altından analize başladıktan sonra elde ettiğimiz tablolar ve yorumları aşağıdaki şekildedir: Önce varsayım testleri yapmalıyız. Çoklu doğrusal bağlantı olup olmamasına bakılmalıdır ilk sırada. Tolerance 1’e yakın yüksek, VIF 10’dan küçük. Çoklu doğrusal bağlantı olmadığını söyleyebiliriz. Aykırı değerler için cook’s distance kontrol edilir. 1 gözlem için Cook’s distance değerinin 1’den büyük olduğunu görmekteyiz. Çok büyük bir problem taşımamakla birlikte bu gözlemi analizden çıkararak tekrar analizi çalıştırabiliriz. Varsayımlar tamamlandığı için lojistik regresyon analizine geçilebilir. Veriyi özetleyen tablolara bakalım: Case Processing Summary a

Unweighted Cases

N Included in Analysis

Selected Cases

Percent 618

100,0

0

,0

618

100,0

0

,0

618

100,0

Missing Cases Total

Unselected Cases Total

a. If weight is in effect, see classification table for the total number of cases.

618 gözlemden hepsi analize dâhil edilmiştir. Kayıp değer yoktur. Dependent Variable Encoding Original Value

Internal Value

No

0

Yes

1

Bağımlı değişkenimize bakıldığında katılımcının miyop olmaması 0 ile, miyop olması 1 ile gösterilmektedir diyebiliriz. Categorical Variables Codings Frequency

Parameter coding (1)

0

310

,000

1

308

1,000

No

305

,000

Yes

313

1,000

Male

316

,000

Female

302

1,000

DADDY

MOMMY

GENDER

18 Kategorik bağımsız değişkenlerimizden hangilerinin referans alındığını gösteren tablodur. Block 0: Beginning Block Classification Table

a,b

Observed

Predicted MYOPIC No

Percentage Correct

Yes

No

537

0

100,0

Yes

81

0

,0

MYOPIC Step 0

Overall Percentage

86,9

a. Constant is included in the model. b. The cut value is ,500

Block 1: Method=Enter Omnibus Tests of Model Coefficients Chi-square

Step 1

df

Sig.

Step

180,409

14

,000

Block

180,409

14

,000

Model

180,409

14

,000

Kurduğumuz hipotezler şu şekildedir: H0: Block 1 ile Block 0 arasında anlamlı bir fark yoktur. H1: Block 1 ile Block 0 arasında anlamlı bir fark vardır. Model significance level < 0,05 olduğu için yeni kurduğumuz modelin ilk modelden anlamlı bir şekilde farklı olduğunu söyleyebiliriz. Hosmer and Lemeshow Test Step 1

Chi-square 7,452

df

Sig. 8

,489

Kurduğumuz hipotezler şu şekildedir: H0: Tahmin edilen değerler ile gözlenen değerler arasında anlamlı bir farklılık yoktur. H1: Tahmin edilen değerler ile gözlenen değerler arasında anlamlı bir farklılık vardır. Significance level > 0,05 olmalı. 0,489 burada. Bu nedenle tahmin edilen değerler ile gözlenen değerler arasında anlamlı bir farklılık olmadığı sonucuna ulaşabiliriz. Kısacası modelin tahmin edebilirliği, gerçek durum ile benzeşmektedir.

19

Model Summary Step

-2 Log

Cox & Snell R

Nagelkerke R

likelihood

Square

Square

1

299,668

a

,253

,469

a. Estimation terminated at iteration number 7 because parameter estimates changed by less than ,001.

Burada 0,469 olduğu için biraz düşük olduğunu söyleyebiliriz ancak 0,3’in üzeri kabul edilebilir bir düzeydir. Bu nedenle modelin orta düzeyde açıklayıcılığı olduğunu söyleyebiliriz. Classification Table Observed

a

Predicted MYOPIC No

Percentage Correct

Yes

No

521

16

97,0

Yes

46

35

43,2

MYOPIC Step 1

Overall Percentage a.

90,0

The cut value is ,500

b.

Block 0’da %87 idi. Burada %90 olduğuna göre modelin tahmin edebilme oranının yükseldiğini söyleyebiliriz. Variables in the Equation B AGE

df

Sig.

Exp(B)

,225

,030

1

,863

,962

,617

,342

3,250

1

,071

1,854

-4,105

,466

77,482

1

,000

,016

-30,482

39,079

,608

1

,435

,000

ACD

31,626

39,130

,653

1

,419

54341024910536,625

LTI

29,621

39,164

,572

1

,449

7317026310698,471

VCD

30,109

39,101

,593

1

,441

11913712375092,969

-,051

,021

5,809

1

,016

,950

READHR

,080

,049

2,594

1

,107

1,083

COMPHR

,042

,046

,860

1

,354

1,043

STUDYHR

-,173

,097

3,177

1

,075

,841

TVHR

-,016

,029

,294

1

,588

,985

MOMMY(1)

,715

,321

4,956

1

,026

2,044

DADDY(1)

,777

,320

5,882

1

,015

2,175

4,441

8,244

,290

1

,590

84,878

SPHEQ AL

a

Wald

-,039

GENDER(1)

Step 1

S.E.

SPORTHR

Constant

20 Tablodaki katsayılardan yola çıkarak formülü şu şekilde yazabiliriz. Log P(x)=4,441 - 0,039Yaş + 0,617Cinsiyet - 4,105SPHEQ- 30,482AL + 31,626ACD + 29,621LTI + 30,109 VCD - 0,051SPORTHR + 0,08READHR + 0,42COMPHR - 0,173STURYHR - 0,016TVHR + 0,715MOMMY + 0,777DADDY Casewise List Case

Selected a

Status

Observed

Predicted

b

Predicted Group

MYOPIC

Temporary Variable Resid

ZResid

28

S

Y**

,066 N

,934

3,748

78

S

Y**

,139 N

,861

2,491

124

S

Y**

,042 N

,958

4,805

216

S

Y**

,062 N

,938

3,895

245

S

Y**

,053 N

,947

4,243

282

S

Y**

,024 N

,976

6,411

330

S

Y**

,079 N

,921

3,426

346

S

Y**

,004 N

,996

15,041

370

S

Y**

,057 N

,943

4,060

427

S

Y**

,141 N

,859

2,471

494

S

Y**

,128 N

,872

2,609

510

S

Y**

,083 N

,917

3,330

571

S

Y**

,057 N

,943

4,063

587

S

Y**

,047 N

,953

4,478

614

S

Y**

,040 N

,960

4,887

a. S = Selected, U = Unselected cases, and ** = Misclassified cases. b. Cases with studentized residuals greater than 2,000 are listed.

21 KAYNAKÇA Hosmer, David W. & Lemeshow, Stanley & Sturdivant, Rodney X.; Applied Logistic Regression, Third Edition, Wiley, 2013 Field, Andy; Discovering Statistics Using SPSS, Sage Publications, 2005 Kalaycı, Şeref; SPSS Uygulamalı Çok Değişkenli İstatistik Teknikleri, 5. Baskı, Asil Yayın Dağıtım Ltd. Şti, Ankara 2010 Orhunbilge, Neyran; Uygulamalı Regresyon ve Korelasyon Analizi, Gözden Geçirilmiş İkinci Baskı, İ.Ü Basım ve Yayınevi Müdürlüğü, İstanbul 2012 Pallant, Julie; SPSS Survival Manuel, 4th Edition, Allen Unwin, 2011 Tabachnick, Barbara G. & Fidell, Linda S. Using Multivariate Statistics, Third Edition, HarperCollins Publishers, 1996 http://www.umass.edu/statdata/statdata/index.html

Lihat lebih banyak...

Lojistik Regresyon

Descripción

Comentarios