رگرسیون چندگانه و رگرسیون معمولی

دانلود پایان نامه

بدین ترتیب برآورد ضرایب مستقل ( یعنی بردار ) از طریق حداکثر کردن رابطه فوق بدست می آید که توسط مشتق گیری نسبت به هریک از ضرایب متغیر های مستقل و مساوی صفر قراردادن هر یک از مشتق ها محاسبه می گردد . البته معادلات مزبور جواب تحلیلی ندارند و حل دستگاه معادلات مزبور از طریق روش نیوتن ـ رافسون میسر می گردد .
آزمون معنی دار بودن ضرایب
در رگرسیون لجستیک مانند رگرسیون معمولی معنی دار بودن ضریب یک متغیر را می تون با این فرض آزمون کرد که صفر بودن ضریب مزبور هیچ تاثیری در میزان احتمال موفقیت متغیر وابسته نمی گذارد . در رگرسیون معمولی آزمون معنی دار بودن ضریب یک متغیر مستقل از طریق آماره انجام می شود ، اما در رگرسیون لجستیک از آماره دیگری به نام آماره والد استفاده می شود . آماره والد برای هر یک از ضرایب همچون رگرسیون معمولی نشان دهنده معنی داری ضریب مربوط است . آماره والد برای ضریب برابر است با :

این آماره داری توزیع کای دو با 1 درجه آزادی است.(Whitehead j,2004)
تعیین میزان نیکویی برازش مدل برآورد شده (ارزیابی کارایی مدل )
در رگرسیون لجستیک برای مقایسه کارایی چند مدل مختلف با یکدیگر و یا نیکویی برازش یک مدل خاص آماره های متعددی مورد استفاده قرار می گیرد که از جمله آنها می توان به موارد زیر اشاره نمود (Anderson,1984):
آماره کای دو
همانطور که توضیح داده شد در رگرسیون لجستیک از روش حداکثر درستنمایی برای تعیین ضرایب متغیرهای مستقل استفاده می شود. برای بررسی میزان نیکویی برازش مدل برآورد شده ، روشی مشابه رگرسیون چندگانه بکار می رود . بدین منظور دو فرضیه زیر در نظر گرفته می شود :
H0=مدل مفروض با داده ها تطابق دارد
H1=مدل مفروض با داده ها تطابق ندارد
واضح است که قبول فرضیه (عدم رد آن) ، زمانیکه مدل مفروض بر اساس ضرایب برآورد شده است مطلوب خواهد بود . آماره ای که برای آزمون فرضیه فوق بکار می رود براساس تابع درستنمایی قسمت قبل ساخته می شود. به واقع تابع درستنمایی، احتمال اینکه تمام مشاهدات از جامعه مورد نظر باشند را نشان می دهد. برای آزمون فرضیه صفر مقدار تابع درستنمایی تحت تابع لگاریتم بصورت -2ln L در نظر گرفته
می شود.
آماره -2ln L دارای توزیع کای دو با n-q درجه آزادی است که در آن n تعداد مشاهدات و q تعداد پارامتر های برآورد شده در مدل می باشد . در نتیجه مدل دو نوع آماره بدست می دهد ، یکی برای حالتی که تمام ضرایب به غیر از مقدار ثابت صفر باشند که آنرا با (-2ln L)null نشان می دهیم و مربوط به حالتی است که همه ضرایب مربوط به متغیرهای مستقل صفر هستند . این امر حاکی از بی اثر بودن متغیرهای مستقل در توضیح مدل مورد نظر می باشد. حالت دیگر مربوط به نتایج بدست آمده از برآورد ضرایب متغیرها می باشد که با(-2ln L)Model نشان داده می شود. بدین ترتیب با فرض توزیع کای دو برای آماره اخیر می توان معنی دار بودن آنرا در سطح 5% مورد آزمون قرار داد . بر این اساس برای حالتی که مثلاً تمام ضرایب متغیر های مستقل صفر است می توان آماره (-2ln L)null را بعنوان آماره کای دو با n-1 درجه آزادی (تعداد پارامترهای مدل فقط مقدار ثابت است) تحت آزمون فرضیه به ترتیب زیر در نظر گرفت .
H0=مدل مفروض (صفر بودن تمام ضرایب متغیرهای مستقل) با داده ها تطابق دارد.
H1=مدل مفروض (صفر بودن تمام ضرایب متغیرهای مستقل) با داده ها تطابق ندارد.
در صورتیکه این مقدار در منطقه رد آزمون قرار بگیرد فرض بی اثر بودن متغیرهای مستقل مدل در سطح مثلاً 5% رد شده و مدل برازش شده معنی دار خواهد بود . به همین ترتیب با در نظر گرفتن آماره (-2ln L)Model به عنوان آماره کای دو با n-k-1 درجه آزادی ( k تعداد متغیرهای مستقل می باشد ) می توان مفروضات زیر را مورد آزمون قرار داد :
H0=مدل مفروض ( بر اساس ضرایب بدست آمده ) با داده ها تطابق دارد
H1=مدل مفروض (بر اساس ضرایب بدست آمده ) با داده ها تطابق ندارد
در این صورت اگر آماره مورد نظر در ناحیه رد در سطح معنی داری 5% قرار نگیرد مدل برازش شده معنی دار است . البته به صورت دیگری نیز می توان براساس اختلاف آماره های مزبور یعنی :
(-2lnL)null – (-2lnL)model ) LR (آماره
که دارای توزیع کای دو با (n-1)-(n-k-1)=k درجه آزادی است ، معنی داری کل مدل را مورد آزمون قرار داده و فرضیه های آزمون را به شرح زیر در نظر گرفت :
H0= همه ضرایب برابر صفر است
H1=همه ضرایب غیر صفر است
بر این اساس تاثیر ورود متغیر های مستقل در بهبود مدل سنجیده می شود . در این صورت اگر آماره مزبور در سطح 5% در ناحیه رد قرار گیرد فرضیه صفر مبنی بر بی اثر بودن متغیر های مستقل رد خواهد شد.
پس بدین ترتیب در این رگرسیون ، معنی دار بودن ضرایب با آزمون کای دو در هر مرحله برای تعیین متغیرها مشخص می گردد ، مشروط بر اینکه متغیرها بتوانند از مدل حذف شوند .
نحوه عمل به این شکل است که ابتدا مدل با متغیرهای متعدد و با آمارهای موجود که می تواند به صورت سری زمانی ، مقطعی و یا تابلوئی باشد برآورد و سپس متغیرهای مستقل مناسب شناسایی و مدل نهایی تدوین و ضرایب مدل برآورد می شود .