موقعیت جغرافیایی و مدل های رگرسیون

دانلود پایان نامه

به عنوان شاخه ای از آمار، خوشه بندی برای سال ها به صورت وسیعی مورد مطالعه قرار گرفته و بر روی تحلیل فاصله متمرکز شده است. ابزارهای خوشه بندی که مبتنی بر K-means و K-mediods و روش هایی مانند آن ها هستند در خیلی از بسته های آماری مانند Spss، S-plus و Sas وجود دارند. آنالیز خوشه ای کاربردهای گسترده ای دارد که عبارتند از: شناسایی متن، آنالیز داده، پردازش تصویر و تحقیقات بازار و … ( هن و کمبر، 2006، رومرو 2007)
تخمین
تخمین با نتایج مجزایی که با ارقام پیوسته نشان داده شده اند، سرو کار دارد. در تخمین، داده های ورودی در قالب متغیرهای ورودی به سیستم داده می شود و متغیرهای خروجی آن رقمی چون درآمد یا تراز کارت اغتباری می باشد.
در عمل، تخمین اغلب برای دسته بندی استفاده می شود. روش تخمین فواید زیادی دارد که مهم ترین آن این است که در آن اطلاعات را می توان مطابق تخمین به دست آمده مرتب نمود. برای پی بردن به اهمیت آن فرض کنید که یک شرکت تولید پوتین های اسکی برای ارسال پانصد هزار آگهی تبلیغاتی محصول جدید خود بودجه ریزی نموده است. فرض کنید از روش دسته بندی استفاده شده و یک و نیم میلیون نفر اسکی باز تعیین شده اند، پس به راحتی می توان به صورت تصادفی، تبلیغات را برای پانصد هزار نفر منتخب از آن افراد ارسال نمود؛ در حالی که اگر مدل تخمین، امتیاز تمایل به اسکی را برای کلیه افراد تعیین نماید شایسته است که تبلیغات را برای پانصد هزار نفر از محتمل ترین کاندیداها فرستاد. پر واضح است که احتمال پاسخ گیری و ارسال تبلیغات بر اساس مدل تخمین بسیار بیشتر از ارسال تصادفی تبلیغات می باشد
مدل های رگرسیون و شبکه های عصبی از جمله تکنیک های مناسب داده کاوی برای تخمین می باشد (شهرابی، 1390).
گروه بندی شباهت یا قوانین وابستگی
قوانین وابستگی برای تعیین ویژگی های هم زمانی هستند که در وقوع یک پدیده رخ می دهند. به عبارت دیگر عمل گروه بندی شباهت یا قوانین وابستگی احتمال وقوع و یا عدم وقوع هم زمان ویژگی ها را تعیین می نماید.به عبارت ساده تر گروه بندی شباهت تعیین می کند که چه چیزهایی با هم جورند؛ مثال معمول این موضوع تعیین کالاهایی است که با هم در یک چرخ دستی خرید در سوپرمارکت قرار می گیرند، چیزی که آن را تحلیل سبد بازار می نامیم
گروه بندی شباهت بک روش ساده برای ایجاد قوانین از داده هاست. اگر دو قلم کالا مثلا شیر خشک و پوشک نوزاد در یک قفسه و کنار هم چیده شوند، می توان دو قانون وابستگی ایجاد کرد(شهرابی، 1390):
افرادی که شیر خشک نوزاد می خرند هم چنین با احتمال 1 Pپوشک نوزاد را می خرند.
افرادی که پوشک نوزاد می خرند هم چنین با احتمال 2 P شیر خشک نوزاد را هم می خرند.
تعیین قواعد وابستگی معمولاً در بانک اطلاعات تراکنش ها کاربرد دارد. در این روش که به صورت قواعد اگر_ آنگاه (X->Y) بیان می شود، هم زمان واقع شدن X و Y با Support و شانس وقوع قاعده با Confidence بیان می شود. Support بالای یک قاعده، نشان دهنده ی تکرار زیاد و نیاز به توجه ویژه به آن و Confidence بالا نشان دهند ی صحت کافی قاعده برای استفاده در تصمیم گیری هاست. مقادیر Support و Confidence به روش زیر محاسبه می گردد:
تعداد کل/تعداد تکرارX =Support(X)
تعداد کل/تعداد تکرارX و Y باهم =Support(XY)
Confidence(X->Y) =Support (XY)/Support(X)
توصیف و نمایه سازی
گاهی اوقات هدف داده کاوی، تنها توصیف آن چیزی است که در یک پایگاه داده ای پیچیده در جریان است. نتایج نمایه سازی درک ما را از مردم، محصولات یا فرایندهایی که داده ها را در مرحله اول تولید کرده اند افزایش می دهد. درحقیقت نمایه سازی یک روش آشنا برای بسیاری از مسائل است که نیاز به درگیر شدن با تحلیل پیچیده داده ها ندارد. به عنوان مثال مطالعه و نظرسنجی یک روش رایج برای ساختن نمایه مشتریان است. مطالعات و نظر سنجی ها نشان می دهند که مشتریان بالفعل و بالقوه چه مشخصاتی دارند یا حداقل این که چطور پاسخ دهندگان به سوالات پاسخ می دهند.
نمایه ها معمولاً مبتنی بر متغیرهای جمعیت شناختی هم چون موقعیت جغرافیایی، جنسیت و سن هستند؛ از آن جا که تبلیغات با توجه به همین متغیرها انجام می شود، نمایه های جمعت شناختی را می توان مستقمیاً به استراتژی های سازمانی تبدیل کرد. به طور مثال از نمایه های ساده برای تعیین حق بیمه استفاده می شود؛ یک پسر 17 ساله بیش تر از یک زن 60 ساله برای بیمه خودرو بایستی پرداخت کند.
درخت تصمیم گیری ابزار مفیدی برای نمایه سازی می باشد؛ قوانین وابستگی و خوشه بندی را نیز می توان برای نمایه سازی استفاده نمود(شهرابی، 1390).
دسته بندی الگوریتم های داده کاوی
به طور کلی الگوریتم های داده کاوی را می توان به سه دسته اصلی تقسیم نمود(نخعی زاده، 1388):
الگوریتم های با رویکرد یادگیری ماشینی:
از این دسته الگوریتم ها می توان به الگوریتم های استنتاج مبتنی بر قواعد، درخت های تصمیم، شبکه های عصبی و خوشه بندی بر مبنای مفاهیم اشاره کرد.
الگوریتم های با رویکرد آمار:
تحلیل خوشه بندی، تحلیل رگرسیون و تحلیلی رگرسیون لجستیک از این دسته الگوریتم ها می باشند.
الگوریتم های با رویکرد فن آوری های بانک های اطلاعاتی:
قواعد وابستگی، نمونه ای از این دسته از الگوریتم ها می باشند.