تحلیل خوشه ای و ارزیابی نتایج

دانلود پایان نامه

انتخاب تکنیک مدل سازی (فرضیه ها و تکنیک های مدل سازی)
ارزیابی طراحی ( طراحی آزمایشی)
ساخت مدل (پارامترهای انتخاب شده و توصیف مدل)
ارزیابی مدل (سنجش مدل و بازنگری در پارامترهای انتخاب شده)
ارزیابی مدل
در این مرحله مدل طراحی شده مورد ارزیابی قرار می گیرد تا مشخص شود آیا اهداف داده کاوی تامین شده است . به عبارت دیگر باید مشخص شود که آیا مدل برای پاسخگویی به برخی از نیازهای کسب و کار مفید است یا خیر. بعد از ارزیابی مدل ممکن است به بازنگری در اهداف تعیین شده در مرحله ی اول منجر شود (هن و کمبر 2006).
گام های این مرحله عبارتند از:
ارزیابی نتایج
تجدید نظر در فرایند
طراحی گام های بعدی (لیست فعالیت ها و تصمیم های ممکن)
توسعه ی مدل
ایده ی این مرحله به کارگیری پتانسیل های مدل استخراج شده، ترکیب آن با فرایند های تصمیم گیری سازمان، ارائه گزارش هایی در مورد دانش استخراج شده و … می باشد. در این مرحله مدل، پیاده سازی و اجرا می گردد و معمولاً یک رابط گرافیکی مناسب نیز برای کاربران طراحی می شود (هن و کمبر 2006).
گام های این مرحله عبارتند از:
برنامه ریزی برای توسعه
برنامه ریزی برای مانیتور و نگهداری
تولید گزارش نهایی
بازنگری مجدد پروژه
قابلیت های اساسی داده کاوی
طبقه بندی
طبقه بندی فرایند جستجوی مجموعه ای از مدل ها یا توابع است که کلاس های داده ها یا مفاهیم را توصیف یا تفکیک می نماید. تا بتوان از این مدل برای پیش بینی کلاس اشیا استفاده کرد. مدل استخراج شده بر پایه تحلیل مجموعه ای داده های آموزشی یا داده هایی که کلاس آن ها مشخص است می باشد(هن و کمبر 2006).
فرایند طبقه بندی در واقع نوعی یادگیری با ناظر می باشد که طی دو مرحله انجام می گیرد. در مرحله اول مجموعه ای از داده ها که در آن هر داده شامل تعدادی خصوصیتِ دارای مقدار و یک خصوصیت به نام خصوصیتِ کلاس می باشد، برای ایجاد یک مدل داده به کار می رود که این مدل داده در واقع توصیف کننده مفهوم و خصوصیات مجموعه داده هایی است که این مدل از روی آن ها ایجاد شده است. مرحله دوم اعمال فرایند طبقه بندی یا به کارگیری مدل داده ایجاد شده بر روی داده هایی است که شامل تمام خصوصیات داده هایی می شود که برای ایجاد مدل داده به کار گرفته شده اند، به جز خصوصیت کلاس این مقادیر، که هدف از عمل طبقه بندی نیز تخمین مقدار این خصوصیت می باشد(هن و کمبر 2006).
پیش بینی
پیش بینی به هر دو مورد پیش بینی مقادیر عددی و پیش بینی کلاس ها اشاره دارد. پیش بینی شامل شناسایی روند توزیع بر اساس اطلاعات در دسترس است. طبقه بندی و پیش بینی ممکن است نیاز به تجزیه و تحلیل مرتبط داشته باشند تا بتوانند صفاتی را که در فرایند طبقه بندی یا پیش بینی مشارکتی ندارند شناسایی و در صورت تمایل آن ها را حذف نمایند (هن و کمبر 2006).
تحلیل خوشه ای
خوشه بندی، یک جمعیت نامنظم را به مجموعه ای از زیرگروه های منظم تقسیم بندی می کند. برخلاف دسته بندی و پیش بینی که اشیا داده ها را بر اساس کلاس ها تحلیل می کنند، خوشه بندی اشیا داده ها را بدون در نظر گرفتن برچسب های کلاس تحلیل و آنالیز می نمایند. عمدتاً برچسب کلاس ها در داده های آموزشی به آسانی مشخص نیست زیرا این کلاس ها شناخته شده نمی باشند. خوشه بندی گاهی برای تعیین و تولید چنین برچسب هایی به کار می رود. به عبارت دیگر می توان خوشه بندی را به صورت دسته بندی تعریف کرد، با این تفاوت که دسته ها و برچسب آن ها از پیش تعریف شده نبوده و عمل دسته بندی، بدون نظارت انجام می گیرد.
اشیا خوشه بندی شده بر اساس اصل ماکزیمم شباهت بین اعضا هر خوشه و مینیمم شباهت بین خوشه های مختلف گروه بندی می شوند. یعنی خوشه ها به گونه ای تنظیم می شوند که اشیا داخل هر خوشه بیشترین شباهت را با یکدیگر داشته باشند. معیار شباهت وقتی که همه مشخصه ها پیوسته هستند، معمولا با فاصله اقلیدسی بیان می شود، در غیر این صورت یک معیار مناسب برای آن در نظر گرفته می شود.