استاندارد CRISP-DM و پردازش اطلاعات

دانلود پایان نامه

در عمل دو هدف مهم و اساسی داده کاوی، پیش بینی و تشریح است. در پیش بینی، بعضی از متغیرها یا حوزه هایی از مجموعه های داده ای به منظور پیش بینی ارزش ناشناخته یا آینده ی داده های دیگر مورد استفاده قرار می گیرند، از سوی دیگر تشریح، بر یافتن الگوهای تشریحی داده ها که می توانند به وسیله انسان تعبیر شوند تمرکز می نماید. در نتیجه داده کاوی را می توان در یکی از گروه های زیر جای داد:
در داده کاوی پیش بینی کننده با استفاده از داده ها، مدل هایی برای پیش بینی مقادیر متغیرهای مورد نظر تولید می گردد.
داده کاوی تشریحی با استفاده از الگوهایی که در اعداد می یابد به تجزیه و تحلیل و علت یابی یک یا چند پدیده می پردازد.
ازنظر پیش بینی کننده، هدف از داده کاوی تولید مدلی است که با استفاده از یک کد اجرایی، وظایفی چون پیش بینی، دسته بندی، تخمین مقدار، تخمین عملکرد و غیره را انجام دهد.
از نظر تشریح کننده، هدف حصول درکی کامل از سیستم تحلیل شده به وسیله الگوهای پنهان در آن و روابط درون مجموعه های داده ای است(مرکز مطالعات و برنامه ریزی شهر تهران 1388، ص 3).
دلایل استفاده از داده کاوی
در سال های اخیر استفاده از تکنیک های داده کاوی رشد بسیار سریعی داشته است که از دلایل این امر می توان به موارد ذیل اشاره کرد(Gupta 2006):
سهولت تولید داده ها با استفاده از پردازش تحلیلی برخط.
افزایش داده های ایجاد شده از طریق ابزارهای الکترونیکی از قبیل تراکنش های خرید، عملیات بانک، کارت های اعتباری و ماهواره ها.
افزایش داده های ایجاد شده از طریق صفحات وب.
افزایش حجم ابزاهای ذخیره داده ها شامل انواع حافظه ها.
کاهش هزینه های پردازش اطلاعات.
وجود محیط های رقابتی با توجه به جهانی شدن کسب و کار.
وجود نرم افزارهای مفید داده کاوی.
پیش نیازهای یک داده کاوی موفق
برای انجام یک داده کاوی موثر، لازم است قبل از شروع به موارد زیر توجه داشت(Gupta 2006):
ضمن آشنایی کامل با موضوع مورد بحث، مسئله ی داده کاوی به درستی تعریف و تبیین شده باشد.
داده ها موجود باشند.
داده های موجود مرتبط، کافی، مناسب و پاک سازی شده باشند.
مسئله با روش های پرس و جو یا سایر ابزارهای کار با بانکهای اطلاعاتی قابل حل نباشد.
نتایج حاصل از داده کاوی قابل اجرا و عملیاتی باشد.
مراحل فرایند داده کاوی ( استاندارد CRISP-DM )
فرایند CRISP-DM یک متدولوژی استاندارد داده کاوی می باشد که در اواخر سال 1996 توسط سه شرکت بزرگ دایملر کرایسلر (بنز)، SPSS، و NCR ایجاد گردید. این متدولوژی، یک مدل فرایندی برای داده کاوی ارائه می دهد که مروری بر چرخه ی عمر هر پروژه ی داده کاوی بوده و شامل مراحل متناظر با یک پروژه، وظایف مربوطه و ارتباط بین این وظایف می باشد.
گام های این متدولوژی در ادامه بیان شده است.
شکل2-2 مراحل فرایند CRISP-DM (Gupta,2006)
شکل2-2 مراحل فرایند CRISP-DM (Gupta,2006)