استاندارد CRISP-DM و تصمیم گیری مدیران

دانلود پایان نامه

تحقیقات علمی بر اساس روش گردآوری اطلاعات به دو دسته کلی: تحقیقات توصیفی و تحقیقات آزمایشی طبقه بندی می شوند. پژوهش حاضر از نوع توصیفی می باشد زیرا محقق به دنبال کشف الگوهای پنهان میان داده ها و تشریح و تبیین دلایل چگونه بودن و چرایی این الگوهاست.
مدل فرایندی داده کاوی بر اساس استاندارد CRISP-DM
با توجه به ماهیت تحقیق که استفاده از داده کاوی در کشف روابط و الگوهای پنهان میان داده های سامانه 137 شهرداری تهران می باشد این تحقیق از نوع داده محور محسوب می شود. پایه اصلی تحقیق بر کشف دانش از پایگاه داده مرکز مدیریت شهری 137 شهرداری تهران نهاده شده است. از این رو استاندارد جهانی CRISP-DM جهت انجام فرایند تحقیق مورد استفاده قرار گرفته است که در فصل دوم به مراحل اصلی آن اشاره شد. هم چنین ساختار اجرایی تحقیق بر همین اساس مورد بررسی قرار گرفته است که در ادامه به آن می پردازیم.
با توجه به این که در این تحقیق از تکنیک های متعدد داده کاوی برای مدل سازی استفاده شده است در هر بخش سعی شده الگوریتمی که بیشترین دقت را در مدل سازی ارائه می کند به کار گرفته شود. در فصل بعد به تفصیل به جزئیات الگوریتم های به کار گرفته شده پرداخته می شود.
شناخت کسب و کار
همان گونه که پیشتر اشاره شد؛ یکی از مسائل مهم در عرصه ی مدیریت شهری، نحوه ی ارزیابی شهروندان از عملکرد مدیران شهری، اعتماد به این نهاد و مشارکت در آن است. با رشد فزاینده ی جمعیت در کلان‌شهر تهران و به دنبال آن افزایش مشکلات و مسائل ناشی از شهرنشینی در ابعاد وسیع اقتصادی، اجتماعی، فرهنگی و زیست‌محیطی لزوم ایجاد و استفاده از بسترهای مدیریت شهری جدید همراه با به‌روزترین و کاربردی‌ترین فن آوری‌ها احساس می‌شود. از این رو شهرداری تهران در یک اقدام ابتکاری و با استفاده از فن آوری های نوین ارتباطی در پیاده سازی سامانه مدیریت شهری 137، فصل جدیدی را در ایجاد ارتباط باشهروندان و افزایش مشارکت آنان در زمینه ی شناسایی و اطلاع رسانی مسائل و مشکلات شهری پایه ریزی کرده است.
هم اکنون با گذشت بیش از 6 سال از پیاده سازی این سامانه می توان گفت که داده های ارزشمندی در زمینه مسائل شهری در بانک اطلاعاتی این مرکز جمع آوری شده که با به کارگیری دانش داده کاوی به عنوان یکی از ابزارهای پیاده سازی هوش سازمانی یا Business Intelligence بر روی این داده ها به شهرداری در شناخت درست نیازهای شهروندان و ارائه ی هر چه بهتر خدمات به آنان کمک نمود. نتیجه ی به کارگیری تکنولوژی داده کاوی در این سامانه می تواند منجر به شناسایی الگوهای مهم و پنهانی شود که پیش از آن ممکن است مورد توجه قرار نمی گرفته و دانستن آن مدیران شهری را در ارائه ی مطلوب خدمات شهری به شهروندان یاری می رساند.
شناخت داده ها
داده های اصلی مورد استفاده در این تحقیق از بانک اطلاعاتی مربوط به سامانه 137 شهرداری تهران به دست آمده که طی سال 1389 از طریق روش های 5 گانه ارتباط شهروندان با این مرکز در سراسر مناطق 22 گانه شهرداری تهران جمع آوری شده است. هر پیام در این سامانه دارای یک کد رهگیری مشخص می باشد که از زمان ثبت پیام تا زمان اقدام همراه آن است. بانک اطلاعاتی این سامانه SQL Server 2005 می باشد.
با توجه به این که اطلاعات فرد تماس گیرنده نظیر شماره ی تلفن تماس گیرنده، نام و نام خانوادگی، در صورت تمایل شهروند در سامانه ثبت می شود پس از بررسی مشاهده شد که در حجم وسیعی از رکوردها این فیلد به صورت مقادیر تهی ثبت شده بود و به همین دلیل امکان طبقه بندی تماس ها به تفکیک شهروند میسر نبود ( با در نظر گرفتن این فرض که هر شهروند بیش از 1 بار در سامانه ثبت اطلاعات نموده است).
شرح دقیق فلیدهای جداول به کار رفته در این تحقیق در بخش تحلیل توصیفی آورده شده است.
آماده سازی داده ها
آماده سازی داده ها مهم ترین و زمان بر ترین بخش در انجام یک فرایند داده کاوی است و شامل مواردی هم چون حذف نقاط مغشوش، پر و یا حذف کردن مقادیر مفقوده، تبدیل و یا گسسته سازی و کاهش ابعاد داده هاست. هم چنین در این مرحله باید داده ها به فرمتی مناسب برای استفاده از نرم افزارها و برنامه های داده کاوی تبدیل شوند. در قسمت روش اجرایی تحقیق به شرح فرایندهای انجام شده در مرحله آماده سازی داده ها به تفصیل می پردازیم.
مدل سازی
این مرحله پیاده سازی تکنیک های مدل سازی یا داده کاوی بر روی دیدگاه قابل کاوش ایجاد شده در مرحله قبل است. برای مدل سازی لازم است که ابتدا تکنیک مدل سازی انتخاب شود که در این تحقیق سعی شده است از اکثر تکنیک ها (قابلیت ها) ی داده کاوی نظیر خوشه بندی، درخت تصمیم و قوانین وابستگی در کاوش داده های موجود به کار گرفته شود. در هر مورد الگوریتم های موجود آزمایش و بر اساس نوع و تعداد رکوردهای اطلاعاتی، بهترین الگوریتم انتخاب گردیده است.
برای اعمال این تکنیک ها در تحقیق حاضر از نرم افزار SPPS Clementine به کار گرفته شده است. بدین شکل که داده ها با فرمت های شناخته شده در نرم افزار بارگذاری شده و الگوریتم های مختلف بر روی این مجموعه داده ها اجرا گردیده است. نتایج به دست آمده در فصل چهارم ارائه شده است.
ارزیابی مدل
در این مرحله مدل های طراحی شده در هر بخش مورد ارزیابی قرار می گیرد تا مشخص شود آیا اهداف پیش بینی شده در انجام داده کاوی تامین شده است یا خیر.
توسعه مدل
در آخرین مرحله، گزارش نهایی از محصول که همان دانش کشف شده است را می توان در اختیار شهرداری تهران قرار داد تا راجع به استفاده از نتایج تصمیم گیری نمایند.
با توجه به این که این تحقیق یک تحقیق کاربردی می باشد، نتایج می تواند به صورت یک سیستم جهت تصمیم گیری مدیران شهری کاربرد داشته باشد.
داده های تحقیق
داده های این تحقیق شامل موارد زیر می باشد:
داده های حاصل از تماس شهروندان تهرانی با مرکز سامانه مدیریت شهری137 شهرداری تهران که هر یک به نوعی بیان کننده ی مشکلات شهری در یکی از مناطق 22 گانه شهرداری تهران می باشد و به یکی از روش های 5 گانه ارتباطی که در بخش 2-2-3-1 به آن اشاره شده به این مرکز اطلاع رسانی شده و در بانک اطلاعاتی مربوطه ثبت گردیده است. این داده ها مربوط به سال 1389 می باشد.
داده های جمعیتی شهر تهران به تفکیک مناطق 22گانه شهرداری تهران.
داده های مربوط به وضعیت اعتبار عمرانی مصوب 89 به تفکیک مناطق 22گانه شهرداری تهران.