شهروندان تهران و شهرداری تهران

دانلود پایان نامه
تصدیق کیفیت داده ها و شناسایی داده های هدف
در مرحله ی قبل یک تصویر کلی از وضعیت کسب و کار و اهداف مورد نظر از لحاظ کسب و کار و داده کاوی برای محقق حاصل گردید. در این مرحله با توجه به درک صورت گرفته از این اهداف و وضعیت موجود لازم است تا درک صحیحی از وضعیت داده ها، نحوه ی جمع آوری و اطمینان از کیفیت داده های مورد بررسی، حاصل گردد.
در مجموع مهم ترین اقداماتی که در این بخش به آن ها پرداخته شده تعیین داده های مورد نیاز و نحوه ی دسترسی به آن داده ها می باشد.
در این مرحله برای ارزیابی اولیه از داده های موجود، ابتدا ساختار بانک اطلاعاتی سامانه ی 137 شهرداری تهران با 12 فیلد دریافت گردید. لازم به ذکر است که برخی از فیلدها مثل فیلد نام و شماره تماس شهروند به علت اختیاری بودن حاوی رکوردهای تهی بود که در فرایند تحقیق قابل کاربرد نبودند و لذا از این فرایند حذف گردیدند.
هم چنین اطلاعات مربوط به جمعیت و بودجه مناطق و نیز وضعیت آب و هوای تهران در سال 1389 به ترتیب از وب سایت شهرداری تهران و وب سایت سازمان هواشناسی دریافت و در جداول جداگانه ذخیره گردید.
نکته ی قابل توجه این که نه در سازمان هواشناسی و نه در شهرداری تهران وضعیت آب و هوایی شهر به تفکیک مناطق 22 گانه اندازه گیری و ثبت نمی شود و تنها اطلاعات مذکور به تفکیک ایستگاه های پنج گانه سازمان هواشناسی قابل دسترس می باشد. بنابراین محقق با در نظر گرفتن مجاورت جغرافیایی مناطق درنقشه ی شهر تهران و نیز راهنمایی کارشناسان هواشناسی، اطلاعات هر ایستگاه را برای مناطقی که در همسایگی و
شکل3-1وضعیت ایستگاه های پنج گانه هواشناسی مستقر در شهر تهران می باشد.
مجاورت آن ایستگاه بود تعمیم داد. شکل3-1 نمایانگر وضعیت ایستگاه های هواشناسی مستقر در شهر تهران می باشد. به طور مثال اطلاعات ایستگاه اقدسیه که در منطقه 1 واقع شده است به مناطق 1، 3 و 4 تعمیم داده شد.
آماده سازی داده ها
در این مرحله گام های زیر دنبال شده است که جزئیات آن در ادامه آورده شده است:
جمع آوری و انتخاب داده ها
یکپارچه سازی داده ها
پاکسازی داده ها (کاهش داده ها)
شکل دادن وساخت داده ها (تغییر داده ها)
قالب بندی داده ها ( برای مدل سازی در نرم افزار)
در مرحله قبل داده های هدف، جهت جمع آوری و پالایش مشخص شدند. در این مرحله داده های مرتبط با تماس های مشتریان شناسایی و از تماس های مرتبط با کارمندان و کارکنان سازمان شهرداری تفکیک گردید.
در ادامه فرایند آماده سازی، باید برای پاکسازی و پیش پردازش داده ها، دو عملیات مهم کاهش داده و اعمال تغییرات در شکل داده ها بر روی اطلاعات صورت گیرد.
کاهش اطلاعات عبارت است از تولید یک مجموعه کوچکتر از داده های اولیه که تحت عملیات داده کاوی نتایج تقریبا یکسانی با نتایج داده کاوی روی اطلاعات اولیه به دست می دهد (مرشدلو، 1386)
در این مرحله بر حسب نیاز، عملیات کاهش داده ها به صورت حذف فیلد های شماره تماس ثابت و همراه شهروند – نام و نام خانوادگی شهروند به علت تهی بودن بیش از نیمی از رکوردهای بانک اطلاعاتی صورت گرفت.
همان طور که قبلاً نیز بحث شد داده های بانک اطلاعاتی سامانه 137 در مقطع سال 89 به همراه اطلاعات وضعیت بارندگی و جمعیت و اعتبار مصوب عمرانی در همان سال به منظور تحلیل، انتخاب و گردآوری گردید. پس از بررسی و انتخاب فیلدهای مورد نظر از هر یک از جداول از طریق ایجاد دید های تو در تو در نرم افزار Sql 2008 داده های هر 3 جدول با یکدیگر ترکیب شدند. با عنایت به این موضوع که بیشتر فیلدهای جدول مربوط به اطلاعات پیام ها حاوی رکوردهای فارسی می شد لازم بود تا مقادیر فارسی به کدهای متناظر عددی تبدیل شوند. بنابراین فیلد جدیدی به انتهای جدول پیام ها اضافه و کدهای عددی جای مقادیر منحصر به فرد داده های فارسی را گرفت. در این راستا حذف فاصله های اضافی انتهای رکورد و یکسان کردن حروف عربی و فارسی به کدپیچ واحد از مقدمات کار بود.
با توجه به این که اکثر تحلیل های انجام گرفته در این تحقیق به تفکیک منطقه و یا ناحیه می باشد لذا می بایست وجود مقادیر صحیح کد منطقه و ناحیه در کلیه رکوردهای جدول کنترل می شد. لذا با انجام پرس جو های متعدد از طریق نرم افزار Sql 2008 دو فیلد جدید به انتهای جدول پیام اضافه و مقادیر کد منطقه و ناحیه شناسایی شده که ترکیب آن (نام منطقه – نام ناحیه) در ستون دیگری از همان جدول قرار داشت به صورت عددی و تفکیک شده، اضافه گردید. در مواردی که نام منطقه یا ناحیه در ستون مربوطه آورده نشده بود، تلاش شد تا از طریق ستون متن پیام، مقادیر آن شناسایی گردد. که تکمیل داده ها به این روش بسیار زمان بر بود. البته در مواردی که کد ناحیه ومنطقه از هیچ روشی قابل تعیین نبود به ناچار رکورد مربوط به آن از مجموعه رکوردهای مورد بررسی حذف گردید.
طبق بررسی های انجام شده بر روی داده ها مشخص گردید بخشی از پیام های ثبت شده در این سامانه مربوط به تماس های شهروندان با شهرداری نبوده بلکه مربوط می شود به شکایات یا درخواست های کارکنان و پرسنل سازمان شهرداری از واحدهای اجرایی همان سازمان. بنابراین با توجه به این که اساساً این رکوردها موضوعیتی با نیازها و معضلات شهری شهروندان تهرانی پیدا نمی کرد، به ناچار از مجموعه رکوردهای مورد بررسی حذف گردید.
همان طور که پیش تر گفته شد داده های سامانه 137 (جدول پیام ها) بر اساس نوع و موضوع پیام 644 عنوان دارد که ذیل 51 عنوان کلی طبقه بندی شده است. به عبارت دیگر در مجموع 644 نوع مشکل در سطح شهر تهران شناسایی شده است که هر کدام در یکی از 51 طبقه تعیین شده قرار می گیرد. با بررسی های به عمل آمده بر روی داده ها مشخص شد در برخی از این 51 طبقه، تعداد تماس های شهروندان بسیار کم و ناچیز می باشد. به عبارت دیگر فراوانی بسیار کم آن ها در میان سایر مشکلات نشان دهنده موردی بودن و بی اهمیت بودن مشکلات آن طبقه بود و از آن جا که بیم آن می رفت که در روند تکرار پذیری پیام ها اختلال ایجاد نماید لذا با امکان پرس جوی نرم افزار Sql 2008 این طبقه ها شناسایی و به همراه مشکلات آن طبقه از مجموع داده های مورد بررسی حذف گردیدند.
گفته شد که مرحله آماده سازی داده ها مهم ترین و زمان بر ترین بخش از فرایند داده کاوی محسوب می شود. در این بخش، فارسی بودن اکثر فیلدهای جدول پیام و نیز حجم زیاد رکوردها خود منجر به طولانی تر شدن این مرحله گردید به گونه ای که محقق برای جلوگیری از حذف رکوردهای صحیح ، که به علت رشته ای بودن نوع فیلدها ممکن بود رخ دهد، این مرحله را با صرف زمان و دقت بیشتری به انجام رساند.
در نهایت پس از مرحله آماده سازی، داده ها در قالب SPSS تجمیع و به عنوان ورودی در نرم افزار Clementine مورد استفاده قرار گرفت.
مدل سازی