آموزش شبکه عصبی و مرحله یادگیری

دانلود پایان نامه

اجرای الگوریتم نظارت‌شده
همانطور که در شکل مشاهده می‌گردد در این مرحله به وسیله خروجی بدست آمده از فاز قبل(الگوریتم بدون ناظر) به عنوان ورودی، با الگوریتم‌‌هایی که در فصل دو ذکر شد شش شبکه عصبی را آموزش داده و در پایگاه دانش ذخیره می نمائیم. توجه شود که گزینه جلوگیری از آموزش بیش از حد، به صورت تصادفی داده را به دو مجموعه آموزش و اعتبار سنجی برای ساخت مدل تقسیم می‌کند. شبکه بر اساس داده آموزش ساخته می‌شود صحت آن با استفاده از داده آزمون بررسی می‌گردد. با توجه به اینکه قبلا داده‌‌ها توسط گره پارتیشن به دو گروه آموزش و تست تقسیم شده اند و استفاده مجدد از این گزینه منجر به تقسیم شدن مجدد پارتیشن آموزش می گردد و با توجه به اینکه در این مسله خاص تعداد رکورد‌های آموزش کم(حدودا 20 رکورد) است از انتخاب این گزینه صرف نظر شده است. البته با توجه به اینکه تعداد نمونه‌‌های مشکوک به نسبت کل نمونه‌‌های انبار داده ناچیز و منجر به عدم توازن در داده‌‌ها و تاثیر نامطلوب در آموزش شبکه عصبی دارد با نمونه گیری این مسئله را مرتفع می‌نماییم(شکل ‏416 ).

شکل ‏4 16 اجرای الگوریتم‌‌های نظارت‌شده
جمع‌آوری نتایج
پس از اجرای الگوریتم‌های داده‌کاوی با توجه به تعداد بالای افراد مشکوک که بر این اساس به دست میایند برای کوتاه کردن لیست این افراد آن‌ها را بر حسب شاخص پولشویی مرتب نموده و گزارشی شامل داده‌‌های دارای شاخص بالاتر از آستانه از بین آن‌ها استخراج و در اختیار بازرسان قرار می دهیم. نتایج به دست آمده همانطور که در بخش ارزیابی نتایج به آن اشاره شد مورد بازبینی و در صورت نیاز تغییراتی در مراحل قبلی اعمال گردید.
ارائه گزارش موارد مشکوک و پرت
برای ارائه گزارش نیز همانطور که قبلاً در همین فصل نیز اشاره شد، یک گزارش براساس داده‌‌های پرت و یک گزارش بر اساس داده‌‌های غیر متعارف تهیه و پس از مرتب سازی ارائه گردید.
ارزیابی
هر پروژه داده کاوی شرایط منحصر بفرد خود را دارد و ممکن است نتایج داده کاوی که دو پژوهشگر بر روی یک مجموعه داده مشابه انجام می دهند با هم یکسان نباشند. اما اگر در فرآیند داده کاوی از استاندارد‌ها پیروی کرده باشند، باید نتایج نزدیک به هم باشد. گاهی نیز نتایج به ابزار پردازشی مورد استفاده وابستگی دارد. برای نمونه برای مقایسه زمان ساختن مدل‌ها، هرچه ابزار پردازشی از توانمندی بیشتری برخوردار باشد، زمان ساخت مدل کوتاهتر می شود و یا هرچه ابزار پردازشی توانایی بیشتری داشته باشد، می توان از حجم بیشتری از داده‌‌ها برای مرحله یادگیری بهره برد. از سویی دیگر بخش مهمی از فرآیند داده کاوی مربوط به پیش پردازش داده‌‌هاست و کار‌هایی که در این مرحله بر روی داده‌‌ها انجام می گیرد، تا حد زیادی بر روی کیفیت نتایج حاصل موثر است. بنابراین برای اطمینان هر چه بیشتر از نتایج، تکرار چندباره مراحل فرآیند داده کاوی لازم است. این کار موجب بالا رفتن پایداری نتایج حاصل می شود. در این پژوهش نیز چندین و چند مرتبه مدل‌‌ها ساخته و ارزیابی شده و بر اساس نتایج حاصل، برای رسیدن به نتایج مطلوب تر، پارامتر‌های الگوریتم‌‌ها بهینه سازی شده اند. در تنظیم پارامتر‌های هر الگوریتم، تلاش شده تاثیر تک تک پارامتر‌های یک الگوریتم ارزیابی شود. گرچه به دلیل زیاد بودن شمار پارامتر‌های برخی الگوریتم‌‌ها، آزمایش تمام حالت‌‌ها امکان پذیر نیست. به هر حال اعتقاد بر این است در روند کسب نتایج، دقت لازم به خرج داده شده است و نتایج ارائه شده به اندازه لازم از اطمینان بالایی برخوردارند. در ادامه این فصل نتایج حاصل از داده کاوی بوسیله الگوریتم‌‌های مختلف بر روی مجموعه داده موجود، ارائه و ارزیابی شده اند.
نحوه تست
تست و ارزیابی مدل و قسمت‌های مختلف عملیات به طور کلی به دو قسمت تقسیم میشود، قسمت اول مربوط به نتایج فنی میباشد و قسمت دوم مربوط به نتایج عملیاتی طرح میباشد. در تست نتایج درفاز بدون ناظر از نظر فنی با توجه به ابزار‌های موجود و نرم افزار‌های بانکی پس از اجرای عملیات در هر دو مرحله داده‌‌های بدست آمده مجدداً از طریق اجرای کوئری روی پایگاه داده بررسی می‌گردد و صحت انجام عملیات تست می‌گردد.
در فاز بعدی دقت و بازآوری دو معیار از شناخته شده‏ترین معیار‌های دسته‏بندی می‏باشند که در فصل دوم بدان پرداختیم؛ دقت بیان می‏کند که از مجموعه پیشنهادات، چند درصد درست هستند و باز آوری نیز بیان می‏کند که چند درصد از آیتم‏‌های موارد مشکوک مورد نظر کاربر به او پیشنهاد شده‌اند.
محاسبه معیار‌های Precision، Recall، Specificity و Sensitivity
در جدول فرمول‌‌های مرتبط به معیار‌های دقت، بازآوری، اختصاصى بودن و صحت بیان گردیده است(جدول ‏41 ).
جدول ‏4 1 معیار‌های ارزیابی
معنای شهودی فرمول معیار
درصد پیش بینی‌‌های مثبت که درست است. TP / (TP + FP) Precision
درصد موارد مثبت برچسب گذاری شده که مثبت پیش‌بینی شده است TP / (TP + FN) Recall
درصد موارد منفی برچسب گذاری شده که منفی پیش‌بینی شده است TN / (TN + FP) Specificity
درصد پیش‌بینی‌‌هائی که درست است.‌ (TP + TN) / (TP + TN + FP + FN) Sensitivity
در جدول این معیار‌ها برای پارتیشن تست به ازای الگوریتم‌‌های مختلف شبکه عصبی که با قسمتی از (پارتیشن آموزش) خروجی فاز یک به عنوان برچسب آموزش دیده اند محاسبه گردیده است(جدول ‏42 ).
جدول ‏4 2 محاسبه معیار‌های ارزیابی برای شبکه عصبی