آموزش و یادگیری و رگرسیون لجستیک

دانلود پایان نامه

گای و همکاران کاربرد روش‌‌های داده‌کاوی برای کشف تقلب‌‌های مالی را مورد بررسی قرار دادند. آنان 49 مقاله چاپ‌شده در مجلات معتبر را بررسی کردند و مشخص شد که در مجموعه‌ تحقیق‌‌های مورد بررسی، از شش کاربرد داده‌کاوی برای کشف تقلب‌‌های مالی استفاده شده است. این موارد عبارتند از طبقه‌بندی، رگرسیون، خوشه‌بندی، پیش‌بینی، کشف داده‌‌های پرت و تصویرسازی. هر یک از این شش طبقه، با مجموعه‌ای از رویکرد‌های الگوریتمی حمایت می‌شود که به‌دنبال استخراج روابط بین داده‌‌ها هستند. [12] این رویکرد‌ها از منظر نوع مسائلی که قادر به حل آن‌ها هستند، با یکدیگر تفاوت دارند. این طبقات به‌شرح زیرند(شکل ‏22 ).

شکل ‏2 2 روش‌های استفاده شده برای کشف انواع تقلبات مالی[35]


الف. طبقه‌بندی
طبقه‌بندی مدلی را می‌سازد و از آن برای پیش‌بینی عنوان طبقات اشیای ناشناخته استفاده می‌کند تا بین اشیای متعلق به طبقات مختلف، تمایز ایجاد کند. این عناوین طبقاتی از قبل تعریف ولی متمایز و مرتب نشده‌اند[15]. ژانگ و ژو اظهار می‌دارند که طبقه‌بندی و پیش‌بینی عبارت است از فرایند شناسایی مجموعه‌ای از ویژگی‌‌ها و مدل‌‌های مشترک که طبقات یا مفاهیم داده‌‌ها را توصیف و متمایز می‌کنند [16].روش‌‌های معمول طبقه‌بندی عبارتند از شبکه‌‌های عصبی ، شبکه‌‌های بیز ساده ، درختان تصمیم ، و ماشین‌های بُردار پشتیبان . اینگونه وظایف طبقه‌بندی در کشف تقلب‌‌های کارت اعتباری، بیمه سلامت و بیمه‌ خودرو و تقلب‌‌های شرکتی و دیگر انواع تقلب، استفاده می‌شوند. طبقه‌بندی یکی از رایج‌ترین مدل‌‌های یادگیری در کاربرد داده‌کاوی برای کشف تقلب‌‌های مالی است[17]. طبقه‌بندی فرایندی دو مرحله‌ای است. در گام اول، با استفاده از یک نمونه آموزشی، مدل آموزش داده می‌شود. این نمونه در تعدادی ردیف (گروهک‌ )و ستون‌ (صفات) سازمان‌دهی می‌شود. یکی از صفات، یعنی صفت عنوان طبقه، حاوی مقادیری است که نشان‌دهنده طبقه‌ از پیش تعریف‌شده‌ای است که هر ردیف به آن تعلق دارد. این گام به‌عنوان یادگیری نظارت‌شده نیز معروف است. در گام دوم، در مدل تلاش می‌شود اشیایی که به نمونه‌ آموزشی تعلق ندارند، طبقه‌بندی شوند و یک نمونه آزمون (تایید) تشکیل دهند[18].
ب. خوشه‌بندی
از خوشه‌بندی برای تقسیم اشیا به گروه‌‌ها/خوشه‌‌ها‌یی که از نظر مفهومی معنی‌دار هستند استفاده می‌شود؛ به‌طوری که اشیای یک گروه با یکدیگر مشابه، و در عین حال، بسیار متفاوت از اشیای دیگر گروه‌‌ها باشند. خوشه‌بندی با عنوان بخش‌بندی و تقطیع داده‌‌ها نیز شناخته می‌شود و به‌عنوان گونه‌ای از طبقه‌بندی نظارت‌نشده به حساب می‌آید. طبق نظر یوئه و همکاران، تحلیل خوشه‌بندی مرتبط است با مسئله تجزیه یا تقطیع مجموعه‌ای از‌ داده (معمولاً چندمتغیره) به چندین گروه، به‌طوری که نقاط در داخل یک گروه مشابه با یکدیگر و تا حد ممکن متفاوت از نقاط در دیگر گروه‌‌ها هستند[19]. همچنین، ژانگ و ژو اظهار می‌دارند که هر خوشه مجموعه‌ای از اشیای داده است که در همان خوشه مشابه یکدیگرند، اما متفاوت از اشیا در دیگر خوشه‌‌ها هستند[23] . روش‌های متنوعی برای خوشه‌بندی داده‌ها وجود دارد که برخی از رایج ترین آن‌ها عبارتند از نزدیک ترین همسایه کا، بیز ساده، نقشه خود انتظام، خوشه‌بندی کامینز، کوهنن و گروه‌های متناظر.
خوشه‌بندی کامینز
الگوریتم کامینز داده‌‌ها را به خوشه‌‌های مجزا خوشه‌بندی می‌کند. این روش تعداد خوشه‌‌های ثابتی را تعیین می‌کند. به طور تکراری رکورد‌ها را به خوشه‌‌ها تخصیص می‌دهد و مراکز خوشه‌‌ها را تنظیم می‌کند تا هنگامی که اصلاح بیشتر نتواند مدل را بهبود بخشد. در عوض تلاش برای پیش‌بینی یک خروجی، کامینز از یک فرآیند به نام یادگیری بدون نظارت برای کشف الگو‌ها در مجموعه‌ای از فیلد‌های ورودی استفاده می‌کند[1].
خوشه‌بندی کوهنن
شبکه‌‌های کوهنن یا کنت نوعی از شبکه‌‌های عصبی هستند که خوشه بندی را انجام میدهن، .همچنین به عنوان نقشه خود انتظام شناخته می شود.این نوع از شبکه وقتی که نمی دانید کدام یک از خوشه‌‌ها آغازین هستند می تواند برای خوشه بندی مجموعه داده به گروه‌‌های تفکیک شده مورد استفاده قرار گیرد .رکورد‌هایی که در یک گروه یا خوشه هستند به طور معمول مشابه هم هستند. و رکورد‌هایی که در گروه‌های متفاوت هستند نامشابهند. کوهنن بر خلاف سایر شبکه‌‌های عصبی از فیلد هدف برخوردار نیست[1].
خوشه‌بندی گروه متناظر
مدل‌‌های کشف مغایرت به منظور تشخیص برون‌نهاده یا موارد غیر معمول در داده مورد استفاده قرار می‌گیرند. بر خلاف سایر روش‌‌های مدلسازی که قوانین مرتبط با موارد غیر معمول را نیز ذخیره می‌کنند، مدل‌‌های کشف مغایرت تنها اطلاعات مربوط به رفتار‌های نرمال را ذخیره سازی می‌کنند. این مدل‌‌ها حتی در صورتی که نقاط پرت با هیچ الگوی معینی تطابق نداشته باشند آن‌ها را شناسایی می‌کند و ممکن است برای مواردی مانند کشف کلاهبرداری نیز کاربرد داشته باشد. مدل کشف مغایرت یک روش بدون ناظر است، بدان معنی که نیاز به مجموعه داد‌های برای آموزش و یادگیری ندارد[1].
خوشه‌بندی ای‌ام
این الگوریتم یکی از روشهای متداول خوشه بندی می باشد و بر اساس محاسبۀ احتمالات حضور در خوشه برای هر مورد و بکار گیری این احتمالات برای تخمین مجدد پارامترها، خوشه بندی داده ها را انجام می دهد. درمرحلۀ بعدی با ماکزیمم سازی احتمال حضور هر مورد در خوشه این الگوریتم به خوشه بندی نهایی می رسد.
ج. پیش‌بینی
پیش‌بینی، مقادیر عددی و پیوسته آینده را بر مبنای الگو‌هایی از یک مجموعه داده براورد می‌کند.‌‌هان و کَمبر تاکید کرد‌هاند که برای پیش‌بینی، صفتی که پیش‌بینی آن انجام می‌شود باید پیوسته باشد و نه کیفی (طبقه‌ای) [15]. این صفت را می‌توان صفت مورد پیش‌بینی نامید. شبکه‌‌های عصبی و مدل لجستیک ، رایج‌ترین روش‌‌های مورد استفاده برای پیش‌بینی هستند [17].
د. کشف نقاط پرت
از کشف نقاط پرت برای اندازه‌گیری فاصله بین اشیای داده به‌منظور کشف اشیایی که به‌شکلی متفاوت از بقیه‌ی داده‌‌ها ناهمگون هستند، استفاده می‌شود. داده‌‌هایی که ظاهراً ویژگی‌‌هایی متفاوت از بقیه جمعیت دارند، داده‌‌های پرت نامیده می‌شوند. مسئله کشف داده‌‌های‌ پرت/متناقض یکی از بنیادی‌ترین مباحث در داده‌کاوی است. یکی از روش‌‌های رایج مورد استفاده در کشف داده‌ پرت الگوریتم یادگیری تنزیل‌شونده است [20].
ذ. رگرسیون
رگرسیون روشی آماری برای کشف رابطه بین یک یا چند متغیر مستقل و یک متغیر وابسته (که یک مقدار پیوسته است) می‌باشد[22] . در بسیاری از مطالعات تجربی، از رگرسیون لجستیک به‌عنوان معیاری برای سنجش استفاده می‌شود. از رگرسیون معمولاًدر قالب روش‌‌های ریاضی‌ مانند رگرسیون لجستیک و رگرسیون خطی برای کشف تقلب‌‌های کارت اعتباری، تقلب‌‌های بیمه‌ای و تقلب‌‌های گزارشگری شرکت‌‌ها استفاده می‌شود. [17]
ر. تصویرسازی
منظور از تصویرسازی ارائه داده‌‌ها به‌شکلی ساده و قابل درک می‌باشد. در تصویرسازی ویژگی‌‌های داده‌‌های پیچیده به الگو‌های واضحی تبدیل می‌شود. بدین ترتیب کاربران اجازه می‌یابند تا الگو‌ها یا روابط پیچیده‌ کشف‌شده در فرایند داده‌کاوی را ببینند[19] .محققان از توانایی‌‌های کشف الگو در سیستم بینایی انسان استفاده کرده و به کمک مجموعه‌ای از ابزار‌ها و برنامه‌‌های انعطاف‌پذیرداده‌‌ها را با استفاده از رنگ، موقعیت، اندازه و دیگر ویژگی‌‌های بصری کدبندی می‌کنند. بهترین کاربرد تصویرسازی برای آشکار کردن الگو‌های پیچیده از طریق ارائه واضح داده‌‌ها یا توابع بوده است [17].