منبع مقاله درمورد خوشه‌بندی، درخت تصمیم، تحلیل داده، کارشناسان

الگوریتم‌های داده‌کاوی مختلف داده‌هایی به دست بیاوریم که نماینده سودمندی از کلمات و عبارات تعریف شده در متن باشند. متدهای نمایش داده‌های مختلف که در این سطح استفاده می‌شوند اول بسامد کلمه (TF) و دوم بسامد معکوس اسناد (IDF). انتخاب نماینده از داده‌ها باید از طریق آزمایش‌های گسترده و هم چنین با در نظر گرفتن کل فضای اطلاعات باشد، که کل موارد از طریق ماتریس صورت می‌پذیرد. با این وجود در حال حاضر تمرکز در پژوهش جاری با استفاده از تکنیک‌های خوشه‌بندی جهت افراز بندی داده‌ها به زیرمجموعه‌های مفید از اطلاعات در هر خوشه است.۱۵۰
۳-۷-۲-۱-۱- خوشه‌بندی
خوشه‌بندی پردازشی است که برای گروه‌بندی اطلاعات و داده‌ها به گروه‌های دارای خواص مشابه با استفاده از معیارهای فیزیکی یا کمی صورت می‌پذیرد. این معیار کیفی می‌تواند بر اساس مرکز ثقل خوشه، عمل خوشه‌بندی را انجام دهد. [۶۴] تکنیک دیگر در یافتن شبیه‌ترین اعضا از طریق Terms(مجموعه عبارات ساده) و روش K-Means است تا اولین سطح دانش را از بین ارتباطات طبیعی کشف نماید. یکی از مهم‌ترین معیارهای خوشه‌بندی محاسبه فاصله اقلیدسی است که از این رابطه در روش خوشه‌بندی K-Means نیز می‌توان استفاده نمود.۱۵۱ فرمول ۳-۱:
D(x,y)=√(∑_(i=1)^m▒〖(Xi-Yi)〗^۲ )
شکل (۳-۴) سیستم رده‌بندی متن و مدیریت دانش مبتنی MKTPKS
۳-۷-۲-۱-۲- تشکیل پایگاه داده رابطه‌ای
خروجی کاربرد خوشه‌بندی K-Means باید به صورت فرمت‌های قابل استفاده در جداول رابطه‌ای مختلف ذخیره‌سازی گردد. این جداول شامل ستون‌هایی به همراه شناسه خوشه‌بندی هستند، خوشه‌بندی و برچسب‌گذاری خوشه‌ها بیشتر در پردازش‌های هرس اطلاعات کلیدی یا کشف دانش مورد استفاده قرار می‌گیرد، این عملکرد به ذخیره‌سازی و مدیریت اطلاعات برای بیشتر تحلیل‌ها کمک می‌نماید.
۳-۷-۲-۲- سطح دوم: واحد پالایش دانش
ورودی این واحد در قالب جداول رابطه‌ای که در آن اسناد به عنوان معاملات یا تراکنش‌های انجام شده شرایط به عنوان اقلام در نظر گرفته می‌شوند. فرایند با پالایش اطلاعات و دانش کلیدی به همراه تولید NKTPKS و از طریق کاربرد قوانین انجمنی APRIORI جهت کاوش انجام گردیده است. در ساخت MKTPKS یک بخش اساسی و ضروری استفاده از تحلیل داده‌ها برای رده‌بندی مستندات متنی است. ساخت MKTPKS بر یافتن قوانین انجمنی ارجحیت دارد به دلیل آن که شناسایی بیش از حد قوانین موجب ازدیاد جمعیت در پایگاه دانش می‌گردد. علاوه بر این MKTPKS می‌تواند به کشف روابط باارزش‌تر در شرایط تعریف شده در متن کمک نماید. این اعمال به یافتن ارتباطات در میان مفاهیم مختلف تعریف شده در مستندات متنی کمک می‌نماید. نگاشت MKTPKS های کشف شده به مجموعه‌های ویژه از مستندات به شناسایی مجموعه مستندات حاوی اطلاعات خوب و بد کمک می‌نماید.۱۵۲
۳-۷-۲-۳- سطح سوم: واحد رده‌بندی متن و کاربرد دانش
داده‌ها اصولاً به صورت پایگاه داده نیمه ساختار یافته و نه به طور کاملاً ساختار یافته و نه بدون ساختار در طبیعت ذخیره می‌شوند. برای رده‌بندی داده‌های متنی به کلاس‌ها از پیش تعریف شده لازم و ضروری است. مجموعه مورد نظر به صورت دستی به کلاس‌های متفاوت جهت آزمون و صحت رده‌بندی افراز گردد. این افراز به کمک کارشناسان دامنه صورت می‌پذیرد. خصیصه‌های طبقه‌بندی مجموعه‌ای از ویژگی‌های کلاس یا متغیر هدف است. در این پژوهش این کار با کمک کارشناسان حوزه که درک درستی از زمینه‌های داده‌های متنی و معنای شرایط تعریف شده در اسناد متنی دارند صورت پذیرفته است. در واحد سطح سوم رده‌بندی‌های متفاوت استفاده می‌شوند که جهت مطالعه تأثیرات شرایط رده‌بندی داده‌های متنی به دو کلاس مختلف که می‌تواند ساخت رده‌بندی مستندات را با دقت بیشتری بهبود دهد. رده‌بندی‌های خاص مطرح شده در پژوهش جاری عبارت‌اند از اول درخت تصمیم‌گیری (C 4.5)، دوم نزدیک‌ترین همسایه (K-NN)، سوم بیز ساده (NaiveBayes) و چهارم ماشین‌های پشتیبان بردار (SVMs). نتیجه این آزمون رده‌بندی‌های متفاوت به وسیله تغییرپذیری مبتنی بر انتخاب متغیرهای اطلاعاتی بر روی محدوده معیارهای فاصل‌هایی متفاوت، از معیار فاصله اقلیدسی ساده تا متدهای مبتنی بر هسته روش ارائه شده در پژوهش مذکور است. هدف از رده‌بندی، اعتبارسنجی فرضیه مبتنی بر متد ارائه‌شده بر روی MKTPKS جهت بهبود صحت رده‌بندی بر روی الگوریتم‌های رده‌بندی است.۱۵۳
۳-۷-۳- تحلیل و طراحی
الگوریتم تحلیل درخت تصمیم اکثراً برای مشکلات رده‌بندی و فرایند ساخت شروع درخت تصمیم به وسیله انتخاب گره تصمیم و جداسازی آن به زیر گره و برگ مورد استفاده قرار می‌گیرد. الگوریتم درخت تصمیم C4.5 توسعه‌یافته الگوریتم ID3 است. این الگوریتم مبتنی بر ساخت درخت تصمیم و جداسازی به وسیله گره‌های تصمیم به وسیله انتخاب جداسازهای بهینه و ادامه جستجو در حد امکان می‌باشد. برای استفاده از مفاهیم بهره‌اطلاعاتی و کاهش آنتروپی جهت کسب تقسیم مطلوب از رابطه‌های ذیل استفاده می‌نماییم. فرض نمایید متغیر X ارزش K احتمال ممکن p1,p2,…,pk را داشته باشد آنگاه آنتروپی X از رابطه زیر محاسبه می‌گردد. فرمول ۳-۲:
H(X)= -∑pjlog2(pj)
برای محاسبه میانگین مورد نیاز اطلاعات می‌توان از مجموع وزن‌دار آنتروپی برای زیرمجموعه‌های فردی (مجزا) استفاده نمود. فرمول ۳-۳:
Hs (X)=∑i=1k Pi Hs(Ti)
لازم به ذکر است Pi نشان‌دهنده نسبت رکوردها در زیرمجموعه‌های i است. برای محاسبه بهره اطلاعاتی از رابطه زیر استفاده نمود.
فرمول ۳-۴:
information gain IG(S)=H(T)-Hs(T)
۳-۷-۳-۱- الگوریتم نزدیک‌ترین همسایه (K-NN)
الگوریتم نزدیک‌ترین همسایه تکنیکی است که می‌توانید جهت رده‌بندی داده‌ها به وسیله استفاده از معیار فاصله استفاده نمایید. [۶۴] الگوریتم نزدیک‌ترین همسایه از طریق نمونه‌های آموزشی کار می‌نماید که در این روش مجموعه نه تنها شامل داده‌ها می‌گردد بلکه طبقه‌بندی مورد نظر برای هریک از آیتم‌ها صورت می‌پذیرد. در واقع داده‌های آموزش مدل می‌شوند. الگوریتم K-NN در اصل به وسیله پیدا کردن حداقل فاصله از نمونه‌های ورودی جدید از نمونه‌های آموزشی کار می‌نماید. بر اساس معیار فوق هر نمونه ورودی جدید در کلاس مربوط به خود قرار می‌گیرد. معمول‌ترین تابع محاسبه فاصله، فاصله اقلیدسی است که در فرمول ۱ به آن اشاره گردیده است.
۳-۷-۳-۲- الگوریتم بیز ساده (Naïve Bayes)
الگوریتم بیز ساده یک روش سهل و خوب شناخته شده رده‌بندی است که برای حل مشکلات حوزه عملی مورد استفاده قرار می‌گیرد. [۶۴] رده‌بندی بیز ساده برای یافتن احتمالات مشترک از کلمات و کلاس‌ها از مجموعه رکوردها استفاده می‌گردد. این رویکرد مبتنی بر تئوری بیز ساده است. احتمال کلاس c در مستند dj از رابطه زیر به دست می‌آید.. در این الگوریتم فرض براین است که طبقات مستقل از یکدیگر هستند که با عنوان استقلال مشروط کلاس مطرح می‌گردد. فرمول ۳-۵:
P(c /dj)=(P(dj / c)P(c))/(P(dj)) j=1,2,3,…,m
۳-۷-۳-۳- الگوریتم ماشین‌های پشتیبان بردار (SVMs)
الگوریتم SVM اولین بار در سال ۱۹۶۰ در روسیه توسعه داده شد. این الگوریتم رده‌بندی غیرخطی است که از متدهای غیرخطی استفاده می‌کند و داده‌ها را از فضای ورودی یا فضای پارامتری به فضای ویژگی‌هایی با ابعاد زیاد نگاشت می‌نماید. [۶۴] هدف این الگوریتم انتخاب ابرصفحه جداساز بهینه جهت حداکثرسازی حاشیه بین دو کلاس است. برای حل مشکل طبقه‌بندی دودویی که در آن W1 و W2 نشان‌دهنده دو کلاس در یک مجموعه داده‌های آموزشی هستند، مجموعه X={x1,x2,…,xn} به همراه برچسب کلاس ارائه شده است. ابرصفحه‌ایی که داده‌های مجزا را به دو کلاس طبقه‌بندی می‌نماید به شرح زیر است.
فرمول ۳-۶:
f(x)=sgn( + b)
در رابطه بالا w بردار ضریب و b میزان تمایل به یک‌طرف (چولگی) ابرصفحه و sgn مخفف تابع دوقطبی است. مشکل بهینه‌سازی که منجر به تولید ابرصفحه می‌گردد به صورت زیر نوشته می‌گردد.
فرمول ۳-۷:
Minimizew,x 1/2||w||2
فرمول ۳-۸:
Yi(+b)=1, for i= 1,2,…,N
بزرگ‌تر شدن حاشیه باعث بهترشدن توانائی تعمیم انتظار می‌گردد. درخت تصمیم (C 4.5)، نزدیک‌ترین همسایه، بیز ساده و ماشین‌های پشتیبان بردار که در مراحل قبل در مورد آن‌ها توضیحاتی ارائه شد جهت رده‌بندی داده‌های متنی در این پژوهش مورد استفاده قرار گرفته‌اند. الگوریتم روی مجموعه داده‌های منتقل شده از مجموعه ویژگی‌های کاندید و خصیصه‌ها اعمال می‌گردد و یک کاربرد ترکیبی (Hybrid) از سطح ۱ (واحد ذخیره‌سازی و پردازش دانش) و سطح ۲ (واحد پالایش دانش) صورت می‌پذیرد. نتایج کاربرد این رویکرد ترکیبی ساخت مجموعه MKTPKS است. این عمل با استفاده از رویکرد خوشه‌بندی صورت می‌پذیرد. در نتیجه یک فضای وجود یا عدم وجود برای عبارات کلیدی در اسناد ساخته می‌شود. هر نماینده بردار از اسناد با استفاده از مجموعه MKTPKS 3TermSets انجام می‌پذیرد. رابطه لیستی از عبارات کلیدی تشکیل شده و وجود آن‌ها را در اسناد و نماینده مربوط به کلاس‌ها در شکل ۳-۵ نشان داده شده است.۱۵۴ (اگر نامزد مجموعه باشد مقدار ۱ و در غیراینصورت مقدار ۰ به خود اختصاص داده است)
Ci: برچسب کلاس با توجه به داده‌های آموزشی
Fm: نماینده مجموعه MKTPKS 3TermSets
Fm
……………………
F5
F4
F3
F2
F1
Ci
۱
……………………
۰
۱
۰
۱
Doc.ID
شکل (۳-۵) نمایش نامزدهای مجموعه termset
بنابراین کل فضای مستندات به فرم MKTPKS 3TermSets انتقال داده شده‌اند و اطلاعات کلیدی به دقت به فرم داده‌های متنی تعریف شده‌اند. ماتریس جدید کارایی در فعالیت‌های رده‌بندی جهت تقسیم مستندات به دو کلاس متفاوت دارد. در این بخش جهت تحلیل داده‌ها نیاز به مطالعه برای به کار بردن الگوریتم‌های داده‌کاوی متفاوت خواهیم داشت. داده‌ها باید به فرمت مناسب تبدیل گردند. داده‌ها برای پردازش بیشتر در فایل متنی تثبیت می‌گردند. کلمات توقف نیز از داده‌های متن حذف شدند و یک متد ریشه‌یابی ساده نیز اعمال گردیده است. این متد داده‌کاوی متنی به کاهش ابعاد داده با حفظ فضای اطلاعات مفید و بدون از دست دادن اطلاعات کلیدی کمک می‌نماید. واحد سطح اول: فایل متنی ذخیره شده را در نرم‌افزار Weka یا RapidMiner بارگذاری می‌نماییم که از طریق آن با به‌کارگیری تکنیک‌های خوشه‌بندی متفاوت می‌توان به درک اولیه و کشف و تسخیر و عبارات کلمه کلیدی دانش دست یافت. الگوریتم خوشه‌بندی k-means جهت جداسازی فضای اطلاعاتی ورودی به اعداد و زیر فضاها اعمال می‌گردد. تعداد زیادی از آزمایش‌ها برای پیدا کردن یک تعداد مناسب خوشه‌ها به منظور کاهش اثر از دست دادن اطلاعات صورت می‌پذیرد. کاربرد تکنیک خوشه‌بندی

این مطلب مشابه را هم بخوانید :   پایان نامه ارشد رایگان درموردگراندد تئوری، مدیریت دانش، روش‌شناسی، تحلیل داده

دیدگاهتان را بنویسید