منبع مقاله درمورد درخت تصمیم، تجارت الکترونیک، تجارت الکترونیکی، قوانین انجمنی

یر اطلاعات کلیدی با اولین سطح از دانش در عبارات کلمه کلیدی کمک می‌نماید. اطلاعات کلیدی تسخیر شده در خوشه‌های مختلف به مجموعه‌های مختلف از اطلاعات موجود در هر سند۱۵۵ اشاره دارد، بنابراین تفسیر این اطلاعات کلیدی و این که دقیقاً اسناد حاوی اطلاعات خوب یا بد هستند دشوار است. در گام دوم یعنی واحد پالایش دانش از قوانین انجمنی الگوریتم APRIORI جهت کاوش MKTPKS استفاده می‌شود. ورودی در قالب جداول رابطه‌ای که در آن اسناد به عنوان معاملات و تراکنش‌ها به عنوان اقلام است در نظر گرفته می‌شود. خروجی به شکل MKTPKS 3-Termsets خواهد بود. همکاری این عبارات جهت تولید ۳-TermSets MKTPKS به عنوان یک نهاد واحد برای نمایش موضوعات کلیدی مورد بحث در اسناد پایگاه داده متنی داده شده است. با توجه به مثال قبل در این سطح برای پیدا نمودن موضوعات کلیدی مورد بحث در پایگاه داده متنی دچار مشکل می‌شویم و رده‌بندی اسناد به اطلاعات خوب و بد به درستی و با صحت و دقت صورت نمی‌پذیرد. به منظور غلبه بر این مشکل روند استخراج اطلاعات مفید در اسناد مدون مذکور به تصفیه بیشتر نیاز دارد، این پالایش از اطلاعات کلیدی و یا کشف دانش در سطح ۱، از طریق کاوش قوانین انجمنی APRIORI صورت می‌پذیرد. لازم به ذکر است قبل از کاربرد این کاوش، اطلاعات کلیدی تسخیر شده از عبارات کلیدی نیاز به ذخیره‌سازی خواهند داشت. این فعالیت یک پایگاه داده رابطه‌ای با استفاده از جداول حاوی برچسب‌های خوشه‌ای، اصطلاحات کلیدی شناسایی‌شده و کد شناسایی اسناد (شناسه) ایجاد می‌نماید. این جداول رابطه‌ای به فرم MKTPKS مورد استفاده قرار می‌گیرند که اولاً باعث کاهش تعداد ابعاد در فضای ویژگی و ثانیاً جهت اعتبارسنجی فرضیه برای دستیابی به دقت بالاتر در رده‌بندی می‌شوند. بخش رده‌بندی و بهره‌برداری از دانش نشان می‌دهد که روش‌های مورد استفاده برای رده‌بندی داده‌های متنی به دو کلاس مختلف تقسیم می‌گردد. نتایج به دست آمده از کاربرد سطح ۲ (واحد پالایش دانش) به فرم مدل ماتریس جدید مبتنی بر MKTPKS 3-termSets که در بخش‌های قبل مورد بررسی قرار گرفت در دسترس خواهند بود. ماتریس جدید در نرم‌افزار Weka و یا RapidMiner بارگذاری شده و چهار الگوریتم رده‌بندی مختلف در رده‌بندی کلاس‌های مربوطه به کار برده می‌شوند. مجموعه متغیر هدف برای این منظور به کار برده شده تا متغیر کلاس تعداد اسناد حاوی اطلاعات خوب یا بد را مشخص نماید. هدف از آموزش سیستم و تعیین نرخ رده‌بندی صحیح و نادرست بود. نتایج به دست آمده از طریق رده‌بندی‌های مختلف در MKTPKS 3-termsets بر اساس مدل ماتریس بوده که به مقایسه دقت رده‌بندی در برابر مدل عبارات ساده می‌پردازد. گوشه‌ای از طبقه‌بندی داده‌های متنی از پایگاه داده متنی با استفاده از درخت تصمیم‌گیری (C4.5 or J48) بر اساس بازنمایی و بر پایه عبارات ساده تشکیل شده است. نمودار درختی تشکیل شده در نرم‌افزار RapidMiner نشان می‌دهد که هر گره به زیر گره‌ها یا برگ تقسیم شده است که مستندات اطلاعات به گروه خوب و بد رده‌بندی می‌شوند. هر گره‌ای که Information Gain آن حداکثر (Maximum) بوده است به زیر نودهایی تقسیم شده است. هر گره برگ نشان‌دهنده رده‌بندی نهایی اطلاعات به اسناد حاوی اطلاعات خوب یا بد در مورد یک پروژه در پایگاه داده متنی است. رده‌بندی داده‌ها بر اساس ارائه سیستم MKTPKS 3-termsets صورت می‌پذیرد. فضای اطلاعات به دو کلاس از مستندات اطلاعاتی شامل خوب و بد که با انتخاب گره‌ها و زیر گره‌های اطلاعاتی رده‌بندی می‌شوند تقسیم می‌گردد. برگ شاخه نشان‌دهنده تعداد از مستندات رده‌بندی‌شده به عنوان خوب و بد است. بنابراین فرایند تشکیل درخت تصمیم‌گیری تا زمانی که فضای سند از اطلاعات به طور کامل به دو دسته مختلف رده‌بندی گردد ادامه می‌یابد. سناریوی تحقیق جاری با در نظر گرفتن عبارات زیر تعریف شده است. ‘‘مطلوب محقق تعداد بسیار کم دستورالعمل و تغییرات است’’ که می‌تواند به کارکنان جهت اجرای هموار (نرم) پروژه کمک نموده و آن را در زمان مقرر به پایان رساند. زمان اتمام پروژه یا زمان ارائه خدمات می‌تواند یک شاخص عملکرد کلیدی خوب باشد که اگر پروژه یا خدمت در آن (زمان مقرر) به اتمام برسد موجب رضایتمندی محقق می‌گردد. از این جهت اگر تصمیم‌گیرندگان می‌توانند به‌آسانی رده‌بندی داده‌های متنی را بر اساس مستندات حاوی اطلاعات خوب یا بد انجام دهند دلیل آن خواهد بود که تجزیه و تحلیل‌های دقیق‌تر و بهتری گرفته شود. این عمل در نهایت به بهبود نتایج حاصل از تحقیق‌های کیفی با توجه به تجربه‌های به دست آمده در گزارش‌های قبل، کمک می‌نماید. یکی از اهداف این پژوهش رده‌بندی با دقت داده‌های متنی است. (کاهش نرخ غیر رده‌بندی) برای رسیدن به این هدف و مدیریت بهتر منابع دانش، مدل‌های ماتریس‌های مختلف با ساختار داده‌ایی متنی در نظر گرفته شده‌اند. دقت رده‌بندی با استفاده از اطلاعات رده‌بندی مستندات حاوی اطلاعات خوب و بد محاسبه می‌گردد. ارزیابی نهایی از روش ارائه شده بر اساس متوسط F-Measure است که به عنوان میانگین هارمونیک بازخوانی و دقت۱۵۶ تعریف شده ساخته شده است. دلیل انتخاب F-Measure این است که هر دو مفهوم دقت و بازخوانی در آن در نظر گرفته شده است.۱۵۷ ارزیابی سیستم با ۱۰ برابر کردن روش اعتبارسنجی شده در Weka و RapidMiner مورد بررسی قرار گرفت. تنظیم برای هر الگوریتم برای رسیدن به یک سطح معین متفاوت بوده و این عمل باید به صورتی انجام پذیرد که دقت به بهترین
شکل ممکن رعایت گردد. با رده‌بندی بیز ساده، بهترین دقت رده‌بندی با حفظ تنظیمات بدون تغییر به دست می‌آید. از نظر رده‌بندی‌های دیگر باید تنظیمات پارامترهای بهینه انتخاب شوند. در مورد الگوریتم درخت تصمیم‌گیری (C4.5 or J48) نسبت هسته‌های مختلف مورد استفاده قرار می‌گیرد تا بهترین نتایج با استفاده از نسبت هسته از ۱۰ به دست آید. به طور مشابه برای K-NN تنظیمات بهینه با K=10 در نظر گرفته شد و یک هسته خطی بهترین نتایج را براساس مدل رده‌بندی مبتنی بر SVMs در اختیار ما قرار می‌دهد. (شیخ‌بهایی، م، مینایی بیدگلی، ب، سلامی، م. ۱۳۹۳) جدول ۱ مقایسه عملکرد رده‌بندی‌های مختلف را نمایش می‌دهد.
جدول (۳-۲) مقایسه عملکرد طبقه‌بندی‌های مختلف
Proposed MKTPKS based classification model (F-measure)
Term based classification model
(F-measure)
Classification model
۰.۴۳۱
۰.۴۷۹
Decision trees
(J48 or C4.5)
۰.۴۹۲
۰.۳۳۲
K-NN (k=10)
۰.۵۸۱
۰.۳۶۸
NAÏVE Bayes
۰.۴۷۱
۰.۳۷۸
SVMs
(Linear Kernel)
جدول ۱ دقت مدل رده‌بندی مبتنی بر عبارات ساده را و رده‌بندی مبتنی بر MKTPKS 3-Termsets را نمایش می‌دهد. دقت رده‌بندی براساس مدل‌های K-NN، Naïve Bayes و SVM (هسته‌ای خطی) بهتر از مدل مبتنی بر عبارات ساده است.
شکل (۳-۶) مقایسه دقت طبقه‌بندی با استفاده از معیار F
شکل ۳-۶ نشان می‌دهد که دقت رده‌بندی درخت تصمیم‌گیری (C4.5) با استفاده از مدل ارائه شده مبتنی بر MKTPKS 3-Termsets از مدل رده‌بندی مبتنی بر عبارات ساده کمتر است. با این حال دقت رده‌بندی‌های دیگر (نزدیک‌ترین همسایه، بیز ساده و ماشین پشتیبان بردار) با استفاده از متدولوژی ارائه شده نسبت به مدل رده‌بندی مبتنی بر عبارات ساده بهبود یافته است. از این رو می‌توان نتیجه گرفت اگر روش پیشنهادی را در رده‌بندی داده‌ها استفاده نماییم دقت رده‌بندی بهتری برای رده‌بندی داده‌ها به دو کلاس مختلف که شامل مستندات حاوی اطلاعات خوب و بد هستند به دست می‌آید. بهترین دانش کاری و کاربردی که در این مقاله ارائه شده است روش‌های رده‌بندی به وسیله یک روش ترکیبی است که با استفاده از MKTPKS 3-Termsets برای تکنیک‌های داده‌کاوی متنی مورد استفاده قرار می‌گیرند. پژوهش ارائه شده در این مقاله بر اساس رده‌بندی داده‌های متنی به دو کلاس مختلف جهت تعریف اسناد اطلاعات به دو گروه خوب و بد است. ادغام و یکپارچه‌سازی تکنیک‌های رده‌بندی داده‌های متنی باعث بهبود رده‌بندی توسط الگوریتم‌ها و تکنیک‌های رده‌بندی می‌گردد. در اغلب موارد رویکرد ارائه شده بهبود قابل‌توجهی را برای دقت رده‌بندی با استفاده از ارزیابی F-Measure از خود نشان داده است. با این حال با توجه به رده‌بندی مستندات به کلاس‌های مربوطه با استفاده از درخت تصمیم (الگوریتم C4.5 یا J48) دقت رده‌بندی را کاهش می‌دهد. دلیل کاهش دقت وابستگی شدید الگوریتم C4.5 به بسامد شرایط است. همچنین ماهیت داده‌های طبیعی ممکن است بر دقت و صحت طبقه‌بندی تأثیر بگذارد. نکات ذیل را از متدولوژی ارائه شده در این مقاله می‌توان به دست آورد: اول این که متد نمایش مبتنی بر شرایط واحد یکی از راه‌های مفید و کاربردی برای کشف دانش است اما این متدها بر دقت رده‌بندی داده‌های متنی تأثیر می‌گذارند. دوم آن است که کاربردهای ترکیبی تکنیک‌های داده‌کاوی متنی نتایج بهتری را در سناریو تحقیق جاری به ما ارائه می‌نماید و هم چنین هرس اطلاعات و پالایش دانش ممکن است با استفاده از قوانین انجمنی APRIORI از تکنیک‌های داده‌کاوی انجام پذیرد. سومین نکته که از مقاله جاری استنتاج می‌گردد ساخت MKTPKS 3-TermSets و استفاده از آن جهت بهبود دقت رده‌بندی و نکته آخر آن‌که در برخی زمینه‌های کسب‌وکار اگر نرخ خطا کاهش یابد، تصمیم‌گیری‌های بهتری امکان‌پذیر می‌گردد.۱۵۸
۳-۸- قلمرو تحقیق
محقق در پژوهش جاری به دنبال ارائه مدلی مفهومی در حوزه مدیریت دانش زنجیره تأمین خدمات در تجارت الکترونیکی G2C می‌باشد بر همین اساس قلمرو موضوعی تحقیق به بخش‌های ذیل تقسیم‌بندی می‌شود:
مدیریت دانش
مدیریت زنجیره تأمین
مدیریت زنجیره خدمات
تجارت الکترونیکی G2C
۳-۹- بستر تحقیق
در پژوهش جاری سازمان ثبت‌احوال کشور به‌عنوان یکی از ارکان تحقق دولت الکترونیکی و هم‌چنین یکی از اصلی‌ترین سازمان‌های ارائه‌دهنده خدمات تجارت الکترونیکی G2C به‌عنوان موردمطالعه انتخاب گردیده است. جامعه‌ی آماری این پژوهش با توجه به قلمرو موضوعی آن شامل مدیران، معاونان و کارشناسان و خبرگان سازمان ثبت‌احوال استان اصفهان هستند که به روش ارجاع زنجیره‌ای انتخاب شده‌اند. روش نمونه‌گیری، گلوله برفی (ارجاع زنجیره‌ای) است. نمونه‌گیری گلوله برفی یک روش نمونه‌گیری است که واحدهای نمونه نه تنها اطلاعاتی در مورد خودشان بلکه در مورد واحدهای دیگر جامعه نیز ارائه می‌کنند [۶۵][۶۶]. در این روش، در یک مصاحبه ابتدایی اغلب با یک خبررسان کلیدی کار را آغاز کرده و سپس از آن شخص می‌خواهیم که دوستان، آشنایان و یا افرادی که ممکن است برای مصاحبه مناسب باشند را به ما معرفی کند.
۳-۹-۱- معرفی سازمان ثبت‌احوال کشور
سازمان ثبت‌احوال

این مطلب مشابه را هم بخوانید :   منبع مقاله درموردگراندد تئوری، تحلیل متن، تحلیل داده، پایگاه داده‌ها

دیدگاهتان را بنویسید