• C4.5
  • C5

در این تحقیق الگوریتم C5 انتخاب شده که یک نسخه بهبود یافته از C4.5 است (یک الگوریتم درخت‌تصمیم‌گیری بسیار معروف که توسط محققان و تحقیق‌گران از اوایل ۱۹۹۰ استفاده شده است). درخت‌های تصمیم‌گیری در زمانی که یک متغیر وابسته و متغیرهای مستقل مختلف داشته باشند شبیه مدل‌های رگرسیون درنظر گرفته می‌شوند. آن‌ها می‌توانند الگوهای مختلف از داده‌ها را کشف کنند که مدل‌هایی برای مدل‌های رگرسیون استفاده شوند(Cox,2002).
(( اینجا فقط تکه ای از متن درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت nefo.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. ))
درخت‌های تصمیم‌گیری یک روش به سرعت در حال محبوبیت هستند که به عنوان یک جایگزین قابل دوام برای رگرسیون لجستیکی در شرایطی که وابستگی ویژگی قطعی است استفاده می‌شود. اغلب، الگوریتم‌های درخت‌تصمیم‌گیری، مدل‌هایی که دقت بیش‌تری در پیش‌بینی و قابل درک‌تر هستند را تولید می‌کنند.
اولین گره‌ی درخت‌تصمیم ریشه نامیده شده، گره‌ی وسط در درخت، برگ و آخرین گره از درخت، گره‌ی پایانی نامیده می‌شود. ویژگی‌ها بر روی هر گره از درخت‌تصمیم در برابر هر یک از مجموعه داده‌های آموزشی با بهره گرفتن از الگوریتم‌های جداسازی تست می‌شوند. الگوریتم درخت‌تصمیم، درخت را از پایین به بالا می‌سازد در حقیقت، درخت‌های تصمیم معمولا به عنوان یک درخت وارونه که در بالای آن ریشه قرار دارد نشان داده می‌شوند.از این رو، آن بالا به پایین نیز نامیده شده است. تعداد شاخه ایجاد شده برای هر گره، به الگوریتم خاص استفاده شده و تعداد مقادیر ویژگی انتخاب شده وابسته است.
۳-۱۲- شاخص مقایسه نتایج خوشه‌بندی با رویکردهای مختلف
مقیاس‌های مختلفی برای ارزیابی و مقایسه‌ی نتایج خوشه‌بندی وجود دارد. در این تحقیق از شاخص زیر برای مقایسه استفاده شده است.
۳-۱۲-۱- شاخص مجموع خطای مربعی
در این روش ابتدا مراکز خوشه در نظر گرفته می‌شود و سپس فاصله نقطه مورد نظر از مراکز خوشه محاسبه می‌گردد. برای این امر از فرمول زیر استفاده می‌شود.
SSE (3-4)
در این روش را مراکز خوشه در نظر می‌گیریم و P را نقطه مورد نظر در این روش خوشه‌ای که SSE پایین‌تری دارد نشان‌دهنده بهترین خوشه‌بندی (تعداد خوشه) استLarose,2005)).
۳-۱۳- ابزار‌های داده‌کاوی
ابزارهای داده‌کاوی نرم‌افزارهایی هستند که به کاربران اجازه استخراج اطلاعات از داده‌ها را می‌دهند. این ابزارها توانایی گردآوری داده‌ها و کاربرد آن‌ها به منظور پیش‌بینی در خصوص مسائل مختلف را، به سازمان‌ها و افراد می‌دهند. استخراج دستی داده‌ها از صدها سال پیش وجود داشته است. این درحالی است که ماشینی شدن فرایند داده‌کاوی از هنگام ورود کامپیوتر شایع شده است. هدف نهایی این ابزارها ظاهر ساختن الگوهای پنهان می‌باشد. به هرحال ابزارهای داده‌کاوی می‌تواند شامل نرم‌افزارهای زیر باشد:

  • ACL
  • Clementine
  • Data to Knowledge
  • Intelligent-miner
  • Insightful miner
  • Microsoft excel
  • Rapid miner
  • Sas
  • Weka

یکی از ابزارهای داده‌کاوی برجسته و سرشناسی که مورد استفاده قرار می‌گیرد نرم‌افزار Clementine می‌باشد. دراین تحقیق هم ازاین نرم‌افزار استفاده شده است.
۳-۱۴- بخش دوم ساختار اجرایی تحقیق
مطابق با چارچوب پیشنهادی اولیه، ابتدا می‌بایست داده‌ها را مورد تجزیه و تحلیل قرار داده و سپس، با توجه به مساله‌ی مورد نظر الگویی که به حل مساله کمک می‌کند به‌دست آید. در بخش بعد، شاخص مناسب برای مساله شناسایی می‌شود. انتخاب محیط کاربری مرحله بعد است و در پایان با توجه به مراحل پیشین داشبورد پیاده‌سازی می‌گردد.
۳-۱۴-۱- شناسایی شاخص
بعد از مراحل داده‌کاوی باید نتایج به‌دست آمده را پایش نموده و شاخص مناسب را یافت. شاخص باید نشان‌دهنده‌ی عملکرد دانشجویان در زمینه‌ی مساله‌ی مورد‌نظر باشد.
۳-۱۴-۲- پیاده‌سازی داشبورد
دراولین بخش از مرحله پیاده‌سازی داشبورد باید عملیات داده‌ای مورد نیاز را انجام داد. این عملیات شامل یکپارچه‌سازی داده‌های به‌دست آمده است. در بخش بعدی از مرحله‌ی پیاده‌سازی، باید با توجه به نیازمندی‌های استخراج شده و شاخص‌های تعیین شده، داشبورد مورد نظر را پیاده‌سازی کرد. در پیاده‌سازی داشبورد باید اصول گفته شده در فصل دوم، در نظر گرفته شود.
عموما فنون مصورسازی ابزاری قدرتمند هستند که به‌طور متناوب در فرایند کشف دانش به‌کار می‌روند. مصور‌سازی می‌تواند روابط پیچیده را به‌طور ساده قابل‌فهم سازد و تفکر مصور را برانگیزد. به‌ویژه، ابزارهایی که ساختار خوشه‌ای از داده را مصور می‌سازند، برای جستجو و فهم داده ارزشمند هستند. در این تحقیق برای پیاده‌سازی داشبورد از نرم‌افزار Qlick View 11 استفاده شده است که در ادامه شرح داده شده است.
۳-۱۵- ابزار پیاده‌سازی داشبورد
زمانی ایجاد داشبورد‌ها و تجزیه و تحلیل داده‌ها برای هر خروجی چند ماه طول می‌کشید و سرعت تصمیم‌گیری سازمانی را پایین می‌آورد اما با کلیک ویو می‌توان آن را در چند دقیقه انجام داد. کلیک ویو بستر هوش کسب و کار برای تبدیل داده‌ها به دانش می‌باشد. این نرم‌افزار هر کسب و کار و کاربرهای فنی را قادر می‌سازد تا داده‌های خود را بدون هیچ محدودیتی جدا کنند و به آن‌ها کمک می‌کند زمانی که نیاز به تصمیم‌گیری در مورد مسائل سازمانی است، تصمیمات موثر و بهتری مبتنی بر اطلاعات صحیح بگیرند. کلیک ویو نرم‌افزاری است که امکان بازیافتن و تطبیق دادن داده‌ه
ا را از منابع گوناگون، فراهم می‌کند. با بارگذاری در برنامه، داده‌ها در مسیری که فهم و کار با آن‌ها آسان‌تر باشد، ارائه می‌شوند. نرم‌افزاری ساده و قابل‌انعطاف می‌باشد و کاربران نهایی در سازمان به راحتی می‌توانند از آن استفاده کنند و در زمان کوتاهی آن را آموزش ببینند. در کلیک ویو می‌توان حجم بالایی از اطلاعات را با سرعت بسیار زیادی بارگذاری کرد و استفاده نمود. با کلیک ویو می‌توان در هر زمانی اطلاعات و داده‌ها را بر اساس معیارها و شاخص‌های تعیین شده بررسی نمود.
براساس معتبرترین موسسه تحقیقات تکنولوژی دنیا - گارتنر [۳۲] کلیک ویو چهارمین نرم‌افزار هوش تجاری در دنیا می‌باشد.  کلیک ویو یک راه حل جامع و انعطاف‌پذیر هوش تجاری است. این راه‌حل با بهره گرفتن از تکنولوژی انحصاری خود می‌تواند با محاسبات در لحظه، سطحی از بینش و شهود صحیح از حقایق سازمان را از طریق اکتشاف اطلاعات ایجاد کند.
۳-۱۶- نتیجه‌گیری
در این فصل روش تحقیق صورت گرفته طبق چارچوب پیشنهادی به‌صورت گام به گام تشریح گردید. روش انجام بخش اول تحقیق برمبنای استفاده از یک مدل استاندارد داده‌کاوی می‌باشد که مراحل اجرای تحقیق با الگوگیری از این مدل به‌صورت گام به گام مورد بررسی قرار گرفت و در بخش دوم تحقیق توضیحاتی در مورد شناسایی شاخص و پیاده‌سازی داشبورد داده شد.
در نهایت این‌که، این فصل تمامی مراحلی را که برروی داده‌های تحقیق درفصل بعد صورت خواهد گرفت را پوشش داده است.
فصل چهارم:
تجزیه و تحلیل و تفسیر داده‌ها
۴-۱-مقدمه
با توجه به تعاریف ارائه شده در فصول قبلی، در این فصل به تشریح، توضیح مراحل اجرای این تحقیق پرداخته شده است، همچنین لازم به ذکر است که توضیحات براساس چارچوب ارائه شده در فصل سوم می‌باشد و در بخش مربوط به داده‌کاوی، مراحل استاندارد داده‌کاوی که در فصول قبل توضیح داده شد مدنظر قرار گرفته است. خوشه‌بندی با روش k-means اجرا و نتیجه با بهره گرفتن از شاخص اعتبارسنجی مجموع خطای مربعی ارزیابی شده است و با بهره گرفتن از روش‌های شبکه‌عصبی و درخت‌تصمیم C5 خوشه‌ها مورد پیش‌بینی قرار گرفته اند و در آخر سعی شده است تا شاخص‌های مناسب استخراج گردد و با توجه به شاخص‌ها، داشبورد مطلوب طراحی گردد.
۴-۲-فرایند داده‌کاوی
این فرایند که یک بخش اصلی تحقیق حاضر می‌باشد برطبق استاندارد CRISPکه در فصل گذشته توضیح داده شد مرحله به مرحله صورت گرفته است.
۴-۲-۱-درک مساله
در این مرحله طی برقراری چند جلسه مشاوره با متخصصین موارد زیر بررسی گردید:
استفاده از مدل‌های آماری و تکنیک‌های داده‌کاوی و داشبورد مدیریتی در کنارهم، جهت

موضوعات: بدون موضوع  لینک ثابت


فرم در حال بارگذاری ...