• درک قلمرو
    • آماده کردن مجموعه داده‌ها
    • کشف الگوها
    • پردازش بعد از کشف الگو
    • استفاده از نتایج

اصطلاح داده کاوی را آمار شناسان، تحلیل گران داده‌ها و انجمن سیستم‌های اطلاعات مدیریت به کار می برند، در حالی که پژوهشگران یادگیری ماشین و هوش مصنوعی از کی دی دی ۷ بیشتر استفاده می‌کنند. در ادامه چند تعریف از داده کاوی ارائه می شود:
داده کاوی یا به تعبیر دیگر کشف دانش در پایگاه داده ها، استخراج غیر بدیهی اطلاعات بالقوه مفید از روی داده هایی است که قبلا،ً ناشناخته مانده اند. این مطلب برخی از روش‌های فنی مانند خوشه بندی، خلاصه سازی داده ها، فراگیری قاعده های رده بندی، یافتن ارتباط شبکه‌ها، تحلیل تغییرات و کشف بی قاعدگی را شامل می‌شود.
داده کاوی در حقیقت کشف ساختارهای جالب توجه، غیر منتظره و با ارزش از داخل مجموعه وسیعی از داده‌ها می‌باشد و فعالیتی است که اساسا با آمار و تحلیل دقیق داده ها منطبق است.
۲-۳-۳- مراحل انجام داده کاوی
عمل داده کاوی از یک پایگاه داده به چند مرحله مشخص تقسیم می‌شود که ما در این بخش پروژه به معرفی و توضیحی مختصر در مورد هر یک از این مراحل اکتفا می‌کنیم:
تشکیل انبار داده: این مرحله برای تشکیل محیطی پیوسته و یک پارچه جهت انجام مراحل بعدی داده کاوی انجام می گیرد. در حالت کلی انبار داده مجموعه پیوسته و طبقه بندی شده است که دائما در حال تغییر و دینامیک است که برای کاوش آماده می‌شود.

(( اینجا فقط تکه ای از متن درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. ))

انتخاب داده‌ها: در این مرحله برای کم کردن هزینه‌های عملیات داده کاوی، داده هایی از پایگاه داده انتخاب می شوند که مورد مطالعه هستند و هدف داده کاوی دادن نتایجی در مورد آنهاست.
تبدیل داده‌ها: مشخص است برای انجام عملیات داده کاوی لزوما باید تبدیلات خاصی روی داده‌ها انجام گیرد. ممکن است این تبدیلات خیلی راحت و مختصر مثل تبدیل بایت ۸ به عدد صحیح ۹ باشد یا خیلی پیچیده و زمان بر و با هزینه های بالا مثل تعریف صفات جدید و یا تبدیل و استخراج داده ها از مقادیر رشته‌ای.
کاوش در داده ها: در این مرحله است که مدلسازی اصلی داده کاوی انجام می شود. در این مرحله با بهره گرفتن از تکنی‌ های داده کاوی داده ها مورد کاوش قرار گرفته ، دانش نهفته در آنها استخراج شده و الگو سازی صورت می‌گیرد.
تفسیر نتیجه: در این مرحله نتایج و الگو های ارائه شده توسط ابزار داده کاوی مورد بررسی قرار گرفته و نتایج مفید معین می‌شود.
ابزارهایی که در فعالیت چهارم به کار گرفته می شوند ممکن است مدل‌های آماری، الگوریتم‌های ریاضی و یا روش‌های یاد گیرنده باشند که کار خود را به صورت خودکار و بر اساس تجربهای که از طریق شبکه های عصبی یا درختهای تصمیم گیری به دست میآورند بهبود می‌بخشند.

۲-۳-۴- اهداف داده کاوی

داده کاوی منحصر به گردآوری و مدیریت داده‌ها نبوده و تجزیه و تحلیل اطلاعات و پیش بینی را نیز شامل میشود. برنامه های کاربردی که با بررسی فایل‌های متنی و یا چند رسانهای به کاوش داده‌ها می پردازند، پارامترهای گوناگونی را در نظر می‌گیرند تا به یکی از الگوهای زیر برسند:
رابطه: الگوهایی که بر اساس آن یک رویداد به دیگری مربوط می‌شود، مانند خرید قلم به خرید کاغذ.
ترتیب : الگویی که به تجزیه و تحلیل توالی رویدادها پرداخته و مشخص می‌کند کدام رویداد، رویدادهای دیگری را در پی دارد، مانند تولد یک نوزاد و خرید پوشک.
طبقه بندی: شناسایی الگوهای جدید، مانند همزمانی خرید چسب و پوشه.
برای فهم و برقراری ارتباط با محیط اطرافمان در جهان همواره اشیا ، موجودات و چیزهایی را که با آنها سر‌و‌کار داریم، دسته بندی، درجه بندی و طبقه بندی میکنیم تا بهتر بتوان روی آنها آنالیز و پردازش انجام داد. می‌توان به عنوان مثال حیوانات را به گروه‌ها و نژادهای مختلف ، مواد را به عناصر سازنده آنها و مایعات مختلف را با توجه به درجه غلظت آنها دسته بندی کنیم.
بر طبق تعریف طبقه‌بندی عبارت است از : آزمایش ویژگی‌های اشیاء جدید و قرار دادن آنها در مجموعه کلاس‌های از پیش تعریف شده .
به طور معمول اشیایی که طبقه بندی می‌شوند در قالب رکوردهای پایگاه داده‌ها و فیلدهای آنها پیاده سازی می‌شوند. پایگاه داده هایی که از اطلاعات ذخیره شده قبلی استفاده می‌کند ، پایگاه داده آموزشی نامیده می‌شود و رکوردهای آن دربرگیرنده چندین خصیصه متفاوت می‌باشد.
خصیصه‌های انتخاب شده را خصیصه‌های وابسته و دیگر خصیصه‌ها را پیش گویانه می‌نامند. مهمترین وظیفه داده کاوی طبقه بندی است. به منظور فهم بهتر و ارتباط راحت تر با دنیا ما همیشه در حال گروه بندی عناصر هستیم. در طبقه بندی کردن اصولا به بررسی خصوصیت یک شی جدید و مرتبط کردن آن با یک مجموعه از قبل تعریف شده می پردازیم. اشیاء طبقه بندی شده به صورت مقداری در داخل پایگاه داده با پر کردن فیلدی به نام کد طبقه معین می‌شوند. وظیفه طبقه بندی با تعریفی خوب از کلاس‌ها و یک مجموعه آموزشی شامل مثال‌های از قبل تعریف شده می‌تواند مورد سنجش قرار بگیرد. مثال هایی از طبقه بندی را در زیر می‌آوریم :
طبقه بندی مشتریان بانک برای گرفتن وام به دو دسته خوب و بد.
طبقه بندی کردن شماره تلفنهایی که به ماشین فاکس متصل می‌شوند.
طبقه بندی کردن دانش آموزان کلاس بر حسب قد آنها.
در کلیه مثال‌های بیان شده، تعداد محدودی از کلاس‌های تعریف شده وجود دارد و باید هر مقدار به کلاسی تخصیص داده شود.
هدف، ساخت مدلی است که خصیصه های پیشگویانه را به عنوان مقدار ورودی و خروجی را برای خصیصه وابسته تعریف نماید. اگر خصیصه وابسته به صورت عددی باشد مسئله را، مسئله برازش می نامند و در غیر این صورت مسئله طبقه بندی نامیده می‌شود.
محققان مدل‌های مختلف طبقه‌بندی را همچون شبکه‌های عصبی، الگوریتم ژنتیک، روش‌های بایاسین، روش‌های آماری و خطی، جداول تصمیم گیری و مدل‌های ساخت یافته درختی که درخت‌های طبقه بندی نیز نامیده می‌شوند، را پیشنهاد داده‌اند.
مثالهایی از وظایف طبقه بندی که از فنون مختلف استفاده می‌کردند را می‌توان به صورت زیر بیان نمود :
تخصیص کلمات کلیدی به مقالات به محض ورود اخبار.
تصمیم گیری راجع به اینکه کدام شماره تلفن وابسته به کدام ماشین فاکس می‌باشد.
تخصیص کدهای صنعتی و تعیین مشاغل بر اساس توضیحات شغلی ارائه شده.
در تمامی مثال‌های ذکر شده تعداد کلاس‌ها محدود می‌باشد و انتظار می رود که قادر به تخصیص هر رکورد به یک یا چندتا از این کلاس‌ها باشیم.
خوشه بندی: کشف و مستند سازی مجموعه‌های از حقایق ناشناخته، مانند دسته بندی مشتریان یک فروشگاه بر اساس میزان خرید و زمان بین خریدها.
خوشه‌بندی در واقع تقسیم بندی یک جمعیت ناهمگون به تعدادی از زیرمجموعه‌هایی که بیشتر همگون هستند می‌باشد که به آن خوشه اطلاق می‌شود. هدف خوشه بندی یافتن گروه هایی است که با یکدیگر بسیار متفاوتند ولی اعضای این گروه ها بسیار شبیه هم هستند.
آن چیزی که خوشه بندی را از طبقه بندی متمایز می‌کند ، این است که در خوشه بندی بر روی کلاس‌های از پیش تعیین شده کاری انجام نمی‌شود. در طبقه بندی موضوعات با تخصیص هر عضو یا رکورد به کلاس از پیش تعریف شده بر اساس مدل توسعه یافته در طول آموزش از مثال‌های قبل تشکیل می‌شوند. در خوشه بندی دیگر هیچ کلاس از پیش تعریف شدهای وجود ندارد. رکوردها بر اساس شباهت‌های خودشان گروه‌بندی می‌شوند و افرادی که خود در آن کار هستند باید این خوشه را تفسیر کنند. غالبا خوشه بندی به عنوان پیش درآمدی برای دیگر فنون داده کاوی یا مدل سازی می‌باشد. به عنوان مثال خوشه بندی ممکن است اولین قدم در قطعه بندی بازار باشد. پس از یافتن خوشه‌هایی که پایگاه داده را قطعه بندی می کند، این خوشه‌ها باید برای طبقه بندی داده‌های جدید به کار گرفته شوند. نکته قابل توجه اینکه نباید خوشه بندی را با قطعه بندی اشتباه گرفت.
قطعه‌بندی به مسائل عمومی شناسایی گروه‌هایی که دارای ویژگی‌های عمومی هستند اطلاق می‌شود و خوشه‌بندی روشی برای قطعه بندی داده‌ها به گروه‌هایی است که از قبل تعریف نشده اند. این در حالی است که طبقه بندی، روشی برای قطعه‌بندی داده به وسیله تخصیص آنها به گروه‌هایی است که از قبل تعریف شده‌اند.
الگوریتم‌های خوشه بندی موجود را می‌توان به دو دسته سلسله مراتبی و افرازی تقسیم بندی نمود. در الگوریتم‌های خوشه بندی افرازی می‌شود که ناحیه خاصی را بهینه می‌کنند. در کنار آن خوشه بندی سلسله مراتبی، ترتیبی از K افرازی سعی بر تعیین افرازهاست که هر بخش در داخل بخش بعدی و به همین ترتیب قرار گرفته‌اند.
پیش بینی: کشف الگوهایی که بر اساس آنها پی‌ بینی قابل قبولی از رویدادهای آتی ارائه می‌شود مانند رابطه عضویت در یک باشگاه ورزشی با شرکت در کلاس‌های ورزشی.
پیشگویی نیز همانند مسئله طبقه بندی و یا تخمین می‌باشد با این تفاوت که پیش بینی با آینده سر و کار دارد یعنی رکوردهایی که طبقه بندی می‌شوند با توجه به پیش بینی‌هایی است که از رفتار آینده و یا تخمین مقادیری که در آینده به خود می‌گیرند، می‌باشد.
در عمل تنها کاری که می‌تواند دقت این طبقه بندی را معین کند منتظر ماندن و ملاحظه نتایج در آینده می‌باشد. هر روشی که در طبقه بندی و تخمین مورد استفاده قرار می‌گیرد می تواند برای پیش بینی هم استفاده شود مشروط بر آنکه استفاده از مثال‌هایی که در آنها ارزش متغیر قابل پیش بینی در حال حاضر معلوم باشد و همچنین داده های جمع آوری شده برای مثال‌ها در دسترس باشد، این داده‌های قدیمی برای ساخت مدلی که رفتار فعلی مشاهده را بیان می‌کنند به کار می‌روند. هنگامی که به این مدل ورودی‌های جدید داده شود، نتیجه در واقع پیش بینی رفتار در آینده خواهد بود.
فن تحلیل سبد خرید برای کشف مواردی که با هم به عنوان مثال در یک خواربارفروشی خریداری می‌شوند به کار می‌رود و بر همین اساس می تواند مدلی را برای خریدهای آینده و یا رفتارهایی که احتمال رخ دادن آنها بر روی داده‌های جاری وجود دارد ارائه می کند.

موضوعات: بدون موضوع  لینک ثابت


فرم در حال بارگذاری ...