پس از آن، با آمدن هر نمونه‌ی آزمایشی، شباهت آن با مشاهدات موجود در گروه ­های داده ­های آموزشی سنجیده شده و به هرکدام که نزدیکتر بود، با مدل ساخته شده روی آن گروه، پیش ­بینی می­ شود. بدین ترتیب پیش ­بینی در دو سطح صورت می­گیرد: (۱) در سطح اول مشخص می­ شود که جریان ترافیکی متعلق به کدام context است و در سطح بعد (۲) نرخ ترافیک مربوط به دقایق آینده پیش ­بینی می­ شود. بطور واضح­تر، اگر قرار باشد نرخ ترافیکی مربوط به نمونه ­ای که زمان رخداد آن در پریودهای پیک بود، پیش ­بینی شود، بهتر است از مدلی استفاده شود که روی نمونه­هایی که در همان پریود زمانی در دیگر روزها ثبت شده، آموزش داده شده‌اند. همچنین اگر زمان رخداد نمونه‌ی آزمایشی مربوط به پریودهای غیرپیک باشد، بهتر است مدل آموزشی مورد استفاده، مشاهدات ترافیکی که متعلق به پریودهای اوج پیک هستند را شامل نشود. با اعمال این مراحل می­توان رفتار و روند جریان­های ترافیکی را در ساخت مدل آموزشی، تأثیر داد.
همان طور که در فصل ۲ توضیح داده شد، رندوم فارست از جمله الگوریتم­های داده کاری محسوب می­ شود که امروزه گرایش زیادی به سمت آن دیده می­ شود. کاربرد این متد اغلب در خصوص داده ­های با سایز بزرگ، ماننده داده‌های مربوط به بازار سهام، بازار بورس و به خصوص داده های حجیم ترافیکی است. این الگوریتم که نوعی بگینگ به حساب می ­آید، از درخت­های تصمیم ­گیری CART بعنوان کلاسیفایرهای پایه استفاده می­ کند و پیش ­بینی نهایی را بر مبنای میانگین­گیری ( برای رگرسیون) و نظرسنجی (برای کلاسه بندی) انجام می­دهد. با توجه به تحقیقات انجام شده، این الگوریتم قدرت بالایی در خصوص رگرسیون و کلاسه بندی دارد.

(( اینجا فقط تکه ای از متن درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. ))

در این پایان نامه نیز این الگوریتم با هدف انجام رگرسیون روی داده ­های ترافیکی، به کار گرفته شده است. همان طور که می­دانیم این الگوریتم با دریافت بردار ویژگی بعنوان ورودی، یک مقدار را بعنوان خروجی تولید می­ کند. از آنجا که در این داده قرار است با دریافت نرخ ترافیکی مربوط به نیم ساعت اول، جمع تعداد ماشین های عبوری در بازه زمانی ۵۰-۴۱ از نیم ساعت بعدی، مربوط به ۲۰ مسیر پیش ­بینی شود. بنابراین باید ۲۰ مدل مجزا (رندوم فارست) متناظر با ۲۰ مسیر آموزش داده شوند. علاوه بر این، چون آموزش در دو Context جداگانه صورت می­گیرد، پس برای هر Context ، ۲۰ مدل RF و در مجموع ۴۰ مدل RF آموزش داده خواهند شد. نتایج بدست آمده که در فصل بعد آورده شده، گویای کارآیی و موثر بودن این روش می­باشد.
فصل پنجم

نتایج تجربی

مقدمه

در این فصل به بررسی کارآیی تکنیک پیشنهادی و مقایسه آن با روش­های قوی ارائه شده درحوزه‌ی پیش ­بینی کوتاه مدت ترافیک می­پردازیم. از آنجا که پایگاه داده‌ی مورد آنالیز، برگرفته از داده‌ی مسابقه پیش ­بینی ترافیک ICDM (2010) می­باشد، نتایج بدست آمده از اعمال این روش با نتایج دیگر شرکت کنندگان مسابقه مورد مقایسه قرار گرفته است.
در ابتدا مروری کوتاه بر پایگاه داده و چگونگی تقسیم بندی آن به قسمت­ های آموزشی، آزمایشی و اعتبارسنجی می­پردازیم. سپس معیار ارزیابی نتایج و همچنین مقایسه‌ی معیارهای مورد استفاده در زمینه سنجش فاصله‌ی مشاهدات را مطرح می‌کنیم. در ادامه به بررسی آنالیزهای انجام شده، که دلیل استفاده از الگوریتم RF را توجیه می­ کند، پرداخته و تنظیمات و پارامترهای به کار رفته در پیاده سازی الگوریتم پیشنهادی را توضیح می­دهیم. در انتها تأثیر سایز گردآمدگی و همچنین انواع نمونه برداری از پایگاه داده‌ی اولیه، بر روی میزان خطا بررسی شده و کارآیی الگوریتم نهایی با توجه به بهترین تنظیمات ارزیابی خواهد شد.

پایگاه داده

همانطور که در فصل پیش توضیح داده شد، پایگاه داده‌ی مورد استفاده در این پایان نامه برگرفته از داده‌ی ارائه شده در قسمت اول مسابقه پیش ­بینی ترافیک ICDM (2010) می­باشد. به همین جهت، داده‌ی مورد بررسی در دو بخش مجزا -داده‌ی آموزشی و داده‌ی آزمایشی- در اختیار قرار داده شده اند. از آنجا که روش پیشنهادی نهایتاً با نتایج دیگر شرکت کنندگان، مورد مقایسه قرار گرفته است. بنابراین، همین منوال در طی انجام آزمایشات، دنبال شده است.
همچنین در راستای افزایش سرعت بررسی برخی از پارامترها و تنظیم آن­ها به بهترین مقادیر، بعضی از آزمایشات بر روی داده‌ی اعتبارسنجی صورت گرفت. بدین ترتیب که ۵۰% اولیه‌ی داده‌ها به عنوان داده‌ی آموزشی و ۵۰% دوم بعنوان داده‌ی تست (اعتبارسنجی) مورد استفاده قرار گرفت.
داده‌ی آموزشی متشکل از ۶۰۰۰۰ رکورد (دقیقه) است، که هر رکورد آن شامل ۲۰ مقدارِ متناظر با تعداد وسایل نقلیه‌ی عبوری از ۲۰ مسیر در یک دقیقه است. این داده، حاصل اجرای ۱۰۰ سایکل ۱۰ ساعته با بهره گرفتن از شبیه ساز قدرتمند ترافیک TSF می­باشد. بدین ترتیب، در نهایت یک ماتریس ۶۰۰۰۰ در ۲۰ خواهیم داشت که هر ۶۰۰ ردیف آن حاصل اجرای یک سایکل است.
داده‌ی آزمایشی نیز، در قالب پنجره­های ۶۰-دقیقه­ای ارائه شده‌اند که از هر پنجره، ۳۰ دقیقه اول آن در اختیار قرار داده شده و ۳۰ دقیقه دوم هر پنجره، بعنوان هدف و معیار ارزیابی در نظر گرفته شده است. بنابراین قرار است با ورود هرکدام از پنجره­های آزمایشی (بعنوان یک نمونه‌ی آزمایشی)، نرخ ترافیکی در نیم ساعت بعدی، پیش ­بینی شود. به بیانی دقیق تر، مجموع تعداد ماشین­های عبوری از ۲۰ مسیر در بازه‌ی زمانی دقیقه‌ی۵۰-۴۱، باید تخمین زده شود و بعنوان یک بردار هدف ۲۰ مقداری تولید شود. از آنجا که در قسمت داده‌ی آزمایشی، ۱۰۰۰ پنجره‌ی آزمایشی آورده شده­است و هر پنجره، ۳۰ رکورد در بر دارد، نهایتاً یک ماتریس ۳۰۰۰۰ در ۲۰ بعنوان ماتریس استخراجی از داده‌ی آزمایشی خواهیم داشت.

معیارهای ارزیابی

در این زیر فصل، علاوه بر ارائه معیارهای ارزیابی مورد استفاده برای سنجش میزان خطا در آزمایشات انجام شده، معیارهای تعیین میزان شباهت مشاهدات ترافیکی نیز آورده شده‌اند. این معیارها در راستای اعمال سطح اول پیش‌بینی بکار گرفته شدند تا بتوانند زمان را بطور ضمنی در پیش ­بینی ‌ها دخیل کنند.

معیار ارزیابی خطای پیش ­بینی

با توجه به اینکه قرار است برای هر پنجره، یک بردار ۲۰ مقداری پیش ­بینی شود، سایز مقادیری که باید تخمین زده شوند، یک ماترس ۲۰ در ۱۰۰۰ است که نهایتاً یک بردار ۲۰ × ۱۰۰۰ = ۲۰۰۰۰ مقداری را تشکیل می­دهد. به منظور ارزیابی دقت پیش ­بینی ، معیار خطای مجذور میانگین مربعات[۱۷۳](RMSE) بکار گرفته شده که بصورت فرمول (۵-۱) قابل محاسبه است.

( ۵-۱ ) RMSE =

که در آن نرخ واقعی ترافیک مربوط به iاَمین خیابان ، نرخ تخمینی ترافیک در خیابان iاَم و N سایز بردارها می­باشد. همانطور که در بالا توضیح داده شد، بردار تخمینی ۲۰۰۰۰ مقداریست، یعنی N=20000 است.
علاوه بر این در دیگر آزمایشات، معیار RMSE Mean نیز استفاده شده است که در واقع میانگین خطای RMSE را با میانگین‌گیری از خطای ۲۰ مسیر، بدست می ­آورد و طبق فرمول (۵-۲) محاسبه می­ شود:

(۵-۲) Mean RMSE =

که در این فرمول نیز N1=1000 و N2=20 و نرخ واقعی ترافیک مربوط به iاَمین خیابان ، نرخ تخمینی ترافیک در خیابان iاَم می­باشد و به بیانی دیگر، در ابتدا RMSE مربوط به ۱۰۰۰ مقدار تخمینی هر خیابان، محاسبه و سپس از این مقدار خطا، بین ۲۰ مسیر، میانگین گیری می­ شود.

معیارهای سنجش فاصله بر روی مشاهدات ترافیکی

همانطور که در فصل معرفی تکنیک پیشنهادی توضیح داده شد، پیش ­بینی ترافیک، در دو سطح انجام می­ شود. در سطح اول مشخص می­ شود که جریان ترافیکی، مربوط به چه بازه‌ی ترافیکی است( اوج یا غیر اوج) و سپس پس از جداسازی این مشاهدات و گروه بندی آن‌ها، مدل­سازی جداگانه‌ای بر روی context های مجزا انجام شده و مقادیر نهایی با بهره گرفتن از این مدل­ها پیش ­بینی می­شوند. در این راستا، در مورد داده‌ی آموزشی، context ها را از طریق بررسی زمان رخداد آنها درسایکل ۱۰-ساعته­، مشخص کردیم. اما از آنجا که داده ­های آزمایشی بصورت پنجره­های یک ساعته و مستقل در اختیار قرار داده شده اند، زمان رخداد آن­ها در طی سایکل‌ها مشخص نیست که برای تعیین آن، لازم است تا با ورود یک جریان ترافیکی، فاصله آن با نمونه­های موجود در دو context محاسبه شده و با توجه به نزدیکترین نمونه، context آن مشخص شود. برای مقایسه‌ی این معیارها، باید تعداد دفعاتی که معیار مورد نظر، context مربوطه را درست پیش ­بینی کرده، محاسبه می‌کردیم. از آنجا که زمان‌های مربوط به داده‌های آزمایشی مشخص نبود، به سراغ داده‌ی آموزشی-که زمان رخداداشان در طول سایکل مشخص بود- رفتیم. در این راستا، ابتدا مشاهدات مربوط به ۵۰% اولیه داده‌ی آموزشی گروه بندی کردیم. سپس مشاهدات ۵۰% دوم (در نظر گرفته شده بعنوان داده‌ی اعتبارسنجی) را با مقایسه با گروه‌های قسمت آموزشی و اعمال معیارهای سنجش فاصله گروه­بندی کردیم.
نتایج حاصل حاکی از آن بود که معیار اقلیدسی و kullback leibler divergence، مناسبترین معیارها در این خصوصند چراکه بالاترین تعداد تشخیص درست در رابطه با ساعات رخداد در طی سایکل‌ها متعلق به این دو معیار بود. بر همین مبنا، در مورد متمایز کردن context های داده‌ی آزمایشی نیز همین معیار(اقلیدسی) استفاده شده است. شکل ۴-۷ توجیهی در خصوص مناسب بودن این معیار آورده شده بود.

بررسی مناسب بودن الگوریتم اعمالی RF در مقایسه با دیگر متدها

در راستای کسب اطمینان از مناسب بودن بکارگیری الگوریتم رگرسیون رندوم فارست در مورد پایگاه داده‌ی ترافیکی مورد ارزیابی، آزمایشاتی انجام شد که در جدول (۵-۲) نتایج حاصل از آن و مقایسه با دیگر الگوریتم­ها آمده است. در ادامه به توضیحات آن‌ها می‌پردازیم.
همان طور که می­دانیم در اعمال الگوریتم­های متفاوت، پارامترهای مختلف نقش موثری در نتایج دارند. بنابراین، با هدف مقایسه‌ی عادلانه‌تر، الگوریتم­های اعمالی، الگوریتم­های موجود در weka در نظر گرفته شدند که پارامترهای آن‌ها بر حسب مقادیر استانداردتعیین شده ­اند. همان طور که پیش تر بیان شد، با توجه به داده‌ی مورد استفاده، هدف الگوریتم، انجام رگرسیون است چرا که مقادیر پیش‌بینی، باید مقادیر عددی( نرخ ترافیک) باشند.
جدول ۵-۱٫ مقایسه­ میانگین خطای الکوریتم­های مختلف بر روی ۲۰ مسیر. این روشها،الگوریتم­ها موجود درWeka هستند که قابل اعمال به مسئله­ رگرسیون بوده ­اند.

Algorithm Mean RMSE of ATRs Algorithm Mean RMSE of ATRs
موضوعات: بدون موضوع  لینک ثابت


فرم در حال بارگذاری ...