جدول الف-۴: توزیع خزانه‌ی سؤال بهینه بر اساس روش MTI وb-bin=0.2 بدون کنترل مواجهه، حسابان- دیفرانسیل ۲۷۳
جدول الف-۵: توزیع خزانه‌ی سؤال بهینه بر اساس روش R و b-bin=0.4، بدون کنترل مواجهه، حسابان-دیفرانسیل ۲۷۴
جدول الف-۶: توزیع خزانه‌ی سؤال بهینه بر اساس روش MRP و b-bin=0.4، بدون کنترل مواجهه، حسابان-دیفرانسیل ۲۷۵
جدول الف-۷: توزیع خزانه‌ی سؤال بهینه بر اساس روش MTI و b-bin=0.4، بدون کنترل مواجهه، حسابان-دیفرانسیل ۲۷۶
جدول الف-۸: توزیع خزانه‌ی سؤال بهینه بر اساس روش R و b-bin=0.2، با کنترل مواجهه S-H، حسابان-دیفرانسیل ۲۷۷
جدول الف-۹: توزیع خزانه‌ی سؤال بهینه بر اساس روش MRP و b-bin=0.2، با کنترل مواجهه S-H، حسابان-دیفرانسیل ۲۷۸
جدول الف-۱۰: توزیع خزانه‌ی سؤال بهینه بر اساس روش MTI و b-bin=0.2، با کنترل مواجهه S-H، حسابان-دیفرانسیل ۲۷۹
جدول الف-۱۱: توزیع خزانه‌ی سؤال بهینه بر اساس روش R، b-bin=0.4، با کنترل مواجهه S-H، حسابان-دیفرانسیل ۲۸۰
جدول الف-۱۲: توزیع خزانه‌ی سؤال بهینه بر اساس روش MRP، b-bin=0.4، با کنترل مواجهه S-H، حسابان-دیفرانسیل ۲۸۱
جدول الف-۱۳: توزیع خزانه‌ی سؤال بهینه بر اساس روش MTI، b-bin=0.4، با کنترل مواجهه S-H، حسابان-دیفرانسیل ۲۸۲
جدول الف-۱۴: توزیع خزانه‌ی سؤال عملیاتی : هندسه (محتوای دوم) ۲۸۳
جدول الف-۱۵: توزیع خزانه‌ی سؤال عملیاتی : جبر گسسته (محتوای سوم) ۲۸۴
جدول الف-۱۶: توزیع خزانه‌ی سؤال بهینه بر اساس روش R، بدون کنترل مواجهه : حسابان-دیفرانسیل (محتوای اول) ۲۸۵
جدول الف-۱۷: توزیع خزانه‌ی سؤال بهینه بر اساس روش R، بدون کنترل مواجهه : هندسه (محتوای دوم) ۲۸۶
جدول الف-۱۸: توزیع خزانه‌ی سؤال بهینه بر اساس روش R، بدون کنترل مواجهه : جبر گسسته (محتوای سوم) ۲۸۷
جدول الف-۱۹: توزیع خزانه‌ی سؤال بهینه بر اساس روش MRP، بدون کنترل مواجهه : حسابان-دیفرانسیل (محتوای اول) ۲۸۸
جدول الف-۲۰: توزیع خزانه‌ی سؤال بهینه بر اساس روش MRP، بدون کنترل مواجهه : هندسه (محتوای دوم) ۲۸۹
جدول الف-۲۱: توزیع خزانه‌ی سؤال بهینه بر اساس روش MRP، بدون کنترل مواجهه : جبر گسسته (محتوای سوم) ۲۹۰
جدول الف-۲۲: توزیع خزانه‌ی سؤال بهینه بر اساس روش MTI، بدون کنترل مواجهه : حسابان-دیفرانسیل (محتوای اول) ۲۹۱
جدول الف-۲۳: توزیع خزانه‌ی سؤال بهینه بر اساس روش MTI، بدون کنترل مواجهه : هندسه (محتوای دوم) ۲۹۲
جدول الف-۲۴: توزیع خزانه‌ی سؤال بهینه بر اساس روش MTI، بدون کنترل مواجهه : جبر گسسته (محتوای سوم) ۲۹۳
جدول الف-۲۵: توزیع خزانه‌ی سؤال بهینه بر اساس روش R، با کنترل مواجهه S-H : حسابان-دیفرانسیل (محتوای اول) ۲۹۴
جدول الف-۲۶: توزیع خزانه‌ی سؤال بهینه بر اساس روش R، با کنترل مواجهه S-H : هندسه (محتوای دوم) ۲۹۵
جدول الف-۲۷: توزیع خزانه‌ی سؤال بهینه بر اساس روش R، با کنترل مواجهه S-H : جبر گسسته (محتوای سوم) ۲۹۶
جدول الف-۲۸: توزیع خزانه‌ی سؤال بهینه بر اساس روش MRP، با کنترل مواجهه S-H : حسابان-دیفرانسیل (محتوای اول) ۲۹۷
جدول الف-۲۹: توزیع خزانه‌ی سؤال بهینه بر اساس روش MRP، با کنترل مواجهه S-H : هندسه (محتوای دوم) ۲۹۸
جدول الف-۳۰: توزیع خزانه‌ی سؤال بهینه بر اساس روش MRP، با کنترل مواجهه S-H : جبر گسسته (محتوای سوم) ۲۹۹
جدول الف-۳۱: توزیع خزانه‌ی سؤال بهینه بر اساس روش MTI، با کنترل مواجهه S-H : حسابان-دیفرانسیل (محتوای اول) ۳۰۰
جدول الف-۳۲: توزیع خزانه‌ی سؤال بهینه بر اساس روش MTI، با کنترل مواجهه S-H : هندسه (محتوای دوم) ۳۰۱
جدول الف-۳۳: توزیع خزانه‌ی سؤال بهینه بر اساس روش MTI، با کنترل مواجهه S-H : جبر گسسته (محتوای سوم) ۳۰۲
فصل اول
کلیات پژوهش
کلیات پژوهش
مقدمه
با پیشرفت روزافزون جوامع و لزوم تخصصی شدن فعالیت‌ها، نیاز به اندازه‌گیری صفات زیربنایی افراد در هریک از مهارت‌هایشان روز‌به‌روز گسترش می‌یابد. آزمون‌ها که جزء جدایی‌ناپذیر فرایند سنجش و اندازه‌گیری هستند نیز توجه گسترده‌ای را به خود اختصاص داده‌اند. آزمون‌ها به عنوان معیاری برای ورود به مشاغل و مقاطع تحصیلی، تأیید تسلط به مهارتی خاص و ارزیابی دوره‌های مختلف آموزشی استفاده می‌شوند. بدین ترتیب شمار زیادی از آزمون‌ها به عنوان فیلترهایی مهم و تأثیرگذار در زندگی و آینده افراد مطرح شده‌اند؛ این قبیل آزمون‌ها را آزمون‌های سرنوشت ساز[۱] می نامند (وندر لیندن و گلاس[۲]، ۲۰۱۰).

(( اینجا فقط تکه ای از متن درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. ))

مراکز معتبر ساخت آزمون سالانه هزینه‌های بسیاری برای ساخت این نوع آزمون‌ها صرف می‌کنند، به طوری‌که گاهی هزینه‌ی ساخت این آزمون‌ها بسیار سنگین و هنگفت می‌شود، و گاهی آزمون‌سازان برای کم کردن هزینه‌های ساخت آزمون، کیفیت سؤالات آن را پایین می‌آورند. از این‌رو، آزمونی که ضعیف ساخته شده باشد نه تنها مفید نیست، بلکه خطرناک نیز است. بنابراین آزمون‌های سرنوشت ساز باید به دقت ساخته، اجرا و نمره‌گذاری شوند (استوکینگ و سوآن سون[۳]، ۱۹۹۸).
با گسترش کاربرد کامپیوتر در زندگی روزمره‌ی انسان‌ها، و با ورود سریع کامپیوترهای شخصی در امر آموزش، در سال‌های اولیه‌ی دهۀ ۱۹۸۰، بسیاری از فرم‌های آزمون‌های سرنوشت‌ساز در “مقیاس وسیع[۴]“، به صورت فرمت‌های مناسب اجرای کامپیوتری ساخته‌ شدند. اجرای فرمت‌های آزمون‌های سرنوشت‌ساز به شکل کامپیوتری مزیت‌های بسیاری به همراه داشت. یکی از این مزیت‌ها آن بود که قدرت کامپیوترهای مدرن و توانایی آن‌ها برای یکپارچه‌کردن موقعیت‌های چندگانه سنجشی، می‌توانست فرم‌های جدیدی از سؤالات ایجاد کند تا به موقعیت واقعی محیط زندگی نزدیک شود. کامپیوترها می‌توانستند به منظور افزایش دقت آماری نمره‌گذاری آزمون‌ها نیز استفاده‌ شوند. همچنین هزینه‌های اجرایی را نیز کاهش دهند. در اواخر همین دهه بود که سنجش انطباقی کامپیوتری[۵]( CAT) رشد فزاینده‌ای یافت. البته ایده‌ی این نوع سنجش به آزمون هوش بینه و سیمون (۱۹۰۵) بر می‌گردد (وندر لیندن و گلاس، ۲۰۱۰). سنجش انطباقی شیوه‌ای از اجرای آزمون است که با سطح توانایی آزمودنی انطباق دارد و هدف عمده‌ی آن، برازش سطح توانایی هر آزمودنی با سؤالات اجرایی، از طریق انتخاب بهینه‌ی سؤالات از یک خزانه سؤال، به صورت سلسله مراتبی می‌باشد. همچنین، CAT شیوه‌ای از سنجش است که می‌تواند دقت بیشتری برای تعیین طول آزمون ایجاد کند و بدون از دست دادن دقت آزمون، طول آن را کاهش دهد (ریکیسی[۶]، ۲۰۱۰). در همان سال های اولیه، سیستم سنجش میکروکت[۷] توسط اتحادیۀ سیستم‌های سنجشی[۸] در سال ۱۹۸۴، ایجاد شد و برنامه‌هایی از قبیل آزمون‌های گزینش[۹] انطباقی کامپیوتری نیز ساخته ‌شد (ساندز، گاد و کناپ[۱۰]، ۱۹۹۷). اولین کاربرد CAT در مقیاس وسیع، نسخه‌ی کامپیوتری شده‌ی آزمون استعداد نیروهای مسلح[۱۱] (ASVAB) بود (ون در لیندن، ۱۹۹۶). به دنبال آن، در بسیاری از برنامه‌های سنجش در مقیاس بزرگ، آزمون‌های مداد-کاغذی با CAT جایگزین شدند. برای مثال، نسخه‌ی CAT آزمون GRE و آزمون استعداد شغلی نیروهای مسلح (ASVAB)، هم اکنون در دسترس می‌باشد. موسسه‌ی ملّی اندازه‌گیری آموزشی (CITO) در هلند، چندین CAT تا به حال اجرا کرده‌ است؛ مانند، MATCAT، برای تشخیص نقص‌های ریاضی در دانشجویان ایجاد شده‌است (CITO، ۱۹۹۹) (ورشور و استریتمن[۱۲]، ۲۰۰۰). TURCAT، مهارت زبان ترکی را به عنوان زبان دوم سنجش می‌کند (CITO، ۲۰۰۸)، DSLCAT، نیز زبان هلندی را به عنوان زبان دوم سنجش می‌کند (CITO، ۲۰۰۲) و kindergartenCAT شامل آزمون‌هایی برای اندازه‌گیری ترتیب، زبان، توانایی جهت‌یابی زمانی و مکانی کودکان می‌باشد (ایگن[۱۳]، ۲۰۰۴). این CATها تقریباً همانند همه‌ی سیستم‌های CAT عملیاتی با کاربرد سؤالاتی در خزانه سروکار دارند که به‌طور متنوعی توزیع می‌شوند (ولدکمپ[۱۴]، ورشور و ایگن، ۲۰۰۷). با گذشت بیش از ۲۰ سال از اجرای عملی سنجش انطباقی، CAT، به یک تکنولوژی کامل تبدیل شده ‌است (ریکیسی، ۲۰۱۰).
به دنبال این پیشرفت‌ها بسیاری از مراکز آزمون‌سازی به ساخت آزمون‌های کامپیوتری روی آوردند، تا هم سرعت اجرای و هم دقت اندازه گیری خود را افزایش دهند. از این‌رو با پیشرفت بیشتر CAT به مرور زمان مولفه‌های گوناگون آن شناخته و عوامل تاثیرگذار بر آن شناسایی شدند. به طوری‌که اگر به این مولفه‌ها توجه نمی‌شد،CAT می‌توانست بدون آنکه دقت اندازه گیری را افزایش دهد، هزینه‌های گزافی را به بار آوردمولفه‌های اساسی CAT، که به اندازه کافی معروف هستند، عبارتند از، مدل‌های نظریه سؤال پاسخ[۱۵] که برای مدرج‌سازی سؤالات به‌کار‌می‌رود، خزانه سؤال[۱۶] مدرج شده[۱۷]، الگوریتم انتخاب سؤال، روش آماری برای جایابی[۱۸] آزمودنی بر روی صفت مکنون توانایی یا برآورد توانایی آزمودنی‌ها، و قواعدی برای اتمام آزمون (واینر، دورانز، ایگنور، فلاگر، گرین، میسلوی، استنبرگ و تیسن[۱۹]، ۲۰۰۰). اخیراً که روش‌های CAT، برای سنجش‌های سرنوشت ساز، فراوان به کار می‌رود، مولفه‌های تعادل محتوایی[۲۰] (چنگ و چانگ[۲۱]، ۲۰۰۹) و قواعد امنیتی مانند کنترل مواجهه سؤال[۲۲] (سیمپسون و هتر[۲۳]، ۱۹۸۵) از اهمیت بسزایی برخوردار ‌شدند. یکی از مولفه‌های جالب توجه مرتبط به CAT، که مطالب محدودی در مورد آن وجود دارد، مؤلفه‌ی خزانه سؤال می‌باشد. با‌ این‌وجود، ویژگی‌های جذاب روان‌سنجی CAT، در صورتی تحقق می‌یابد که سؤالات آزمونی که برای اجرا به‌کار می‌روند مناسب باشند. این مجموعه از سؤالات معمولاً خزانه‌ی سؤال نامیده می‌شود (ریکیسی، ۲۰۱۰).
بیان مسئله
کیفیت خزانه‌ی سؤال، به عنوان یک عامل مهم به منظور افزایش کیفیت اندازه گیری در سنجش انطباقی کامپیوتری (CAT)، در نظر گرفته ‌شده است (فلاگر، ۲۰۰۰؛ جنسما[۲۴]، ۱۹۷۷؛ مک‌برید و وایس[۲۵]، ۱۹۷۶؛ ریکیسی، ۱۹۷۶؛ ۲۰۰۳؛ وندر لیندن، ادلاید آریل[۲۶] و ولدکمپ، ۲۰۰۶؛ ولدکمپ و وندر لیندن، ۲۰۰۰؛ اکسینگ و همبلتون[۲۷]، ۲۰۰۴). حتی در همان اوایل دهه ۱۹۷۰ – آغاز پژوهش‌های مرتبط با CAT- محققان به‌طور ضمنی و یا به صراحت اذعان داشتند که ویژگی‌های خزانه‌ی سؤال نقش مهمی در دستیابی به بهترین نتایج ممکن در سنجش انطباقی، خواهد داشت ( مک‌برید و وایس، ۱۹۷۶). با این وجود، دستورالعمل‌های اندکی در مورد چگونگی ساخت خزانه‌های سؤال با کیفیت بالا، ایجاد شده است (هی[۲۸]، ریکیسی، ۲۰۱۰؛ هی و ریکیسی، ۲۰۱۱).
آنچه مسلم است، این است که افزایش کیفیت خزانه‌ی سؤال، نحوه‌ی عملکرد الگوریتم‌های سنجش انطباقی را بهبود می‌بخشد. بهترین و حتی جذاب‌ترین برنامه‌های سنجش انطباقی، اگر بر اساس خزانه‌ی سؤالات محدود و سؤالاتی که کیفیت ضعیفی دارند، بنا شود، مطلوب نخواهند بود (فلاگر،۲۰۰۰، به نقل از واینر و همکاران). برای محقق کردن بسیاری از ویژگی‌های اندازه‌گیری سنجش انطباقی، خزانه سؤالی که سؤالات از آن انتخاب می‌شوند، باید شامل سؤالاتی با کیفیت بالا برای سطوح متفاوت مهارت باشد. برخلاف آزمون‌های سنتی مداد-کاغذی، که انتخاب سؤالات به نوعی است که بهترین سنجش را برای آزمودنی‌هایی با توانایی متوسط فراهم می‌کند، سنجش انطباقی می‌تواند دامنه‌ی گسترده‌ای از توانایی را پوشش دهد، از این‌رو به سؤالاتی با کیفیت بالا برای دامنه گسترده‌ای از توانایی نیاز است. به همین دلیل برای ایجاد خزانه‌های سؤال در سنجش انطباقی باید به مفروضه‌های مدل روان سنجی‌ای که زیربنای مدرج‌سازی، اجرا و نمره‌گذاری است، توجه شود. بنابراین تلاش مورد نیاز برای نوشتن خزانه‌ی سؤالات در سنجش انطباقی بسیار بیشتر از آزمون‌های مداد-کاغذی است (میلمن و آرتر[۲۹]، ۱۹۸۴). در آزمون‌های مداد-کاغذی برای طراحی خزانه‌ی سؤال مناسب، طراحان سؤال هنوز ابزار قدرتمندی برای ساخت سؤالاتی با کیفیت بالا محسوب می‌شوند (واینر، دورانس، ایگنور، فلاگر، گرین، میسلوی، استنبرگ و تیسن، ۱۹۹۰). در صورتی‌که، سنجش انطباقی کامپیوتری، به خزانه‌ی سؤالی نیاز دارد که خوب طراحی شده‌ باشد، و شامل تعداد مناسبی از سؤالاتی باشد که از آن طریق بتوان آزمون‌های مجزایی برای هریک از سطوح توانایی آزمودنی‌ها ساخت. یک خزانه سؤال بهینه باید همچنین شامل سؤالاتی با تعادل محتوایی مناسب، که به استفاده بهینه‌ای از سؤال منجر شود و هزینه‌ی ایجاد سؤال را کاهش دهد، باشد (گو[۳۰] و ریکیسی، ۲۰۰۷). بنابر تعریف ریکیسی (۲۰۱۰)، زمانی بهترین خزانه سؤال ممکن یا خزانه سؤال بهینه را خواهیم‌داشت که هر زمان الگوریتم انتخاب سؤال CAT، سؤالی را برای اجرا جستجو می‌کند، دقیقاً همان سؤالی که مطلوب و مورد نظر است، در خزانه سؤال موجود باشد. بدین ترتیب، اگر در هر بار انتخاب سؤال، همیشه بتوان به سؤال مطلوبی دست یافت، خزانه‌ی سؤال بهینه خواهد بود (ریکیسی، ۲۰۱۰).
توجه به چندین عامل مهم که با طراحی خزانه سؤال و CAT مرتبط هستند ضرورت دارد. خزانه سؤال بهینه باید بر اساس مولفه‌های دیگر CAT، یعنی طول آزمون، توزیع مورد انتظار جامعه آزمودنی‌ها، شیوه‌های برآورد توانایی، شیوه‌های انتخاب سؤال و نسبت‌های مواجهه و همپوشی سؤال هدف تعیین شود، توجه به تمام مولفه‌های CAT که توسط ریکیسی (۱۹۸۹) تعیین شد، به طور همزمان الزامی است (برگستروم و لانز[۳۱]، ۱۹۹۹). دو شیوه‌ی رایج برآورد توانایی در CAT وجود دارد. “شیوه‌ی برآورد توانایی بیزین[۳۲]” که سؤالاتی را انتخاب می‌کند که مقدار مورد انتظار واریانس پسین بیزین را کاهش‌دهد (اوون، ۱۹۶۹). روش بیزین اوون[۳۳] با یک توزیع پیشین توانایی شروع می‌شود، به صورتی که فرض می‌کند که آزمودنی عضوی از یک جامعه با یک توزیع مشخص توانایی - با میانگین و واریانس شناخته شده- می‌باشد. به این روش، “بیشینه دقت پسین[۳۴]” (MPP) نیز می‌گویند (اوون، ۱۹۷۵). روش دیگری که به طور رایجی به‌کار می‌رود، روش بیشینه درست نمایی (ML) است. در این روش تا آزمودنی حداقل به یک سؤال پاسخ درست یا غلط ندهد، برآورد متناهی از توانایی آزمودنی نمی‌دهد (وندر لیندن، ۲۰۰۵). همچنین یکی از روش‌های رایج انتخاب سؤال در CAT “روش انتخاب سؤال بر اساس بیشینه آگاهی[۳۵]” است. در روش بیشینه آگاهی (MI) سؤالاتی که میزان آگاهی فیشر در برآورد توانایی جدید آزمودنی را بیشینه کند، انتخاب می‌شوند (براون و ویس[۳۶]،۱۹۷۷). در CAT، سؤالات جدید به طور انطباقی با توجه به برآورد موقتی سطح توانایی آزمودنی بر اساس پاسخ سؤالاتی که قبلاً بر او اجرا شده است، انتخاب می‌شود (دیوی و پارشال[۳۷]، ۱۹۹۵). این شیوه‌های انتخاب سؤال می‌تواند بر نسبت مواجهه‌ سؤال تاثیر گذارد. از این‌رو عاملی باید به وجود آید تا این نسبت را کنترل کند. روش‌های متعددی برای کنترل مواجهه‌ سؤال وجود دارد، روش کنترل مواجهه‌ سیمپسون-هتر (S-H)، یکی از رایج‌ترین شیوه‌های انتخاب شرطی سؤال است. در این شیوه به هر سؤال مقدار پارامتر کنترل مواجهه‌ اختصاص داده می‌شود. این پارامتر بر اساس فراوانی انتخاب سؤال که از طریق شبیه‌سازی‌های متوالی CAT تعیین می‌شود، به سؤال اختصاص داده می‌شود. سؤالاتی با فراوانی بالاتر اجرا، پارامتر کنترل مواجهه‌ کوچکتری به آن اختصاص می‌یابد، که دامنۀ آن بین ۰ و ۱ است (سیمپسون و هتر، ۱۹۸۵). این مباحث که به صورت خلاصه بیان شد، نشان می‌دهد که چهار هدف اغلب متضاد، در انتخاب سؤال از خزانه در CAT وجود دارد. اول، انتخاب سؤال باید دقت اندازه گیری را از طریق انتخاب آگاهی بیشینه شده یا از طریق دقت پسین سطح توانایی برآورد شده آزمودنی، بیشینه کند. دوم، انتخاب سؤال باید از امنیت خزانه سؤال از طریق محدود کردن میزانی که سؤالات مواجهه خواهند شد، محافظت کند. سوم، انتخاب سؤال باید این اطمینان را ایجاد کند که آزمودنی‌ها، آزمونی با تعادل محتوایی مناسبی را دریافت کرده‌اند (پارشیال، دیوی و نرینگ[۳۸]، ۱۹۹۸). هدف چهارمی که بیشتر به بهینه شدن خزانه سؤال کمک می‌کند، اظهار می‌کند که انتخاب سؤال باید استفاده از سؤال را بیشینه کند، به طوری‌که همه سؤالات در خزانه استفاده شوند. بدین ترتیب، مطمئن می‌شویم که از لحاظ اقتصادی صرفه‌جویی مناسبی برای طراحی سؤال صورت‌گرفته‌است (استوکینگ و سوآن سون، ۱۹۹۸). مسائل مربوط به انتخاب سؤال مانند یک بادبادکی می‌ماند که وقتی یک طرف آن را فشار می دهیم طرف دیگر آن متورم شود، یا به عبارت دیگر زمانی که به یک مورد آن توجه می‌شود، از مورد دیگر آن غافل می‌شویم (استوکینگ و لوئیس[۳۹]، ۲۰۰۰). بنابراین، خزانه‌ی سؤالی که برای CAT ساخته می‎شود، باید بتواند به این مولفه‌ها به طور همزمان توجه کند. با این وجود، پژوهش‌های اندکی در مورد ساخت خزانه‌ی سؤالی برای CAT که بتواند همه‌ی این مولفه‌ها را وارد کند، وجود دارد.
اولین بار ون‌در‌لیدن و بوکویی-تیمینگا [۴۰] (۱۹۸۹) و ون در‌لیندن (۱۹۹۸) در مورد اتوماتیک کردن ساخت ابزار با بهره گرفتن از تابع آگاهی ابزار هدف به مطالعه پرداختند. بوکویی - تیمینگا در سال ۱۹۹۱، از روش “برنامه ریزی اعداد صحیح[۴۱]” برای محاسبه‌ی تعداد سؤالات مورد نیاز برای فرم‌های متفاوت آزمون استفاده‌کرد. او از رویکرد متوالی که تابع آگاهی آزمون (TIF)، را تحت مدل تک پارامتری لوجستیک (راش[۴۲]) بیشینه می‌کرد، استفاده‌ کرد. نتایج پژوهش‌های او برای اصلاح بانک سؤال موجود استفاده ‌شد (بوکویی – تیمینگا، ۱۹۹۱). نخستین کارها در زمینه‌ی ساخت خزانه‌ی سؤل در CAT مربوط به رونالد فلاگر (۲۰۰۰) می‌باشد، وی با انجام کارهای کلاسیکی در زمینه‌ی ساخت خزانه‌های سؤال، نشان داد، برای محقق ساختن بسیاری از مزیت‌های اندازه‌گیری سنجش انطباقی، خزانه سؤالی که از آن سؤالات انتخاب می‌شوند، باید شامل سؤالاتی با کیفیت بالا برای بسیاری از سطوح متفاوت توانایی باشد. وی اولین الگوی ساخت خزانه سؤال را طراحی کرد (واینر و همکاران، ۲۰۰۰، ص ۳۸).با این وجود، تنها نتیجه‌ای که از طراحی او در مورد ساخت خزانه بدست آمد، این بود که، ” باید بتوان تعدادی کافی از سؤالات در هر طبقه‌ی محتوایی ایجاد کرد، سؤالاتی که بر ویژگی‌های آزمونی که قبلاً ساخته شده، مبتنی است” (همان منبع، ص ۳۹). متأسفانه در طرح او هیچ نوع راهنمایی وجود نداشت که نشان دهد، چگونه ویژگی‌های آزمون مشخص شود. به این دلیل‌که در مورد ویژگی‌های مورد نیاز خزانه سؤال برای CAT، راهنمایی‌های اندکی ارائه‌ شده ‌است، اغلب دیده می‌شود که برای ایجاد خزانه سؤال، از شیوه‌هایی استفاده می‌شود که فاقد اصول معینی[۴۳] بوده و تنها در شرایط و بافت خاصی بنا به موقعیت قابلیت کاربرد دارند. برای مثال، وایر، بجورنر و کاسینسکی[۴۴] (۲۰۰۰)، برای ایجاد یک مقیاس CAT با هدف سنجش تأثیر سردرد در افراد، سؤالاتی را از چهار مقیاسی که از قبل موجود بود، جمع‌ آوری ‌کردند و برای کامل کردن آن، تعداد کمی سؤال نوشتند تا خزانه سؤال بزرگ‌تر شود. با این کار ۵۳ سؤال به‌دست آمد که تنها مناسب دامنۀ پایین سازه‌ی مورد نظر بود، و برای سنجش دامنه‌های دیگر این صفت مناسب نبود (ریکیسی، ۲۰۱۰).
در کارهایی که اخیراً برروی CAT صورت گرفته، طراحی خزانه سؤال به صورت جدی مورد توجه قرار گرفته است. این مطالعات بر روی دو رویکرد عمده مبتنی هستند. رویکرد اول، توسط ولدکمپ و وندر لیندن (۲۰۰۰) ایجاد شده است، پژوهش‌های مرتبط با این رویکرد از روش برنامه نویسی ریاضی[۴۵] برای طراحی خزانه‌ی سؤال استفاده می‌کنند. در این رویکرد فرض می‌شود که مجموعه بزرگی از سؤالات که “خزانه اصلی[۴۶]” نامیده می‌شود، از قبل وجود دارد و تنها باید خزانه‌های قابل استفاده مورد نیاز، از آن انتخاب شود (بلو[۴۷] و آرمسترونگ[۴۸]، ۲۰۰۹؛ وندر لیندن، ادلاید آریل و ولدکامپ، ۲۰۰۶). در این رویکرد از “تست سایه[۴۹]“(STA) برای طراحی خزانه سؤال استفاده‌ می‌شود، و از ویژگی‌های خزانه سؤال موجود به عنوان نقطه شروع استفاده می‌شود (وندر لیندن و ولدکامپ ،۲۰۰۰). به عبارت دیگر، CAT از طریق رویکرد تست سایه اجرا می‌شود و تست از طریق برنامه‌نویسی عدد صحیح خطی دو ارزشی[۵۰] یا برنامه‌نویسی ۱-۰ سرهم می‌شود (وندرلیندن، ریس[۵۱]، ۱۹۸۸). بعضی از مطالعات در این رویکرد به هدف طراحی با برنامه‌ریزی اعداد صحیح رسیدند (آریل، ولدکمپ و واندر لیندن، ۲۰۰۴). ولدکمپ و وندر لیندن، ۵ گام برای طراحی الگوی بهینه خزانه سؤال CAT با روش برنامه‌ریزی ریاضی، توصیف‌ کردند (ولدکمپ و وندر لیندن، ۱۹۹۹). در این رویکرد صفات و قیود سؤال مشخص می‌شوند، و سپس تست بر اساس آنها سرهم می‌شود. وندر لیندن (۲۰۰۵)، سه نوع از صفات سؤال را از یکدیگر متمایز کرد، کمّی[۵۲] ، طبقه ای[۵۳] و منطقی[۵۴]. صفات کمّی، صفاتی از سؤال هستند که به مقایر عددی سؤال مربوطند. مانند تعداد کلمات، تعداد پاسخ‌های ممکن، آماره‌هایی از قبیل مقادیر-p سؤال و پارامترهای IRT، و فراوانی استفاده‌ی قبلی از سؤال. صفات طبقه‌ای، خزانه سؤال را به خرده آزمون‌هایی از سؤالات با صفت یکسان تقسیم می‌کنند. مانند طبقه‌ی محتوایی، چارچوب پاسخ سؤالات (برای مثال، پاسخ-باز یا چند گزینه ای)، و استفاده از مواد معین (برای مثال، نمودار یا جدول). صفات منطقی از صفات کمّی و طبقه‌ای متفاوتند، صفات منطقی مشخصات سؤالات یا آزمون‌های مجزا نیستند، بلکه صفات دوتایی، سه تایی و غیره سؤالات با یکدیگر می‌باشد. صفات منطقی شامل روابط ورود و خروج بین سؤالات و آزمون‌ها می‌باشد. یکی از این روابط خروج این است که اگر سؤالی راهنمای حلّ سؤال دیگری باشد باید در آزمون یکسانی قرار نگیرد. در این رویکرد ویژگی‌ها و صفات تست بر اساس یک تابع هدف[۵۵] که در ارتباط با مجموعه‌ای از قیود[۵۶] خاص بیشینه یا کمینه می‌شود، محقق می‌گردد. وندر لیندن توانست با بهره گرفتن از این روش ویژگی‌های بهینه‌ی خزانه سؤال را شبیه‌سازی کند (وندرلیندن، ۲۰۰۵). مزیت این روش این بود که طراح را قادر می‌ساخت تا ویژگی‌های پیچیده آزمون را مدل یابی کند. یک ‌مرتبه ویژگی‌های سؤالات را تعریف کند و آنها را به عدد تبدیل کند، و سپس نرم افزار ویژه‌ای برای شبیه سازی خزانه سؤال بهینه تعبیه کند. با این وجود، خزانه سؤال طراحی شده با روش برنامه‌ریزی ریاضی به طور گسترده‌ای در انتخاب سؤال به روش تست سایه وابسته است و به دانش زیادی در مورد نرم‌افزار بهینه‌سازی ویژه نیاز دارد. همچنین، بسته به روشی که صفات سؤال پارتیشن‌بندی می‌شوند، فضای طراحی می‌تواند بسیار بزرگ شود و فرایند شبیه‌سازی از لحاظ محاسباتی دشوار شود (گو و ریکیسی، ۲۰۰۷). یکی از محدودیت‌های بالقوه‌ این رویکرد آن است که به نرم افزارهای جبر خطی از قبیل CPLEX و LINDO برای بدست آوردن راه‌حل بهینه نیاز دارد، که کاربرد این روش را اندکی دشوار می‌کند و ممکن است، کدها و معادلات آن برای اکثریت کاربران دردسترس نباشد، که در این صورت اگر برنامه نیاز به اصلاح و یا تغییر داشته باشد، کنترلی بر آن نداشته باشند و چه بسا این احتمال وجود دارد که همیشه راه ‌حل قابل اجرا و عملی[۵۷] دردسترس نباشد (چانگ[۵۸]، ۲۰۰۷؛ روبین[۵۹] و همکارانش، ۲۰۰۵). همچنین محدودیت دیگر این رویکرد این است که، سؤالات از قبل در خزانه موجود هستند و از روی آنها یک خزانه کوچک‌تر سرهم می‌شود (گو و ریکیسی، ۲۰۰۷) و در این رویکرد از ویژگی‌های یک خزانه‌ی سؤال موجود به عنوان نقطه شروع استفاده می‌شود (ریکیسی، ۲۰۱۰). البته استوکینگ و سوانسون (۱۹۹۳)، توانستند با بهره گرفتن از رویکرد برنامه‌نویسی خطی اعداد صحیح روشی را ایجاد کنند که در آن نیاز به استفاده از تست سایه در طراحی خزانه‌ی سؤال سنجش انطباقی وجود نداشته باشد. این روش برنامه‌نویسی خطی که به مدل انحرافات وزن‌دار[۶۰] (WDM) معروف است، به‌طور گسترده‌ای به عنوان جایگزینی قوی به جای روش تست سایه استفاده می‌شود (استوکینگ و سوانسون، ۱۹۹۸). این روش در اصل توسط استوکینگ و سوانسون، ۱۹۹۳ به دلیل علاقه و نگرانی آنها در مورد کیفیت ضعیف خزانه‌های سؤال در سرهم کردن تست‌های متوالی در مقیاس بزرگ ایجاد شد. روش WDM به صراحت ویژگی‎های آماری و غیر آماری سؤال را با تعادل مطلوبی بین ویژگی‌های اندازه‌گیری و ساختاری در نظر می‌گیرد. این ویژگی‌ها به‌وسیله‌ی وزن‌هایی که توسط طراحان تست انتخاب می‌شود، می‌تواند در مدل وارد ‌شود. این روش برخلاف روش تست سایه، ویژگی‌های محتوایی را به عنوان اهداف[۶۱] نه قیود[۶۲] فرمول‌بندی می‌کند. به انحراف از اهداف محتوایی وزن داده می‌شود و در تابع هدف به همراه فاصله‌ی آگاهی سؤال از مقدار هدف[۶۳] قرار می‌گیرد بنابراین، محدودیت وابسته بودن رویکرد برنامه‌نویسی به روش تست سایه در ساخت خزانه‌های سؤال سنجش انطباقی با روش WDM برطرف می‌شود (استوکینگ، سوانسون و پیرمن[۶۴] ، ۱۹۹۳).
رویکرد دوم، رویکرد اکتشافی ریکیسی می‌باشد (ریکیسی، ۲۰۰۳). او برای برطرف کردن محدودیت‌های رویکرد اول، روشی برای ایجاد الگویی برای خزانه سؤال ایجاد‌ کرد، این روش بر اساس روش مونت کارلو[۶۵]، ویژگی‌های یک خزانه سؤال بهینه را تعیین می‌‌کند (گو و ریکیسی، ۲۰۰۷). این رویکرد برخلاف روش برنامه‌نویسی ریاضی، بسیار سرراست است. همچنین، در مطالعات گوناگون در مورد طراحی خزانه‌های سؤال بهینه برای CAT استفاده شده است (ریکیسی، ۲۰۰۳، ۲۰۰۴، ۲۰۰۵؛ ریکیسی و هی؛ ۲۰۰۴، ۲۰۰۹؛ گو، ۲۰۰۷). در این رویکرد، استفاده از برنامه‌ریزی اعداد صحیح کنار گذاشته می‌‌شود، و در آن فرض نمی‌شود که سؤالات از قبل وجود دارند. درعوض، در این رویکرد سؤالات برحسب پارامترهای IRT شبیه‌سازی می‌شوند تا با برآوردهای اخیر توانایی مطابقت داشته باشند و میزان آگاهی به‌اندازه کافی بهینه‌ای را ایجاد کنند. در روش ریکیسی ابتدا، خزانه‌ی سؤال هدف بر اساس صفات غیر آماری از قبیل محتوا به خزانه‌های کوچکتری تقسیم‌بندی می‌شود، سپس فرایند CAT شبیه‌سازی می‌شود، به‌طوری‌که خزانه‌های سؤال کوچکتر به‌طور همزمان ساخته ‌‌شوند. شبیه‌سازی با یک آزمودنی که به‌طور تصادفی از توزیع مورد انتظار استخراج می‌شود، آغاز ‌شده، تا CAT برای این آزمودنی ایجاد شود. هر سؤال به نحوی شبیه‌سازی می‌شود که سؤال بهینه‌ای براساس برآورد توانایی اخیر آزمودنی باشد. فرایند مشابهی برای آزمودنی بعدی نیز تکرار می‌شود، سپس، به همین ترتیب، برای کل نمونه‌ی مورد نظر این فرایند ادامه می‌یابد و سؤالات برای نمونه‌ی بزرگی از آزمودنی‌ها شبیه‌سازی می‌شود و به خزانه‌ی سؤال اضافه می‌شود، و بدین ترتیب براساس روش (“bin-and-union”)، خزانه‌ی سؤال بهینه ساخته می‌شود (ریکیسی، ۲۰۰۳، ۲۰۰۴، ۲۰۰۹). برخلاف مسئله‌ی سرهم کردن[۶۶] خزانه‌ی سؤال در رویکرد اول که در آن یک خزانه‌ی سؤال از یک خزانه‌ی بزرگ[۶۷] دردسترس برطبق ویژگی‌های مطلوب سرهم می‌شود (وندر لیندن، آریل و ولدکمپ، ۲۰۰۶، وندرلیندن، ۲۰۰۵؛۲۰۰۰)، در مسئله طراحی خزانه‌ی سؤال در رویکرد دوم، فرض بر این است که هیچ سؤال واقعی دردسترس نیست. از این‌رو، از آنجایی که در عمل نیز، زمانی‌که یک خزانه‌ی سؤال طراحی می‌شود، هیچ سؤال واقعی در دسترس نمی‌باشد، طبیعتاً طراحی یک خزانه‌ی سؤالی که به این صورت بهینه باشد، هدف مطلوبی می‎‌باشد (هی، ریکیسی، ۲۰۱۰). در این رویکرد، امکان کنترل مواجهه‌ بیش از حد و تعادل محتوایی وجود دارد، ولی به اندازه‌ی رویکرد اول نمی‌تواند موفقت‌آمیز باشد و چالش‌هایی را به‌ وجود می‌آورد. همچنین، تعمیم روش ریکیسی (۲۰۰۳) به مدل‌های دو و سه پارامتری با پیچیدگی‌هایی همراه است (ریکیسی، ۲۰۱۰). از این‌رو، تعمیم این رویکرد به مدل‌های دو و سه پارامتری تنها در دو پژوهش (گو، ۲۰۰۷ و هی، ۲۰۱۰) مشاهده شده است.
حال سؤال مهمی که مطرح می‌شود، این است که، برای طراحی یک خزانه‌ی سؤال بهینه چه تلاشی باید صورت گیرد؟. بدیهی است که در طراحی یک خزانه‌ی سؤال ما باید ویژگی‌های آماری و غیر آماری سؤال را در‌نظر بگیریم. برای مثال، توزیع پارامترهای سؤال مطلوب باید چگونه باشد؟ سؤالات موجود در خزانه‌ی سؤال CAT باید چه صفاتی داشته‌باشند؟. از طرف دیگر، پرسش‌هایی از قبیل؛ چه چیزی باعث می‌شود که اندازه‌ی خزانه‌ی سؤال کافی باشد یا به عبارتی به چند سؤال در خزانه نیاز داریم؟، نیز باید درنظر گرفته‌شود. بنابراین، به‌طور خلاصه، زمانی‌که یک خزانه‌ی سؤال بهینه طراحی می‌شود، باید حداقل سه عنصر اساسی درنظر‌گرفته‌شود، یعنی، ویژگی‌های آماری، ویژگی‌های غیر آماری و اندازه‌ی خزانه‌ی سؤال. ویژگی‌های آماری شامل پارامترهای سؤال می‌باشند، ویژگی‌های غیر آماری شامل ویژگی‌های محتوایی، توزیع کلید و مهارت‌های شناختی و غیره می‌باشند (هی و ریکیسی، ۲۰۱۰).
از آنجا که پژوهش‌ها و مطالعات انجام گرفته در این حوزه، هیچ یک به طور جامع به بررسی تمام مولفه‌ها و مفروضاتی که بر عملکرد CAT تاثیر می‌گذارد، نپرداختند. و هر یک تنها به مولفه‌ای از CAT برای طراحی خرانه سؤال توجه کردند، جای خالی مطالعه‌ا‌ی که بتواند به همه‌ی مولفه‌های CAT توجه کند و همچنین الگویی مناسبی برای خزانه‌ی سؤال طراحی کند، در ادبیات مربوط به سنجش انطباقی کامپیوتری (CAT) به چشم می‌خورد. در پژوهش‌های مربوط به رویکرد اول، خزانه‌های سؤال از خزانه‌های موجود طراحی می‌شوند و بنابراین هدف اولیه‌ی طراحی خزانه‌ی سؤال را زیر سؤال می‌برد. در رویکرد دوم، مولفه‌های امنیتی CAT برای وارد شدن به شبیه‌سازی با چالش‌هایی روبرو هستند، از این‌رو، کمتر در پژوهش‌های مرتبط با این رویکرد به این مولفه‌ها توجه شده است. همچنین کاربرد این رویکرد در مدل‌های دو و سه پارامتری نیز در پژوهش‌های اندکی انجام شده و یا در پژوهش‌های اخیری بوده است که هنوز بر روی عملکرد خزانه‌های شبیه‌سازی شده مطالعه‌ای صورت نگرفته است. ضرورت تلفیق مزیت‌های این دو رویکرد، در تحقیقات مربوط به طراحی خزانه‌ی سؤال بهینه در پژوهش‌های پیشین هم خاطر نشان شده است (گو و ریکیسی، ۲۰۰۷؛ هی و ریکیسی، ۲۰۱۰)، امّا، تا به حال چنین پژوهشی در ادبیات مربوط به خزانه‌ی سؤال صورت نگرفته است. از این‌رو پژوهش حاضر قصد دارد تا از طریق ایجاد مطالعه‌ای عملیاتی و تجربی به همراه مطالعه‌ی شبیه‌سازی‌شده و سازمان یافته‌ از کلیّه‌ی این مولفه‌ها با کنترل و دستکاری مولفه‌های دیگر به ساخت الگویی بهینه برای طراحی خزانه‌ی سؤال CAT، بپردازد، تا بتواند کارکرد سنجش‌های انطباقی را بهبود بخشد. روش شبیه‌سازی در این مطالعه روش مونت کارلو است که به همراه برنامه‌نویسی ریاضی اعداد صحیح به روش WDM برای وارد کردن ویژگی‌های محتوایی، الگوی بهینه طراحی می‌شود. در این پژوهش، سعی بر این است که، از مزایای رویکرد برنامه‌نویسی ریاضی در غنی‌سازی رویکرد اکتشافی ریکیسی استفاده شود، ولی اساس و زیربنای شبیه‌سازی بر رویکرد اکتشافی ریکیسی (۲۰۰۳) و تعمیم آن به مدل‌های دو و سه پارامتری، بنا شده است.
اهمیت و ضرورت مسئله
خزانه‌ی سؤال نقش با اهمیتی در سنجش انطباقی کامپیوتری (CAT) دارد (گو، ریکیسی، ۲۰۰۷). مشخصات خزانه سؤال به منظور بهبود عملکرد CAT بسیار مهم می‌باشند. نوع طراحی خزانه سؤال بر عملکرد CAT تاثیر می‌گذارد (ریکیسی، ۲۰۱۰). یکی از مباحثی که اغلب در طراحی خزانه‌ی سؤال نادیده گرفته می‌شود، این است که چگونه یک خزانه‌ی سؤال به یک روش تجربی و روش نظامدارتری طراحی و گسترش یابد، و به عبارتی ایجاد طرح نظامداری که مطالب اصلی ترکیب بهینه‌ای از سؤالات را با مشخصه‌ های روان‌سنجی و ویژگی‌های محتوایی مورد نظر تامین کند، به چشم نمی‌خورد. طرحی که به عنوان یک نتیجه و الگوی طراحی خزانه سؤال بتواند به طراحان سؤال کمک کند که نه تنها در نوشتن سؤالات به شکل (چند گزینه ای، پاسخ باز و غیره) آنها و پوشش محتوایی آن توجه کنند، بلکه به مشخصه‌ های روان سنجی مطلوب سؤالات نیز توجه کنند. در این میان طرحی بهینه است که شامل سؤالات مناسبی برای هر کدام از آزمون‌های مجزای CAT باشد و ما را قادر سازد تا به سطح مطلوبی از دقت برسیم. همچنین مهمترین عاملی که یک الگوی طراحی سؤال را بهینه می‌کند این است که شامل سؤالاتی باشد که به خوبی متعادل شده باشند، به طوری‌که استفاده بهینه‌ای از سؤال شود و هزینه‌ی طراحی سؤال را به حداقل برساند (گو و ریکیسی، ۲۰۰۷).
فرایند نوشتن سؤالات معمولاً از طریق مشخصاتی که به طور مناسبی برای آزمون تعیین می‌شود، آموزش داده ‌می‌شود. به طوری‌که صفات محتوایی و توزیع‌شان را معین می‌کند. تا حد لزوم شرایط صفات آماری از قبیل دامنه دشواری و ضریب تشخیص را می‌توان مشخص کرد، امّا اغلب بسیار دشوار است که به سادگی به این سطح دشواری و ضریب تشخیص مشخص‌شده برسیم، زیرا مقادیر صفات آماری برای تک تک سؤالات به آسانی پیش‌بینی ‌نمی‌شود. با ‌این‌وجود در سطح خزانه سؤال، ویژگی‌های آماری الگوی ثابتی از همبستگی با صفات محتوایی نشان می‌دهند. اگر این الگوها استفاده شوند، تلاش‌هایی که برای نوشتن سؤال صرف می‌شود به حداقل می‌رسد. به‌ واسطه‌ی مدل یابی دقیقی که از شیوه CAT صورت می‌‌گیرد، مشخصات آزمون برای خزانه سؤال می‌تواند با شبیه‌سازی کامپیوتری ایجاد شود تا تعداد سؤالات مورد نیاز به همراه صفات ویژه و مشخصات روانسنجی آنها قابلیت پیش‌بینی[۶۸] پیدا کند (وندر لیندن، ۱۹۹۹؛ ریکیسی، ۲۰۰۳).
بنابراین، توصیف شیوه‌هایی برای طراحی خزانه‌های سؤال برای آزمون‌های انطباقی کامپیوتری و بررسی این‌که آیا استفاده از این شیوه‌های طراحی خزانه سؤال کارا می‌باشند و مزیت‌های CAT را از بین نمی‌برند، همواره یکی از اهداف مهم در مطالعات مربوط به خزانه سؤال‌ بوده ‌است. از این‌رو شیوه‌هایی مورد نیاز است که شبیه‌سازی کاملی برای CAT ایجاد کند، تا شامل مواردی مانند تعادل محتوایی، کنترل مواجهه‌ بیش از حد سؤالات و روش انتخاب سؤال باشد (ریکیسی، ۲۰۱۰).

موضوعات: بدون موضوع  لینک ثابت


فرم در حال بارگذاری ...