Loading...

دانلود مبانی نظری و پیشینه پژوهش ارزشیابی آزمونهای پیشرفت تحصیلی (فصل 2 پایان نامه)

دانلود مبانی نظری و پیشینه پژوهش ارزشیابی آزمونهای پیشرفت تحصیلی (فصل 2 پایان نامه) (docx) 34 صفحه


دسته بندی : تحقیق

نوع فایل : Word (.docx) ( قابل ویرایش و آماده پرینت )

تعداد صفحات: 34 صفحه

قسمتی از متن Word (.docx) :

مقدمه روانشناسان و متخصصان تعلیم و تربیت بگونه کلی از دو جهت به اندازهگیری و سنجش علاقهمند بودهاند. نخست آنکه بدانند که فرد معینی چه میکند. در این مورد نتایج اندازهگیری مربوط به آن بخشی از رفتار فرد میشود که شخصیت نام دارد و موضوع اندازهگیری در واقع " عمل فرد" است. دوم آنکه بدانند که فرد چه میتواند انجام دهد. در این نوع اندارهگیری، مقصود به دست آوردن قراین و شواهدی دربارهی اعمالی است که اگر فرد تلاش کند میتواند از عهدهی آن برآید. نتایج این نوع اندازهگیری که در واقع مربوط به توانایی فرد میشود ممکن است به دو بخش اصلی تقسیم شود. اندازههای مربوط به استعداد و اندازههای مربوط به معلومات یا پیشرفتتحصیلی (هومن، 1384، ص 168). آزمونهای پیشرفتتحصیلی برای اندازهگیری معلومات و آموختهها، تواناییهای اکتسابی یا مهارتهای پیشرفته مورد استفاده قرار میگیرند که عمدهترین آنها، آزمونهای مداد و کاغذی یا آزمونهای کتبی نام دارند. این آزمونها را به دو دستهی اصلی تقسیم میکنند: آزمونهای عینی و آزمونهای ذهنی. صاحبنظران و متخصصان، نظرهای موافق و مخالف زیادی نسبت به کاربرد آزمونهای ذهنی ابراز داشتهاند و برای آنها، امتیازات و معایبی برشمردهاند که در این میان بخش اعظم انتقادات، متوجه آزمونهای تشریحی است. دقت این آزمونها به مقدار زیاد به نحوهی تصحیح اوراق امتحانی و دقت عمل مصححان مربوط است و دلیل عمدهی مخالفت برخی صاحب نظران با کاربرد این آزمونها نیز از بی ثباتی نمرهگذاری آنها ناشی میشود. با اینکه سوالات امتحانات نهایی سال سوم متوسطه ترکیبی از انواع گوناگون سوال است ولی درصد بیشتری از سوالات آن از نوع تشریحی و کوتاه پاسخ میباشد. در بسیاری از تحقیقات، آزمونهای عینی مورد تجزیه و تحلیل قرار گرفتهاند و این خود گام بزرگی برای بهبود کیفیت سوالات این آزمونها میباشد. اما متأسفانه به آزمونهای ذهنی و روشهای تحلیل آنها کمتر توجه شده است. در راستای بهبود کیفیت امتحاناتنهایی، هر چند تشکیلات مربوطه گامهای ارزندهای برداشته است که میتوان به مواردی از جمله؛ دستورالعملهای طراحی سوال امتحان، برگزاری کارگاههای آموزشی در حوزه سنجش و ارزشیابی، استفاده از دانش معلمان آموزش دیده در طراحی سوالات، تشکیل بانک سوال اشاره کرد. با وجود این، مستندسازی کیفیت این امتحانات جای بررسی و تحقیق دارد. همانطور که حسنی و کیامنش (1388) بیان کردهاند؛ تحلیل آییننامههای امتحانات نشان میدهد در طول هشتاد و اندی سال که از تدوین اولین آییننامههای امتحانات در شورای عالی معارف می گذرد، تدوین کنندگان آیین نامه ها کمتر به صحت و دقت سوالات و نتایج ارزشیابیها توجه داشتهاند و بیشترین دغدغه آنها صحت اجرا و ثبت نمره بوده است. هر ارزشیابی و سنجشی بر اساس اطلاعات و دادههایی انجام میگیرد که از طریق ابزارها و روشهای مختلف جمعآوری میشوند. سنجشی میتواند کارا و سودمند قلمداد شود که بر پایه اطلاعات دقیق و معتبر باشد و مطابق با اصول و ملاکهای علمی صورت پذیرد. سنجش آموختههای دانشآموزان در امتحانات نهایی نیز از این قاعده مستثنی نیست. زمزمه تغییر نظام پذیرش دانشجو در کشور و جایگزینی سوابق تحصیلی که در چند سال اخیر مطرح شده است بر اهمیت امتحانات نهایی مقطع متوسطه بیش از پیش افزوده است. از این رو طراحی و سنجش سوالات این امتحانات نیز میباید مبتنی بر اصول و نظریههای علمی باشد تا بدین وسیله با در اختیار داشتن دادههایی هر چه نزدیکتر به واقعیت، زمینه برای ارزشیابی عادلانه فراهم شود. در این فصل ابتدا به تشریح ارزشیابی پیشرفتتحصیلی پرداخته میشود، بهدنبال آن به موضوعاتی چون نحوه طراحی و تصحیح امتحانات نهایی نیز اشاره میشود. سپس در قسمت مبانی نظری به معرفی سه نظریهی کلاسیک آزمون، تعمیم پذیری، پرسش – پاسخ و تقابلات آنها پرداخته و بعد از آن مباحث اعتبار و روایی مرور خواهد شد. در پایان، تحلیل محتوا به طور مختصر مورد بررسی قرار خواهد گرفت. فرآیند ارزشیابی پیشرفت تحصیلی ارزشیابی پیشرفتتحصیلی فرایند منظمی است که با بکارگیری روشهای علمی، عملکرد یادگیرندگان و میزان آموختههایشان را میسنجد و در مورد عملکرد آنها با توجه به اهداف آموزشی از پیش تعیین شده به قضاوت و داوری میپردازد. طبق این تعریف در ارزشیابی پیشرفتتحصیلی نخستین گام، تعیین اهداف آموزشی است. منظور از اهداف، انتظارات آموزشی است که پس از طی یک دوره آموزشی از یادگیرندگان انتظار میرود به آن دست یابند. برای سهولت مطالعه، اهداف آموزشی را به انواع مختلفی طبقهبندی کردهاند که از این میان طبقهبندی بلوم شناخته شدهتر است. اهداف در طبقهبندی بلوم در سه حیطهی شناختی، روانی – حرکتی و عاطفی قرار میگیرند که در هر کدام از این حیطهها نیز اهداف از سطوح سلسله مراتبی از ساده به مشکل برخورداند. در آموزش و پرورش بسیاری از اهداف در ارتباط با حیطه شناختی هستند. نوع دیگری از طبقهبندی اهداف، تعیین اهداف در سه سطح کلی، نسبتاً کلی و هدفهای رفتاری است که از این میان، هدفهای رفتاری نسبت به دو سطح دیگر جزئیتر، دقیقتر و قابل اندازهگیریتر است. ویژگیهای مذکور به روند ارزشیابی پیشرفتتحصیلی سرعت و سهولت میبخشند. بعد از تعیین اهداف آموزشی نیاز است که عملکرد یادگیرندگان متناسب با اهداف تعیین شده از طریق ابزارهای اندازهگیری سنجیده شود. از مهمترین این ابزارها امتحانات پیشرفتتحصیلی هستند. این امتحانات زمانی در سطح مطلوب قرار میگیرند که سوالات آن به بهترین وجه نمونهی معرفی از همهی سوالات ممکن در موضوع مورد سنجش باشد، به طوریکه همه ی هدفهای آموزشی و محتوای درس را پوشش دهد. در این راستا آنچه به آزمونساز کمک میکند، تهیه جدول مشخصات برای موضوعی که قرار است عملکرد یادگیرندگان در آن سنجیده شود. این جدول، یک جدول دو بعدی است که در یک بعد آن محتوا و در بعد دیگر هدف قرار میگیرد. همچنین تعداد سوالات متناسب با اهمیت محتوا و هدف هر بخش در خانههای جدول ذکر میشود. بعد از تهیه این جدول، آنچه باید تعیین گردد نوع سوال است. پس از طرح سوالات امتحان، اجرا و تصحیح آن، نوبت به تجزیه و تحلیل دادههای به دست آمده از امتحان میرسد که میتوان از نتایج آن در راستای بهبود کیفیت فنی این امتحانات بهره برد. در قسمت زیر سعی شده است، در راستای تحقیق به معرفی انواع سوال و قواعد طرح و تصحیح سوالات ذهنی پرداخته شود. انواع سوال از عمدهترین امتحانات پیشرفت تحصیلی میتوان امتحانات مداد و کاغذی یا امتحانات کتبی را نام برد. سوالات این امتحانات به دو نوع اصلی؛ عینی و ذهنی تقسیم میشوند. در سوالات عینی، دانشآموز باید از بین پاسخهای پیشنهادی برای هر سوال، پاسخ درست یا مناسبتر را انتخاب کند. علت نامگذاری این سوالات این است که در تصحیحشان، نظر شخصی مصحح بیتأثیر است. این سوالات خود شامل سوالات چندگزینه ای، صحیح – غلط و جور کردنی میباشند. در سوالات ذهنی، دانشآموز پاسخ را تولید میکند و دلیل نامگذاری این سوالات، دخیل بودن نظر شخصی مصححان در تصحیح آنهاست. این سوالات به سه دستهی تشریحی یا انشایی، کوتاه پاسخ و کامل کردنی تقسیم میشوند. سوالات تشریحی تهیه پاسخ در سوالات تشریحی مستلزم این است که دانشآموز ضمن یادآوری آموختههای خود، پاسخ را تولید کند. با توجه به آزادی عمل دانشآموز در پاسخ دادن، این سوالات به دو دسته تقسیم میشوند؛ دستهی اول، سوالات تشریحی گسترده پاسخ هستند که دانشآموز از لحاظ زمان پاسخدهی و میزان پاسخ هیچ گونه محدودیتی ندارد و میتواند هر طور بخواهد پاسخ خود را ارائه دهد. دسته ی دوم، سوالات تشریحی محدود پاسخ هستند که دانشآموز باید مطابق با محدودیت عنوان شده در صورت سوال عمل کند. این نکته حائز اهمیت است که هیچ کدام از انواع سوال به تنهایی عاری از نقص نیست و نمیتوان هیچ یک از آنها را به عنوان تنها ابزار مطلوب جهت سنجش آموختههای دانشآموزان نام برد. هر کدام مزایا و معایب خاص خود را دارند که می توان با در نظر گرفتن ملاحظات نظری و عملی از میان آن ها دست به انتخاب زد. از جمله امتیازهای سوالات تشریحی میتوان به سنجش سطوح بالاتر اهداف آموزشی، سهولت تهیه، تقویت عادتهای مطلوب مطالعه در یادگیرندگان، قرار دادن یادگیرندگان در موقعیت های واقعیتر اشاره کرد. همچنین این سوالات توانایی تولید پاسخ را میسنجند نه توانایی انتخاب پاسخ را. از جمله معایب این سوالات میتوان به متأثر بودن نمرهگذاری ازحالات روحی و سلیقهی شخصی مصحح و نیز توانایی دانشآموز در ارائه مطلب اشاره کرد که کاهش دقت و عینیت در تصحیح را به دنبال خواهد داشت. همچنین صرف زمان زیاد برای تصحیح، نمونهگیری محدود از محتوای درس و هدفهای آموزشی از دیگر معایب این سوالات هستند. قواعد طرح سوالات تشریحی با اینکه سوال خوب طرح کردن نوعی هنر است اما در این زمینه اصول و قواعدی وجود دارد که نتیجهی تجربیات صاحب نظران طی سالیان میباشد که با رعایت آنها میتوان سوالات مناسب و با کیفیتی طرح کرد. سیف (1391) در بیان اصول و قواعد این سوالات به موارد زیر اشاره کرده است: هر سوال به یکی از هدفهای آموزشی مربوط باشد. از سوالات تشریحی برای سنجش هدفهایی استفاده شود که با سایر انواع سوالات به خوبی قابل اندازه گیری نباشد. در نوشتن سوالات از کلمات و عبارات واضح استفاده شود و از کلیگویی پرهیز شود. تا حد امکان از سوالات تازه و موقعیتهای جدید استفاده شود. به دانشآموزان حق انتخاب چند سوال از میان تعدادی سوال داده نشود. برای پاسخگویی به سوالات زمان کافی در نظر گرفته شود و زمان هر سوال نیز به طور جداگانه مشخص شود. با نوشتن سوالاتی که به جواب کوتاه نیاز دارند، تعداد سوالات را میتوان افزایش داد و از این طریق از مشکل ضعف نمونهگیری امتحانات تشریحی کاست. عواملی که در ارزشیابی سوالات تشریحی دخالت دارند را از پیش تعیین کرده و دانش آموزان را باید از آن مطلع کرد. از کاربرد کلمات "چه کسی"، "چه وقت"، " کجا" و جز این ها بپرهیزید. قواعد تصحیح سوالات تشریحی به منظور افزایش دقت عمل مصححان و ثبات نمرهگذاری رعایت اصول و قواعد زیر توصیه شده است: پاسخهای سوالات تشریحی را تنها میباید بر اساس هدفی که در سوال گنجانیده شده است، تصحیح کرد. پاسخها سوال به سوال تصحیح شوند نه ورقه به ورقه. در صورت امکان، چند مصحح اوراق را به گونه مستقل تصحیح کنند. میانگین نمرات مصححان مختلف از نمرات هر یک از آنها دقیقتر خواهد بود. تمام پاسخهای دانشآموزان به یک سوال در یک نشست و بدون وقفهی زمانی تصحیح شوند. هنگام تصحیح اوراق امتحانی از شناسایی نام صاحبان آنها خودداری شود. مصحح به نمرات سوالات قبلی تصحیح شده نگاه نکند و هر سوال جدید را به طور مستقل و بدون تأثیر گرفتن از نمرات سوالات قبلی تصحیح کند. به منظور ایجاد انگیزه و آموزش غیرمستقیم بر روی اوراق امتحانی، اشتباهات دانشآموزان تصحیح شود. داشتن یک نمونه یا الگو برای هر سوال به عنوان کلید، از دخالت عوامل نامربوط جلوگیری میکند. در تهیهی پاسخهای نمونه، پاسخ هر سوال را به چند قسمت تقسیم کرده و برای هر قسمت امتیاز جداگانهای منظور و مطابق با این امتیازها به پاسخهای دانشآموزان نمره داده شود. از راهنمای تصحیح استفاده شود (همان منبع). روشهای تصحیح سوالات تشریحی روش تحلیلی یا امتیازبندی : در این روش پاسخ نمونهی هر سوال به اجزای کوچکتری تقسیم میشود و برای هر جز مشخص، نمره یا امتیاز جداگانهای در نظر گرفته میشود. روش کلی یا سراسری یا درجهبندی : پاسخ نمونه به اجزا و قسمتهای کوچک تقسیم نمی شود بلکه تنها به صورت یک معیار به کار میرود. در این روش مصحح تمامی پاسخ فرد به یک سوال را میخواند و یک برداشت کلی از آن کسب میکند و بعد این برداشت کلی را به یک نمره تبدیل میکند. در این روش، شیوههای مختلفی برای نمرهگذاری وجود دارد: میتوان یک نمره دوگانه ( قبول- مردود) را به کار برد یا مقیاس را تا 5 واحد از خیلی خوب(5) تا خیلی ضعیف(1) افزایش داد. روش ویژگیهای اصلی : در این روش مصحح ویژگیهای اصلی پاسخ دانشآموز به هر سوال را میسنجد و برای هر یک از آنها نمرات 4 تا 0 را که معرف عالی تا غیرقابل قبولاند منظور مینماید (همان منبع). سوالات کوتاه پاسخ در سوالات کوتاه پاسخ، سوال به صورت جملهی پرسشی نوشته میشود و دانشآموز همانند سوالات تشریحی، پاسخ را تولید میکند. منتهی برخلاف طول پاسخ سوالات تشریحی، پاسخ تولید شده در حد یک عبارت یا جملهی مختصر است. تصحیح این سوالات از دقت و عینیت بیشتری برخوردار است به طوریکه برخی صاحبنظران این سوالات را زیر مجموعهی سوالات عینی قرار میدهند و برخی آنها را حد وسط سوالات تشریحی و عینی میدانند. از جمله مزایای این سوالات میتوان؛ سهولت تهیه، کاهش تقلب و عدم وجود حدس را نام برد. از معایب این سوالات میتوان به؛ عدم سنجش هدفهای سطوح بالاتر یادگیری، تشویق یادگیرندگان به حفظ کردن اطلاعات جزیی و کماهمیت اشاره کرد. همچنین ممکن است یادگیرندگان پاسخهای متنوعی را به یک سوال بدهند که این کار تصحیح را دشوار میکند و بیانگر آن است که عینیت این سوالات به اندازهی سوالات عینی نیست. سوالات کامل کردنی سوال به صورت یک جمله خبری نوشته میشود که یک جای خالی دارد. دانشآموز باید ضمن یادآوری پاسخ مناسب با پرکردن جای خالی جمله را کامل کند. طول پاسخ این سوالات نسبت به سوالات کوتاه پاسخ، کوتاهتر و در حد چند کلمه است. در بعضی طبقهبندیها این نوع سوالات در زیرگروه سوالات کوتاه پاسخ قرار میگیرند. سوالات کامل کردنی، مزایا و معایب سوالات کوتاه پاسخ را دارا هستند با این تفاوت که تهیه سوالات کوتاه پاسخ از سهولت بیشتر و همچنین از ابهام کمتری نسبت به سوالات کامل کردنی برخوردارند. آنچه در تهیه این نوع سوالات باید به آن توجه کرد این است که تنها کلمهها وعبارتهای مهم حذف شوند و تا حد امکان یک جای خالی در نظر گرفته شود که بهتر است در پایان جمله قرار گیرد. همچنین اندازهی جای خالی در تمام سوالات یک امتحان به یک اندازه باشد. انواع امتحانات قابل اجرا در سطح وزارت آموزش و پرورش طبق طرح ساماندهی آزمونها (1390) امتحانات قابل اجرا در سطح وزارت آموزش و پرورش به قرار زیر می باشد؛ امتحانات نوع اول : الف) امتحاناتنهایی و هماهنگ کشوری: امتحاناتی هستند که مستقیماً توسط مرکز سنجش آموزش و پرورش با همکاری ادارات کل آموزش و پرورش استان ها برگزار میشوند و عبارتند از ؛ امتحاناتنهایی رشتههای نظری سال سوم متوسطه امتحاناتنهایی رشتههای فنی و حرفهای سال سوم متوسطه امتحاناتنهایی دوره پیشدانشگاهی امتحانات هماهنگ کشوری پایه های اول و دوم متوسطه ب) امتحانات هماهنگ استانی پایه های اول و دوم متوسطه ج) امتحانات پایه های اول ابتدایی تا دوره پیشدانشگاهی خارج از کشور امتحانات نوع دوم: الف) امتحانات پیشرفتتحصیلی: این نوع امتحانات به منظور کیفیت بخشی به فرایند یاددهی و یادگیری طراحی میگردند و در قالب ارزشیابیهای آغازین، مستمر، کنکورهای آزمایشی و نظایر آن اجرا میشوند. ب) امتحانات ورودی مدارس خاص (سمپاد، نمونه دولتی و ...) ج) مسابقات علمی، المپیادها و ... : به منظور شناسایی و معرفی استعدادهای برتر در زمینههای مختلف که از سوی معاونتها و سایر حوزههای ستادی وزارت آموزش و پرورش برنامهریزی میشوند. امتحانات نوع سوم : این گروه از امتحانات توسط سایر دستگاه ها و مؤسسات دولتی و یا خصوصی با هماهنگی و مشارکت آموزش و پرورش برگزار میشوند، نظیر : الف) امتحانات استخدامی، آزمون های ورودی موسسات آموزش عالی و ... ب) امتحاناتی که در راستای کمک به تحقق اهداف و برنامههای حوزه های مختلف ستاد و توسط موسسات علمی – آموزشی خصوصی برگزار می شوند. شیوه طراحی سوالات امتحانات نهایی مبنای طراحی سوالات امتحانات نهایی، محتوای کتابهای درسی است و این سوالات در حد توان متوسط کشوری طراحی میشوند تا مناطق برخوردار و غیر برخوردار به طور مساوی از سطح دشواری و آسانی سوالات برخوردار باشند. در طراحی سوالات امتحان نهایی دو ملاک اساسی در نظر گرفته میشود؛ الف) نحوه طراحی مصاحبه تخصصی با طراحان سوالات طراحی جدول مشخصات امتحانی توسط کارشناسان و گروه طراحان طراحی سوالات هر درس توسط گروه طراحان ( متشکل از دبیران متخصص و مجرب که در همان سال تحصیلی تدریس داشته باشند) استفاده از سوالات بانک سوال توسط طراحان بازبینی سوالات طراحی شده توسط دبیر متخصص بازبینی و تولید نهایی سوالات توسط گروه طراحان ب) ملاکها - آموزش طراحان - رعایت دستور العملها و مصوبات مرکز سنجش و وزارت آموزش و پرورش - طراحی سوالات بر مبنای اهداف کتابهای درسی (آخرین چاپ) - طراحی سوالات بر اساس آموزشهای داده شده - استفاده از دبیران مجرب، متخصص، متعهد و آشنا به اصول طراحی سوال از شهرها و مناطق مختلف (عرفی، 1392). چگونگی تصحیح امتحانات نهایی بعد از برگزاری هر امتحان، پاسخنامهها با رعایت تشریفات امنیتی و قانونی در محلی به نام حوزه تصحیح جمعآوری میشوند. پس از مشخص شدن شماره رمز توسط رئیس حوزه تصحیح و قبل از جدا نمودن سربرگ اوراق امتحانی، منشی حوزه تصحیح شماره رمز را با رنگ قرمز بر روی کلیه ی سربرگها و ته برگها در محل مخصوص درج میکند. کلیه سربرگهای جدا شده بدون اینکه ردیف شماره رمز آنها به هم بخورد به صورت محرمانه در پاکتهای مخصوصی نگهداری میشوند. سپس از دبیران متعهد و مجرب رسمی شاغل وزارت آموزش و پرورش که به عنوان مدرس آن درس انجام وظیفه مینمایند به عنوان مصحح برای تصحیح دعوت میشود. برای هماهنگی در تصحیح اوراق دو کار زیر صورت میگیرد: اول اینکه راهنمای تصحیح در اختیار حوزههای تصحیح قرار میگیرد و دوم، قبل از تصحیح، مصححان هر درس در جلسهای توافق های لازم را جهت تصحیح اوراق به عمل آورده و ثبت مینمایند. اوراق امتحانی به شرح زیر در اختیار مصححان قرار داده میشود؛ اوراق امتحانی بدون سربرگ را به ترتیب شماره مسلسل رمز به صورت 50 تایی از هم تفکیک میکنند و هر 50 نسخه اوراق امتحانی را همراه با سوال و راهنمای تصحیح در پاکت گذاشته و تحویل مصححان میدهند. پس از تصحیح، عین اوراق را در همان پاکت از مصححان دریافت و سپس اوراق تصحیح شده توسط مصحح اول را به ترتیب انجام شده در اختیار مصحح دوم قرار میدهند. خلاصه اینکه هر ورقه امتحانی دو مرتبه و توسط دو مصحح بطور جداگانه تصحیح میشود و مصحح دوم میبایست ورقه امتحانی را بدون در نظر گرفتن تصحیح اول، به معنای واقعی همانند مصحح اول ، تصحیح و اقدام به نمرهگذاری نماید. مصححان موظفند مطابق با بارم و ریز بارم هر سوال عمل کرده و همچنین موظفند که ریز بارم هر سوال را روی نوشتهها، شکلها، فرمولها و قسمتهای مختلف که بر اساس راهنمای تصحیح به آنها نمره تعلق میگیرد به طور جداگانه و جزء به جزء مشخص و ثبت نمایند و جمع نمرهی متعلق به پاسخ هر سوال را در سمت چپ ورقهی امتحانی به طور خوانا بنویسند. سپس جمع نمرات داده شده را در محل مربوط با عدد وحروف ثبت کرده و با درج نام و نامخانوادگی، زیر آن را امضا نمایند. برای تمایز میان کار دو مصحح، مصحح اول از خودکار قرمز و مصحح دوم از خودکار سبز استفاده میکند. در صورت اختلاف نمره بین دو مصحح و توافق آنها با هم، مصححان نمره توافق شده را تأیید و امضاء مینمایند بدون اینکه در نمرهی قبلی داده شده خدشهای وارد شود. در صورت مغایرت نمره و عدم توافق مصحح اول و دوم، ورقه امتحانی مجدداً توسط مصحح سوم (غیر از مصحح اول و دوم) تصحیح میشود. پس از اینکه نمرات داده شده توسط مصححان به طور کامل کنترل و بررسی شد، سربرگ اوراق با توجه به شماره رمز آن به تهبرگ همان ورقه دوخت میشود. پس از اعلام نمرات، اوراق امتحانی (بدون سربرگ) دانشآموزان معترض به مصححی غیر از مصحح اول، دوم و سوم (در صورت عدم توافق مصحح اول و دوم) جهت تصحیح داده میشود. تحقیقات انجام شده در داخل و خارج از ایران حسنی، سامری، عباس زاده و موسوی (1392) در مطالعهای به بررسی نابرابری در آموزش و پرورش دانشآموزان دختر و پسر مقطع متوسطهی استان آذربایجان غربی پرداختند. این پژوهش از نوع اسنادی و پیمایش بوده که با نمونهگیری طبقهای تصادفی نمونهای به حجم 815 (419 پسر – 396 دختر) انتخاب شد. یکی از سوالات این مطالعه بررسی تفاوت بین پسران ودختران از لحاظ شاخصهای برونداد شناختی (دانشی) بود که برای پاسخگویی به این سوال، از معدل کتبی دانشآموزان سال اول، دوم و سوم متوسطه نظری و دورهی پیش دانشگاهی و درصد قبولی در کنکور استفاده شد. میانگین نمرات برای دختران (75/14) و پسران (14) و همچنین درصد قبولی کنکور برای دختران (2/50) و پسران (36/46) بود که بیانگر عملکرد بهتر دختران نسبت به پسران است. آتشک (1390) در یک ارزشیابی و با روش تحقیق تحلیل ثانویه داده های سرشماری سال 90، به مطالعهی عدالت جنسیتی در نظام آموزشی ایران پرداخت. از نتایج به دست آمده این بود که علیرغم دسترسی کمتر دختران به آموزش در تمامی مقاطع تحصیلی، آنها عملکرد تحصیلی بهتر و ماندگاري بیشتري نسبت به پسران در نظام آموزشی داشته اند. بوالحسنی (1390) اعتبار بخشی آزمون کنکور کارشناسی ارشد رشته ی معماری را با استفاده از مؤلفههای واریانس (نظریه تعمیمپذیری) بررسی کرد. جامعهی آماری این مطالعه، کلیهی داوطلبان شرکت کننده در کنکور سراسری ارشد سال 1389 مجموعه ی معماری میباشد. با نمونهگیری تصادفی ساده، 201 نفر انتخاب شد. این آزمون، دارای یک پروژه عملی به نام اسکیس است که از داوطلبان خواسته میشود با در نظر گرفتن ملاکهای از پیش تعیین شده توسط متخصصین، طرحی را در محدودهی زمانی مشخص و با رعایت قوانین لازم، ترسیم کنند. این پروژه عملی توسط تعدادی مصحح متفاوت و مستقل از هم، بر اساس ملاکهای مشخص نمرهگذاری می شود. در این مطالعه، برای هر داوطلب 3 نمره که توسط 3 ارزیاب داده شده است، به عنوان دادههای تحقیق مورد تحلیل قرار گرفت. جهت تحلیل داده ها، از نرم افزارEDUG6.0 استفاده شده است. وضعیت رویههای این مطالعه به این قرار است: رویهی افراد با 196سطح (98 دختر و 98 پسر) در داخل رویهی جنسیت آشیان کرده است. رویه افراد و ارزیابان و همچنین، رویه ارزیابان و جنسیت، نسبت به هم متقاطع محسوب میشوند. در مجموع، تقریباً 28 واحد از واریانس نمرات، واریانس خطای نسبی است که 90 درصد آن مربوط به منبع واریانس(RP:G) میباشد. همچنین، 73/36 واحد از واریانس نمرات، واریانس مطلق است که 70 درصد آن مربوط به منبع واریانس (RP:G) می باشد. ضرایب تعمیم پذیری به دست آمده در دو وضعیت مطلق و نسبی بالاتر از 8/0 میباشد که بیانگر مطلوب بودن دقت اندازههاست. ضریب تعمیمپذیری نسبی در حالتی که 6،5،4،3،2،1و7 ارزیاب وجود داشته باشد به ترتیب برابر 71/0، 83/0، 88/0، 91/0، 92/0 و 93/0 است. اگر ضرایب بالاتر از 8/0 مطلوب در نظر گرفته شوند، با دو ارزیاب نیز ضریب مورد نظر به دست میآید. رحیمی (1387) به ارزیابی و تحلیل سطوح حیطه شناختی و شاخصهای روانسنجی سوالات امتحاناتنهایی پرداخت. جامعه آماري در اين مطالعه، كليه اوراق امتحاني تصحيح شده دروس رياضي، زبان انگليسي، تاريخ، جغرافيا و آمادگي دفاعي دانشآموزان پايه سوم راهنمايي استان خوزستان در خرداد ماه 1386 ميباشد که از این میان با نمونهگیری خوشه ای، 10 منطقه آموزشی انتخاب و با نمونهگیری طبقهای از میان مناطق منتخب، 1% ورقه هاي امتحاني معادل 955 ورقه (در مجموع 4297 ورقه امتحاني) از هر درس(به غیر از درس آمادگي دفاعي) به تفکیک جنسیت به عنوان نمونه آماري تعيين گرديد. از نتایج به دست آمده در این مطالعه میتوان به موارد زیر اشاره کرد: طراحان در همه درسها بجز درس رياضي، به اهداف در سطوح پایين حيطه شناختي توجه داشتهاند. با در نظر گرفتن تمامي شاخصهاي مورد نظر، آزمون رياضي بيشترين و آزمون آمادگي دفاعي كمترين تطابق را با اصول سنجش و روانسنجي داشتهاند. همچنین، دروس مذکور بیشترین و کمترین ضریب اعتبار ( همسانی درونی) را به میزان (91/0–61/0) به خود اختصاص دادهاند. به طور کلی میتوان گفت؛ در همه ی دروس، اكثر سوالات در حد مطلوب و متوسط طرح شدهاند. ضريب تميز سوالات مطلوب بوده، به گونهای که آزمون قادر به تفکیک دانشآموزان قوی و ضعیف بوده است. همچنین سوالات همسانی درونی خوبی داشتهاند به طوریکه نميتوان پيشنهاد حذف هيچ سئوالي را داد. جزایری در سال (1384) به بررسی اعتبار نمرهگذاری معلمان در امتحانات تشریحی هماهنگ و نهایی دوره آموزشی عمومی سال سوم دبیرستان در رشتههای علوم انسانی، ریاضی فیزیک و علوم تجربی و همچنین سال سوم راهنمایی در استان لرستان پرداخته است. در این تحقیق با استفاده از روش نمونهگیری تصادفی خوشهای، از میان اوراق امتحانات تشریحی هماهنگ و نهایی سال سوم راهنمایی و سال سوم مقطع متوسطه 10 منطقه آموزشی، 767 ورقه امتحانی مورد مطالعه قرار گرفت که از روش تحلیلی جهت نمرهگذای این اوراق استفاده شده است. روش تحقیق به کار گرفته شده، همبستگی بوده و به منظور جمع آوری اطلاعات، با استفاده از جدول آرایش رتبهبندی نمرات و مشاهده اوراق امتحانی، اطلاعات لازم گردآوری و جهت بررسی میزان اعتبار نمرهگذاری مصححان، روش گیلفورد به کار گرفته شده است. نتایج به دست آمده از این تحقیق عبارتند از : ضریب اعتبار برای دروس مورد مطالعه در رشتههای علوم انسانی و علوم تجربی 99/0 و دامنه ضریب اعتبار برای دروس مورد مطالعه در رشته ریاضی فیزیک و سال سوم راهنمایی (99/0 – 95/0) به دست آمده است. 2/97 درصد از تغییرات نمرات اوراق امتحانی در مراحل اول و دوم تصحیح در دامنه کمتر از 25/0 است که این بیانگر اشتراک نظر و توافق بسیار بالای مصححان اول و دوم این اوراق میباشد. به عبارتی دیگر، اگر مصحح دوم حذف شود در واقع هیچ اتفاقی نخواهد افتاد. اختلاف نمره مصححان با جنسیت آنها رابطه ندارد و عوامل سوگیری در تصحیح اوراق، ناشی از تفاوتهای فردی مصححان نبوده، بلکه بیشتر مربوط به ساختار اجرایی و فرایند تصحیح اوراق امتحانی بوده است. از جمله اینکه این اوراق بدون فاصله زمانی توسط مصححان اول و دوم نمرهگذاری شده و همواره این روند از نظر مکانی و زمانی ثابت بوده است. واحدی و فزون مهر (1384)، میزان انطباق سوالات امتحانات نهایی و داخلی سال سوم راهنمایی را با شاخصهای روانسنجی در دروس ریاضی، جغرافیا، علوم تجربی و دینی مورد بررسی قرار دادند. جامعه آماری این تحقیق، اوراق امتحانی کلیه دانشآموزان شرکت کننده در امتحانات نهایی و داخلی سال تحصیلی 83 – 82 استان آذربایجان غربی است که تعداد آن ها به 51561 میرسد که از این تعداد با استفاده از روش نمونهگیری تصادفی خوشهای، 600 ورقه (150 ورقه از هر درس نامبرده) انتخاب گردید. برای ارزشیابی این اوراق از لحاظ میزان رعایت اصول آزمونسازی،12 داور بعد از گذراندن یک دوره آموزشی به منظور رسیدن به توافق نسبی در معیارهای نمرهگذاری، از " چک لیست ارزشیابی آزمونهای معلم ساخته " استفاده کردند. نتایج به دست آمده از این تحقیق به صورت زیر میباشد: به غیر از سوالات ریاضی، اعتبار سوالات امتحانی سه ماده درسی بسیار پایین میباشد. برای محاسبه اعتبار از ضریب آلفای کرونباخ استفاده گردیده است. روایی محتوایی سوالات امتحان نهایی و داخلی ریاضیات، علوم تجربی و جغرافیا در سطح بالا و سوالات دینی در سطح متوسط بوده است. سطح دشواری سوالات دروس علوم تجربی و ریاضی نسبتاً مناسب بوده، اما در دروس جغرافیا و دینی به لحاظ دشواری، آزمون متمایل به ساده بودن میباشد. سوالات امتحان نهایی دروس مذکور از ضریب تمیز مناسب و قابل قبولی برخوردار است. ضریب تمیز این سوالات با استفاده از ضریب دو رشته ای نقطهای محاسبه شده است. در طراحی سوالات امتحانات نهایی و داخلی دروس دینی، علوم و جغرافیا تنها به سطوح دانش، فهمیدن و کاربرد حیطه شناختی توجه شده است اما در بررسی سوالات درس ریاضی، سطح ترکیب نیز در نظر گرفته شده است. به غیر از امتحان نهایی علوم تجربی، در طراحی سوالات دیگر امتحانات نهایی و داخلی، ملاکهای فنی و ظاهری رعایت شده است. شاطریان محمدی (1384) به منظور تعیین میزان مهارت دبیران شهرستان قم در طراحی سوالات امتحانی، به بررسی میزان روایی، اعتبار و شاخصهای دشواری و تمیز سوالات آزمونهای معلم ساخته پرداخته است. کلیه اوراق امتحانی ترم اول و دوم دروس ریاضی، فیزیک، شیمی، عربی و زبان سال اول دوره متوسطه شهرستان قم در سال تحصیلی 84 – 1383 و همچنین کلیه اوراق امتحانی ترم دوم سال تحصیلی 83 – 82 جامعه آماری این تحقیق را تشکیل میدهند. از این میان، 96 ورقه سوال امتحان و تعداد 1712 ورقه پاسخنامه با روش نمونهگیری خوشهای چند مرحلهای مورد تحلیل قرار گرفت. نتایج این پژوهش نشان داد که: دروس مورد بررسی از روایی محتوایی و صوری خوبی برخوردارند که درس ریاضی بالاترین میزان روایی را به خود اختصاص داده است. برای تعیین روایی محتوایی و صوری، دو متخصص در هر درس به ارزیابی سوالات پرداختند. همچنین، اکثریت سوالات دروس مورد بررسی در سطح دانش و ادراک می باشد و از سطوح تحلیل، ترکیب و ارزشیابی سوالی نیامده است. تمامی دروس مورد بررسی از اعتبار مصححان بسیار بالایی برخوردار است. به منظور محاسبه این نوع اعتبار، دو دبیر در هر درس، 200 ورقه پاسخنامه را مجدداً تصحیح و جداگانه نمرهگذاری نمودند. در نهایت، از ضریب توافق کندال برای بررسی میزان توافق دبیران مصحح استفاده شد. سوالات دروس مورد بررسی از ضریب دشواری متوسطی برخوردار هستند که بیشترین و کمترین ضریب متعلق به دروس ریاضی و زبان (60/0 ، 51/0) می باشد. همچنین به غیر از سوالات درس ریاضی که از ضریب تمیز بسیار خوبی (51/0) برخوردار است بقیه دروس از ضریب تمیز نسبتاً خوبی (35/0 تا 39/0) برخوردارند. از آنجا که بیشتر سوالات طراحی شده از نوع تشریحی بوده برای محاسبه این نوع ضرایب، از فرمولهای ضرایب تمیز و دشواری مخصوص سوالات تشریحی استفاده شده است. سلیمانی (1384) به بررسی روایی محتوایی، شاخصهای سوالات و رعایت اصول علمی طراحی سوالات امتحانی دروس ریاضی پرداخت. اولین گروه ازجامعه آماری این تحقیق، سوالات امتحانی دروس ریاضی مقطع متوسطه نظری مراکز آموزشی استان کرمانشاه در امتحانات پایانی خرداد ماه 83 بود که با روش نمونهگیری تصادفی، از میان آن ها 240 نمونه سوال طراحی شده به تناسب جمعیت دانشآموزی مناطق و نواحی استان در پایههای اول و دوم انتخاب و در پایه سوم به دلیل هماهنگ بودن سوالات در سطح استانی، تک نمونهای از سوالات طراحی شده از هر درس انتخاب گردید. دومین گروه جامعه آماری عبارت بود از؛ اوراق امتحانی دروس ریاضی فیزیک و علوم تجربی که در حوزههای تصحیح امتحانات نهایی، تصحیح و ارزشیابی شده بودند که از میان آن ها، تعداد 280 ورقه تصحیح شده از هر یک از دروس مورد مطالعه (جمعاً 1120 ورقه) انتخاب گردید. به منظور بررسی روایی محتوایی، از یک پرسشنامه 100 امتیازی که در مقیاس 5 درجهای تنظیم و توسط حداقل 3 ارزیاب امتیازدهی شده بود، استفاده گردید. از نتایج به دست آمده از این تحقیق میتوان به موارد زیر اشاره کرد؛ در مجموع سوالات از روایی محتوایی نسبتاً قابل قبولی برخوردارند. در همهی دروس، بیشتر سوالات طراحی شده، متعلق به سطوح پایین حیطه شناختی است و اصل ترتیب سوالات از ساده به مشکل رعایت نشده است. همچنین طراحان سوال توجه کمتری به رعایت زمان تخصیص داده شده متناسب با سطح دشواری سوالات داشته اند. هر چند سوالات، ضریب دشواری متوسطی دارند ولی از ضریب تشخیص پایینی برخوردار میباشند. میانگین نمره در دروس امتحاناتنهایی پایین بوده است. حشمتی، رافع و جمشیدی نژاد (1383) با هدف تعیین میزان اعتبار آزمونها، ضریب تشخیص و سطح دشواری سوالات به تجزیه و تحلیل نتایج امتحاناتنهایی سال سوم متوسطه خرداد 81 پرداختند. اوراق امتحانی کلیه دانش آموزان روزانه سال سوم متوسطه نظری تمام استان ها که در امتحانات نهایی 81 شرکت کرده بودند جامعه آماری این مطالعه را تشکیل میدهد که با روش نمونهگیری تصادفی طبقهای، 75000 ورقه امتحانی دانشآموزان انتخاب شد و سوالات آن مورد بررسی قرار گرفت. در هر استان 5 منطقه (1منطقه برخوردار، 2منطقه غیر برخوردار و 2 منطقه نیمه برخوردار) و سپس در هر رشته به تفکیک جنسیت، 180ورقه امتحانی از منطقه برخوردار و 320 ورقه از مناطق غیر برخوردار و نیمه برخوردار به تصادف انتخاب گردید. دروس مورد مطالعه عبارت بودند از؛ شیمی، حسابان، جبر و احتمال، ریاضی3، فیزیک3 تجربی و ریاضی، دینی و زیست شناسی. از نتایج این تحقیق: در مجموع اعتبار (با استفاده از آلفای کرونباخ) آزمونهای مورد مطالعه قابل توجه بوده است. کمترین و بیشترین میزان اعتبار به ترتیب مربوط به آزمونهای فیزیک گروه تجربی(29/0) و زیستشناسی (94/0) در استان تهران میباشد. میانگین اعتبار زیستشناسی در سراسر کشور برابر 90/0 به دست آمده است. افزایش عملکرد مناطق برخوردار نسبت به نیمه برخوردار و غیر برخوردار کمی بیش از متوسط (با میانگین 69 درصد) است که برای درس زیست شناسی به 60% می رسد. گفتنی است تقسیم بندی مناطق بر اساس ملاکهای غیر آموزشی بوده است. منحنی خصیصه سوال در اغلب استانها و دروس مختلف در حد قابل قبولی نیست. به طور متوسط، 49% امتحاناتی که در سطح استانها برگزار شده است، توانایی تفکیک دانشآموزان قوی و ضعیف را از هم دارند. به بیانی دیگر، امتحانات خرداد 81 در تفکیک دانشآموزان از توانایی قابل توجهی برخوردار نیستند. به غیر از تعداد اندکی از سوالات، ضریب دشواری سایر سوالات در دامنه بهینه قرار دارد و اکثریت سوالات همبستگی مناسبی با نمره کل آزمون دارند که نشان دهندهی همسانی مناسب سوالات آزمون است. تجزیه و تحلیل آزمون زیستشناسی در استان لرستان به شرح زیر است؛ اعتبار این آزمون 86/0 به دست آمده است. همچنین، میانگین آزمون زیست شناسی13/12 و دامنه نمره (25/19- 25/0) است. میانگین ضریب دشواری آزمون زیست شناسی 61/0 است و دشواری 23 سوال از 30 سوال آن در دامنه بهینه قرار دارد. نتایج ضریب همبستگی نشان میدهد که سوالات از ضریب تشخیص مناسبی برخوردارند. منحنی خصیصه سوال درس زیست شناسی در استان لرستان نشان میدهد که 9 سوال از کیفیت مطلوبی برخوردار نیستند. استان لرستان در گروه استانهایی قرار میگیرد که عملکرد منحنی خصیصه سوال در آزمون زیستشناسی تا حدی قابل قبول است. رستگاری مقدم (1378) در مطالعه ای به بررسی میزان اتکاپذیری و تعمیم پذیری نتایج امتحان کنکور کارشناسی ارشد رشتههای معارف اسلامی، فلسفه و نمایشنامهنویسی با استفاده از نظریه تعمیمپذیری پرداخت. داوطلبان آزمون سراسری وروری کارشناسی ارشد سال 1377 که امتحان آنها به صورت تشریحی برگزار شده بود، جامعه ی آماری این مطالعه را تشکیل دادند و جامعه مرجع مشاهدات قابل قبول، شامل دو رویهی سوالات و درجه بندیکنندگان بود که فرض شد این دو، نامحدود هستند. نتایج این مطالعه که با استفاده از نرم افزار spss و بخشی به صورت دستی به دست آمد (به دلیل در دسترس نبودن نرم افزار تخصصی)، به شرح زیر میباشد: تعداد درجهبندی کنندگان مورد استفاده توسط سازمان سنجش کافی ولی تعداد سوالات مورد استفاده کم میباشد و برای به دست آوردن نتایج مطلوب و مورد اعتماد، افزایش تعداد سوالات بسیار ضروری میباشد. تقریباً برای تمام دروس، به دست آوردن نتایج دقیق و قابل اتکا مستلزم استفاده از حداقل دو درجهبندی کننده و 10 سوال از این نوع سوالات میباشد. سادئی (1376) به مقایسهی تحلیلی امتحانات هماهنگ و داخلی دورهی متوسطه و انطباق آن با ملاکهای علمی طراحی سوال و آزمونسازی پرداخت. سوالات امتحانات داخلی و هماهنگ دروس ریاضی1و2، فیزیک 1و2، شیمی1و2 ، زبان خارجی1 و دانش اجتماعی که در سال تحصیلی 1376-1375 در شهر مشهد به اجرا درآمده بود، جامعه آماری این تحقیق را تشکیل میدادند. از میان آنها با روش نمونهگیری خوشهای تصادفی، 10 آزمون داخلی با 132 سوال، 23 آزمون هماهنگ کشوری- استانی- ناحیه ای با 416 سوال انتخاب و نیز نمرات (نمره سوال و نمره کل آزمون) 2009 دانشآموز در 64 کلاس درس متعلق به نواحی 3 و 5 جمعآوری گردید. به منظور مقایسه ی محتوای آزمونهای داخلی و هماهنگ از نظر رعایت ملاکهای علمی آزمون سازی، هر یک از امتحانات اجرا شده در سه نسخه تکثیر و توسط 3 دبیر متخصص بر اساس 14 ملاک علمی ارزشیابی شد. نتایج مرتبط با این تحقیق عبارتند از: هر قدر طراحی سوالات با اهداف آموزشی و درسی و ملاکهای علمی آزمونسازی انطباق بیشتری داشته باشد، دانشآموزان نیز موفقیت بیشتری کسب می کنند و بالعکس. هر چند عملکرد دانشآموزان از مواد درسی مورد بررسی، خیلی مطلوب نیست اما آزمونهای داخلی و هماهنگ معمولاً با ملاک های علمی طراحی سوال و آزمون سازی انطباق دارد. الزیبی (2014) به تحلیل سوالات زبان انگلیسی برگرفته از امتحانات دیپلم دبیرستان از طریق سطوح شناختی بلوم پرداخت. سوالات انگلیسی (دو سطح 3 و4) استفاده شده در امتحانات عمومی دبیرستان در اردن برای سالهای تحصیلی(2013 – 2010) که توسط وزارت آموزش و پرورش تهیه شده بود، به تعداد 375 سوال نمونه این مطالعه را تشکیل میدهد. 6/69 درصد از کل سوالات، سطوح پایین شناختی(دانش، ادراک و کاربرد) را میسنجند و سطح ادراک با 1/33% بیشترین تعداد سوال را به خود اختصاص داده است. در مجموع نتیجه گرفته میشود که امتحانات عمومی دبیرستان بر سطوح پایین تفکر تمرکز دارند. ویکمن (2013)، آزمون ACCESS (ارزیابی درک مطلب و برقراری ارتباط در ایالت انگلیسی زبان- ایالت زبان آموزان انگلیسی) را به عنوان اندازه پیشبینیکنندهی موفقیت در آزمون EOCT (امتحان نهایی) زیستشناسی، بر روی یادگیرندگان انگلیسی در جورجیا به کار گرفت. این مطالعه دو ارزیابی استاندارد را مقایسه میکند که دانشآموزان زبانآموز در کلاس نهم باید بگذرانند. اول آزمون ACCESS برای سنجش سالیانه پیشرفت یادگیری زبان یادگیرندگان انگلیسی و دوم آزمون EOCTزیست شناسی است که برای تعیین تسلط محتوای درس به کار می رود. در سال تحصیلی 2013-2012، EOCTs به عنوان ابزاری که تعیین میکند، آیا یک دانشآموز از دبیرستان میتواند دیپلم بگیرد یا خیر، جایگزین آزمون فارغالتحصیلی جورجیا شد. 10 تا EOCT وجود دارد که دانشآموزان باید در دوران دبیرستان جهت فارغالتحصیل شدن بگذرانند. EOCT مورد نیاز برای دانشآموزان کلاس نهم، ادبیات و نگارش، زیستشناسی، ریاضی و ... را شامل میشود. دانش آموزان کلاس نهم دبیرستان که در سال های 2007 تا 2012 مشغول به تحصیل بودند، نمونه این تحقیق را تشکیل میدهند. با نمونهگیری هدفمند، ناحیه آموزشی انتخاب و از جامعهی در دسترس به طور تصادفی 164 نفر انتخاب شد. از یافتههای این تحقیق: 124 نفر (76%) در آزمون EOCT زیست شناسی رد شدند و تعداد کمی از دانش آموزان (40 نفر) از هر دو جنس توانستند نمرهی قبولی را کسب کنند. نمرهی قبولی این آزمون 400 است که نمرهی میانگین قبول شدگان در آزمون زیستشناسی 416 میباشد. نمرهی پسران در هر دو آزمون نسبت به دختران خیلی بیشتر است به طوریکه 75 درصد قبولشدگان، پسر هستند. در پسران به ازای هر واحد افزایش در نمرهی ACCESS، 68/8 امتیاز به نمرهی EOCT زیست اضافه میشود در حالیکه هیچ نمرهای به دختران افزوده نشد. این نتایج نشان دهندهی شکاف جنسیتی در نمونه مورد مطالعه است. جنسیت، نقش مهمی در پیش بینی موفقیت یادگیرندگان زبان در EOCT زیست شناسی داشت. مهری (2013) به مقایسه پیشرفتتحصیلی دانشآموزان کلاس نهم در درس زیستشناسی در مدارس دولتی و خصوصی کابل پرداخت. یافته ها نشان از بالا بودن 6 درجه ای نمره ی میانگین دختران در هر دو مدارس نسبت به پسران است. گزیلر، ازدیمیر و دیکیجه (2012) به بررسی تطبیقی سوالات امتحانی معلم ساخته ریاضیات ابتدایی و سوالات تعیین سطح ریاضیات برای دانشآموزان کلاسهای ششم، هفتم و هشتم به منظور تعیین سطح علمی سوالات بر اساس طبقهبندی بلوم پرداختند. 715 سوال امتحانی معلمان ریاضی شاغل در 12 مدرسه ابتدایی مختلف در سالهای تحصیلی 2010 – 2009 در ازورم به طور تصادفی انتخاب شدند و در کنار 54 سوال از امتحانات تعیین سطح ریاضی، نمونه این مطالعه را تشکیل دادند. کمیتهای شامل سه مدرس ریاضی به طبقهبندی سوالات پرداختند. نتیجهی مطالعه این بود که هر دو نوع سوالات عموماً با سطوح پایین شناختی در ارتباطند. گولار و گلبال (2010)، در مطالعهای با عنوان « مطالعه اعتبار سوالات باز پاسخ ریاضی بر اساس نظریه کلاسیک و تعمیمپذیری» 24 سوال باز پاسخ ریاضی را از تیمز 1999 بر روی 203 دانشآموز در سال 2007 اجرا کرد. برای برآورد ضریب تعمیمپذیری از طرح کاملاً متقاطع استفاده شد. درصد واریانس تبیین شده توسط مولفه واریانس دانشآموزان 6/32 % از کل واریانس در نمرهها بود واریانس سوالات 5/4 % از کل وریانس را تشکیل میداد که نشان میدهد کمتر از 5 % تغییرپذیری در مدل، مربوط به رویه سوالات است. واریانس ارزیابان که کمترین مقدار مولفه واریانس بود حدود 1/2% از کل واریانس را تشکیل می داد، که این نشان دهنده آن است که بین ارزیابان همسانی وجود دارد. ضریب همسانی درونی سوالات 92/0 ، ضریب توافق کندال بین داوران 52/0، ضریب تعمیمپذیری برای نمرات ریاضی 92/0 و ضریب فای 90/0 به دست آمد. مولفه واریانس داوران، 1/2% از کل واریانس را تشکیل میداد. براساس نتایج این پژوهش به نظر میرسید که ابزار اندازه گیری پیشرفت ریاضیات برای تعیین موفقیت دانشآموزان ابزاری معتبر است. آزار (2005) در مطالعهای به مقایسهی سوالات امتحانات فیزیک دبیرستان و سوالات امتحان ورودی دانشگاه بر اساس تاکسونومی بلوم پرداخت. 556 سوال فیزیک از 12 دبیر فیزیک شاغل در دبیرستانهای ارگلی ترکیه و همچنین 76 سوال طرح شده در امتحانات ورودی دانشگاه بین سا لهای 2000 تا 2003 برای کلاسهای نهم و دهم جمعآوری شد. درصد سوالات فیزیک امتحانات ورودی دانشگاه ترکیه متعلق به سطوح شناختی عبارتند از: دانش(0%)، فهمیدن(32/1%)، کاربستن(58/56%)، تحلیل(53/35%)، ترکیب(27/5%) و ارزشیابی(32/1%). همچنین در امتحان فیزیک دبیرستان؛ دانش(27/8%)، فهمیدن(05/12%)، کاربستن(64/74%)، تحلیل(32/4%)، ترکیب(72/0%) و ارزشیابی(0%). نتایج آزمون خی دو نشان داد تفاوت معناداری بین سوالات فیزیک امتحانات ورودی دانشگاه و سوالات امتحان فیزیک دبیرستان از نظر درصد سوالات در هر سطح شناختی وجود دارد. به طوریکه سوالات فیزیک امتحانات ورودی دانشگاه دارای کیفیت اندازهگیری توانایی کاربستن، تحلیل و ترکیب است. اما سوالات دبیرستان کیفیت اندازهگیری توانایی دانش، فهمیدن و کاربستن را دارند. سودویک، ریو و برادشو (2005) در مطالعهای با عنوان « مقایسه ضریب تعمیمپذیری و مدلهای چند ارزشی راش در تحلیل توانایی نوشتن دانشجویان سال دوم دانشگاه » به بررسی 48 مقاله نوشته شده، توسط 24 دانشجو با هدف بهبود رویه ارزیابی توانایی نگارش دانشجویان پرداختند. طرح پژوهش کاملاً متقاطع بود و نه داور همه 48 مقالات نوشته شده توسط هر دانشجو را دوبار ارزیابی کردند. در طی هر موقعیت ارزیابی، هر ارزیاب هر دو مقاله نوشته شده توسط یک دانشجو را ارزیابی میکرد. نظریه تعمیمپذیری و مدل چند ارزشی راش برای برآورد منبع خطای بالقوه در ارزیابی استفاده شد. واریانس تکالیف (سرعت نوشتن) و واریانس تعامل تکلیف با دانشجو بالا بود، در حالیکه واریانس ارزیاب و موقعیت پایین بود، به این صورت که واریانس اثر اصلی برای تکالیف (10%) واریانس تعامل دانشجو و تکلیف (15%)، واریانس تعامل دانشجو، تکلیف و ارزیاب (14%) به دست آمد. همچنین میزان اعتبار، برای تصمیمگیری نسبی 34/0 و برای تصمیمگیری مطلق 29/0 بود که هر دو میزان کمی هستند. کارامصطفا اوقل، سیویم، کارامصطفا اوقل و چی پوتنه (2003) به تحلیل سوالات امتحان شیمی دبیرستان براساس طبقهبندی بلوم پرداختند. این مطالعه بر روی دانشآموزان 17 – 14 ساله در سه نوع دبیرستان(عمومی، آناتولیان و فنی و حرفه ای) از شهرهای ترابزون و امسیا با 17 معلم شیمی در سال تحصیلی 2001-2000 صورت گرفت. مجموعه ای از 403 سوال از امتحانات شیمی دبیرستان تحلیل شد. آزمونهای آماری نشان داد که انواع سوال مرتبط با نوع مدرسه است. بیشتر سوالات در دبیرستانهای فنی و حرفهای در سطح دانش، در دبیرستانهای عادی در سطح درک و در دبیرستانهای آناتولی(ثبت نام دانش آموزان مستلزم قبولی در امتحانات سراسری ورودی میباشد) در سطح کاربرد طرح شده بودند. در مجموع، 96% سوالات امتحانات دبیرستان، مهارتهای شناختی سطوح پایین را اندازه میگرفت. در حالیکه بیش از نیمی از سوالات امتحانات ورودی دانشگاه از نوع مهارتهای شناختی سطح بالا بود. منابع آتشک، محمد.(1391). ارزشیابی عدالت جنسیتی در نظام آموزشی ایران. زن در توسعه و سیاست، 10 (4): 127-151. آلن، مری جی؛ ین، وندی ام.(1387). مقدمه ای بر نظریه های اندازه گیری( روانسنجی) (ترجمه ی علی دلاور)، چاپ سوم، تهران: سمت. امبرتسون، سوزانای؛ رایس، استیون پی.(1388). نظریههای جدید روانسنجی برای روان شناسان (ترجمهی حسن پاشا شریفی، ولی ا.. فرزاد، مجتبی حبیبی عسگرآباد و بلال ایزانلو)، چاپ اول، تهران: رشد. بازرگان، عباس.(1391). مقدمهای بر روشهای تحقیق کیفی و آمیخته (رویکردهای متداول در علوم رفتاری). چاپ سوم، تهران: دیدار. بوالحسنی، ماریا.(1390). بررسی اعتبار بخشی عملی آزمون کنکور کارشناسی ارشد سال 1389 رشته معماری با استفاده از مولفه های واریانس( نظریه ی تعمیم پذیری). پایان نامه کارشناسی ارشد، دانشگاه علامه طباطبایی. بیکر، فرانک بی.(1381). پایه های اساسی تئوری سوال- پاسخ : نظریه جدید روانسنجی (ترجمه ی حیدر علی هومن و علی عسگری). تهران: پارسا.(تاریخ انتشار به زبان اصلی 2001). جزایری، حسین.(1384). بررسی اعتبار نمره گذاری معلمان در امتحانات تشریحی هماهنگ و نهایی دوره آموزش عمومی استان لرستان در سال تحصیلی 83-1384. گزارش طرح پژوهشی مصوب سازمان آموزش و پرورش استان لرستان. حسنی، محمد؛ سامری، مریم؛ عباس زاده، میرمحمد؛ موسوی، میرنجف.(1392). بررسی نابرابری در آموزش و پرورش دانش آموزان دختر و پسر مقطع متوسطه ی استان آذربایجان غربی. نشریه زن در توسعه و سیاست، 11 (3): 332-315. حشمتی، عبدالرضا، رافع، ابوالقاسم و جمشید نژاد، مهرداد.( 1383). تجزیه و تحلیل نتایج امتحانات نهایی سال سوم متوسطه خرداد 81 در سراسر کشور. گزارش طرح پژوهشی مصوب معاونت آموزش و پرورش نظری و مهارتی. رحیمی، محمود.(1387). ارزيابي و تحليل سطوح حيطه شناختي و شاخص هاي روان سنجي سوالهاي امتحانات نهايي پايه سوم راهنمايي استان خوزستان در خرداد ماه 1386 . گزارش طرح پژوهشی مصوب سازمان آموزش و پرورش استان خوزستان. رستگار، طاهره.(1388). ارزشیابی در خدمت آموزش: رویکردهای نو در سنجش و ارزشیابی با تاکید بر سنجش مستمر و پویا و بازخورد موثر به دانش آموزان در فرایند آموزش. تهران: انتشارات موسسه فرهنگی منادی تربیت. رستگاری مقدم، خدایار. (1378). تحلیل نتایج امتحان کنکور کارشناسی ارشد رشته های معارف اسلامی، فلسفه و نمایش نامه نویسی شرکت کنندگان سال 1377 با استفاده از نظریه تعمیم پذیری. پایان نامه کارشناسی ارشد، دانشگاه علامه طباطبایی. سادئی، علی. (1376). مقایسه تحلیلی امتحانات هماهنگ و داخلی دوره ی متوسطه و انطباق آن با ملاکهای علمی طراحی سوال و آزمون سازی. گزارش طرح پژوهشی مصوب شورای تحقیقات سازمان آموزش و پرورش استان خراسان . ستاری، بهزاد.(1382). روانسنجی پیشرفته کاربردی. مشهد: به نشر. سرمد، زهره؛ بازرگان، عباس؛ حجازی، الهه.(1391). روش های تحقیق در علوم رفتاری. تهران: آگه. سلیمانی، علی.(1384). بررسی و تحلیل سوالات امتحانی دروس ریاضی مقطع متوسطه نظری مراکز آموزشی استان کرمانشاه در امتحانات پایانی خرداد ماه 83 . گزارش طرح پژوهشی مصوب سازمان آموزش و پرورش استان کرمانشاه. سیف، علی اکبر.(1391). اندازه گیری ،سنجش، و ارزشیابی آموزشی. تهران : دوران. شاطریان، محمد. (1384). بررسی میزان روایی، پایایی و شاخص های دشواری و تمیز سوالات آزمونهای معلم ساخته دروس ریاضی، فیزیک، شیمی و عربی سال اول دوره متوسطه شهرستان قم در سال تحصیلی 84-1383. گزارش طرح پژوهشی مصوب شورای تحقیقات سازمان آموزش و پرورش استان قم . فلسفی نژاد، محمد رضا.(1391). جزوه کلاس نظریه سوال پاسخ ( irt) . دانشکده روانشناسی و علوم تربیتی دانشگاه علامه طباطبایی. کاپلان، روبرت ام؛ ساکوزو، دنیس پ. (1388). روان آزمایی (ترجمه ی علی دلاور، فریبرز درتاج و نور علی فرخی). تهران: ارسباران. ( تاریخ انتشار به زبان اصلی 2004). کرسول، جان دبلیو.(1391). طرح تحقیق در علوم انسانی و اجتماعی (ترجمهی اسماعیل سعدی پور). تهران: دوران. ( تاریخ انتشار به زبان اصلی 2009). کرلینجر، فرد آن.(1388). مبانی پژوهش در علوم رفتاری (ترجمه ی حسن پاشا شریفی و جعفر نجفی زند). تهران: آوای نور.( تاریخ انتشار به زبان اصلی 1986). کروکر، لیندا؛ آلجینا، جیمز.(1388). مباحث نو در روانسنجی (ترجمه ی ولی الله فرزاد و حسین زارع). تهران: آییژ. (تاریخ انتشار به زبان اصلی 2008). کیامنش، علیرضا؛ حسنی، محمد.(1388). نقد و بررسی نظام ارزشیابی تحصیلی ایران از منظر ارزشیابی نظام آموزشی. فصلنامه نوآوری های آموزشی، 30، 101 – 75. مگنوسون، دیوید.(1351). مبانی نظری آزمون های روانی ( ترجمه ی محمد نقی براهنی). تهران: انتشارات دانشگاه تهران. (تاریخ انتشار به زبان اصلی 1967). واحدی، شهرام ؛ فزون مهر، نادر. (1384). بررسی میزان انطباق سوالات امتحانات نهایی و داخلی سال سوم راهنمایی بر اساس شاخص های روانسنجی در استان آذربایجان غربی. گزارش طرح پژوهشی مصوب سازمان آموزش و پرورش استان آذربایجان غربی . همبلتون، رونالد ک؛ سوامیناتان، اچ ؛ جین راجرز، اچ. ( 1389). مبانی نظریه پرسش- پاسخ (ترجمه ی محمد رضا فلسفی نژاد). تهران: انتشارات دانشگاه علامه طباطبایی. هومن، حیدر علی. ( 1384). اندازه گیری های روانی و تربیتی ( فن تهیه تست و پرسشنامه). تهران: پیک فرهنگ. یونسکو.(1384). پرونده ای باز در مورد آموزش و پرورش فراگیر (ترجمه ی ابوالفضل سعیدی). تهران: پژوهشکده ی کودکان استثنایی. Alzu'bi, M. A. (2014). The Extend of Adaptation Bloom's Taxonomy of Cognitive Domain In English Questions Included in General Secondary Exams. Advances in Language and Literary Studies, 5(2): 67-72. Azar, A. (2005). Analysis of turkish high-school physics-examination questions and university entarence exams questions according to Bloom’s taxonomy. Türk Fen Eğitimi Dergisi, 2(2): 144-150. Baltes, P. B., Smelser , N.J. (2001). International encyclopedia of the social & behavioral sciences. Vol 11, Amsterdam/New York, NY: Elsevier. Brennan, R. L. (2010a). Generalizability Theory. New York: Springer-Verlag. Brennan, R. L. (2010b). Generalizability theory and classical test theory. Applied Measurement in Education, 24(1): 1-21. Brennan, R. L.(2003). Coefficients and Indices in Generalizability Theory. Center for Advanced Studies in Measurement and Assessment CASMA Research Report, 1, Avalable at: http://www.uiowa.edu/~casma/ASA.casma.rpt.pdf Briggs, D. C., & Wilson, M. (2007). Generalizability in item response modeling.Journal of Educational Measurement, 44(2), 131-155. Brown, J. D. (2005). Statistics corner, questions and answers about language testing statistics: Generalizability and decision studies. Shiken: JALT Testing & Evaluation SIG Newsletter, 9(1): 12-16 Cardinet,J., Johnson,S.,Pini,G.(2010).Applying generalizability theory using EduG. Published by Routledge. Cardinet,J., Tourneur, Y., & Allal,L.(1976). The symmetry of generalizability theory: Applications to educational measurement. Journal of Educational Measurement,13, 119-135. Fan, X., Sun, S. (2013). Generalizability theory as a unifying framework of measurement reliability in adolescent research. The Journal of Early Adolescence, 34 (1): 38-65. Guler, G., Özdemir, E., & Dikici, R. (2012). A Comparative Analysis of Elementary Mathematics Teachers’ Examination Questions And SBS Mathematics Questions According To Bloom’s Taxonomy. Journal of Education Faculty, 14(1): 41-60. Guler, N., Gelbal, S. (2010). Studying Reliability of Open Ended Mathematics Items According to the Classical Test Theory and Generalizability Theory. Educational Sciences: Theory & Practice, 10 (2): 1011-1019. Karamustafaoglu, S., Sevim, S., Karamustafaoglu, O., Cepni, S. (2003). Analysis of Turkish High- School Chemistry – Examination Questions According to Blooms Taxonomy, Chemistry Education Research and Practice, 4 (1): 25-30. Kumazawa,T.(2009). Revision of a Criterion-Referenced Vocabulary Test Using Generalizability Theory. JALT Journal,31(1): 81-100 Mehri, M. (2013). Students’ Learning Achievement in Publicand Private Schoolsin Kabul, Afghanistan: A comparison of grade 9 students in biology subjectMarina Mehri Faculty: Art. thesis of Master of Education and Didactics, Karlstad University. Miller, M. D. (2010). Classical Test Theory Reliability. International Encyclopaedia of Education (Third Edition),P 27 – 30. Scholtes, V. A., Terwee, C. B., & Poolman, R. W. (2011). What makes a measurement instrument valid and reliable?. Injury, 42(3): 236-240. Sudweeks, R. R., Reeve, S., Bradshaw, W. S. (2005). A comparison of generalizability theory and many-facet Rasch measurement in an analysis of college sophomore writing. Assessing Writing, 9 : 239–261. Suen, H. K., Lei, P. W.(2007).Classical versus Generalizability theory of measurement. Educational measurement, 4: 1-13. Wakeman, S. (2013). Using the Access Test as a Predictive Measure of English Learner Success on the Biology End-of-course-test in Georgia . dissertation for the degree of Doctor of Education, The University of Alabama Tuscaloosa. Webb, N. M., & Shavelson, R. J. (2005). Generalizability theory: Overview. Encyclopedia of statistics in behavioral science, 2: 717-719. Webb, N. M., Shavelson, R. J., & Haertel, E. H. (2007). Reliability coefficients and generalizability theory. Handbook of statistics, 26: 81-124. Webb, N. M., & Shavelson, R. J. (1991). Generalizability theory: A primer. Newbury Park,CA: Sage. Webb, N. M., & Shavelson, R. J. (1981). Generalizability theory: 1973 – 1980. British Journal of Mathematical and Statistical Psychology, 34, 133- 166 Wilson, F. R., Pan, W., Schumsky, D. A. (2012). Recalculation of the critical values for Lawshe’s content validity ratio. Measurement and Evaluation in Counseling and Development, 45(3): 197-210. Yang, Y., & Green, S. B. (2011). Coefficient alpha: A reliability coefficient for the 21st century?. Journal of Psychoeducational Assessment, 29(4): 377-392.

نظرات کاربران

نظرتان را ارسال کنید

captcha

فایل های دیگر این دسته