أثر حجم العينة على خصائص الاختبار التحصيلي ومعادلة درجاته

المؤلفون

1 جامعة جدارا

2 جامعة اليرموک

المستخلص

ملخص البحث:
هدفت هذه الدراسة الى معرفة اثر حجم العينة على الخصائص السيکومترية للاختبار وخصائص فقراته ومعادلة درجاته، حيث تم بناء اختبار في القدرة الرياضية للصف الثامن من ( 80 ) فقرة تحققت فيه مظاهر الصدق الظاهري وصدق البناء ، وبثبات قدره ( 0.91 ) تم تطبيقه على عينة من 3200 مفحوصا من الجنسين ، تم ادخال استجاباتهم باستخدام البرنامج الاحصائي spss ثم تم سحب (6) عينات جزئية عشوائيا بحجوم ( 1600  ، 800، 400، 200، 100، 50 ) على التوالي .اشارت نتائج الدراسة الى ان الخصائص المتمثلة بالثبات والتمييز وصعوبة الفقرات لا تختلف باختلاف حجم العينة المسحوبة عشوائيا اذا زاد حجمها عن 100 ، کما اشارت نتائج الدراسة الى ان تطبيق الاختبار على عينات اقل من 100 يهدد صدق محتوى الاختبار وذلک لارتفاع نسبة الفقرات المحذوفة وفق مؤشري الصعوبة والتمييز لتصل الى حوالي 39% من فقرات الاختبار الاصل.
الکلمات المفتاحية: العينة العشوائية ، الاختبار، حجم العينة ، الثبات ، الصعوبة والتمييز 

المقدمة:

تعتبر الاختبارات التحصيليه واحدة من وسائل التقويم المتنوعة، ومن اهم الأدوات التي  يستند إليها في اتخاذ القرارات ورسم السياسات والتخطيط في العملية التربوية. وعليه فإن جودة تلک الاختبارات وتمتعها بخصائص سيکومترية جيدة رکيزة أساسية تصب في تحسين تلک السياسات ورفع مستوى دقة القرارت التربوية.

إن الخصائص السيکومترية للاختبار وخصائص فقراته تتأثر بعوامل عدة أهمها حجم عينة الدراسة، فالمتمعن في عملية تقدير مؤشرات الاختبار من صدق وثبات، وتقدير لمؤشرات فقراته من صعوبة وتمييز وغيرها، يجد أن جميعها تعتمد على عينة المفحوصين الذين يجرّب أو يطبق عليهم الاختبار، فجميع هذه المؤشرات يتم تقديرها مباشرة من خلال استجابات العينة على فقرات الاختبار، ولذلک تعتبر هذه المؤشرات والخصائص غير مستقلة عن عينة التجريب أو التطبيق .

وعليه فإن العديد من الباحثين في مجال تطوير الاختبارات والمقاييس يطرحون تساؤلا مستمرا حول الحجم المناسب للعينة (ملحم، 2002)، وهو تساؤل ليس من السهل الإجابة عنه،  فقد أشار فيرجسون(Ferguson, 1989) في هذا الصدد إلى عدم إمکانية الحصول على إجابة لمثل هذا التساؤل، بل وأن معرفة الحجم المناسب أمر لا يخلو من التعقيد ويعتمد على العديد من العوامل مثل: الکلفة المادية، وتوفر أفراد العينة، والجهد والوقت اللازمين لعملية جمع البيانات وغيرها. فيما أشار رسل ( Russel,2001) إلى أن هناک العديد من الأسئلة التي يجب إثارتها قبل السؤال عن حجم العينة مثل: ما هو هدف الدراسة؟ وکيف تخطط لعملية القياس؟ وهل تتوفر أدوات اخرى؟ وکم الوقت المتوفر؟ وما هو متغير الاستجابة؟ وما هي القيود العملية في الدراسة؟ وغيرها من
التساؤلات الأخرى.

خلفية الدراسة:

تختلف وجهات النظر حول الحجم المناسب للعينة من اجل الحصول على خصائص سيکومترية جيدة للاختبار والفقرات بشکل عام، فقد أشار البعض أن الحجم المناسب لتلک العينة يجب أن يتراوح بين نسبتي(5%-10%) من حجم المجتمع أو بحجم لا يقل عن 400 مفحوص، على أن يتم اختيار الافراد لتلک العينة وفق أسلوب يحد من خطأ الصدفة الذي ينعکس على درجة تمثيل تلک العينة للمجتمع (Henrysoon,1971).

وفي الأدب المتعلق بخاصية ثبات الاختبار تحديدا، يشير کلاين (Kline,1986) إلى ان أقل حجم للعينة يجب أن لا يقل عن 300 مفحوصا وهو الحجم الذي اطلق عليه کل من نانللي وبريستين(Nunnally&Bernstien,1994) وسيجال(Segall,1994 ) بالعينة الصغيرة، في حين حدد کارتر(Charter, 2003) العينة الصغيرة بـ  400 مفحوص من أجل الحصول على تقدير غير متحيز لثبات المجتمع من ثبات العينة، أما دراسة يوردکول (2008 Yurducul,) فقد أشارت إلى أن الحد الأدنى اللازم لحجم العينة لتقدير معامل الثبات مرتبط بالقيمة الأولية المحسوبة للجذر الکامن (Eigen Value) والناتجة من التحليل العاملي للمکونات الأساسية. فإذا کانت قيمة الجذر الکامن الأول اکبر من (6)، فان معامل کرونباخ الفا (الثبات) في هذه الحالة يکون مقدرا جيدا (robust Estimator) للقيمة المقابلة له في مجتمع هذه المعاملات حتى ولو کان حجم العينه (30) مفحوصا، وأما اذا کانت قيمة الجذر الکامن ما بين (6-3) فان حجم العينة المطلوب يجب أن لا يقل عن (100) مفحوص کي يتم الحصول على تقدير غير متحيز لقيمة الفا المقدرة لثبات المجتمع.

 أما على مستوى الفقرات وعند القيام بتقدير مؤشرات خصائص الفقرة وخصوصا مؤشر تمييزها اعتمادا على مجموعة الأداء المرتفع بنسبة 27% ومجموعة الأداء المنخفض بنسبة 27% من المفحوصين، فإنه يوصى بأن لايقل حجم تلک النسب عن 55 مفحوصا، مما يعني أن حجم العينة کاملا سيبلغ 200 مفحوصاً وذلک کي يتم الحصول على أفضل تباين بين المجموعتين (Anastasi,1988). أما کروکر والجينا (Krocker&ALgina,1986) فقد أشارا إلى أن الحجم المناسب لعينة المفحوصين لغايات حساب مؤشرات خصائص الاختبار وفقراته ينبغي أن لا يقل عن (200) مفحوصا لأن ذلک يقلل من حجم أخطاء القياس إلى الحد الأدنى، فيما أشار نانالي (Nunnally,67) إلى أن حجم العينة متعلق بعدد فقرات المقياس، اذ يجب ان يترواح الحجم من (5- 10) أضعاف عدد الفقرات، أما في النظرية الحديثة للقياس فأوضح أن حجم العينة اللازم يختلف باختلاف النموذج المستخدم ( احادي المعلم ، ثنائي المعلم ، ثلاثي المعلم) ويتراوح من 200- 1000 مفحوص.

في التحليل العاملي والذي يستخدم بشکل کبير في الکشف عن خصائص الفقرات وارتباطاتها، وتحديد عدد عوامل الاختبار أو المقياس،  فالمتوفر في الادب النظري من دراسات يشير إلى أن هناک اتجاهان في تحديد الحد الأدنى لحجم العينة المطلوب، فالاتجاه الأول يشير إلى أن حجم العينة يحدد بشکل مستقل عن اي متغيرات، فيما يربط الاتجاه الثاني حجم العينة بعدد الفقرات التي يتکون منها الاختبار أو المقياس. ففي الاتجاه الأول أشار کل من جورسوش Gorsuch, 1983))  وکلاين Kline ,1979)) إلى أن الحجم اللازم للعينة يجب أن لا يقل عن 100، فيما أکد هيوشيسون وسوفرونيو  Hutcheson & Sofroniou , 1999)) إلى أن الحجم يجب أن لا يقل عن 150 خصوصا عندما تکون المتغيرات مرتبطة مع بعضها البعض بشکل غير مرتفع، أما جيلفورد Guilford ,1954)) وماکولوم وزملاؤه  (MacCallum, Widaman, Zhang & Hong, 1999) فقد اقترحوا بأن لا ينقص حجم العينة عن 200 مفحوصا، فيما اقترح کاتل Cattell ,1978)) أن يکون الحد الادنى 250 مفحوصا، مع احتمالية أن يصل هذا الحد إلى 500 مفحوصا وهو ما أشار له .( Comreyg  & Lee ,1992)

أما في الاتجاه الثاني والذي يربط حجم العينة بعدد الفقرات  فقد أشار هير وزملاؤه Hair, Anderson, Tatham & Black ,1995)) إلى أن النسبة بين عدد الفقرات وعدد المفحوصين يجب أن تکون 20:1  فيما بين ناناللي ( (  Nunnally, 1978إلى أن النسبة يجب أن تکون 10 مفحوصين لکل فقرة، وهو ما أکده بريانت ويارنولد (Bryant and Yarnold, 1995  )  فيما أشار جروش  (Gorsuch, 1974) إلى أن النسبة يجب أن لا تقل عن 5:1  بين الفقرات والمفحوصين.

الدراسات السابقة:

ان المتصفح للدراسات المنشورة في هذا المجال يجد شحا واضحا في الدراسات التي تتعلق تحديدا باثر حجم العينة على الخصائص السيکومترية للاختبار وخصائص فقراته تحديدا  سواء العربية منها أو الاجنبية، اذ أن معظمها تلک الدراسات قد تناول أثر حجم العينة على المقاييس النفسية أو التربوية وليس الاختبارات التحصيلية بالذات، اذ لم يحصل الباحثان على اية دراسة عربية أو اجنبية تتعلق بأثر حجم العينة على الاختبار التحصيلي ولذلک فسيتم عرض الدراسات المتعلقة بأثر حجم العينة على خصائص المقاييس بشکل عام.

 لقد قام الميامي(2005) بدراسة هدفت إلى التعرف على أثر حجم العينة وطول المقياس في خصائصة السيکومترية، والمتمثلة بالثبات والصدق والتوزيع الطبيعي وحساسية المقياس، استخدم في دراسته مقياسا لسمة الصبر تم تطبيقه على عينات بحجوم مختلفة(600، 500، 400، 300، 200، 100) فردا، توصل فيها إلى أن زيادة حجم العينة يؤدي إلى تحسن خصائص المقياس، وفي مختلف الأنماط للمقياس. إضافة إلى ذلک، فقد بينت النتائج إلى أنه کلما زاد طول المقياس کلما قلت الحاجة إلى اعتماد حجم کبير للعينة.

وفي دراسة الکبيسي (1995) لأثر حجم العينة وحجم المجتمع الإحصائي في مؤشر معامل التمييز لفقرات المقاييس النفسية، تم تطبيق مقياس الثقه بالنفس على عينات بأحجام مختلفة (400، 300، 200، 100) تم اختيارها من مجتمع من(2000) طالب وطالبة. ومن ثم اختيار عينات أخرى بنفس الحجوم من مجتمع اکبر مؤلف من (5000) طالبا وطالبة. أشارت نتائج الدراسة  إلى أن أفضل حجم عينه فيما يتعلق بمؤشر تمييز الفقرة، کان الحجم( 300) في المجتمع الأکبر والمؤلف من(5000) طالبا وطالبة ، والحجم(100) في المجتمع المؤلف من (2000) طالبا وطالبة.

کما وأجرى جافالي (Javali,2011) دراسة حول أثر حجم العينة عل تقديرات الثبات بإسلوب الاتساق الداخلي لکل من معامل الثبات الفا، وجاما ، واوميجا، توصل فيها إلى أن أفضل تقدير لکل منها تم ملاحظته في العينات التي لا تقل عن 50 ولذلک وضحت الدراسة أنه لتقدير الثبات لمقياس من 5 فقرات فاکثر فانه يلزمنا عينة  من 50 مستجيبا على الاقل.

کما وأجرى دالتون وکوزير (Dalton & Cosier,1988) دراسة لمقارنة الخصائص السيکومترية لمقياس المواطنة وخصائص فقراته باستخدام عينات مختلفة الحجوم، والعمر بالنسبة للمستجيبين ولدى ثقافات مختلفة حيث تم إعداد مقياس لأغراض جمع البيانات اللازمة، وقد أظهرت النتائج غياب الفروق الدالة احصائياً  والمتعلقة بمؤشرات صدق الفقرة والصدق العاملي للمقياس الذي تم استخدامه باختلاف حجم العينة.

کذلک اجرى باريت وکلاين ((Barrett and Kline,1981 دراسة استخدمت فيها عينتين تجريبيتين کبيرتين، ثم تم سحب عينات جزئية من احجام مختلفة من العينتين الکبيرتين واجراء تحليل عاملي للعينات الجزئية لمقارنة النتائج الخاصة بالعينات الجزئية مع العينات الکبيرة، أشارت نتائج دراستهما إلى أن الوضع يکون جيدا عندما تکون العينة الجزئية مکونة من  48 فردا في المقاييس التي تتکون من 16 فقرة وکذلک في العينة التي تتکون من 112 فردا في  المقاييس المکونة
من 90 فقرة .

کذلک قام هنسون وروبرت (Henson & Roberts 2006) بدراسة تحليلية ل 60 بحثا تم نشرها حول التحليل العاملي في 4 مجلات هي: Educational and Psychological Measurement, Journal of Educational Psychology, Personality and Individual Differences, and Psychological Assessment. توصلا فيها إلى أن الحد الأدنى للعينة في تلک الابحاث کان 42 فردا، فيما أشارت دراسة فابرجار وزملاؤه Fabrigar, Wegener, MacCallum, and Strahan ,1999) ) والتي قدم فيها تحليلا للبحوث المنشورة في مجلتي Journal of Personality and Social Psychology (JPSP) and Journal of Applied Psychology (JAP). إلى أن ما نسبته 19% من البحوث في مجلة JPSP وما نسبته 14% من البحوث في مجلة  JAPلم تقل العينات فيها عن 100 مفحوصا.

مشکلة الدراسة وأهميتها :

لقد بينت خلفية الدراسة إلى انه لا توجد إجابة واضحة حول حجم العينة اللازم لتطوير الاختبار، وأنها قضية ما زالت خلافية وتتعدد فيها الاراء، الأمر الذي يجعلها قضية مفتوحة للمزيد من البحث، فالأبحاث التي کتبت في هذا الصدد شحيحة وقد أکد ماکالوم وزملاؤه (MacCallum, Widaman, Zhang & Hong, 1999)  بأن الأبحاث التي قدمت توصيات حول حجم العينة في مجال العلوم السلوکية قليلة جدا، بالإضافة لذلک فإن تعدد الاراء قد جعل تخفيض حجم العينة امرا مستباحا ومقبولا من قبل الباحثين بذرائع کثيرة منها ضيق الوقت، والجهد اللازم، والتکلفة، وجمع البيانات، بل إن هناک ميلاً ذاتيا واضحا عند الباحثين تجاه تخفيض حجم العينة عن الحدود الدنيا الموصى بها وهو ما أکده  کروکر والجينا (Crocker&Algina,1986 ) حيث أشارا إلى أن معظم الباحثين وطلبة الدراسات العليا بشکل خاص والذين يطورون أدوات واختبارات في أطروحاتهم يميلون إلى الاعتماد على عينات صغيرة مع أن الحد الأدنى المرغوب به للعينة 200 مفحوصا.

ولذا يبرز تساؤل مهم هنا يمثل مشکلة الدراسة الرئيسة وهو: ما الذي سيختلف في خصائص الاختبار وفقراته لو کان هناک التزاما من الباحثين بالحدود الدنيا (أو اکثر) لحجم العينة ؟. فالواقع يشير الى أن الکثير من الباحثين ليس لديهم القناعة الکافية بضرورة زيادة حجم العينة لتوقعهم بأن الأمر ليس له تأثير، وعليه فيمکن ان تصاغ اسئلة الدراسة کما يلي:

  1. ماثر حجم العينة في استقرار مؤشر صعوبة الفقرة للاختبار؟
  2. ما أثر حجم العينة في استقرار مؤشر تمييز الفقرة للاختبار؟

3. ما اثر حجم العينة على عدد الفقرت المحذوفة من الاختبار وفق حدود مؤشري
الصعوبة والتمييز؟

  1. ما أثر حجم العينة في تقدير معامل الثبات للاختبار؟
  2. ما اثر حجم العينة في معادلة درجات الاختبار؟

أما أهمية هذه الدراسة فتتمثل في أنها تتعلق بأثر حجم العينة على الاختبار التحصيلي بالذات والذي ندرت الدراسات حول اثر حجم عينة المفحوصين على خصائصه وخصائص فقراته، بالإضافة إلى أن الاختبارات التحصيلية مرتبطة في عملية تطويرها بجداول مواصفات تمثل صدق محتوى الاختبار، ولذا فان التغيير الناتج عن حجم عينة المفحوصين قد يؤدي إلى تغير في خصائص الفقرات وبالتالي تغييرا في احتمالات قبول الفقرة أو حذفها من الاختبار الأمر الذي قد يهدد صدق محتوى الاختبار التحصيلي والذي يمثل أحد أهم خصائصه .

الطريقة والإجراءات:

مجتمع الدراسة وعينتها:

تکون مجتمع الدراسة من 3200 طالبا وطالبة من طلبة الصف الثامن في المدارس الحکومية في مدينة اربد مناصفة بين مدارس الذکور والإناث، وقد اعتبر هذا المجتمع بمثابة العينة الکبيرة التي تم سحب عينات فرعية منها. فيما تکونت عينة الدراسة من 6 عينات فرعية وفق الحجوم (50،100،200،400،800،1600 ) تم سحبها بطريقة عشوائية بتقسيم العينة إلى النصف في کل مرة باستخدام برنامج الحزمة الإحصائية للعلوم الإنسانية SPSS.

أداة الدراسة ( الاختبار):

تم تطوير أداة هذه الدراسة والمتمثلة  باختبار تحصيلي في مادة الرياضيات لقياس القدرة الرياضية لدى طلبة الصف الثامن الأساسي، حيث تألف الاختبار بصورته الأولية من (100) فقرة ، تم إعدادها من خلال الاسترشاد بخطوات بناء الاختبار التحصيلي إلي أشار لها ملمان وجري (Millman & Gree,1989) وذلک بهدف قياس درجة امتلاک طلبة الصف الثامن للمهارات الأساسية في مجالات (الأعداد، الکسور، الهندسة، الإحصاء).

ولتحقيق ذلک فقد تم الإطلاع على نتاجات التعلم من الصف الأول الأساسي إلى الصف الثامن الأساسي من قبل الباحثين والمتوفرة في دليل المعلم، وتم بناء جدول المواصفات من بعدين، البعد الأول ويمثل الموضوعات التي يتضمنها المحتوى، والبعد الثاني ويمثل مستويات النتاجات لتلک لموضوعات وهي ثلاثة مستويات (المعرفه، الفهم والتطبيق، القدرات العقلية العليا).  بعد ذلک تم تحديد الأوزان لکل موضوع من بين الموضوعات وفق عدد النتاجات في کل منها، ووزن کل مستوى من بين المستويات حيث تم تحديد (20% للمعرفة و50 % للفهم والتطبيق و20% للقدرات العقلية العليا)، ومن ثم توزيع فقرات الاختبار على الخلايا الناتجة من التقاطع فيما بينهما، بحيث تکوّن الاختبار بصورته الأولية من (100) فقرة من نوع الاختيار من متعدد، لکل فقرة 5 بدائل، واحد منها فقط يمثل الإجابة الصحيحة لتلک الفقرة.

صدق الأداة(الاختبار) وثباتها:

للتحقق من دلالات صدق محتوى الاختبار، ثم عرضه على مجموعة المختصين في مجال تدريس الرياضيات من معلمين ومشرفين في تدريس الرياضيات وقد بلغ عددهم (9) محکمين ويحملون الدرجة الجامعية الأولى أو الثانية (البکالوريوس أو ماجستير) وبخبرات تعليمية لا تقل عن عشرة سنوات بالاضافة إلى ثلاثة من المختصين في القياس والتقويم.

وقد طلب منهم تقديم ملاحظاتهم حول فقرات الاختبار من حيث وضوحها، وخلوها من الأخطاء وبيان درجة تمثيل الفقرة لما تقيسه وتغطيه من المجال التعليمي المراد قياسه ، کما وتم الطلب منهم ابداء الرأي فيما يتعلق بالجوانب الفنية في إخراج الاختبار، وتقديم ما يرونه مناسبا من ملاحظات أخرى تتعلق بالتعديل أو الإضافة أو الحذف لأي فقرة.

وبناء على نتائج التحکيم، فقد تم حذف (9) فقرات وتعديل فقرات أخرى ليصبح الاختبار من 91 فقرة ، کما وتم تقدير الزمن اللازم للاختبار من قبل المحکمين بــــ (90 دقيقة). بعد ذلک تم تطبيقه على عينة مؤلفة من (300) طالبا وطالبة تم اختيارهم عشوائيا من مجتمع الدراسة وذلک لغايات تحري ثبات الاختبار، والکشف عن خصائص فقراته، والتعرف إلى الملاحظات التي قد تظهر أثناء عملية التطبيق والتحقق من خلوه من الاخطاء الطباعية واللغوية وما يتعلق بتعليمات الاختبار وإخراجه والتعرف إلى الوقت اللازم فعليا للاستجابة على فقراته. ثم حُلّلت استجابات أفراد هذه العينة لغايات حساب مؤشر الصعوبة ومؤشر التمييز للفقرات ومعامل الثبات للاختبار، حيث تم شطب "11" فقرة لعدم تحقيق شرط مدى مؤشر الصعوبة(0.7-0.3) ومؤشر التمييز(0.3-1) . وبعد شطب هذ العدد من الفقرات بلغ معامل ثبات الاختبار 0.91 باستخدام معادلة کودرشارتسون KR20  ، وبذلک أصبح الاختبار بصورته النهائية من (80) فقره.

تطبيق الصورة النهائية للاختبار:

تم تطبيق الاختبار بصورته النهائية والمؤلفة من (80) فقرة على عينة الدراسة الکلية والبالغة (3200) طالبا وطالبة، وتم الاستعانة بمشرفي مادة الرياضيات في الفصل الدراسي الأول لعام 2010/ 2011 للمساهمة في عملية التطبيق.

 

متغيرات الدراسة:

تضمنت الدراسة المتغيرات التالية:

المتغير المستقل:

حجم العينة: وهو عبارة عن عدد المفحوصين الذين يخضعون لتطبيق الاختبار المعد کأداة في هذه الدراسة، ويقع حجم العينة في (6) قيم هي (50،100،200،400،800،1600).

المتغيرات التابعة: هناک 5 متغيرات تابعة هي:

  • مؤشر معامل الصعوبة للفقرة.
  • مؤشر معامل التمييز للفقرة.
  • عدد الفقرات المحذوفة وفق مؤشري الصعوبة والتمييز للفقرة .
  • معامل الثبات للاختبار .
  • العلامات المئينية المقابلة للعلامات الخام في کل اختبار.

تعريف المصطلحات:

مؤشر صعوبة الفقرة : نسبة الاستجابات الصحيحة للفقرة من قبل  مجموعة المفحوصين.

مؤشر تمييز الفقرة  : معامل الارتباط المصحح بين اداء مجموعة المفحوصين على الفقرة وعلى الاختبار بعد حذف تلک الفقرة منه.

ثبات الاختبار :  قيمة الثبات التي تم الحصول عليها باستخدام معادلة کودر رتشاردسون KR20

المعالجة الإحصائية:

تم سحب 6 عينات عشوائية من عينة الدراسة الکلية والمؤلفه من (3200) طالبا وطالبة وبحجوم هي (1600، 800،400،200، 100، 50) تم سحبها باستخدام البرنامج الإحصائي SPSS ( ولذلک تعتبر هذه الدراسة من الدراسات الاسترجاعية حيث تم أخذ العينات الصغيرة بعد أن أنجزت الکبيرة)، بعد ذلک تم تحليل الاستجابات على فقرات الاختبار على مستوى کل عينه، حيث تم تقدير قيم مؤشري الصعوبة والتمييز لکل فقرة، ومعاملات الثبات، والعلامات المئينية المقابلة للعلامات الخام، کما واستخدمت الاحصائيات الوصفية وتحليل التباين لمعرفة الفروق في الخصائص للفقرات والاختبار في ضوء أحجام العينات الفرعية.

محددات الدراسة: تتحدد نتائج هذه الدراسة بأن العينات الفرعية المسحوبة هي
عينات عشوائية   

ولذلک فان نتائجها تتحدد في هذا الإطار، على عکس ما يميل له معظم الباحثين في استخدام العينات المتيسرة تقليلا للوقت والجهد والتکلفة. کما وتتحدد نتائج هذه الدراسة بخصائص الفقرات والاختبار والمقدَرة وفق النظرية الکلاسيکية في القياس. 

نتائج الدراسة:

يتناول هذا الجزء عرضا لنتائج الدراسة التي تم التوصل إليها وسوف يتم عرضها تبعا لتسلسل أسئلتها:

للإجابة عن السؤال الأول والمتعلق باثر حجم العينة على مؤشر صعوبة الفقرات في الاختبار، يظهر جدول (1) قيم الوسط الحسابي والانحراف المعياري والمدى لقيم معاملات الصعوبة لفقرات الاختبار تبعاً لحجم العينة، حيث تشير القراءة الأولية للنتائج بأن هناک تقاربا في متوسطات معاملات الصعوبة المقدرة في تلک العينات، فقد بلغ المتوسط الحسابي لصعوبة

جدول (1): الإحصاءات الوصفية لقيم معاملات الصعوبة باختلاف حجم العينة

الإحصاء/ حجم العينة

50

100

200

400

800

1600

3200

المتوسط الحسابي

.39

.39

.38

.39

.37

.38

.38

المدى

.80

.69

.75

.78

.74

.75

.75

الانحراف المعياري

.17

.16

.15

.15

.15

.15

.15

الفقرات ما بين القيمتين (0.39_ 0.37). وبانحراف معياري تراوح بين (0.17_ 0.15) . وبالنظر إلى متوسطات معاملات الصعوبة في الجدول وتوزيع قيمها حسب حجم العينات نجد  أنه لا يوجد اي ترتيب نمطي أو تسلسلي للمتوسطات تبعا لحجم العينة الا أنه يمکن القول أنها متقاربة جدا بحيث أن الفرق بين أعلى متوسط وأدنى متوسط هو فقط( 0.02 )، وللکشف فيما إذا کانت هناک فروق بين هذه المتوسطات لمعاملات الصعوبة في الاختبارات السبعة، تم إجراء تحليل التباين الأحادي لقيم معاملات الصعوبة لفقرات الاختبار تبعاً لحجم العينة. والجدول (2) يظهر نتائج هذا التحليل.

جدول (2): نتائج تحليل التباين الاحادي لمتوسطات معاملات الصعوبة وفق حجم العينة

الدلالة الاحصائية

ف

متوسط المربعات

درجات الحرية

مجموع المربعات

مصدر التباين

.94

.243

.005

6

.03

بين العينات

 

 

.025

484

11.95

داخل العينات

 

 

 

490

11.98

الکلي

حيث تبين نتائج تحليل التباين الاحادي في هذا الجدول أن قيمة الدلالة الإحصائية هي 0.94 اي أنه لا توجد دلالة إحصائية على مستوى (α= 0.05 ) للفروق بين متوسطات صعوبة فقرات الاختبارات المسحوبة تبعا لحجم العينة، مما يعني عدم وجود أثر لحجم العينة في معاملات
صعوبة الفقرات.

وللإجابة عن السؤال الثاني حول أثر حجم العينة على مؤشر التمييز للفقرة، تم إيجاد مؤشرات التمييز لفقرات الاختبار في کل عينة من عينات الدراسة وحساب المتوسط لهذه المؤشرات بالإضافة للمدى والانحراف المعياري لها والتي يظهرها جدول (3).

جدول (3): الإحصاءات الوصفية لمؤشرات التمييز للفقرات وفقا لحجم  العينة

احصاء الفقرة / حجم العينة

50

100

200

400

800

1600

3200

الوسط الحسابي لمؤشر تمييز الفقرات

.25

.28

.26

.31

.27

.29

.28

المدى

.75

.58

.50

.56

.48

.46

.48

الانحراف المعياري

.16

.13

.15

.12

.11

.11

.11

حيث يظهر الجدول  أن قيم الوسط الحسابي لمؤشرات تمييز فقرات الاختبار قد تراوحت ما بين القيمتين(0.31_0.25). وبإنحراف معياري تراوح بين (0.16_0.11). وبالنظر إلى المتوسطات نجد أنه لا تظهر اي علاقة أو أي نمط بين حجم العينة ومتوسط تمييزها حيث نجد مثلا أن متوسط مؤشرات تمييز الفقرات في العينة 1600 قد بلغ 0.29 وهو اعلى منه في العينة الکلية 3600 والذي بلغ فقط 0.28، وأن اعلى متوسط لمؤشر التمييز قد کان في العينة 400 اذ بلغ 0.31.

وللمقارنة بين متوسطات قيم هذه المؤشرات  فقد تم تحويل قيمها إلى ما يقابلها من قيم (Zp) الفشرية، ومن ثم أجريت عملية تحليل التباين الاحادي لهذه القيم، والجدول رقم (4) يظهر نتائج هذا التحليل.

جدول (4):نتائج تحليل التباين لمتوسطات مؤشرات تمييز الفقرات تبعاً لحجم العينة

الدلالة الاحصائية

ف

متوسط المربعات

درجات الحرية

مجموع المربعات

مصدر التباين

.197

.1.44

.024

6

0.14

بين المجموعات

 

 

.017

483

7.97

داخل المجموعات

 

 

 

489

8.10

الکلي

حيث يشير الجدول إلى أن قيمة الدلالة الإحصائية للفروق بين متوسطات مؤشرات تمييز الفقرات قد بلغت 0.197 مما يعني عدم وجود فروق ذات دلالة إحصائية بينها على مستوى (α= 0.05 ) الأمر الذي يعني عدم تأثير حجم العينة على مؤشر تمييز الفقرة.

وفيما يتعلق بالسؤال الثالث والمتعلق بعدد الفقرات المحذوفة من الاختبار لدى کل من عينات الدراسة، فقد تم حساب مؤشري الصعوبة والتمييز لکل فقرة ومن ثم محاکمة هذه القيم للمؤشرات اعتمادا على القيم المقبولة لمعاملات الصعوبة ومعاملات التمييز لتلک الفقرات، حيث تم حذف الفقرة التي يخرج مؤشر صعوبتها عن المدى 0.3-0.7 أو يخرج مؤشر تمييزها عن المدى (0.3-1)، ويبين الجدول رقم (5) عدد الفقرات المحذوفه لدى کل عينة من عينات الدراسة.

جدول (5):عدد الفقرات المحذوفة من الاختبار وفقا لمؤشر الصعوبة ومؤشر التمييز

مؤشر الفقرة/ حجم العينة

50

100

200

400

800

1600

3200

عدد الفقرات المحذوفة حسب مؤشر الصعوبه

23

19

18

18

18

18

19

عدد الفقرات المحذوفة حسب مؤشر التمييز

32

16

21

12

13

13

15

ويظهر من الجدول أن عدد الفقرات المحذوفه حسب مؤشر  الصعوبة قد بلغ 23 فقرة في العينة التي حجمها 50 مما يعني حذف ما نسبته 29% من عدد فقرات الاختبار الأصلي، فيما تقاربت عدد الفقرات المحذوفة في باقي العينات فکان حوالي 19 فقرة،  کما ويشر الجدول کذلک إلى أن عدد الفقرات المحذوفة وفق مؤشر التمييز قد کان الأکبر في العينة التي حجمها 50 أيضا اذ بلغ عدد الفقرات المحذوفة 32 فقرة اي ما نسبته  40%  من عدد فقرات الاختبار الأصلي، وهو تقريبا ضعفي عدد الفقرات المحذوفة في العينة التي حجمها 100، مما يعني أن تطبيق الاختبار على عينة من 50  هو تهديد مباشر للصدق الداخلي للاختبار والمتمثل بصدق محتوى الاختبار نتيجة لحذف هذه النسبة العالية من الفقرات  والتي وصلت الى 40%.

أما فيما يتعلق بإجابة السؤال الرابع حول اختلاف قيم معاملات الثبات للاختبارات وفق حجم العينة، فقد تم تقدير معامل الثبات باستخدام معامل الثبات کوردر ريتشاردشون KR20 کما هو مبين في الجدول رقم (6) أدناه.

جدول (6): قيم معاملات الثبات  KR20للاختبارات وفقا لحجم العينة

معامل الثبات/ حجم العينة

50

100

200

400

800

1600

3200

KR20

.85

.87

.86

.89

.87

.88

.87

ويتضح من الجدول أن قيم الثبات المقدرة متقاربة جدا بفارق بسيط بلغ 0.04 وقد سجلت العينة 50 الثبات الأدنى من بينها حيث وصلت قيمة الثبات فيها إلى 0.85، کما ويتضح من الجدول أنه من الصعب تحديد اتجاه في اختلاف تلک القيم أو إظهار علاقة نمطية مع حجم العينة. ولکن يبين هذا الجدول أن أقل قيمة لثبات الاختبار کانت لدى العينة الأصغر حجماً (50) مفحوصا ، وأعلاها لدى العينة ذات الحجم (400) وهي ليست العينة الأکبر.

وفيما يتعلق بالإجابة عن السؤال الخامس حول معادلة درجات الطلبة على الاختبارات، يشير الجدول ( 7 ) أدناه إلى الإحصاءات الوصفية لمستويات أداء الطلبة على الاختبارات حيث يتضح من الجدول أن أعلى متوسط أداء کان للطلبة ضمن العينة الصغيرة 400 حيث بلغ المتوسط 27.9، کما وکان أدنى متوسط للعينة 800 حيث بلغ 26.3 ، کما ويشير الجدول إلى انخفاض الانحراف المعياري في العينة 50 نسبة إلى باقي العينات حيث بلغ 50 في حين کان في باقي العينات 60 فاکثر.

جدول 7 : الاحصائيات الوصفية للعلامة الکلية للطلبة على الاختبار تبعاً لحجم العينة.

الاحصائيات الوصفية/حجم العينة

50

100

200

400

800

1600

3200

المتوسط الحسابي

27.4

27.25

26.9

27.9

26.3

26.9

26.8

المدى

9.7

10.5

10.1

11.4

10.2

10.7

10.5

الانحراف المعياري

50

60

61

65

65

65

65

کما ويشير الجدول 8 إلى معادلة الدرجات في الاختبارات الستة وفقا للعلامة المئينية المقابلة للعلامة الخام في الاختبار حيث يمکن من الجدول إيجاد العلامة المقابلة بين أي زوجين من الاختبارات  ويظهر من الجدول أن الاختلافات في الرتب المئينية برزت في العينة 50 بشکل ملفت للنظر.

جدول8 :معادلة الدرجات لدى عينات الدراسة إعتماداً على القيم المئينية.

المئين/ حجم العينة

50

100

200

400

800

1600

3200

5

19

14

14

14

14

14

14

10

17

17

16

16

16

16

16

25

19.7

20

20

19

19

19

19

50

25

25

25

25

24

24

24

75

33

34

33

35

32

33

33

90

43

43

41

43

41

43

42

95

47.4

47

47

50

48

48

48

مناقشة النتائج:

لقد أشارت النتائج في إطارها العام إلى عدم وجود فروق جوهرية في خصائص الفقرات وخصائص الاختبار بشکل عام تبعا لعينة المفحوصين التي يتم اختيارها بطريقة عشوائية عن خصائص المجتمع الذي سحبت منه، فلم تختلف خصائص الفقرات في العينات عنها في المجتمع المحسوبة منه، کما لم تختلف خصائص الاختبار في العينات عنها في المجتمع المسحوبة منه مما يعني أن العينات العشوائية قد تتمتع بدرجة من الدقة تصل في تمثيلها لمجتمع الدراسة إلى 100% وهذا يتفق مع ما أشار له بنتي(Pentti,2007  ) حيث أوضح أن العينة العشوائية تخلو من التحيز المنتظم وهي ممثلة للمجتمع، وهذا يعني بأن النتائج التي نحصل عليها من العينة العشوائية مطابقة للمجتمع تماما، کما وأشار إلى أن العينة صغيرة الحجم والمختارة بطريقة عشوائية يمکن أن تکون أکثر تمثيلا من عينة کبيرة وهو ما اتفق مع نتائج هذه الدراسة، حيث أشارت النتائج هنا الى أن بعض العينات الصغيرة قد قدمت مؤشرات اقرب إلى المجتمع من العينات الکبيرة في بعض المؤشرات مثل التمييز والثبات حيث طابقت العينة 100 مؤشراتها لمؤشرات المجتمع أکثر من العينة 1600 مثلا. کما وتتفق النتائج مع دراسة ميشل ( Micheal, 2010 ) والتي توکد أن حجم العينة قد لايکفل دقة تمثيلها للمجتمع الا اذا کانت العينة عشوائية، اذ أنها العينة العشوائية ممثلة للمجتمع بدرجة عالية باستمرار سواء کانت کبيرة أو صغيرة، ومع ذلک فانه يجب أن نشير هنا إلى أن العينات الکبيرة کانت الأکثر محافظة على الفقرات من عملية الحذف نسبة إلى العينات الصغيرة التي ارتفع فيها اعداد الفقرات المحذوفة، فقد بلغ عدد الفقرات المحذوفة وفق مؤشر التمييز مثلا 13 فقرة (%16) في العينة 1600 بينما وصل في العينة 50 إلى 32 فقرة (%40) وهو أمر ملفت للنظر مما يشير بشکل واضح إلى أن تطبيق أوتجريب الفقرات على عينات اقل من 100 من الممکن أن يشکل خطرا على صدق محتوى الاختبار نتيجة للفقرات التي سيتم حذفها وهذا يتفق مع ما يشير له کروکر والجينا (Krocker&ALgina,1986) ويکسدوکول (2008، Yuxducol) وانستازي (Anastasi, 1988) وجروش Gorsuch 1983))  وکلاين  Kline ,1979))، کما ويتفق مع دراسة فابرجار وزملاؤه (Fabrigar, Wegener, MacCallum, and Strahan ,1999) بضرورة تکبير عينة التجريب وأن لا يقل حجم عينة التقنين عن 100 بعکس البعض الآخر الذي يوصي بإمکانية التجريب على عينات صغيرة تصل إلى 50 أو اقل . وبهذا فان توجه بعض الباحثين إلى تخفيض حجم العينة إلى أقل من الحدود الموصى بها قد يؤدي إلى نتائج غير دقيقة في تحري الخصائص السيکومترية سواء على مستوى الفقرات أو على مستوى الاختبار ککل، کما تجدر الأشارة هنا  إلى أنه عندما اتضح في هذه الدراسة بأن الحجم الأقل الذي يمکن التعامل معه هو 100 مفحوص وليس 50 کما أوصت به بعض الدراسات الأخرى، فإننا نقصد بذلک تحديدا أن هذه العينة يجب أن تکون عينة عشوائية تامة وليس عينة متيسرة  أو مقصودة أو غيرها من العينات غير الاحتمالية الاخرى کما يفعل معظم الباحثين .وعليه فانه يمکن القول أنه إذا کان الحد الأدنى المطلوب لتحري خصائص الاختبار وخصائص فقراته  في عينات عشوائية تامة لا يقل عن 100 فإنه من الضروري جدا أن يتضاعف هذا الرقم في حالة العينات غير الاحتمالية.

وعليه توصي الدراسة بـ:

  1. استخدام برنامج ال SPSS في سحب العينات العشوائية لأنه يوفر عينات مطابقة تماما في خصائصها لمجتمع الدراسة.
  2. ضرورة أن تزيد عينة التجريب في الاختبارات التحصيلية عن 100 مفحوص لضمان عدم حذف عدد کبير من الفقرات وبالتالي المحافظة على صدق محتوى الاختبار.
  3. إجراء دراسات مماثلة باختيار عينات غير احتمالية من حجوم مختلفة للکشف عن أثرها في خصائص الاختبار وخصائص فقراته.
  • المصادر والمراجع:

    • الکبيسي، کامل (1995) ، أثر اختلاف حجم العينة والمجتمع الاحصائي في القدرة التمييزية لفقرات المقاييس النفسية : دراسة تجريبية . جامعة بغداد ، کلية التربية.
    • المياحي، امل (2005) أثر حجم العينة وطول الاختبار في الخصائص السيکومترية للمقاييس النفسية . اطروحة دکتوراه غير منشورة . جامعة بغداد.

    المراجع الأجنبية:

    -    Anastasi,A.(1986).Psycological testing (3rd ED) .New York .Macmillan.

    -    Barrett, P. T., & Kline. P. (1981). The observation to variable ratio in factor analysis. Personality Study in Group Behavior, 1, 23-33.

    -    Bryant, F. B., & Yarnold, P. R. (1995). Principal components analysis and exploratory and confirmatory factor analysis. In L. G. Grimm & R R. Yarnold (Eds.), Reading and understanding multivariale statistics (pp. 99-136). Washington, DC: American Psychological Association.

    -    Cattell, R. B. (1978). The Scientific Use of Factor Analysis. New York: Plenum.

    -    Charter,R.A.(1999). Study Samples Are Too Small to Produce Sufficiently Precise Reliability Coefficient .The Journal of General Psychology, 130,117-129

    -    Comrey, A. L., & Lee, H. B. (1992). A first Course in Factor Analysis. Hillsdale, NJ: Erlbaum.

    -    Crocker & Algina , (1986).Introduction to Classical and Modern Test Theory. New York .holt Rinehart and Winston.

    -    Datlon , D & Cosier ,R. ( 1988). Psychometric Properties of the Organization Citizenship Behavior Scale. Educational and Psychological Measurement

    -    Fabrigar, L. R., Wegener, D. T., MacCallum, R. C., & Strahan, E. J. (1999). Evaluating the use of exploratory factor analysis in psychological research. Psychological Methods, 4, 272-299.

    -    Ferguson , A (1989). Statistical Analysis in Psychology and Education, N .Y , Me Craw – Hill.

    -    Guilford, J. P. (1954). Psychometric methods (2nd ed.). New York: McGraw-Hill.

    -    Hair, J. F. J., Anderson, R. E., Tatham, R. L., & Black,W. C. (1995). Multivariate data analysis (4th ed.). Saddle River, NJ: Prentice Hall.

    -    Heniysoon, S .(1971) . Correction of Item – Total Correlation   In Item Analysis , Psychometric . V28 ,N03 .

    -    Henson, R. K., & Roberts, J. K. (2006). Use of exploratory factor analysis in published research: Common errors and some comment on improved practice. Educational and Psychological Measurement, 66, 393-416.

    -    Hutcheson, G., & Sofroniou, N. (1999). The multivariate social scientist: Introductory statistics using generalized linear models. Thousand Oaks, CA: Sage Publications.

    -    Javali S B, Gudaganavar N .(2011).Effect Of Varying Sample Size In Estimation Of Reliability Coefficients Of Internal Consistency.Article URL: http://www.webmedcentral.com/article_view/1572

    -    Kline, P. (1979). Psychometrics and psychology. London: Acaderric Press.

    -    Kline,p .(1989).A handbook of test construction. Introduction to psychometric design .New York. Methune & company .

    -    MacCallum, R. C., Widaman, K. F., Zhang, S., & Hong S. (1999). Sample size in factor analysis. Psychological Methods, 4, 84-99.

    -    Maloney , P&Word , P. (1980).Psychological Assessment A conceptual Approach , N.Y , Oxford University Press.

    -    Millman.J, Green.J.(1989).The  Specification and Development of Test Achievement and Ability .Edited by: Robert. L.Linn.

    -    Noruis, M. J. (2005). SPSS 13.0 Statistical Procedures Companion. Chicago: SPSS, Inc.

    -    Nunnally, J. C. (1978). Psychometric theory (2nd Ed.). New York: McGraw-Hill.

    -    Nunnally.J.(I967).Psychometric theory .New York: MicGraw –Hill.

    -    Segall.D.O.(1994). The Reliability of linearly equated tests. Psychometrika ,59,361- 375.

    -    Yurducal ,  H.( 2008).Minimum  Sample Size for Cronbach 's Cofficient Alpha .Journal of Education.V35:397-405.