The effect of Fit Statistic, Maximum Information Value and Standard Error of Difficulty Estimation of the Item on the Differential item functioning using Three-parameter model 3PLM
DOI:
https://doi.org/10.53285/artsep.v6i4.2267Keywords:
Three-Parameter Logistic Model (3PLM), Differential Item Functioning, Fit Statistic, Maximum Information, Standard Error in Estimating Item DifficultyAbstract
The study aimed to investigate the effect of fit statistics, maximum information, and standard error (SE) in estimating item difficulty using three-parameter logistic model (3PLM) on differential item functioning (DIF) through the Likelihood-Ratio method within Item Response Theory (IRT). A descriptive-analytical correlational approach was used. A sample of 2,245 secondary school students in Yemen was selected randomly. The sample was assessed through third edition of Cattell Intelligence Test, Form (A). The assumptions of IRT were verified, and item parameters were extracted using the 3PLM model in the Xcalibre software. DIF statistics were calculated using Likelihood-Ratio method in IRTLRDIF software. Eta correlation coefficients and binary logistic regression were analyzed using SPSS V24.The study revealed statistically significant relationships at the .01 and .05 levels between DIF indicators and the study variables using the 3PLM model, with correlation coefficients of .316, .351, and .201, indicating weak to moderate positive correlations. The variable of maximum item information showed predictive ability for DIF, whereas fit statistic and standard error in estimating item difficulty did not prove predictive ability for DIF using the Likelihood-Ratio method within IRT.
References
أولاً: المراجع العربية:
بني عطا، زايد صالح إبراهيم (2018). أثر القيم المتطرفة على الأداء التفاضلي لفقرات اختبار الرياضيات في الدراسة الدولية تيمس تبعاً لمتغير الجنس، العلوم التربوية، 45، 157-176.
بيكر، فرانك (2010). أسس نظرية الاستجابة للفقرة. (الطريري، عبد الرحمن؛ أبو هاشم، السيد؛ شلبي، سوسن، مترجمون) دار جامعة الملك سعود للنشر (الكتاب الأصلي منشور Baker, B 2001).
تيغزة، أمحمد بوزيان (2009). نظرية الصدق الحديثة ومتضمناتها التطويرية لواقع القياس، ندوة علم النفس والتنمية الفردية والمجتمعية، جامعة الملك سعود 1430ه.
أبو حطب، فؤاد عبد اللطيف؛ صادق، آمال مختار (2005). اختبار كاتل للعامل العام، مقياس الذكاء المتحرر من أثر الثقافة "المقياس الثالث الصورة (أ). مكتبة الأنجلو المصرية.
دي إيالا، أر جي (2017). النظرية والتطبيق في نظرية الاستجابة للفقرة. (الكيلاني، عبد الله؛ البرصان، إسماعيل، المترجمان). دار جامعة الملك سعود للنشر (الكتاب الأصلي منشور. Ayala, 2009) )
صالح، عامر مهدي. (2022). أثر حجم العينة في الأداء التفاضلي للمفردة على وفق أنموذج ثلاثي المعلم. مجلة الجامعة العراقية، 55 (3)، 564-580.
ضعضع، هبة عبد اللطيف. (2023). أثر اختلاف نموذج الاستجابة للفقرة (1PL,2PL,3PL) في الإداء التفاضلي للفقرة. مجلة الاستاذ للعلوم الانسانية والاجتماعية. 62(1)، 23-45.
العبد الله، زياد أحمد. (2022). أثر حجم العينة في الأداء التفاضلي للفقرة وفقا لنظرية الاستجابة للفقرة. مجلة البحوث التربوية والنفسية، 19(72)، 119-143.
عبد الوهاب، محمد محمود (2014). الكشف عن الأداء التفاضلي على فقرات مقياس أساليب المعاملة الوالدية بين الآباء والأمهات وبين الأبناء من الجنسين. دراسات عربية في التربية وعلم النفس، 45(4)، 155-178.
أبو علام، رجاء محمود. (2011). مناهج البحث في العلوم النفسية والتربوية، دار النشر للجامعات.
علي، سعدي أحمد وعيال، ياسين حميد. (2021). تأثير اختلاف مستوى القدرة في الأداء التفاضلي وفقاً للأنموذج ثنائي المعلم لنظرية الاستجابة للفقرة. مجلة الآداب،1(138)، 137-162.
قيلي ح. (2020). التنبؤ العلمي. مجلة الحكمة للدراسات الفلسفية، 8(2)، 70-87.
كروكر، والجينا (2017). مدخل إلى نظرية القياس التقليدية والمعاصرة (الحموري، هند؛ دعنا، زينات، المترجمتان). دار الفكر ناشرون وموزعون، ط1، (الكتاب الأصلي منشور (Crocker, L., & Algina, J, 1986) .
المحروقية، زينب بنت محمد بن حمود، عمارة، إيهاب محمد نجيب، وابن كاظم علي بن مهدي. (2024) الأداء التفاضلي لمفردات اختبار الرياضيات للصفين الرابع والثامن في الدراسة الدولية TIMSS 2019 تبعاً المتغير الجنس في سلطنة عمان (رسالة ماجستير غير منشورة). جامعة السلطان قابوس
مكتب التربية والتعليم بمحافظة ذمار (2019). إحصائيات طلبة المرحلة الثانوية، إدارة الإحصاء.
نتكو، أنثوني؛ بروكهارت، سوزان. (2018). التقويم التربوي للطلبة (ترجمة علي القرني وآخرين)، مكتب التربية العربي لدول الخليج (الكتاب الأصلي منشور (Anthony J.at all, 2007).
النفيعي، عبد الرحمن عبد الله (2008). مقارنة فاعلية عدد من الطرق الإحصائية للكشف عن الأداء
التفاضلي لفقرات الاختبارات وأثر ذلك على الخطأ المعياري من النوع الأول وقوة الاختبار. ] رسالة دكتوراه غير منشورة [. جامعة أم القرى.
Arabic references
Banī ʻAṭā, Zāyid Ṣāliḥ Ibrāhīm (2018). Athar al-Qayyim al-mutaṭarrifah ʻalá al-adāʼ altfāḍly lfqrāt ikhtibār al-riyāḍīyāt fī al-dirāsah al-Dawlīyah tyms tbʻan lmtghyr al-jins, al-ʻUlūm al-Tarbawīyah, 45, 157-176.
Bīkar, Frānk (2010). Usus Naẓarīyat al-istijābah llfqrh. (al-Ṭurayrī, ʻAbd al-Raḥmān ; Abū Hāshim, al-Sayyid ; Shalabī, Sawsan, mtrjmwn) Dār Jāmiʻat al-Malik Saʻūd lil-Nashr (al-Kitāb al-aṣlī manshūr Baker, B 2001).
Tyghzh, Amḥammad Būziyān (2009). Naẓarīyat al-ṣidq al-ḥadīthah wmtḍmnāthā al-taṭwīrīyah li-wāqiʻ al-qiyās, Nadwat ʻilm al-nafs wa-al-tanmiyah al-fardīyah wa-al-mujtamaʻīyah, Jāmiʻat al-Malik Saʻūd, al-Riyāḍ..
Abū Ḥaṭab, Fuʼād ʻAbd al-Laṭīf ; Ṣādiq, Āmāl Mukhtār (2005). ikhtibār kātl lil-ʻāmil al-ʻāmm, miqyās al-dhakāʼ almtḥrr min Athar al-Thaqāfah "al-miqyās al-thālith al-Ṣūrah (U)" ", Maktabat al-Anjlū al-Miṣrīyah.
Dī iyālā, ar Jī (2017). al-naẓarīyah wa-al-taṭbīq fī Naẓarīyat al-istijābah llfqrh. (al-Kīlānī, ʻAbd Allāh ; al-Burṣān, Ismāʻīl, almtrjmān). Dār Jāmiʻat al-Malik Saʻūd lil-Nashr (al-Kitāb al-aṣlī manshūr. Ayala, 2009)
Ṣāliḥ, ʻĀmir Mahdī. (2022). Athar ḥajm al-ʻayyinah fī al-adāʼ altfāḍly llmfrdh ʻalá wafqa Unmūdhaj thulāthī al-Muʻallim. Majallat al-Jāmiʻah al-ʻIrāqīyah, 55 (3), 564-580.
Ḍʻḍʻ, Hibat ʻAbd al-Laṭīf. (2023). Athar ikhtilāf namūdhaj al-istijābah li-L Faqrah (1PL, 2PL, 3PL) fī alʼdāʼ altfāḍly li-L Faqrah. Majallat al-Ustādh lil-ʻUlūm al-Insānīyah wa-al-Ijtimāʻīyah. 62 (1), 23-45.
Al-ʻAbd Allāh, Ziyād Aḥmad. (2022). Athar ḥajm al-ʻayyinah fī al-adāʼ altfāḍly li-L Faqrah wafqan li-naẓarīyat al-istijābah llfqrh. Majallat al-Buḥūth al-Tarbawīyah wa-al-nafsīyah. 19 (72), 119-143.
ʻAbd al-Wahhāb, Muḥammad Maḥmūd (2014). al-kashf ʻan al-adāʼ altfāḍly ʻalá fqrāt miqyās Asālīb al-Muʻāmalah al-wālidīyah bayna al-Ābāʼ wa-al-ummahāt wa-bayna al-abnāʼ min al-jinsayn. Dirāsāt ʻArabīyah fī al-Tarbiyah wa-ʻilm al-nafs, 45 (4), 155-178.
Abū ʻAllām, Rajāʼ Maḥmūd. (2011). Manāhij al-Baḥth fī al-ʻUlūm al-nafsīyah wa-al-tarbawīyah, Dār al-Nashr lil-Jāmiʻāt.
ʻAlī, Saʻdī Aḥmad wa-ʻiyāl, Yāsīn Ḥamīd. (2021). Taʼthīr ikhtilāf mustawá al-qudrah fī al-adāʼ altfāḍly wafqan llʼnmwdhj thunāʼī al-Muʻallim li-naẓarīyat al-istijābah llfqrh. Majallat al-Ādāb, 1 (138), 137-162.
Krwkr, wāljynā (2017). madkhal ilá Naẓarīyat al-qiyās al-taqlīdīyah wa-al-muʻāṣarah (al-Ḥammūrī, Hind ; Daʻnā, Zīnāt, almtrjmtān). Dār al-Fikr Nāshirūn wa-Muwazziʻūn, Ṭ1, (al-Kitāb al-aṣlī manshūr Crocker, L., & Algina, J, 1986).
Almḥrwqyh, Zaynab bint Muḥammad ibn Ḥammūd, ʻImārah, Īhāb Muḥammad Najīb, wa-Ibn Kāẓim ʻAlī ibn Mahdī. (2024) al-adāʼ altfāḍly li-mufradāt ikhtibār al-riyāḍīyāt llṣfyn al-rābiʻ wa-al-thāmin fī al-dirāsah al-Dawlīyah TIMSS 2019 tbʻan al-mutaghayyir al-jins fī Salṭanat ʻAmmān (Risālat mājistīr ghayr manshūrah). Jāmiʻat al-Sulṭān Qābūs
Maktab al-Tarbiyah wa-al-taʻlīm bi-Muḥāfaẓat Dhamār (2019). iḥṣāʼīyāt ṭalabat al-marḥalah al-thānawīyah, Idārat al-Iḥṣāʼ.
Ntkw, anthwny ; brwkhārt, Sūzān. (2012). al-Taqwīm al-tarbawī lil-Ṭalabah (tarjamat ʻAlī al-Quranī wa-ākharīn), Maktab al-Tarbiyah al-ʻArabī li-Duwal al-Khalīj (al-Kitāb al-aṣlī manshūr (Anthony J. at all, 2007).
Al-Nufayʻī, ʻAbd al-Raḥmān ʻAbd Allāh (2008). muqāranah fāʻilīyat ʻadad min al-ṭuruq al-iḥṣāʼīyah lil-kashf ʻan al-adāʼ Altfāḍly lfqrāt al-ikhtibārāt wa-athar dhālika ʻalá al-khaṭaʼ al-miʻyārī min al-nawʻ al-Awwal wa-qūwat al-ikhtibār. [Risālat duktūrāh ghayr manshūrah]. Jāmiʻat Umm al-Qurá.
ثانياً: المراجع الأجنبية:
American Educational Research Association, American Psychological Association & National Council on Measurement in Education. (2014). Standards for educational and psychological testing. American Psychological Association.
Cains, J.;Bridglall, B.;& Chatterji,M. (2014).Understanding validity and fairness issues in high-stakes individual testing situations. Quality Assurance in Education ,22(1),5-18.
Camili, G & Shepard, L.A.(1994). Methods for identifying biased test items. Thousand Oaks, CA: Sage Publication
Edward, H. (2010). Interpretation of the Three-Parameter Testlet Response Model and Information Function. Applied Psychological Measurement, 34 (7): pp467-482. https://doi.org/10.1177/0146621610364975
Ellis, B. B., & Raju, N. S. (2004). Test and item bias: what they are, what aren’t, and how to detect them: measuring up. In J. Wall and G. Walz (Eds.), Measuring Up: Assessment Issues for Teachers, Counselors, and Administrators (pp. 89-98). Greensboro: CAPS Press.
Greer, T. G. (2004). Detection of diff erential item functioning (DIF) on the SATV: Acomparison of four methods: Mantel-Haenszel, logistic regression, simultaneous item bias and likelihood ratio test. Unpublished doctoral dissertation, University of Houston.
Gruijter, D. and Kamp, L. (2005). Statistical Test Theory for Education and Psychology, Retrieved December 30, 2005.
Hambleton R., Jones, R. (1993), Comparison of classical test theory and item response theory and their applications to test development, NCME items: The Instructional topics in educational measurement series, Educational Measurement: Issues and Practice, Module 16.
Hambleton, R. & Murray. L. (1983). Some goodness of fit investigations for response models. In R.K. Hambleton (ED.), Applications of item response theory (PP. 71-94). Vancouver, British Columbia.
Hambleton, R., & Swaminathan, H. (1985). Item response theory, principles and applications. Kluwer -Nijhoff, USA.
Hambleton, R., Swaminathan, H. (2010). Item Response Theory. Principles and Application. Boston: Kluwer-Nigh off Publishing.
Hambleton, R., Swaminthan, H., & Rogers, J. (1991). Fundamentals of item response theory. Newbury park: Sage publications.
Karami, H. (2011). Detecting Gender Bias in A Language Proficiency Test. International Journal of Language Studies, 5:2,27-38.
Lai, H., & Krishnan, V. (2013). Applications of Differential Item Functioning (DIF) and Natural Language Processing (NLP) on Alberta’s Early Child Development Instrument (EDI) data, Early Childhood Mapping (ECMap) Project, Community-University Partnership (CUP), Faculty of Extension, University of Alberta, Edmonton, Alberta, Canada.
Lord, F. (1980). Application of Item Response Theory to Practical Testing Problems. NJ: Lawrence Erlbaum. Google Scholar
Maller, S. J. (2003). Best practices in detecting bias in nonverbal tests. In Handbook of nonverbal assessment (pp. 23-47). Boston, MA: Springer US.
McDonald, R. P. (1978). Generalizability in factorable domains: Domain validity and generalizability. Educational and Psychological Measurement, 38, 75–79.
McDonald, R. P. (1999). Test theory: A unified treatment. Mahwah, NJ: Lawrence Erlbaum.
Petersen,M.A Groenvold, M, Bjorner, J.B, Aaronson, N, Conroy, T, Cull, A, Fayers, P, Hjermstad, M, Sprangers, M and Sullivan, M, (2003). Use of differential item functioning analysis to assess the equivalence of translations of a questionnaire. Quality of Life Research 12: 373–385.
Raju, N. S. (1988). The area between two item characteristic curves. Psychometrika, 53(4), 495-502. https://doi.org/10.1007/BF02294403
Reise, S. P., & Waller (1990). Fitting the two-parameter model to personality data. Applied Psychological Measurement, 14, 45—58
Rose, B. Bjorner, J. Becker, F. Friesc, E. (2008). Evaluation of A Preliminary Physical Function Item Bank Supported the Expected Advantages of the Patient-Reported Outcomes Measurement Information System (Promise), Journal of clinical Epidemiology, 61, 17–33. https://doi.org/10.1016/j.jclinepi.2006.06.025
Roussos, L. A., & Stout, W. F. (1996). Simulation studies of the effects of small sample size and studied item parameters on SIBTEST and Mantel-Haenszel Type I error performance. Journal of Educational Measurement, 33(2), 215–230. https://doi.org/10.1111/j.1745-3984.1996.tb00490.x
Samejima, F. (1969). Estimation of ability using a response pattern of graded scores. Psychometrika Monograph, 17
Samejima, F. (1997). Graded response model. In W. J. van der Linden & R. K. Hambleton (Eds.), Handbook of modern item response theory. 85–100. New York: Springer.
Siang C. & Fritz D.(2006). How Big Is Big Enough? Sample Size Requirements for CAST Item Parameter Estimation, Applied Psychological Measurement, 19(3):pp 241- 255.
Sideridis, g and Tsaousis, I, (2013a). DIF Analysis for Item and Test on the NCA Tests The General Ability Test (GAT) Art Major. National Center for Assessment in Higher Education. TR035-2013.
Stevens, J.P. (2009). Applied multivariate statistics for the social sciences. New York: Taylor & Francis.
Thissen, D. (2001). IRTLRDIF v.2.0b: Software for the computation of the statistics involved in item response theory likelihood-ratio tests for differential item functioning. University of North Carolina at Chapel Hill.
Warm, A. (1978). A primer of Item Response Theory: US. Coast Guard Institute Oklahoma, 73/69.
Wiberg, M. (2007). Measuring and detecting differential item functioning in criterion-referenced licensing test: A theoretic comparison of methods. EM No 60. Retreived August 20, 2017. from.www.edusci.umuse/digitalAssets/159/59534-emno -60.
Downloads
Published
How to Cite
Issue
Section
License
This work is licensed under a Creative Commons Attribution 4.0 International License.
Copyright and Licensing
copyright is retained by the authors. Articles are licensed under an open access Creative Commons CC BY 4.0 license, meaning that anyone may download and read the paper for free. In addition, the article may be reused and quoted provided that the original published version is cited. These conditions allow for maximum use and exposure of the work.