booksshare.net -> Добавить материал -> Педагогика -> Челышкова М.Б. -> "Теория и практика конструирования педагогических тестов" -> 144

Теория и практика конструирования педагогических тестов - Челышкова М.Б.

Челышкова М.Б. Теория и практика конструирования педагогических тестов — M.: Логос, 2002. — 432 c.
ISBN 5-94010-143-7
Скачать (прямая ссылка): teoripraktika2002.djvu

Предыдущая << 1 .. 138 139 140 141 142 143 < 144 > 145 146 147 148 149 150 .. 154 >> Следующая

406
GUNPOWDER
дует отдать стандартным показателям, основанным на вычислении отклонения сырых баллов от среднего. Стандартные показатели, подвергнутые линейному преобразованию в единую шкалу с удобными значениями среднего и стандартного отклонения, обеспечивают сравнимость результатов, полученных испытуемыми по различным тестам. Одинаковые стандартные показатели находятся на одинаковом расстоянии от среднего.
Хотелось бы также отметить некоторую терминологическую путаницу, встречающуюся в переводах на русский язык англоязычной литературы по тестовой проблематике. В ряде изданий термины «нормализованные стандартные» оценки и «нормальные стандартизованные» оценки используются как рядоположенные, хотя для этого нет никаких оснований. Вследствие преобразования сырых баллов в Z-шкалу получаются стандартные оценки, которые в отдельных случаях подвергаются нормализации. В то время как термин «нормальные стандартизованные» оценки используется в ряде других случаев, не имеющих отношения к вопросам шкалирования.
При построении шкалы по тесту возникают определенные проблемы, связанные с ее устойчивостью, если тест используется в различное время учебного года либо выполняется испытуемыми различных возрастных групп. Однако и в этих случаях можно предпринять определенные шаги, способствующие повышению устойчивости тестовых шкал. При этом необходимо предположить, что приращение оцениваемого уровня подготовки по предмету происходит равномерно на протяжении всего времени изучения предмета. В качестве таких шагов при конструировании шкалы Торн-дайк предложил следующие [48]:
• получить репрезентативную выборку испытуемых для вычис-ления устойчивых оценок уровня знаний с известными стандартными ошибками измерения;
• предъявить тест выборке подходящего возраста и периода обучения, объединив испытуемых выборки в одинаковые возрастные группы и разбив на трехмесячные подгруппы по периодам обучения;
• определить средний балл для каждой подгруппы, шкалировать результаты;
• интерполировать шкалированные результаты между соседними средними для тех сырых баллов, которые не наблюдались в выборке;
• экстраполировать результаты с учетом минимального и максимального наблюдаемых баллов для установления возможных границ шкалы по тесту;
407
GUNPOWDER
• результаты интерполяции и экстраполяции собрать в таблицу, указывающую шкалированные эквиваленты сырых баллов в различных возрастных подгруппах или с учетом определенного периода обучения.
7.7. Шкала логитов
Зарубежные исследования конца 80-х годов показали плодотворность шкалирования тестовых результатов испытуемых посредством использования математических моделей, разработанных в рамках IRT. Согласно основным положениям IRT, уровень подготовки испытуемых и трудность заданий теста считаются некоторыми латентными параметрами, оценки которых предстоит получить в процессе шкалирования результатов выполнения теста. При этом предполагается, что вероятность правильного ответа определяется значениями двух латентных параметров, один из которых — уровень подготовки испытуемых, а второй — трудность заданий теста. Зависимость между вероятностью правильного ответа и значениями параметров выражается с помощью ряда математических моделей, предполагающих введение единой шкалы как для уровня знаний испытуемых, так и для трудности заданий теста (см. разд. 5.3).
Таким образом, латентные оценки параметров испытуемых и заданий располагаются вдоль одной шкалы логитов. Благодаря этому каждую точку шкалы, соответствующую оценке уровня подготовки испытуемого, можно соотнести с трудностью заданий, лежащих на шкале логитов левее и правее этой точки. Пример подобного соотнесения показан на рис. 7.3.
X
3 ЗЕ
3
с о
X
о
U Ж
G1 ?2 G2 G3 ?3 G4 G5 ?4 G6 ?5 G7 G8 ?7 ?8
Шкала логитов Рис. 7.3. Графическая интерпретация распределения
408
GUIMPO
Точками P1, ?2,... на шкале логитов отмечены значения, соответствующие трудности теста, причем P1 < ?2 < ?3 <••, т. е. задания расположены по нарастанию трудности на всем протяжении теста. Точки G1, G2,... соответствуют уровням подготовки подгрупп испытуемых, а высота столбиков пропорциональна количеству испытуемых, обладающих одинаковым уровнем подготовки в каждой подгруппе.
Расположение значений параметров G и ? на одной оси позволяет провести интересную геометрическую интерпретацию. Любой испытуемый группы в состоянии выполнить с вероятностью больше 0,5 все задания, лежащие на оси левее точки, соответствующей оценке его уровня подготовки. И наоборот, вероятность правильного выполнения всех заданий, расположенных правее этой точки, меньше 0,5. Например, три испытуемых с уровнем подготовки G6 наверняка смогут выполнить верно 1-е, 2-е и 3-е задания теста. Вероятность правильного выполнения 4-го задания для трех испытуемых этой подгруппы немногим больше 0,5. А вот задания с трудностью ?7 и ?8 для этих трех учеников явно слишком сложные.
Как следует из результатов разд. 5.3, наиболее эффективными для тестирования испытуемых с уровнем подготовки G являются задания с трудностью ? « G. Опираясь на это правило подбора заданий в тест, удобно визуально с помощью рисунка оценить эффективность создаваемого теста. В том случае, когда большая часть заданий теста расположена на шкале логитов значительно левее или правее множества значений 0, как, например, в случаях А и Б, рис. 7.4, тест не годится для оценки знаний рассматриваемого контингента учеников.

Предыдущая << 1 .. 138 139 140 141 142 143 < 144 > 145 146 147 148 149 150 .. 154 >> Следующая