booksshare.net -> Добавить материал -> Педагогика -> Челышкова М.Б. -> "Теория и практика конструирования педагогических тестов" -> 145

Теория и практика конструирования педагогических тестов - Челышкова М.Б.

Челышкова М.Б. Теория и практика конструирования педагогических тестов — M.: Логос, 2002. — 432 c.
ISBN 5-94010-143-7
Скачать (прямая ссылка): teoripraktika2002.djvu

Предыдущая << 1 .. 139 140 141 142 143 144 < 145 > 146 147 148 149 150 151 .. 154 >> Следующая

Совсем иначе обстоит дело в случае В, когда основная часть заданий расположена на оси логитов именно там, где находится множество параметра G для тестируемой группы учеников. В последнем случае тест явно удался, так как по подбору трудности заданий рассчитан на тестируемую группу.
Так как матрица тестовых результатов дает наблюдаемые, сырые значения тестовых баллов, а не оценки латентных параметров испытуемых и заданий в логитах, то необходимы специальные алгоритмы вычисления параметров G и ?, подобные тем, которые были подробно рассмотрены в гл. 5.
Условно процесс шкалирования можно подразделить на три этапа. Первый предполагает построение шкалы логитов уровня знаний, второй — шкалы логитов трудности заданий и третий этап позволяет свести две шкалы в общую шкалу стандартных оценок для уровня подготовки испытуемых и трудности заданий теста.
409
GUNPOWDER
Процедура построения шкалы латентных переменных связана с процедурой шкалирования по Гуттману [47], когда задания отбираются в порядке нарастания их трудности по определенным, тщательно структурированным элементам содержания дисциплины. При
Случай А
X
а z
>»
а
с
о X
о о
X
• • •
?, ?2 ?3 ?5 ?4 ?5 e, ?6 e2
Случай Б
O3 e4 Є5 в6 ?7 G7 ?g B8 0(?)
X
а as
>>
I-
3
C O
ас о
а
X
в, в2 B3 G4 G5 G6 ?, G7 ?2 G8 ?3 ?5 ?4 ?5 ?6 ?8 G7
6(?)
X
a z
а> 3
С
а
X
о а
X
Случай В
410
?, Є, ?2 ?3 е2 ?5 B3 ?4 Є
?5?6 O5
o6 ?se7 0S ?7 o(?)
Рис. 7.4. Визуальная оценка эффективности теста
GUNPOWDER
этом предполагается, что любой испытуемый с правильной структурой знаний, справившийся с каким-либо заданием, можетуспеш-но выполнить все предыдущие, более легкие задания теста. Это предположение чаще всего не выполняется, как правило, по причине неудачно сделанного теста. Если тест разработан профессионально, то каждый профиль ответов испытуемого будет характеризовать ту или иную структуру знаний испытуемого и в совокупности с тестовым баллом определять качество его знаний. Это обстоятельство делает чрезвычайно привлекательной шкалу Гуттмана для педагогов, хотя ее довольно редко удается реализовать в практике.
Шкалирование по алгоритмам IRT в определенной степени преодолевает трудности построения шкалы Гуттмана, поскольку является ее вероятностной версией и отражает вероятностную сущность тестовых процессов. Согласно модели Г. Раша, о правильном выполнении любого задания /*-м испытуемым можно говорить лишь с некоторой вероятностью и прогнозировать успешность лишь в том случае, если эта вероятность больше 0,5.
Единая шкала, содержащая новые единицы измерения, называемые логитами, позволяет реализовать преимущества математических моделей теории IRT. Первое преимущество вытекает из стандартизованного характера оценок параметров испытуемых и заданий в шкале логитов. Как и любые стандартизованные величины, оценки латентных параметров представляют собой результат преобразования исходных сырых оценок разного происхождения в единую интервальную шкалу. Это дает возможность объективного сравнения достижений испытуемых по различным предметам, что, конечно, особенно важно в процессе экзаменов.
Второе преимущество связано с введением единицы измерения, позволяющей измерять в единой шкале уровень подготовки испытуемых и трудность заданий теста. В отличие от стандартных шкал (типа Z-шкалы, Г-шкалы и им подобных) шкала латентных переменных является интервальной. Равные приращения сырых баллов испытуемых не соответствуют равным приращениям шкалированных оценок латентных параметров, зато последние разности приобретают вполне интерпретируемый смысл, поскольку их можно считать мерой отличия уровня подготовки испытуемых по предмету.
Третье преимущество вытекает из специфических особенностей математических моделей, используемых для оценок латентных параметров испытуемых и заданий. Получаемые с их помощью статистические оценки параметров обладают относительной независимостью друг от друга, хотя ряд авторов (Лорд (Lord), Чопин (Chopin) [11]) считают такое утверждение явным преувеличением.
411
GUNPOWDER
Возможна эмпирическая проверка этого утверждения, которая должна быть разбита на два этапа. Первый этап — проверка независимости оценок латентного параметра трудности заданий от уровня подготовленности тестируемой выборки — включает ряд шагов. В результате их выполнения удается отобрать задания, удовлетворяющие выдвинутому предположению о существовании такой независимости.
Второй этап, гораздо более важный, посвящен проверке инвариантности оценок латентного параметра испытуемых относительно различных наборов заданий, отобранных на первом этапе, и состоит из нескольких шагов. На первом шаге все задания, прошедшие проверку, делятся на две группы: одна содержит самые легкие, а другая — наиболее трудные задания теста. На втором шаге вычисляются оценки латентных параметров испытуемых по каждой из двух групп заданий и связанные с ними стандартные ошибки измерения. Если задания удовлетворяют требованиям моделей латентно-структурного анализа и прошли первый этап, то с точки зрения теории оценки параметра испытуемых в пределах стандартной погрешности должны быть примерно одинаковыми как по группе самых легких, так и по группе самых трудных заданий теста. Однако на практике это выполняется далеко не всегда.

Предыдущая << 1 .. 139 140 141 142 143 144 < 145 > 146 147 148 149 150 151 .. 154 >> Следующая