Биографии

Математические основы теории конструирования тестов. Теоретические основы тестирования. Основные понятия теории тестов

Первый компонент, теория тестов, содержит описание статистических моделей обработки диагностических дан­ных. Здесь содержатся модели анализа ответов в тестовых заданиях и модели подсчета суммарных результатов теста. Мелленберг (1980, 1990) назвал это «психометрией». Клас­сическая теория тестов, современная теория тестов (или модель анализа ответов на задания тестов - IRT) и модель


выборки заданий составляют три наиболее важных типа моделей теории тестов. Предметом рассмотрения психоди­агностики являются первые две модели.

Классическая теория тестов. На основе этой теории раз­работано большинство интеллектуальных и личностных те­стов. Центральным понятием этой теории является понятие «надежности». Под надежностью понимается согласован­ность результатов при повторном оценивании. В справоч­ных пособиях это понятие обычно представляется очень кратко, а затем дается подробное описание аппарата мате­матической статистики. В этой, вводной, главе мы предста­вим сжатое описание основного значения отмеченного понятия. В классической теории тестов под надежностью понимается повторяемость результатов нескольких проце­дур измерения (преимущественно измерений при помощи тестов). Понятие надежности предполагает вычисление ошибки измерения. Результаты, полученные в процессе тестирования, могут быть представлены как сумма истин­ного результата и ошибки измерения:

Xi = Ti + Еj

где Xi - оценка полученных результатов, Ti - истин­ный результат, а Еj - ошибка измерения.

Оценка полученных результатов - это, как правило, количество правильных ответов на задания теста. Истин­ный результат можно рассматривать как истинную оценку в платоновском смысле (Gulliksen, 1950). Широко распро­страненным является понятие ожидаемых результатов, т.е. представлений о баллах, которые могут быть получены в результате большого числа повторений процедур измере­ния (Lord & Novich, 1968). Но проведение одной и той же процедуры оценивания с одним человеком не представля­ется возможным. Поэтому необходим поиск других вариан­тов решения проблемы (Witlman, 1988).

В рамках этой концепции делаются некоторые допуще­ния относительно истинных результатов и ошибок измере­ния. Последние принимаются в качестве независимого фактора, что, конечно, является вполне обоснованным предположением, так как случайные колебания результа­тов не дают ковариаций: r ЕЕ =0.

Предполагается, что корреляции между истинными бал­лами и ошибками измерения не существует: r EE =0.


Суммарная ошибка равна 0, т.к. в качестве истинной оценки берется среднее арифметическое значение:

Эти допущения приводят нас в итоге к известному опре­делению надежности как отношения истинного результата к общей дисперсии или выражению: 1 минус отношение, в числителе которого ошибка измерения, а в знаменателе - общая дисперсия:


, ИЛИ

Из этой формулы определения надежности получаем, что дисперсия ошибки S 2 (E) равна общей дисперсии в числе случаев (1 – r XX "); таким образом, стандартная ошибка из­мерения определяется по формуле:

После теоретического обоснования надежности и его производных необходимо определить индекс надежности того или иного теста. Существуют практические процедуры оценивания надежности тестов, такие как использование взаимозаменяемых форм (параллельные тесты), расщепле­ние заданий на две части, повторное тестирование и изме­рение внутренней согласованности. Каждый справочник содержит индексы постоянства тестовых результатов:

r XX ’ =r(x 1 , x 2)

где r XX ’ - коэффициент стабильности, а x 1 и x 2 - результаты двух измерений.

Понятие надежности взаимозаменяемых форм введено и разработано Гулликсеном (1950). Данная процедура до­статочно трудоемка, поскольку связана с необходимостью создания параллельной серии заданий

r XX ’ =r(x 1 , x 2)

где r XX ’ - коэффициент эквивалентности, а x 1 и x 2 - два параллельных теста.

Следующая процедура - расщепление основного теста на две части А и В - более проста в использовании. Пока­затели, полученные по обеим частям теста, коррелируются. С помощью формулы Спирмена-Брауна оценивается на­дежность теста в целом:

где А и В - две параллельные части теста.

Следующий метод - определение внутренней согласо­ванности выполнения заданий теста. Этот метод основан на определении ковариаций отдельных заданий. Sg - диспер­сия произвольно выбранного задания, и Sgh - ковариация двух произвольно выбранных заданий. Наиболее часто ис­пользуемый коэффициент для определения внутренней со­гласованности - это «коэффициент альфа» Кронбаха. Используются также формула КР20 и λ-2 (лямбда-2).

В классической концепции надежности определяются ошибки измерения, возникающие как в процессе тестиро­вания, так и в процессе наблюдений. Источники этих оши­бок различны: это могут быть и личностные особенности, и особенности условий тестирования, и сами тестовые зада­ния. Существуют конкретные методы вычисления ошибок. Мы знаем, что наши наблюдения могут оказаться ошибоч­ными, наши методические инструменты несовершенны так же, как несовершенны и сами люди. (Как не вспомнить Шекспира: «Ненадежен ты, чье имя человек»). То, что в классической теории тестов ошибки измерения эксплици­руются и объясняются, является важным положительным моментом.

Классическая теория тестов имеет ряд существенных особенностей, которые можно рассматривать и как ее недо­статки. Некоторые из этих характеристик отмечаются в справочниках, но их значение (с житейской точки зрения) подчеркивается нечасто, как не отмечается и то, что с тео­ретической или методической точки зрения их следует счи­тать недостатками.

Первое. Классическая теория тестов и понятие надежно­сти ориентированы на подсчет суммарных тестовых пока­зателей, представляющих собой результат сложения оценок, полученных в отдельных заданиях. Так, при работе


Второе. Коэффициент надежности предполагает оценку величины разброса измеряемых показателей. Отсюда сле­дует, что коэффициент надежности будет ниже, если (при равенстве других показателей) выборка является более од­нородной. Не существует единого коэффициента внутрен­ней согласованности заданий теста, этот коэффициент всегда «контекстуален». Крокер и Альджина (1986), напри­мер, предлагают специальную формулу «коррекции для гомогенной выборки», предназначенную для самых высо­ких и самых низких результатов, полученных проходящи­ми тестирование. Для диагноста важно знать характеристики вариаций в выборочной совокупности, иначе он не сможет использовать коэффициенты внутрен­ней согласованности, указанные в руководстве к данному тесту.

Третье. Феномен сведения к показателю среднего ариф­метического является логическим следствием классической концепции надежности. Если оценка в тесте колеблется (т.е. она недостаточно надежна), то вполне возможно, что при повторении процедуры субъекты, имеющие низкие по­казатели, получат более высокие баллы, и наоборот, субъ­екты с высокими показателями - низкие. Этот артефакт процедуры измерения нельзя ошибочно принять за истин­ное изменение или проявление процессов развития. Но в то же время разграничить их нелегко, т.к. никогда нельзя исключить возможность изменения в ходе развития. Для полной уверенности необходимо"сравнение с контрольной группой.

Четвертая характеристика тестов, разработанных в со­ответствии с принципами классической теории,- это на­личие нормативных данных. Знание тестовых норм позволяет исследователю адекватно интерпретировать ре­зультаты тестируемых. Вне норм тестовые оценки лишены смысла. Выработка тестовых норм - это достаточно доро­гостоящее предприятие, поскольку психолог должен пол­учить результаты тестирования на репрезентативной выборке.

2 Я. тер Лаак

Если говорить о недостатках классической концепции надежности, то здесь уместно привести высказывание Сий-тсма (1992, р. 123-125). Он отмечает, что первое и главное предположение классической теории тестов состоит в том, что тестовые результаты подчиняются интервальному принципу. Однако никаких исследований, подтверждаю­щих это предположение, нет. По сути, это «измерение по произвольно установленному правилу». Данная особен­ность ставит классическую теорию тестов в менее выгодное положение по сравнению со шкалами измерения установок и, конечно же, по сравнению с современной теорией тестов. Многие методы анализа данных (дисперсионный анализ. регрессионный анализ, корреляционный и факторный ана­лиз) основаны на допущении существования интервальной шкалы. Однако оно не имеет твердого обоснования. Рас­сматривать шкалу истинных результатов как шкалу значе­ний психологических характеристик (например, арифметических способностей, интеллекта, нейротизма) можно только предположительно.

Второе замечание касается того, что результаты выпол­нения теста - это не абсолютные показатели той или иной психологической характеристики тестируемого, их необхо­димо рассматривать лишь как результаты выполнения того или иного теста. Два теста могут претендовать на изучение одних и тех же психологических характеристик (например, интеллекта, вербальных способностей, экстраверсии), но это не означает, что эти два теста равноценны и обладают одинаковыми возможностями. Сравнение показателей двух людей, прошедших тестирование разными тестами, некорректно. То же относится и к заполнению двух разных тестов одним испытуемым. Третье замечание относится к предположению, что стандартная ошибка измерения оди­накова применительно к любому уровню измеряемых спо­собностей индивида. Однако не существует эмпирической проверки этого предположения. Так, например, нет гаран­тии того, что тестируемый с хорошими математическими способностями при работе с относительно простым арифме­тическим тестом получит высокие баллы. В этом случае высокую оценку скорее получит человек с низкими или средними способностями.

В рамках современной теории тестов или теории анализа ответов в заданиях теста содержится описание большого


количества моделей возможных ответов респондентов. Эти модели различаются положенными в их основу допущени­ями, а также требованиями по отношению к получаемым данным. Модель Раша часто рассматривается в качестве синонима теорий анализа ответов в заданиях теста (1RT). На самом деле это только одна из моделей. Представленная в ней формула для описания характеристической кривой задания g выглядит следующим образом:

где g - отдельное задание теста; ехр - функция экспо­ненты (нелинейная зависимость); δ («дельта») - уровень трудности теста.

Другие задания теста, например h, также получают соб­ственные характеристические кривые. Выполнение условия δ h >δ g (g означает, что h - более трудное задание. Следовательно, для любого значения показателя Θ («тета» - латентные свойства способностей тестируемых) вероят­ность успешного выполнения задания h меньше. Эта модель называется строгой, поскольку очевидно, что при низкой степени выраженности черты вероятность выполнения за­дания близка к нулю. В этой модели нет места угадыванию и предположениям. Для заданий с вариантами выбора нет необходимости делать предположения о вероятности успе­ха. Кроме того, эта модель строга в том смысле, что все задания теста должны иметь одинаковую дискриминатив-ную способность (высокая дискриминативность отражается в крутизне кривой; здесь возможно построение шкалы Гут-тмана, согласно которой в каждой точке характеристиче­ской кривой вероятность выполнения задания меняется от О до 1). Из-за этого условия не все задания могут быть включены в тесты, созданные на основе модели Раша.

Существует несколько вариантов этой модели (напри­мер, Birnbaura, 1968, См. Lord & Novik). Она допускает существование заданий с различной дискриминативной

способностью.

Голландский исследователь Моккен (1971) разработал две модели анализа ответов в заданиях теста, требования которых не так строги, как в модели Раша, и поэтому, возможно, более реалистичны. В качестве основного усло-

вия Моккен выдвигает положение о том, что характеристи­ческая кривая задания должна следовать монотонно, без обрывов. Все задания теста при этом направлены на изуче­ние одной и той же психологической характеристики, из­мерять которую должна в. Допускается любая форма этой зависимости, пока она не прервется. Следовательно, форма характеристической кривой не определяется какой-либо специфической функцией. Такая «свобода» позволяет ис­пользовать больше заданий теста, и уровень оценивания при этом оказывается не выше, чем обычный.

Методология моделей ответов на задания теста (IRT) отличается от методологии большинства эксперименталь­ных и корреляционных исследований. Математическая мо­дель предназначена для изучения поведенческих, когнитивных, эмоциональных характеристик, а также фе­номенов развития. Эти рассматриваемые феномены часто ограничиваются ответами на задания, что позволило Мел-ленбергу (1990) назвать теорию IRT «мини-теорией о ми­ни-поведении». Результаты исследования могут быть в определенной степени представлены как кривые согласо­ванности, особенно в тех случаях, когда теоретические представления об изучаемых характеристиках отсутству­ют. До сих пор в нашем распоряжении имеются лишь еди­ницы тестов интеллекта, способностей и личностных тестов, созданных на основе многочисленных моделей тео­рии IRT. Варианты модели Раша чаще используются при разработке тестов достижений (Verhelst, 1993), а модели Моккена больше подходят для феноменов развития (см. также гл. 6).

Ответ тестируемого на задания теста является основной единицей моделей IRT. Тип ответа определяется степенью выраженности у человека изучаемой характеристики. Та­кой характеристикой могут быть, например, арифметиче­ские или пространственные способности. В большинстве случаев это тот или иной аспект интеллекта, характеристи­ки достижений или личностные особенности. Предполага­ется, что между положением данного конкретного человека в некотором диапазоне изучаемой характеристики и веро­ятностью успешного выполнения того или иного задания существует нелинейная зависимость. Нелинейность этой зависимости в определенном смысле интуитивно понятна. Известные фразы «Всякое начало трудно» (медленный не-


линейный старт) и «Стать святым не так просто», означают что дальнейшее совершенствование после достижения оп­ределенного уровня идет трудно. Кривая медленно прибли­жается, но почти никогда не достигает 100%-го уровня успеха.

Некоторые модели скорее противоречат нашему интуи­тивному пониманию. Возьмем такой пример. Человек с ин­дексом выраженности произвольной характеристики равным 1,5 имеет 60-процентную вероятность успеха при выполнении задания. Это противоречит нашему интуитив­ному пониманию такой ситуации, ведь можно либо успеш­но справиться с заданием, либо не справиться с ним вообще. Возьмем такой пример: 100 раз человек пытается взять высоту 1м 50 см. Успех сопутствует ему 60 раз, т.е. он имеет 60-процентную вероятность успеха.

Для оценки степени выраженности характеристики не­обходимо, по крайней мере, два задания. Модель Раша предполагает определение выраженности характеристик вне зависимости от трудности задания. Это также противо­речит нашему интуитивному пониманию: предположим, что человек имеет 80-процентную вероятность прыгнуть выше 1,30 м. Если это так, то в соответствии с характери­стической кривой заданий он имеет 60-процентную веро­ятность прыгнуть выше 1,50 м и 40-процентную вероятность прыгнуть выше 1,70 м. Следовательно, вне за­висимости от значения независимой переменной (высоты) можно оценить способность человека прыгать в высоту.

Существует около 50 моделей IRT (Goldstein & Wood, 1989).Имеется множество нелинейных функций, описыва­ющих (объясняющих) вероятность успеха в выполнении задания или группы заданий. Требования и ограничения этих моделей различны, и эти различия могут быть обнару­жены при сопоставлении модели Раша и шкалы Моккена. К требованиям этих моделей можно отнести:

1) необходимость определения исследуемой характеристи­ки и оценку позиции человека в диапазоне этой черты;

2) оценку последовательности заданий;

3) проверку конкретных моделей. В психометрии разрабо­тано множество процедур для проверки модели.

В некоторых справочных пособиях теория IRT рассмат­ривается как форма анализа заданий теста (см., например,

Croker& Algina, J 986). Можно, однако, отстаивать ту точку зрения, что теория IRT - это «мини-теория о мини-пове­дении». Сторонники теории IRT замечают, что если-несо­вершенны концепции (модели) среднего уровня, то что же можно сказать о более сложных конструктах в психологии?

Классическая и современная теории тестов. Люди не мо­гут не сравнивать вещи, которые выглядят почти одинако­во. (Возможно, житейский эквивалент психометрии и состоит, главным образом, в сравнении людей по значимым характеристикам и выборе между ними). Каждая из пред­ставленных теорий - и теория измерения ошибок оцени­вания, и математическая модель ответов на задания теста - имеет своих сторонников (Goldstein & Wood, 1986).

Модели IRT не вызывают упреков в том, что это «оцени­вание по правилам», в отличие от классической теории те­стов. Модель IRT ориентирована на анализ оцениваемых характеристик. Характеристики личности и характеристи­ки заданий оцениваются с помощью шкал (порядковых или интервальных). Более того, возможно сопоставление пока­зателей выполнения разных тестов, направленных на изу­чение сходных характеристик. Наконец, надежность неодинакова для каждого значения на шкале, а средние показатели обычно являются более надежными, чем пока­затели, расположенные в начале и в конце шкалы. Таким образом, модели IRT в теоретическом отношении представ­ляются более совершенными. Существует и различия в практическом использовании современной теории тестов и классической теории (Sijstma, 1992, стр. 127-130). Совре­менная теория тестов более сложна по сравнению с класси­ческой, поэтому она реже используется неспециалистами. Более того, IRT предъявляет особые требования к задани­ям. Это означает, что задания должны быть исключены из теста, если они не удовлетворяют требованиям модели. Данное правило относится далее к тем заданиям, которые входили в состав широко используемых тестов, построен­ных по принципам классической теории. Тест становится короче, и, следовательно, надежность его снижается.

IRT предлагает математические модели для изучения реальных феноменов. Модели должны помочь нам понять ключевые аспекты этих феноменов. Однако здесь кроется основной теоретический вопрос. Модели можно рассматри-


ватькак подход к изучению сложной реальности, в которой мы живем. Но модель и реальность - не одно и то же. Согласно пессимистическому взгляду, возможно моделиро­вание лишь единичных (и притом не самых интересных) типов поведения. Также можно встретить утверждение, что реальность вообще не подлежит моделированию, т.к. она подчиняется не одним лишь причинно-следственным зако­нам. В лучшем случае возможно моделирование отдельных (идеальных) поведенческих феноменов. Существует и дру­гой, более оптимистичный, взгляд на возможности модели-рования. Приведенная выше позиция блокирует возможность глубокого постижения природы феноменов человеческого поведения. Применение той или иной моде­ли поднимает некоторые обшие, фундаментальные вопро­сы. На наш взгляд, не подлежит сомнению, что IRT является концепцией теоретически и технически превосхо­дящей классическую теорию тестов.

Практическим назначением тестов, на какой бы теоре­тической основе они не создавались, является определение значимых критериев и установление на их основе характе­ристик тех или иных психологических конструктов. Имеет ли модель IRT преимущества и в этом отношении? Вполне возможно, что тесты, созданные на основе этой модели, не дают более точного прогноза по сравнению с тестами, со­зданными на основе классической теории, и возможно, что их вклад в разработку психологических конструктов не яв­ляется более весомым. Диагносты предпочитают такие кри­терии, которые непосредственно относятся к отдельному человеку, институту или сообществу. Модель, более совер­шенная в научном отношении, «ipso facto»* не определяет более подходящий критерий и в определенной степени ог­раничена в объяснении научных конструктов. Очевидно, что разработка тестов на основе классической теории будет продолжаться, но вместе с тем будут создаваться и новые модели IRT, распространяющиеся на изучение большего числа психологических феноменов.

В классической теории тестов различаются понятия «на­дежности» и «валидности». Тестовхяе результаты должны быть надежны, т.е. результаты первоначального и повтор­ного тестировании должны согласовываться. Кроме того,

* ipso facto (лак) - сама по себе (прим. перев.).

результаты должны быть свободны (насколько это возмож­но) от ошибок оценивания. Наличие валидности - одно из требований, предъявляемых к полученным результатам. При этом надежность рассматривается как необходимое, но еще не достаточное условие валидности теста.

Понятие валидности предполагает, что полученные ре­зультаты относятся к чему-либо важному в практическом или теоретическом отношении. Выводы, сделанные на ос­нове тестовых оценок, должны быть валидными. Наиболее часто говорят о двух видах валидности: прогностической (критериальной) и конструктной. Существуют также и другие виды валидности (см. гл. 3). Кроме того, валидность может быть определена и в случае квазиэкспериментов (Cook & Campbell, 1976, Cook & Shadish, 1994). Однако основным видом валидности все же является прогностиче­ская валидность, под которой понимается возможность предсказывать по тестовому результату нечто существен­ное о поведении в будущем, а также возможность более глубокого понимания того или иного психологического свойства или качества.

Представленные типы валидности обсуждаются в каж­дом справочнике и сопровождаются описанием методов анализа валидности теста. Факторный анализ более подхо­дит для определения конструктной валидизации, а уравне­ния линейной регрессии используются для анализа прогностической валидности. Те или иные характеристики (успеваемость, эффективность терапии) могут быть пред­сказаны на основе одного или нескольких показателей, пол-ученных при работе с интеллектуальными или личностными тестами. Такие техники обработки данных, как корреляционный, регрессионный, дисперсионный ана­лиз, анализ частичных корреляций и дисперсий, служат для определения прогностической валидности теста.

Также часто описывается содержательная валидность. Предполагается, что все задачи и задания теста должны принадлежать специфической области (психических свойств, поведения и т.д.). Понятие содержательной валид­ности характеризует соответствие каждого задания теста измеряемой области. Содержательная валидность иногда рассматривается как часть надежности или «обобщаемость» (Cronbach, Gleser, Nanda & Rajaratnam, 1972). Однако при


выборе заданий для тестов достижений в конкретной пред­метной области важно также обращать внимание на прави­ла включения заданий в тест.

В классической теории тестов надежность и валидность рассматриваются относительно независимо друг от друга. Но существует и другое понимание соотношения этих по­нятий. Современная теория тестов основывается на приме­нении моделей. Параметры оцениваются внутри некоторой модели. Если задание не соответствует требованиям моде­ли, то в рамках этой модели оно признается невалидным. Конструктная валидизации представляет собой часть про­верки самой модели. Эта валидизации относится главным образом к проверке существования одномерной латентной исследуемой черты с известными шкальными характери­стиками. Шкальные оценки, несомненно, могут быть ис­пользованы для определения соответствующих критериев, и возможна их корреляция с показателями других конст­руктов для сбора информации о конвергентной и диверген­тной валидности конструкта.

Психодиагностика аналогична языку, описываемому как единство четырех компонентов, представленных на трех уровнях. Первый компонент, теория тестов, аналогичен синтаксису, грамматике языка. Порождающая (генератив­ная) грамматика - это, с одной стороны, остроумная мо­дель, с другой - система, подчиняющаяся правилам. С помощью этих правил на основе простых утвердительных предложений строятся сложные. При этом, однако, данная модель оставляет в стороне описание того, как организован процесс коммуникации (что передается и что воспринима­ется), и с какими целями он осуществляется. Для понима­ния этого требуются дополнительные знания. То же можно сказать и о теории тестов: она является необходимой в пси­ходиагностике, но она не способна объяснить, что психоди­агност делает и каковы его цели.

1.3.2. Психологические теории и психологические конструкты

Психодиагностика - это всегда диагностика чего-то конкретного: личностных характеристик, поведения, мыш­ления, эмоций. Тесты предназначены оценивать индивиду­альные различия. Существует несколько концепций

индивидуальных различий, каждая из которых имеет свои отличительные особенности. Если признается, что психо­диагностика не ограничивается только оценкой индивиду­альных различий, то тогда и другие теории приобретают существенное значение для психодиагностики. Примером является оценка различий процессов психического разви­тия и различий в социальном окружении. Хотя оценка ин­дивидуальных различий не является непременным атрибутом психодиагностики, тем не менее существуют оп­ределенные традиции исследования в этой области. Психо­диагностика начиналась с оценки различий интеллекта. Основной задачей тестов было «определение наследствен­ной передачи гениальности» (Gallon) или отбор детей для обучения (Binet, Simon). Измерение коэффициента интел­лектуальности получило теоретическое осмысление и прак-тическую разработку в трудах Спирмена (Великобритания) и Терстоуна (США). Раймонд Б.Кеттел сделал подобное для оценки личностных характеристик. Психодиагностика становится неразрывно связанной с тео­риями и представлениями об индивидуальных различиях в достижениях (оценка предельных возможностей) и формах поведения (уровень типичного функционирования). Эта традиция продолжает оставаться эффективной и сегодня. В учебных пособиях по психодиагностике гораздо реже оце­ниваются различия в социальном окружении по сравнению с рассмотрением особенностей самих процессов развития. Для этого не существует каких-либо разумных объяснений. С одной стороны, диагностика не ограничивается опреде­ленными теориями и понятиями. С другой стороны, она нуждается в теориях, поскольку именно в них определяется диагностируемое содержание (т.е. «что» диагностируется). Так, например, интеллект может рассматриваться и как общая характеристика, и как основание для множества не­зависимых друг от друга способностей. Если психодиагно­стика пытается «уйти» от той или иной теории, то тогда основой психодиагностического процесса становятся пред­ставления здравого смысла. В исследованиях применяются различные способы анализа данных, и общая логика иссле­дований определяет выбор той или иной математической модели и определяет структуру используемых психологи­ческих понятий. Такие методы математической статисти-


ки, как дисперсионный анализ, регрессионный анализ, факторный анализ, подсчет корреляций предполагают су­ществование линейных зависимостей. В случае некоррект­ного применения этих методов они «привносят» свою структуру в полученные данные и используемые конструк­ты.

Представления о различиях в социальном окружении и о развитии личности почти не оказали влияния на психоди­агностику. В учебных пособиях (см., например, Murphy & Davidshofer, 1988) рассматривается классическая теория тестов и обсуждаются соответствующие методы статисти­ческой обработки, описываются известные тесты, рассмат­риваются вопросы использования психодиагностики в практике: в психологии управления, при отборе персонала, при оценке психологических характеристик человека.

Теории индивидуальных различий (а также представле­ния о различиях между социальным окружением и о психи­ческом развитии) аналогичны изучению семантики языка. Это изучение и сущности, и содержания, и значения. Зна­чения структурируются определенным образом (подобно психологическим конструктам), например, по сходству или контрасту (аналогия, конвергенция, дивергенция).

1.3.3. Психологические тесты и другие методические средства

Третий компонент предложенной схемы - тесты, про­цедуры и методические средства, с помощью которых про­исходит сбор информации о характеристиках личности. Дрене и Сийтсма (1990, стр. 31) дают следующее определе­ние тестам: «Психологический тест рассматривается как классификация согласно определенной системе или как процедура измерения, которая позволяет вынести опреде­ленное суждение об одной или нескольких эмпирически выделенных или теоретически обоснованных характери­стиках конкретной стороны поведения человека (за рамка­ми тестовой ситуации). При этом рассматривается реакция респондентов на определенное число тщательно подобран­ных стимулов, а полученные ответы сравниваются с тесто­выми нормами».

Диагностике необходимы тесты и методики для сбора надежной, точной и валидной информации об особенностях

и характерных чертах личности, о мышлении, эмоциях и поведении человека. Помимо разработки тестовых проце­дур в этот компонент входят также следующие вопросы: как создаются тесты, как формулируются и отбираются зада­ния, как протекает процесс тестирования, каковы требова­ния к условиям проведения тестирования, как учитываются ошибки измерения, как подсчитываются и интерпретиру­ются тестовые результаты.

В процессе разработки тестов различаются рациональ­ная и эмпирическая стратегии. Применение рациональной стратегии начинается с определения основных понятий (на­пример, понятия интеллекта, экстраверсии), и в соответст­вии с этими представлениями формулируются задания теста. Примером такой стратегии может служить концеп­ция аспектного анализа (the facet theory) Гуттмана (1957, 1968, 1978). Сначала определяются различные аспекты ос­новных конструктов, затем подбираются задачи и задания таким образом, чтобы был учтен каждый из этих аспектов. Вторая стратегия состоит в том, что задания подбираются на эмпирической основе. Например, если исследователь попытается создать тест профессиональных интересов, ко­торый бы позволял дифференцировать медиков от инжене­ров, то процедура должна быть такой. Обе группы респондентов должны ответить на все задания теста, и те пункты, в ответах на которые обнаружены статистически значимые различия, входят в окончательный вариант тес­та. Если, например, между группами существуют различия в ответах на утверждение «Я люблю ловить рыбу», то это утверждение становится элементом теста. Основным поло­жением этой книги является то, что тест связан с концеп­туальной или таксономической теорией, определяющей эти характеристики.

Назначение теста обычно определено в инструкции по его применению. Тест должен быть стандартизирован для того, чтобы с его помощью можно было оценить различия между людьми, а не между условиями тестирования. Суще­ствуют, однако, отклонения от стандартизации в процеду­рах, называемых «тестированием границ возможностей» (testing the limits) и «тесты оценки потенциальных возмож­ностей в обучении» (learning potential tests). В этих услови­ях респонденту оказывается помощь в процессе


тестирования и затем оценивается влияние такой процеду­ры на результат. Подсчет баллов за ответы на задания объ­ективен, т.е. осуществляется в соответствии со стандартной процедурой. Интерпретация полученных результатов так­же строго определена и осуществляется на основе тестовых норм.

Третий компонент психодиагностики - психологиче­ские тесты, инструменты, процедуры - содержит опреде­ленные задания, которые являются наименьшими единицами психодиагностики и в этом смысле задания ана­логичны фонемам языка. Число возможных сочетаний фо­нем ограничено. Лишь определенные фонематические структуры могут образовывать слова и предложения, обес­печивающие доведение информации до слушателя. Также и тестовые задания: лишь в определенном сочетании друг с другом они могут стать эффективным средством оценки соответствующего конструкта.

Измерение или испытание, проводимое с целью определения состояния или способностей спортсмена, называется тестом . Не всякие измерения могут быть использованы как тесты, а только те, которые отвечают специальным требованиям: стандартность, наличие системы оценок, надежность, информативность, объективность. Тесты, удовлетворяющие требованиям надежности, информативности и объективности, называют добротными .

Процесс испытания называется тестированием , а полученные в итоге измерения числовые значения – результатом тестирования.

Тесты, в основе которых лежат двигательные задачи, называют двигательными или моторными . В зависимости от задания, которое стоит перед исследуемым, различают три группы двигательных тестов.

Разновидности двигательных тестов

Название теста

Задание спортсмену

Результат теста

Контрольное упражнение

Двигательные достижения

Бег на 1500 м, время бега

Стандартные функциональные пробы

Одинаковое для всех, дозируется: 1)по величине выполненной работы; 2) по величине физиологических сдвигов

Физиологические или биохимические показатели при стандартной работе Двигательные показатели при стандартной величине физиологических сдвигов

Регистрация ЧСС при стандартной работе 1000 кГм/мин Скорость бега при ЧСС 160 уд/мин

Максимальные функциональные пробы

Показать максимальный результат

Физиологические или биохимические показатели

Определение максимального кислородного долга или максимального потребления кислорода

Иногда используется не один, а несколько тестов, имеющих единую конечную цель. Такая группа тестов называется батареей тестов .

Известно, что даже при самой строгой стандартизации и точной аппаратуре результаты тестирования всегда несколько варьируют. Поэтому, одним из важным условий подбора добротных тестов является их надежность.

Надежностью теста называется степень совпадения результатов при повторном тестировании одних и тех же людей в одинаковых условиях. Различают четыре основные причины вызывающие внутрииндивидуальной или внутригрупповой вариации результатов тестирования:

    изменение состояния испытуемых (утомление, изменение мотивации и т.п.); неконтролируемые изменения внешних условий и аппаратуры;

    изменение состояния человека, проводящего или оценивающего тест (самочувствие, замена экспериментатора и т.п.);

    несовершенство теста (например, заведомо несовершенные и малонадежные тесты – штрафные броски в баскетбольную корзину до первого промаха и т.п.).

Критерием надежности теста может служить коэффициент надежности, рассчитанный как отношение истинной дисперсии к дисперсии, зарегистрированной в опыте: r = истинная s 2 / зарегистрированная s 2 , где под истинным значением понимают дисперсию, полученную при бесконечно большом числе наблюдений в одинаковых условиях; регистрируемая дисперсия выводится из опытных исследований. Иными словами, коэффициент надежности есть просто доля истинной вариации в той вариации, которая зарегистрирована в опыте.

Кроме этого коэффициента используют еще индекс надежности , который рассматривают как теоретический коэффициент корреляции или связи между зарегистрированным и истинным значениями одного и того же теста. Этот способ наиболее распространен как критерий оценки качества (надежности) теста.

Одной из характеристик надежности теста является его эквивалентность , что отражает степень совпадения результатов тестирования одного и того же качества (например, физического) разными тестами. Отношение к эквивалентности тестов зависит от конкретной задачи. С одной стороны, если два или больше тестов эквивалентны, их совместное применение повышает надежность оценок; с другой – представляется возможным применить только один эквивалентный тест, что упростит тестирование.

Если все тесты, входящие в какую-либо батарею тестов, высокоэквивалентны, они называются гомогенными (например, для оценки качества прыгучести гомогенными, надо полагать, будут прыжки с места в длину, вверх, тройным). Наоборот, если в комплексе нет эквивалентных тестов (как например, для оценки общей физической подготовленности), то все тесты входящие в него, измеряют разные свойства, т.е. по существу комплекс является гетерогенным.

Надежность тестов может быть повышена до определенной степени путем:

    более строгой стандартизацией тестирования;

    увеличения числа попыток;

    увеличение числа оценщиков и повышения согласованности их мнений;

    увеличения числа эквивалентных тестов;

    лучшей мотивации испытуемых.

Объективность теста есть частный случай надежности, т.е. независимость результатов тестирования от лица, проводящего тест.

Информативность теста – это степень точности, с какой он измеряет свойство (качество спортсмена), для оценки которого используется. В разных случаях одни и те же тесты могут иметь разную информативность. Вопрос об информативности теста распадается на два частных вопроса:

Что изменяет данный тест? Как точно он измеряет?

Например, можно ли по такому показателю, как МПК, судить о подготовленности бегунов-стайеров, и если можно, то с какой степенью точности? Можно ли использовать этот тест в процессе контроля?

Если тест используется для определения состояния спортсмена в момент обследования, то говорят о диагностической информативности теста. Если же на основе результатов тестирования хотят сделать вывод о возможных будущих показателях спортсмена, говорят о прогностической информативности. Тест может быть диагностически информативен, а прогностически нет и наоборот.

Степень информативности может характеризоваться количественно – на основе опытных данных (так называемая эмпирическая информативность) и качественно – на основе содержательного анализа ситуации (логическая информативность). Хотя в практической работе логический, или содержательный анализ всегда должен предшествовать математическому. Показателем информативности теста служит коэффициент корреляции, рассчитанный для зависимости - критерия от результата в тесте, и наоборот (в качестве критерия берется показатель, заведомо отражающий то свойство, которое собираются измерять с помощью теста).

В случаях недостаточности информативности какого-либо теста прибегают к использованию батареи тестов. Однако последнее, даже при наличие высоких раздельных критериев информативности (судя по коэффициентам корреляции), не позволяет получить единое число. Здесь на помощь может прийти более сложный метод математической статистики – факторный анализ. Который позволяет определить, сколько и какие тесты совместно действуют на отдельный фактор и какова степень их вклада в каждый фактор. А затем уже легко выбрать тесты (или их комбинации), которые наиболее точно оценивают отдельные факторы.

1 Что называется тестом?

2 Что называется тестированием?

Количественная оценка какого-либо качества или состояния спортсмена Измерение или испытание, проводимое с целью определения состояния или способностей спортсменаПроцесс испытания, во время которого количественно оценивается какое-либо качество или состояние спортсменаНужного определения нет

3 Что называется результатом теста?

Количественная оценка какого-либо качества или состояния спортсмена Измерение или испытание, проводимое с целью определения состояния или способностей спортсменаПроцесс испытания, во время которого количественно оценивается какое-либо качество или состояние спортсменаНужного определения нет

4 К какой разновидности тестов относится бег на 100 м ?

5 К какой разновидности тестов относится кистевая динамометрия ?

Контрольное упражнение Функциональная пробаМаксимальный функциональный тест

6 К какой разновидности тестов относится проба МПК ?

Контрольное упражнение Функциональная пробаМаксимальный функциональный тест

7 К какой разновидности тестов относится трехминутный бег под метроном ?

Контрольное упражнение Функциональная пробаМаксимальный функциональный тест

8 К какой разновидности тестов относится максимальное количество подтягиваний на перекладине ?

Контрольное упражнение Функциональная пробаМаксимальный функциональный тест

9 В каком случае считается тест информативным?

10 В каком случае считается тест надежным?

Способность теста к воспроизведению результатов при повторном испытании Способность теста измерять интересующее качество спортсменаНезависимость результатов тестирования от лица, проводящего тест

11 В каком случае считается тест объективным?

Способность теста к воспроизведению результатов при повторном испытании Способность теста измерять интересующее качество спортсменаНезависимость результатов тестирования от лица, проводящего тест

12 Какой критерий необходим при оценке теста на информативность?

13 Какой критерий необходим при оценке теста на надежность?

Критерий Т-Стьюдента Критерий F-ФишераКоэффициент корреляцииКоэффициент детерминацииДисперсия

14 Какой критерий необходим при оценке теста на объективность?

Критерий Т-Стьюдента Критерий F-ФишераКоэффициент корреляцииКоэффициент детерминацииДисперсия

15 Как называют информативность теста, если при его помощи оценивают степень тренированности спортсмена?

16 Какой информативностью контрольных упражнений руководствуется тренер, отбирая детей в свою спортивную секцию?

Логической ПрогностическойЭмпирическойДиагностической

17 Нужен ли корреляционный анализ для оценки информативности тестов?

18 Нужен ли факторный анализ для оценки информативности тестов?

19 Можно ли оценить с помощью корреляционного анализа надежность теста?

20 Можно ли оценить с помощью корреляционного анализа объективность теста?

21 Будут ли эквивалентны тесты, предназначенные для оценки общей физической подготовленности?

22 При измерении одного и того же качества разными тестами используют тесты …

Предназначенные для измерения одного и того же качества Имеющие высокую корреляционную связь между собойИмеющие низкую корреляционную связь между собой

ОСНОВЫ ТЕОРИИ ОЦЕНОК

Для оценивания спортивных результатов часто прибегают к специальным таблицам очков. Цель таких таблиц – преобразование показанного спортивного результата (выраженного в объективных мерах) в условные очки. Закон преобразования спортивных результатов в очки называется шкалой оценок . Шкала может быть задана в виде математического выражения, таблицы или графика. Различают 4 основных типа шкал, используемых в спорте и физическом воспитании.

Пропорциональные шкалы

Регрессирующие шкалы

Прогрессирующие шкалы.

Пропорциональные шкалы предполагают начисление одинакового числа очков за равный прирост результатов (например, за каждые 0,1 с улучшения результата в беге на 100 м начисляется 20 очков). Такие шкалы используются в современном пятиборье, конькобежном спорте, гонках на лыжах, лыжном двоеборье, биатлоне и других видах спорта.

Регрессирующие шкалы предполагают начисление, за один и тот же прирост результата по мере возрастания спортивных достижений, все меньшее число очков (например, за улучшение результата в беге на 100 м с 15, 0 до 14.9 с добавляют 20 очков, а за 0,1 с в диапазоне 10,0-9,9 с – только 15 очков).

Прогрессирующие шкалы. Здесь чем выше спортивный результат, тем большей прибавкой очков оценивается его улучшение (например, за улучшение времени в беге от 15,0 до 14,9 с добавляют 10 очков, а от 10,0 до 9,9 с – 100 очков). Прогрессирующие шкалы применяются в плавании, отдельных видах легкой атлетики, тяжелой атлетике.

Сигмовидные шкалы редко используются в спорте, но широко применяются при оценке физической подготовленности (например, так выглядит шкала стандартов физической подготовленности населения США). В этих шкалах улучшение результатов в зоне очень низких и очень высоких достижений поощряются скупо; больше всего очков приносит прирост результатов в средней зоне достижений.

Основными задачами оценивания являются:

    сопоставить разные достижения в одном и том же задании;

    сопоставить достижения в разных заданиях;

    определить нормы.

Нормой в спортивной метрологии называется граничная величина результата, служащая основой для отнесения спортсмена к одной из классификационных групп. Существует три вида норм: сопоставительные, индивидуальные, должные.

Сопоставительные нормы имеют в своей основе сравнение людей, принадлежащих к одной и той же совокупности. Например, разбиение людей на подгруппы по степени устойчивости (высокой, средней, низкой) или реактивности (гиперреактивные, нормореактивные, гипореактивные) к гипоксии.

Разные градации оценок и норм

Процент испытуемых

Нормы в шкалах

Словесная

в баллах

Перцентильная

Очень низкая

Ниже М - 2

От М - 2 до М - 1

Ниже средней

От М-1 до М–0,5

От М–0,5 до М+0,5

Выше средней

От М+0,5 до М+1

От М+1 до М+2

Очень высокая

Выше М+2

Эти нормы характеризуют лишь сравнительные успехи испытуемых в данной совокупности, но ничего не говорят о совокупности в целом (или в среднем). Поэтому сопоставительные нормы должны сравниваться с данными, полученными на других совокупностях, и использоваться в сочетании с индивидуальными и должными нормами.

Индивидуальные нормы основаны на сравнении показателей одного и того же спортсмена в разных состояниях. Например, во многих видах спорта нет зависимости между собственным весом тела и спортивным результатом. У каждого спортсмена есть индивидуально оптимальный вес, соответствующий состоянию спортивной формы. Эту норму можно контролировать на разных этапах спортивной подготовки.

Должные нормы основаны на анализе того, что должен уметь человек, чтобы успешно справляться с задачами, которые перед ним ставит жизнь. Примером этому могут служить нормативы отдельных комплексов по физической подготовке, должные величины ЖЕЛ, основного обмена, массы и роста тела, и т.п.

1 Можно ли прямым методом измерить качество выносливости?

2 Можно ли прямым методом измерить качество быстроты?

3 Можно ли прямым методом измерить качество ловкости?

4 Можно ли прямым методом измерить качество гибкости?

5 Можно ли прямым методом измерить силу отдельных мышц?

6 Может ли оценка выражаться в качественной характеристике (хорошо, удовлетворительно, плохо, зачет и т.п.)?

7 Есть ли разница между шкалой измерений и шкалой оценок?

8 Что называется шкалой оценок?

Система измерения спортивного результата Закон преобразования спортивных результатов в очкиСистема оценивания норм

9 Шкала предполагает начисление одинакового числа очков за равный прирост результатов. Это …

10 За один и тот же прирост результата начисляют по мере возрастания спортивных достижений всё меньшее число очков. Это …

Прогрессирующая шкала Регрессирующая шкалаПропорциональная шкалаСигмовидная шкала

11 Чем выше спортивный результат, тем большей прибавкой очков оценивается его улучшение. Это …

Прогрессирующая шкала Регрессирующая шкалаПропорциональная шкалаСигмовидная шкала

12 Улучшение результатов в зонах очень низких и очень высоких достижений поощряется скупо; больше всего очков приносит прирост результатов в средней зоне достижений. Это …

Прогрессирующая шкала Регрессирующая шкалаПропорциональная шкалаСигмовидная шкала

13 Нормы, имеющие в своей основе сравнение людей, принадлежащих к одной и той же совокупности, называются …

14 Нормы, основанные на сравнении показателей одного и того же спортсмена в разных состояниях, называются …

Индивидуальными нормами Должными нормамиСопоставительными нормами

15 Нормы, основанные на анализе того, что должен уметь делать человек, чтобы справляться с поставленными перед ним задачами, называются …

Индивидуальными нормами Должными нормамиСопоставительными нормами

ОСНОВНЫЕ ПОНЯТИЯ КВАЛИМЕТРИИ

Квалиметрия (лат. qualitas – качество, metron – мера) изучает и разрабатывает количественные методы оценки качественных признаков.

В основе квалиметрии лежит несколько исходных положений:

Любое качество можно измерить;

Качество зависит от ряда свойств, образующих “древо качества” (например, древо качества исполнения упражнений в фигурном катании состоит из трех уровней – высшего, среднего, низшего);

Каждое свойство определяется двумя числами: относительным показателем и весомостью; сумма весомостей свойств на каждом уровне равна единице (или 100%).

Методические приемы квалиметрии делятся на две группы:

Эвристические (интуитивные), основанные на экспертных оценках и анкетировании;

Инструментальные.

Экспертной называется оценка, получаемая путем выяснения мнений специалистов. Характерные примеры экспертизы: судейство в гимнастике и фигурном катании на коньках, конкурс на лучшую научную работу и т.п.

Проведение экспертизы включает следующие основные этапы: формирование ее цели, подбор экспертов, выбор методики, проведение опроса и обработку полученной информации, в том числе оценку согласованности индивидуальных экспертных оценок. При экспертизе большое значение имеет степень согласованности мнений экспертов, оцениваемая по величине рангового коэффициента корреляции (в случае нескольких экспертов). Следует заметить, что ранговая корреляция лежит в основе решения многих задач квалиметрии, поскольку позволяет осуществлять математические расчеты с качественными признаками.

На практике показателем квалификации эксперта часто служит отклонение его оценок от средних оценок группы экспертов.

Анкетированием называется метод сбора мнений посредством заполнения анкет. Анкетирование наряду с интервью и беседой относится к методам опроса. В отличие от интервью и беседы анкетирование предполагает письменные ответы лица, заполняющего анкету – респондента, - на систему стандартизированных вопросов. Оно позволяет изучать мотивы поведения, намерения, мнения и т.п.

С помощью анкетирования можно решать многие практические задачи в спорте: оценка психологического статуса спортсмена; его отношение к характеру и направленности тренировочных занятий; межличностные отношения в команде; собственная оценка технико-тактической подготовленности; оценка рациона питания и многие другие.

1 Что изучает квалиметрия?

Изучает качества тестов Изучает качественные свойства признакаИзучает и разрабатывает количественные методы оценки качества

2 Математические методы, применяемые в квалиметрии?

Парная корреляция Ранговая корреляцияДисперсионный анализ

3 С помощью каких методов оценивается уровень работоспособности?

4 С помощью каких методов оценивается разнообразие технических элементов?

Метод анкетирования Метод экспертных оценокМетод не указан

5 С помощью каких методов оценивается сложность технических элементов?

Метод анкетирования Метод экспертных оценокМетод не указан

6 С помощью каких методов оценивается психологическое состояние спортсмена?

Метод анкетирования Метод экспертных оценокМетод не указан

Математические основы теории конструирования тестов

Типы тестовых заданий

Существует две существенно отличающихся формы заданий: закрытые (когда испытуемому для выбора предлагаются варианты ответов) и открытые (испытуемый должен получить ответ самостоятельно). Открытые задания, в свою очередь, можно разделить на две группы:

    задания с кратким регламентируемым ответом, формулировка которых должна порождать только один, запланированный разработчиком, ответ;

    задания со свободно конструируемым ответом, не имеющие никаких ограничений на содержание и форму представления ответов.

Выделяют пять основных типов заданий. Все остальные типы являются вариациями или комбинациями этих пяти типов.

    Задание с выбором. Текст задания состоит из вопроса. Для выбора предлагаются несколько вариантов ответа, из которых один или несколько являются правильными.

    Задание на дополнение. В формулировке зада-ния пропущен некоторый фрагмент текста, который указыва-ется подчерком (или несколькими подчерками одинаковой длины, если пропущенных слов несколько). Пропуск может быть в любой части текста, но рекомендуется делать его в конце. В ответе испытуемый должен написать пропущенные слова.

    Задание на установление правильной последовательности.

    Задание на установление соответствия. Формулировка задания содер-жит два перечня. Слева, как правило, приводятся элементы множества, содержащие постановку проблемы, справа – элементы, подлежащие выбору. Элементы левого множества нумеруются, правого – обозначаются буквами. Желательно, чтобы второе множество содержало большее число элементов по сравнению с первым множеством. При этом каждому эле-менту первого множества соответствует один или несколько элементов второго множества.

    Задание с развернутым ответом.

Этапы разработки теста

    Формулировка цели и объекта исследования.

Кто, что и почему подлежит тестированию

    Разработка содержания тестирования.

Изучение требований образовательного стандарта, содержания учебников.

Составление спецификации теста:

    Выделение разделов (тем) и их процентного содержания в тесте

    Выбор типов заданий

    Определение уровней овладения знаниями и умениями:

    1 уровень

    Знание определений основных понятий дисциплины, а также основных утверждений о методах дисциплины

    2 уровень

    Знание основных формул и алгоритмов; умение применять их при решении стандартных задач

    3 уровень

    Применение полученных знаний для решения нетипичных задач

  1. Определение примерного количества заданий в тесте и распределение этого количества по типам заданий.

    Разработка заданий.

Поскольку первый вариант теста должен выявить недостатки заданий (в том числе и предложенных дистракторов), то в каждом задании предлагалось возможно наибольшее число дистракторов, чтобы при выбраковке их осталось достаточное количество.

    Экспертиза сырого теста.

Целью экспертизы является выявление и исправление некорректных и непонятных формулировок. В результате из теста могут быть удалены какие-либо задания (поэтому рекомендуется заданий).

    Апробация.

    Расчет характеристик заданий и теста.

По результатам тестирования проводят расчет следующих статистических характеристик заданий и теста.

Размах индивидуальных баллов измеряет расстояние, в пределах которого изменяются все значения показателя в распределении (индивидуальных баллов).

Среднее выборочное (среднее арифметическое ) для совокупности индивидуальных баллов Х 1 , Х 2 , …, Х K группы K испытуемых вычисляется по формуле

.

Подсчет дисперсии основан на вычислении отклонений каждого значения показателя от среднего арифметического в распределении:

.

Низкая дисперсия указывает на низкое качество теста, поскольку слабая вариация результатов говорит о слабой дифференциации испытуемых по уровню подготовки. Излишне высокая дисперсия характерна для случая, когда все учащиеся различны по числу выполненных заданий, что также требует переработки теста.

Завершает расчёт характеристик теста оценка надёжности теста. Для вычисления коэффициента надёжности можно использовать формулу коэффициента Кьюдера-Ричардсона (только в случае, когда все веса заданий равны единице) :

.

Чтобы по значению коэффициента дать качественную оценку надежности теста, используют следующую таблицу:

Значение коэффициента надежности

Оценка надежности

неудовлетворительная

удовлетворительная

отличная

Оценка трудности j-го задания рассчитывается по формуле

.

Заметим, что чем легче задание, тем больше будет доля правильных ответов на него (p j ), поэтому естественнее было бы интерпретировать эту долю как легкость задания. В хорошо сбалансированном по трудности тесте должно быть несколько трудных заданий, несколько легких, но основная масса заданий должна иметь трудность от 0,3 до 0,7; при этом желательно, чтобы за-да-ния располагались в порядке воз-рас-та-ния их трудности.

Валидность заданий теста определяется степенью соответствия задания цели дифференциации испытуемых. Для этого определяются коэффициенты корреляции оценки за задание с баллом по всему тесту. Это делается с помощью коэффициента корреляции по формуле

,

где X i тестовый балл i -го испытуемого, Y i  балл i -го испытуемого за задание. Заметим, что в случае дихотомического оценивания задания расчёт коэффициента несколько упрощается . Если r < 0, то задание следует удалить из теста, т. к. в нем побеждают слабые ученики, а сильные выбирают неверный ответ либо пропускают задание при выполнении теста. Положительные значения, но близкие к нулю (незначимые), указывают на низкую прогностическую способность задания теста; такие задания требуют доработки содержания.

Способность дифференцировать испытуемых на лучших и худших показывает коэффициент дифференцирующей способности (или индекс дискриминативности ) задания. Самый простой способ вычисления такого индекса называется методом контрастных групп и заключается в следующем. Из всей группы испытуемых выделяется некоторая часть лучших по результатам выполнения теста испытуемых (будем называть их сильной подгруппой) и столько же худших (слабая подгруппа). Затем для каждой из этих подгрупп вычисляется доля правильных ответов в подгруппе. Обозначим через p 1 j долю правильных ответов на j -е задание в сильной подгруппе, а через p 0 j – долю правильных ответов в слабой подгруппе. Тогда индекс дискриминативности i -го задания определяется по формуле:

(r дис) j = p 1 j p 0 j .

Для задания, с которым справились все сильные испытуемые, и не справился ни один слабый, индекс дискриминативности r дис будет равен 1; в этом случае задание обладает максимальным дифференцирующим эффектом. Для задания, с которым справились все слабые испытуемые, и не справился ни один сильный, индекс дискриминативности будет равен –1. В остальных случаях индекс будет принимать значения между –1 и 1. Задания с нулевым и отрицательным значением индекса дискриминативности плохо дифференцируют учащихся, поэтому должны быть удалены из теста. Если индекс положителен, но меньше 0,2 , то такое задание требует тщательного анализа содержания.

Согласно этим характеристикам какие-то задания могут быть удалены из теста, какие-то подлежат исправлению. После этого должны быть повторены этапы 5, 6.

Формулы для вычисления вероятности угадывания

При составлении теста нужно определить, сколько ответов следует предлагать на каждый вопрос, чтобы вероятность успешно пройти тестирование, просто угадав правильные ответы, была меньше 0,05 (т.е. меньше 5%). Тестирование будем считать успешно пройденным, если тестируемый верно отвечает не менее, чем на Q % вопросов. Если тест включает N вопросов, то для вычисления вероятности “успешного угадывания” используется следующая формула :

,

где m - число ответов, предлагаемых на каждый вопрос.

В случае, когда количество предлагаемых ответов на вопросы в разных заданиях различно, формула имеет более сложный вид:

,

где - вероятность угадывания ответов на j вопросов, которая вычисляется следующим образом. Пусть все вопросы в тесте можно разделить на r групп так, что в одну группу объединены вопросы с одинаковой вероятностью угадывания. Обозначим p i , 0< p i <1 - вероятность угадывания и k i - количество вопросов в i - той группе (
) , причем

.

Тогда для j от
до N:

,

где t r = j  (t 1 + t 2 +…+ t r -1) , причем если t r > k r , то будем считать
= 0 .

Примеры.

N=10, Q=2/3: m=2, P<0,2; m=3, P<0,02; m=4, P<0,004

Литература

    Челышкова М. Б. Теория и практика конструирования педагогических тестов: Учебное пособие. – М.: Логос, 2002. – 432 с.

    Малыгин А. А., Светцов В. И., Щаницина С. В. Практические рекомендации к составлению контрольно–измерительных материалов: Метод. пособие / Иван. гос. хим.–технол. ун-т. – Иваново, 2005. – 30 с.

    Как составить тест // Слойер К. Математические фантазии. - М.: Мир, 1993. - с.116-118.

Основные понятия теории тестов.

Измерение или испытание, проводимое с целью определения состояния или способностей спортсмена, называется тестом. Любой тест включает в себя измерение. Но не всякое изменение служит тестом. Процедура измерений или испытаний называется тестированием.

Тест, в основе которого лежат двигательные задания, называется двигательным. Существует три группы двигательных тестов:

  • 1. Контрольные упражнения, выполняя которые спортсмен получает задание показать максимальный результат.
  • 2. Стандартные функциональные пробы, в ходе которых задание, одинаковое для всех, дозируется либо по величине выполненной работы, либо по величине физиологических сдвигов.
  • 3. Максимальные функциональные пробы, в ходе которых спортсмен должен показать максимальный результат.

Высококачественное тестирование предполагает знание теории измерений.

Основные понятия теории измерений.

Измерение--это выявление соответствия между изучаемым явлением с одной стороны, и числами--с другой.

Основы теории измерений составляют три понятия: шкалы измерений, единицы измерений и точность измерений.

Шкалы измерений.

Шкала измерения -- это закон, по которому численное значение присваивается измеряемому результату по мере его возрастания или убывания. Рассмотрим некоторые из применяемых в спорте шкал.

Шкала наименований (номинальная шкала).

Это самая простая из всех шкал. В ней числа выполняют роль ярлыков и служат для обнаружения и различения изучаемых объектов (например, нумерация игроков футбольной команды). Числа, составляющие шкалу наименований, разрешается менять метами. В этой шкале нет отношений типа «больше-- меньше», поэтому некоторые полагают, что применение шкалы наименований не стоит считать измерением. При использовании шкалы, наименований могут проводиться только некоторые математические операции. Например, ее числа нельзя складывать или вычитать, но можно подсчитывать, сколько раз (как часто) встречается то или иное число.

Шкала порядка.

Есть виды спорта, где результат спортсмена определяется только местом, занятым на соревнованиях (например, единоборства). После таких соревнований ясно, кто из спортсменов сильнее, а кто слабее. Но насколько сильнее или слабее, сказать нельзя. Если три спортсмена заняли соответственно первое, второе и третье места, то каковы различие в их спортивном мастерстве, остается неясным: второй спортсмен может быть почти равен первому, а может быть слабее его и быть почти одинаковым с третьим. Места, занимаемые в шкале порядка, называются рангами, а сама шкала называется ранговой или неметрической. В такой шкале составляющие ее числа упорядочены по рангам (т.е. занимаемым местам), но интервалы между ними точно измерить нельзя. В отличие от шкалы наименований шкала порядка позволяет не только установить факт равенства или неравенства измеряемых объектов, но и определить характер неравенства в виде суждений: «больше -- меньше», «лучше--хуже» и т.п.

С помощью шкал порядка можно измерять качественные, не имеющие строгой количественной меры, показатели. Особенно широко эти шкалы используются в гуманитарных науках: педагогике, психологии, социологии.

К рангам шкалы порядка можно применять большее число математических операций, чем к числам шкалы наименований.

Шкала интервалов.

Это шкала, в которой числа не только упорядочены по рангам, но и разделены определенными интервалами. Особенность, отличающая ее от описываемой дальше шкалы отношений, состоит в том, что нулевая точка выбирается произвольно. Примерами могут быть календарное время (начало летоисчисления в разных календарях устанавливалось по случайным причинам), суставной угол (угол в локтевом суставе при полном разгибании предплечья может приниматься равным либо нулю, либо 180°), температура, потенциальная энергия поднятого груза, потенциал электрического поля и др.

Результаты измерений по шкале интервалов можно обрабатывать всеми математическими методами, кроме вычисления отношений. Данные шкалы интервалов дают ответ на вопрос: «на сколько больше», но не позволяют утверждать, что одно значение измеренной величины во столько-то раз больше или меньше другого. Например, если температура повысилась с 10 до 20 С, то нельзя сказать, что стало в два раза теплее.

Шкала отношений.

Эта шкала отличается от шкалы интервалов только тем, что в ней строго определено положение нулевой точки. Благодаря этому шкала отношений не накладывает никаких ограничений на математический аппарат, используемый для обработки результатов наблюдений.

В спорте по шкале отношений измеряют расстояние, силу, скорость и десятки других переменных. По шкале отношений измеряют и те величины, которые образуются как разности чисел, отсчитанных по шкале интервалов. Так, календарное время отсчитывается по шкале интервалов, а интервалы времени -- по шкале отношений. При использовании шкалы отношений (и только в этом случае!) измерение какой-либо величины сводится к экспериментальному определению отношения этой величины к другой подобной, принятой за единицу. Измеряя длину прыжка, мы узнаем, во сколько раз эта длина больше длины другого тела, принятого за единицу длины (метровой линейки в частном случае); взвешивая штангу, определяем отношение ее массы к массе другого тела -- единичной гири «килограмма» и т.п. Если ограничиться только применением шкал отношений, то можно дать другое (более узкое, частное) определение измерению: измерить какую-либо величину -- значит найти опытным путем ее отношение к соответствующей единице измерения.

Единицы измерений.

Чтобы результаты разных измерений можно было сравнить друг с другом, они должны быть выражены в одних и тех же единицах. В 1960 году на Международной генеральной конференции по мерам и весам была принята Международная система единиц, получившая сокращенное название СИ (от начальных букв слов System International). В настоящее время установлено предпочтительное применение этой системы во всех областях науки и техники, в народном хозяйстве, а также при преподавании.

СИ в настоящее время включает семь независимых друг от друга основных единиц (см. таблицу 2.1.)

Таблица 1.1.

Из указанных основных единиц в качестве производных выводят единицы остальных физических величин. Производные единицы определяются на основе формул, связывающих между собой физические величины. Например, единица длины (метр) и единица времени (секунда) -- основные единицы, а единица скорости (метр в секунду) -- производная.

Кроме основных, в СИ выделены две дополнительные единицы: радиан-- единица плоского угла и стерадиан--единица телесного угла (угла в пространстве).

Точность измерений.

Никакое измерение не может быть выполнено абсолютно точно. Результат измерения неизбежно содержит погрешность, величина которой тем меньше, чем точнее метод измерения и измерительный прибор. Например, с помощью обычной линейки с миллиметровыми делениями нельзя измерить длину с точностью до 0,01 мм.

Основная и дополнительная погрешность.

Основная погрешность -- это погрешность метода измерения или измерительного прибора, которая имеет место в нормальных условиях их применения.

Дополнительная погрешность--это погрешность измерительного прибора, вызванная отклонением условий его работы от нормальных. Понятно, что приборы, предназначенный для работы при комнатной температуре будет давать не точные показания, если пользоваться им летом на стадионе под палящим солнцем или зимой на морозе. Погрешности измерения могут возникать в том случае, когда напряжение электрической сети или батарейного источника питания ниже нормы или непостоянно по величине.

Абсолютная и относительная погрешности.

Величина E = А--Ао, равное разности между показанием измерительного прибора (А) и истинным значением измеряемой величины (Ао), называется абсолютной погрешностью измерения. Она измеряется в тех же единицах, что и сама измеряемая величина.

На практике часто удобно пользоваться не абсолютной, а относительной погрешностью. Относительная погрешность измерения бывает двух видов-- действительной и приведенной. Действительной относительной погрешностью называется отношение абсолютной погрешности к истинному значению измеряемой величины:

А Д =---------* 100%

Приведенная относительная погрешность--это отношение абсолютной погрешности к максимально возможному значению измеряемой величины:

Ап =----------* 100%

Систематическая и случайная погрешности.

Систематической называется погрешность, величина которой не изменяется от измерения к измерению. В силу этой своей особенности систематическая погрешность часто может быть предсказана заранее или, в крайнем случае, обнаружена и устранена по окончании процесса измерения.

Способ устранения систематической погрешности зависит в первую очередь от ее природы. Систематические погрешности измерения можно разделить на три группы:

погрешности известного происхождения и известной величины;

погрешности известного происхождения, но неизвестной величины;

погрешности неизвестного происхождения и неизвестной величины. Самые безобидные -- погрешности первой группы. Они легко устраняются

путем введения соответствующих поправок в результат измерения.

Ко второй группе относятся, прежде всего, погрешности, связанные с несовершенством метода измерения и измерительной аппаратуры. Например, погрешность измерения физической работоспособности с помощью маски для забора выдыхаемого воздуха: маска затрудняет дыхание, и спортсмен закономерно демонстрирует физическую работоспособность, заниженную по сравнению с истинной, измеряемой без маски. Величину этой погрешности нельзя предсказать заранее: она зависит от индивидуальных способностей спортсмена и его самочувствия в момент исследования.

Другой пример систематической погрешности этой группы-- погрешность, связанная с несовершенством аппаратуры, когда измерительный прибор заведомо завышает или занижает истинное значение измеряемой величины, но величина погрешности неизвестна.

Погрешности третьей группы наиболее опасны, их появление бывает связано как с несовершенством метода измерения, так и с особенностями объекта измерения -- спортсмена.

Случайные погрешности возникают под действием разнообразных факторов, которые ни предсказать заранее, ни точно учесть не удается. Случайные погрешности принципиально не устранимы. Однако, воспользовавшись методами математической статистики, можно оценить величину случайной погрешности и учесть ее при интерпретации результатов измерения. Без статистической обработки результаты измерений не могут считаться достоверными.


Основные вопросы: Тест как инструмент измерения. Основные теории тестирования. Функции, возможности и ограничения тестирования. Применение тестов в оценке персонала. Преимущества и недостатки использования тестов. Формы и виды тестовых заданий. Технология построения задания. Оценка качества теста. Достоверность и валидность. Программное обеспечение для разработки тестов. 2




Тест как инструмент измерения Основные понятия в тестологии: измерение, тест, содержание и форма заданий, надежность и валидность результатов измерения. Кроме того, в тестологии используются такие понятия статистической науки, как выборочная и генеральная совокупность, средние показатели, вариация, корреляция, регрессия и др. 4




Тестовое задание - это дидактически и технологически эффективная единица контрольного материала, часть теста, которая отвечает требованиям предметной чистоты содержания (или одномерности), содержательной и логической правильности, правильности формы, приемлемости геометрического образа задания. 6




Традиционный тест представляет собой стандартизованный метод диагностики уровня и структуры подготовленности. В таком тесте все испытуемые отвечают на одни и те же задания, в одинаковое время, в одинаковых условиях и с одинаковыми правилами оценивания ответов. Для достижения цели тестирования можно создать бесчисленное количество тестов, и все они могут соответствовать достижению поставленной задаче. 8


Профессиограмма (от лат. Professio специальность + Gramma запись) система признаков, описывающих ту или иную профессию, а также включающая в себя перечень норм и требований, предъявляемых этой профессией или специальностью к работнику. В частности, профессиограмма может включать в себя перечень психологических характеристик, которым должны соответствовать представители конкретных профессиональных групп. 9


Основные теории тестирования Первые научные труды по теории тестов появилась в начале ХХ века, на стыке психологии, социологии, педагогики и других, так называемых поведенческих наук. Зарубежные психологи называют эту науку психометрикой (Psychometrika), а педагоги - педагогическим измерением (Educational measurement). Незамутненная идеологией и политикой, интерпретация названия « тестология » проста и прозрачна: наука о тестах. 10


Первый этап - предыстория - с древности до конца XIX века, когда были распространены донаучные формы контроля знаний и способностей; второй период, классический, продолжался с начала 20- х до конца 60- х годов, в течение которого создавалась классическая теория тестов; третий период - технологический - начавшийся с 70- х годов - время разработки методов адаптивного тестирования и обучения, методологию эффективной разработки тестов и тестовых заданий для параметрической оценки испытуемых по измеряемому латентному качеству. 11


Функции, возможности и ограничения тестирования Применяемые при отборе тесты предназначены для того, чтобы получить психологический портрет кандидата, оценить его способности, а также профессиональные знания и навыки. Тесты позволяют сравнивать кандидатов между собой или с эталонами, то есть идеальным кандидатом. Тесты используются для измерения качеств человека, необходимых для результативного выполнения работы. Некоторые тесты устроены таким образом, чтобы работодатель сам администрировал тестирование и подсчитывал результаты. Другие требуют услуг опытных консультантов, чтобы обеспечить их правильное применение. 12


Ограничения использования тестов связаны - с их дорогим администрированием; - с пригодностью для оценки способностей человека; - тесты более успешны для прогнозирования успешности в работе, которая содержит короткие по времени профессиональные задачи, и не очень удобны в случаях, когда задачи, решаемые на работе, занимают несколько дней или недель. 13








2. Используемая терминология должна быть подобрана в расчете на конкретную целевую аудиторию. Также нужно исключить излишние статьи или статьи, включающие два или более вопроса, так как они иногда сбивают с толку респондента и затрудняют интерпретацию. 17


3. Чтобы удовлетворить всем этим требованиям, следует просмотреть весь банк вопросов статью за статьей и проанализировать, какой цели служит каждая из них. Например, если тест разрабатывается для измерения аналитических способностей стажеров - бухгалтеров, стоит подумать, что в этом случае означает понятие « аналитические способности ». 18




5. Когда вопросы и форматы подсчета результатов выбраны, их нужно преобразовать в удобный для пользователя формат, с ясно написанными инструкциями и вопросами - примерами; так, чтобы выполняющие тест кандидаты полностью понимали, что от них требуется. 20


6. Очень часто на этом этапе разработки в тест включают больше вопросов, чем нужно. По некоторым оценкам, в три раза больше, чем останется в окончательном тесте или системе измерения. Тогда исходной мерой станет проверка разрабатываемого теста на относительно широкой выборке из числа существующих работников, чтобы убедиться в том, что все вопросы легко понятны. 21


7. Тесты на определение знаний обычно начинаются с простых вопросов, постепенно усложняющихся к концу. Когда тесты предназначаются для измерения социальных установок и личностных характеристик, возможно, будет полезным чередовать негативно и позитивно сформулированные статьи, чтобы избежать непродуманных ответов. 22


8. Последний этап представляет собой применение теста на широкой репрезентативной выборке, чтобы установить нормы выполнения, достоверности и валидности еще до начала его использования в качестве инструмента отбора. Кроме того, необходимо определить справедливость теста, чтобы убедиться, что он не дискриминирует никакие подгруппы населения (например, этническим отличиям). 23


Оценка качества теста Чтобы методы отбора были достаточно результативными они должны быть надежными, валидными и достоверными. Достоверность метода отбора характеризуется его неподверженностью систематическим ошибкам при измерении, то есть его состоятельности при разных условиях. 24


На практике достоверность при вынесении суждений достигается сравнением результатов двух и более аналогичных тестов, проведенных в разные дни. Другой путь повышения достоверности – сравнение результатов нескольких альтернативных методов отбора (например, тест и беседа). Если результаты сходны или одинаковы, можно считать их верными. 25


Надежность означает, что проведенные замеры дадут тот же результат, что и предыдущие, то есть на результаты оценки не влияют сторонние факторы. Валидность означает, что этот метод измеряет именно то, для чего он предназначен. Максимально возможная точность информации, получаемой специально разработанными методиками в научных исследованиях, ограничена техническими факторами и не превышает 0,8. 26


В практике отбора персонала отмечается, что надежность различных методов оценки располагается в интервалах: 0,1 – 0,2 – традиционное интервью; 0,2 – 0,3 – рекомендации; 0,3 – 0,5 – профессиональные тесты; 0,5 – 0,6 – структурированное интервью, интервью по компетенциям; 0,5 – 0,7 – когнитивные и личностные тесты; 0,6 – 0,7 – компетентностный подход (ассессмент - центр). 27


Под обоснованностью понимается то, с какой степенью точности данный результат, метод или критерий « предсказывает » будущую результативность тестируемого человека. Обоснованность методов относится к выводам, сделанным на основе той или иной процедуры, а не к самой процедуре. То есть метод отбора может сам по себе быть достоверным, но не соответствовать конкретной задаче: измерять не то, что требуется в данном случае. 28


Программное обеспечение для разработки тестов В отечественной практике представлены различные комплексные программы с модулем « Психодиагностика », например, программа «1 С: Зарплата и Управление Персоналом 8.0» с модулем « Психодиагностика », разработанная совместно с группой преподавателей кафедры психологии личности и общей психологии факультета психологии МГУ им. М. В. Ломоносова под руководством д. псих. наук, проф. А. Н. Гусева. Учебный тренажер для разработки систем оценки персонала и адаптации тестовых методик факультета психологии ТГУ, разработанный также на базе «1 С: Предприятие 8.2» фирмой Персонал Софт. 29


Литература: Отбор и найм персонала: технологии тестирования и оценки / Доминик Купер, Иван Т. Робертсон, Гордон Тинлайн. – М., изд - во « Вершина, – 156 с. Психологическое обеспечение профессиональной деятельности: теория и практика / Под ред. Проф. Г. С. Никифорова. – СПб.: Речь, – 816 с. 30