Описательные статистики

Введение……………………………………………………………………3

1. Описательная статистика……………………………………………….5

2. Среднее (Мх)…………………………………………………………….7

3. Дисперсия (D)…………………………………………………………..10

4. Стандартное отклонение (σ)…………………………………………..11

5. Медиана (Ме)…………………………………………………………..12

6. Мода (Мо)……………………………………………………………....14

Заключение………………………………………………………………..16

Практическое задание…………………………………………………….17

Список литературы……………………………………………………….19

Введение

Окружающий нас мир насыщен информацией – разнообразные потоки данных окружают нас, захватывая в поле своего действия, лишая правильного восприятия действительности. Не будет преувеличением сказать, что информация становится частью действительности и нашего сознания.

Без адекватных технологий анализа информации (данных) человек оказывается беспомощным в жестокой информационной среде. Статистика позволяет компактно описать данные, понять их структуру, провести классификацию, увидеть закономерности в хаосе случайных явлений.

Широкому внедрению методов анализа данных в 60-х и 70-х годах нашего века немало способствовало появление компьютеров, а начиная с 80-х годов - персональных компьютеров. Статистические программные пакеты сделали методы анализа данных более доступными и наглядными. Теперь уже не требуется вручную выполнять трудоемкие расчеты по сложным формулам, строить вручную сложные диаграммы и графики - всю эту черновую работу взял на себя компьютер, а исследователю осталась главным образом творческая работа: постановка задач исследования, выбор методов психологического исследования и грамотная интерпретация результатов.

Математическая статистика исходит из предположения, что наблюдаемая изменчивость окружающего мира имеет два источника:

Действие известных причин и факторов. Они порождают изменчивость, закономерно объяснимую.

Действие случайных причин и факторов. Большинство природных и общественных явлений обнаруживают изменчивость, которая не может быть целиком объяснена закономерными причинами. В таком случае прибегают к концепции случайной изменчивости. Выражение «случайный» в данном контексте означает «подчиняющийся законам теории вероятности».

Статистический подход – это выявление закономерной изменчивости на фоне случайных факторов и причин. Методы математической статистики позволяют оценить параметры имеющихся закономерностей, проверить те или иные гипотезы об этих закономерностях.

Целью работы является изучение описательных статистик.

Изучить предназначение описательной статистики;

Раскрыть сущность таких описательных статистик как мода, медиана, среднее значение, дисперсия, стандартное отклонение.

Аппарат математической статистики является изумительным по мощности и гибкости инструментом для отсеивания закономерностей от случайностей. Психологу-исследователю обязательно необходимо накапливать информацию об окружающем мире, пытаясь выделить закономерности из случайностей.

1. Описательная статистика

Первый раздел математической статистики – описательная статистика – предназначен для представления данных в удобном виде и описания информации в терминах математической статистики и теории вероятностей.

Основной величиной в статистических измерениях является единица статистической совокупности (например, любой из критериев оценки качества педагога-исследователя). Единица статистической совокупности характеризуется набором признаков или параметров. Значения каждого параметра или признака могут быть различными и в целом образовывать ряд случайных значений x1, х2, …, хn.

Переменная (variable) - это параметр измерения, который можно контролировать или которым можно манипулировать в исследовании. Так как значения переменных не постоянны, нужно научиться описывать их изменчивость.

Для этого придуманы описательные или дескриптивные статистики: минимум, максимум, среднее, дисперсия, стандартное отклонение, медиана, квартили, мода.

Относительное значение параметра - это отношение числа объектов, имеющих этот показатель, к величине выборки. Выражается относительным числом или в процентах (процентное значение).

Пример: Успеваемость в классе = числу положительных итоговых отметок, деленному на число всех учащихся класса. Умножение этого значения на 100 дает успеваемость в процентах. 25/100=25%

Удельное значение данного признака - это расчетная величина, показывающая количество объектов с данным показателем, которое содержалось бы в условной выборке, состоящей из 10, или 100, 1000 и т. д. объектов.

Пример. Для сравнения уровня правонарушений в разных регионах берется удельная величина - количество правонарушений на 1000 человек (N)

Минимум и максимум - это минимальное и максимальное значения переменной.

2. Среднее (Мх)

Исходным пунктом становления теории средних величин явилось исследование пропорций школой Пифагора. При этом не проводилось строгого различия между понятиями средней величины и пропорции. Значительный толчок развитию теории пропорций с арифметической точки зрения был дан греческими математиками – Никомахом Герасским (конец I – начало II в. н.э.) и Паппом Александрийским (III в. н.э.). Первым этапом развития понятия средней является этап, когда средняя стала считаться центральным членом непрерывной пропорции. Но понятие средней как центрального значения прогрессии не дает возможности вывести понятие средней по отношению к последовательности n членов, независимо от того, в каком порядке они следуют друг за другом. Для этой цели необходимо прибегнуть к формальному обобщению средних. Следующий этап – переход от непрерывных пропорций к прогрессиям – арифметической, геометрической и гармонической.

В истории статистики впервые широкое употребление средних величин связано с именем английского ученого У. Петти. У. Петти один из первых пытался придать средней величине статистический смысл, связав ее с экономическими категориями. Но описания понятия средней величины, его выделения Петти не произвел. Родоначальником теории средних величин принято считать А. Кетле. Он одним из первых начал последовательно разрабатывать теорию средних величин, пытаясь подвести под нее математическую базу. А. Кетле выделял два вида средних величин – собственно средние и средние арифметические. Собственно средние представляют вещь, число, действительно существующие. Собственно средние или средние статистические должны выводиться из явлений однокачественных, одинаковых по своему внутреннему значению. Средние арифметические – числа, дающие возможно близкое представление о многих числах, различных, хотя и однородных.

Каждый из видов средней может выступать либо в форме простой, либо в форме взвешенной средней. Правильность выбора формы средней вытекает из материальной природы объекта исследования. Формулы простых средних применяются в случае, если индивидуальные значения усредняемого признака не повторяются. Когда в практических исследованиях отдельные значения изучаемого признака встречаются несколько раз у единиц исследуемой совокупности, тогда частота повторений индивидуальных значений признака присутствует в расчетных формулах степенных средних. В этом случае они называются формулами взвешенных средних.

Иерархия средних значений:

среднее значение функции - понятие, определяемое многими способами.

Более конкретно, но на основе произвольных функций, определяются средние Колмогорова для набора чисел.

среднее степенное - частный случай средних Колмогорова при φ(x) = xα. Средние различных степеней связывает между собой неравенство о средних. Наиболее распространённые частные случаи:

среднее арифметическое (α = 1);

среднее квадратическое (α = 2);

среднее гармоническое (α = − 1);

по непрерывности при доопределяется среднее геометрическое, которое также является Колмогоровским средним при φ(x) = logx

среднее взвешенное - обобщение средней величины на случай произвольной линейной комбинации.

среднее хронологическое - обобщает значения признака для одной и той же единицы или совокупности в целом, изменяющихся во времени.

среднее логарифмическое, определяемое по формуле ā=(a1-a2)/ln(a1/a2), используется в теплотехнике

Среднее (оценка среднего, выборочное среднее) - сумма значений переменной, деленная на n (число значений переменной). Если вы имеете значения Х(1), ..., X(N), то формула для выборочного среднего имеет вид:

Пример: Наблюдение посещаемости четырех внеклассных мероприятий в экспериментальном (20 учащихся) и контрольном (30) классах дали значения (соответственно): 18, 20, 20, 18 и 15, 23, 10, 28. Среднее значение посещаемости в обоих классах получается одинаковое - 19. Однако видно, что в контрольном классе этот показатель подчинен воздействию каких-то специфических факторов.

Выборочное среднее является той точкой, сумма отклонений наблюдений от которой равна 0. Формально это записывается следующим образом:

(`х - х1) + (`х - х2) + ... + (`х - хn) =0

Для оценки степени разброса (отклонения) какого-то показателя от его среднего значения, наряду с максимальным и минимальным значениями, используются понятия дисперсии и стандартного отклонения.

3. Дисперсия (D)

Дисперсия выборки или выборочная дисперсия (от английского variance) – это мера изменчивости переменной. Термин впервые введен Фишером в 1918 году. Выборочная дисперсия вычисляется по формуле:

где `х - выборочное среднее,

N - число наблюдений в выборке.

Дисперсия меняется от нуля до бесконечности. Крайнее значение 0 означает отсутствие изменчивости, когда значения переменной постоянны.

4. Стандартное отклонение (σ)

Стандартное отклонение, среднее квадратическое отклонение (от английского standard deviation) вычисляется как корень квадратный из дисперсии. Чем выше дисперсия или стандартное отклонение, тем сильнее разбросаны значения переменной относительно среднего.

Пример: Для предыдущего случая имеем

Это означает, что в одном классе посещаемость высокая, стабильная, а в другом - отличается непостоянством.

5. Медиана (Ме)

Медианой (англ. median) называется значение исследуемого признака, справа и слева от которого находится одинаковое число упорядоченных элементов выборки. Если объем выборки – четное число, то медианой является среднее арифметическое двух центральных членов. Другими словами медиана разбивает выборку на две равные части. Также, как и среднее арифметическое, медиана дает общее представление о том, где находится центр выборки. В некоторых случаях медиана более удобна, чем среднее. Определение медианы было впервые использовано Гальтоном в 1882 г.

Медиана разбивает выборку на две равные части. Половина значений переменной лежит ниже медианы, половина - выше. Медиана дает общее представление о том, где сосредоточены значения переменной, иными словами, где находится ее центр. В некоторых случаях, например при описании доходов населения, медиана более удобна, чем среднее.

Рассмотрим способы определения медианы при различных значениях N. Для нахождения медианы измерения записывают в ряд по возрастанию значений. Если число измерений N нечетное, то медиана численно равна значению этого ряда, стоящему точно в середине, или на (N+1)/2 месте. Например, медиана пяти измерений: 10, 17, 21, 24, 25 – равна 21 – значению, стоящему на третьем месте (N+1)/2=(5+1)/2=3.

Если число измерений четное, то медиана численно равна среднему арифметическому значений ряда, стоящих в середине, или на N/2 и N/2+1 местах. Например, медиана восьми измерений: 5, 5, 6, 7, 8, 8, 9, 9 – равна 7,5 (7+8)/2=7,5 – среднему арифметическому значений ряда, стоящих на четвертом и пятом местах (N/2=8/2=4 и N/2+1=4+1=5).

Квартили представляют собой значения, которые делят две половины выборки (разбитые медианой) еще раз пополам (от слова кварта - четверть).

Различают верхнюю квартиль, которая больше медианы и делит пополам верхнюю часть выборки (значения переменной больше медианы), и нижнюю квартиль, которая меньше медианы и делит пополам нижнюю часть выборки.

Нижнюю квартиль часто обозначают символом 25%, это означает, что 25% значений переменной меньше нижней квартили.

Верхнюю квартиль часто обозначают символом 75%, это означает, что 75% значений переменной меньше верхней квартили.

Таким образом, три точки - нижняя квартиль, медиана и верхняя квартиль - делят выборку на 4 равные части.

¼ наблюдений лежит между минимальным значением и нижней квартилью, ¼ - между нижней квартилью и медианой, ¼ - между медианой и верхней квартилью, ¼ - между верхней квартилью и максимальным значением выборки.

6. Мода (Мо)

Мода (англ. mode) представляет собой наиболее часто встречающееся значение переменной (иными словами, наиболее «модное» значение переменной). Сложность состоит в том, что редкая выборка имеет единственную моду. Если в выборке несколько мод, то говорят, что она мультимодальна или многомодальна (имеет два или более «пика»). Таким образом можно сказать, что мода характеризует не только положение выборки, но отчасти и форму ее распределения.

Мода представляет собой максимально часто встречающееся значение переменной (иными словами, наиболее «модное» значение переменной), например, популярная передача на телевидении, модный цвет платья или марка автомобиля и т. д, Сложность в том, что редкая совокупность имеет единственную моду. (Например: 2, 6, 6, 8, 9, 9, 9, 10 – мода = 9).

Если распределение имеет несколько мод, то говорят, что оно мультимодально или многомодально (имеет два или более «пика»).

Ассиметрия – это свойство распределения выборки, которое характеризует несимметричность распределения СВ. На практике симметричные распределения встречаются редко и чтобы выявить и оценить степень асимметрии, вводят следующую меру:

Асимметрия бывает положительной и отрицательной. Положительная сдвигается влево, а отрицательная – вправо.

Эксцесс – это мера крутости кривой распределения.

Эксцесс равен:

Кривая распределения может быть островершинной, плосковершинной, средне вершинной. Эти четыре момента составляют набор особенностей распределения при анализе данных. Для нормального распределения А=0, Е=0.

Заключение

Описательные статистики дают нам возможность оценить характер распределения данных в изучаемой выборке. На основании этой оценки мы можем принять решение о том, какие критерии надлежит использовать в дальнейшей работе – например, при сравнении выборок. Описательные статистики являются основой построения статистических графиков и диаграмм – например, диаграмм размаха, т.е. являются предварительным этапом в проведении визуального анализа данных. Таким образом, можно отнести их к категории разведочных методов анализа данных.

Практическое задание

Провести кластерный анализ качеств личности

Agglomeration Schedule

	Cluster Combined			Stage Cluster First Appears

Vertical Icicle

Number of clusters
Number of clusters	Интеллегентный	Интелект	Ответственный	Отзывчивый

Кластерный анализ применяется, чтобы облегчить задачу классификации людей по большому количеству признаков.

Используем метод древовидной классификации. Метод древовидной классификации – это пошаговый метод разбиения выборки на отдельные группы. Анализ полученных данных позволил нам разделить выборку на два кластера. В первый вошли такие качества как интеллект, интеллигентность.

Второй кластер составили качества: веселый, добрый, отзывчивый, ответственный.

Список литературы

Гмурман В.Е. Теория вероятностей и математическая статистика: Учеб. Пособие для вузов/В.Е. Гмурман. – 9-е изд., стер. – М.:Высш. шк., 2003. – 188 с.

Годфруа Ж. Что такое психология. - М., 1992. – 288с

Оценка качества подготовки будущих учителей. – Тула: Изд-во Тул. гос. пед. ун-та, 2002. – 140 с.

Наследов А. Д. Математические методы психологического исследования. Анализ и интерпретация данных. - СПб.: Речь, 2004 – 392с.

Сидоренко Е. В. Методы математической обработки в психологии. -СПб., 2001 – 350 с.

«Управление кибернетика» - Отметка. Проблемный метод обучения. Книга. Родители. Знания. Управление и организация методической поддержки проектной деятельности в общеобразовательных учреждениях. Например, «цель - строительство нового многоэтажного жилого дома». Если нет, то промежуточной. В случае опосредования цели наличествует некоторый протекающий процесс.

«Школьный проект» - Статистические данные о вероисповедании. Какие учебные предметы можно было бы исключить из школьной программы? Учебные задачи. Меню будущего. Сколько детей у вас в семье? Кому-то не нравится, что занятия начинаются очень рано. активная самостоятельная деятельность учеников, направленная на создание нового продукта.

«Проекты» - В группе собирается информация на различных носителях. Необходима соответствующая организация предметно-познавательного пространства группы. Четко обозначенный ожидаемый, ориентированный на социальные интересы, результат деятельности участников. Степень творчества высокая, но доминирует ролево-игровая.

«Ученические проекты» - Стимулирование потока идей. Выявление противоречий, связанных с особенностями восприятия. Технология работы над ученическим проектом. Получение общего представления о будущем направлении. Этап планирования работы над проектом. Аналитический этап. Задачи. Презентация полученных результатов. Этапы проектной деятельности.

«Критерии оценки проекта» - Сколько лет, месяцев и дней прожил Робинзон Крузо на острове? Что относится к содержанию? В проекте оценка связана с достижением цели и критериями успешности. Что будет, если мы изобразим более 3-х маршрутов? Как оценить работу детей в телекоммуникационном проекте? Почему именно математика удостоилась кисти художника?

«Управление проектами» - Управление содержанием: инструменты и методы. Выходы. Управление содержанием: выходы, результаты. Определение содержания - контекст. Управление содержанием / проекты и продукты. Процесса 3) Устав проекта 4) Предварительное описание содержания 5) План управления проектом. Планирование содержания / Выходы.

Тип задачи	Вид модели	Математический метод решения
Задачи планирования без оптимизации (расчет объемов производства по видам продукции, увязка планов производства с ресурсами и т.п.)	Балансовые модели	Аппарат линейной алгебры, матричное исчисление
Задачи сетевого планирования и управление (СПУ) без оптимизации	Расчет по формулам модели СПУ	Аппарат теории графов
Задача учета и статистики (оперативный учет, получение различных форм отчетности и т.п.)	Расчет по формулам
Задачи контроля и анализа (анализ влияния и факторов, выявление тенденций, отслеживание отклонений и установление их причин)		Факторный анализ, дисперсионный анализ, регрессионный анализ
Задача создания нормативной базы	Статистические модели обработки реализаций случайных величин	То же
Расчет параметров функционирования сложных систем с неформализованными связями	Расчет по формулам имитационных моделей	То же
Задачи прогнозирования	Модели регрессионного анализа, оценка параметров и проверка статистических гипотез	Факторный анализ, дисперсионный анализ, регрессионный анализ, аппарат математической статистики
Прочие задачи, связанные с рутинными процессами переработки информации, т.е. с расчетами по заданным формулам (расчеты подетальных спецификаций, потребности в оборудовании и производственных площадях и другие расчеты технической подготовки производства)

В зависимости от степени формализованности связей f и g i между факторами моделей в выражениях (2.4) и (2.5) различают аналитические и алгоритмические модели.

Аналитической формой записи называется запись математической модели в виде алгебраических уравнений или неравенств, не имеющих разветвлений вычислительного процесса при определении значений любых переменных состояния модели, целевой функции и уравнений связи. Если в математических моделях единственная целевая функция f и ограничения g j заданы аналитически, то подобные модели относятся к классу моделей математического программирования. Характер функциональных зависимостей, выраженных в функциях f и g j , может быть линейным и нелинейным. Соответственно этому ЭММ делятся на линейные и нелинейные , а среди последних в специальные классы выделяются дробно -линейные , кусочно-линейные , квадратичные и выпуклые модели.

Если мы имеем дело со сложной системой, то зачастую гораздо легче построить ее модель в виде алгоритма, показывающего отношения между элементами системы в процессе ее функционирования, задаваемые обычно в виде логических условий – разветвлений хода течения процесса. Математическое описание для элементов может быть очень простым, однако взаимодействие большого количества простых по математическому описанию элементов и делает эту систему сложной. Алгоритмически же можно описывать даже такие объекты, которые в силу их сложности или громоздкости в принципе не допускают аналитического описания. В связи с этим к алгоритмическим моделям относятся такие, в которых критерии и (или) ограничения описываются математическими конструкциями, включающими логические условия, приводящие к разветвлению вычислительного процесса. К алгоритмическим моделям относятся и так называемые имитационные модели – моделирующие алгоритмы, имитирующие поведение элементов изучаемого объекта и взаимодействие между ними в процессе функционирования.

В зависимости от того, содержит ли ЭММ случайные факторы, она может быть отнесена к классу стохастических или детерминированных .

В детерминированных моделях ни целевая функция f , ни уравнения связи g j не содержат случайных факторов. Следовательно, для данного множества входных значений модели на выходе может быть получен только один-единственный результат. Для стохастических ЭММ характерно наличие среди факторов модели, описываемой соотношениями (2.4) и (2.5), таких, которые имеют вероятностную природу и характеризуются какими-либо законами распределения, причем среди функций f и g j могут быть и случайные функции. Значения выходных характеристик в таких моделях могут быть предсказаны только в вероятностном смысле. Реализация стохастических ЭММ в большинстве случаев осуществляется на ЭВМ методами имитационного статистического моделирования.

Следующим признаком, по которому можно различать ЭММ, является связь с фактором времени. Модели, в которых входные факторы, а следовательно, и результаты моделирования явно зависят от времени, называются динамическими , а модели, в которых зависимость от времени t либо отсутствует совсем, либо проявляется слабо или неявно, называют статическими . Интересны в этом отношении имитационные модели: по механизму функционирования они являются динамическими (в модели идет имитация работы объекта в течение некоторого периода времени), а по результатам моделирования – статическими (например, определяется средняя производительность объекта за моделируемый период времени).

И неспроста, ведь школьникам часто задают подобные сочинения. Поэтому необходимо знать, что они собою представляют.

Что такое сочинение-описание?

Такое сочинение, по сути, является текстом, базирующимся на описании как речевом типе. Все просто, не правда ли?

Следовательно, создать сочинение-описание - значит написать текст, содержащий черты данного речевого типа. Основным характерным качеством такого произведения можно назвать то, что оно дает ответ на вопрос «какой?». Для того чтобы все это лучше понять, рекомендуется прочитать пример текста-описания.

Наиболее распространенные темы подобных текстов

В большинстве случаев такое сочинение являет собой произведение, выдержанное в художественном стиле, и содержит описание определенной личности (портрета), вещи, пейзажа (состояния природы). Создать его достаточно просто. В качестве примера можно привести такие темы, как «Описание товарища», «Моя мама за работой», «Мой домашний любимец», «Наша аллея в осеннюю пору». В некоторых случаях тексты-описания бывают посвящены выдуманным личностям или вещам. Например, «Домик сказочного персонажа», «Описание моего любимого книжного героя». Вообще, тем может быть довольно много.

Предметы в движении

Текст-описание, помимо внешних деталей природы, зверей, людей, может включать в себя их внутренние характеристики - настроение, темперамент, их изменения. В таком сочинении предметы нередко бывают показаны в движении, иными словами, говорится о всевозможных действиях, осуществляемых людьми: как готовят блюдо, как сажают растение, как работают с каким-либо механизмом, как расчесывают волосы, как растапливают печку, как ставят палатку и др.

Да мало ли о чем можно еще написать! Описание всевозможных состояний, а также действий делает текст более правдоподобным, детальным, интересным. Необходимо Каждый ученик должен знать,

Научный текст-описание

Не стоит думать, что такие тексты бывают исключительно художественными. Также они могут быть техническими, деловыми, научными. И это не редкость. Научные тексты-описания содержат технические рассказы об устройствах, механизмах, отдельных элементах. Они включают в себя конкретные сведения об их использовании. В подобном сочинении можно встретить довольно редкие и не всем понятные термины.

Художественное сочинение-описание

Художественный текст-описание предполагает оперирование выразительно-изобразительными элементами родного языка. Такие сочинения часто вызывают затруднения у школьников. И даже предоставленный учителем, редко облегчает им задачу.

Но есть и талантливые ребята, которым это дается достаточно легко.

План такого сочинения

Обычно составляется по такому плану:

1. Общие сведения о предмете (Что он собой представляет? Кем он является? По какой причине именно данная вещь (личность, зверь) описывается?).

2. Частные характеристики предмета. Пример текста-описания обязательно должен содержать их. В случае, если речь идет о человеке, то поочередно рассказывается о его качествах: лице, теле, позиции, манере беседы. Если говорится о природе, то описываются ее признаки: кусты, трава, небо, оттенки цветов и др.

3. Личное мнение о том, что является темой текста.

Пример текста-описания

Еще достаточно тепло, однако уже становится печально от запаха минувшего лета, насыщенного, кисловато-терпкого.

С деревьев слетают обожженные палящим солнцем листья. Создается впечатление, что ветки темнеют, они притомились и хотят уснуть. Суетливые небольшие паучки торопливо плетут паутины, и люди, не замечая, срывают их. В особенном оживлении почему-то находятся птицы. Некоторые готовятся к перелету, другие, вволю насытившись летом, собираются зимовать. А молодые птички невероятно проворны, они летают, дерутся. Они еще не понимают, что такое холода, и не ожидают никаких неприятностей.

На склонах, среди густой растительности, торопливо пробегают ящерки. Лишь шелест и колыхание травы свидетельствуют о том, что они здесь. Также летают пчелы, которых, однако, не очень много. Кажется, что им тяжело удерживать в воздухе свои кругленькие тела. А бабочка здесь всего лишь одна. Она сидит на большом цветке репейника. Красавица может долго находиться в одном положении со сложенными крыльями, и создается впечатление, что она больше не сдвинется с места. За то время, пока она так сидит, можно успеть написать текст-описание, рассказывающий о ней.

А небо сейчас поразительно синее, высокое, с поднимающимся вверх светилом. Эти торжественные осенние цвета продержатся недолго, вскоре теплые оттенки перейдут в более холодные, тяжелые и мрачноватые. А пока на улице достаточно высокая температура воздуха, светит солнце, все доживает, спешит, и печально, что вот-вот придут холода.

Клены обзавелись багряным нарядом. Они покачиваются, пригорюнившись, на опушке, будто печалятся о том, что уже середина осени. Изредка с них падают резные красивые листья. Неожиданное дуновение ветра небрежно срывает часть осеннего наряда с печальных кленов. Как мило смотрятся березки, одетые в золото, посреди изумрудных сосен. Их ветки наклонены вниз. Березки грустят, что вскоре грянут морозы. Раскинув ветки, подобно гигантским исполинам, стоят изумрудно-желтые дубы.

Высоко в небесах громко перекликаются журавли. Они сбиваются в стаи и отправляются в теплые страны. Где-то высоко переговариваются дикие гуси. На родине становится морозно, и им приходится лететь на юг. Одни лишь воробышки изредка проносятся среди деревьев и громко чирикают. Им некуда торопиться. Недавно на уроке мы читали художественный текст-описание об этих милых пташках.

Однажды в осеннюю пору наша преподавательница показала нам на литературе репродукцию полотна Левитана под названием «Золотая осень», после чего мы решили обсудить данную картину. После того, как мы поговорили о ней, весь наш класс отправился на прогулку в Золотые листья и голубая вода, в которой были видны холодные белоснежные облака, слились в моем воображении с полотном прославленного живописца, и я на всю жизнь влюбилась в осень.

Стоял октябрь. Мы с преподавательницей шагали по парку. Листва шелестела под нашими сапогами, над водой изредка проносились дикие утки. Птицы готовились улетать и собирались в стайки.

Я вернулась из парка домой, однако какое-то торжественное чувство все еще царило в моей душе. Я ощущала необходимость как-то выразить его. Казалось, что оно рвалось из моей груди на свободу. Я присела возле окна. На улице, будто в огромном аквариуме, плыли люди, транспорт. С противоположной стороны дороги несколько девочек стояли возле ларька, они, щурясь от яркого света, улыбались проходящим мимо людям. Вот они увидели меня. Одна из них мило помахала мне, и от этого теплое чувство в моей душе стало только сильнее. Я встала, взяла ватман и карандаши. Я предчувствовала, что смогу создать прекрасную картину. Стала изображать первое, что приходило на ум: речку, деревья, храм с позолоченным куполом, самолет, птиц в вышине, ларек с девочками и маленькую собачку.

Вскоре сломался мой карандаш, и возникла вынужденная пауза, воспользовавшись которой, я посмотрела на картину оценивающим взглядом. Передо мной была кошмарная каша из предметов, птиц, прохожих и зверей. Но это не испортило моего настроения.

Я еще отчетливее осознала, как прекрасны талантливые живописцы, рисующие так, что картина получается лучше реальности. Весь этот замечательный день был до краев наполнен осенней атмосферой, которую я еще долго не забуду. Я решила создать небольшой текст-описание об этой прекрасной поре, которая не так давно поселилась в моем сердце.

В заключение

Теперь вы знаете все о текстах-описаниях. Опираясь на приведенный выше пример, вы, скорее всего, сможете создать свое собственное сочинение.

1.7.3. Методическая часть программы

1.7.3.1. Определение объема выборки

1.7.3.2. Описание используемых методов сбора первичной социологической информации

1.7.3.3. Логическая структура используемого инструментария

1.7.3.4. Методика обработки информации

1.7.3.5. Общий и рабочий план исследования

Вопросы

Литература

2. Методы сбора информации

2.1. Опрос

Вопросы:

2.2. Анкетирование

2.2.1. Виды анкетирования

Классификация видов анкетирования

2.2.2. Применение анкетирования в социальной работе

2.2.3. Структура анкеты

2.2.4. Классификация вопросов

Классификация вопросов анкеты

2.2.5. Правила проверки составленной анкеты

Вопросы

Литература

2.3. Беседа

2.4. Наблюдение

2.4.1. Наблюдение как вид исследования в социальных науках

2.4.2. Основные термины и понятия

2.4.3. Классификация видов наблюдения

2.4.3.1. Неструктурализованное (неструктурированное, нестандартизированное, простое) и структурализованное (структурированное, стандартизированное) наблюдение

Реакция участников собрания на выступление, доклад (обвести кружком нужную цифру в соответствующей клеточке)

I. Карточка выступающего

II. Карточка регистрации реакции аудитории на выступление

III. Карточка регистрации общей ситуации во время выступлений

2.4.3.2. Непосредственное (прямое) и косвенное наблюдение

2.4.3.3. Контролируемое и неконтролируемое наблюдение

2.4.3.4. Открытое (явное) и скрытое (тайное, инкогнито) наблюдение

2.4.3.5. Включенное (участвующее, соучаствующее) и невключенное (внешнее, простое) наблюдение

2.4.3.6. Полевое, лабораторное и лабораторно–полевое наблюдение

2.4.3.7. Систематическое и случайное (несистематическое) наблюдение

2.4.3.8. Однократное и многократное (панельное) наблюдение

2.4.4. Применение наблюдения в различных видах исследований

2.4.5. Этапы проведения наблюдения

2.4.5.1. Подготовка исследования

2.4.5.2. Сбор первичной социологической информации

2.4.5.3. Обработка материала

2.4.5.4. Оформление выводов

2.4.6. Достоинства и недостатки метода наблбюдения

2.4.7. Подготовка наблюдателя

2.4.8. Надежность данных наблюдения

Дневник наблюдения

Вопросы

Литература

2.5. Анализ документов

2.5.1. Применение метода анализа документов

2.5.2. Классификация видов документов

2.5.2.1. Письменные, иконографические или аудиовизуальные, фонетические документы

2.5.2.2. Вербальные и статистические документы

2.5.2.3. Официальные и неофициальные (частные) документы

2.5.2.4. Личные и безличные (общественные) документы

2.5.2.5. Первичные и вторичные документы

2.5.2.6. Целевые и наличные (естественно существующие) документы

2.5.2.7. Индивидуальные и групповые документы

2.5.2.8. Подлинные и поддельные документы

2.5.2.9. Адекватные и неадекватные документы

2.5.2.10. Пресса и косвенные документы

2.5.3. Виды анализа документов

2.5.3.1. Традиционный анализ

2.5.3.2. Формализованный анализ (количественный, контент-анализ)

2.5.4. Краткая история развития контент-анализа

2.5.5. Использование контент-анализа в социальных науках

2.5.6. Выбор необходимых видов документов

2.5.7. Этапы проведения контент-анализа

2.5.7.1. Выработка категорий анализа

2.5.7.2. Выделение единиц анализа

1. Понятие, выраженное отдельным словом, термином или словосочетанием слов.

2.5.7.3. Выделение единицы счета

2.5.8. Достоинства и недостатки анализа документов

2.5.9. Разработка инструментария

2.5.10. Разработка инструкций кодировщику

Вопросы

Литература

2.6. Тестирование

3. Методы анализа данных

3.1. Качественные методы

3.2. Количественные методы

Описательная статистика

3.3. Использование компьютера для анализа данных

Литература

Лр № 020658

107150, Г. Москва, ул. Лосиноостровская, 24

Описательная статистика

Цель любого научного исследования, как мы уже указывали, заключается в обнаружении закономерностей внутри определенного класса явлений. Закономерность, в самом широком смысле слова, означает некую регулярность, однотипность. О регулярности, в свою очередь, можно говорить там, где явления повторяются, где они носят более или менее массовый характер. Статистические методы как раз и предназначены для анализа подобных явлений и процессов. Они позволяют выявлять устойчивые тенденции и строить на этой основе теории, предназначенные для их объяснения.

Наука всегда имеет дело с разнообразием действительности, но свою задачу она видит в обнаружении порядка вещей, некоторой устойчивости внутри наблюдаемого разнообразия. Например, антропология изучает физические особенности строения тела человека. По признакам строения тела (цвета кожи, глаз, волос, формы черепа и т.д.) она выделяет определенные типы – человеческие расы. Но ее не интересуют такие признаки, как количество глаз, ушей или пальцев, поскольку это константы: люди (в норме) не различаются между собой по этим признакам. Выше уже было сказано, что наука имеет дело с переменными, однако она стремится выделить такие их значения, которые лучше всего объясняют наблюдаемое разнообразие проявлений. Статистика снабжает нас удобными приемами такого анализа.

Для использования статистики требуются два основных условия:

а) мы должны иметь данные о группе (выборке) людей;

б) эти данные должны быть представлены в формализованном (кодифицированном) виде.

Задачи описательной статистики в целом совпадают с задачами качественного анализа: это сжатие информации и представление ее в удобном для обозрения виде.

Наиболее простой случай возникает тогда, когда наши данные могут быть представлены одной переменной. Используемые для этого методы объединяются в группу под названием одномерный статистический ана лиз . В зависимости от типа данных и задач, которые ставит исследователь, выбирается тот или иной конкретный способ анализа.

Достаточно простым и удобным приемом анализа количественных данных является построение распределения частот . Проиллюстрируем его на примере. Допустим, проводится исследование, в котором каждому участнику, среди прочих, задается вопрос о его семейном положении. Ответы фиксируются, а общие результаты сводятся в таблицу, где против фамилии каждого участника указано его семейное положение. Далее эти первичные данные мы хотим представить в более сжатой и удобной для анализа форме. Для этого мы разбиваем их на категории, подсчитывая количество людей в каждой группе. Сами категории выбираются в зависимости от целей исследования и могут быть более широкими или более узкими. Если используется вопрос закрытого типа, то мы сразу фиксируем ответы в кодированной форме. Если же используется вопрос открытого типа, то кодирование осуществляет сам исследователь. Отметим, что более узкие категории всегда можно укрупнить. Но если информация структурируется прямо на этапе ее сбора, то потом нельзя будет разбить данные на большее число категорий. Часть информации оказывается потерянной.

Предположим, мы выбрали следующие категории: женат/замужем , холост/не замужем , разведен/разведена , вдовец/вдова . Подсчитывая число ответов в каждом классе, мы можем построить таблицу распределения, которая значительно компактнее и удобнее для анализа, чем полная таблица ответов. Предположим, всего было 30 респондентов, и один из них отказался отвечать на данный вопрос. Тогда таблица распределения частот может иметь следующий вид:

Таблица 6

Данные о семейном положении респондентов

Семейное положение			Проценты
Женат/замужем
Холост/не замужем
Разведен/разведена
Вдова/вдовец
Данные отсутствуют

Из таблицы видно, что большая часть респондентов (более половины) женаты или замужем. Отметим, что если какие-то данные отсутствуют, их следует выделить в самостоятельную категорию. Анализ таких пропущенных значений часто выделяют в самостоятельную задачу.

Анализируя таблицу, мы сравниваем между собой категории и видим, как они представлены в нашей выборке. Нас чаще всего интересуют не абсолютные значения, а относительные. И тогда мы переводим частоты в доли относительно общего числа наблюдений, которое мы принимаем за единицу. Для этого мы делим каждое значение на общее число наблюдений (в нашем случае – на 30). Полученные дроби можно внести в таблицу отдельным столбцом. Тогда хорошо видно, что в нашей выборке немногим более половины респондентов находятся в браке, а около четверти – в разводе. Относительные значения удобны еще и тем, что позволяют легко сопоставлять данные по двум выборкам разного объема. Допустим, у нас есть данные о семейном положении другой группы людей и мы хотим сравнить их с данными первой группы. Если во второй группе тоже тридцать человек, то можно прямо сравнивать частоты. Если же выборки различаются размерами, то мы предварительно вычисляем относительные значения путем деления абсолютной величины на объем выборки. Последний показатель принято обозначать латинской буквой N . В разобранном только что примере N = 30.

Помимо долей, относительными единицами являются также проценты . Если в первом случае целое принимается за единицу, то во втором случае – за сто процентов. От долей легко перейти к процентам: каждое значение просто умножается на сто. Процентное выражение предпочтительнее тем, что с целыми числами работать удобнее, чем с дробями. Но по существу проценты и доли – это эквивалентные единицы наподобие рубля и копейки. Относительные единицы позволяют сравнивать не только аналогичные показатели, полученные на разных выборках, но и качественно различные показатели между собой. Например, для характеристики имущественного расслоения в обществе используют следующий прием: подсчитывают, какой процент всей собственности сосредоточен в руках десяти процентов самых богатых людей. Понятно, что в случае полного имущественного равенства этот показатель будет равен десяти процентам. Чем он больше отличается от этого значения, тем выше степень имущественного неравенства в обществе.

Последний столбец в Табл. 6 представляет данные в процентах. Обратим внимание, что итог у нас оказался несколько меньше ста процентов из-за округлений при вычислениях. Поскольку данные по одному индивиду отсутствуют, можно пересчитать проценты без этой пустой категории, полагая теперь N = 29. Скорректированные данные представлены в скобках. При сравнении с другой выборкой мы будем использовать именно их.

До сих пор мы разбирали случай, когда исходные данные были качественными, то есть образовывали шкалу наименований. Но мы можем строить распределение частот и для шкал порядка или отношений. Правда, в последнем случае обычно данные представляют в сгруппированном виде, так как иначе образуется очень много классов. Например, мы исследуем возрастной состав той же группы из тридцати человек. Если она не однородна в этом отношении, данные окажутся "размазанными". Тогда мы их группируем, выбирая определенный шаг (например, пять или десять лет), и вносим в таблицу обобщенные данные. Шаг выбирается с учетом характера данных и задач анализа. Снова отметим, что группировка данных приводит к потере части информации, но зато мы добиваемся ее лучшей обозримости. Таблица, которая в результате получится, может выглядеть так:

Таблица 7

Данные о возрастном составе группы

Возрастная группа	Проценты	Накопленные частоты	Накопленные проценты

В первом столбце представлены возрастные интервалы. Обратим внимание, что они не пересекаются, то есть мы берем интервалы 20-29, 30-39, а не 20-30, 30-40. Иначе не ясно будет, куда относить индивидов, попадающих на стык возрастных групп. Во втором и третьем столбцах представлены соответственно частоты и проценты. Глядя на них, мы видим, что возрастной состав группы неоднородный: в ней преобладают молодые люди, а люди старших возрастов встречаются реже.

В четвертом и пятом столбцах частоты и проценты представлены в несколько иной форме, которая применима для упорядоченных категорий (шкал порядка или отношений). Частоты и проценты суммируются по всем предыдущим категориям. При такой форме представления данных хорошо видно, сколько человек или какая доля выборки находятся ниже (или выше) определенного уровня. В нашем примере 25 человек из 30, или 83,4 %, моложе пятидесяти лет.

Данные о распределении переменной можно представить не только в форме таблиц , но и в форме графиков , которые еще более наглядны. Рассмотрим четыре типа графиков, которые чаще всего используются в случае одномерного распределения. Для неупорядоченных категорий (шкала наименований) обычно применяют столбиковые диаграммы . Число столбиков соответствует числу категорий. Высота каждого столбика отражает частоту встречаемости данной категории. Все столбики рисуются одинаковой ширины и не соприкасаются друг с другом. Порядок их расположения на горизонтальной оси может быть любым. Для представления долей и процентов удобны круговые диаграммы . Весь круг соответствует единице или ста процентам, а величина каждого сектора отражает представительство соответствующей категории.

Для наглядного представления измеренных данных (шкала равных интервалов) используются так называемые гистограммы и полигоны . Гистограмма похожа на столбиковую диаграмму, только на горизонтальной оси в этом случае указываются границы интервалов. Столбики примыкают друг к другу. Высота столбика соответствует наблюдаемой частоте. Гистограмму легко преобразовать в полигон. Для этого середины вершин каждого столбца соединяются между собой прямыми отрезками. Получается ломаная линия, повторяющая контур, образуемый столбиками. Гистограмма удобна для изображения особенностей одного распределения. Преимущество полигона заключается в том, что на одном графике можно представить несколько полигонов и затем сравнивать между собой разные выборки.

Построение таблиц и графиков – это первый шаг статистического анализа. Следующим шагом является оценка параметров распределения . Вычисляются показатели, которые позволяют дать еще более сжатое описание наблюдаемых значений. Эти показатели распадаются на две основные группы: меры центральной тенденции и меры рассеяния . К наиболее часто используемым показателям первого типа относится так называемое (арифметическое) среднее . Вычисляют его, как известно, путем суммирования значений всех наблюдений и деления полученной суммы на общее число наблюдений. В случае сгруппированных данных поступают следующим образом: находят середину каждого интервала, это значение умножают на частоту, полученные величины складывают и делят на общее число наблюдений. Рассматриваемый показатель характеризует область распределения, в которой концентрируются наиболее типичные представители изучаемой выборки. Но это справедливо лишь для тех случаев, когда распределение близко к нормальному . При таком распределении основная масса значений концентрируется в его средней части, а любые отклонения встречаются тем реже, чем дальше они отстоят от центра. Например, распределение такого признака, как рост человека, в целом близко к нормальному: больше всего людей среднего роста, а очень высокие и очень маленькие попадаются довольно редко. Средняя величина удобна для сравнения двух выборок или двух популяций. Так, мы говорим, что мужчины в среднем выше женщин, и это утверждение вполне справедливо, несмотря на то, что встречаются высокие женщины, рост которых значительно превышает среднестатистический. Или, например, известно, что средний рост мужчины-пигмея меньше роста средней европейской женщины.

Две другие меры центральной тенденции – это мода и медиана . В качестве моды берется значение, которое чаще всего встречается в распределении. Моду специально вычислять не надо. Достаточно сгруппировать данные и выбрать тот класс, в который попадает больше всего наблюдений. В разобранном выше примере (см. табл. 6) лучше всего представлена категория семейных людей. Это и есть мода для данной выборки. Можно рассчитать среднее количество детей в современной российской семье. Допустим, мы получим показатель 1,3. Но какой реальный смысл он будет иметь? Что такое три десятых ребенка? Правильнее сказать, что сейчас в семье чаще всего один ребенок, то есть использовать моду в качестве показателя центральной тенденции. Встречаются распределения, имеющие не одну, а две моды. Распределение такого типа называется бимодальным . На графике в этом случае мы увидим две вершины. Чаще всего это указывает на то, что выборка является неоднородной: в ней присутствуют два типа объектов. Констатация такого факта обычно наводит нас на мысль разбить всю выборку на две подгруппы и рассмотреть их отдельно.

Для того чтобы найти медиану, нужно ранжировать все наблюдения, то есть расположить их в порядке возрастания значений. Значение того наблюдения, которое окажется как раз посредине, и будет медианой. А если число наблюдений четное? Тогда сравнивают значения двух наблюдений, попадающих в середину. Если они различаются между собой, то берется их среднее арифметическое значение. В случае сгруппированных данных медиана рассчитывается по специальной формуле. Когда распределение имеет нормальный вид (то есть оно симметрично), его среднее арифметическое значение и медиана совпадают. Когда же распределение асимметрично (скошено), медиана лучше схватывает его центральную тенденцию.

Выбор подходящей меры центральной тенденции определяется как характером распределения, так и характером используемых данных. Качественные данные (шкала наименований) допускают использование только моды. Для ранжированных данных (шкала порядка) допустимо использование и моды, и медианы. Количественные данные (шкала равных интервалов) можно описывать любым из трех показателей, хотя на практике чаще всего в этом случае вычисляют среднее арифметическое значение. Именно этот показатель вместе с показателем рассеяния участвует в расчете целого ряда других статистических показателей.

Показатели рассеяния характеризуют степень разброса данных вокруг некоторого среднего значения. Мы говорим о значительном рассеянии тогда, когда многие значения сильно отклоняются от воображаемого центра распределения. Специалисты по математической статистике говорят, что в этом случае данные "размазаны". Про распределение, характеризующееся малым разбросом, говорят, пользуясь аналогией из области стрельбы, что данные ложатся кучно. Понятно, что во втором случае среднее значение оказывается более информативным показателем, чем в первом случае, то есть оно лучше описывает выборку в целом. Например, в кордебалет идет строгий отбор танцовщиц по росту. В результате рассеяние показателей роста в этой группе людей значительно меньше, чем по популяции в целом. Зная средний рост балерины, можно быть уверенным, что реальный рост любой балерины будет очень близок к нему. Если брать измерительные инструменты, то их точность определяется степенью разброса получаемых с их помощью данных: чем меньше разброс, тем выше точность измерения.

Как оценить степень рассеяния значений переменной? Здесь тоже существуют разные способы, выбор которых в каждом конкретном случае определяется характером данных – их типом и распределением. Некоторое представление о рассеянии мы получаем, когда рассматриваем крайние члены распределения. Расстояние между ними называется размахом . Например, в разобранном выше примере (см. табл. 7) выборка включает индивидов, чей возраст колеблется в пределах от двадцати до семидесяти лет. Общий размах составляет пятьдесят лет. Большинство людей (40 %) моложе тридцати лет. Но в выборку попали два человека, которым уже за шестьдесят. Если мы вычислим показатель центральной тенденции по формуле среднего арифметического, то получим значение 36,5. Так как распределение сильно скошено, этот показатель сильно отличается от моды (25 лет). Медиана в этом случае лежит между этими двумя значениями (33,3).

Для более точной оценки рассеяния в случае измерений по шкале равных интервалов используется показатель, называемый дисперсия . В этом случае учитывается отклонение каждого индивидуального значения от среднего в одну или в другую сторону. Нас интересует сумма таких отклонений. Но в случае симметричного распределения эта сумма всегда обращается в нуль, поскольку положительные и отрицательные отклонения взаимно гасятся. Поэтому используют сумму квадратов отклонений. Квадрат любого числа – величина положительная, и эта сумма тем больше, чем больше рассеяние измерений. Сумма квадратов отклонений от среднего, деленная на количество наблюдений N дает значение дисперсии. Если извлечь из этого выражения квадратный корень, то мы получим еще одну меру рассеяния – стандартное отклонение , которое также называют среднеквадратическим отклонением. Удобство этого показателя в том, что он выражается в тех же единицах, что и сами измеренные величины.

Рассмотренный показатель очень удобен, когда форма распределения близка к той, которая называется нормальным распределением. Мы уже упоминали этот термин. Сейчас поясним, что он означает. Нормальное распределение – это такое распределение непрерывного признака, которое симметрично относительно среднего значения, и если откладывать его значения на графике, то кривая имеет вид колокола. Рост человека оказывается одним из признаков, обнаруживающих распределение, хорошо описываемое нормальной кривой. Если мы измеряем рост многих людей, например – призывников в армию, а затем на основе этих данных строим график, то мы получаем нормальную кривую. С точки зрения анализа данных нормальное распределение привлекательно тем, что его можно исчерпывающе описать через два параметра – значение среднего и стандартного отклонения (дисперсии). Вместо тысяч значений – всего два числа! Чрезвычайно эффективный метод сжатия информации.

Стандартное отклонение действительно позволяет четко задавать критерии для выявления статистической нормы. Это возможно благодаря тому, что свойства нормального распределения хорошо известны и достаточно просто описываются. Так, известно, что в диапазоне одного стандартного отклонения в обе стороны от среднего оказывается примерно 68% всех наблюдений, а если взять два стандартных отклонения, то этот участок распределения покроет около 95% всех случаев. Значит, за этот диапазон выходит всего 5% возможных наблюдений. Проинтерпретируем это содержательно. Что значит "высокий человек"? С точки зрения статистики, человек, рост которого превышает средний рост по данной популяции более чем на величину одного стандартного отклонения, может считаться высоким, а того, чей рост выделяется в положительную сторону более чем на два стандартных отклонения, следует отнести к категории очень высоких. Ведь такой рост будет встречаться не чаще, чем в трех случаях из ста.

Используя свойства нормального распределения, можно ввести строгие количественные критерии, определяющие, что такое "нормальный вес", "нормальная острота зрения" и т.д. Психологические тесты тоже создаются с опорой на эти статистические закономерности. Выше, в разделе о тестах, мы касались процедуры конструирования и стандартизации тестов. Мы там указывали, что нормы для оценки результатов испытаний выводят эмпирически с использованием аппарата математической статистики. Теперь, после знакомства с основными идеями статистического анализа, можно пояснить эту процедуру. Трудность заданий подбирается таким образом, чтобы распределение результатов решения тестовых задач (число правильных ответов) описывалось нормальным законом. А затем строится шкала, где среднему значению соответствует сто баллов, а стандартное отклонение равно пятнадцати баллам. Выводимый показатель называется коэффициентом интеллектуального развития (по-английски – intelligence quotient, или сокращенно IQ). Человек, у которого этот показатель ниже 70, считается умственно отсталым, а человека с показателем выше 130 относят к категории особо умственно одаренных.

Мы подробно разобрали случай, когда анализируется характер распределения одной переменной. Эти приемы очень важны, поскольку на них основаны все другие виды статистического анализа. Теперь мы можем перейти к более сложному виду анализа, каким является двумерный анализ . Здесь рассматривается связь между двумя переменными. Мы имеем пары наблюдений, полученные на одном объекте. Это могут быть, например, результаты по двум тестам. Нас интересует, как один изучаемый признак связан с другим.

Важнейшей мерой связи является коэффициент корреляции . Само слово "корреляция" как раз и означает "взаимосвязь". Какого типа отношения возможны между двумя переменными? Ну, во-первых, признаки могут быть совершенно независимыми друг от друга, тогда изменения одного никак не связаны с изменением другого. Мы говорим, что переменные не коррелированы между собой. Если признаки связаны, то сама связь может быть прямой или обратной. В первом случае большим значениям одного признака соответствуют более высокие значения другого и наоборот. Во втором случае увеличение первого признака сопровождается уменьшением второго, а уменьшение первого – увеличением второго. Статистики говорят о положительной и отрицательной корреляции. Наконец, степень связи тоже может варьироваться от максимума, когда значения одного признака позволяют уверенно предсказывать значения другого, до ее полного отсутствия. Коэффициент корреляции отражает всю гамму возможных отношений. Его значение может варьироваться от +1 до -1. Положительные значения указывают на прямую связь между переменными, отрицательные – на обратную. Нуль соответствует случаю отсутствия корреляции.

Предположим, что у многих людей измеряют рост и вес тела. Каждый человек описывается двумя показателями, и в результате образуются два ряда измерений. Сравнивая между собой пары измерений, мы стремимся выявить характер связи между переменными. Между ростом и весом тела существует довольно высокая положительная корреляция. Это значит, что высокий человек, как правило, весит больше, чем человек меньшего роста. Связь эта не однозначная: высокий человек может быть очень худым, а человек невысокого роста может быть очень полным, поэтому значение коэффициента корреляции в данном случае находится где-то между 0 и +1, видимо, чуть ближе к единице.

Коэффициент корреляции по-разному вычисляется для измеренных показателей (рост, вес) и для ранжированных данных (оценки, предпочтения), но его окончательная форма и интерпретация остаются теми же. Если данные носят качественный характер (мужчина – женщина, совершеннолетний – несовершеннолетний, работающий – пенсионер), то вместо коэффициента корреляции применяются другие меры связи, основанные на сравнении частот. Для тех случаев, когда два ряда получены с помощью разных шкал, имеются свои вычислительные процедуры, но общая логика анализа сохраняется.

Следует специально остановиться на вопросе интерпретации данных двумерного анализа, поскольку здесь требуется известная осторожность. Мы касались этой проблемы в первой главе, когда обсуждали момент перехода от научного описания к объяснению. Там отмечалось, что сам факт наличия связи между двумя переменными еще не позволяет утверждать о существовании причинно-следственных отношений между ними. Корреляция может указывать на такие отношения, но одной этой информации недостаточно, чтобы делать однозначные выводы. Тогда мы пояснили это на примере интерпретации уровня интеллекта родителей и детей. Сейчас имеет смысл вернуться к данной проблеме и рассмотреть ее глубже.

Итак, в ряде случаев корреляция между двумя переменными отражает то обстоятельство, что они связаны между собой как причина и следствие. Но причинно-следственные отношения – это лишь один из возможных типов связи. Определенно можно утверждать только следующее: если два явления никак не связаны между собой, то заведомо исключены любые взаимовлияния. Отсутствие корреляции опровергает гипотезу о возможных связях причинно-следственного характера, и такой отрицательный результат может быть полезен в плане уточнения теории.

Отношения между двумя коррелированными переменными X и Y могут быть содержательно самыми разными:

Случай 1 : явление Х вызывает явление Y , выступает как его причина.

Случай 2 : явления Х и Y взаимно обусловливают друг друга.

Случай 3 : некоторое третье явление А вызывает явление Х и явление Y , выступает как причина их обоих.

Случай 4 : явление Х вызывает явление Y , действуя в комплексе с другими факторами.

Для иллюстрации приведем пример. Он похож на шутку, но хорошо демонстрирует суть проблемы. Если сравнивать между собой два показателя – потребление мороженого и количество утонувших, то между ними можно обнаружить положительную корреляцию. Значит ли это, что любовь к мороженому приводит к несчастным случаям на воде или (совершенно абсурдный вывод) что отношение здесь обратное? Конечно, нет. Очевидно, что есть некий третий фактор, который объясняет оба явления. Это – температура воздуха. В жаркую погоду едят много мороженого и купаются. В холодную погоду потребление мороженого и количество купающихся резко падает. Понятно, что в эти дни почти никто не тонет. Перед нами ситуация, соответствующая третьему из схематически представленных случаев.

Социальные науки чаще всего имеют дело с явлениями, которые отличаются множественной детерминацией и контекстуальным характером. Здесь трудно устранить влияние посторонних переменных, выделить явление в чистом виде. Поэтому необходима особая тщательность в интерпретации наблюдаемых фактов. Для того чтобы избежать необоснованных выводов, исследователь должен обладать определенной методологической культурой, понимать, какого рода подводные камни могут встретиться на этом пути.

Корреляционный анализ представляет собой метод выявления связи между двумя переменными. Если число переменных больше двух, то можно, вообще говоря, рассматривать каждую пару отдельно. Но существуют приемы, специально разработанные для данных такого рода, которые в совокупности носят название многомерный анализ . Мы кратко рассмотрим один из этих методов – факторный анализ, который довольно часто используется в социальных исследованиях. В вычислительном плане он весьма сложен, но использование компьютера существенно упрощает дело. Современному исследователю не надо вдаваться в тонкости вычислительной процедуры, а достаточно понимать возможности этого метода и знать особенности работы с ним.

Факторный анализ является своеобразным развитием метода множественных корреляций. Вначале рассчитываются коэффициенты корреляции между парами переменных. Затем чисто математически получают несколько общих факторов, связанных с группами изучаемых признаков. Поскольку число таких факторов меньше числа исходных переменных, этот вид анализа можно рассматривать как способ сжатия информации, приведения ее к более компактному виду. Последний этап анализа – содержательная интерпретация полученных факторов. Ее осуществляет сам исследователь, выявляя те переменные (признаки), которые теснее всего связаны с каждым фактором. Например, исследуются интересы людей. Если вокруг одного фактора группируются такие виды активности, как посещение театра, концертов, художественных выставок, то мы назовем такой фактор "эстетические интересы". Другим фактором может быть, например, интерес к спорту. В результате мы получаем несколько групп однотипных интересов. С точки зрения структуры данных, отдельный фактор представляет собой как бы интегральный индикатор, выявляющий комплекс взаимосвязанных проявлений. Еще один пример. Исследование качества обслуживания в доме престарелых путем опроса его обитателей выявило два главных фактора удовлетворенности: отношение персонала (доброта, отзывчивость, уважение, готовность помочь, расторопность) и условия содержания (состояние здания и территории, оборудование комнат, чистота, качество питания).

Итак, факторный анализ является объективным методом выявления структуры изучаемых данных. Его можно рассматривать как количественный аналог типологического анализа, проводимого на качественном уровне. Будучи формальным аппаратом, факторный анализ не может гарантировать, что получаемые результаты будут интересными с точки зрения исследователя. Например, иногда выделяемые факторы трудно содержательно интерпретировать: в них входят довольно разнородные компоненты, которые трудно объединить каким-то общим понятием. Во всяком случае, как любой метод вообще, факторный анализ сам по себе не может быть хорошим или плохим, эффективным или бесполезным. Все зависит от того, насколько уместно он применяется, в какой степени он соответствует задачам исследования и характеру анализируемых данных.

Теперь обратимся ко второй большой группе количественных методов анализа, на основе которых делается статистический вывод . В этом случае стоит задача перехода от отдельной выборки к характеристикам (параметрам) генеральной совокупности, то есть всего класса объектов в целом. Дело в том, что исследователь редко имеет возможность изучать всех представителей какой-то группы или социальной категории. Можно, например, обследовать все многодетные семьи, проживающие в данном микрорайоне, но тогда выводы в полной мере будут относиться лишь к этой конкретной группе людей. Насколько они справедливы для многодетных семей всего города или области? Чтобы ответить на этот вопрос, нужно знать, насколько типична или специфична обследованная группа. Если она типична, то сходные проблемы выявятся и у других многодетных семей. Если группа очень специфична, то мы не имеем права обобщать полученные данные. На языке статистики это значит, что наша выборка принадлежит к другой генеральной совокупности. Опять мы сталкиваемся с задачей сравнения характеристик выборки и генеральной совокупности, с необходимостью суждения об их тождестве или различии.

В реальной практике исследования вопрос чаще всего ставится несколько иначе, но логически он относится к тому же классу. Требуется сравнить две группы (выборки) и решить, насколько значимо они различаются между собой. Любой эксперимент предполагает оценку эффекта изучаемого воздействия. Исследователь в этом случае стремится показать, что экспериментальная группа существенно отличается в интересующем его отношении от контрольной группы. Оценивая эффективность образовательных программ, лечебных и оздоровительных мероприятий, мы смотрим, насколько существенными оказываются позитивные сдвиги. И что называть сдвигом? Если больной выздоровел, то это – явный качественный сдвиг. Если ему стало легче, его меньше беспокоят боли, то это некоторый количественный сдвиг. Но можно ли говорить о переходе из одного состояния в другое? Для этого нам нужны критерии тождества или различия двух состояний. Статистика в этой второй своей роли предлагает определенные формальные правила, позволяющие делать такого рода выводы.

Общая логика рассуждений такова. У нас есть два множества объектов. Если различие между ними по какому-то параметру настолько очевидное, что эти два множества не пересекаются, мы с уверенностью говорим, что это два разных класса объектов. Например, если минимальное значение дохода в одной группе населения превышает максимальное значение дохода в другой группе, то мы вправе утверждать, что группы различаются по своему материальному положению. Но это случай весьма тривиальный. Никому не придет в голову проводить исследования, чтобы доказать, что слон больше муравья. Это очевидно. Наука имеет дело с нетривиальными задачами, то есть с такими ситуациями, где на основании имеющихся знаний мы выдвигаем какие-то более или менее правдоподобные гипотезы, которые еще нуждаются в проверке и в доказательстве. Обычный случай, с которым имеет дело ученый, – это частично пересекающиеся множества (частично перекрывающиеся распределения). Вот тут и встает проблема различения и отождествления.

Проблема осложняется тем, что кроме нечеткости категорий (математики в этом случае говорят о размытых множествах) нужно учитывать возможность всякого рода ошибок. Ошибки измерений связаны с точностью тех инструментов, которые мы используем. Никакой инструмент не дает абсолютной точности измерений. А надежность тех методов сбора информации, которыми пользуются исследователи в социальных науках, далеко уступает надежности физических приборов. Кроме того, нужно учитывать возможную ошибку выборки. Так как для исследования берутся только некоторые экземпляры, у нас нет никакой гарантии, что они являются типичными представителями популяции в целом. Рассмотренные нами ранее способы корректного построения выборки направлены на устранение систематической ошибки, но случайные ошибки полностью исключить невозможно. Статистика не претендует на то, чтобы сделать наши суждения абсолютно достоверными. Она ставит перед собой более скромную задачу: оценить степень надежности получаемых данных и степень надежности тех выводов, которые делаются на их основе. Для этой цели используется аппарат теории вероятностей.

Нетрудно доказать, что ошибка выборки зависит от двух моментов: от размера выборки и от степени вариации признака, который нас интересует: чем больше выборка, тем меньше вероятность того, что в нее попадут индивиды с крайними значениями исследуемой переменной. С другой стороны, чем меньше степень вариации признака, тем в целом ближе будет каждое значение к истинному среднему. Размер выборки нам известен. А степень вариации признака можно примерно оценить по степени разброса данных. Таким образом, зная размер выборки и получив меру рассеяния наблюдений, нетрудно вывести показатель, который называется стандартная ошибка среднего . Он дает нам интервал, в котором должна лежать истинная средняя популяции.

Описанная процедура основана на том факте, что ошибки выборки и ошибки измерений вообще подчиняются нормальному закону, поскольку они обусловлены множеством случайных факторов. При этом совершенно не обязательно, чтобы само распределение данных имело нормальный вид. Представим себе, что мы изучаем разные случайные выборки из одной генеральной совокупности. Оценки среднего, получаемые в каждом случае, будут несколько различаться между собой, но в целом они будут группироваться вокруг истинного значения. Если построить распределение этих оценок, то оно окажется нормальным. В центре его будет лежать среднее по генеральной совокупности, а стандартное отклонение будет равно стандартной ошибке среднего. Но последний показатель, как мы видели, можно вывести и на основании одной выборки. Он вычисляется по формуле: стандартное отклонение, деленное на корень квадратный из числа наблюдений. Теперь, зная свойства нормального распределения, можно указать интервал, в котором должно находиться истинное среднее. Выше, рассматривая свойства нормального распределения, мы отмечали, что в диапазоне двух стандартных отклонений в обе стороны от среднего сосредоточено примерно 95% всех случаев. Значит, вероятность получить значение, выходящее за эти пределы, не превышает 5%, то есть такие ошибки будут встречаться не чаще, чем один раз из 20 случаев. С вероятностью 0,95 можно утверждать, что истинное значение лежит в указанных границах, которые задают доверительный интервал .

Итак, поскольку какая-то вероятность ошибки всегда присутствует, мы вводим количественную меру надежности наших выводов. Все статистические критерии построены по этому принципу. Уровень 95% принят как соответствующий достаточной надежности суждений. Если мы стремимся к еще большей надежности, то можно взять 99%-ный уровень. Это означает, что случайная ошибка допускается не чаще, чем в одном случае из ста. Точные доверительные границы для 95%-ного уровня составляют 1,96 стандартной ошибки среднего, а для 99%-ного уровня мы используем коэффициент 2,58. В первом случае вне этого интервала остается не более 5% возможных значений (по 2,5% с каждой стороны). Во втором случае – не больше 1% (по 0,5% с каждой стороны). Рассмотрим пример. Допустим, что в некоторой группе безработных из 25 человек средний возраст оказался 32 года. А массовые исследования говорят, что средний возраст для этой категории составляет 40 лет, а стандартное отклонение составляет 6 лет. Нас интересует вопрос, типична или нетипична наша выборка? Если это перевести на язык статистики, то мы спрашиваем, можно ли объяснить различие средних показателей ошибкой выборки?

Статистический вывод представляет собой процесс проверки гипотез. Причем первоначально всегда выдвигается предположение, что наблюдаемые различия носят случайный характер, то есть выборка принадлежит к той же генеральной совокупности. В статистике такое предположение получило название нулевая гипотеза . Итак, мы полагаем для начала, что наша выборка вполне типична. А затем мы спрашиваем: какова вероятность получить выборку с таким средним (32 года) из генеральной совокупности, средний возраст которой нам известен (40 лет)? Мы знаем, что при многократных испытаниях получаемые значения будут распределены нормально, и средняя величина этого распределения будет равна 40 годам. Стандартную ошибку при условии, что мы будем каждый раз брать по 25 человек, можно рассчитать по известной нам формуле: мы делим 6 (стандартное отклонение) на корень квадратный из 25 и получаем значение 1,2 года (стандартная ошибка среднего). Затем вычисляется доверительный интервал, который в нашем случае при уровне достоверности в 95% составит:

40  1,96 · 1,2 года = 40  2,35 года (т.е. от 37,65 до 42,35)

Значение среднего для нашей выборки (32) лежит вне найденного диапазона. Это может означать, что:

а) либо мы наткнулись на тот чрезвычайно редкий случай, который лежит на самом краю распределения;

б) либо наше предположение, что два средних (по выборке и по генеральной совокупности) не различаются, ошибочно.

Если основываться только на имеющихся данных, то мы имеем основание отклонить нулевую гипотезу, то есть считать, что наша группа какая-то особая. Мы говорим, что различие между средними статистически значимо на уровне p < 0,05. Вероятность ошибки составляет менее 5%, и поэтому мы с достаточной уверенностью утверждаем, что различие не случайно. Если мы задаем более строгий критерий (99%), то у нас еще больше оснований отклонить нулевую гипотезу. Мы говорим тогда, что различие статистически высоко значимо . Для социальных исследований 95%-ный уровень значимости считается вполне приемлемым.

Разобранный пример иллюстрирует случай сравнения эмпирического и теоретического распределения. Аналогичная процедура применяется и тогда, когда требуется оценить различие двух выборок. Мы исходим из допущения, что наблюдаемое различие средних обусловлено случайными факторами (ошибкой выборки и измерения). Другими словами, мы предполагаем, что обе выборки принадлежат к одной генеральной совокупности, параметры которой нам неизвестны. Затем мы оцениваем различие средних с учетом наблюдаемого рассеяния данных в каждой из выборок. Критические значения задаются с учетом выбранного уровня значимости. Если заданная величина оказывается превышенной, мы отвергаем нулевую гипотезу и считаем, что наблюдаемые различия не случайны.

Мы разобрали принципы проверки статистических гипотез. Существуют разные статистические критерии , разработанные для разных типов данных. Некоторые из них, так называемые параметрические критерии , применимы только к данным, полученным с помощью интервальных шкал. Название отражает тот момент, что в основе процедуры оценки лежит предположение о характере распределения данных. Если эти условия не выполняются, то выводы оказываются сомнительными. К наиболее известным критериям этого типа относится t - критерий Стьюдента, применяемый для оценки различия средних. Но разработан также целый ряд статистических процедур, которые не привязаны к какому-то определенному распределению. Эти критерии, которые называются непараметрическими , особенно удобны для анализа данных, с которыми обычно имеют дело социальные науки. Примером может служить критерий хи-квадрат, который основан на сравнении частот. Кстати, этот же метод используется для оценки связи между качественными признаками. Выбор подходящего критерия – задача весьма не простая. Здесь следует обратиться к помощи специалиста по математической статистике.

Заканчивая раздел о количественных методах анализа, сделаем несколько замечаний общего характера. Во-первых, как читатель смог убедиться, грамотное применение статистики требует от исследователя специальной подготовки, но это касается и приемов качественного анализа, и методов сбора данных. По методам обработки социальной информации имеется обширная литература – от элементарных учебников до серьезных руководств. Мы надеемся, что теперь, после знакомства с основными идеями и понятиями статистики, эта литература станет вам доступнее. Во-вторых, статистика есть особый инструмент исследования, овладеть которым по-настоящему можно только на практике. Важно подчеркнуть, что статистика – это не собрание стандартных приемов обработки данных, а продолжение логики научного исследования, доведение ее до математической строгости. В этом смысле она полезна не только профессиональному исследователю, но и любому специалисту, который пытается осмыслить свой собственный опыт и опыт своих коллег.

Наконец, нельзя не затронуть вопрос о границах применения статистики в социальных науках. Мы возвращаемся к той проблеме, которая была поднята в первой главе: к проблеме специфики предмета исследования в социальных науках, к спору между позитивизмом и феноменологией, между представителями номотетического и идеографического подходов. Действительно, целый ряд факторов ограничивает сферу применения традиционных математических моделей для изучения социальных явлений, недаром столь значительное место здесь занимает качественный анализ. Характер данных часто мешает использовать наиболее мощные статистические процедуры, привязанные к нормальному распределению. И тем не менее, количественный анализ прочно занял свое место в арсенале социальных наук. Разрабатываются новые математические модели, лучше учитывающие характер исследовательских задач. В частности, активнее привлекаются непараметрические критерии. Принципиально новые возможности открывает использование компьютера. Все это позволяет прогнозировать новый всплеск интереса к количественным методам анализа данных среди ученых - гуманитариев, более широкое и грамотное их применение во всех сферах исследования.