Первичный анализ данных
Первичный анализ данных эмпирического исследования
В процессе анализа и обработки эмпирических данных обычно используются такие термины как “признак”, “показатель”, “параметр”, “переменная”. Употребляются они чаще всего как синонимы. Другой смысл имеет термин “значение”. Значение — это определенная числовая величина того или иного показателя, выявленная у конкретного испытуемого (Куликов, 2001).
Обработка полученных эмпирических данных начинается обычно с первичного анализа переменных. Для большей наглядности изображения они заносятся в таблицы или изображаются в виде графиков. Проверка точности выполнения этой части работы обеспечивает достоверность дальнейшей обработки и анализа результатов исследования.
Использование методов математической статистики при обработке первичных эмпирических данных необходимо для повышения достоверности выводов, как в научном, так и в практическом психологическом исследовании. Начинает исследователь обычно с анализа первичных статистик. Важнейшими среди них являются:
1. средняя арифметическая
6. среднее квадратичное отклонение.
Типичными задачами математической обработки данных являются:
1. оценка достоверности различий,
2. корреляционный анализ,
3. факторный анализ,
4. анализ изменчивости признаков.
1. Во многих исследованиях осуществляется поиск различий в психологических показателях у испытуемых, характеризующихся разными особенностями. Для обработки соответствующих данных могут использоваться критерии на выявлении различий в уровне исследуемого признака или в распределении признака.
2. Во многих исследованиях осуществляется поиск взаимосвязи психологических показателей у одних и тех же испытуемых. Для обработки соответствующих данных могут использоваться коэффициенты корреляции.
3. Для выявления структуры данных (и соответственно структуры изучаемой психологической реальности), а также взаимосвязи данных, используется факторный анализ.
4. Во многих исследованиях интерес представляет анализ изменчивости признака под влиянием каких-либо контролируемых факторов, или другими словами, оценка влияния разных факторов на изучаемый признак. Во психологических исследованиях может выявляться значимость изменений (сдвига) каких-либо психологических, поведенческих параметров и проявлений за определенный промежуток времени, в определенных условиях (например, в условиях коррекционного воздействия). Формирующие эксперименты в практической психологии решают именно эту задачу. Для обработки соответствующих данных могут использоваться коэффициенты для оценки достоверности сдвига в значениях исследуемого признака.
Для выбора статистических критериев и знакомства с основами их применения для обработки эмпирических данных можно использовать ряд пособий (например, Гласс, Стенли, 1976; Закс, 1976; Рунион, 1982; Сидоренко, 2001). Каждый исследователь предпочитает статистические критерии, исходя из типа задачи и вида данных, которые подлежат обработке.
При выборе математико-статистического критерия нужно, прежде всего, идентифицировать тип переменных (признаков) и шкалу, которая использовалась при измерении психологических показателей и других переменных – например, возраст, состав семьи, уровень образования. В качестве переменных могут выступать любые показатели, которые можно сравнивать друг с другом (то есть измерять). Это может быть время выполнения задания, количество ошибок, уровень самооценки, количество правильно решенных задач и качественные особенности их выполнения, личностные показатели, получаемые в психологических тестах, и другие. В области практической психологии широко используются номинативные и порядковые шкалы. Речевые высказывания клиента, виды поведенческих реакций, улыбки, взгляды, – все это может рассматриваться в качестве переменных. Главное — иметь четкие и ясные критерии их отнесения к тому или иному типу в зависимости от поставленных гипотез и задач.
При выборе математико-статистического критерия нужно ориентироваться также на тип распределения данных, который получился в исследовании.
Параметрические критерии используются обычно в том случае, когда распределение полученных данных рассматривается как нормальное. Нормальное распределение с большей вероятностью (но не обязательно) получается при выборках более 100 испытуемых (может получиться и при меньшем количестве, а может не получиться и при большем). При использовании параметрических критериев необходима проверка нормальности распределения.
Для непараметрических критериев тип распределения данных не имеет значения. При небольших объемах выборки испытуемых, часто используемых в психологии, целесообразно использовать непараметрические критерии, которые дают большую достоверность выводам, независимо от того, получено ли в исследовании нормальное распределение данных. В некоторых случаях статистически обоснованные выводы могут быть сделаны даже при выборках в 5-10 испытуемых.
Выбор метода математической обработки полученных эмпирических данных очень важная и ответственная часть исследования. Это учитывается в процессе планирования исследования. Заранее продумывается, какие эмпирические данные будут регистрироваться, с помощью каких методов будут обрабатываться, и какие выводы при разных результатах обработки можно будет сделать. При этом учитываются ограничения, которые имеет каждый критерий в его использовании. Если данные не подходят по каким-либо причинам под выбранный критерий, то ищут какой-либо другой критерий (возможно изменив тип представления этих данных).
Процедура обработки данных и вычисления статистического критерия проводится “вручную” или с использованием статистической программы персонального компьютера. Для компьютерной обработки наиболее популярными среди психологов программами являются SPSS и Statistica.
Методы математической обработки данных используются и для анализа результатов практической психологической работы исследовательского типа. Для обоснования эффективности проведенной практической работы используются конкретные психологические и поведенческие показатели испытуемых “до” и “после” проведенной работы. Применение математико-статистических критериев для проверки значимости изменений придаст большую доказательность выводам работы.
Первичная статистическая обработка данных
Лабораторная работа №3. Статистическая обработка данных в системе MatLab
Общая постановка задачи
Основной целью выполнения лабораторной работы является ознакомление с основами работы со статистической обработкой данных в среде MatLAB.
Теоретическая часть
Первичная статистическая обработка данных
Статистическая обработка данных основывается на первичных и вторичных количественных методах. Цель первичной обработки статистических данных является структурирование полученных сведений, подразумевающее группировку данных в сводные таблицы по различным параметрам. Первичные данных должны быть представлены в таком формате, чтобы человек смог провести приближенную оценку полученной совокупности данных и выявить информацию о распределении данных полученной выборки данных, например, однородность или компактность данных. После первичного анализа данных применяются методы вторичной статистической обработки данных, на основании которых определяются статистические закономерности в имеющемся наборе данных.
Проведение первичного статистического анализа над массивом данных позволяет получить знания о следующем:
— Какое значение наиболее характерно для выборки? Для ответа на данный вопрос определяются меры центральной тенденции.
— Велик ли разброс данных относительно этого характерного значения, т. е. какова «размытость» данных? В данном случае определяются меры изменчивости.
Стоит отметить тот факт, что статистические показатели меры центральной тенденции и изменчивостиопределяются только на количественных данных.
Меры центральной тенденции– группа величин, вокруг которых группируются остальные данные.Таким образом, меры центральной тенденции обобщают массив данных, что делает возможным формирование умозаключений как о выборке в целом, так и проведение сравнительного анализа разных выборок друг с другом.
Допустим имеется выборка данных , тогда меры центральной тенденции оцениваются следующими показателями:
1. Выборочное среднее– это результат деления суммы всех значений выборки на их количество.Определяется по формуле (3.1).
(3.1)
где — i-й элемент выборки;
n – количество элементов выборки.
Выборочное среднее позволяет получить наибольшую точность в процессе оценки центральной тенденции.
Допустим имеется выборка из 20 человек. Элементами выборки являются сведения о среднем ежемесячном доходе каждого человека. Предположим, что 19 человек имеют средний ежемесячный доход в 20 т.р. и 1 человек с доходом в 300 т.р. Суммарный ежемесячный доход всей выборки составляет 680 т.р. Выборочное среднее в данном случае S=34.
2. Медиана– формирует значение, выше и ниже которого количество отличающихся значений одинаково, т. е. это центральное значение в последовательном ряду данных. Определяется в зависимости четности/нечетности количества элементов выборке по формулам (3.2) или (3.3).Алгоритм оценки медианы для выборки данных :
— Первым делом данные ранжируются (упорядочиваются) по убыванию/возрастанию .
— Если в упорядоченной выборке нечетное число элементов, то медиана совпадает с центральным значением.
(3.2)
где n — количество элементов выборки.
— В случае четного числа элементов медиана определяется как как среднее арифметическое двух центральных значений.
(3.3)
где — средний элемент упорядоченной выборки;
— элемент упорядоченной выборки следующий за
;
— количество элементов выборки.
-В том случае, если все элементы выборки различны, то ровно половина элементов выборки больше медианы, а другая половина меньше. Например, для выборки <1, 5, 9, 15, 16>медиана совпадает с элементом 9.
В статистическом анализе данных медиана позволяет определить элементы выборки, которые сильно влияют на значение выборочного среднего.
Допустим имеется выборка из 20 человек. Элементами выборки являются сведения о среднем ежемесячном доходе каждого человека. Предположим, что 19 человек имеют средний ежемесячный доход в 20 т.р. и 1 человек с доходом в 300 т.р. Суммарный ежемесячный доход всей выборки составляет 680 т.р. Медиана, после упорядочивания выборки, определяется как среднеарифметическое десятого и одиннадцатого элементов выборки) и равняется Ме=20 т.р. Данный результат интерпретируется следующим образом: медиана делит выборку на две группу, таким образом, что можно сделать заключение о том, что в первой группе у каждого человека средний ежемесячный доход не более 20 т.р., а во второй группе не менее 20 т.р. В данном примере можно говорить о том, что медиана характеризуется тем, сколько зарабатывает «средний» человек. В то время как значение выборочного среднего значительно превышено S=34, что указывает на неприемлемость данной характеристики при оценке среднего заработка.
Таким образом, чем больше различие между медианой и выборочным средним, тем больший разброс данных выборки (в рассмотренном примере, человек с заработком в 300 т.р. явно отличается от среднестатистических людей конкретной выборки и оказывает существенное влияние на оценку среднего дохода). Что делать с подобными элементами решается в каждом индивидуальном случае. Но в общем случае для обеспечения достоверности выборки они изымаются, так как оказывают сильное влияние на оценку статистических показателей.
3. Мода (Мо) – формирует значение, наиболее часто встречающееся в выборке, т. е. значение с наибольшей частотой.Алгоритм оценки моды:
-В том случае, когда выборка содержит элементы, встречающиеся одинаково часто, то говорят, что мода в подобной выборке отсутствует.
— Если два соседних элемента выборки имеют одинаковую частоту, являющуюся больше частоты остальных элементов выборки, то мода определяется как среднее этих двух значений.
— Если два элемента выборки имеют одинаковую частоту, являющуюся больше частоты остальных элементов выборки, и при этом данные элементы не являются соседними, то говорят, что в данной выборке две моды.
Мода в статистическом анализе используется в ситуациях, когда необходимо проведение быстрой оценки меры центральной тенденции и не требуется высокая точность. Например, моду (по показателю размер либо бренд) удобно применять для определения одежды и обуви, которая пользуется наибольшим спросом у покупателей.
Меры разброса (изменчивости)– группа статистических показателей, характеризующих различия между отдельными значениями выборки. Основываясь на показателях мер разброса можно оценивать степень однородности и компактности элементов выборки. Меры разброса, характеризуются следующим набором показателей:
1. Размах — это интервал между максимальным и минимальным значениями результатов наблюдений (элементов выборки). Показатель размаха указывает на разброс значений в совокупности данных. Если размах большой, то значения в совокупности сильно разбросаны, в противном случае (размах небольшой) говорится о том, что значения в совокупности лежат близко друг к другу. Размах определяется по формуле (3.4).
(3.4)
Где — максимальный элемент выборки;
— минимальный элемент выборки.
2.Среднее отклонение– среднеарифметическая разница (по абсолютной величине) между каждым значением в выборке и ее выборочным средним. Среднее отклонение определяется по формуле (3.5).
(3.5)
где — i-й элемент выборки;
— значение выборочного среднего, рассчитанное по формуле (3.1);
— количество элементов выборки.
Модуль необходим в связи с тем, что отклонения от среднего по каждому конкретному элементу могут быть как положительными так и отрицательными. Следовательно, если не взять модуль, то сумма всех отклонений будет близка к нулю и невозможно будет судить о степени изменчивости данных (скученности данных вокруг выборочного среднего). При проведении статистического анализа могут быть взяты мода и медиана вместо выборочного среднего.
3. Дисперсия — мера рассеяния, описывающая сравнительное отклонение между значениями данных и средней величиной. Вычисляется как сумма квадратов отклонений каждого элемента выборки от средней величины. В зависимости от размера выборки дисперсия оценивается разными способами:
— для больших выборок (n>30) по формуле (3.6)
(3.6)
— для малых выборок (n
Не нашли то, что искали? Воспользуйтесь поиском:
Лучшие изречения: При сдаче лабораторной работы, студент делает вид, что все знает; преподаватель делает вид, что верит ему. 9916 — | 7557 —
или читать все.
Первичный анализ статистических данных
Шаг 1. В системе Excel в меню откройте модуль Анализ данных (рисунок 4.3).
Рисунок 4.3 – Открытие модуля Анализ данных
Шаг 2. В модуле Анализ данныхвыберитеОписательная статистика,после чего щелкните мышкой OK(рисунок 4.4).
Рисунок 4.4 – Окно Анализа данных – описательная статистика
Шаг 3. В появившемся окне выполните операции и установки, как показано на рисунке 4.5. Щелкните мышкой OK.
Рисунок 4.5 – Стартовая панель
Результат обработки появится в указанном поле (выходной интервал $Е$1 – или любая свободная ячейка). На рисунке 4.6 показаны результаты статистической обработки.
Рисунок 4.6 – Описательная статистика (результат обработки)
Примечание: эта опция позволяет обрабатывать любое количество выборок одновременно.
Следующей процедурой является проверка в выборках выбросов. Из результатов обработки, представленных на рисунке 4.6, обращают на себя внимание высокие значения эксцесса и асимметрии для выборок в столбцах a и с. Поэтому можно предположить, что крайние значения (минимальные или максимальные) являются выбросами. Для выборки столбца а – это значение 4,1, для выборки столбца с – 14,2.
По формуле 4.9 рассчитываем Т – критерий выброса.
– для выборки в столбце а;
– для выборки в столбце с.
Из таблицы 4.1 при n = 9 стандартное значение критерия выброса Tst = 2,2. Так как Т – критерий выброса в выборках больше, чем стандартное значение критерия выброса Tst, то значения 4,1 в выборке а и 14,2 в выборке с имеем полное право удалить.
Таким образом, окончательный вариант трех анализируемых выборок представлен в таблице 4.4.
Таблица 4.4 – Окончательный вариант
a | b | c |
12,6 | 15,3 | 3,9 |
13,2 | 15,6 | 4,2 |
16,3 | 4,4 | |
14,6 | 18,5 | 4,5 |
14,9 | 19,3 | 4,7 |
15,1 | 20,2 | 4,7 |
16,1 | 21,1 | 5,1 |
16,6 | 21,2 | 5,3 |
25,3 |
Теперь необходимо выполнить процедуру обработки данных таблицы 4.4, как это было сделано выше (шаги 1 – 3). Результат обработки представлен на рисунке 4.7.
Рисунок 4.7 – Описательная статистика
(окончательный результат обработки)
Проверка на условие нормальности распределения
Для выполнения этой операции, прежде всего, необходимо по формулам 4.7, 4.8 вычислить ошибки показателей эксцесса и асимметрии.
– для выборок а и с;
– для выборки b;
– для выборок а и с;
– для выборки b.
Затем найти отношения значений эксцесса и асимметрии по модулю к их ошибкам.
;
– для выборки а;
;
– для выборки b;
;
– для выборки с.
Так как найденные значения меньше критического равного трем, то все три выборки удовлетворяют условию нормальности распределения.
Гистограмма
Для построения гистограммы необходимо определить величину класса (кармана) по формуле:
,
,
где N – число наблюдений.
Число классов n округляется до ближайшего целого вверх (например: для столбца а: n = 4,00006 – до 5, для столбца b: n = 4,32 – до 5, для столбца c: n = 4,00006 – до 5)
Размеры интервалов для приведенных в таблице примеров представлены в таблице 4.5.
Таблица 4.5 – Размер интервалов
a | 14,52 | 15,04 | 15,56 | 16,08 | 16,6 | |
b | 15,3 | 17,3 | 19,3 | 21,3 | 23,3 | 25,3 |
c | 3,9 | 4,18 | 4,46 | 4,74 | 5,02 | 5,3 |
Если не рассчитывать размеры интервалов, то они будут определены автоматически.
Опция гистограмма проводит обработку только по одной выборке. Поэтому в примере покажем порядок обработки только для выборки а. Для остальных двух выборок процедура обработки аналогична.
Шаг 1. Вернитесь в модуль Анализ данныхивыберитеопцию Гистограмма, после чего щелкните мышкой OK(рисунок 4.8).
Рисунок 4.8 – Окно Анализа данных – гистограмма
Шаг 2. В появившемся окне выполните операции и установки, как показано на рисунке 4.9, после чего щелкните мышкой OK.
Рисунок 4.9 – Стартовая панель
Шаг 3. Результат обработки появится в указанном поле (выходной интервал $D$1 – или любая свободная ячейка, рисунок 4.10).
Рисунок 4.10 – Гистограмма
Задания для выполнения
1 Введите в таблицу MS Excel исходные данные из Приложения А, таблица А1.
2 Выполните подготовительные и расчетные процедуры в соответствии с порядком операций, выполненных в настоящем разделе.
3 Получите результат и сделайте заключение.
Лабораторная работа 5
Разнообразие значений признака (Statistica 6)
Цель работы: научиться выполнять первичную обработку данных в программном продукте Statistica 6.
Краткие теоретические сведения
Краткие теоретические сведения изложены в соответствующем разделе лабораторной работы 4.
Подготовительные процедуры
Процедуры, связанные с сортировкой массивов данных и поисками выбросов выполняются в табличном редакторе Microsoft Excel.
Запустите программный продукт Statistica 6.
Сформируйте таблицу исходных данных: в окне File выбрать New (рисунок 5.1). После этого щелкните мышкой OK.
Рисунок 5.1 – Открытие таблицы
В появившемся окне задайте число строк (Number of cases) и столбцов (Number of variables) (рисунок 5.2). Щелкнете мышкой OK.
Рисунок 5.2 – Формирование таблицы
Теперь в таблицу необходимо внести исходные данные, осуществив набор непосредственно или вставку копии из файла, например, табличного редактора MS Excel (рисунок 5.3).
Рисунок 5.3 – Исходные данные
Последнее изменение этой страницы: 2016-08-16; Нарушение авторского права страницы