Star-company.ru

Лайфхаки от Кризиса
0 просмотров
Рейтинг статьи
1 звезда2 звезды3 звезды4 звезды5 звезд
Загрузка...

Первичный анализ данных

Первичный анализ данных эмпирического исследования

В процессе анализа и обработки эмпирических данных обычно используются такие термины как “признак”, “показатель”, “параметр”, “переменная”. Употребляются они чаще всего как синонимы. Другой смысл имеет термин “значение”. Значение — это определенная числовая величина того или иного показателя, выявленная у конкретного испытуемого (Куликов, 2001).

Обработка полученных эмпирических данных начинается обычно с первичного анализа переменных. Для большей наглядности изображения они заносятся в таблицы или изображаются в виде графиков. Проверка точности выполнения этой части работы обеспечивает достоверность дальнейшей обработки и анализа результатов исследования.

Использование методов математической статистики при обработке первичных эмпирических данных необходимо для повышения достоверности выводов, как в научном, так и в практическом психологическом исследовании. Начинает исследователь обычно с анализа первичных статистик. Важнейшими среди них являются:

1. средняя арифметическая

6. среднее квадратичное отклонение.

Типичными задачами математической обработки данных являются:

1. оценка достоверности различий,

2. корреляционный анализ,

3. факторный анализ,

4. анализ изменчивости признаков.

1. Во многих исследованиях осуществляется поиск различий в психологических показателях у испытуемых, характеризующихся разными особенностями. Для обработки соответствующих данных могут использоваться критерии на выявлении различий в уровне исследуемого признака или в распределении признака.

2. Во многих исследованиях осуществляется поиск взаимосвязи психологических показателей у одних и тех же испытуемых. Для обработки соответствующих данных могут использоваться коэффициенты корреляции.

3. Для выявления структуры данных (и соответственно структуры изучаемой психологической реальности), а также взаимосвязи данных, используется факторный анализ.

4. Во многих исследованиях интерес представляет анализ изменчивости признака под влиянием каких-либо контролируемых факторов, или другими словами, оценка влияния разных факторов на изучаемый признак. Во психологических исследованиях может выявляться значимость изменений (сдвига) каких-либо психологических, поведенческих параметров и проявлений за определенный промежуток времени, в определенных условиях (например, в условиях коррекционного воздействия). Формирующие эксперименты в практической психологии решают именно эту задачу. Для обработки соответствующих данных могут использоваться коэффициенты для оценки достоверности сдвига в значениях исследуемого признака.

Для выбора статистических критериев и знакомства с основами их применения для обработки эмпирических данных можно использовать ряд пособий (например, Гласс, Стенли, 1976; Закс, 1976; Рунион, 1982; Сидоренко, 2001). Каждый исследователь предпочитает статистические критерии, исходя из типа задачи и вида данных, которые подлежат обработке.

При выборе математико-статистического критерия нужно, прежде всего, идентифицировать тип переменных (признаков) и шкалу, которая использовалась при измерении психологических показателей и других переменных – например, возраст, состав семьи, уровень образования. В качестве переменных могут выступать любые показатели, которые можно сравнивать друг с другом (то есть измерять). Это может быть время выполнения задания, количество ошибок, уровень самооценки, количество правильно решенных задач и качественные особенности их выполнения, личностные показатели, получаемые в психологических тестах, и другие. В области практической психологии широко используются номинативные и порядковые шкалы. Речевые высказывания клиента, виды поведенческих реакций, улыбки, взгляды, – все это может рассматриваться в качестве переменных. Главное — иметь четкие и ясные критерии их отнесения к тому или иному типу в зависимости от поставленных гипотез и задач.

При выборе математико-статистического критерия нужно ориентироваться также на тип распределения данных, который получился в исследовании.

Параметрические критерии используются обычно в том случае, когда распределение полученных данных рассматривается как нормальное. Нормальное распределение с большей вероятностью (но не обязательно) получается при выборках более 100 испытуемых (может получиться и при меньшем количестве, а может не получиться и при большем). При использовании параметрических критериев необходима проверка нормальности распределения.

Для непараметрических критериев тип распределения данных не имеет значения. При небольших объемах выборки испытуемых, часто используемых в психологии, целесообразно использовать непараметрические критерии, которые дают большую достоверность выводам, независимо от того, получено ли в исследовании нормальное распределение данных. В некоторых случаях статистически обоснованные выводы могут быть сделаны даже при выборках в 5-10 испытуемых.

Выбор метода математической обработки полученных эмпирических данных очень важная и ответственная часть исследования. Это учитывается в процессе планирования исследования. Заранее продумывается, какие эмпирические данные будут регистрироваться, с помощью каких методов будут обрабатываться, и какие выводы при разных результатах обработки можно будет сделать. При этом учитываются ограничения, которые имеет каждый критерий в его использовании. Если данные не подходят по каким-либо причинам под выбранный критерий, то ищут какой-либо другой критерий (возможно изменив тип представления этих данных).

Читать еще:  Порог рентабельности анализ

Процедура обработки данных и вычисления статистического критерия проводится “вручную” или с использованием статистической программы персонального компьютера. Для компьютерной обработки наиболее популярными среди психологов программами являются SPSS и Statistica.

Методы математической обработки данных используются и для анализа результатов практической психологической работы исследовательского типа. Для обоснования эффективности проведенной практической работы используются конкретные психологические и поведенческие показатели испытуемых “до” и “после” проведенной работы. Применение математико-статистических критериев для проверки значимости изменений придаст большую доказательность выводам работы.

Первичная статистическая обработка данных

Лабораторная работа №3. Статистическая обработка данных в системе MatLab

Общая постановка задачи

Основной целью выполнения лабораторной работы является ознакомление с основами работы со статистической обработкой данных в среде MatLAB.

Теоретическая часть

Первичная статистическая обработка данных

Статистическая обработка данных основывается на первичных и вторичных количественных методах. Цель первичной обработки статистических данных является структурирование полученных сведений, подразумевающее группировку данных в сводные таблицы по различным параметрам. Первичные данных должны быть представлены в таком формате, чтобы человек смог провести приближенную оценку полученной совокупности данных и выявить информацию о распределении данных полученной выборки данных, например, однородность или компактность данных. После первичного анализа данных применяются методы вторичной статистической обработки данных, на основании которых определяются статистические закономерности в имеющемся наборе данных.

Проведение первичного статистического анализа над массивом данных позволяет получить знания о следующем:

— Какое значение наиболее характерно для выборки? Для ответа на данный вопрос определяются меры центральной тенденции.

— Велик ли разброс данных относительно этого характерного значения, т. е. какова «размытость» данных? В данном случае определяются меры изменчивости.

Стоит отметить тот факт, что статистические показатели меры центральной тенденции и изменчивостиопределяются только на количественных данных.

Меры центральной тенденции– группа величин, вокруг которых группируются остальные данные.Таким образом, меры центральной тенденции обобщают массив данных, что делает возможным формирование умозаключений как о выборке в целом, так и проведение сравнительного анализа разных выборок друг с другом.

Допустим имеется выборка данных , тогда меры центральной тенденции оцениваются следующими показателями:

1. Выборочное среднее– это результат деления суммы всех значений выборки на их количество.Определяется по формуле (3.1).

(3.1)

где i-й элемент выборки;

n – количество элементов выборки.

Выборочное среднее позволяет получить наибольшую точность в процессе оценки центральной тенденции.

Допустим имеется выборка из 20 человек. Элементами выборки являются сведения о среднем ежемесячном доходе каждого человека. Предположим, что 19 человек имеют средний ежемесячный доход в 20 т.р. и 1 человек с доходом в 300 т.р. Суммарный ежемесячный доход всей выборки составляет 680 т.р. Выборочное среднее в данном случае S=34.

2. Медиана– формирует значение, выше и ниже которого количество отличающихся значений одинаково, т. е. это центральное значение в последовательном ряду данных. Определяется в зависимости четности/нечетности количества элементов выборке по формулам (3.2) или (3.3).Алгоритм оценки медианы для выборки данных :

— Первым делом данные ранжируются (упорядочиваются) по убыванию/возрастанию .

— Если в упорядоченной выборке нечетное число элементов, то медиана совпадает с центральным значением.

(3.2)

где n — количество элементов выборки.

— В случае четного числа элементов медиана определяется как как среднее арифметическое двух центральных значений.

(3.3)

где — средний элемент упорядоченной выборки;

— элемент упорядоченной выборки следующий за ;

— количество элементов выборки.

-В том случае, если все элементы выборки различны, то ровно половина элементов выборки больше медианы, а другая половина меньше. Например, для выборки <1, 5, 9, 15, 16>медиана совпадает с элементом 9.

В статистическом анализе данных медиана позволяет определить элементы выборки, которые сильно влияют на значение выборочного среднего.

Допустим имеется выборка из 20 человек. Элементами выборки являются сведения о среднем ежемесячном доходе каждого человека. Предположим, что 19 человек имеют средний ежемесячный доход в 20 т.р. и 1 человек с доходом в 300 т.р. Суммарный ежемесячный доход всей выборки составляет 680 т.р. Медиана, после упорядочивания выборки, определяется как среднеарифметическое десятого и одиннадцатого элементов выборки) и равняется Ме=20 т.р. Данный результат интерпретируется следующим образом: медиана делит выборку на две группу, таким образом, что можно сделать заключение о том, что в первой группе у каждого человека средний ежемесячный доход не более 20 т.р., а во второй группе не менее 20 т.р. В данном примере можно говорить о том, что медиана характеризуется тем, сколько зарабатывает «средний» человек. В то время как значение выборочного среднего значительно превышено S=34, что указывает на неприемлемость данной характеристики при оценке среднего заработка.

Читать еще:  Анализ обеспеченности организации основными средствами

Таким образом, чем больше различие между медианой и выборочным средним, тем больший разброс данных выборки (в рассмотренном примере, человек с заработком в 300 т.р. явно отличается от среднестатистических людей конкретной выборки и оказывает существенное влияние на оценку среднего дохода). Что делать с подобными элементами решается в каждом индивидуальном случае. Но в общем случае для обеспечения достоверности выборки они изымаются, так как оказывают сильное влияние на оценку статистических показателей.

3. Мода (Мо) – формирует значение, наиболее часто встречающееся в выборке, т. е. значение с наибольшей частотой.Алгоритм оценки моды:

-В том случае, когда выборка содержит элементы, встречающиеся одинаково часто, то говорят, что мода в подобной выборке отсутствует.

— Если два соседних элемента выборки имеют одинаковую частоту, являющуюся больше частоты остальных элементов выборки, то мода определяется как среднее этих двух значений.

— Если два элемента выборки имеют одинаковую частоту, являющуюся больше частоты остальных элементов выборки, и при этом данные элементы не являются соседними, то говорят, что в данной выборке две моды.

Мода в статистическом анализе используется в ситуациях, когда необходимо проведение быстрой оценки меры центральной тенденции и не требуется высокая точность. Например, моду (по показателю размер либо бренд) удобно применять для определения одежды и обуви, которая пользуется наибольшим спросом у покупателей.

Меры разброса (изменчивости)– группа статистических показателей, характеризующих различия между отдельными значениями выборки. Основываясь на показателях мер разброса можно оценивать степень однородности и компактности элементов выборки. Меры разброса, характеризуются следующим набором показателей:

1. Размах — это интервал между максимальным и минимальным значениями результатов наблюдений (элементов выборки). Показатель размаха указывает на разброс значений в совокупности данных. Если размах большой, то значения в совокупности сильно разбросаны, в противном случае (размах небольшой) говорится о том, что значения в совокупности лежат близко друг к другу. Размах определяется по формуле (3.4).

(3.4)

Где — максимальный элемент выборки;

— минимальный элемент выборки.

2.Среднее отклонение– среднеарифметическая разница (по абсолютной величине) между каждым значением в выборке и ее выборочным средним. Среднее отклонение определяется по формуле (3.5).

(3.5)

где i-й элемент выборки;

— значение выборочного среднего, рассчитанное по формуле (3.1);

— количество элементов выборки.

Модуль необходим в связи с тем, что отклонения от среднего по каждому конкретному элементу могут быть как положительными так и отрицательными. Следовательно, если не взять модуль, то сумма всех отклонений будет близка к нулю и невозможно будет судить о степени изменчивости данных (скученности данных вокруг выборочного среднего). При проведении статистического анализа могут быть взяты мода и медиана вместо выборочного среднего.

3. Дисперсия — мера рассеяния, описывающая сравнительное отклонение между значениями данных и средней величиной. Вычисляется как сумма квадратов отклонений каждого элемента выборки от средней величины. В зависимости от размера выборки дисперсия оценивается разными способами:

— для больших выборок (n>30) по формуле (3.6)

(3.6)

— для малых выборок (n

Не нашли то, что искали? Воспользуйтесь поиском:

Лучшие изречения: При сдаче лабораторной работы, студент делает вид, что все знает; преподаватель делает вид, что верит ему. 9916 — | 7557 — или читать все.

Первичный анализ статистических данных

Шаг 1. В системе Excel в меню откройте модуль Анализ данных (рисунок 4.3).

Рисунок 4.3 – Открытие модуля Анализ данных

Шаг 2. В модуле Анализ данныхвыберитеОписательная статистика,после чего щелкните мышкой OK(рисунок 4.4).

Рисунок 4.4 – Окно Анализа данных – описательная статистика

Шаг 3. В появившемся окне выполните операции и установки, как показано на рисунке 4.5. Щелкните мышкой OK.

Рисунок 4.5 – Стартовая панель

Результат обработки появится в указанном поле (выходной интервал $Е$1 – или любая свободная ячейка). На рисунке 4.6 показаны результаты статистической обработки.

Читать еще:  К принципам анализа относится

Рисунок 4.6 – Описательная статистика (результат обработки)

Примечание: эта опция позволяет обрабатывать любое количество выборок одновременно.

Следующей процедурой является проверка в выборках выбросов. Из результатов обработки, представленных на рисунке 4.6, обращают на себя внимание высокие значения эксцесса и асимметрии для выборок в столбцах a и с. Поэтому можно предположить, что крайние значения (минимальные или максимальные) являются выбросами. Для выборки столбца а – это значение 4,1, для выборки столбца с – 14,2.

По формуле 4.9 рассчитываем Т – критерий выброса.

– для выборки в столбце а;

– для выборки в столбце с.

Из таблицы 4.1 при n = 9 стандартное значение критерия выброса Tst = 2,2. Так как Т – критерий выброса в выборках больше, чем стандартное значение критерия выброса Tst, то значения 4,1 в выборке а и 14,2 в выборке с имеем полное право удалить.

Таким образом, окончательный вариант трех анализируемых выборок представлен в таблице 4.4.

Таблица 4.4 – Окончательный вариант

abc
12,615,33,9
13,215,64,2
16,34,4
14,618,54,5
14,919,34,7
15,120,24,7
16,121,15,1
16,621,25,3
25,3

Теперь необходимо выполнить процедуру обработки данных таблицы 4.4, как это было сделано выше (шаги 1 – 3). Результат обработки представлен на рисунке 4.7.

Рисунок 4.7 – Описательная статистика
(окончательный результат обработки)

Проверка на условие нормальности распределения

Для выполнения этой операции, прежде всего, необходимо по формулам 4.7, 4.8 вычислить ошибки показателей эксцесса и асимметрии.

– для выборок а и с; – для выборки b;

– для выборок а и с; – для выборки b.

Затем найти отношения значений эксцесса и асимметрии по модулю к их ошибкам.

; – для выборки а;

; – для выборки b;

; – для выборки с.

Так как найденные значения меньше критического равного трем, то все три выборки удовлетворяют условию нормальности распределения.

Гистограмма

Для построения гистограммы необходимо определить величину класса (кармана) по формуле:

, ,

где N – число наблюдений.

Число классов n округляется до ближайшего целого вверх (например: для столбца а: n = 4,00006 – до 5, для столбца b: n = 4,32 – до 5, для столбца c: n = 4,00006 – до 5)

Размеры интервалов для приведенных в таблице примеров представлены в таблице 4.5.

Таблица 4.5 – Размер интервалов

a14,5215,0415,5616,0816,6
b15,317,319,321,323,325,3
c3,94,184,464,745,025,3

Если не рассчитывать размеры интервалов, то они будут определены автоматически.

Опция гистограмма проводит обработку только по одной выборке. Поэтому в примере покажем порядок обработки только для выборки а. Для остальных двух выборок процедура обработки аналогична.

Шаг 1. Вернитесь в модуль Анализ данныхивыберитеопцию Гистограмма, после чего щелкните мышкой OK(рисунок 4.8).

Рисунок 4.8 – Окно Анализа данных – гистограмма

Шаг 2. В появившемся окне выполните операции и установки, как показано на рисунке 4.9, после чего щелкните мышкой OK.

Рисунок 4.9 – Стартовая панель

Шаг 3. Результат обработки появится в указанном поле (выходной интервал $D$1 – или любая свободная ячейка, рисунок 4.10).

Рисунок 4.10 – Гистограмма

Задания для выполнения

1 Введите в таблицу MS Excel исходные данные из Приложения А, таблица А1.

2 Выполните подготовительные и расчетные процедуры в соответствии с порядком операций, выполненных в настоящем разделе.

3 Получите результат и сделайте заключение.

Лабораторная работа 5
Разнообразие значений признака (Statistica 6)

Цель работы: научиться выполнять первичную обработку данных в программном продукте Statistica 6.

Краткие теоретические сведения

Краткие теоретические сведения изложены в соответствующем разделе лабораторной работы 4.

Подготовительные процедуры

Процедуры, связанные с сортировкой массивов данных и поисками выбросов выполняются в табличном редакторе Microsoft Excel.

Запустите программный продукт Statistica 6.

Сформируйте таблицу исходных данных: в окне File выбрать New (рисунок 5.1). После этого щелкните мышкой OK.

Рисунок 5.1 – Открытие таблицы

В появившемся окне задайте число строк (Number of cases) и столбцов (Number of variables) (рисунок 5.2). Щелкнете мышкой OK.

Рисунок 5.2 – Формирование таблицы

Теперь в таблицу необходимо внести исходные данные, осуществив набор непосредственно или вставку копии из файла, например, табличного редактора MS Excel (рисунок 5.3).

Рисунок 5.3 – Исходные данные

Последнее изменение этой страницы: 2016-08-16; Нарушение авторского права страницы

Ссылка на основную публикацию
Adblock
detector