Статистически анализ: Видове данни

Вижте също:Разбиране на корелациите

Нашата страница наНаблюдателни изследвания и вторични данниописа два основни източника на данни (ваше собствено проучване и данни, които са публикувани преди това). Съществуват обаче и много различни видове данни - и данните могат да бъдат класифицирани по няколко различни начина. Типът данни ще повлияе на начините, по които можете да ги използвате и какъв статистически анализ е възможен. Това също ще повлияе на заключения и изводи, които можете да направите.

Следователно изборът на тип данни е много важен. Тази страница описва някои от разликите в типовете данни и последиците за изследователските методи и констатации.

Количествени срещу качествени данни

Първото и най-очевидно разграничение е между количествени и качествени данни:

  • Количествени данниса цифрови: те могат да бъдат събрани и представени като числа; и

  • Качествени даннине са числови.

Нашата страница накачествени и количествени изследванияобяснява това разграничение по-подробно и излага предимствата и недостатъците и на двете.

Обективни срещу субективни данни

Данните също могат да бъдат разделени наобективна и субективна.

  • Обективните данни са видими и измерими. Те включват неща като височина, тегло или брой елементи. Обикновено те се събират чрез наблюдения или директни измервания.

  • Субективните данни се събират от лични комуникации от лица. Това може да бъде говоримо или писмено, но може да приеме и други форми. Например езикът на тялото може да предостави субективна информация („Тя лежеше неподвижно, със затворени очи и стегната уста [обектив], сякаш я боли [субективно]”).

Както обективните, така и субективните данни могат да бъдат както качествени, така и количествени. Например, можете да наблюдавате (обективна) промяна на цвета (качествена) и можете да помолите хората да изразят мнението си по даден проблем (субективен), използвайки цифрова скала (количествена).

И двата вида имат предимства и недостатъци. Например субективните данни могат да предоставят много по-широк спектър от информация, защото много неща са просто неизмерими. Те включват променливи като ниво на болка, където всеки има своя собствена интерпретация. Дори използването на скала от 1 до 10, която прави данните количествени, не означава, че те ще бъдат пряко сравними между отделните лица.

Субективните данни обаче зависят и от това хората да помнят и оценяват нещата точно. Следователно субективните данни вероятно ще бъдат по-ненадеждни, когато хората трябва да си спомнят събития от по-дълго време.

Следователно, където е възможно, се предпочитат обективни данни, но има общо разбиране, че понякога са налични само субективни данни.



Надлъжно спрямо напречно сечение

Разграничението между данните с надлъжно и напречно сечение всъщност е по-голямо разграничение вуча дизайнотколкото тип данни.

  • Надлъжни проучванияработа с една и съща група с течение на времето. Следователно те могат да показват промени във времето и да идентифицират причинно-следствената връзка.

  • Изследвания в напречно сечениеможе да събира данни в различни моменти от време, но от различни групи. Следователно те могат само да покажат моментна снимка или поредица от снимки навреме.

Решаващото разграничение между двата типа изследвания и следователно данните е, че надлъжните данни могат да демонстрират причинно-следствена връзка.

Обикновено се счита за невъзможно да се демонстрира причинно-следствена връзка от данни от напречното сечение, тъй като имате информация само за момент във времето. Следователно не е възможно да промените нещо и да видите какъв ефект има (т.е. ако имапричинно-следствена връзка).

Изследванията на напречното сечение обаче са много по-удобни. Трябва да извършите само едно проучване или изследване, вместо да следвате кохорта с течение на времето. Надлъжните проучвания могат да дадат много висококачествени данни и да покажат причини, но страдат от проблеми като отпадане от кохортата. Също така е трудно да се получи финансиране за дългосрочни, висококачествени надлъжни изследвания.

Пример: Комбиниране на напречно сечение и надлъжно изследване


TheСъри Комуникация и език в образованието (СКАЛИ) е добър пример за дългосрочно надлъжно проучване, което също включва някои елементи на напречното сечение.

Първият елемент от проучването беше мащабно проучване на деца през приемната година в 180 начални училища в Съри. Всички деца от населението са били изследвани за езикови способности при влизане в училище чрез проучване, попълнено от класните ръководители за всяко дете. Те бяха попитани за поведение, език и социални умения. Това даде моментна снимка на езиковите способности при влизане в училище и позволи на изследователите да преценят дали учебната програма съответства на способностите и да установи, че по-малките деца са по-склонни да имат езикови проблеми.

Следващият етап избра извадка от 590 деца от изследваните, стратифицирани с помощта на констатациите от първия етап, за да даде набор от езикови способности. Те са били наблюдавани от изследовател през 1-ва година и отново през 3-та година и са оценени техните езикови умения. Родителите също бяха помолени да предоставят информация за езика и поведението и в двете точки.

Следващият етап последва първоначалната кохорта на СКАЛИ през 6 и 8 година, за да се оценят техните социални, емоционални и психични резултати.

Изследователите се интересували от връзката между езиковото развитие в ранна детска възраст и социалното и емоционалното развитие в юношеството. Този вид информация просто не може да бъде събрана от изследване в напречно сечение или от две отделни изследвания на различни възрасти. Бихте могли да помолите участниците и родителите да се замислят, но времевата разлика е такава, че споменът едва ли ще бъде надежден.

Категорични, непрекъснати, дискретни и класирани данни

Друго разграничение са категоричните, непрекъснати, дискретни или класирани данни:

  • Категоричните данни се разделят на отделни групи или категории.

    Следователно те включват например пол, дали обичате сладолед и дали някога сте посещавали определена държава. Те могат също да включват възраст, ако тя е групирана в десет или петгодишни парчета.

  • Непрекъснатите данни се дефинират като тези, които могат да приемат безкраен брой стойности между всякакви две стойности.

    Това звучи сложно, но всъщност е просто. Това са данни като тегло или височина, които могат да бъдат всякакви стойности в рамките на възможните тегла и височини, а не фиксирани стойности или процент от клас, който харесва сладолед (всяка стойност в диапазона 0-100%). Всяка точка от данни е отделен и отделен номер и не попада в група. Възрастта, например, ще бъде включена, ако я измервате много точно в дни или части от годината, а не в цели години.

  • Дискретни данни се дефинират като тези, които имат определен брой възможни стойности между всякакви две стойности

    Следователно дискретни данни включват броя на жалбите на клиентите или броя на хората, които обичат сладолед, т.е.не можете да имате половин жалба или една трета от човек. Друг пример би бил възрастта в цели години. За целите на анализа дискретните данни се считат за много подобни на непрекъснатите данни.

  • Данните с класиране са сортирани и подредени и след това номерирани според техния ред на класиране

    Например, ако сте имали четири бита данни със стойности 4, 6, 3 и 7, бихте могли да ги класирате във възходящ ред като 3, 4, 6 и 7. След това те ще вземат своя ред на ранга, така че 3 ще бъде 1 (1-во), 4 би било 2 (2-ро) и т.н. Данните обикновено се класират, когато всичко, което ви интересува, е поръчката, а не абсолютните стойности. Това обикновено е случаят, когато две променливи се променят заедно, но нямат праволинейна връзка (т.е. те се променят с различна скорост). Например, графиката по-долу показва този тип връзка (в този случай експоненциална).

    Графика, показваща експоненциална връзка между две променливи.

    Внимание!


    Важно е да запомните, че когато класирате данните, вие губите информация.

    Следователно това трябва да се прави само когато наистина трябва да го направите.


Тези четири типа данни са подходящи за различни видове анализ - и за всеки ще трябва да използвате различни статистически тестове и форми на анализ.

За повече информация относно използването на различни видове данни за анализ може да погледнете нашата страница наКорелации.

Заключение

Има много различни видове данни, които можете да събирате като част от вашето проучване. Изборът на тип данни обикновено се определя от вашите изследователски методи, които от своя страна се определят от вашия изследователски въпрос и от общия ви подход към изследването. Изборът на тип данни обаче има значение и за вида на анализа, и за заключенията, които можете да направите.


Продължете към:
Разбиране на корелациите
Прост статистически анализ