Está en la página 1de 48

TEMA 2

Organizacin, representacin, descripcin de datos y transformacin de datos en Psicologa.

Objetivos Organizar y representar la informacin obtenida atendiendo al nivel de medida Conocer, calcular y comprender los diversos ndices que existen para describir la informacin obtenida. Comparar los resultados propios con los de otros informes. Conocer los distintos tipos de transformacin de datos ms utilizados y saber aplicarlos e interpretarlos

NDICE 1.- Organizacin de datos. 2.- Representaciones grficas 3.- ndices de tendencia y posicin central. 4. ndices de dispersin o variabilidad. 5. ndices de forma de una distribucin de frecuencia 6. Transformacin de datos en Psicologa

Referencias bibliogrficas para preparar el tema. Merino, J.M., Moreno, E., Padilla, M., Rodrguez-Min, P. y Villarino, A. (2001): Anlisis de Datos en Psicologa I. Madrid: UNED. Captulo 3, pp. 75-106. Captulo 4, pp. 107-144. Captulo 5, pp. 145-170. Captulo 8, pp. 225-258. Madrid: UNED. Amn, J. (1980). Estadstica para Psiclogos I. Captulo 4, pp. 45-63. Captulo 5, pp. 64-102. Captulo 6, pp. 103-122. Captulo 7, pp. 123-133. Captulo 9, pp. 159-178. Madrid: Pirmide.

1. Organizacin de datos

Organizacin de datos: la matriz de casos por variables


En los primeros estadios de cualquier investigacin, la informacin recogida (datos) sobre la/s variable/s objeto de estudio se organiza en forma de tabla. Cada fila de la tabla es ocupada por un caso, mientras que las variables registradas ocupan las columnas. De este modo es fcil localizar la puntuacin o valor de un caso concreto en una variable concreta.
POBLAC DENS. URBAN RELIG ESPVF ESPVM ALFAB INCPOB MORTINF PIBCAP Cuba 11100 99 74 Catlica 78 74 94 1 10,2 1382 Chile 14000 18 85 Catlica 78 71 93 1,7 14,6 2591 China 1205200 124 26 Taoista 69 67 78 1,1 52 377 Dinamarca 5200 120 85 Protest. 79 73 99 0,1 6,6 18277 Ecuador 10700 39 56 Catlica 73 67 88 2 39 1085 Egipto 60000 57 44 Musulma. 63 60 48 2 76,4 748 El Salvador 5800 246 44 Catlica 69 64 73 2 41 1078 Emiratos rabes 2800 32 81 Musulma. 74 70 68 4,8 22 14193 Espaa 39200 77 78 Catlica 81 74 95 0,3 6,9 13047 Estados Unidos 260800 26 75 Protest. 79 73 97 1 8,1 23474 Estonia 1600 36 72 Protest. 76 67 99 0,5 19 6000 Etiopa 55200 47 12 Musulma. 54 51 24 3,1 110 122 Filipinas 69800 221 43 Catlica 68 63 90 1,9 51 867 Finlandia 5100 39 60 Protest. 80 72 100 0,3 5,3 15877 Francia 58000 105 73 Catlica 82 74 99 0,5 6,7 18944 Gabn 1300 4,2 46 Catlica 58 52 61 1,5 94 4283 Gambia 959 86 23 Musulma. 52 48 27 3,1 124 351 Georgia 5500 81 56 Ortodoxa 76 69 99 0,8 23 4500 Gran Bretaa 58400 237 89 Protest. 80 74 99 0,2 7,2 15974 PAS

Valor registrado de Etiopa en la variable PIBCAP (producto interior bruto per cpita ): $122

Organizacin de datos: primeros pasos

Los datos registrados en forma de matriz de casos por variables suelen escribirse de manera desordenada. El primer paso ser organizarlos de modo que pueda tenerse una primera impresin de la estructura que presentan los datos. La manera ms inmediata de proceder es realizar un recuento de las veces que aparece cada valor de una variable, y confeccionar con el resultado una tabla que refleje esa informacin.

Organizacin de datos: primeros pasos

Si la variable es cuantitativa continua: puede haber muchos valores diferentes no es de utilidad reflejar la frecuencia para cada valor. los diferentes valores se agrupan en intervalos Despus, representar grficamente dicha distribucin. en funcin del tipo de variable

Distribucin de frecuencias y representacin grfica Variable nominal o categrica

Estado Civil Casado Viudo Divorciado Separado Soltero

Frecuencia Proporcin Porcentaje 794 165 213 40 286 1498 0,53 0,11 0,142 0,027 0,191 1 53,004 11,015 14,219 2,670 19,092 100,000

Proporcin solteros Porcentaje solteros

286 = 0,191 1498 286 100 = 19,09% 1498

2. Representaciones grficas

Distribucin de frecuencias y representacin grfica Variable nominal o categrica Grfico de barras

Grfico de barras de frecuencias absolutas

Distribucin de frecuencias y representacin grfica Variable nominal o categrica Grfico de barras

Grfico de barras de porcentajes

Distribucin de frecuencias y representacin grfica Variable nominal o categrica Grfico de sectores

213 360 = 51,2 1498 0,142 360 = 51,2 14,219 360 = 51,2 100

Distribucin de frecuencias y representacin grfica Variables ordinales y discretas

Ttulo escolar Elemental Medio Bachillerato Diploma universitario Licenciado

Frecuencia Fre.acumulada 278 780 90 234 113 1495 278 1058 1148 1382 1495

Proporcin 0,186 0,5217 0,0602 0,1565 0,0756 1

Pro.acumulada Porcentaje Pct.acumulado 0,186 0,7077 0,7679 0,9244 1 18,60 52,17 6,02 15,65 7,56 100,00 18,60 70,77 76,79 92,44 100,00

Distribucin de frecuencias y representacin grfica Variables ordinales y discretas

Diagrama de barras (frecuencias absolutas)

Distribucin de frecuencias y representacin grfica Variables ordinales y discretas

Diagrama de barras (frecuencias acumuladas)

Distribucin de frecuencias de variables continuas

Variable cuantitativa continua: Agrupar los datos en intervalos Presentar la distribucin de frecuencias de estos intervalos. Cada intervalo tendr la misma amplitud. El punto medio del intervalo ser su valor representativo (marca de clase). Representacin grfica: Histograma Polgono de Frecuencias. Se pueden realizar con las frecuencias absolutas, acumuladas, proporcin o los porcentajes.

Distribucin de frecuencias Variable cuantitativa continua E.g., peso de 1000 personas de Jan
59.5 69.5 79.5 89.5 99.5 109.5 119.5 129.5 139.5

54

55

56

57

58

Lmites virtuales 59 60 Lmites reales

61

62

63

64

65

lmite virtual: valores del intervalo en funcin del nivel de precisin del instrumento de medida (e.g., la bscula solo mide Kg)

lmite real: valores de los intervalos si la bscula tuviera una precisin perfecta

lmite real: Lmite virtual unidad de medida E.g.: Lmite real del lmite virtual 55-64 Lmite real: 55 ( x 1kg) = 54.5

Distribucin de frecuencias de variables continuas

Concepto Variable Punto medio intervalo Frecuencia absoluta Frecuencia absoluta acumulada Frec. Relativa o proporcin Proporcin acumulada Porcentaje Porcentaje acumulado

Smbolo X Xi ni na pi pa Pi Pa

Distribucin de frecuencias Variable cuantitativa continua E.g., peso de 1000 personas de Jan
59.5 69.5 79.5 89.5 99.5 109.5 119.5 129.5 139.5

54

55

56

57

58

Lmites virtuales 59 60 Lmites reales

61

62

63

64

65

lmite virtual: valores del intervalo en funcin del nivel de precisin del instrumento de medida (e.g., la bscula solo mide Kg)

lmite real: valores de los intervalos si la bscula tuviera una precisin perfecta

lmite real: Lmite virtual unidad de medida E.g.: Lmite real del lmite virtual 55-64 Lmite real: 55 ( x 1kg) = 54.5

Distribucin de frecuencias Variable cuantitativa continua

E.g., peso de 1000 personas de Jan


59.5 69.5 79.5 89.5 99.5 109.5 119.5 129.5 139.5

Punto Medio =

Representacin grfica variables continuas Frecuencias absolutas


300 250 200 150 100 50 0 60 70 80 90 100 110 120 130 140

Histograma de frecuencias absolutas

Representacin grfica variables continuas Frecuencias absolutas

300 250 200 150 100 50 0 60 70 80 90 100 110 120 130 140

Polgono de frecuencias absolutas

Representacin grfica variables continuas Frecuencias relativas


0,3 0,25 0,2 0,15 0,1 0,05 0 60 70 80 90 100 110 120 130 140

Histograma de frecuencias relativas

Representacin grfica variables continuas Frecuencias relativas


0,3

0,25

0,2

0,15

0,1

0,05

0 60 70 80 90 100 110 120 130 140

Polgono de frecuencias relativas

Histograma de frecuencias acumuladas


1200

1000

800

600

400

200

0 60 70 80 90 100 110 120 130 140

Polgono de frecuencias acumuladas

1200

1000

800

600

400

200

0 60 70 80 90 100 110 120 130 140

Otra forma de organizar y representar grficamente los datos


Diagrama de Tallo y Hojas

3.- ndices de tendencia y de posicin central.

ndices de Centralidad

La mayora de las distribuciones: alta proporcin de observaciones en su parte central. Las puntuaciones de esta zona se consideran puntuaciones representativas Los ndices de centralidad: cuantifican el valor central representativo de toda la distribucin Los ndices que se pueden calcular dependen: del nivel de medida de la variable

ndices de Centralidad

Segn el nivel de medida los ndices que miden la centralidad de una distribucin son: Moda: Es el valor que ms se repite Es el nico ndice cuando la variable es nominal. Clculo muy sencillo Pero la informacin que aporta es escasa.

Mediana: Se calcula cuando la variable al menos es ordinal. Valor que deja por debajo al 50% de los casos de la distribucin y por encima el otro 50%. Media: Se calcula cuando la variable es cuantitativa. En su clculo intervienen todas las puntuaciones de la distribucin: ms informacin

Media

La Media es el ndice ms informativo dado que en su clculo intervienen todas las puntuaciones de la distribucin. Por ello es especialmente sensible a las puntuaciones extremas, que pueden modificar notablemente el valor de la Media, al contrario de lo que ocurre con la Mediana, inmune a estas puntuaciones extremas.
Clculo con datos sin agrupar

X=
i

X
i =1

N
i

Clculo con datos agrupados en intervalos

nX X= n X = p X PX X=
i i i

con frecuencias absolutas con proporciones

i i

100

con porcentajes

Media

X 10 - 12 13 - 15 16 - 18 19 - 21 22 - 24

Xi 11 14 17 20 23

ni 5 10 15 6 4 40

pi 0,125 0,25 0,375 0,15 0,1 1

Pi 12,5 25 37,5 15 10 100

na 5 15 30 36 40

pa 0,125 0,375 0,75 0,9 1

Pa 12,5 37,5 75 90 100

n X n X = p X P X X=
X=
i i i i

con frecuencias absolutas con proporciones con porcentajes

i i

100

(11 5) + (14 10) + (17 15) + (20 6) + (23 4) = 16,55 40 X = (11 0,125) + (14 0,25) + (17 0,375) + (20 0,15) + (23 0,1) = 16,55 (11 12,5) + (14 25) + (17 37,5) + (20 15) + (23 10) = 16,55 X= 100 X=

Propiedades de la media 1. La suma de las diferencias de todas las puntuaciones respecto de la media es cero

2. La suma de estas diferencias elevadas al cuadrado es mnima. 3. Si a los valores de una variable se les suma una constante, la media de las nuevas puntuaciones ser igual a la media original ms la nueva constante. 4. Si a los valores de una variable se les multiplica por un factor, la media de los nuevos valores es igual al producto de la media original por el factor. 5. La media total de r grupos es igual a la media ponderada de las medias de cada grupo.

Propiedades de la media 1. La suma de las diferencias de todas las puntuaciones respecto de la media es cero

(X
i =1

X X) = X X = X nX = X n n

=0

Propiedades de la media La suma de estas diferencias elevadas al cuadrado es mnima. 2,3,4,3

Media = 3
2 2 2 2 = + + + = (X X ) ( 2 3 ) ( 3 3 ) ( 4 3 ) ( 3 3 ) i i =1 N 2

= 1+ 0 +1+ 0 = 2
Y con cualquier otro valor de la distribucin:
2 2 2 2 (X 2) ( 2 2 ) ( 3 2 ) ( 4 2 ) ( 3 2 ) = + + + = i i =1 N 2

= 0 +1+ 4 +1 = 6

Propiedades de la media Si a los valores de una variable se les suma una constante, la media de las nuevas puntuaciones ser igual a la media original ms la nueva constante.

Propiedades de la media Si a los valores de una variable se les multiplica por un factor, la media de los nuevos valores es igual al producto de la media original por el factor.

Propiedades de la media La media total de r grupos es igual a la media ponderada de las medias de cada grupo.

n1X1 + n2 X 2 + ... + nr X r XT = n1 + n2 + ... + nr

Mediana

Datos sin agrupar El nmero de observaciones es impar: Ordenar de menor a mayor La mediana es el nmero que ocupa la posicin central E.g., 4,5,6,7,9,11,13 Mdn = 7 El nmero de observaciones es par: Ordenar de menor a mayor La mediana es la media de los dos nmeros que ocupan la posicin central E.g., 4,5,6,7,9,11 Mdn = 6,5

Mediana
Datos agrupados en intervalos

X 10 - 12 13 - 15 16 - 18 19 - 21 22 - 24

X i ni 11 5 14 10 17 15 20 6 23 4 40

pi 0,125 0,25 0,375 0,15 0,1 1

Pi 12,5 25 37,5 15 10 100

na 5 15 30 36 40

pa 0,125 0,375 0,75 0,9 1

Pa 12,5 37,5 75 90 100

Intervalo crtico: 15,5-18,5

N N 50 n I n d d I 100 2 Md = P50 = L i + = Li + n Md n Md
40 15 3 2 Md = 15,5 + = 16,15 15

ndices de posicin Permiten determinar la posicin relativa de cada puntuacin respecto al grupo. Los ms utilizados son: Cuartiles. los tres valores de la variable Q1, Q2 y Q3 que dividen a la distribucin de frecuencias en cuatro partes iguales. Deciles: los nueve valores de la variable D1, D2, , D9 que dividen a la distribucin de frecuencias en diez partes iguales. Percentiles o Centiles: dividen la distribucin en 100 partes iguales, por lo que resultarn un total de 99 percentiles. Estos ndices nos permitirn saber cul es la puntuacin que deja por debajo un determinado % de observaciones en la distribucin. Tambin podemos responder la cuestin recproca: una puntuacin concreta qu porcentaje de observaciones supera?

Percentiles Deciles Quartiles P1 . P10 D1 . . P25 Q1 . . P40 D4 . P50 D5 Q2 . P60 D6 . . P75 Q3 . . P90 D9 . P99

Clculo de Percentiles. Datos agrupados en intervalos

Lmites virtuales X 30-34 35-39 40-44 45-49 50-54 55-59 60-64

Punto medio 32 37 42 47 52 57 62

Frec. Absoluta 5 13 15 21 14 8 4 80

Frec. Absol Acumul. 5 18 33 54 68 76 80

Intervalo crtico P30

La puntuacin correspondiente al Percentil 30 (P30) ser la puntuacin que deja por debajo al 30% de las observaciones. Como hay un total de 80 el P30 dejar por debajo 24 observaciones (30% de 80). Si 15 casos ocupan 5 puntos, 6 casos ocuparn: (6x5)/15 = 2 puntos Si sumamos 2 al lmite inferior real de este intervalo obtendremos el P30: 39,5 + 2 = 41,5

Lmites virtuales X 30-34 35-39 40-44 45-49 50-54 55-59 60-64

Punto medio 32 37 42 47 52 57 62

Frec. Absoluta 5 13 15 21 14 8 4 80

Frec. Absol Acumul. 5 18 33 54 68 76 80

Nk Nd I 100 Pk = L i + N Pk
80 30 18 5 100 = 39,5 + 2 = 41,5 P30 = 39,5 + 15

A qu percentil corresponde una puntuacin? Percentil correspondiente a X = 57


Lmites virtuales X 30-34 35-39 40-44 45-49 50-54 55-59 60-64 Punto medio 32 37 42 47 52 57 62 Frec. Absoluta 5 13 15 21 14 8 4 80 Frec. Absol Proporcin Porcentaje Acumul. Proporcin acumulada Porcentaje acumulado 5 0,0625 0,0625 6,25 6,25 18 0,1625 0,225 16,25 22,5 33 0,1875 0,4125 18,75 41,25 54 0,2625 0,675 26,25 67,5 68 0,175 0,85 17,5 85 76 0,1 0,95 10 95 80 0,05 1 5 100 1 100

A qu percentil corresponde una puntuacin?

La puntuacin 57 est en el intervalo 54,5 59,5 (lmites reales). En el intervalo de la puntuacin 57 hay 8 casos, repartidos homogneamente en una amplitud de 5 puntos. La diferencia entre 57 y el lmite real de ese intervalo es 57 54,5 = 2,5. Por tanto, si en 5 puntos hay 8 casos en 2,5 puntos habr: (2,5 8)/5 = 4 casos. Como hasta el intervalo anterior al de la la puntuacin 57 hay 68 casos acumulados y desde 54,5 a 57 hay 4 casos, en total habr acumulados hasta la puntuacin 57: 68+4= 72 casos. Estos 72 casos representan un porcentaje respecto del total de casos. Este porcentaje ser: (72 100)/80 = 90. Es decir, la puntuacin X = 57 es el Percentil 90 de la distribucin X=57 P90

También podría gustarte