Está en la página 1de 68

ESTADSTICA APLICADA

Ms. Ing. GASTN MARCO FLORES RAMOS

1. GENERALIDADES La palabra "estadstica" suele utilizarse bajo dos significados distintos, a saber: 1 Como coleccin de datos numricos.- Esto es el significado ms vulgar de la palabra estadstica. Se sobrentiende que dichos datos numricos han de estar presentados de manera ordenada y sistemtica. Una informacin numrica cualquiera puede no constituir una estadstica, para merecer este apelativo, los datos han de constituir un conjunto coherente, establecido de forma sistemtica y siguiendo un criterio de ordenacin. 2 Como ciencia.- En este significado, La Estadstica estudia el comportamiento de los fenmenos de masas. Como todas las ciencias, busca las caractersticas generales de un colectivo y prescinde de las particulares de cada elemento. As por ejemplo al investigar el salario de los trabajadores, iniciaremos el trabajo tomando un grupo numeroso de trabajadores y obtener despus la proporcin de salarios. Por tanto, el objetivo de la estadstica es hallar las regularidades que se encuentran en los fenmenos de masa. 1.1 Poblaciones y muestras Cuando se realiza un estudio de investigacin, se pretende generalmente inferir o generalizar resultados de una muestra a una poblacin. Se estudia en particular a un reducido nmero de individuos a los que tenemos acceso con la idea de poder generalizar los hallazgos a la poblacin de la cual esa muestra procede. Este proceso de inferencia se efecta por medio de mtodos estadsticos basados en la probabilidad. La poblacin representa el conjunto grande de individuos que deseamos estudiar y generalmente suele ser inaccesible. Es, en definitiva, un colectivo homogneo que rene unas caractersticas determinadas. La muestra es el conjunto menor de individuos (subconjunto de la poblacin accesible y limitado sobre el que realizamos las mediciones o el experimento con la idea de obtener conclusiones generalizables a la poblacin). El individuo es cada uno de los componentes de la poblacin y la muestra. La muestra debe ser representativa de la poblacin y con ello queremos decir que cualquier individuo de la poblacin en estudio debe haber tenido la misma probabilidad de ser elegido. Las razones para estudiar muestras en lugar de poblaciones son diversas y entre ellas podemos sealar: a. Ahorrar tiempo. Estudiar a menos individuos es evidente que lleva menos tiempo. b. Como consecuencia del punto anterior ahorraremos costos. c. Estudiar la totalidad de los pacientes o personas con una caracterstica determinada en muchas ocasiones puede ser una tarea inaccesible o imposible de realizar. d. Aumentar la calidad del estudio. Al disponer de ms tiempo y recursos, las observaciones y mediciones realizadas a un reducido nmero de individuos pueden ser ms exactas y plurales que si las tuvisemos que realizar a una poblacin. e. La seleccin de muestras especficas nos permitir reducir la heterogeneidad de una poblacin al indicar los criterios de inclusin y/o exclusin.

1.2 Tipos de datos Lo que estudiamos en cada individuo de la muestra son las variables (edad, sexo, peso, talla, salarios, etctera). Los datos son los valores que toma la variable en cada caso. Lo que vamos a realizar es medir, es decir, asignar valores a las variables incluidas en el estudio. Deberemos adems concretar la escala de medida que aplicaremos a cada variable. La naturaleza de las observaciones ser de gran importancia a la hora de elegir el mtodo estadstico ms apropiado para abordar su anlisis. Con este fin, clasificaremos las variables, a grandes rasgos, en dos tipos: variables cuantitativas o variables cualitativas.

a. Variables cuantitativas. Son las variables que pueden medirse, cuantificarse o


expresarse numricamente. Las variables cuantitativas pueden ser de dos tipos: Variables cuantitativas continuas, si admiten tomar cualquier valor dentro de un rango numrico determinado (edad, peso, talla). Variables cuantitativas discretas, si no admiten todos los valores intermedios en un rango. Suelen tomar solamente valores enteros (nmero de hijos, nmero trabajadores, nmero de hermanos, etc). b. Variables cualitativas. Este tipo de variables representan una cualidad o atributo que clasifica a cada caso en una de varias categoras. La situacin ms sencilla es aquella en la que se clasifica cada caso en uno de dos grupos (hombre/mujer, enfermo/sano, fumador/no fumador). Son datos dicotmicos o binarios. Como resulta obvio, en muchas ocasiones este tipo de clasificacin no es suficiente y se requiere de un mayor nmero de categoras (color de los ojos, grupo sanguneo, profesin, etctera). En el proceso de medicin de estas variables, se pueden utilizar dos escalas:
Escalas nominales: sta es una forma de observar o medir en la que los datos

se ajustan por categoras que no mantienen una relacin de orden entre s (color de los ojos, sexo, profesin, presencia o ausencia de un factor de riesgo o enfermedad, etctera). Escalas ordinales: en las escalas utilizadas, existe un cierto orden o jerarqua entre las categoras. 1.3 Estadstica descriptiva Una vez que se han recogido los valores que toman las variables de nuestro estudio (datos), procederemos al anlisis descriptivo de los mismos. Para variables categricas, como el sexo, se quiere conocer el nmero de casos en cada una de las categoras, reflejando habitualmente el porcentaje que representan del total, y expresndolo en una tabla de frecuencias. Para variables numricas, en las que puede haber un gran nmero de valores observados distintos, se ha de optar por un mtodo de anlisis distinto, respondiendo a las siguientes preguntas: a. Alrededor de qu valor se agrupan los datos? b. Supuesto que se agrupan alrededor de un nmero, cmo lo hacen? muy concentrados? muy dispersos?

1. MEDIDAS DE TENDENCIA CENTRAL


Las medidas de centralizacin vienen a responder a la primera pregunta. La medida ms evidente que podemos calcular para describir un conjunto de observaciones numricas es su valor medio. 2.1 Media aritmtica: a) Para datos sin agrupar La media aritmtica de una variable se define como la suma ponderada de los valores de la variable por sus frecuencias relativas y lo denotaremos por expresin: y se calcula mediante la

Ejemplo: Consideremos 10 trabajadores de edades 21 aos, 32, 15, 59, 60, 61, 64, 60, 71, y 80. La media de edad de estos sujetos ser de:

Ms formalmente, si denotamos por (X1, X2,...,Xn) los n datos que tenemos recogidos de la variable en cuestin, el valor medio vendr dado por: b) Para datos agrupados

xi representa el valor de la variable o en su caso la marca de clase. Propiedades: 1. Si multiplicamos o dividimos todas las observaciones por un mismo nmero, la media queda multiplicada o dividida por dicho numero. 2. Si le sumamos a todas las observaciones un mismo nmero, la media aumentar en dicha cantidad. Ejemplo: Sea la distribucin de las notas de estadsticas. Hallar la Media Aritmtica

Li-1 2 4 6 8 10 12 14 16 SUMA

l1 4 6 8 10 12 14 16 18

xi 3 5 7 9 11 13 15 17

ni 3 2 5 9 12 10 2 5 48

xi.ni 9 10 35 81 132 130 30 85 512

X = 512/48 = 10.66 2.2 Mediana: La mediana es el valor central de la variable, es decir, supuesta la muestra ordenada en orden creciente o decreciente, el valor que divide en dos partes la muestra. a) Para datos sin agrupar Tendremos en cuenta el tamao de la muestra. Si N es Impar, hay un trmino central, el trmino Si N es Par, hay dos trminos centrales, valores Ejemplo: Para N impar 1,4,6,7,8,9,12,16,20, 24,25,27,30 N=13 Trmino Central el 7 , 12 Me=12 Para N par 1,4,6,7,8,9,12,16,20, 24,25,27 N=12 Trminos Centrales el 6 y 7 9 y 12 que ser el valor de la mediana. la mediana ser la media de esos dos

Me= b) Para datos agrupados Si la variable es continua, la tabla vendr en intervalos, por lo que se calcula de la siguiente forma: Nos vamos a apoyar en un grfico de un histograma de frecuencias acumuladas.

De donde la mediana vale: donde ai es la amplitud del intervalo Ejemplo: Supongamos los pesos de un grupo de 50 personas se distribuyen de la siguiente forma: Li-1 45 55 65 75 85 Li 55 65 75 85 95 ni 6 10 19 11 4 Ni 6 16 35 46 50

Como el tamao de la muestra es N=50, buscamos el intervalo en el que la Frecuencia acumulada es mayor que 50/2=25, que en este caso es el 3 y aplicamos la frmula anterior. Luego la Mediana ser

Me= 2.3 MODA: La moda es el valor de la variable que tenga mayor frecuencia absoluta, la que ms se repite, es la nica medida de centralizacin que tiene sentido estudiar en una variable cualitativa, pues no precisa la realizacin de ningn clculo. Por su propia definicin, la moda no es nica, pues puede haber dos o ms valores de la variable que tengan la misma frecuencia siendo esta mxima. En cuyo caso tendremos una distribucin bimodal o polimodal segn el caso. Por lo tanto el clculo de la moda en distribuciones discretas o cualitativas no precisa de una explicacin mayor; sin embargo, debemos detenernos un poco en el clculo de la moda para distribuciones cuantitativas continuas. a) Para datos sin agrupar Ejemplo: Determine la moda del siguiente conjunto de notas: 1. 03; 05; 08; 12; 08; 10 2. 04 06; 07; 06; 04; 02; 11; 13; 14 3.
Xi Ni 03 1 05 1 08 2 10 1 12 1

Distribucin unimodal Mo = 8 Xi Ni 02 1 04 2 06 2 07 11 1 13 1 14 1

Distribucin bimodal Mo1 = 04 y Mo2 = 06 b) Para datos agrupados

Apoyndonos en el grfico podemos llegar a la determinacin de la expresin para la Moda que es:

ni ni-1 Mo = Li-1 + ------------------------------------ . ai ni ni-1+ ni ni-1


Otros autores dan una expresin aproximada para la moda que viene dada por la siguiente expresin:

Ejemplo: Veamos su clculo mediante un ejemplo, para ello usaremos los datos del apartado anterior Li-1 45 55 65 75 85 Li 55 65 75 85 95 ni 6 10 19 11 4 Ni 6 16 35 46 50

Utilizando la frmula aproximada

3. MEDIDAS DE DISPERSIN Tal y como se adelantaba antes, otro aspecto a tener en cuenta al describir datos continuos es la dispersin de los mismos. Existen distintas formas de cuantificar esa variabilidad. 3.1 Rango Es la primera medida que vamos a estudiar, se define como la diferencia existente entre el valor mayor y el menor de la distribucin,. Lo notaremos como R. Realmente no es una medida muy significativa e la mayora de los casos, pero indudablemente es muy fcil de calcular.

Hemos estudiado varias medidas de centralizacin, por lo que podemos hablar de desviacin con respecto a cualquiera de ellas, sin embargo, la mas utilizada es con respecto a la media. Ejemplo: Si las calificaciones del rendimiento en el trabajo del Grupo A tiene un alcance de 02; 19 y la del Grupo B 04; 19 Cul de los Grupos tiene mayor rango? Respuesta El Grupo A tiene un rango mayor que el Grupo B, esto quiere decir que en el Grupo A los rendimientos estn mas dispersos. 3.2 Desviacin Media D.M. Es la suma de los valores absolutos de la desviaciones de los datos o marcas de clase con respecto a la media aritmtica. a) Para datos sin agrupar

Donde: Xi = Marca de clase X = Media N = Nmero de observaciones Ejemplo: Sean los calificativos de rendimientos en el trabajo del grupos A: 08; 10; 12; 14 08 + 10 + 12 +14 Hallando X = ------------------------- = 11 4 |(08-11)| + |(10-11)| + |(12-11)| + |(14-11)| D.M = ---------------------------------------------------------4 3+1+1+3 D.M = ---------------------- = 2 4 b) Para datos agrupados

Ejemplo: Calcular la D.M. de un conjunto de calificaciones de rendimientos en el trabajo: Yi-1 Yi 00 04 04 08 08 12 12 16 16 20 ni 10 2 12 8 18 50 Xi 2 6 10 14 18 Xini 20 12 120 112 324 588 |Xi-X | 9,76 5,76 1,76 2,24 6,24 |Xi-X |ni 97,6 11,52 21,12 17,92 112,32 260,48

260,48 D.M = ----------- = 5,210 50 3.3 Varianza Es la media de los cuadrados de las desviaciones, y la denotaremos por a) Para datos sin agrupar o por .

Esta varianza muestral se obtiene como la suma de las de las diferencias de cuadrados y por tanto tiene como unidades de medida el cuadrado de las unidades de medida en que se mide la variable estudiada. Ejemplo: Sean los calificativos de rendimientos en el trabajo del grupos A: 08; 10; 12; 14 08 + 10 + 12 +14 Hallando X = ------------------------- = 11 4 (08-11)2 + (10-11)2 + (12-11)2 + (14-11)2 S2x = ---------------------------------------------------------4 9+1+1+9 S2x = ---------------------- = 5 4

10

b) para datos agrupados

Aunque tambin es posible calcularlo como:

Este estadstico tiene el inconveniente de ser poco significativo, pues se mide en el cuadrado de la unidad de la variable, por ejemplo, si la variable viene dada en cm. La varianza vendr en cm2. Ejemplo Y1-1 Yi Xi 1 3 5 7 9 11 13 15 Ni 3 5 2 12 8 3 7 10 50 Xini 3 15 10 84 72 33 91 150 458 (xi-X)2 66,586 37,946 17,306 4,666 0,026 3,306 14,746 34,106 (Xi-X)2ni 199,757 189,728 43,611 55,987 0,204 10,156 103,220 341,056 934,719

00 02 02 04 04 06 06 08 08 10 10 12 12 14 14 16

934,719 S2x = --------------- = 18,694 50 3.4 Desviacin tpica (S) Es la raz cuadrada de la varianza. Expresa la dispersin de la distribucin y se expresa en las mismas unidades de medida de la variable. La desviacin tpica es la medida de dispersin ms utilizada en estadstica. a) Para datos sin agrupar

11

Aunque esta frmula de la desviacin tpica muestral es correcta, en la prctica, la estadstica nos interesa para realizar inferencias poblacionales, por lo que en el denominador se utiliza, en lugar de n, el valor n-1. Por tanto, la medida que se utiliza es la cuasidesviacin tpica, dada por:

Aunque en muchos contextos se utiliza el trmino de desviacin tpica para referirse a ambas expresiones.

Ejemplo: Sean los calificativos de rendimientos en el trabajo del grupos A: 08; 10; 12; 14 08 + 10 + 12 +14 Hallando X = ------------------------- = 11 4 (08-11)2 + (10-11)2 + (12-11)2 + (14-11)2 Sx = ---------------------------------------------------------4 9+1+1+9 Sx = ---------------------4 Sx = =5 = 2.24

b) Para datos agrupados

Este estadstico se mide en la misma unidad que la variable por lo que se puede interpretar mejor. Ejemplo: Sx = s2x Sx = 18,694

12

Sx = 4,32 3.5 Coeficiente de Variacin (CV). Es una medida de dispersin relativa de los datos y se calcula dividiendo la desviacin tpica muestral por la media y multiplicando el cociente por 100. Su utilidad estriba en que nos permite comparar la dispersin o variabilidad de dos o ms grupos. As, por ejemplo, si tenemos el peso de 5 trabajadores (70, 60, 56, 83 y 79 Kg) cuya media es de 69,6 kg. y su desviacin tpica (s) = 10,44 y la TAS de los mismos (150, 170, 135, 180 y 195 mmHg) cuya media es de 166 mmHg y su desviacin tpica de 21,3. La pregunta sera: qu distribucin es ms dispersa, el peso o la tensin arterial? Si comparamos las desviaciones tpicas observamos que la desviacin tpica de la tensin arterial es mucho mayor; sin embargo, no podemos comparar dos variables que tienen escalas de medidas diferentes, por lo que calculamos los coeficientes de variacin:

Ejemplo: Sx C.V. = --------- 100% X 4,32 C.V. = ------- 100 = 47,16 (Datos heterogneos) 9,16 4. CORRELACION Y REGRESION 4.1 Correlacin Se llama correlacin a la relacin entre dos o ms variables estadsticas referidas a una misma muestra. El grado de correlacin entre dos variables se mide mediante los coeficientes de correlacin Clases de correlacin Existen varias clases, veamos solo algunos: a) Correlacin simple: Cuando se realiza entre dos variables b) Correlacin mltiple: Cuando intervienen tres o ms variables c) Correlacin lineal: Cuando el diagrama de dispersin tiende a formar una curva d) Correlacin no lineal: Cuando el diagrama de dispersin tiende a formar una curva Diagramas de Dispersin Si las variables (X e Y) que se relacionan, se llevan a graficarlas en un plano cartesiano, obtendremos una nube de puntos de diversas representaciones y correspondindoles a cada diagrama de dispersin su respectivo coeficiente de correlacin el mismo que slo variar entre -1.00 <= r <= +1.00

13

Grados de Correlacin Cuando la correlacin es directa, el coeficiente de correlacin es positiva, es decir el diagrama de dispersin tiene una orientacin de abajo hacia arriba y de izquierda a derecha. Cuando la correlacin es inversa, el coeficiente de correlacin es negativo, es decir el diagrama de dispersin tiene una orientacin de abajo hacia arriba pero de derecha a izquierda Tabla de Elorza, H (1987) De 0,96 a 1,00 De 0,85 a 0,95 De 0,70 a 0,84 De 0,50 a 0,69 De 0,20 a 0,49 De 0,10 a 0,19 De 0,00 a 0,09 : Correlacin perfecta : Correlacin fuerte : Correlacin significativa : Correlacin moderada : Correlacin dbil : Correlacin muy dbil : Correlacin nula

4.2 Correlacin y Regresin Cuando basndose en datos muestrales, se desea estimar el valor, de una variable Y correspondiente a un valor dado de una variable X, se puede corregir estimando al valor de Y de la curva de mnimos cuadrados, que ajusta con datos muestrales. La curva resultante se llama CURVA DE REGRESION de Y sobre X, ya que Y se estima a partir de los valores de X. Se puede resumir , que se puede estimar (regresin) el valor de una variable a partir de una o mas variables relacionadas (correlacin) es decir en que medida una ecuacin lineal ( o no lineal), explica o describe adecuadamente al relacin entre variables. La Lnea Recta Y = a0 + a1X Donde a0 y a1 son constantes y pueden ser hallados

14

Dados los puntos cualesquiera (x1,y1) y (x2,y2) de la recta, la ecuacin puede expresarse tambin Y2-Y1 Y Y1 = ----------- (X-X1) X2-X1

Y-Y1 = m(X-X1)

Y2-Y1 Donde m es la pendiente de la lnea recta = m = ----------X2-X1 Recta de Mnimos Cuadrados Sean los puntos: (X1,Y1),(x2,y2)..;(xn,Yn), y la recta de aproximacin por mnimos cuadrados, tiene la ecuacin: Y = a0 + a1X Donde para hallar las constantes: a0, a1 a partir del sistema de ecuaciones: Ecuaciones normales para la recta de mnimos cuadrados Y = a0N+a1X XY = a0X + a1X2 Las constantes a0 y a1 se obtienen: (Y)(X2)-(X)(XY) A0 = --------------------------------NX (X) Ejemplo: Ajustar una recta de mnimos cuadrados a los datos de la tabla adjunta, tomando (a) X como variable independiente y (b) Y como variable dependiente X Y 3 2 5 3 6 4 8 6 9 11 5 8
2 2

NXY-(X)(Y) a1 = --------------------------NX2-(X)2

X 3 5 6 8 9 11

Y 2 3 4 6 5 8

X2 9 25 36 64 81 121 336

XY 6 15 24 48 45 88 226

Y2 4 9 16 36 25 64 154

= 42 28

Las ecuaciones de la recta y las ecuaciones normales son:

15

Y = a0 + a1X Y = a0N+a1X XY = a0X + a1X2 6a0 + 42a1 = 28 .(1) 42a0 + 336a1 = 226 ..(2) Resolviendo el sistema de ecuaciones se tiene: -252a0 1764a1 = -1176 252a0 + 2016a1 = 1356 ----------------------------------0 + 256a1 = 180 a1 = 180/252 = 0,71 a0 = -1/3 = -0,3 Y = -0,3 + 0,71X Para la ecuacin de la recta usar X = b0 + b1Y con las siguientes ecuaciones normales X = b0N + b1Y XY = b0Y + b1Y2 Se debe llegar a la Ec. X = 1,00 + 1,29Y

4.3 Coeficiente de Correlacin r de Pearson Es el coeficiente ideado por Karl Pearson, estadstico ingls, y es el ndice de correlacin ms usado. La escala que utiliza es de intervalo o de razn y se define como la media de los productos de las puntuaciones z de ambas variables (X;Y) Simblicamente: ZxZy r = ----------------N r = Coeficiente de correlacin de Pearson Zx = Puntuacin Z de la variacin X Zy = Puntuacin Z de la variacin Y ZxZy = Sumatoria de los productos de las puntuaciones N = Nmero de las puntuaciones Frmula directa para el clculo del coeficiente r de Pearson a partir de las calificaciones brutas NXY (X)(Y) r = -------------------------------------------------[NX2 (X)2] [NY2 (Y)2]

Donde:

16

X : Sumatoria de las calificaciones brutas de la variable X Y : Sumatoria de las calificaciones brutas de la variable Y XY: Sumatoria del producto de las calificaciones: X e Y X2 : Sumatoria de los cuadrados de las calificaciones X Y2 : Sumatoria de los cuadrados de las calificaciones Y (X)2 : Cuadrado de la sumatoria de las calificaciones X (Y )2 : Cuadrado de la sumatoria de las calificaciones Y N : Nmero de calificaciones pareadas r : Coeficiente de correlacin de Pearson Ejemplo: Hallar el coeficiente de correlacin r de Pearson de las puntuaciones originales de 14 trabajadores que obtuvieron en dos pruebas de rendimiento laboral. Trabaj. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 N=14 X 18 18 17 17 16 16 15 15 14 14 13 13 12 12 =210 x 3 3 2 2 1 1 0 0 -1 -1 -2 -2 -3 -3 x2 9 9 4 4 1 1 0 0 1 1 4 4 9 9 56 Y 28 30 30 26 28 24 22 20 26 22 24 28 20 18 336 y 4 6 6 2 4 0 -2 -4 2 -2 0 -6 -4 -6 y2 16 36 36 4 16 0 4 16 4 4 0 36 16 36 224 Zx 1,5 1,5 1,0 1,0 0,5 0,5 0,0 0,0 -0,5 -0,5 -1,0 -1,0 -1,5 -1,5 Zy ZxZy 1,0 1,50 1,5 2,25 1,5 1,50 0,5 0,50 1,0 0,50 0,0 0,00 -0,5 0,00 -1,0 0,00 0,5 -0,25 -0,5 0,25 0,0 0,00 -1,5 1,50 -1,0 1,50 -1,5 2,25 11,50

ZxZy r = ----------------N x` = x/N = 210/14 = 15; y` = y/N = 336/14 = 24; Zx = (x x)/Sx; Sx = (x2/N) = (56/14) = 4 = 2 Zy = (y y)/Sy; Sy = (y2/N) = (224/14) = 16 = 4

Zx5 = (16-15)/ Sx = = 0,50 ; Zx13 =(12-15)/2 = -3/2 = -1,50 ZxZy r = ----------------- = 11,50/14 = 0,82 N 4.4 Error Estndar de Estimacin (Syx) Si el coeficiente de correlacin lineal es 1,00, o sea la relacin entre las dos variables es perfecta, entonces, los valores de Y observados, correspondern exactamente igual a la prevista. Pero en investigaciones sociales, este tipo de correlaciones perfectas no se dan. Las que si se dan usualmente, son cuando la correlacin es nula (r=0) existir un error muy grande en toda la prediccin, en cambio si el coeficiente de correlacin es alto (r=0,90) por

17

ejemplo, el error de prediccin de las Y observadas con las puntuaciones y previstas ser mnimo. Para hallar o medir este error, se utiliza el Error Estndar de Estimacin. El Error Estndar de Estimacin vara entre 0 y la desviacin estndar de la variable dependiere (Y) y es igual a: [XY (X) (Y)/N ] [Y - (Y) /N] - ------------------------------ X2 (X)2/N ---------------------------------------------------------N-2
2 2

Sxy =

Ejercicio: Segn el caso anterior: X 3 5 6 8 9 11 Y 2 3 4 6 5 8 X2 9 25 36 64 81 XY 6 15 24 48 45 Y2 4 9 16 36 25 64

121 88

= 42 28 336

226 154

Sxy =

[XY (X) (Y)/N ] [Y2 - (Y)2/N] - ------------------------------ X2 (X)2/N ---------------------------------------------------------N-2 [226 (42) (28)/6 ] [154 - (28)2/6] - ------------------------------336 (42)2/6 ---------------------------------------------------------6-2

Sxy =

[23,3 21,43] Sxy = -------------------- = 0,689 4

18

ESTADSTICA APLICADA CON SPSS


Ms. Ing. GASTN MARCO FLORES RAMOS

19

INTRODUCCIN El paquete estadstico SPSS (Statistical Package for Social Sciences), es un software para ordenadores personales de tipo modular destinado a realizar una gran variedad de anlisis estadsticos. Aunque son muchos los mdulos que posee los ms importantes son: BASE. Forma el ncleo del sistema y como tal debe permanecer residente en memoria. En l se encuentran los comandos necesarios para el acceso, la manipulacin, el anlisis y la presentacin de datos. Nos permite acceder a una gran variedad de fuentes de datos, entre las que se encuentran dBase, Lotus, Excel, y a travs de ODBC, Access Paradox, SQL Server, Oracle, y muchos ms. Los procedimientos estadsticos bsicos que incluye, son Anlisis Exploratorio de Datos, Tablas de Contingencia, Comparacin de Medias, Anlisis de la Varianza, Pruebas no Paramtricas, Correlacin y Regresin Lineal Mltiple. Esta ltima versin del SPSS incluye adems, Anlisis Factorial, Discriminante, de Conglomerados, y Clculo de Proximidades. ESTADSTICAS PROFESIONALES. Este mdulo contiene procedimientos estadsticos tales como Regresin logstica, Regresin no lineal restringida y no restringida, Cuadrados mnimos ponderados, Cuadrados mnimos en dos fases, Escalado Multidimensional, Modelos Logit y Probit y Anlisis de Fiabilidad. ESTADSTICAS AVANZADAS. En este mdulo se recogen aquellos anlisis estadsticos avanzados como son el Modelo Lineal General (MLG), el Anlisis Loglineal, Hiloglineal, y Genlog, la Estimacin de componentes de la varianza, el Anlisis de Supervivencia, la Estimacin Kaplan-Meier, la Regresin de Cox con covariables dependientes en el tiempo, los Modelos Manova y la Biblioteca de Macros. TENDENCIAS. Este es el mdulo dedicado al tratamiento y anlisis de Series Temporales. Podemos separar las series en sus componentes guardando los factores estacionales, tendencias cclicas, y componentes de error automticamente. Incluye las Tcnicas de Box-Jenkins y Anlisis Espectral. CATEGORAS. Aqu se incluyen programas relativos a los Procedimientos de Escalamiento, Anlisis de Correspondencias Simple y Mltiple. ANLISIS CONJUNTO. Permite trabajar con medidas del impacto de atributos individuales en productos o preferencias de consumidores y genera tarjetas en las que los entrevistadores pueden ordenar para indicar sus preferencias en funcin de los atributos. TABLAS. Este ltimo mdulo contiene los programas encaminados a la elaboracin de Tablas Pivote de alta calidad, con una gran cantidad de opciones de formato y presentacin. El SPSS se puede emplear de una manera interactiva, o como un programa en el que se procesan varias tareas de una sola vez. El Mtodo Interactivo consiste en elegir el procedimiento estadstico que se desea a travs de mens y cuadros de dilogo que recogen los aspectos ms relevantes de la tarea que se vaya a realizar. Como programa, el SPSS est organizado en base a comandos, que constituyen los elementos de un lenguaje. Cada procedimiento tiene asociado una serie de comandos y con la combinacin de los mismos se puede elaborar un fichero de sintaxis para llevar a cabo anlisis estadsticos ms

20

complejos. Los ficheros de sintaxis se ejecutan directamente mediante la opcin Ejecutar Proceso dentro del men Utilidades. A esta opcin se la denomina Proceso por lotes. 1. GENERALIDADES El paquete estadstico SPSS, responde al funcionamiento de todo programa que lleva a cabo anlisis estadsticos: pasados los datos a analizar a un fichero con las caractersticas del programa, ste es analizado con una serie de rdenes, dando lugar a unos resultados de tipo estadstico que el investigador debe interpretar. Este camino a seguir es el que guiar la presentacin de SPSS que efecta este mini-manual, debido a que es el camino ms natural de aprendizaje del mismo. 1.1. El procedimiento general de resolucin de un problema con SPSS. Los pasos a seguir para llevar a cabo un anlisis de tipo estadstico son los siguientes: 1 Recoger la informacin del problema que se desee investigar y tenerla organizada generalmente en papel; 2 Grabar esa informacin en un archivo de datos correspondiente al programa que se va a usar, en el caso de SPSS en un archivo que tiene el nombre que deseemos, pero que posee forzosamente la extensin .sav ; 3 Sobre tal archivo de datos se llevar a cabo el anlisis con SPSS, usando diferentes procedimientos que como veremos se seleccionan de distintos mens; 4 Los resultados de tales anlisis son volcados a un visor de resultados en el que su visualizacin y edicin es ms cmoda, y desde el que se pueden guardar en un fichero de nombre el que se desee, pero de extensin .spo . 5 El investigador interpreta los resultados y extrae las conclusiones que le parecen relevantes de los mismos, y con eso se cierra el ciclo sobre el que estamos trabajando. El procedimiento que acabamos de especificar es el que se sigue siempre en este tipo de anlisis, y es el que subyace a toda la presentacin que aqu se hace, por tanto empezaremos a entrar en detalle de los pasos para llevarlo a cabo. 1.2. La ventana principal de SPSS: el Editor de datos de SPSS. El paquete SPSS, desde la versin 7, es un paquete adaptado al entorno WINDOWS con lo cual la forma de ejecutarlo es a travs de ventanas en las que se despliegan mens, de los que se pueden elegir distintas opciones y as sucesivamente; por tanto es a travs de un entorno de tipo grfico desde donde se solventan los problemas, y no a travs de comandos (aunque tambin se puede hacer as) como se haca antes en los paquetes estadsticos ms usuales. Por lo que acabamos de decir, la forma de iniciar la ejecucin del programa SPSS es pinchando dos veces con el ratn (pinchar lo utilizaremos como sinnimo de hacer clic con el botn principal del ratn) en el icono de SPSS que es como el de la Figura, y que se suele encontrar en el escritorio en forma de enlace o en el men de inicio dentro del apartado de programas. Una de las primeras tareas que tendr que hacer el usuario de SPSS ser localizar la posicin del icono y adaptarlo a su gusto para que la entrada al programa sea fcil. Cuando se ha pinchado dos veces sobre el icono, se abre la ventana principal de SPSS que es el Editor de datos de SPSS, aunque tambin la llamaremos ventana principal de SPSS. Esta ventana tiene dos versiones o vistas: vista de datos y vista de variables. En la figura podemos ver la vista de datos; en ella aparecen ya incorporados los datos del fichero de datos ejemplo.sav (que es el fichero que nos acompaar a lo largo de todo el manual). En la figura aparece la vista de variables; en ella se muestran las caractersticas de todas las variables del fichero de datos. De una vista a otra se cambia pinchando con el ratn en la pestaa correspondiente en la parte inferior izquierda de la ventana Dentro de la vista de datos se pueden distinguir varias zonas. La primera zona (parte ms alta de la ventana, generalmente en color azul) est formada por la barra que contiene el nombre de la ventana, incluyendo el nombre del fichero de datos activo si existe, en nuestro caso el ejemplo.sav. La segunda zona a destacar (justo debajo de la anterior) es la zona de los mens en la que

21

aparecen los nombres de los mens desplegables que nos servirn para llevar a cabo nuestras tareas.

1.3 Menu Principal Los mens que se pueden desplegar figuran en la siguiente tabla con una breve descripcin de lo que se puede hacer con ellos, descripcin que corresponde en muchos casos con la de cualquier programa Windows que presenta tales mens.

Tabla. Mens de la ventana principal de SPSS

22

Men Archivo Edicin Ver Datos Transform ar Analizar Grficos Utilidades Ventana ?

Funcin Todas las funciones que se pueden hacer con archivos: Abrir, cerrar, guardar, importar, exportar, imprimir, etc. Realiza todas las funciones tpicas de la edicin como son: cortar, copiar, eliminar, buscar, reemplazar, etc... Permite controlar la forma en la que se ve la pantalla principal, controlando las barras que aparecen en ella as como la forma en la que se presentan los datos. Contiene el conjunto de acciones que se pueden llevar a cabo con los datos: definir propiedades de las variables, seleccionar casos, ordenar casos y muchas ms. Permite realizar cualquier funcin conducente a crear nuevas variables a partir de otras existentes o no: transformar, recodificar, asignar rangos, etc... Acceso al conjunto de programas de SPSS, que van desde la generacin de una tabla de frecuencias a anlisis multivariantes complejos. Acceso al conjunto de grficos estadsticos que van desde un simple histograma al dibujo de una curva ROC. Acceso a la descripcin de las variables del fichero activo, creacin de grupos de variables, as como edicin de los mens. Acceso rpido a las ventanas de datos, de resultados, de sintaxis. Ayuda en lnea sobre todo el paquete SPSS.

Como se puede observar en la tabla, bajo una de las letras del rtulo del men, aparece un subrayado, indicando tal cosa que combinando la tecla Alt con la letra subrayada se puede desplegar el men correspondiente, pudiendo desplazarse uno por l sin ms que usar las teclas de flecha presentes en el teclado.

Muchas de las opciones de estos mens las vamos a ir estudiando y utilizando a lo largo de este manual. Comentaremos aqu slo algunas opciones bsicas de uso general. La opcin Abrir, del men Archivo, nos permite abrir un archivo (generalmente de datos) para empezar a trabajar con l. Hoy da, esta opcin es comn (y funciona igual) en casi todos los programas Windows. Al pinchar sobre ella se abre una ventana como la de la Figura. En la primera caja de esta ventana (justo a la derecha de Buscar en) se coloca la carpeta donde est el archivo que queremos abrir; pinchando en la pestaa podemos acceder al rbol de carpetas y seleccionar la que corresponda (por defecto aparece la carpeta SPSS).

23

En la ltima caja y pulsando la pestaa , podemos seleccionar el tipo de archivo que queremos abrir (por defecto aparece archivos de datos de SPSS, esto es, con extensin .sav); entonces en la segunda caja (la ms grande de la ventana) aparecer una lista con todos los archivos del tipo seleccionado que existen en la carpeta seleccionada, y de ah seleccionaremos el que deseemos abrir, que aparecer escrito en la tercera caja de la ventana. Finalmente, pulsando el botn Abrir, se abrir el archivo. ste tambin se puede abrir haciendo doble clic sobre su nombre en la segunda caja. Tambin en el men Archivo tenemos dos opciones para guardar el fichero de datos activo. La opcin Guardar permite almacenar el fichero activo en un disco. Si el fichero activo ha sido ledo previamente se guardar con el mismo nombre que tena (el fichero original que exista en el disco se perder). Por el contrario si el fichero ha sido creado sin que exista ninguna imagen de l en el disco, se nos pedir que demos un nombre al nuevo fichero en el que se va a guardar la informacin. Debe quedar claro que esta opcin siempre guarda un fichero de datos de SPSS, es decir, aqul que tiene una extensin .sav. Por el contrario la opcin Guardar como... permite guardar el fichero activo con otro nombre y/o con formato de otras aplicaciones informticas, como bases de datos u hojas de clculo.

Cuando se selecciona la opcin se abre una ventana, en la que se seleccionar la carpeta donde se va a guardar el archivo, se escribir el nombre del archivo donde se desea guardar la informacin, se seleccionar el tipo de archivo deseado y se pulsar el botn Guardar. La opcin Imprimir, del men Archivo, nos permite sacar por impresora el fichero activo (todo o una parte de l) y funciona de forma similar a otras aplicaciones Windows. Finalmente, la opcin Deshacer, del men Edicin, nos permite deshacer, si es posible, la ltima accin que hemos realizado. La tercera zona de la ventana principal de SPSS, que est formada por iconos, es la que se denomina barra de herramientas y en ella aparecen los iconos que representan acciones muy comunes que se pueden llevar a cabo con SPSS (y de las que se desea un acceso ms rpido); cuando uno pasea el cursor por encima de los iconos se despliega un texto que indica la accin que lleva a cabo. Los iconos aparecern resaltados o no segn estn o no accesibles en un momento determinado. La barra de herramientas puede configurarse y aadir o eliminar iconos en ella, pero los ms comunes son los que aparecen en la Figura y que sern descritos cuando se utilicen por primera vez. Por ahora, slo mencionar que los

24

iconos 1, 2, 3 y 5 realizan, respectivamente, las funciones bsicas de abrir, guardar, imprimir y deshacer, ya descritas en los prrafos anteriores.

25

2. TRABAJANDO CON SPSS En todas las situaciones la explicacin se acompaar de un ejemplo que nos ayudar a explicar de manera aplicada los detalles de los procedimientos que estemos estudiando, tal ejemplo es el que se expone a continuacin. 2.1. Un ejemplo que nos acompaar a lo largo del manual. El ejemplo que emplearemos tiene sus datos grabados en un fichero denominado ejemplo.sav; en este fichero aparecen los datos referentes a un estudio acerca de los trabajadores de una empresa. La descripcin de las variables se muestra en la Tabla, que pretende ser suficientemente explicativa como para que el lector entienda la informacin grabada all. El lector debera familiarizarse con las variables presentes en el fichero, pues se har continua referencia en el texto a tales variables en cada uno de los apartados en los que se estudie. Tabla. Descripcin y nombre de las variables a usar en los ejemplos
DESCRIPCION DE LAS VARIABLES NOMBRE DE LAS VARIABLES

Edad (aos) Estado civil (0=soltero;1=casado) Aos en la direccin actual Ingresos familiares en miles Categora de ingresos en miles (1=menos de 25; 2=25 a 49; 3=50 a 74; 4=75 a mas) Nivel de educacin(1=Primaria;2=Segundaria;3=Est.Sup. 4=Bachiller;5=Titulado Tiempo en la empresa actual (aos) Tiempo en la categora actual (1=menos de 5; 2=de 5 a 15; 3=mas de15) Genero(h=hombre; m=mujer) Numero de personas en el hogar Tiene internet (0=No; 1=Si) Tiene TV (0=No; 1=Si) Tiene video (0=No; 1=Si) Tiene computadora (0=No; 1=Si) Tiene telfono (0=No; 1=Si)

EDAD ECIVIL DIRECCN INGRESOS CATING EDUC EMPLEO CATEMP GENERO RESIDENT INTERNET TV VIDEO PC TELEFONO

26

Tabla. Datos a usar en los ejemplos


N 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 EDAD 55 56 28 24 25 45 44 46 41 29 34 55 28 21 55 35 45 21 32 42 40 36 42 65 52 51 44 26 41 49 64 ECIVIL 1 0 1 1 1 0 1 1 0 0 0 0 0 1 0 0 0 0 0 0 1 0 1 1 1 1 1 0 1 0 0 DIRECCN 12 29 9 4 2 9 17 20 10 4 0 17 9 2 8 8 4 1 0 9 12 6 13 17 5 17 1 6 19 11 36 INGRESOS 72,00 153,00 28,00 26,00 23,00 76,00 144,00 75,00 26,00 19,00 89,00 72,00 55,00 20,00 283,00 70,00 48,00 37,00 28,00 109,00 117,00 39,00 53,00 42,00 83,00 148,00 29,00 28,00 70,00 40,00 102,00 CATING 3,00 4,00 2,00 2,00 1,00 4,00 4,00 4,00 2,00 1,00 4,00 3,00 3,00 1,00 4,00 3,00 2,00 2,00 2,00 4,00 4,00 2,00 3,00 2,00 4,00 4,00 2,00 2,00 3,00 2,00 4,00 EDUC 1 1 3 4 2 3 2 1 1 2 3 3 4 3 3 3 2 3 1 3 2 2 2 2 1 4 2 4 2 1 3 EMPLEO 23 35 4 0 5 13 23 29 8 10 12 2 1 0 11 9 7 0 2 20 19 0 6 24 24 10 5 1 17 8 22 CATEMP 3 3 1 1 2 2 3 3 2 2 2 1 1 1 2 2 2 1 1 3 3 1 2 3 3 2 2 1 3 2 3 GNERO m h m h h h h h h m h m h m m h m h m m m m h h h h h m m h m RESIDENT 5 1 9 3 5 1 2 4 2 3 3 1 1 7 1 1 1 3 4 1 4 7 5 2 4 3 2 1 3 4 1 INTERNET 0 0 0 0 1 1 0 0 9 0 0 0 9 0 0 1 0 0 0 1 0 0 0 0 0 0 0 1 0 0 0 TV 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 VDEO 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 PC 0 0 0 1 1 0 1 0 0 0 0 0 1 1 1 1 0 1 0 1 0 0 1 0 0 1 0 1 1 1 0 TELEF 0 0 0 0 0 0 1 0 0 0 1 0 0 1 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0

27

32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50

39 53 38 46 58 25 57 47 21 45 56 24 41 22 54 49 49 51 58

0 0 1 1 0 0 0 0 0 1 0 0 0 0 1 0 0 0 1

8 8 17 6 2 0 28 21 0 21 7 2 13 0 9 0 12 0 10

60,00 78,00 43,00 31,00 60,00 58,00 92,00 48,00 13,00 67,00 213,00 19,00 59,00 45,00 35,00 94,00 35,00 47,00 873,00

3,00 4,00 2,00 2,00 3,00 3,00 4,00 2,00 1,00 3,00 4,00 1,00 3,00 2,00 2,00 4,00 2,00 2,00 4,00

4 2 3 1 4 3 2 1 3 1 4 2 3 4 2 2 1 5 2

11 17 11 15 1 4 25 23 0 20 30 0 17 0 7 17 4 3 34

2 3 2 3 1 1 3 3 1 3 3 1 3 1 2 3 1 1 3

h h m m h m m h m m m h h m h m h m m

2 1 3 2 1 1 3 1 5 2 1 1 1 3 2 3 1 1 2

1 0 1 0 0 1 0 0 0 0 0 0 1 0 1 0 0 0 0

1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1

1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1

1 0 0 0 1 1 1 0 0 0 1 0 0 1 0 0 0 1 0

1 0 1 0 0 1 0 0 0 1 0 1 0 0 0 0 0 1 0

28

2.2. Ingresando al SPSS Para ingresar al SPSS se tiene que hacer doble clic en el icono de mismo y nos presenta el primer cuadro de dilogo que es el siguiente, en la que podemos seleccionar la opcin apropiada, para nuestro ejemplo salimos de este cuadro de dialogo con cancelar.

Enseguida nos muestra la pantalla completa del SPSS

2.2. Creacin de variables. Escribimos los nombres de las variables en la columna Nombre de la pantalla SPSS, como se muestra en el siguiente grafico.

Enseguida definimos el tipo de dato en la Columna Tipo.

30

El siguiente pasa es completar con las columnas Anchura, Decimales y Etiqueta

Para definir la columna Valores hacemos la celda de la columna Valores y la fila Ecivil

Hacemos clic en y mostrar el siguiente cuadro de dialogo donde completamos los valores 0 = soltero y 1 casado, as como se muestra a continuacin

31

32

De la misma manera completamos los valores para todas las variables:

Finalmente la vista de variables del SPPP debe verse como en la siguiente figura:

2.3. Definicin de las variables. Cuando se abre SPSS aparece la matriz de datos vaca indicando en ese caso que no hay ningn fichero seleccionado para trabajar con l; es en esta situacin en la que debemos estar para proceder a crear la estructura (definir las variables) de un nuevo fichero de datos de SPSS. A esa situacin tambin se puede llegar despus de haber trabajado con SPSS sin ms que desplegar el men Archivo y elegir de l la opcin Nuevo y dentro de ella datos (ArchivoNuevoDatos), lo que har que se elimine el fichero activo y se deje limpia la matriz de datos. Ahora cada columna ser una nueva variable en potencia hasta que sea definida, en cuyo caso pasar a ser una variable en la nueva matriz de datos. 2.3.1. El nombre de las variables. Se pincha (o se hace doble clic) sobre la casilla correspondiente al nombre de la variable que se est definiendo, y se escribe el nombre que deseemos que tenga, con un mximo de 64 caracteres, sin espacios en blanco, empezando siempre por una letra o con el carcter @ y no terminando con un punto. Los caracteres que formen el nombre deben ser: cualquier letra o dgito, o los signos #.@$_(ste ltimo no es recomendable como ltimo carcter).

33

2.3.2. El tipo de las variables.

Una vez escrito el nombre de la variable, si se pincha en la casilla correspondiente al tipo de variable (o en cualquier otro sitio), aparecer, para dicha variable, numrico en la columna Tipo, un 8 en la columna Anchura y un 2 en la columna Decimales. Esto es lo que SPSS ofrece por defecto para esa variable. Para cambiar el tipo de la variable se pincha en la casilla de tipo de variable y se pincha sobre el pequeo recuadro gris situado en dicha casilla, aparece entonces una ventana como la de la Figura; en ella se puede definir el tipo de la variable de entre los que aparecen: numrico, cadena, fecha, etc.... . El formato de la ventana es muy simple, a la izquierda aparecen los diferentes tipos que pueden tener las variables y a la derecha aparece el tamao o caractersticas particulares de cada tipo que tambin son definibles; as en la figura, el tipo es numrico y la variable tendr una anchura total de 8 caracteres, dos de los cuales son decimales: esto es lo que por defecto coloca SPSS. Pero describamos los diferentes tipos. El tipo Numrico es para una variable cuyos valores son nmeros. Los valores se muestran en el formato numrico estndar, utilizando como delimitador decimal el especificado en la Configuracin Regional del Panel de control de Windows. El tipo Coma define una variable numrica cuyos valores se muestran con la coma de separacin de miles y con un punto como separador de la parte decimal. El tipo Punto define una variable numrica cuyos valores se muestran con el punto de separador de miles y con una coma como separador de la parte decimal. El tipo Notacin cientfica define una variable numrica cuyos valores se muestran con una E intercalada y un exponente con signo que representa una potencia de base diez. El exponente puede ir precedido de E o D con un signo opcional, o por el signo solamente. Por ejemplo, 123, 1,23E2, 1,23D2, 1,23E+2, o incluso 1,23+2. El tipo Fecha define una variable numrica cuyos valores se muestran en uno de los diferentes formatos de fecha-calendario u hora-reloj. Para ello, habr que seleccionar un tipo de fecha de la lista desplegable que aparece a la derecha cuando se selecciona el tipo fecha. Se pueden introducir las fechas utilizando como delimitadores: barras, guiones, puntos, comas o espacios en blanco. El tipo Dlar sirve para definir una variable numrica (con diferentes formatos) cuyos valores contienen un signo de dlar y una coma para la separacin de los miles. Moneda personalizada sirve para definir una variable numrica cuyos valores se muestran en uno de los formatos de moneda personalizados que se hayan definido previamente en la pestaa Moneda del cuadro de dilogo Opciones dentro del men Edicin. Los caracteres definidos en la moneda personalizada no pueden emplearse para la introduccin de datos, pero s los mostrar el Editor de Datos. Por ltimo el tipo Cadena define una variable cuyos valores no son numricos y, por ello, no se utilizan en los clculos. Pueden contener cualesquiera caracteres hasta la longitud definida.

34

Por ltimo, la anchura y nmero de decimales se pueden cambiar igualmente en las columnas Anchura y Decimales de la vista de variables. 2.3.3. Las etiquetas de las variables.

Generalmente el nombre de las variables suele tener pocos caracteres, lo que hace que dicho nombre sea en muchos casos un acrnimo de difcil traduccin para el que no lo ha escrito (as, no es fcil de adivinar que con el nombre ACR124 estoy representando a la variable aclaramiento de creatinina en el primer da de seguimiento en orina de 24h.); por ello se suele poner una etiqueta de variable a la variable, que la identifique de una manera ms precisa y que nos permita reconocerla cuando se presentan los resultados. Esa etiqueta puede ser como mximo de 130 caracteres. Pero no slo se puede poner una etiqueta general para la variable, sino que en las variables que sean cualitativas y cuyas categoras suelen estar representadas por cdigos numricos, pueden establecerse etiquetas de valor que permitan identificar a las categoras con ellas (hacindolas ms explicativas) en vez de con los cdigos numricos. Estas etiquetas pueden ser de hasta 60 caracteres. Estas etiquetas no son viables para variables de cadena de ms de 8 caracteres de amplitud. 2.3.4. Los datos faltantes (valores perdidos). Se produce un dato faltante cuando la informacin de una variable de un individuo no existe; ello puede ser debido a varias causas: a que tal informacin se ha perdido, a que por las caractersticas particulares del individuo no puede existir o a que el individuo no ha querido proporcionar dicha informacin. Cuando para una variable existen datos faltantes frecuentemente se escoge un cdigo para representarlos, debiendo proporcionarle tal cdigo a SPSS para que l no los incluya en los anlisis posteriores; a esta representacin de los datos faltantes se le denomina datos faltantes del usuario, para distinguirlos de los datos faltantes del sistema (que se consiguen sin ms que dejar en blanco el espacio reservado para ellos, donde, si la variable es numrica, SPSS colocar una coma para identificarlos). No obstante, estas reglas tienen excepciones: en las variables de cadena no existen datos faltantes del sistema puesto que el blanco lo interpreta SPSS como un valor; tampoco se pueden definir datos faltantes del usuario en las variables de cadena de longitud superior a 8 caracteres. Es importante que el usuario sepa que la identificacin de datos faltantes es crucial pues, si no se identifican, estos sern empleados con los valores que tengan, dando lugar a resultados errneos. Los datos faltantes (valores perdidos) del usuario se especifican pinchando sobre la casilla correspondiente de la columna Perdidos en la vista de variables, y volviendo a pinchar sobre el pequeo recuadro gris que aparece en dicha casilla; se despliega entonces una ventana.

35

Como se ve hay tres formas de indicar la presencia de datos faltantes. La primera es la de indicar que no existen datos faltantes o perdidos empleando la opcin No hay valores perdidos; esta es la opcin que de oficio ofrece SPSS indicando que no hay datos faltantes por parte del usuario, pudiendo haber datos faltantes del sistema sin ms que hayamos dejado en blanco el espacio oportuno. La segunda manera de identificar los valores que representan a los datos faltantes es presentarlos como Valores perdidos discretos, indicando con ello que son valores aislados los que representarn a los datos faltantes, habiendo hasta tres posibilidades para ello. Es posible, tambin, que los datos faltantes estn representados por valores que aparezcan seguidos, de manera que sea ms fcil identificarlos a travs de un mximo y un mnimo quedando caracterizados como datos faltantes todos los que estn en medio. Esto es lo que permite hacer la ltima opcin, Rango ms un valor perdido discreto opcional, en la que adems tenemos la posibilidad de indicar un valor perdido discreto adicional. Pulsando el botn Aceptar volveremos a la vista de variables. 2.4. Grabacin y Edicin de datos. Una vez que el usuario ha definido las variables de su fichero de datos, tendr una rejilla en la que por columnas aparecern dichas variables con el nombre de cada una de ellas. Es claro que tal rejilla estar vaca y que el siguiente paso ser el rellenarla a base de grabar la informacin de los diferentes casos (que aparecen en el Editor de Datos por filas). Por ello lo primero que explicaremos es cmo se graban los datos. Desde luego que antes de la grabacin de casos se debera conocer cmo se mueve uno dentro de la rejilla de datos. El movimiento ms simple es desplazar el cursor mediante el ratn a la posicin deseada y pinchar en ella con el botn izquierdo. Otras formas ms lentas es usando las teclas de flechas en las cuatro direcciones que funcionan como ellas indican. 2.5. Introduccin de los datos por casillas, por filas y por columnas. La primera forma en que se puede grabar un dato es situarse en una casilla (cruce de una variable, columna, con un caso, fila) pinchando en ella con el botn izquierdo del ratn y escribir el valor deseado seguido de la tecla Intro. Tras ello, el cursor aparecer en la casilla inmediatamente debajo. Evidentemente esto nos permitir la grabacin de los datos por columnas (o variables): cuando lleguemos al final de una columna pasamos al principio de la siguiente. Sin embargo, esta forma de grabar los datos, no es la ms comn para proceder a la grabacin de un fichero de datos. La forma ms comn es grabar los datos por filas, es decir, por casos. Para ello se coloca el cursor en la casilla ms a la izquierda de una fila (de un caso) y se introduce el dato correspondiente a esa casilla, seguido de la pulsacin de la tecla de flecha hacia la derecha, o pulsando la tecla Tab. Obsrvese que si se pulsa la tecla Intro el cursor bajar una fila abajo con lo que estar fuera del caso, habiendo que volver a l mediante la tecla hacia arriba, lo que alarga claramente la grabacin. Cuando uno haya grabado un caso, puede saltar al siguiente pulsando la tecla Intro, y as aparecer al final del nuevo caso, tras lo cual

36

pulsando la tecla Inicio estar colocado en la primera variable del nuevo caso. Cuando se procede as, SPSS identifica cada caso con un nmero que es interno y que no existe como variable del fichero, por lo que si el usuario desea una identificacin para cada caso debe crear, y grabar, una variable a tal efecto, lo cual es conveniente. 2.6 Introduccin de datos al SPSS Depuse de haber definido las variables proseguimos con la introduccin de los datos para cada variable, para esto hacemos clic en vista de datos.

Y se mostrar la pantalla sigueinte

En la pantalla actual tipeamos los datos para cada variable, a lfinal la pantalla de la vista de datos debe quedar de la siguiente manera

37

2.7. Importando datos desde una hoja de clculo En lugar de escribir todos los datos directamente en el Editor de datos, puede leer datos desde aplicaciones como Microsoft Excel. Tambin puede leer encabezados de columnas como nombres de variables Elija en los mens: Archivo-Abrir-Datos

Seleccionamos el archivo de Microsoft Excel ejemplo.xls de la direccin c:\ejemplo, de la misma forma en la que se muestra en la siguiente figura:

Aparecer el cuadro de dilogo Apertura de fuente de datos de Excel, que permite especificar si se incluyen los nombres de variables en la hoja de clculo

38

En Excel 5 o posterior, tambin se pueden especificar las hojas de clculo que se desea importar. Asegrese de que est activada la opcin Leer nombre de variables de la primera fila de datos. Esta opcin lee los encabezados Si desea importar slo una parte de la hoja de clculo, especifique el rango de casillas que se van a importar en el campo Rango. Pulse en Aceptar para leer el archivo de Excel. Los datos aparecern en el Editor de datos, con los encabezados de columnas utilizados como nombres de variables.

Si utiliza una aplicacin de hojas de clculo distinta Excel y Lotus, debera poder exportar los datos a un formato admitido que a continuacin pueda ser ledo. Luego editamos las variables igual como en el item 2.2 2.8. Modificar valores introducidos: Cortar, Copiar y Pegar. La grabacin de datos se acoge a unos tipos de accin que ha familiarizado Windows que son Cortar, Copiar y Pegar. Estas tres acciones se basan en la seleccin del objeto sobre el que van a ser aplicadas. En el caso que nos ocupa el objeto puede ser una casilla, varias casillas, una fila, varias filas, una columna o varias columnas; una casilla se selecciona sin ms que colocarse en ella (pulsando el botn izquierdo del ratn sobre ella o mediante una serie de desplazamientos con las flechas); varias casillas se seleccionan sin ms que pinchar con el ratn en una de ellas y arrastrar el mismo (moverlo con el botn izquierdo pulsado) hasta la ltima casilla que deseemos seleccionar, apareciendo estas remarcadas para indicar que estn seleccionadas; es claro que el arrastrado que hemos mencionado puede ser en cualquier sentido por lo que el conjunto de casillas seleccionadas puede ser cualquiera siempre que sea en forma rectangular. La forma de seleccionar una fila (caso) es pulsar con el ratn sobre el nmero de caso que le ha asignado SPSS, mientras que si se desean seleccionar varios casos consecutivos deber arrastrarse el ratn sobre ellos. De manera anloga, la seleccin de una variable se har como en los casos pero pulsando sobre la fila de nombres de las variables. Resumiendo, supongamos que hemos seleccionado el objeto de nuestras acciones y pasemos a describirlas. La accin de Cortar hace desaparecer el objeto seleccionado que es guardado en el Portapapeles para estar disponible en una accin de Pegado. La accin de Copiar mantiene el objeto seleccionado a nuestra vista pero es simultneamente llevado al Portapapeles para estar disponible en una accin de Pegado. La accin Pegar trae desde el Portapapeles el objeto all colocado y lo presenta a partir de la zona seleccionada.

39

La forma de invocar esas acciones, siempre a partir de un objeto seleccionado, es desplegar el men Editar y seleccionar de l la accin deseada. Hay una manera alternativa que sera desplegando un llamado men contextual, que aparece cuando se pulsa el botn derecho del ratn sobre el objeto seleccionado. Cuando se lleva a cabo dicha accin sobre un dato o conjunto de datos seleccionados, el men contextual que aparece es como el de la Figura 4.1. En este men aparecen las acciones antes citadas adems de la funcin Borrar que permite borrar el objeto seleccionado (en este caso los datos) sin colocarlo en el Portapapeles por lo que no estar disponible para ser pegado. La eliminacin, tambin, se puede llevar a cabo, a partir del objeto seleccionado, pulsando la tecla Supr. La combinacin de las acciones Cortar, Copiar, Pegar y Borrar permite llevar a cabo acciones complejas con pocos toques de ratn. As por ejemplo, para borrar un conjunto de datos habr que seleccionarlos y elegir Borrar, y para repetir el mismo dato a partir de una posicin determinada habr que copiar el dato en el Portapapeles (accin Copiar), seleccionar la zona en la que se debe repetir el dato y elegir la opcin Pegar. 2.9. Edicin de casos completos. Para llevar a cabo las acciones que vamos a describir se necesita seleccionar un caso o un conjunto de casos. La seleccin se hace como acabamos de ver en el apartado anterior. Como se vio, las acciones se llevan a cabo o con el men Edicin, o con el men contextual, el ms cmodo. El men contextual que se despliega en la seleccin de casos aparecen las cuatro opciones que aparecan para los datos como son Cortar, Copiar, Pegar y Borrar; tales acciones han sido suficientemente explicadas anteriormente por lo que lo nico que diremos aqu es que se comportan de manera anloga a lo visto y el lector ya sabe como funcionan. No obstante aparece debajo una accin que es propia de los casos: Insertar casos. Cuando se selecciona aparece un caso nuevo inmediatamente antes del caso seleccionado en el que toda la informacin estar en blanco esperando para ser rellenada; si no lo fuera se entendera que en ese nuevo caso todas las variables numricas tienen datos faltantes. 2.10. Edicin de variables completas. Para llevar a cabo las acciones que vamos a describir se necesita seleccionar una variable o un conjunto de variables. La seleccin de una variable se hace pulsando el botn izquierdo sobre el nombre de la misma y as quedar seleccionada. Para seleccionar una serie de variables consecutivas bastar con seleccionar la primera y arrastrar el ratn hasta la ltima, ese arrastre se puede hacer con el botn izquierdo (en cuyo caso para llevar a cabo las acciones habr que desplegar el men Editar o el men Datos), o con el botn. 3. FASE DE ANLISIS DE DATOS 3.1 Anlisis de Medias de distribucin central, medias de dispersin y grficos Este captulo describe medidas de resumen sencillas y la influencia del nivel de medida de una variable en los tipos de estadsticos que se deben utilizar. Utilizaremos el archivo de datos ejemplo.sav Hay diferentes medidas de resumen adecuadas a diferentes tipos de datos dependiendo del nivel de medida Categrica. Datos con un nmero limitado de valores o categoras distintas (por ejemplo, gnero o estado civil). Tambin se hace referencia a estos datos como datos cualitativos. Las variables categricas pueden ser variables de cadena (alfanumricas) o variables

40

numricas que utilizan cdigos numricos para representar las categoras (por ejemplo, 0=Soltero/a y 1=Casado/a). Hay dos tipos bsicos de datos categricos:

Nominal. Datos categricos en los que las categoras no tienen un orden inherente. Por ejemplo, la categora laboral de "ventas" no es superior o inferior a la categora laboral de "marketing" o "investigacin". Ordinal. Datos categricos en los que las categoras tienen un orden con significado, pero sin una distancia medible entre las categoras. Por ejemplo, hay un orden para los valores alto, medio y bajo pero no se puede calcular la "distancia" entre los valores. Escala. Datos medidos en una escala de intervalo o de razn en los que los valores de los datos indican el orden de los valores y la distancia entre ellos. Por ejemplo, un salario de 72.195$ es superior a un salario de 52.398$ y la distancia entre ambos valores es 19.797$. Tambin se hace referencia a estos datos como datos cuantitativos o continuos.

Para los datos categricos, la medida de resumen ms habitual es el nmero o el porcentaje de casos de cada categora. La moda es la categora que contiene el mayor nmero de casos. Para los datos ordinales, la mediana (el valor por debajo y por encima del cual se encuentran la mitad de los casos) tambin puede ser una medida de resumen til si hay un gran nmero de categoras. El procedimiento Frecuencias genera tablas de frecuencias que muestran el nmero y el porcentaje de los casos de cada valor observado de una variable.

41

Elija en los mens: Analizar-Estadsticos descriptivos-Frecuencias

Seleccione Tiene Internet (Internet) y Tiene TV (tv) y muvalas hasta la lista Variable(s). Pulse en Aceptar para ejecutar el procedimiento.

Las tablas de frecuencias aparecen en la ventana Visor. Las tablas de frecuencias revelan que slo alrededor del 18% de las personas poseen internet, pero todos poseen un televisor (99,2%). Esta puede que no sea una gran revelacin, aunque puede ser interesante descubrir algo ms acerca del pequeo grupo de personas que no poseen televisores.

42

Pude visualizar grficamente la informacin en una tabla de frecuencias con un grfico de barras o con un grfico de sectores. Vuelva a abrir el cuadro de dilogo Frecuencias. (Las dos variables deben estar seleccionadas an).

Puede utilizar el botn Rellamada de cuadros de dilogo de la barra de herramientas para regresar rpidamente Pulse en Grficos.

43

Pulse en Grficos de barras y, a continuacin, pulse en Continuar. Pulse en Aceptar en el cuadro de dilogo principal para ejecutar el procedimiento.

Adems de las tablas de frecuencias, la misma informacin aparece ahora en forma de grficos de barras, con lo que puede saber, observando rpidamente, que la mayora de las personas no poseen Internet y en cambio casi todos poseen un televisor.

Hay muchas medidas de resumen disponibles para variables de escala, incluyendo:

44

Medidas de tendencia central. Las medidas de tendencia central ms comunes son la media (media aritmtica) y la mediana (valor por debajo y por encima del cual se encuentran la mitad de los casos). Medidas de dispersin. Los estadsticos que miden la dispersin o variacin en los datos incluyen la desviacin tpica, mnimo y mximo

Vuelva a abrir el cuadro de dilogo Frecuencias. Pulse en Restablecer para borrar cualquier configuracin anterior. Seleccione Ingresos familiares en miles (ingresos) y muvala hasta la lista Variable(s). Pulse en Estadsticos.

Pulse en Media, Mediana, Moda, Desviacin Tpica, Varianza, Asimetra y Curtosos Pulse en Continuar.

Mnimo, Mximo,

Anule la seleccin (marca) de Mostrar tablas de frecuencias en el cuadro de dilogo principal. (Por lo general, las tablas de frecuencias no son especialmente tiles para variables de escala ya que debe haber casi tantos valores diferentes como casos en el archivo de datos). Pulse en Aceptar para ejecutar el procedimiento.

45

La tabla Frecuencias: Estadsticos aparece en la ventana Visor. En este ejemplo, existe una gran diferencia entre la media y la mediana, siendo la media en torno a 28.000 mayor que la mediana. Esto indica que los valores no estn normalmente distribuidos. Podemos comprobar visualmente la distribucin con un histograma.

46

Vuelva a abrir el cuadro de dilogo Frecuencias. Pulse en Grficos.

Pulse en Histograma y Con curva normal. Pulse en Continuar y en Aceptar en el cuadro de dilogo principal para ejecutar el procedimiento.

La gran mayora de casos se agrupan en la parte inferior de la escala, estando incluidos la mayora de ellos por debajo de 100.000. Sin embargo, hay algunos casos en el rango 500.000 e incluso ms all (demasiado escasos para que sean visibles sin modificar el histograma). Estos valores demasiado altos para slo unos pocos casos tienen un efecto importante sobre la media y muy escaso o casi nulo sobre la mediana, lo que hace que la mediana sea un indicador ms exacto de la tendencia central en este ejemplo.

47

4.

CREACION Y EDICION DE GRAFICOS

Hay una gran variedad de tipos de grficos disponibles y muchos de ellos, en dos formatos diferentes:

Grficos normales. Grficos creados desde el men principal Grficos y grficos creados mediante procedimientos estadsticos. Grficos interactivos. Grficos creados desde el submen Interactivos del men Grficos y grficos creados desde las tablas pivote.

4.1 Crear Grficos En este ejemplo, crearemos un grfico de sectores simple que muestre cuntos encuestados disponen de servicio de Internet en casa. Elija en los mens: Grficos - Sectores

48

Pulse en Resmenes para grupos de casos y, a continuacin, pulse en Definir

Ya que deseamos basar el grfico en una variable nica, hemos seleccionado Resmenes para grupos de casos. Los elementos de grficos (barras, sectores del grfico) tambin se pueden basar en resmenes de variables distintas o en valores de casos individuales del archivo de datos. Seleccione Internet como la variable que define los sectores (Definir sectores por). Pulse en Aceptar para crear el grfico de sectores. .

Del grfico de sectores se concluye que la mayora de los encuestados no disponen de servicio de Internet en casa. Al observar el grfico, parecera que slo un cuarto de los encuestados aproximadamente dispone de servicio de Internet

49

4.1 Editar grficos Puede editar grficos de diversas formas. Con este grfico de sectores de muestra, podramos: Aadir un ttulo. Eliminar la pequea categora de datos "perdidos". Mostrar porcentajes para las dos categoras restantes del grfico Lo primero que haremos ser aadir un ttulo: Pulse dos veces en el grfico de sectores para abrirlo en el Editor de grficos. En los mens del Editor de grficos, seleccione: Grfico - Ttulo

50

En Ttulo 1, introduzca Servicio de Internet en casa y, a continuacin, pulse en Aceptar.

Ahora aparecer un ttulo descriptivo sobre el grfico de sectores

Ahora eliminaremos la pequea categora de datos perdidos. Si desea obtener informacin sobre los datos perdidos, consulte Tratamiento de los datos perdidos. En los mens del Editor de grficos, seleccione: Serie Visualizada

51

Desplace Perdido desde la lista Mostrar hasta la lista Omitir y pulse en Aceptar.

Se ha eliminado la categora de datos perdidos del grfico de sectores, dejando slo dos categoras

El grfico de sectores muestra claramente que la mayora de los encuestados no dispone de servicio de Internet en casa y parece que casi tres cuartos de los encuestados se encuentran en la categora No, pero puede resultar til consultar los porcentajes exactos. Pulse dos veces en una de las dos etiquetas de las categoras (No o S). Seleccione (marque) Porcentajes

52

Mientras nos encontremos aqu, movamos las etiquetas de categoras del exterior al interior del grfico de sectores. Pulse en Formato

Seleccione Interior de la lista desplegable. Anule la seleccin (marca) de Etiquetas interiores para eliminar el marco de visualizacin. Pulse en Continuar y, a continuacin, pulse en Aceptar.

Ahora los porcentajes aparecen junto a las etiquetas de categora y ambos aparecen en el interior de los sectores del grfico de sectores. Los porcentajes se basan en las dos categoras mostradas (81,6 + 18,4 = 100). Si vuelve a colocar la categora que contiene los valores perdidos en el grfico de sectores, cambiarn los porcentajes 4.3. Grficos interactivos Los grficos interactivos se crean seleccionando un tipo de grfico en el submen Interactivos del men Grficos.

53

Elija en los mens: Grficos - Interactivos - Barras

Arrastre y coloque Tiene telfono (telef) (dispone de Telfono) en la lista del eje x (horizontal). Arrastre y coloque Categora de ingresos en miles (cating) en la lista Color. Pulse en Aceptar para crear el grfico.

Advertir que no se trata de un grfico particularmente atractivo. Esto se debe a que los grficos interactivos tratan de forma distinta las variables categricas y las de escala y Tiene Telfono (telefono) se encuentra definida como variable de escala. Ya que se trata realmente de una variable categrica, podemos cambiar la definicin de variable en el Editor

54

de datos o simplemente indicar al procedimiento de grficos interactivos que la trate como una variable categrica.

Vuelva a abrir el cuadro de dilogo del grfico de barras interactivo. Pulse con el botn derecho del ratn en Tiene telfono (telefono) en la lista del eje x (horizontal). Seleccione Categrica en el men contextual emergente y, a continuacin, pulse en Aceptar para crear el grfico.

Ahora el grfico de barras agrupadas tiene un aspecto ms agradable.

55

Aunque puede realizar modificaciones en los grficos interactivos de igual forma que en los grficos normales, la edicin de grficos interactivos se ha diseado para que sea ms directa y sencilla. Pulse dos veces en el grfico para activarlo. Los grficos interactivos se activan y editan en su lugar en la ventana Visor (a diferencia de los grficos normales, que se abren en una ventana distinta para su edicin

Para cambiar el color de una barra, por lo general, slo tiene que pulsar en una barra para seleccionarla y, a continuacin, seleccionar otro color de la paleta Color de relleno en la barra de herramientas vertical. Pero en este ejemplo de barras agrupadas, los colores se

56

asocian a pares de barras y por eso se cambia el color seleccionando la categora de barra en la leyenda. Pulse en el cuadrado de color prximo a la categora 25 - 49 de la leyenda.

Pulse en la fecha hacia abajo prxima al icono Color de relleno en la barra de herramientas vertical y seleccione un nuevo color.

El color se aplica a las dos barras que representan la categora 25 - 49.

57

En este ejemplo, no es necesario el texto de las claves que se encuentra bajo la leyenda puesto que el eje de la escala ya tiene la etiqueta Recuentos. Para eliminar el texto de las claves: Pulse con el botn derecho del ratn en el texto y seleccione Ocultar la clave en el mencontextual emergente.

Ahora el texto de las claves est oculto. 4.4. Creacin de un grfico a partir de una tabla pivote Puede crear grficos interactivos a partir de datos contenidos en una tabla pivote

Active (pulse dos veces en) la tabla pivote. Pulse y arrastre el ratn para seleccionar las casillas de datos que desea utilizar en el grfico

58

Pulse con el botn derecho del ratn en cualquier punto del rea seleccionada. Seleccione en el men contextual emergente: Crear grfico - Barras

Se crear un grfico interactivo con los datos seleccionados.

59

V. REGRESIN Y CORRELACIN LINEAL SIMPLE CON SPSS Ejemplo de Regresin Lineal Simple con SPSS 1 En un estudio sobre gastos mensuales (Y) e ingresos econmicos mensuales (X), una muestra de 10 familias dio la siguiente informacin ( en dlares USA). X: 280 250 350 400 450 500 500 350 550 600 Y: 250 200 320 370 400 400 450 300 490 550 a) b) c) d) Trazar e interpretar el diagrama de dispersin. Calcular y analizar el coeficiente de correlacin lineal de Pearson Estimar y comentar la ERP lineal simple de mnimos cuadrados Cul ser el gasto y ahorro de una familia cuyo ingreso sea 300, 500 y 700 dlares? Adems, cul sera el gasto y ahorro si una familia no tiene ingresos econmicos?

Solucin a) Diagrama de dispersin Creamos las variables e introducimos los datos en SPSS de la siguiente manera:

Tomado del Fascculo 7 de Estadstica Descriptiva Con SPSS, CENCAP-UNCP-2004

60

Se sigue la secuencia Grficos Dispersin en el men principal Se elige la opcin Simple SE pulsa el botn Definir

Se eligen y se transfieren las variables INGRESOS (variables independientes) a la casilla Eje X y GASTOS (variable dependiente) a la casilla Eje Y

61

Se pulsa Aceptar Si se desea mostrar los valores perdidos, se pulsa el botn Opciones del cuadro Diagrama de Dispersin simple, accediendo al cuadro Opciones en donde se marca la opcin Mostrar los Grupos definidos por los valores perdidos

62

Interpretacin La nube de puntos y la lnea recta creciente sobre ella revelan que existe una relacin lineal creciente significativa entre gastos e ingresos econmicos de las familias. b) Coeficientes de correlacin lineal de Pearson Sigue la secuencia Analizar Correlaciones - Bivariadas del men principal

Se elige y se transfieren las variables INGRESOS y GASTOS a la casilla Variables Se activa la opcin Bilateral de la seccin Pruebas de significacin para evaluar la significacin de dos colas (bilateral) del coeficiente. Se activa la opcin Marcar las correlaciones significativas para mostrar la significacin del cociente

Se pulsa aceptar

63

Anlisis El coeficiente de correlacin lineal de Pearson entre ingresos econmicos y gastos es muy alto (0,986) y altamente significativo (p<0,001). Este resultado permite afirmar que la correlacin entre estas variables es positiva; por tanto, la relacin entre gastos e ingresos es lineal y creciente. c) Estimacin de la ERP lineal simple Se sigue la secuencia Analizar Regresin Lineal

Se eligen y se transfieren las variables INGRESOS a la casilla Independientes y GASTOS a la casilla Dependientes Se elige el mtodo de regresin lineal Introducir

64

Se pulsa el botn Opciones Se marca la opcin Incluir constante en la ecuacin para estimar la ordenada en el origen B0 adems de la pendiente B1.

Se pulsa el botn Continuar Se pulsa el botn Estadstica Se marcan las opciones Estimaciones y Ajuste del modelo de la seccin Coeficientes de regresin

Se pulsa los botones Continuar y Aceptar. Cuando se desea estimar el modelo si el coeficiente B0 (constante o trmino independiente) se desmarca la opcin Incluir constante en la ecuacin del cuadro Regresin lineal: Opciones. Si se desea calcular algunas medidas de resumen, se pulsa el botn Estadsticas del cuadro Regresin lineal, ingresando al cuadro Regresin lineal: Estadsticos, donde se marcan las opciones matriz de covarianza y Descriptivos. Si se desea excluir las parejas de valores perdidos o los valores perdidos de cada variable, se pulsa el botn Opciones del cuadro Regresin lineal, ingresando al cuadro Regresin lineal: Opciones. En este cuadro, se marca las opciones excluir casos perdidos segn parejas o Excluir casos segn lista de la seccin Valores perdidos.

65

Comentario En la primera tabla (resumen del modelo) se aprecia el coeficiente de correlacin lineal de Pearson , el coeficiente de determinacin (R cuadrado), el coeficiente de determinacin corregido a ajustado (R cuadrado corregido) y el error tpico o estndar de la estimacin (error tp. de la estimacin). El coeficiente de correlacin de Pearson es 0,986, el coeficiente de determinacin es 0,972 y el coeficiente de determinacin corregido es 0,986. Estos ndices revelan que la correlacin entre las variables es positiva y muy alta, casi perfecta; y que el 97,2% de la variabilidad de los gastos se explican por los ingresos (casi total). El error estndar de la estimacin es 19, 346. En la segunda tabla (ANOVA) se aprecia el anlisis de varianza (Anlisis Of Variante). Con esta tcnica se evala la significacin estadstica del modelo de regresin, esto es, se evala la significacin estadstica de los parmetros B0 y B1 son muy significativos en forma conjunta o simultanea. Como Sig = 0, se deduce que el MRLS es altamente significativo (p<0,001), es decir, los parmetros B0 y B1 son muy significativos en forma conjunta. El hecho de decir que son significativos, significa que los valores de los parmetros son diferentes de 0. Si Sig > 0,05, entonces el modelo no es significativo y, por tanto, no existe una relacin lineal entre las variables.

66

En la tercera tabla (Coeficientes) se observan las estimaciones de los parmetros B0 y B1 y su significacin estadstica individual. La estimacin de B0 es -15,565 (Constantes o trmino independiente), el cual no es significativo ( Sig = 0,539), p>0,05). La estimacin de B1 es 0,919 (INGRESOS), el cual es altamente significativo (Sig = 0,000, p<0,01). Con estos resultados, la estimacin de la ecuacin del MRLS sera. Y = -15,565 + 0,919 X Es decir, Gastos = -15,565 + 0,919 Ingresos Sin embargo, como el coeficiente B0, no es significativo, se vuelve a correr el programa ajustado un MRLS sin el trmino independiente (regresin lineal a travs del origen). Lo resultados son los siguientes.

67

Con estos resultados, la estimacin de la ecuacin del MRLS es: Y = 0,884 X Es decir. Gastos = 0,884 Ingresos Como b1>0, entonces la tendencia lineal es creciente, es decir a mayores ingresos econmicos correspondes mayores gastos; y a menores ingresos econmicos correspondes menores gastos. La recta de regresin corta al eje Y (ingresos) en $ 0(B0 = 0) es decir, la recta pasa por el punto (0;0), por cada dlar USA que cambia los ingresos econmicos, los gastos cambian en 88 cntimos de dlar ($ 0,88) d) Pronsticos o predicciones Si el ingreso de una familia es $ 300, entonces el gasto se obtiene sustituyendo 300 en Gastos = 0,884 Ingresos, dicho gasto sera $ 265,20. El ahorro es el gasto menos el ingreso , el cual sera $ 34,80. Si el ingreso de una familia es $ 500, entonces el gasto sera $ 442 y el ahorro, $ 58. Si el ingreso de una familia es $ 700, entonces el gasto sera $ 618,8 y el ahorro, 81,2 Si una familia no tiene ingresos, entonces el gasto sera $ 0 y el ahorro, $ 0.

68