Está en la página 1de 6

SPSS ESTADSTICA INFERENCIAL (1)

Notas
1. Objetivos
Conocer los principales tests que incorpora SPSS relacionados con la inferencia estadstica; Reconocer y aplicar el test ms adecuado a cada diseo experimental.

2. Inferencia
La principal utilidad de la estadstica considerada como herramienta de ayuda en las ciencias biosanitarias consiste en extraer conclusiones a partir de unas hiptesis previas realizadas sobre una muestra representativa y accesible de la poblacin. En general, las respuestas que se buscan se desea aplicarlas sobre toda la poblacin y sta no es accesible, por lo que hay que trabajar con una muestra representativa de la misma. A los elementos constituyentes de esa muestra sern a los que se aplicarn los tests estadsticos que permitirn obtener respuestas y conclusiones extrapolables a la poblacin general. Debido a que se trabaja con una muestra, las conclusiones que se extraigan y que se proyectaran sobre la poblacin estarn afectadas por una cierta imprecisin y siempre, aunque sea con una baja probabilidad, se correr un cierto riesgo de alcanzar una conclusin errnea. La estadstica inferencial se propone probar o rechazar una hiptesis formulada previamente. Esta hiptesis, en general, se formula en el sentido de que no hay diferencia entre lo que se est estudiando sea la diferencia entre dos medias, la asociacin entre variables cualitativas o cuantitativas, la distribucin respecto a una gaussiana, etc. Es la denominada hiptesis nula

( H ) . Los tests estadsticos se realizan


0

con el fin de aceptar o rechazar esta H 0 (si se rechaza H 0 lo que se hace es aceptar la hiptesis alternativa, H 1 :si hay diferencia). Los tests estadsticos pueden clasificarse en paramtricos y no paramtricos. Si se realizan tests estadsticos paramtricos, que en principio son los ms aconsejables, habr que comprobar el cumplimiento, principalmente, de dos hiptesis adems de la de muestreo aleatorio: gaussianidad de cada una de las variables cuantitativas implicadas homocedasticidad o igualdad de las varianzas entre aquellos conjuntos de datos pertenecientes a la misma variable medidos en grupos diferentes (por ejemplo, la edad medida en cuatro grupos de edad). La gaussianidad se analiza mediante el test de Kolmogorov-Smirnov o bien con los coeficientes de sesgo y apuntamiento. En este caso H 0 es: la distribucin estudiada no se aparta de la gaussiana de forma significativa. Los tests estadsticos evalan el error tipo I (o error ) que se comete al rechazar H 0 cuando esta es cierta (esto es, decir que hay diferencias cuando no las hay). Es el valor habitualmente designado como p (y que en SPSS se especifica bajo el epgrafe: Sig.). Habitualmente se considera que, para poder decir que se rechaza H 0 , p ha de ser inferior a 0,05; esto significa que el mayor riesgo a equivocarse que se est dispuesto a asumir diciendo que hay diferencia (en este caso respecto de la gaussiana) cuando realmente no la haba es del 5 %; o sea de 1 en 20. Se denomina error tipo II (o error ) al error que se comete al aceptar H 0 cuando es falsa (esto es, que habiendo diferencias no son detectadas). La homocedasticidad puede estudiarse en cada test paramtrico que se solicite por medio del test de Levene ( H 0 : todas las varianzas que se comparan son similares). Si al hacer el test de Levene el valor de

p , o sea el de Sig en SPSS, es < 0,05 se rechazar la H 0 de que no haba diferencia entre las varianzas
y se aceptar la hiptesis alternativa de que hay diferencia entre las varianzas estudiadas). Este test se solicita en SPSS en Analyze Descriptive Statistics Explore colocando la variable cuantitativa en la ventana Dependent List y la cualitativa (la variable que separa los grupos en los que se desea investigar la homogeneidad de las varianzas) en Factor List. Despus se pulsa el botn Plots y se selecciona Untransformed dentro del recuadro Spread vs. Level with Levene Test. Cuando se comparan dos series de datos (estadstica bivariante) pueden darse tres casos: (a) Una variable cuantitativa y la otra cualitativa, esta ltima con dos categoras; (b) Dos variables cualitativas; (c) Dos variables cuantitativas.

2.1. Una variable cuantitativa y la otra cualitativa con dos categoras


Por ejemplo, se desea saber si la media del colesterol srico (variable cuantitativa) en hombres y mujeres es similar. La variable cuantitativa es el colesterol pues, en principio, puede tomar cualquier valor; tan slo est limitado por la resolucin de los instrumentos de medida. La variable cualitativa es el sexo, con dos categoras: hombre y mujer (que pueden codificarse como 0 y 1). Si el muestreo ha sido aleatorio y se ha comprobado que la distribucin de la variable cuantitativa es gaussiana en los dos grupos, se puede efectuar el test t de Student para muestras independientes: Analyze Compare means Independent Samples T-Test. En el recuadro superior (Test variable(s)) se introduce la variable cuantitativa y en Grouping Variable, la variable cualitativa. En ese momento se activa el botn Define Groups donde se introducen los cdigos de codificacin de los grupos a analizar (en el ejemplo anterior: Group1=0 y Group 2=1). Posteriormente, se pulsa Continue y OK. En la pantalla de resultados tras la descriptiva de la serie cuantitativa en cada grupo se muestra el test de Levene de igualdad de varianzas. Si p > 0, 05 (no se rechaza H 0 ) quiere decir que las varianzas son similares y se lee en la lnea de varianzas iguales. En caso contrario, se lee en la lnea de varianzas no iguales (SPSS incluye una modificacin del test t de Student (test paramtrico) para que pueda emplearse an cuando no se cumple una de las hiptesis de aplicacin de la misma: la de homocedasticidad o igualdad de varianzas. El valor de p (Sig.) inferior a 0,05 fue establecido como significativo por Fisher como el valor ms conveniente en investigacin en ciencias biomdicas pero no es inflexible y en algunos casos puede tomarse 0,1 como lmite de significacin. Existe un caso especial que es cuando cada sujeto de la investigacin es medido en dos momentos diferentes y se quiere saber si la media de una variable determinada es diferente en los dos momentos considerados. En este caso, tras la comprobacin de la hiptesis de gaussianidad en cada una de las series se ha de realizar un test t de Student para muestras emparejadas. Aqu, el diseo de la hoja de variables ha de ser diferente del caso anterior: las variables que han de compararse; por ejemplo en el caso de colesterol basal (Colbas) y tras 3 meses de tratamiento (Colpost), serian estas:

colbas
267 346

colpost
234 289

No podra hacerse con una variable colesterol (COL) y otra momento (MOM) con dos categoras: 0 (basal) y 1 (post-tratamiento), (excepto en la opcin General Lineal Model, Repeated Measures). Para realizar este tipo de anlisis se pulsan las dos variables deseadas y se introducen las parejas de valores seleccionados en Paired Variables (en la opcin Paired-T test del submen Compare means) y tras pulsar OK se realiza el test estadstico. Como generalizacin de este problema se encuentra el caso de una variable cuantitativa y se quiere comprobar si su media en varios grupos es similar o no. Aqu la variable cualitativa consta de ms de dos grupos. Tras comprobar la hiptesis de gaussianidad y homocedasticidad en cada grupo de datos, estos se analizan mediante One-Way ANOVA que aparece como opcin en el men Compare means. En

Dependent List se introduce la variable cuantitativa y en Factor la cualitativa. Este test coincide con el de t de Student cuando la variable cualitativa tiene slo dos categoras. ANOVA realiza un contraste global entre todos los grupos y dice si hay un componente aadido en la varianza o no. Si no lo hay, la media de la variable cuantitativa es similar en todos los grupos y el anlisis termina aqu. Pero si no es similar hay que saber qu grupos difieren de los dems lo cual se realiza mediante los tests post hoc (especialmente los de Bonferroni o Scheff). Si no se ha comprobado la hiptesis de homocedasticidad sta se puede realizar en este momento en Options (Homogeneity of variante test). El mtodo de anlisis se basa en el clculo del estadstico F :
2 sentre 2 sinter

F =

que es el cociente entre la varianza encontrada entre los grupos dividido por la varianza dentro de los grupos. Si este estadstico no es significativo

( p > 0, 05 )

no hay gran variabilidad entre los grupos y estos

no difieren en sus medias. En caso contrario los tests de Scheff o Bonferroni dirn que parejas de grupos difieren en las medias de la variable cuantitativa y cules no. Sin embargo, puede que no se cumpla la hiptesis de gaussianidad en alguno o en todos los grupos. En estos casos puede procederse de dos formas: Realizar una transformacin de los datos de modo que la distribucin de los mismos se haga gaussiana (por ejemplo, hallar su logaritmo si la distribucin es sesgada por la derecha). En este caso se trabaja sobre los datos trasformados y, al final se deshace la transformacin, lo que origina, en el caso de estimar intervalo de confianza, que estos no sean simtricos; Realizar tests no paramtricos. En estos tests, en lugar de emplear los datos originales para calcular los parmetros estadsticos necesarios (medias, varianzas, etc.) se emplea el numero de orden de cada dato en el conjunto de las series que se van a analizar, una vez que estas han sido ordenadas de menor a mayor. Posteriormente, se suman los nmeros de orden de cada elemento para cada serie por separado y si la diferencia entre ellas no supera un determinado umbral se asume que proceden de la misma poblacin.

En el caso de dos series de datos independientes se emplea el test U de Mann Whitney que aparece en el submen: 2 Independent Samples dentro del men Non parametric tests. En el caso de trabajar con ms de dos grupos se empleara la opcin K Independent Simples. En este caso el programa emplea el test de Kruskal-Walis pero no pueden realizarse tests post hoc. Asimismo, pueden realizarse tests estadsticos para dos series de datos emparejados (test de Wilcoxon) en: 2 Related Simples, o para ms de dos series de datos (test de Friedman), en K Related Samples.

2.2. Dos variables cualitativas


En este caso lo que se trata de estudiar es la asociacin entre las dos variables. El nmero de categoras de cada variable puede ser cualquiera pero se va a analizar ms detalladamente el caso en que el nmero de categoras de cada variable sea dos, lo que dar lugar a la tablas de contingencia de 2 x 2. Existir asociacin si el test estadstico ji-cuadrado
2

( )
2

es significativo. El sentido de la asociacin se

podr comprobar examinando visualmente la tabla 2 x 2. Es importante sealar que en este tipo de tablas no puede emplearse el test habitual sino que hay emplear la correccin por continuidad de Yates, o preferiblemente, el test exacto de Fisher. Ambos son suministrados por SPSS en Statistics (Analyze), Descriptive (Summarize), Crosstabs en donde, se ha de introducir una de las variables en Row (filas) y otra en Columns (columnas) se activa el botn Statistics que es donde se solicita el test .
2

La intensidad de la asociacin puede estudiarse, en tablas cuadradas mediante el coeficiente kappa, mientras que en tablas no cuadradas habr que emplear el coeficiente tau C

( )
C

de Kendall o la

correlacin de Spearman. Cuando se est analizando tablas de orden superior a 2 x 2 no ser necesario realizar la correccin por continuidad de Yates y ser suficiente con solo emplear el test habitual.
2

En este tipo de tablas el empleo de los coeficientes de asociacin ayudar a su interpretacin. Si la escala en una o dos de las variables es nominal el coeficiente V de Cramer o el de contingencia tambin pueden ser utilizados aunque su valor ha de contratarse con su valor terico mximo. Es importante sealar que para que estos tests sean fiables el nmero mnimo de efectivos en cada casilla de la tabla de contingencia ha de ser 5. Si fuera menor habra que fundir grupos. En muchas ocasiones se dispone directamente de la tabla 2 x 2, pero introducir los datos en SPSS de forma habitual puede ser engorroso, si n es elevado. SPSS dispone de un mtodo abreviado para introducir de forma rpida una tabla 2 x 2. Para ello se crean las variables var1 (codificada, por ejemplo, como 0 y 1) la var2 (codificada de la misma forma) y la variable nmero de la siguiente manera:

Var 1
0 0 1 1

Var 2
0 1 0 1

Posteriormente, en el men Data se selecciona Weight cases y despus Weight cases by: nmero (variable nmero, en la que hay que poner el nmero de efectivos de cada uno de las parejas de posibles casos: (0,0), (0,1), (1,0), y (1,1) ). A partir de aqu ya se pueden realizar los tests estadsticos.

2.3. Dos variables cuantitativas


Este es el caso en que se posee ms informacin. Puede enfocarse el anlisis de dos maneras: Estudiar si hay una variacin conjunta entre ambas variables (o sea, si mientras una crece la otra tambin lo hace de forma continua, positiva o negativamente);

Establecer una relacin causaefecto entre ambas variables. Los mtodos matemticos son similares y es responsabilidad del investigador emplear un enfoque u otro. Habitualmente, los estudios se realizan presumiendo una relacin lineal (de lnea recta) entre ambas variables aunque SPSS permite estudiar relaciones curvilneas de varios tipos. En el caso de analizar si hay una variacin conjunta entre ambas variables (co-variacin) se estar ante un estudio de correlacin mientras que si se quiere establecer una relacin de causa-efecto se estar ante un estudio de regresin. En cualquier caso ha de comprobarse el cumplimiento de las hiptesis del anlisis paramtrico, especialmente la de gaussianidad. El anlisis de correlacin permite obtener el coeficiente de correlacin, r , que es una medida de lo conjuntamente que co-varan ambas variables. El valor de r oscila entre 0 y 1 (0: ambas variables son completamente independientes es su comportamiento, 1: varan conjuntamente de una forma perfecta) en su valor absoluto: r ser positivo si las dos crecen o decrecen simultneamente y negativo cuando una crezca al disminuir la otra. Este coeficiente se solicita en SPSS en el men Statistics (Analyze), submen Correlations, Bivariate, coeficiente de Pearson. Si no se cumplen las condiciones de anlisis paramtrico, puede solicitarse el coeficiente de Spearman. Si se est estudiando una relacin causa-efecto se estar ante un anlisis de regresin: habr una variable independiente

(X )

que puede conocerse sin error (modelo tipo I de regresin) o que puede estar medida

con un cierto error (modelo tipo II de regresin) y una variable dependiente (Y ) . Mediante este tipo de anlisis se puede obtener un coeficiente de regresin, r , que indica lo agregados que se encuentran los valores en torno a una lnea recta (lnea de regresin) que tambin se puede obtener. sta tendr una ecuacin de la forma y = a + b x donde a es la ordenada en el origen y b la pendiente. As, a partir de un valor determinado de X se puede obtener un valor medio de la variable Y , y el intervalo en que estar comprendido el valor de Y correspondiente a cada X con la confianza deseada (generalmente de 95 %). Asimismo puede obtenerse el valor del coeficiente de determinacin

(R )
2

que

proporciona informacin sobre el porcentaje de variacin de la variable y que es explicado por la variacin de la variable X . En un anlisis de regresin (y tambin de correlacin) el primer paso que hay que efectuar es la representacin grafica de la nube definida por las parejas de valores de X e Y . As, se podr tener una idea geomtrica de la intensidad de la asociacin entre las variables que se estn estudiando y, en caso de un anlisis de regresin, s hay una relacin causa-efecto significativa entre las variables. La forma que tiene SPSS de representar lneas de regresin es un tanto peculiar. En primer lugar hay que seleccionar el men Graphs y, dentro de este, la opcin Scatter, Simple, Define. En la variable X se coloca la variable independiente, en la variable Y , la dependiente. Despus se pulsa OK que hace que se muestre la representacin grfica para editarla. En la opcin Chart se selecciona Options, Fit line, Total Fit options, Linear regression junto con Prediction Line, Mean, Continue y OK. De esta manera aparece en la grfica de la nube de puntos la lnea de regresin lineal y sus cinturones de confianza del 95 %. As, se puede ver si la pendiente (la tendencia) de la lnea es ascendente o descendente y si esa tendencia es significativa (lo ser siempre que no pueda trazarse una lnea recta paralela al eje X sin tocar o atravesar las lneas de los cinturones de confianza del 95 %). El anlisis de correlacin se solicita en Statistics, Correlate, Bivariate y se introducen las variables a estudiar en el cuadro OK. En caso de que se seleccionen ms de dos variables se obtendr la matriz de correlaciones de Pearson (la opcin que viene sealada por defecto). En este punto es importante hacer una salvedad: un valor elevado del coeficiente de correlacin ser casi siempre significativo (a no ser que n fuese muy pequea), pero un coeficiente bajo (por ejemplo; 0,3) tambin puede serlo (cuando n es muy grande). El que sea significativo lo nico que quiere decir es que si se repite el experimento 100 veces la probabilidad de que salga el valor de r que se ha encontrado es mayor del 95 %. Pero eso no quiere decir que exista una asociacin importante entre las dos variables. Es el valor de r el que indicar si la asociacin lineal es importante. Se considera que esto es lo que ocurre si r < 0, 7 , si r est comprendida entre 0,5 y 0,7 hay una asociacin moderada; entre 0,25 y 0,5 la asociacin es dbil y, por debajo de 0,25 no se puede considerar que haya asociacin. Y todo ello, independientemente de que el valor de p asociado a la r sea inferior a 0,05! El anlisis de regresin se solicita en Statistics (Analize), Regresin, linear. La variable Y se introduce en la casilla Dependent y la variable X en la casilla Independent. La salida del resultado proporciona, en primer lugar el contraste general del modelo de ANOVA empleado para el clculo representa la significacin del coeficiente de regresin, r . Si este no es significativo no hay modelo de regresin; o sea, las variables X e Y son independientes entre s. En caso de que r sea estadsticamente significativo habr una relacin fuerte o dbil entre las variables X e Y , dependiendo de la magnitud de r (interpretndose de manera anloga a cuando se hizo con el coeficiente de correlacin). El listado tambin proporciona el valor del coeficiente de determinacin R que representa la fraccin de variabilidad de la variable Y que es explicada por la variable X . Despus, el programa proporciona los datos de los coeficientes de la lnea de regresin (que denominada como B ), junto con su error tpico
2

( SE B )

y su significacin. El valor de p de la pendiente coincide con el de r . En caso de que el valor de

a (constante) no fuese significativo no habra que incluirlo en la recta de regresin y = a + b x . Se puede saber a simple vista si los coeficientes son significativos si su valor absoluto es superior a 1,96 SE b .
A partir de la lnea de regresin puede interpolarse el valor medio de la variable dependiente Y que se obtendr por cada valor de la variable independiente X . Para cada valor de X el valor de Y se encontrar, con una probabilidad del 95 %, en el intervalo definido por:

a + ( b 1,96 SE b ) x
Cuando los puntos no tienen una tendencia definida; esto es, cuando no son significativamente diferentes de un circulo, r = 0 . Tambin ocurre que r = 0 cuando los puntos definen una lnea recta paralela al eje X o al eje Y .

Existen casos en donde la lnea recta no consigue el mejor ajuste a los puntos encontrados. En esos casos SPSS permite realizar el ajuste a distintos tipos de curvas dentro de la opcin Curve Estimation del submen Regression. La pantalla es similar a la de la regresin respecto de una recta. SPSS permite ajustar a curvas logartmicas, sigmoideas, exponenciales, polinmicas, etc.

Ejercicios
1. Con el fichero coronari.xls estudiar las condiciones de aplicabilidad de la estadstica paramtrica y en caso de ser posible establecer paramtricamente si hay diferencia entre las medias de las variables tad y tam. 2. Realizar el mismo anlisis de antes no paramtricamente. 3. Recodificar la variable edad en otra de tres categoras que engloben las edades: < 40 aos; entre 40 y 60 aos; > 60 aos. Estudiar si hay diferencias en la tam y en la tas entre los tres grupos (analizar paramtricamente si se cumplen las hiptesis del anlisis paramtrico y no paramtricamente).

También podría gustarte