Está en la página 1de 110

INTRODUCCIN A LA METODOLOGA CUANTITATIVA CON SPSS

Dr. Jos Manuel Toms

Tema 1.Conceptos previos


1.1. La estadstica en el mtodo cientfico La estadstica aplicada encuentra su lugar dentro de la fisioterapia en el momento en que se deban analizar datos empricos para extraer conclusiones vlidas y fiables. En tanto en cuanto estos datos vengan del uso de un mtodo cientfico, y tengan por tanto una calidad que permita incorporarlos a la base de conocimiento. Por tanto, partiremos de que los datos que aprenderemos a analizar de forma aplicada son datos que proceden de una correcta aplicacin del mtodo cientfico, mtodo hipottico-deductivo, por cualquiera de los diseos de investigacin habituales. Repasaremos algunos de los diseos de investigacin ms relevantes, pero antes plantearemos de forma grfica el lugar de la estadstica dentro de la solucin de problemas cientficos (ver figura 1). Figura 1 Lugar de la estadstica en la resolucin de problemas cientficos

Planteamiento del problema

Formulacin de hiptesis

Contrastacin emprica de hiptesis

Sirve para analizar los datos que son siempre necesarios para poner a prueba las hiptesis

Estadstica

Lo que la grfica 1 nos muestra es el momento en que la estadstica, como ciencia que trata de extraer conclusiones de los datos, y por bsico que sea su uso, resulta necesaria para resolver un problema cientfico. Supongamos un ejemplo prctico de la grfica antes planteada. Planteamiento del problema: Un investigador en fisioterapia cree el distinto agrupamiento de grasa corporal en el cuerpo humano puede dar lugar a diferencias en la vejez en desgastes de cadera. Formulacin de hiptesis. Dado el anterior problema la hiptesis que se plantea es que hombres y mujeres (cuya distribucin de grasa corporal es

inherentemente diferente), tendrn problemas de desgaste de cadera con distinta probabilidad. Contrastacin (puesta a prueba) emprica de hiptesis. Para ponerlo a prueba es necesario escoger una cierto nmero de hombres y mujeres mayores, suficientemente elevado y representativo de todos los sujetos para los que se quiere conocer la respuesta al problema, y comparar si efectivamente presentan problemas de desgaste de cadera con mayor probabilidad Como efectivamente se trata de contraste emprico, ser necesario medir (obtener datos empricos) de cada persona escogida, hombre o mujer, sobre el desgaste de sus caderas. Es a partir de aqu, en esta fase de contraste, donde la estadstica juega su papel. Primero, si se quiere una muestra suficientemente grande y representativa, es necesario acudir a la estadstica para obtener muestras mediante los mtodos de muestreo apropiados. Se obtendr as una muestra de personas mayores mujeres y otra de varones. Segundo, se tratar de ver si, efectivamente hay diferencias en el desgaste de caderas de ambos grupos (hombres y mujeres). Pero la comparacin no puede ser persona a persona, sino de forma general. Se requiere por tanto resumir cada grupo de alguna manera. Por ejemplo, se puede calcular la proporcin de varones mayores con problemas de cadera y la proporcin de mujeres, lo que implica clculos estadsticos de ordenacin y resumen de datos. O puede calcularse la media de desgaste de cadera en los hombres mayores y la media de desgaste de cadera en mujeres mayores. Tambin es otra forma estadstica de resumir datos. Tercero, dado que las muestras, an siendo representativas, difcilmente pueden ser idnticas a todos los sujetos de inters de donde se han extrado, es necesario considerar que puede haber cierta cantidad de error. Por tanto, parece razonable evaluar la cuanta de ese error antes de asegurar que las diferencias encontradas, si las hay, son relevantes. La estadstica permite cuantificar ese error.

1.2. Tipos de diseos de investigacin Los distintos tipos de diseos de investigacin son los que establecen lmites a la capacidad de generalizacin de las conclusiones y al grado de seguridad que se tiene sobre cmo son las relaciones entre variables, por ejemplo, si las relaciones son de tipo causal o no.

Figura 2 Principales tipos de diseos de investigacin

Experimental

No Experimental

Caracterstica: Manipulacin

Caractersticas: Ni manipulacin Ni aleatorizacin

Experimental Aleatorizacin

CuasiExperimental Sin aleatorizacin

Encuesta Observaciona l Cualitativo

Aunque hay diversas clasificaciones de los diseos de investigacin, una de las ms habituales es la que se presenta en la figura 2. La primera divisin se produce entre los diseos experimentales y los no experimentales. La forma de distinguir a ambos es, fundamentalmente, que en los diseos experimentales se produce la manipulacin de una o ms variables para ver cul es su efecto sobre una o varias variables dependientes. La manipulacin implica que es el investigador el que decide la presencia y el grado de la variable manipulada. Veamos ejemplos de diseo experimentales en sentido amplio. Supongamos que un investigador est interesado en saber si determinadas dosis de frmaco a tomar durante un mes a diario puede mejorar las articulaciones de corredores de fondo veteranos (mayores de 40 aos). Para ponerlo a prueba recluta a 200 corredores veteranos voluntarios y los divide al azar en cuatro grupos de 50. A un grupo simplemente no le da frmaco, a otro le da una dosis de 1mg/da de frmaco, a otro 2mg/da, y a otro 3mg/da. Ha manipulado la dosis de frmaco porque ha decidido sobre su presencia o no (en el grupo 1 no hay frmaco, es un grupo control) y el grado de 1 a 3 mg/da. Tras esto mide sus articulaciones en una serie de medidas al mes, para evaluar si el frmaco mejora. Este es un diseo experimental y, dentro de experimental es experimental propiamente dicho, porque se ha manipulado, pero tambin el investigador ha elegido al azar qu sujetos van a qu grupo, lo que aade la aleatorizacin. Supongamos que el mismo investigador tiene el mismo problema, y elige las mismas dosis, pero en lugar de tener la posibilidad de elegir quin forma parte de los cuatro grupos al azar. Solamente tiene la posibilidad de ir a cuatro clubes de atletismo amateur y: en uno medir sin dar dosis de frmaco; a otro club dar la dosis de 1mg/da; etc. As que no coloca a los sujetos al azar (aleatorizacin), sino que los cuatro grupos son naturales. Por tanto se ha producido manipulacin, pero no aleatorizacin, por lo que estamos ante un diseo cuasi-experimental o de grupos naturales.

Ahora supongamos que simplemente el investigador tiene la duda de si los atletas veteranos hombres presentan peores articulaciones que las atletas veteranas mujeres. En otras palabras lo que cree el investigador es que el sexo puede afectar a las articulaciones a esas edades. As que el sexo es la variable que afecta (independiente) y la variable afectada las articulaciones (en cualquier medida que se quiera tomar de ellas). Evidentemente no se manipula ni se aleatoriza, ya que el investigador no decide en qu grado se posee la caracterstica sexo, ni quin va a ir (al azar) a un sexo u otro porque no es posible. Ene se caso el estudio es no experimental. La divisin de los no experimentales en de encuesta, observacionales y cualitativos es un poco ms dudosa, pero en general puede decirse que se trata de encuesta cuando se miden muchas variables y tpicamente las contesta el propio sujeto (bien entrevistado, bien dejndole una encuesta para que la rellene). Se habla de observacional cuando se trata de medir a unos pocos sujetos en una serie de conductas por parte de uno o varios observadores externos. Generalmente se calculan frecuencias de las conductas en ciertos periodos de tiempo. Se registran conductas. Y finalmente el cualitativo es el estudio en profundidad de unos pocos sujetos, normalmente considerados prototpicos. 1.3. Conceptos estadsticos bsicos y definicin A partir de una definicin de estadstica iremos desgranando algunos conceptos muy bsicos de esta ciencia. Bsicos, pero totalmente necesarios para entender la forma de aplicarla razonadamente. La estadstica puede definirse de la siguiente forma (Amn, 1986): Ciencia que recoge, ordena y analiza los datos de una muestra de cierta poblacin, y que, a partir de esa muestra valindose del clculo de probabilidades, se encarga de hacer inferencias acerca de la poblacin Esta definicin presenta dos conceptos claves, que son los de poblacin y muestra. Adems presenta otros aspectos importantes, como la descripcin de las funciones de la estadstica o anlisis de datos y la nocin de inferencia. Vayamos primero a los dos conceptos clave: poblacin y muestra. Poblacin sera todo el conjunto de objetos de inters y stos pueden ser finitos o infinitos. Se dice objetos de inters porque, aunque habitualmente la estadstica trabaja con individuos, en ocasiones puede no ser ste el caso. Por ejemplo, la totalidad de objetos a medir pueden ser todas las fbricas de un pas, o las piedras de una determinada cantera. Ejemplos ms comunes son los de querer conocer el nivel socioeducativo de una provincia, y entonces que la poblacin sea todas las personas que viven en un momento dado en esa provincia. Evidentemente la poblacin puede ser finita o infinita, porque la totalidad de objetos de inertes pueden ser los alumnos de una clase (30 personas), lo que es finito, pero tambin pueden ser todos los hombres y esto es infinito (o casi infinito) porque en principio incluye todos los hombres nacidos y los nacidos. A efectos prcticos las poblaciones infinitas y prcticamente infinitas o extremadamente grandes no suponen una diferencia prctica relevante. La muestra, por su parte, supone cualquier subconjunto extrado de la poblacin, por cualquier mtodo. Por ejemplo es cuando el profesor que delante de sus treinta alumnos decide escoger solamente a 10 para realizar 5

una prueba y as conocer el nivel intelectual de sus alumnos. Sea cual sea la forma de escoger a esos 10 alumnos, lo que consigue es siempre una muestra. Puede decidir, por ejemplo, poner 30 nmeros en un bombo y extraer 10 bolas de l, lo que constituye un procedimiento aleatorio. O puede escoger a los 10 que se sientan en las primeras filas, lo que difcilmente nos ofrece una muestra azarosa de individuos. Sea cual sea la forma de obtener a los 10 sujetos el resultado es una muestra de tamao diez, procedente de una poblacin de tamao treinta. As que la estadstica trabaja o bien con la totalidad o con un subconjunto de los datos que se quiere estudiar, o sea, con una poblacin o con una muestra. Lo que hace con ellas es recogerlas (escoger el mejor mtodo para recogerlas), ordenarlas (plantear alguna forma lgica de ordenacin, como menor a mayor) y analizarlas (extraer de ellas el mximo de informacin posible, entenderlas). Por tanto la recogida, ordenacin y anlisis puede hacerse con la poblacin o con la muestra. Estas tres funciones pueden sintetizarse en estudiar la muestra y/o la poblacin. Si stas se estudian por separado, entonces estamos ante un anlisis de datos o una estadstica descriptiva. Tenemos un conjunto de individuos que presentan cierta informacin en algunos aspectos que nosotros queremos estudiar racionalmente. Los recogemos, los ordenamos y los analizamos. Pero si entendemos algo de las leyes de la probabilidad, y su lgica, entonces rpidamente nos daremos cuenta de que una muestra se diferencia de la poblacin en un aspecto fundamental: no incluye todos los objetos de inters. Por lo tanto, no tiene toda la informacin. Es una informacin restringida, no plena. Pongamos un ejemplo: queremos saber la altura y peso que tiene en la actualidad la poblacin espaola nacida entre 1980 y 2000. Queremos informacin sobre una poblacin, todos los nacidos entre 1980 y 2000, en una serie de caractersticas. En este caso, la altura y el peso. Las opciones que tenemos son medir a todos los nacidos entre esos aos en altura y en peso. Evidentemente esto presenta dificultades: primero es muy costoso medir a todos estos individuos, es difcil recogerlos. En algunos casos puede incluso ser muy difcil o imposible. Algunos de los nacidos entre 1980 y 2000 de nacionalidad espaola han muerto. Decidimos, por tanto, escoger solamente una muestra (un subconjunto de toda la poblacin). Esta es una decisin sobre cmo recogerlos. Podemos decidir escoger varias ciudades de la geografa espaola, al azar, y medir la altura y peso de un cierto nmero de ciudadanos de ella, de nacionalidad espaola, y que cumplan con la restriccin de nacimiento entre 1980 y 2000. Finalmente escogemos un total de 1000 personas en un total de 20 ciudades espaolas. Evidentemente, a nadie se le escapa que esos 1000 individuos no tienen porqu ser idnticos al milmetro en altura a la poblacin, o idnticos al miligramo en peso al total de la poblacin. Es decir, representan a la poblacin, pero solo tienen cierta probabilidad de ser iguales que ellos. O incluso, mejor dicho, se parecen a la poblacin, pero solamente con ciertos mrgenes de error. La muestra, por tanto, y este es el fondo del asunto, sirve no para medir a la poblacin, sino para inferir lo que ocurre en la poblacin. Por tanto, cuando la muestra se usa no como un fin en s mismo, sino como un medio para conocer la poblacin, entonces estamos ante anlisis de datos inferencial. Concluyendo, la estadstica, es la ciencia que recoge, ordena y analiza datos. En tanto que los datos vienen de una poblacin o de una muestra, pero se tratan en s mismos, estamos ante la estadstica descriptiva, mientras que si se relaciona lo obtenido 6

en la muestra con lo que se cree que ocurre en la poblacin, estamos ante estadstica inferencial. As si disponemos de una poblacin completa, podemos estar interesados en medir alguna de sus caractersticas. Por ejemplo, si somos profesores en un colegio nuestra poblacin de inters puede ser los alumnos de una clase de segundo de la ESO. Si estamos interesados en conocer su rendimiento en matemticas tendremos que hacerles, como mnimo un examen de matemticas a cada uno de ellos, medirlos. Si queremos resumir el nivel de matemticas de toda la poblacin calcularemos sobre estos datos algn valor resumen. Por ejemplo la proporcin de aprobados o la media de todos los exmenes. Si los alumnos de la clase no son la poblacin de inters, sino una muestra de todos los alumnos de segundo de ESO del colegio (que s son, en este caso la poblacin de inters), la operacin puede repetirse. Se hacen los exmenes de matemticas correspondientes y se obtienen las notas de los alumnos de la clase. Si se quieren resumir, se puede hacer lo mismo que en el caso anterior: por ejemplo la proporcin de aprobados o la media de todos los exmenes. Ahora bien, ambas situaciones, an siendo muy similares no son idnticas desde el punto de vista estadstico: Los valores obtenidos en la poblacin (la media de matemticas y la proporcin de aprobados del primer caso) se llaman parmetros y se representan por letras griegas. En concreto la media es y la proporcin . Los valores obtenidos en la muestra (media y proporcin del segundo caso en que los alumnos son solamente una muestra) se llaman estadsticos y se representan por letras latinas. En concreto la media es y la proporcin p. Los parmetros y los estadsticos tienen caractersticas muy diferentes. La media de rendimiento en matemticas del primer caso, en que los alumnos son todos los de inters (poblacin), y asumiendo que el examen representa de forma fiable y vlida el conocimiento requerido en matemticas, los valores obtenidos representan perfectamente a los alumnos de inters, sin error. Por contra, los estadsticos son valores calculados en una muestra de la poblacin de inters, por lo que no puede considerarse que representen perfectamente a todos los alumnos de inters. Slo lo representarn perfectamente si la muestra coincide exactamente con la poblacin, lo que es altamente improbable. Presentar, por tanto en general un error muestral, en general, tanto mayor cuanto ms distinta sea la muestra de la poblacin (cuanto ms pequea sea la muestra, por ejemplo. En resumen los parmetros no presentan error estadstico, los estadsticos s, y ste es conocido por error muestral. Lo que s comparten es que ambos son valores obtenidos sobre objetos de inters en caractersticas de inters, y para obtener valores hay que medir las caractersticas de inters y a la medicin dedicaremos el siguiente punto. 1.4. Medicin, variables y escalas de medida Medir consiste en atribuir nmeros a las caractersticas que presentan los elementos de una poblacin y/o una muestra. Por su parte las caractersticas a medir se llaman

variables, mientras que las distintas modalidades de cada variable dan lugar al rango de valores. Pongamos ejemplos de estos conceptos. Podemos estar interesados en conocer algunas caractersticas de los alumnos de fisioterapia. Veamos algunas de esas diversas caractersticas: [a] Entre las caractersticas a conocer tenemos el sexo de los alumnos. A partir de aqu el sexo es una variable, ya que presenta diversas opciones o modalidades en que los alumnos pueden variar (de ah variable). Esta variable puede presentar dos modalidades: hombre y mujer. Salvo que todos los alumnos sean hombres o mujeres, lo que convertira la variable en una constante (una sola modalidad), medir consistir en este caso en numerar a hombres y mujeres. Por ejemplo: mujer= 1 y hombre= 2. La nica regla seguida en este caso es dar un nmero distinto a cada modalidad, pero salvo eso, se podra haber dado cualquier valor. [b] Otra de las caractersticas que se quieren medir es el grado de motivacin hacia la carrera que presentan. Para ello se les hace la pregunta, desde nada hasta mucho, cul es el grado de motivacin que tienes por cursar esta licenciatura? Y se sita una escala graduada con extremos Nada y Mucho y cinco puntos. Se decide que el que conteste nada ser un 1, y cada anclaje superior a nada ir sumando 1 punto nuevo. As hasta hacer mucho igual a un cinco. Aqu las reglas seguidas son dar a cada anclaje un nmero, pero no se dan de cualquier forma, sino dando un orden de menor (nada) a mayor (hasta mucho). [c] Se quiere saber tambin los conocimientos previos de matemticas. Para ello se realiza un examen con 20 preguntas de matemticas con tres alternativas de respuesta, de las que solamente una es correcta. Se decide dar notas desde 0 (ningn acierto) hasta 10 (todos correctos). Adems hay que realizar alguna frmula para corregir la posibilidad de acertar por simple azar de entre las tres respuestas posibles. Todo esto son ejemplo de caractersticas para medir, que dan lugar en este caso a tres variables, sexo, motivacin y conocimiento de matemticas, con su rango de valores posibles (1-2; 1-5 y 1-20, respectivamente). Las variables pueden clasificarse de acuerdo a diversos criterios, algunos de los cuales son relevantes para poder tratar correctamente los datos posteriormente (ver figura 3).

Figura 3 Tipos de variables en funcin de criterios clasificatorios

Stevens (1951, 1957) plante que las variables podan tener distinto estatus mtrico, diferente escala de medida. Y planteo cuatro posibles escalas de medida, que desde entonces se han empleado como una clasificacin de variables que se arrastra incluso en paquetes estadsticos. Las cuatro escalas de medida de Stevens eran: Nominal: Aquellas variables que en verdad no tienen nmero natural, sino que responden a cualidades distintas. Por ejemplo el sexo, no hay siquiera orden. La religin que se confesa, que no puede siquiera ordenarse. El club de ftbol del que se es socio. El tipo de gnero de cine que gusta, etc. Ordinal. Se pueden ordenar las distintas modalidades, pero no es seguro que entre una modalidad y otra haya exactamente la misma distancia real. Por ejemplo si se pregunta cunto te gusta el gobierno? Y las opciones son nada, algo y mucho. No es seguro que para pasar de nada a algo haya la misma distancia que de algo a mucho. Intervalo. Cuando no solo hay ordenamiento sino que los nmero que tienen misma distancia entre ellos mantienen esa distancia en la realidad tambin. Si, por ejemplo medimos altura en centmetros y un sujeto tiene 170cm y otro 190cm, es evidente que se diferencian 20cm entre s. Otros dos sujetos de 140cm y 160cm estn en otro punto d la escala, pero siguen teniendo la misma distancia entre ellos que los dos primeros.

Razn. Cuando se cumple las condiciones de la escala de intervalo, pero adems el cero es absoluto (existe en realidad, al menos potencialmente). Por ejemplo el nmero de hijos. Por otro lado, desde un punto de vista ms estadstico, las mayores diferencias entre variables se hacen entre las categricas o cualitativas, que se corresponderan con las nominales y el resto, en que el uso de nmeros es algo ms que una mera etiqueta. An as se divide tambin en semi-cuantitativas, en que solamente cuenta el orden, como por ejemplo las posiciones de llegada de una carrera, y las cuantitativas, en que el nmero tiene significado en s mismo representa relaciones cuantitativas razonablemente claras. Por otra parte, las variables se pueden distinguir por el estatus que tienen en la investigacin, por el papel que juegan. Aunque no son los nicos papeles, ya que otros son posibles, los ms importantes son los de variables independientes y dependientes. Veamos estos tipos con algunos ejemplos. Variable independiente o predictora es la que en una investigacin dada se asume que produce un efecto o es capaz de predecir a otra. Como ejemplo, se puede pensar que la variable peso levantado en un banco de pesas tienen un efecto sobre el desarrollo muscular. En este caso la variable independiente ser el peso levantado. O se puede pensar que el rendimiento en una asignatura puede depender de la motivacin que se tenga a esa asignatura. En este ejemplo la motivacin se asume que tiene un efecto sobre la nota. Las variables dependientes o criterios son las que se ven afectadas en una investigacin dada. Por ejemplo si queremos explicar el peso de una muestra de personas, entonces la variable dependiente es precisamente el peso, y habr que buscar en la investigacin qu variables independientes pueden explicarlo, como la ingesta de caloras o el ejercicio fsico realizado. Evidentemente lo que en una investigacin puede ser variable independiente, en otra puede ser dependiente y viceversa. Por ejemplo, la ingesta de caloras por da puede ser una variable independiente que explique el peso, pero en otros casos podemos querer explicar precisamente esa ingesta de caloras (se transforma en dependiente), en funcin de, por ejemplo el poder adquisitivo. Una vez se han medido a uno o varios individuos en una o varias variables, entonces se obtienen observaciones. Cada observacin siempre ha de quedar representada por un nico nmero, es por tanto una medicin. Las observaciones puede, a su vez, dividirse en dependientes e independientes. Las observaciones son independientes cuando la probabilidad de extraer cualquiera de ellas no altera la probabilidad de extraer otra cualquiera. Mientras, las observaciones dependientes o relacionadas son las que cualquiera de ellas altera la probabilidad de obtener otra observacin cualquiera. Aunque esta es una simplificacin enorme, grosso modo las observaciones independientes se suelen obtener al escoger medidas de una serie de sujetos al azar, sujetos diferentes. Las observaciones dependientes suelen coincidir con medidas repetidas de unos mismos sujetos. Por ejemplo, si se escoge al azar una muestra de 10 estudiantes de la Universitat de Valncia y se les mide su cociente intelectual, porque Alberto haya sacado 101, esto no nos dice nada de qu observacin de CI tendremos de Juan, de aqu la independencia o falta de

10

relacin. Por el contrario si queremos observar a lo largo de su carrera los CI de estos 10 sujetos (medidas repetidas), el CI del primer ao de Alberto s nos dice algo (se relaciona con) el CI del propio Alberto, medida repetida, en el segundo curso, luego a priori ya sabemos algo del CI de ste y la segunda observacin se relaciona, no es independiente de la primera. No obstante dejaremos esta distincin sobre observaciones independientes y dependientes para detallarla ms adelante cuando se trate de cmo situar unas y otras en los paquetes estadsticos y cmo analizarlas diferencialmente. Si las observaciones vienen de muestreos aleatorios, se puede decir que a largo plazo son representativas de la poblacin. Por el contrario si el muestreo no es aleatorio, esto no puede asegurarse. Ahora veremos una introduccin a los diferentes tipos de muestreo. 1.5. Muestreo Las tcnicas de muestreo son algo ms que simples frmulas estadsticas que nos dicen cuntas personas hay que seleccionar de una poblacin dada, si queremos cometer un cierto error mximo al emplear tal o cul estadstico. El empleo de una herramienta de muestreo adecuada es la que nos da confianza para la generalizacin de los resultados, caso de que una muestra sea necesaria para analizar una poblacin, lo que es habitual cuando la totalidad de la poblacin no est disponible. O no resulta razonable en trminos de costes-beneficios medirlos a todos. Efectivamente, el muestreo debe permitirnos analizar crticamente qu tipo de muestra necesitamos, en base a los objetivos de la investigacin y los recursos disponibles. Nos debe responder a tres preguntas: [1] Necesitamos una muestra? [2] Qu tipo de muestreo vamos a realizar? [3] Qu tamao de muestra es necesario para cierto margen de error? (esta ltima pregunta, por su complejidad no la abordaremos, pero se puede encontrar informacin en cualquier manual estndar de muestreo) La poblacin objetivo es el grupo ideal de objetos que sern sometidos al diseo de encuesta. Hablamos de objetos, cuando casi siempre son sujetos, porque en ocasiones podemos estar interesados no en que conteste la encuesta personas individuales, sino casas, grupos de trabajo, compaas, etctera, por lo que no siempre la poblacin sobre la que se desea realizar la investigacin est compuesta de personas. Menos tcnicamente, la poblacin objetivo es el total de personas o cosas que desearamos sobre la que queremos, en principio, analizar sus puntuaciones en una serie de variables. En muchas ocasiones definir la poblacin objetivo parece muy sencillo. Por ejemplo, un psiclogo deportivo puede estar interesado en la relacin entre motivacin y rendimiento en pruebas de atletismo en la actualidad. Tal inters, en principio, parece demandar una poblacin objetivo de todos los estudiantes de matemticas. Pero claro, esto nos lleva a importantes cuestiones: de todas las edades? de todo el mundo? Etctera, lo que puede hacer que la poblacin objetivo definida como ideal sea muy grande, infinita o prcticamente infinita. Otro ejemplo puede aclarar ofrecer otra visin,. Supongamos que los encuestadores han sido contratados por una empresa de 10.000 empleados con el objetivo de saber la satisfaccin laboral de stos, y sus relaciones con ciertas variables organizacionales,

11

entonces la poblacin objetivo es claramente el nmero total de empleados. Sin embargo, si esa misma empresa desea saber la satisfaccin de las empleadas con nios menores de tres aos con la carga de trabajo, entonces solamente las que estn en esa situacin, del total de diez mil empleados, es la poblacin objetivo. En general hay tres situaciones, por tanto, en las que resulta conveniente recoger muestras, frente a medir la poblacin: [1] Cuando la poblacin es tan grande que no es posible, para las posibilidades de la investigacin, medir a todos. [2] Cuando la poblacin es suficientemente uniforme como para que cualquier muestra bien extrada sea una buena representacin de sta. [3] Cuando el proceso de encuesta (la medicin) de los elementos es destructivo. En estos casos se tienen que conseguir muestras, y stas deben escogerse mediante alguno de los tipos de muestreo disponibles, que resulte adecuado para los fines de la investigacin. Los principales tipos de muestreo pueden dividirse, con matizaciones, en dos, probabilstico y no probabilstico. El muestreo probabilstico presenta ciertas caractersticas, que son las que le permiten ser el nico cientficamente vlido. En primer lugar, la probabilidad de seleccin de cada miembro es conocida. Adems, la seleccin de un individuo cualquiera del marco es independiente de la seleccin de cualquier otro individuo. El supuesto bsico de este tipo de muestreo es que la gente que se selecciona como muestra son, a la larga, como cualquier otra muestra extrada por el mismo procedimiento. Los tipos de muestreos probabilsticos ms utilizados son: a) muestreo aleatorio simple; b) muestreo estratificado; y c) muestreo por conglomerados o reas. Por su parte el muestreo no probabilstico sera aquel en que la probabilidad de seleccin de cada elemento del marco no es conocida, ni calculable. Son, en otras palabras, aquellos tipos de muestreo en que la seleccin para la muestra se basa en algo ms que el azar. Existen diversos tipos de muestreo no probabilstico, ya que pueden realizarse recogidas de muestra en base a diferentes consideraciones no aleatorias. Normalmente se distingue entre (Azorn y Snchez-Crespo, 1986): a) muestreo intencional u opintico; b) muestreo sin norma. Finalmente, puede hacerse una ltima distincin que incluira a aquellos tipos de muestreo que s presentan caractersticas probabilsticas, pero no son totalmente probabilsticos. En este sentido, Mosteller y Tukey (1954) hablan de muestreos semiprobabilsticos superior e inferior, o tambin podemos encontrar el muestreo por cuotas. En cualquier caso, todos estos tipos de muestreo, hay que tenerlo claro, no son probabilsticos, y por lo tanto no garantizan, a la larga, la adecuacin de las muestras para representar a la poblacin.

12

Figura 5. Tipos de muestreo


Muestreo aleatorio simple PROBABILSTICO Muestreo estratificado Muestreo por conglomerados o reas

Muestreo sistemtico SEMIPROBABILSTICO Semiprobabilstico inferior Semiprobabilstico superior Muestreo intencional u opintico Muestreo sin norma

NO PROBABILSTICO

Pasaremos ahora al detalle de todos estos tipos de muestreo, as como a algunas de sus implicaciones. Muestreo aleatorio simple. Desde un punto de vista general, se considera muestreo aleatorio simple a aquel en que a priori todos los elementos de la poblacin tienen la misma probabilidad de aparicin, sea sta finita o infinita. Una vez se sabe o se estima un determinado tamao muestral, hay que pasar a seleccionar, aleatoriamente, los casos que entrarn a formar parte de la muestra. Para ello es necesario tener un listado de todos los sujetos de la poblacin, para, a partir de stos, obtener la muestra. Muestreo estratificado. En el muestreo estratificado, los investigadores dividen o clasifican a los distintos sujetos a distintas subpoblaciones o estratos, y despus realizan un muestreo aleatorio simple dentro de cada estrato. Cada individuo ha de pertenecer a un estrato, y cada individuo de ese estrato tendr la misma probabilidad de ser escogido para formar parte de la muestra. Para formar los estratos, se utiliza una o varias variables que sean de inters para el investigador, y/o que estn relacionadas con el objetivo del estudio. As, por ejemplo, los investigadores pueden estar interesados en el sexo de los sujetos y, en consecuencia, decidir que hay que extraer la muestra al azar dentro de dos estratos, hombres y mujeres. Otra variable importante para la encuesta puede ser la filiacin poltica, de forma que se decida extraer la muestra al azar de varios estratos, cada uno de ellos siendo un determinado partido u opcin poltica.

13

La estratificacin es el proceso por el que se asigna a cada una de las unidades de la poblacin al subgrupo o estrato que le corresponde. Cada unidad de la poblacin, cada sujeto, solamente puede aparecer en un estrato, por lo que los grupos definidos han de ser mutuamente excluyentes y exhaustivos. Los motivos principales para realizar un muestreo estratificado son: Se necesita obtener estimaciones para subpoblaciones, de forma que no puede dejarse al azar el que alguna de las subpoblaciones quede sin representar o pobremente representada. Dado que el muestreo estratificado siempre baja o mantiene como mnimo igual la variabilidad muestral, se mejora la precisin de los estimadores. Hay que tener en cuenta, no obstante, que la estratificacin solamente aumenta la precisin de los estimadores aplicados a variables que se encuentran relacionados con las variables que sirven para estratificar. En resumen, se estratifica para conseguir mejorar la representatividad de la muestra y la precisin de la estimacin. No obstante, las variables que se utilicen para la estratificacin debieran estar relacionadas con alguna o algunas de las variables objetivo del estudio, pues de lo contrario se pagara el precio de una mayor complejidad sin la consiguiente ganancia en precisin. Una vez se ha estratificado, y por tanto se conoce el nmero de estratos relevantes, queda todava por determinar el nmero de sujetos que se muestrearn en cada uno de los estratos. Este proceso, el de determinar cuntos individuos de cada estrato van a ser seleccionados para formar parte de la muestra (muestra total, que incluye todos los estratos), se conoce como afijacin. Existen diversos tipos de afijacin, en funcin de los intereses del estudio y de la estructura de la muestra. Los tipos de afijacin ms importantes son (Azorn y Snchez-Crespo, 1986): Afijacin uniforme Se toman en todos los estratos el mismo nmero de sujetos, con lo que los estratos quedan igualados. Por supuesto, si este no es el caso en la poblacin, hay que corregir en los estadsticos este cambio de las proporciones por estrato antes de calcular estadsticos para representar a la poblacin. Este tipo de afijacin da la misma importancia a todos los estratos, favoreciendo la precisin de los de menor tamao y perjudicando a los de mayor tamao. Afijacin proporcional. Las n unidades de la muestra se distribuyen proporcionalmente a los tamaos de los estratos en la poblacin. Esto es, si se decide, por ejemplo, que el sexo va a ser la nica variable para estratificar, y en la poblacin objetivo hay un 75% de mujeres y un 25% de hombres, la muestra total que se escoja ha de tener los mismos porcentajes que la poblacin de hombres y mujeres. Afijacin de varianza mnima. La afijacin de varianza mnima o afijacin de Neyman consiste en determinar los valores del tamao de muestra de cada estrato para que la varianza sea mnima. La utilidad de este tipo de afijacin aumenta si hay muchas diferencias en variabilidad entre los diferentes estratos en las variables de inters. En cualquier otro caso, la afijacin proporcional suele dar buenos resultados para su nivel de dificultad. Adems es un tipo de afijacin difcil porque exige el conocimiento de la variabilidad poblacional, o una estimacin de sta, de las variables de inters para cada estrato. 14

Muestreo por conglomerados. En el muestreo estratificado los estratos a tener en cuenta los fijaba el o los investigadores para, posteriormente y dentro de cada estrato, seleccionar al azar las unidades elementales de la muestra que son el objetivo ltimo de la encuesta. Por el contrario, en el muestreo por conglomerados, se definen conglomerados (conjuntos) tales que incluyen a dos o ms (generalmente bastantes ms) unidades muestrales ltimas a seleccionar (personas, por ejemplo), y lo que se escoge al azar es una muestra aleatoria de conglomerados, y dentro de cada conglomerado escogido no se hace muestreo, sino que se seleccionan todas las unidades muestrales objetivo (personas). Por lo tanto, lo que se escoge al azar son los conglomerados, que suelen ser conjuntos formados naturalmente, y no las unidades elementales a estudiar finalmente. Un ejemplo ayuda, sin duda, a entender el muestreo por conglomerados de forma cabal. Supongamos que se quiere estudiar las relaciones entre motivacin, inteligencia y rendimiento acadmico en alumnos de ESO de la provincia de Valencia. Podra pedirse un listado de todos los alumnos de ESO (la poblacin) en este ao y escoger al azar la muestra necesaria, por ejemplo n=1000, lo que sera muestreo aleatorio simple. Se podra decidir que se quiere la misma proporcin de nios que de nias, con lo que se estratificara por sexo, y tras la estratificacin se escogera al azar n1=500 nios y n2=500 nias. Este sera un caso de muestreo estratificado. En los dos casos anteriores se escogen al azar las personas que son, finalmente, objetivo de anlisis de la encuesta. Otra alternativa es obtener un listado de todos los colegios o escuelas que imparten ESO en la provincia de Valencia, y definir cada uno de esos colegios como un conglomerado (de alumnos de ESO, para nuestros intereses), y escoger aleatoriamente de entre todos los conglomerados un cierto nmero, tal que la suma de todos los alumnos de ESO en esos colegios nos ofrezca aproximadamente el tamao de muestra deseado. En la figura 6 aparece un esquema de cmo se producira un muestreo por conglomerados para este ejemplo. El proceso aleatorio es con los conglomerados, mientras que las personas (alumnos de ESO) se escogen todas las disponibles de cada escuela o colegio seleccionado. Ntese, por tanto, que una vez escogidos los colegios al azar, los alumnos de cada uno de ellos se incluyen en la muestra necesariamente. El muestreo es, no obstante probabilstico, porque los conglomerados s se escogieron al azar.

15

Figura 6. Esquema de un muestreo por conglomerados, donde los conglomerados son escuelas o colegios.

SE SELECCIONAN ESCUELAS (LOS CONGLOMERADOS)

Azar

Azar

Azar

Azar

Azar

...
Todos Todos Todos Todos Todos

...
Otros ejemplos de muestreos por conglomerados, pueden ser escoger al azar: a) Familias, de las que se escogen todos los miembros para obtener una muestra final de padres, madres, hijos, hijas, abuelos y abuelas, etc; b) Casas, en las que miden a todos los que viven en la casa; c) Municipios de un Estado; d) Mesas electorales, de las que se recuentan todas las papeletas, y un largo etctera. En algunos casos, especialmente en estudios geogrficos y sociolgicos es comn que los conglomerados se definan como reas o zonas fsicamente delimitadas de terreno, de forma que muy a menudo se conoce este muestreo como muestreo por reas. El muestreo por conglomerados presenta ventajas e inconvenientes. De entre los primeros se puede destacar: i. ii. Es el indicado cuando no se dispone de un listado exhaustivo de las unidades muestrales, pero s de los conglomerados. Se ahorra por comparacin a los anteriores tipos de muestreo, ya que al concentrarse las unidades fsicamente disminuye las necesidades de desplazamiento, y por ello los costes de tiempo y dinero. En algunos casos puede eliminar sesgos, ya que la supervisin de la encuesta es ms fcil de realizar, y se hacen mnimos la necesidad de equipo de apoyo. 16

iii.

Estas ventajas, por descontado vienen a costa de inconvenientes. De otra forma sera el adecuado siempre. De entre los inconvenientes ms relevantes: i. Falta de independencia de las puntuaciones. Dado que los sujetos se encuentran en unidades formadas naturalmente, como clases, o familias, entra dentro de lo posible que sus puntuaciones no sean estadsticamente independientes, sino que guarden una cierta relacin. Por tanto, cuando se realizan muestreos por conglomerados no hay que asumir la independencia de las puntuaciones, sino que ms bien hay que comprobarla. As, una forma til es contrastar si existe una correlacin intraclase importante, y si esto es as, habra que utilizar tcnicas estadsticas multinivel para analizar los datos de la encuesta. Sesgos debidos a baja representatividad de los conglomerados. Si se escogen pocos conglomerados, estos pueden estar sesgados con respecto a las caractersticas de la poblacin. La solucin pasa por escoger un mayor nmero de conglomerados. Caso de que al escoger un gran nmero de conglomerados se obtuviera una tamao de la muestra excesiva, la solucin entonces es el siguiente tipo de muestreo probabilstico, el muestreo por etapas.

ii.

Evidentemente los muestreos que hemos visto a continuacin (aleatorio simple, estratificado y conglomerados) son los bsicos, pero pueden hacerse ms complejos al combinarlos. A este tipo de muestreos ms complejos, combinacin de varios los llamaremos genricamente polietpicos o por etapas. Por ejemplo, combinando el muestreo aleatorio simple y el de conglomerados, tenemos un polietpico. Primero se realiza un muestreo por conglomerados, en el que de los conglomerados definidos, en este caso colegios o escuelas de la provincia de Valencia, se escogen unos cuantos, al azar, por tanto aleatoriamente. De entre los conglomerados seleccionados, se escogen no todos los alumnos de ESO, sino una muestra aleatoria (simple o de otro tipo, por ejemplo puede complicarse estratificando) del total de alumnos de cada centro. Por lo tanto se produce otra etapa de muestreo aleatorio, otra vez interviene el azar. En este caso el muestreo ha tenido dos etapas, la primera seleccionar al azar conglomerados, la segunda seleccionar al azar alumnos (unidades muestrales elementales). En este caso, por tanto, estamos ante un muestreo bietpico o en dos etapas. Muestreos de ms de dos etapas son posibles. El muestreo por etapas presenta las caractersticas, propiedades, ventajas y desventajas de la combinacin de mtodos de muestreo que supone. Hasta aqu los muestreos probabilsticas. Ahora dedicaremos algo de espacio a los no probabilsticas, pero teniendo en cuenta siempre que estos tipos de muestreo, si bien pueden aportar informacin valiosa en funcin de los intereses del investigador, no garantizan, desde un punto de vista cientfico, la representatividad de la muestra. Esto ltimo solamente se puede garantizar desde cualquiera de los muestreos probabilsticos anteriores. Muestreo sin norma. El muestreo sin norma, tambin en ocasiones llamado muestra de conveniencia es simplemente eso. Se extrae una muestra de la poblacin objetivo simplemente porque es conveniente, fcil, econmica, pero no en base a la aleatoriedad. Ejemplos de este tipo de muestreo es cuando un profesor extrae conclusiones al respecto de los alumnos de educacin infantil, basndose en las pruebas que pasa a sus alumnos

17

de ese ao de educacin infantil. Otro ejemplo es cuando los medios de comunicacin hacen una pregunta en un telediario y recogen una muestra de respuestas, asumiendo que eso es lo que piensan los espaoles, sin caer en la cuenta de qu tipo de espaoles ven esa cadena a esa hora... y un largo etctera. Muestreo intencional u opintico. En el muestreo intencional u opintico los investigadores escogen la muestra de forma no aleatoria, pero no por conveniencia, sino intentando garantizar la representatividad de la muestra. Aunque tampoco es probabilstico, resulta evidente que es ligeramente superior al anterior, al sin norma, ya que el investigador intenta, al menos, hacer la muestra representativa. No obstante, al realizar ese intento sin valerse del azar, sino ms bien de su intencin, traslada con mucha probabilidad todos sus posibles sesgos, conocidos o no, a la muestra obtenida. Muestreo por cuotas (semiprobabilstico inferior). El muestreo por cuotas fue desarrollado por Cressley, Cherington, Roger y Gallup en los aos treinta. Muchos organismos oficiales lo utilizan habitualmente, especialmente en investigacin de mercados y opinin pblica. Lo que caracteriza al muestreo por cuotas es el paso final del muestreo. Se supone que se ha seguido en todo momento un muestreo de tipo probabilsitico, por ejemplo por conglomerados. En la etapa final, y dentro de cada conglomerado, o rea, o zona determinada por los investigadores acta un encuestador. Este encuestador puede tener un nmero fijo de encuestas a hacer, sin importar a qu tipo de personas encuesta, o puede tener un nmero fijo y, adems, estratificado, como por ejemplo coger el mismo nmero de menores de 15 aos que de mayores de 15 aos. Esto es, el encuestador tiene una cierta cuota de encuestas por realizar. Hasta aqu tenemos un muestreo probabilstico, pero en este punto se deja libertad al encuestador para que escoja como desee a las personas que necesita para cumplir su cuota. Muestreo sistemtico. El muestreo sistemtico lo hemos dejado para el final, porque si bien no es ciento por ciento un muestreo probabilstico, s puede serlo en un gran nmero de ocasiones. Si se dan las circunstancias adecuadas, el resultado de un muestreo sistemtico es una muestra probabilsitica, de tanta calidad como el muestreo aleatorio simple y, por tanto, con las garantas cientficas necesarias. El muestreo sistemtico consiste en escoger un inicio aleatorio y despus coger uno de cada equis sujetos de la lista. Por ejemplo, empezar en el sujeto 12 y luego escogerlos de 10 en 10, el 22, 32, 42,.... hasta alcanzar el tamao muestral deseado. Un ejemplo ayudar a entender la mecnica del muestreo sistemtico. Se tiene un listado de N=15000 trabajadores de una gran compaa. Se desea escoger una muestra probabilstica de n=200. Al dividir el tamao de la poblacin entre el tamao de muestra deseado se obtiene una fraccin. En este caso:

En este caso, el resultado de la fraccin indica que para obtener una muestra de n=200 de entre una poblacin de N=15000, resulta necesario coger un trabajador de entre cada 75, por lo que en el muestreo sistemtico escogeremos de 75 en 75 hasta conseguir el total de la muestra. Ahora solamente quedar escoger un inicio aleatorio de entre los sujetos numerados entre 1 y 75. Por ejemplo se puede escoger como punto 18

inicial aleatorio el valor sujeto 23. De esta forma, la muestra sistemtica quedar compuesta por la siguiente secuencia de sujetos, el primero el sujeto que es el nmero 23 en el listado de la poblacin, y luego de 75 en 75 a partir de l, de forma que el siguiente sujeto ser el 23+75= 98, y el tercero el 98+75= 173, y as sucesivamente.. Existe la posibilidad de escoger el muestreo sistemtico an cuando no se conozca el listado de la poblacin o incluso el tamao de sta. Pongamos un ejemplo. Supongamos que un hospital est interesado en realizar una encuesta a los pacientes de sus distintos servicios, para conocer la satisfaccin de stos con el servicio ofrecido, el trato, etctera. No saben en este ao, en el que quieren hacer la encuesta, cul ser la poblacin total, ni sus nombres, pero saben, por ejemplo que el ao anterior dieron servicio a 10000 pacientes. Desean obtener una muestra de tamao n=500. Aunque verdaderamente no saben si tendrn 10000 pacientes, o ms, o menos, ni tampoco pueden hacer un listado de ellos a priori, pueden, no obstante, realizar un muestreo sistemtico. Escogern, en principio, a:

1 de cada 20 pacientes que pasen por el hospital para tratarse, y lo nico que tienen que hacer es ir a unas tablas de nmeros aleatorios para tomar un nmero al azar de entre 1 y 20, pera empezar el proceso. Supongamos que el primer nmero que aparece es el 3, en ese caso el paciente 3 que entre en el hospital ser el primer sujeto de la muestra, y se seguir la siguiente secuencia hasta satisfacer el tamao muestral necesario.

19

Tema 2. Introduccin de datos y manejo bsico del SPSS

2.1. Introduccin de datos Existen dos grandes opciones: a) Importar datos ya introducidos, desde cualquier otro programa; b) Introducir los datos desde el propio programa SPSS, en cualquiera de sus versiones. En la primera, aunque los formatos y los programas desde donde pueden venir los datos son mltiples, es normalmente el caso que el programa externo es una hoja de clculo, habitualmente EXCEL. La segunda de las opciones es la ms habitual, y probablemente la ms recomendable, ya que a partir del propio SPSS es sencilla la importacin a otros programas, si fuera necesario. A) Datos desde EXCEL. Simplemente considerar que antes de importar los datos a SPSS es conveniente guardarlos en formato SYLK, en las opciones de GUARDAR COMO. Despus en SPSS se pide ABRIR con formato SYLK. B) Desde el propio SPSS. Cuando se introducen los datos desde SPPS hay que considerar varias cuestiones. Primero hay que definir las variables. La forma de definirlas, as como la colocacin de etiquetas, longitud de la variable y nmero de decimales son autoexplicativas. No obstante a tener en cuenta que al abrir SPSS hay que definir todas las variables que se vayan a introducir, y esto se hace en la pestaa VISTA DE VARIABLES, donde hay diversos apartados a rellenar, aunque no todos son verdaderamente importantes, y que pasamos a detallar: Nombre: El nombre de la variable es mejor que sea simple y corto, y muy importante, no admite ni espacios ni empezar con nmeros. Tipo: se define si es numrica o alfanumrica. Aunque hay diversas opciones, para simplificar decir que si se quieren utilizar nmeros la opcin es numrica y cadena si se quiere poner valores alfanumricos. Por ejemplo, si a la variable sexo le queremos dar valores 1 y 2 a sus dos categoras, entonces diramos tipo numrico, pero si se quiere escribir hombre y mujer, entonces diramos alfanumrico. En general lo mejor es numrico. Anchura: Determina el nmero de cifras en variables numricas o el nmero de caracteres en alfanumricas. Decimales: Determina el nmero de decimales que aparecern en los valores numricos. Etiquetas: para nombrar la variable con un nombre largo en lugar del acrnimo corto que hemos elegido antes. Adems de esas etiquetas, se puede colocar etiquetas para cada uno de los valores. Valores: Si, por ejemplo hemos decidido que 1 sea hombre y 2 sea mujer, aqu se puede decir 1 es igual a hombre y 2 igual a mujer y

20

tecleando 1 y 2 luego siempre que se realicen anlisis aparecern los nombres, no los nmeros. Perdidos: Caso de que se quiera poner un valor o rango de valores para los valores que se desconocen. Por ejemplo, un alumno contestando a una escala de autoestima se deja una pregunta. Las opciones que tenemos es dejar un hueco en la base de datos, lo que es una buena opcin, o dar un valor que signifique perdido o no contestado. Por ejemplo, se puede poner el valor 999, o cualquier otro. La nica lgica es poner un valor que no sea posible para esa variable. Si la anterior pregunta de autoestima es una variable que va de 1 a 5, no tienen lgica decir que 5 es perdido, pues todos los sujetos que hayan contestado 5 sern de aqu en adelante perdidos. Columnas: es irrelevante para nuestros intereses. Alineacin: es la posicin dentro de la columna. Bien se colocarn los nmeros o etiquetas de valor a la izquierda, a la derecha o centrados. Medida: Sirve para declarar la escala de medida que presenta la variable. Como opciones tienen escala (lo que engloba las escalas de intervalo y razn de Stevens), ordinal y nominal.

Finalmente, aqu como recomendacin es importante considerar que puede, a la larga, resultar recomendable nombrar todas las variables como cuantitativas, an cuando su escala de medida simplemente alcance las escalas nominal u ordinal. Aunque ello implica que el investigador ha de ser cuidadoso en la eleccin de tcnica estadstica, le deja libre para un mayor nmero de anlisis, cuando lo considere necesario. Existen otras razones para esta eleccin, como por ejemplo que aunque se distinga entre nominales y ordinales, el programa, en segn qu opciones (por ejemplo en grficas) no las distingue, y te impide realizar algunas grficas de inters. Por tanto la recomendacin es catalogar todas las variables como de escala, aunque manteniendo nuestro conocimiento sobre su verdadera escala de medida. 2.2. Datos omitidos En la misma introduccin de datos merece la pena colocar los valores que representarn a los datos omitidos, a los datos perdidos (missing data). Una primera opcin de carcter general es no definir ningn valor perdido, simplemente dejar un hueco en la matriz de datos. Implcitamente esto significa definir el valor perdido como perdido del sistema (SYSMISSING), denominacin que usar internamente desde entonces el programa. Esta es una buena solucin por defecto para las variables numricas, pero si la variable se ha definido como cadena no es vlido porque entonces las plantea como una categora ms. Entonces hay que informar al programa explcitamente (mediante la opcin de valores discretos que veremos luego) de que el faltante es un espacio en blanco. La segunda opcin es definir los valores que queremos para los faltantes, que debe ser un valor (o rango de valores, o varios valores) que no sean valores potenciales de la variable (por ejemplo, se puede definir como faltante el 999 para la edad, pero no el 9, porque es posible que tengamos nios de 9 aos ahora o en el futuro en la muestra). La posibilidad de dar distintos valores perdidos puede ser de utilidad caso de que se quiera

21

distinguir entre tipos de perdidos, por ejemplo perdidos que vienen de una persona que apenas contesta nada de la encuesta, y perdidos ocasionales, que pueden ser despistes. 2.3. Fundir archivos Existe la posibilidad de que el investigador tenga ms de un archivo de datos que se corresponda con las mismas variables o con los mismos sujetos de otra muestra, de forma que quiera juntar dos o ms archivos. La unin de dos o ms archivos es un fundido de archivos. Esta operacin de fundir archivos se realiza dentro del men de DATOS As pues al desplegar el men DATOS de SPSS se buscar la opcin de FUNDIR ARCHIVOS. Es aqu donde se pueden agregar bases de datos para conseguir una base nueva de mayores dimensiones. Existen dos formas de hacerlo: aadir variables, que puede realizarse siempre que las dos bases de datos tengan los mismos sujetos (las mismas filas), en el mismo orden; y aadir casos, que sirve para fundir dos archivos con las mismas variables (mismas columnas) y en el mismo orden. Pongamos un ejemplo del primer caso, de fundir archivos para aadir casos (sujetos). Supongamos que tenemos recogidas cuatro variables de una muestra de pacientes. Llamemos a estas variables v1 a v4. Otro colega tiene otra muestra de pacientes en los que ha medido esas mismas cuatro variables v1 a v4, pero en otros pacientes. Si queremos trabajar con los pacientes de ambos para que la muestra tenga mayor fiabilidad (menos error, ms amplitud), deberamos agregar los casos de un investigador a los del otro. Se trata, pues de aadir casos, ya que las variables son las mismas. Supongamos que el archivo nuestro se llama archivo1.sav y el del otro investigador archivo2.sav. Se procede a abrir archivo1.sav, porque es donde se quiere aadir los casos del otro colega. Tras abrirlo se procede a ir al men DATOS y all a FUNDIR ARCHIVOS, para desplegarlo y escoger aadir casos. Se abre una pantalla donde simplemente hay que abrir el archivo2.sav. Inmediatamente reconocer que las variables son las mismas y al aceptar juntar los casos del segundo archivo en el archivo dos concatenndolos al final. An en el caso de que haya algunas variables desemparejadas, el programa lo detecta las coloca en una ventana que se llama variables desemparejadas y solamente une las variables que s estn emparejadas. Ahora vemos un ejemplo de fundir archivos para agregar variables. Supongamos ahora que nuestro archivo1.sav tiene los datos de 10 de nuestros pacientes medidos en las cuatro variables de antes v1 a v4. Supongamos que les han hecho a esos mismos pacientes (en el mismo orden) otra medicin en otras cuatro variables (v5 a v8). Quisiramos tener todas las variables de esos sujetos en el mismo archivo de datos y no en dos archivos separados. El proceso es muy similar al anterior. Se procede a abrir archivo1.sav, porque es donde se quiere aadir las variables del segundo archivo. Tras abrirlo se procede a ir al men DATOS y all a FUNDIR ARCHIVOS, para desplegarlo y escoger aadir variables. Se abre una pantalla donde simplemente hay que abrir el archivo2.sav. Tras esto el programa abre una ventana donde seala las variables que va a poner en el archivo 1, que sern todas las del archivo 1, esto es de v1 a v4, alas que seala con una asterisco (*) y las del archivo 2, v5 a v8, que las seala con el signo de suma (+). Si en este momento quisiramos no aadir (o eliminar) alguna de las variables podramos simplemente colocarlas en variables excluidas. Tras 22

aceptar se estar en el archivo 1, pero con todas las variables, desde la v1 a la v8. Aunque lo recomendable es tener el mismo nmero de sujetos en ambos archivos, puede ser que tengamos solamente 9 de los 10 en el segundo archivo. En ese caso el sujeto que falta debe ser el ltimo y el resto estar ordenado de la misma forma en los dos archivos, tal y como se ha dicho antes. Al fundir los archivos el sujeto 10, al que le faltan las variables v5 a v8 del segundo archivo, se aadir pero con valores faltantes de sistema en esas variables. 2.4. Seleccin de datos Por otro lado dentro del men datos esta la opcin SELECCIONAR CASOS de tremenda utilidad. Este es un proceso para filtrar los datos, esto es, para analizar solamente una parte de los datos, en funcin de diversos criterios. Los criterios ms importantes son: Satisfacer una condicin, como por ejemplo, seleccionar solamente los casos con gnero = 1 (mujeres u hombres). Muestra aleatoria de casos, que puede usarse como una opcin previa a realizar validaciones cruzadas (replicacin de los resultados), y puede realizarse de forma exacta o aproximada. Rango de los casos, como seleccionar los casos 50 a 100 de una muestra, por ejemplo. Los datos no seleccionados de cualquiera de estas formas, pueden filtrarse, con lo que quedan disponibles en la misma base de datos, y pueden volverse a utilizar cuando se elimine la seleccin, o pueden eliminarse, con lo que la base de datos original quedar reducida solamente a los datos s seleccionados. Veamos algunos ejemplos de ejecucin de estos tres tipos de seleccin. Para realizar estos templos utilizaremos la base de datos ejemplo1.sav. En esta base de datos se han recogido los datos de una muestra de 317 adolescentes. Se han medido una serie de variables que tienen que ver bsicamente con la autoestima que tienen. En concreto se han medido la autoestima mediante 10 preguntas directas que ide Rosenberg para medir la autoestima global, y que se supone que son indicadores de esta alta o baja autoestima. Si se punta bajo en estas preguntas es que se tiene una autoestima baja, si se punta alto que se tiene alta. Estas 10 preguntas (variables) se llaman ros1 a ros10 en la base de datos. Es importante entender que estas 10 preguntas no sirven ms que para, evaluadas conjuntamente, medir mediante un valor para cada sujeto la autoestima global. Esta variable de autoestima global se llama en la base autoestima escala de Rosenberg. Adems la base de datos presenta otra medida de la autoestima, esta vez la propuesta por Marsh. Es otra variable en la base de datos, con ese nombre, autoestima Marsh. Y finalmente la ltima variable es l sexo de lo adolescentes, pudiendo ser hombres (valor 1) o mujeres (valor 2). Los primero que ejemplificaremos ser una seleccin en funcin de una condicin. Por ejemplo, se puede estar interesado en seleccionar solamente a los varones, para estudiar su autoestima por separado. Para ello se acude a DATOS, dentro de este men
La autoestima es la percepcin, positiva o negativa, que tiene un sujeto de s mismo. Se puede medir en global (si se tiene autoestima positiva o negativa en general), pero tambin se puede medir en facetas: autoestima de apariencia fsica (percepcin positiva o negativa que se tiene sobre el propio cuerpo y aspecto fsico); la autoestima social (percepcin positiva o negativa que se tiene sobre la capacidad de relacionarse socialmente con otros), etc.

23

en seleccionar casos. Hacer clic en si se satisface la condicin, y esto abre una ventana donde se pondr sexo=1. La secuencia en forma fotogrfica puede verse en la figura 7 a continuacin. Esto generar una seleccin en los datos, de forma que solamente los hombres (sexo=1) estarn activos, y sern los nicos que se analicen, hasta que se elimine la seleccin. Hay que fijarse en que est seleccionada la opcin filtrar. Si se hubiera elegido la opcin eliminar todas las mujeres desapareceran para siempre de la base de datos.
Figura 7. Procedimiento de seleccin de casos si se cumple una condicin.

Evidentemente en la misma figura 7 se puede ver que las opciones que da son mltiples. Por ejemplo se pueden seleccionar solamente los que tengan menos de 10 en autoestima de la escala de Rosenberg, para lo que simplemente hay que poner en la

24

ltima ventana la orden que la variable autoestima de Rosenberg sea <10. Evidentemente se pueden hacer selecciones mltiples, utilizando, principalmente los y (&) y los o (or). Por ejemplo, si queremos seleccionar los varones que tengan en la pregunta 10 de Rosenberg 3 o ms, pues la orden ser sexo = 1 & ros10 >= 3 como puede verse en la figura 8. O si fuera seleccionar a cualquiera que sea mujer o bien tenga en la pregunta 10, 3 o ms, se har mediante un o (or). Con esta orden sexo = 2 or ros10 >= 3.
Figura 8. Procedimiento de seleccin de casos si se cumple una condicin.

El segundo ejemplo es el de seleccin aleatoria de casos. En ocasiones se puede estar interesado en sacar una submuestra del total de sujetos, por los motivos que sean, por ejemplo porque se desea explorar las relaciones entre variables en esa submuestra, para ver por donde van las tendencias, y despus poner a prueba las conclusiones del primer estudio en el resto de sujetos. O cualesquiera otras razones. Nosotros haremos un ejemplo en el que vamos a seleccionar 100 adolescentes del total de 317 de la base de datos y lo haremos aleatoriamente, al azar. Se va a DATOS y en ese men a seleccionar

25

casos. En la ventana que se abre se hace clic (se selecciona) muestra aleatoria de casos, y se abre el botn muestra, justo debajo. All se dir que se quiere exactamente 100 casos de los primeros 317 (el total). Esto seleccionar solamente a 100 sujetos. Como siempre los sujetos no seleccionados se pueden filtrar (no estn disponibles solamente mientras dure la seleccin) o eliminar (desaparecern de la base). Todo este proceso puede verse en imagen en la figura 9.
Figura 9. Procedimiento de seleccin de casos: muestra aleatoria de casos.

Puede verse tambin, en la figura 9 que otra opcin es escoger un determinado porcentaje de los casos. De esta manera se puede obtener, por ejemplo una muestra que sea el 25% del total, o cualquier otro porcentaje. De la misma manera se puede seleccionar una banda de casos, por ejemplo los adolescentes en la lista desde el 50 hasta el 99, lo que nos dar una muestra (no aleatoria) de 50 sujetos. Para ello, como siempre se va a DATOS y en ese men a seleccionar casos. En la ventana que se abre se hace clic (se selecciona) basndose en el rango de tiempo o de los casos, y se abre el botn rango, justo debajo. All se dir que se quiere de la observacin 50 a la 99.

26

Un ltimo apunte sobre seleccionar. Puede verse en las figura 7 a 9 que hay una opcin para volver la seleccin hacia atrs, esto es para deseleccionar. Solamente hay que hacer clic en seleccionar todos los casos. Evidentemente esto solamente funciona si no se han eliminado previamente los casos de la base de datos. 2.5. Transformaciones de variables La mayor parte de las transformaciones de variables que vamos a ver se realizan en el men TRANSFORMAR, y dentro de ste en la opcin CALCULAR. Las posibilidades de transformaciones de variables mediante el comando calcular son enormes, por lo que simplemente veremos algunos de los ms utilizados. TRANSFORMACIN POR AGREGACIN A menudo, una de las transformaciones habituales en una masa de datos es el agregar de alguna forma los valores de distintas variables, para obtener un compuesto de ciertas caractersticas. Un ejemplo concreto de este agregado es cuando se generan las puntuaciones en una escala (o en una dimensin de una escala) mediante suma de los items que la componen. Este agregado puede hacerse mediante dos formas similares, pero con importantes diferencias: la suma y el promedio. Suma: para sumar hay que ir al men TRANSFORMAR, dentro de l Hay que utilizar la funcin SUM. Evidentemente suma las puntuaciones de los items (o variables) definidas en la funcin. Hay que considerar que si para un caso cualquiera alguna de las variables integradas en la funcin suma tuviera un dato faltante (omitido), el resultado global para ese caso de la suma es faltante. Por lo tanto, es un comando que arrastra los faltantes. Si, por ejemplo, un sujeto ha dejado solamente por contestar un tem de los 20 que forman la escala, su puntuacin suma es un faltante. Esto no ocurre para la funcin promedio (media) que detallamos a continuacin.
CALCULAR.

Promedio: para promediar hay que ir al men TRANSFORMAR, dentro de l CALCULAR. Hay que utilizar la funcin MEAN. Evidentemente promedia las puntuaciones de los items (o variables) definidas en la funcin. No se arrastran los faltantes, con que una de las variables tenga dato vlido ya se obtiene puntuacin para el caso. Por lo tanto, ofrece mayor tamao muestral (da menos faltantes), pero hay que tener cuidado porque puede dar una puntuacin global muy inestable, basada solamente en unos pocos items, incluso un solo tem. Por lo dems ambas funciones, suma y promedio, son transformacin lineal una de la otra, por lo que la mayora de estadsticos (por ejemplo, la correlacin y cualquier tcnica basada en ella) no se ve afectado. Estos procedimientos pueden usarse de forma combinada para crear indicadores complejos donde se recoja informacin compacta p.e. de la manifestacin de una conducta, de su intensidad y duracin, etc.. as como indicadores de salud. La figura 10 muestra un caso de suma de las preguntas 1 a 3 de la escala de autoestima de Rosenberg. La variable, as generada, que se acumular en la base de datos en la ltima columna es AU, el nombre que le hemos dado. A esta variable se le pueden poner los nombres y etiquetas que se quiera, as como sus propiedades, tal y como aprendimos con anterioridad. Destacar que en vez de usar las funcin SUM (de

27

entre las funciones), simplemente se ha sustituido por el signo de suma colocado entre los sumandos (las variables a sumar, ros1, ros2 y ros3).

28

Figura 10. Transformacin de variables: agregacin por suma.

INVERSIN DE ESCALA Cuando se suman o promedian variables es importante concentrarse muy bien en qu se suma. Un error comn es sumar items que van en distintas direcciones, por ejemplo un tem positivo y uno negativo (invertido) de autoestima. El resultado es un desastre. Por lo tanto hay que darle la vuelta a los items invertidos previo a la suma o el promedio. Esto es posible hacerlo tambin en el men transformar. Vamos a ver dos de los ejemplos ms comunes: un tem en formato tipo Likert con valor mnimo cero; el mismo formato tipo Likert, pero empezando en uno. Valor mnimo es 0: En ese caso para realizar una inversin de escala hay que realizar el siguiente clculo en TRANSFORMAR y calcular: La variable nueva (la invertida) es igual al valor mximo de la variable menos la propia variable. Valor mnimo es 1: En ese caso para realizar una inversin de escala hay que realizar el siguiente clculo en TRANSFORMAR y calcular: La variable nueva (la invertida) es igual al valor mximo ms uno de la variable menos la propia variable. No obstante, otro procedimiento ms laborioso, pero ms simple de entender, para realizar esto mismo es la recodificacin de variables, que veremos posteriormente.
Los items o preguntas tipo Likert son las ms comunes en ciencias sociales y consisten en diversos anclajes ordenados de respuesta, como por ejempllo: Totalmente en desacuerdo Desacuerdo Deacuerdo Totalmente deacuerdo.

29

TRANSFORMACIONES DE POTENCIA Al margen de los dos tipos de transformaciones vistos anteriormente, por agregacin e inversin de escala, existen un cierto grupo de transformaciones habituales en anlisis de datos. Una muy habitual es transformar en rangos, transformacin usada en muchas pruebas de estadstica no paramtrica, y que veremos entonces. Siempre es posible realizar transformaciones basadas en la teora, como al agregar las notas de lengua y de matemticas dar el doble de valor a una de ellas, por motivos tericos, pero son tan numerosas, y cambiantes, que se resuelven segn el caso. Finalmente una categora de transformaciones bastante estandarizada, y empleada a menudo, es la transformacin de potencia, presentada claramente, entre otros por Tukey (1977), y cuyo procedimiento, simple e intuitivo se conoce como la escalera de potencias de Tukey. El objetivo de estas transformaciones consiste bsicamente en corregir asimetras en las variables, aunque normalmente tambin pueden mejorar problemas de heterogeneidad de varianza (varianzas muy desproporcionadas entre grupos), etc. La idea es sencilla: se pueden transformar las variables elevando a una potencia, positiva o negativa, cuanto mayor sea la potencia a la que se elevan las puntuaciones originales, mayor el efecto sobre la escala original. Las potencias positivas corrigen la asimetra negativa, las potencias negativas corrigen la asimetra positiva. En el cuadro: Potencia Transformacin RC= raz cuadrada Para ver qu transformacin aplicar, y tambin para evaluar el efecto que sobre la variable ha tenido la transformacin es adecuado estudiar descriptivamente la variable en todo momento: calcular estadsticos descriptivos, realizar histogramas, y muy especialmente en este caso realizar Q-Q plots (grfico de cuantil-cuantil). Todo esto se ver posteriormente. Ejemplo prctico: la variable autoestima que es asimtrica negativa puede funcionar mejor realizando una transformacin de potencia positiva (cuadrado, cubo..), para corregir esta asimetra. Para ello lo nico que hay que hacer es entrar en TRANSFORMAR y de ah en calcular. Como realizar el cuadrado simplemente es multiplicar los valores por ellos mismos pondremos el nombre de la nueva variable que queremos generar, en nuestro caso AUcuadrado, en variable de destino y al otro lado del igual en expresin numrica autoesti*autoesti. El asterisco es el signo de producto en SPSS y puede verse en la figura 10b entre los botones de la calculadora que SPSS proporciona. 3 X3 2 X2 1 X .5 RCX 0 -.5 ... -2 1/X2

logX 1/RCX

30

Figura 10b. Transformacin de variables: cuadrado de una variable.

De la misma forma expuesta se pueden realizar tantas transformaciones matemticas permiten los smbolos de la calculadora y las funciones matemticas listadas al lado derecho de ella. 2.6. Segmentado de archivos La segmentacin divide el archivo de datos en distintos grupos para el anlisis, basndose en los valores de una o ms variables de agrupacin (hasta un mximo de ocho variables de agrupacin). Para realizar la segmentacin hay que ir a DATOS y dar a SEGMENTAR ARCHIVOS. All hay dos opciones: comparar los grupos que definamos por la variable (o variables agrupadoras) y organizar los resultados por grupos. Ambas dan los resultados para los grupos definidos, solamente cambia el formato. En el primer caso todos los resultados por grupos en una misma tabla, en el otro separados en tantas tablas como grupos se definan. Como ejemplo sencillo supongamos que en la base de autoestima de los adolescentes que venimos utilizando (ejemplo 1.sav) queremos que nos de los resultados de todos los anlisis que queramos hacer, pero no para el total de adolescentes, sino para los hombres y las mujeres por separado. Si segmentamos el archivo en funcin de la variable sexo, nos dar los resultados siempre para hombres y mujeres por separado. La imagen de las opciones a utilizar se puede ver en la figura 11. Se trata de entrar en DATOS, y de all seleccionar segmentar archivo. Se abrir la ventana de la figura, y se seleccionar organizar los resultados por grupos, y se pondr sexo en grupos basados en. A destacar, finalmente dos cosas. La primera es que, por defecto del programa (lo que el programa selecciona como programado) es ordenar el archivo en funcin de la variable de agrupacin (sexo). Si no se quiere esta agrupacin, entonces hay que decirle al programa que el archivo ya est ordenado. Adems, hay que darse cuenta que para eliminar el segmentado de archivos, y volver a 31

operar con el archivo total hay que entrar otra vez en la ventana de la figura 11 y dar clic a analizar todos los casos.
Figura 11. Segmentado de archivos.

2.7. Recodificacin de variables Se puede recodificar en las mismas variables o en variables diferentes. El consejo conservador es recodificar en distintas variables siempre, con lo que la variable original queda intacta, y previene fallos. Ms tarde siempre se puede eliminar la variable original (no transformada), si es que la remodificacin ha resultado satisfactoria. As pues veremos algn ejemplo de estas recodificaciones. RECODIFICACIN EN LAS MISMAS VARIABLES Reasigna los valores existentes en la variable, puede ser cambiando valor a valor (valor antiguo cambia a valor nuevo) o por agrupacin en un valor de un rango de valores previos (desde tal a tal valor antiguo ser el valor x nuevo). Se realiza en el men TRANSFORMAR, y dentro de l en Recodificar... en las mismas variables. Veamos un ejemplo. La escala de autoestima de Rosenberg puede oscilar entre un mnimo de 10 puntos y un mximo de 40. El 10 sera una persona con la ms baja autoestima y el 40 una persona con la ms alta autoestima. Supongamos tambin que se sabe que los valores entre 10 y 20 representan baja autoestima, que los valores entre 21 y 29 representan autoestima media y que los valores 30 a 40 representan autoestima alta. Entonces la remodificacin que quisiramos hacer para poder emplear solamente las categoras alta, media y baja, en lugar de todos los valores numricos consistira en recodificar la variable autoestima de Rosenberg, autoesti en la base, en una nueva variable (por ejemplo AUrecodificada) con los siguientes parmetros:

32

Variable original: Autoestima 10-20 12-29 30-40

Variable recodificada: AUrecodificada 1= autoestima baja 2= autoestima media 3= autoestima alta

Para poder realizar esta rectificacin hay que ir a TRANSFORMAR, y luego a recodificar en las mismas variables. Se abre la ventana primera que aparece en la figura 12, que perite decir cul es la variable original, en nuestro caso autoesti. Al ponerla en la ventana central permite poner nombre a la variable de resultado (nuestra nueva variable, AUrecodificada), as como aadir una etiqueta, lo que nosotros no hemos hecho. Tras esto se hace clic en cambiar y pasa a la ventana central. En esta situacin se hace clic a valores antiguos y nuevos, y aparece la ventana de debajo de la figura 12. All ya solamente se trata de en rango poner que de 10 a 20 es un 1, y dar al botn cambiar, que 21 a 29 es un 2 en valor nuevo y dar a cambiar, y finalmente decir que el rango 30 a 40 es el valor nuevo 3, y dar a cambiar. Toda esta secuencia puede verse en la figura 12 a continuacin.
Figura 12. Recodificacin en distinta variable.

Puede verse tambin en esta figura 12 que hay otras opciones, no solo el rango para cambiar valores, por ejemplo la opcin valor, que permite cambios de valor individual 33

en valor individual, o un rango hasta el mayor valor. O dar un valor a todos los dems valores que no se hayan recodificado ya en las ordenes anteriores. En fin, todas las opciones resultan autoexplicativas. RECODIFICACIN EN DISTINTAS VARIABLES Todo igual que la opcin anterior pero guarda los valores nuevos en una nueva variable que generamos al efecto. No obstante, y como ltimo ejemplo, haremos una remodificacin por inversin de escala. Supongamos que la primera pregunta de la escala de Rosenberg (ros1 en la base) es sta a continuacin: Me siento una persona con pocos mritos Resulta evidente que esta pregunta es un indicador de autoestima, pero es un indicador invertido, ya que cuanto ms de acuerdo est con la afirmacin, menos (y no ms) autoestima tengo. As que si las puntuaciones normalmente son: Totalmente en desacuerdo= valor 1 Desacuerdo= valor 2 De acuerdo= valor 3 Totalmente de acuerdo= valor 4 En realidad, para medir autoestima en positivo (no en negativo) querramos que los valores fueran: Totalmente en desacuerdo= valor 4 Desacuerdo= valor 3 De acuerdo= valor 2 Totalmente de acuerdo= valor 1 Es decir, que los valores de ros1 cambiaran as: el 4 se debe hacer 1, el 3 un 2, el 2 un tres y el 1 un 4. Invertir la escala, darle la vuelta. Vamos a ejemplificar cmo hacer esto en la misma variable mediante la recodificacin oportuna. Se entra en TRANSFORMAR, y luego en recodificar en las mismas variables. All se abre la ventana correspondiente, y que puede verse en la parte superior de la figura 13, donde ponemos la variable a recodificar en la ventana de variables numricas y entonces damos al botn valores antiguos y nuevos, con lo que se abre la ventana que se ve debajo. All simplemente es ir poniendo los valores antiguos en qu valor nuevo queremos que se transforme y hacerlo para los cuatro valores, siempre acordndonos de dar a aadir tras cada cambio de valor. Tras esto aceptar y tendremos en la base datos la variable ros1, pero midiendo en el sentido bsico de la autoestima.

34

Figura 13. Recodificacin en misma variable.

35

Tema 3. Tcnicas estadsticas descriptivas bsicas: representaciones grficas y estadsticos descriptivos


Ya hemos visto en el primer tema de conceptos previos, la diferencia entre estadstica descriptiva e inferencial. Lo pasos ms bsicos para describir una masa de datos, con sus variables en formato numrico, y su conjunto de sujetos, consiste en estudiar el comportamiento estadstico de cada variable. Este comportamiento estadstico de cada variable nos sirve para resumir ordenadamente lo que sucede para todos los sujetos seleccionados en cada una de las variables, de forma separada. Nos servira, por ejemplo, para poder contestar a estas preguntas en una muestra cualquiera de la poblacin, en que se hayan recogido las variables a las que se hace referencia, evidentemente: Cuntos casados hay en mi muestra? Cul es la media de hijos que tienen los casados? Y la media de hijos que tienen los que no estn casados? Cunto dinero gastan, como mximo, los solteros en un fin de semana? Al tener un hijo los cambios que declaran tener los padres varones son evaluados ms positiva o ms negativa?

En otras palabras, la estadstica descriptiva nos permitir contestar de diversas maneras sintticas a qu pasa con un cierto nmero de variables en una cierta muestra de sujetos u objetos. Generalmente la descripcin de esos sujetos u objetos que son una muestra o una poblacin de inters se basa en una de estas dos posibilidades: la representacin grfica o el clculo numrico de estadsticos. Estos dos tipos son los que vamos a ver a continuacin. Pero antes de pasar a realizar mediante el programa SPSS todos los anlisis estadsticos pertinentes, hay que repasar, siquiera brevemente, cules son las caractersticas estadsticas que queremos describir. 3.1. Caractersticas estadsticas descriptivas a estudiar Aunque resulte obvio, la primera de las caractersticas estadsticas es conocer para cada variable cuntos casos hay. Saber cuntos sujetos estn en cada modalidad de la variable. Por lo tanto la primera caracterstica relevante de una variable es estudiar sus frecuencias. Por ejemplo, supongamos que se tiene medida la variable sexo en una muestra de 300 trabajadores textiles. Calcular la frecuencia consiste en decir cuntos son varones y cuntos mujeres. Si, por ejemplo, hay 100 varones, entonces la frecuencia de la modalidad varn es 100. Si en otra muestra de 300 trabajadores de una mina hay 295 varones, entonces se puede decir que en la muestra de trabajadores textiles hay menos varones que en la de mineros. Existe las frecuencias absolutas, que no es ms que el conteo en cada modalidad, y las frecuencias relativas, que no es ms que el conteo pero en tantos por uno. En el ejemplo anterior tenemos 100 varones (frecuencia 36

absoluta) que son una frecuencia relativa de 100 de 300 (100/300= 0,333) en frecuencia relativa o 3 de cada 10 o en porcentajes, que todos entendemos ms claramente 30%. Evidentemente cuando las muestras son de tamaos desiguales es de mucho ms inters la frecuencia relativa porque es mucho ms fcilmente entendible y comparable. Evidentemente cualquier variable, sea cualitativa o cuantitativa permite el clculo de las frecuencias relativas y de las absolutas. Por ejemplo, si hubisemos recogido el nmero de hijos de 2000 parejas de la Comunitat Valenciana casadas 10 o ms aos, podramos contar y decir que 400 de ellas no tienen hijos, que 615 tienen 1 hijo, y as sucesivamente. Evidentemente podramos pasarlo a proporciones (frecuencias relativas) y si a partir de estas ltimas multiplicramos por 100 tendramos las proporciones pasadas a porcentajes. Adems de las frecuencias, que son la forma estadstica ms simple e inmediata, existen una cierta cantidad de estadsticos que responden a un conjunto de caractersticas estadsticas de inters. Los tipos de estadsticos que intentan contestar a estas preguntas son estadsticos que tratan de atrapar los siguientes conceptos estadsticos: 1. Posicin 2. Tendencia central 3. Variabilidad 4. Asimetra 5. Curtosis No podemos repasar estos conceptos en profundidad, para lo que existe abundancia de manuales de estadstica. De hecho cualquiera de ellos, por introductorio que sea, los recoge en mayor o menor profundidad. Lo que si podemos es enumerar los principales, las lgicas que tienen y despus pasar a calcularlos en SPSS e interpretarlos de manera aplicada con datos concretos. MEDIDAS DE POSICIN Aquellas que nos revelan el lugar que ocupa una puntuacin con respecto a un grupo tomado como marco de referencia. Son por tanto estadsticos que nos indican posicin relativa. Relativa a un grupo. En genrico se los llama CUANTILES Los cuantiles ms relevantes son los CENTILES o PERCENTILES (Ck). Son los 99 valores de la variable que dividen la distribucin en 100 secciones, cada una conteniendo la centsima parte de las observaciones. Calculables en variables como mnimo semi-cuantitativas. Por ejemplo: C20= puntuacin que deja por debajo suyo al 20% C98= puntuacin que deja por debajo suyo al 98% Evidentemente son relativos, lo que resulta fcil de entender con un ejemplo. Supongamos que somos profesores universitarios y en una muestra de 180 estudiantes (todos los de nuestros grupos) medimos las notas que sacan a final de curso en la asignatura (supongamos estadstica), y que las notas van de 0 a 10. Lo primero que haremos ser sacar la frecuencia de cada una de las notas, podemos sacar luego esta 37

frecuencia en relativo, mediante las frecuencias relativas. Supongamos que para la nota cinco obtenemos estos resultados: Frecuencia absoluta= 10 Frecuencia relativa= 0,055 o en porcentajes 5,5%.

Con esos datos lo nico que resulta evidente es que pocos alumnos han obtenido la nota cinco. Pero sin saber ms informacin, sabemos poco de lo que quiere decir 5 en esa muestra. Sin embargo, si calculamos qu centil es el valor 5 y resulta ser el centil 20 (C20= 5), entonces sabemos que el 20% tiene notas inferiores a 5, y por tanto que el porcentaje de suspensos es del 20% en esos grupos de ese ao. Por relativo en los centiles se entiende que esa nota de cinco puede ser, y de hecho a menudo lo es, otro centil en otra muestra. Si la nota cinco en los grupos del ao anterior era el centil 60 (C60= 5), era que los grupos del ao anterior eran mucho peores en la asignatura, ya que por debajo del cinco, del aprobado, estaban el 60%. MEDIDAS DE TENDENCIA CENTRAL Tipo especial de medidas de posicin, que pretenden representar a, o informar sobre: Cul es aproximadamente la puntuacin (valor de la variable) que ocupa posiciones centrales Cul es la puntuacin tpica, el valor tpico Qu magnitud es la ms genrica Cul es la magnitud que representa mejor a TODO el conjunto de datos

Las medidas de tendencia central sirven, especialmente, para: a) Situar a un grupo mediante un valor genrico, que lo represente. As, por ejemplo si en una asignatura valorada de 0 a 10 decimos que tenemos un grupo cuya nota media ha sido 7.9, sabemos que se trata de un buen grupo, aunque evidentemente algunos sujetos tendrn puntuaciones suspensas. b) Valorar la posicin de un sujeto particular frente al grupo. Por ejemplo si de un sujeto del grupo anterior decimos que tiene un 4, sabemos que est suspendido, pero tambin que esta lejos del grupo entendido como un genrico, esta lejos de lo que un sujeto cualquiera del grupo puede alcanzar. Sin embargo otro sujeto con un 4 de nota en un grupo de nota media 5, est igualmente suspenso, pero ms cercano a su grupo. c) Comparar grupos entre s. Si queremos comparar los grupos de alumnos anteriores y suponiendo que uno tiene 180 sujetos, y el otro 220, mejor que comparar todas las puntuaciones, se calculan las dos medias que hemos visto antes, 7.5 y 5 y es fcil resumir diciendo que el primer grupo est sustancialmente por encima en esa asignatura que el segundo. Que el primer grupo es mejor que el segundo. Las ms clsicas son: Media aritmtica. La suma de todas las puntuaciones partida por el nmero de puntuaciones. La ms utilizada, sin lugar a duda, y en la

38

que se basan la mayor parte de tcnicas estadsticas. Solamente es utilizable en medidas que sean, al menos semi-cuantitativas1. Mediana. Es la puntuacin que deja por debajo de s el 50% de las observaciones. La puntuacin que est en el medio de la ordenacin de las puntuaciones. Divide a la distribucin en 50% y 50%. Solamente tiene sentido si las variables pueden, al menos, ordenarse de menor a mayor. Por tanto, exige medida, al menos, semicuantitativa. Moda. La puntuacin ms frecuente. Puede ser til en el caso de variables cualitativas (nominales).

En general la media es la medida de tendencia central de preferencia. Solamente en pocos casos no es recomendable. En concreto uno es del mximo inters, cuando se presentan datos atpicos. Estos datos afectan fuertemente a la media ya que se basa en todas las observaciones. Supongamos como ejemplo sencillo que tenemos una clase de 10 alumnos de estadstica bsica. Las notas que sacan son las siguientes una vez ordenadas: Notas: 0, 5, 6, 7, 7, 7, 8, 8, 8, 8 Como puede verse fcilmente en este caso, al ser pocas las puntuaciones, el grupo se caracteriza por notas notables, ya que hay 4 valores 8 y tres valores 7 (7 de 10 sujetos, el 70% son notables). Luego hay dos valores cercanos al notable, se van solamente uno y dos puntos respectivamente, mientras que solamente un alumno presenta una nota claramente mala, un cero. La tendencia central podramos concluir al observar estos datos que es de alumnos notables. Sin embargo al calcular la media obtenemos 6.4, ligeramente por debajo del notable, no representando adecuadamente al total de los datos. Esto en estadstica se conoce como falta de resistencia de la media. La media no es un estadstico resistente a los datos extremos. En estos casos particulares de datos atpicos y/o extremos, suele ser aconsejable obtener una medida de tendencia central que sea resistente, como la mediana, o incluso mejor, robusta, como la media recortada, que se obtiene, como veremos fcilmente ms adelante en SPSS. Definir bien el concepto de robustez queda fuera del propsito del texto. Baste decir que un estadstico es robusto si es resistente y adems funciona bien para un rango amplio de distribuciones (de masas de datos). Bien, en este caso la mediana de los datos es 7 (puede verse que ocupa el valor central, dejando 50% por debajo y 50% por encima. Y la media recortada consiste, en breve, en eliminar un cierto porcentaje de las observaciones de los extremos y recalcular la media en los datos que quedan. Por ejemplo, en nuestro caso podramos quitar al 10% de los sujetos superiores y al 10% de los inferiores. El 10% de 10 sujetos es 1 sujeto. Grficamente puede verse en las puntuaciones, sera quitar el cero (mnimo) y el ltimo 8 (mximo): Notas: 0 /, 5, 6, 7, 7, 7, 8, 8, 8, / 8 La media recortada al 10% sera 7, el resultado de calcular la media de los 8 alumnos centrales. En este caso tanto la mediana como la media recortada al 10% nos ofrecen una mejor representacin del grupo, de su tendencia central.

Si se es estricto solo en las cuantitativas

39

MEDIDAS DE VARIABILIDAD Resulta evidente que para representar de forma adecuada a un grupo no solamente basta con la tendencia central. Los sujetos dentro de un grupo pueden ser muy diferentes entre s, o muy parecidos. Esto es, un grupo puede tener mucha o poca variabilidad dentro de sus sujetos. Consideremos los alumnos de tres grupos, a los que se mide en nota de una asignatura tras un examen de 0 a 10. Los tres grupos tienen 10 sujetos. Sus notas a continuacin: Notas: 0, 0, 0, 0, 0, 10, 10, 10, 10, 10 Notas: 0, 0, 0, 5, 5, 5, 5, 10, 10, 10 Notas: 5, 5, 5, 5, 5, 5, 5, 5, 5, 5 Pues bien, los tres grupos presentan la misma media (y mediana y media recortada al 5%). Sin embargo es evidente que los tres grupos son muy diferentes entre s. En lo que difieren es en la variabilidad. Mayor en el primero, luego en el segundo y ninguna variabilidad en el tercero. De hecho la variabilidad del tercer grupo es nula, convirtiendo a la variable nota en ese grupo en una constante. Ni tan siquiera es una variable. As pues la variabilidad: Mide el grado de similitud (homogeneidad) entre un conjunto de puntuaciones Es independiente de la tendencia central El estadstico de variabilidad ms utilizado es la varianza y su raz cuadrada, la desviacin. Esta ultima transformacin tiene mucho uso por ser interpretable en las mismas unidades, en la misma escala de la variable. Oscilan de cero a infinito. Valores mayores indican mayores variabilidades. El clculo en SPSS es sencillo.

MEDIDAS DE ASIMETRA Y CURTOSIS Ligeramente menos importantes para un curso introductorio, pero no por ello irrelevantes son los conceptos de asimetra y el de curtosis que veremos posteriormente. La asimetra sera el grado en que los datos se reparten equilibradamente en torno a la tendencia central. Existe: asimetra positiva, negativa y simetra. La asimetra positiva se caracteriza por una mayor concentracin de puntuaciones en los valores bajos de la escala, y mayor dispersin en los valores altos. La asimetra negativa se caracteriza por una mayor concentracin de puntuaciones en los valores altos de la escala, y mayor dispersin en los valores bajos. (Lo contrario a la positiva) La simetra es un reparto equilibrado alrededor de la tendencia central.

Grficamente puede verse a continuacin, en la siguiente figura (figura 13)

40

Figura 13. Representacin de la asimetra positiva, negativa y la simetra

La curtosis simplemente la enunciaremos, sin entrar en ella ni en su clculo. La curtosis es el grado de apuntamiento de los datos con respecto a una distribucin de referencia, la normal. Aunque no es una cuestin ni de asimetra ni de apuntamiento, queremos hablar, aunque sea unas lneas de los valores atpicos. Ya hemos visto que son valores inusuales, generalmente extremos y aislados. Es necesario identificarlos, lo que puede hacerse grficamente o mediante estadsticos, y resulta sencillo en SPSS. Veremos esta identificacin en lo siguientes puntos. Y es necesario identificarlos, porque como ya hemos visto pueden distorsionar las conclusiones que se obtengan de las variables afectando a la tendencia central, variabilidad y las relaciones entre variables. 3.2. Representaciones grficas Los diagramas o representaciones grficas ms importantes se sitan en SPSS en el men GRAFICOS, y son la mayora, bien entendidos y utilizados, por lo que haremos simplemente algunos ejemplos de entre los tipos de grficos ms habituales, introduciendo, de paso, la lgica del editor de grficos que usa SPSS. Para realizar todos los grficos de esta seccin, as como los estadsticos descriptivos de la seccin de estadsticos descriptivos vamos a emplear el ejemplo2.sav. Por ello, se recomienda al lector que abra este archivo y se familiarice con l. As como que practique con los ejemplos. Esta base de datos incluye las puntuaciones de 195 nios medidos en una serie de variables de inters educativo. El listado de variables, que puede verse en vista de variables de SPSS es el siguiente: 1. Identificacin 2. Tipo de familia 3. Hermanos 4. Grupo 5. Sexo 6. Inteligencia promedio de los padres 7. Educacin promedio de los padres

41

8. Libros en casa 9. Fluidez lectora 10. Nivel de informtica 11. Horas de estudio 12. Rendimiento matemticas 13. Rendimiento lenguaje 14. Sntomas conductuales de ansiedad 15. Sntomas somticos de ansiedad 16. Sntomas cognitivos de ansiedad 17. Motivacin al estudio 18. Razonamiento numrico 19. Razonamiento verbal 20. Razonamiento espacial Algunas de estas variables son cualitativas, otras cuasi-cuantitativas y otras cuantitativas. La mayor parte cuantitativas. En general ya hemos visto que las representaciones grficas, en SPSS, se realizan en el men de grficos. Al desplegarlo se ve la imagen que se muestra en la figura 14.
Figura 14. Men de grficos del SPSS 12

42

Como puede verse en la figura 14, las opciones grficas son mltiples. Nosotros vamos a ver, mediante ejemplos, algunas de la ms utilizadas, y empezando por las ms sencillas para acabar en ms complejas. Conocer cmo son las variables nos ayuda a elegir el tipo de grfico ms adecuado. No obstante, antes de empezar a realizar ejemplos, y siendo que es la primera vez que realizaremos verdaderos anlisis, es necesario que el lector tenga claro que al abrir las diversas ventanas de anlisis o de grficos las opciones de SPSS son mltiples. Nosotros no vamos a agotar las posibilidades de anlisis, por ello solamente hablaremos de lo que es necesario realizar para obtener un anlisis adecuado de nuestros datos, y no del porqu ni para qu del resto de opciones. El primer ejemplo que vamos a realizar es de los ms sencillos. Representar grficamente una variable cualitativa o nominal. En este tipo de variables tenemos una serie de categoras que nosotros hemos ordenado de cierta manera, y a las que les hemos colocado nmeros, pero son meras etiquetas, y el orden podra ser otro. Lo nico que podemos decir de ellas es cuntos sujetos de nuestra muestra estn en cada categora, y se puede decir en frecuencias absolutas, relativas o porcentajes. Los tipos de grficos para este caso simple suelen ser el diagrama de barras (barras en las opciones de la figura 14) y el de sectores (sectores en figura 14). Nosotros vamos a realizarlo para la variable tipo de familia. Para realizar un grfico de barras, se va al men GRFICOS, de ah a barras y aparecer una ventana. Si slo se quiere hacer un grfico de una sola variable la opcin por defecto del programa (lo que ya est seleccionado en esa ventana es correcta, ya que el grfico es simple y los resmenes para grupos de casos, con lo que solamente hay que dar a definir y aparecer la ventana que se ve en la figura 15, a continuacin.
Figura 15. Generando un diagrama de barras simple en SPSS

Y al dar a aceptar el resultado es que SPSS abre una hoja nueva, en blanco, que es donde coloca el resultado del anlisis. Aqu solamente es relevante comentar que se permite poner frecuencias o porcentajes, que los porcentajes pueden ser acumulados o 43

no. La acumulacin de valores se utiliza relativamente poco, por lo que las elecciones son en realidad, dar las frecuencias o los porcentajes. Generalmente usaremos porcentajes. Esta hoja, ahora, tendr el grfico que le hemos pedido, y conforme vayamos haciendo anlisis se irn poniendo en esta hoja, uno detrs de otro. Por supuesto esta hoja (resultados) se puede guardar, etc. como en cualquier otra aplicacin informtica. En cualquier caso, el resultado de la grfica es ste que se ve en la figura 16.
Figura 16. Porcentajes de los distintos tipos de familia en la muestra

Como puede verse, al haber pedido porcentajes son stos los que aparecen en la figura. Por lo dems los grficos son autoexplicativos. Si se desea modificar el grfico para ofrecer otros colores, otros formatos de lneas, o cambiar algunas etiquetas, o poner ttulo, etc, entonces se tiene que pinchar dos veces en el grfico (estando en SPSS) y se abrir un editor de grficos. Dejamos al lector que juegue abriendo el editor de grficos, pero no es el objetivo estadstico. En la figura 17 puede verse la ventana que se abre (editor de grficos) al dar doble clic a la grfica en SPSS.

44

Figura 17. Ventana del editor de grficos de SPSS

Esta misma variable podra haberse representado mediante un grfico de sectores. Todo es igual, salvo que en lugar de ir a barras, se va a sectores, y en la ventana que se abre se tienen que volver a elegir entre resmenes para grupos de casos, la opcin que vamos a ver y que sirve para resumir los valores de una variable, u otras opciones. Al dar al botn definir se abre una nueva ventana que permite elegir entre frecuencias o porcentajes y donde hay que situar la variable que se desea en la grfica en definir sectores por. El resultado es el que se ve en la figura 18. Los porcentajes, manejando el editor de grficos pueden ponerse como etiquetas al lado de cada modalidad que define a cada sector (ver figura 19).

45

Figura 18. Grfico de sectores para la variable tipo de familia

Figura 19. Grfico de sectores para la variable tipo de familia con los porcentajes de respuesta

Para una variable semi-cuantitativa, como puede ser la medicin que se tiene en la base ejemplo 2.sav del nmero de hermanos, tambin suelen utilizarse los diagramas de barras, como puede verse en la figura 20.

46

Figura 20. Diagrama de barras para la variable nmero de hermanos

Sin embargo, las variables cuantitativas, las continuas o simplemente las que tienen un rango amplio de valores posibles, suelen tratarse grficamente mediante histogramas. Estos histogramas se realizan tambin en grficos, pero se tiene que ir a histogramas. All se abre la siguiente ventana, donde si simplemente se quiere el histograma de una variable, como por ejemplo el rendimiento en matemticas, tan solo se debe situar esta variable en la ventana de variable, y aceptar. Esta ventana se presenta en la figura 21.
Figura 21. Ventana para pedir un histograma en SPSS

47

El resultado de uno de estos histogramas es el que se presenta a continuacin. Puede verse que los valores de rendimiento oscilan entre un mnimo de 1 y un mximo de cinco, y que el SPSS ofrece, adems, la media y la desviacin tpica.
Figura 22. Histograma del rendimiento en matemticas.

Hasta aqu los tres tipos de grficos bsicos. Aunque los grficos de lneas son tambin muy comunes, en realidad son muy similares a los ya expuestos, y no los tocaremos. Estos tres grficos permiten, no obstante una gran variedad una vez se coge soltura en su edicin. Sobre todo muy til es aprender a realizar estos tres grficos, pero divididos en funcin otra variable con el propsito de comparar grupos. Veamos unos ejemplos. Supongamos que se desea ver el rendimiento en matemticas, pero en vez de en el global de la muestra, en funcin de en qu tipo de familia viva el nio. Para ello, simplemente, hay que poner (ver figura 21 nuevamente) la variable tipo de familia en la ventana filas. El resultado sera el que se ve en la figura 23. En ella puede compararse rpidamente el rendimiento de los distintos grupos de alumnos. De vistazo se ve que el rendimiento es superior en los que viven con los dos padres solamente, y probablemente el ms bajo el de los que viven con los abuelos.

48

Figura 23. Histograma del rendimiento en matemticas en funcin del tipo de familia.

Supongamos ahora que queremos saber si la variable grupo (normal y con clases extras en el colegio) presenta una distribucin distinta de hombres y mujeres. Para contestar a esto es realizar lo mismo que antes, pero al ser dos variables cualitativas se hace con diagrama de barras. As se trata de graficar una variable en funcin de otra, pero mediante diagrama de barras, y se realiza en GRFICOS, eligiendo barras, y aparecer la ventana de la izquierda de la figura 24. All se escoge agrupado, y resmenes para distintas variables. Entonces aparecer la ventana de la derecha en la figura 24, y solo se trata de colocar grupo en el eje de categoras y sexo en definir grupos por.

49

Figura 24. Ventanas para pedir un diagrama de barras en funcin de otra variable

El resultado de la seleccin grfica anterior en SPSS es la grfica que se muestra en la figura 25. Puede verse que mientras entre los alumnos con clases extra son ms numerosas las mujeres, el contrario ocurre en el grupo normal (sin clases extras). Las mujeres acuden ms a clases extras.
Figura 25. Diagrama de barras de grupo dividido en funcin del sexo.

50

Al margen de estas grficas, digamos sencillas, ya que simplemente tratan de ofrecer las frecuencias y/o porcentajes de una variable o a lo sumo de una variable en funcin de una serie de grupos, SPSS hace una serie de grficas con propsitos menos generales, ms especficos. Algunas de las ms importantes para el trabajo aplicado las vamos a tratar, brevemente a continuacin. Para el cumplimiento de los supuestos de algunas tcnicas estadsticas es fundamental evaluar el grado de alejamiento de la normalidad, la falta de simetra y la presencia de datos atpicos. Un primer paso en este sentido es estudiar las variables de forma descriptiva, y concretamente mediante graficas y mediante el clculo de estadsticos. Una primera aproximacin es pedir el histograma de una variable, tal y como hemos hecho anteriormente, pero con una representacin de la distribucin normal superpuesta, de forma que permite ver alejamientos de sta. Para pedir un histograma se debe ir al men GRFICOS, dentro de la opcin HISTOGRAMA, y all situar la variable sobre la que se quiere el histograma y la opcin de ver curva normal (consultar figura 21). El resultado de un histograma para un par de variables es como el de las grficas a continuacin (figura 26). La primera de las grficas muestra la asimetra negativa de una variable, mientras que la segunda de las grficas presenta una extrema asimetra positiva. Estos ejemplos no son de las bases de datos que hemos manejado. El lector puede realizar sus propios ejemplos con ellas.
Figura 26. Histogramas con curva normal superpuesta.

Para estudiar las caractersticas de una distribucin en cuanto a su aproximacin a la normal es, no obstante mejor, especialmente en tamaos muestrales no muy grandes, acudir a diagramas de cuantiles. Hay dos posibilidades, los grficos P-P (percentilpercentil) y los grficos Q-Q (cuantil-cuantil). Se diferencian en que los primeros utilizan las proporciones acumuladas, y los segundos los valores. Estos ltimos son quiz ms fciles, por tanto, de interpretar. Los grficos Q-Q se piden en el men GRFICOS y en la opcin Q-Q. Las opciones por defecto que ofrece SPSS son buenos, simplemente hay que decir de qu variables queremos los grficos. Los resultados para las dos variables anteriores se pueden ver a continuacin. 51

Figura 27. Grficos de cuantiles.

Por ltimo repasaremos un tipo de grficos que resulta til para revisar la simetra, pero especialmente para sealar la presencia de valores atpicos (outliers). Los diagramas de caja y bigotes, desarrollados por Tukey desde el anlisis exploratorio de datos, se pueden pedir en SPSS en el men GRFICOS, y dentro de la opcin DIAGRAMAS DE CAJA. Existen dos opciones, una vez pedidos, el defecto es el adecuado, pidiendo diagramas simples. De todas formas, an pidiendo simple existen dos opciones a elegir. Por un lado se puede optar por resmenes para distintas variables, lo que nos da para cada variable que seleccionemos un diagrama de cajas, o la opcin de resmenes para grupos de casos, que sirve para que se ofrezca un diagrama de caja y bigotes por subgrupos definidos en base a una tercera variable. Veamos un ejemplo de cada opcin. Supongamos que queremos un diagrama de caja y bigotes para una variable, iramos a diagrama de caja y seleccionaramos la opcin resmenes para distintas variables, pincharamos en definir y seleccionaramos la variable en cuestin. El resultado vendra en un formato como en el de la grfica a continuacin (figura 28). La interpretacin del diagrama de caja y bigotes es simple. La raya negra central muestra la mediana de la variable. Mientras que arriba y debajo de ella hay un rectngulo en rojo (caja) que va hasta los valores del cuartil 1 y cuartil 3. Si la distancia entre la mediana y los cuartiles fuera idntica sera muestra de simetra en la distribucin. Por su parte las lneas que se extienden hasta un lmite superior e inferior que seala los lmites de las observaciones tpicas (no outliers). A partir de stos lmites aparecen los valores atpicos, si los hay. Estos valores se muestran con su valor de caso. Por su parte, si se opta por los resmenes para grupos de casos, entonces el diagrama es exactamente igual pero hay varias, una para cada subgrupo. A continuacin puede verse un ejemplo donde la variable agrupadora es el sexo, hombre, mujer y omitido, y cada uno de estos grupos tiene su diagrama correspondiente (ver figura 29).

52

Figura 28. Diagrama de caja y bigotes.

Figura 29. Diagrama de caja y bigotes por grupos.

53

3.3. Estadsticos descriptivos Los estadsticos descriptivos son bien conocidos, y fciles de obtener. Normalmente se reduce a obtener una distribucin de frecuencias, especialmente til en el caso de variables cualitativas, y el estudio de la tendencia central, variabilidad, asimetra y curtosis. Todos estos estadsticos descriptivos se obtienen del men ANALIZAR, y dentro de la opcin ESTADSTICOS DESCRIPTIVOS. La siguiente figura muestra estos mens:
Figura 30. Opciones de obtencin de estadsticos descriptivos en SPSS.

La opcin de estadsticos descriptivos presenta, a su vez, diversas posibilidades (ver figura 30), de las que nos interesan las de frecuencias, descriptivos y explorar. La primera de ellas la de frecuencias. En frecuencias se obtiene las tablas de frecuencia (distribuciones de frecuencia) en que se da la frecuencia y porcentaje de cada uno de los valores de la variable en la muestra bajo estudio. Se pueden pedir en estadsticos de esa misma ventana las medidas ms utilizadas de tendencia central, variabilidad, asimetra, curtosis, y los percentiles que deseemos. Esto ltimo, los percentiles, son de extraordinaria importancia en la descripcin de grupos normativos de cuestionarios y escalas, por ejemplo. Tambin pinchando en la opcin grficos pueden obtenerse diagramas de barras e histogramas (con curva normal), como los que hemos analizado ya en la seccin anterior. La figura 31 muestra estas opciones (salvo la de grficos que es muy redundante con lo que ya se plante en el punto anterior). Por ejemplo, en el caso que se muestra en la figura 31, se est trabajando con la base de datos ejemplo 2.sav. Aqu puede verse que se ha abierto la ventana de frecuencias, donde est sealado mostrar tabla de frecuencia (ventana superior), lo que quiere decir que el paquete estadstico nos va a ofrecer frecuencias y porcentajes de las variables seleccionadas, en nuestro caso: hermanos, inteligencia promedio de los padres, fluidez lectora y sexo. Adems se ha pinchado en el botn estadsticos, por lo que aparece la ventana inferior, del mismo

54

ttulo. Aqu pueden pedirse casi todos los estadsticos que hemos visto hasta ahora, y los calcular de todas las variables seleccionadas, en nuestro caso cuatro. Puede verse cmo se ha pedido: media, mediana y moda los percentiles 25 y 75 la asimetra y curtosis desviacin tpica mnimo y mximo.

Resulta evidente que algunas de las variables, por ejemplo sexo por ser cualitativa, no son susceptibles de hacer algunos de estos clculos, como la media y mediana o la desviacin tpica, la asimetra y curtosis y los percentiles. Pero es labor del investigador elegir los estadsticos que son tiles en funcin de la naturaleza de las variables, como hemos visto, y descartar aqullos que, por el contrario, no ofrecen informacin vlida.
Figura 31. Ventanas de frecuencias en SPSS.

Al pedir estos anlisis se obtiene, lo primero, una tabla con los estadsticos descriptivos que se han seleccionado anteriormente para todas las variables, tal y como se muestra en la tabla a continuacin (tabla 1).

55

Tabla 1. Estadsticos descriptivos para cuatro variables de la base ejemplo 2.sav.

Adems al pedir las tablas de frecuencias de todas las variables (como se ve en la figura 31, el SPSS ofrece una tabla de frecuencias con porcentajes para cada una de las variables seleccionadas. En el output (resultado) de SPSS aparecern cuatro tablas de frecuencias, una por cada variable. Solamente vamos a poner una tabla aqu, la de sexo, que ha resultado absolutamente necesaria por ser una variable cualitativa. El resto de variables siguen la misma lgica, ya que simplemente es presentar los valores que han ocurrido de la variable, su frecuencia y su porcentaje. A sealar que existe el porcentaje vlido, porque al poder haber valores faltantes (missing), pueden no coincidir los porcentajes de verdad y el porcentaje sobre los que realmente contestan. Adems se ofrece el porcentaje acumulado (ver tabla 2).
Tabla 2. Tabla de frecuencias de sexo.

Otra de las opciones dentro de ANALIZAR.... ESTADSTICOS DESCRIPTIVOS es la de descriptivos. Ofrece los mismos estadsticos que la opcin anterior de frecuencias, por lo que tpicamente lo pediremos junto a la tabla de frecuencias anterior. No obstante, si solamente se quieren los estadsticos descriptivos bsicos, entonces

56

descriptivos es una opcin. Simplemente se abre la ventana donde se seleccionan las variables a analizar y dando a opciones se escogen los estadsticos que se deseen. Como ejemplo se han calculado los descriptivos de fluidez lectora (ver tabla 3), para que se vea que los clculos son los mismos que los presentados para esta variable en la tabla 1.
Tabla 3. Descriptivos de fluidez lectora.

Ms interesante puede resultar la opcin de explorar, en el mismo men y submen, que integra algunos de los aspectos de diagnstico que hemos estado viendo hasta ahora, tanto a nivel grfico, como de estadsticos descriptivos. Por lo tanto es una opcin interesante para pedir de forma integrada alguno de los aspectos ya considerados por separado. La opcin de explorar abre una ventana en la que se debe colocar las variables de las que queramos estadsticos descriptivos y grficos en la ventana de dependientes. Ofrece la posibilidad de determinar factores, que seran variables agrupadoras. Es decir, variables que generan subgrupos sobre los que se calcular, por separado, los estadsticos y grficas que deseemos. As, por ejemplo, si ponemos la edad como dependiente y variable gnero como factor, nos realizar estadsticos descriptivos y grficas por separado para hombres y mujeres. Dentro de la ventana de explorar hay, por tanto, dos botones de inters, uno de estadsticos y otro de grficos. En la opcin de estadsticos por defecto da los descriptivos ms habituales, pero adems ofrece estimadores robustos de tendencia central, valores atpicos y los percentiles ms utilizados. En la opcin de grficos permite calcular los diagramas de caja y bigotes presentados con anterioridad, diagramas de tallo y hojas e histogramas con curva normal. Adems ofrece en la opcin de grficos con prueba de normalidad los Q-Q plots presentados anteriormente junto a una prueba de normalidad (Kolmogorov-Smirnov con correccin de Lilliefors). La figura 31 a continuacin permite ver las principales ventanas que se abrirn al hacer clic en las opciones de explorar:

57

Figura 31. Ventanas del submen explorar de SPSS.

Como se ve, la opcin explorar ofrece una forma rpida de pedir los principales estadsticos descriptivos y las representaciones grficas de forma unitaria, sin necesidad de acudir a mens diferentes. Supongamos, por ejemplo, que se desea, como se ve en la figura 31, obtener los estadsticos descriptivos para la variable razonamiento numrico en funcin del sexo, esto es, para hombres y mujeres. Entonces se coloca en dependientes el razonamiento numrico, y en factores sexo. Al hacer clic en estadsticos se abre la ventana de abajo a la izquierda, donde descriptivos es el defecto, y da los resultados habituales, y si se quiere adems los percentiles hay que seleccionarlo. Si se hace clic en el botn de grficos, se puede pedir un diagrama de tallo y hojas (que no veremos), un histograma (similar a los ya utilizados, y que tampoco veremos), el diagrama de caja y bigotes y los grficos con pruebas de normalidad que tambin veremos. Entre los resultados que se ofrecen, rescataremos los ms interesantes. La primera tabla (tabla 4) ofrece los principales estadsticos descriptivos. Aqu no entraremos, pues son conocidos, simplemente sealar que divide en los dos grupos, en hombres y en mujeres. Otra cosa a sealar es que en explorar es el nico sitio donde se puede calcular medidas robustas. En concreto nosotros hemos pedido la media recortada, que por defecto la da recortada al 5%, lo que puede ser muy razonable para la mayor parte de situaciones.

58

Tabla 4. Descriptivos de razonamiento numrico en funcin del sexo.

La siguiente tabla, la tabla 5 ofrece los percentiles, ya que fue una de las opciones que seleccionamos con anterioridad, pero nuevamente hay que destacar que los da para hombres y para mujeres por separado. Tambin sealar que en la misma tabla 5, pero debajo se ofrecen las pruebas de normalidad que se pidieron, si bien aunque las mostramos aqu, dado el carcter introductorio del texto no las vamos a interpretar, sino que dejaremos esto para ms adelante, cuando se haya avanzado en temas posteriores.

59

Tabla 5. Percentiles de razonamiento numrico en funcin del sexo.

Para finalizar simplemente mostrar las figuras 32 y 33, que muestra, respectivamente los histogramas de razonamiento numrico y los grficos Q-Q. Todos estos tipos de grficos ya los hemos visto, de forma que simplemente es mostrarlos. Una vez ms incidir en que se presentan por separado para hombres y para mujeres, y esta opcin nos permite comparar visualmente de forma muy sencilla en el primer caso, el de los histogramas, lo que ocurre en la variable con los hombres por comparacin a las mujeres. En el caso de los grficos Q-Q es exactamente lo mismo, nos permite la comparacin visual rpida de hombres y mujeres con respecto a alejamientos de la normalidad. Nos permite ver si se cumple o incumple la normalidad de la misma forma o distinta en hombres que en mujeres.

60

Figura 32. Histogramas de razonamiento numrico para hombres y mujeres.

61

Figura 33. Grficos Q-Q de razonamiento numrico para hombres y mujeres.

62

Tema 4. Relaciones bivariadas


Entre las tcnicas estadsticas bsicas ocupan un lugar predominante las que permiten estudiar las relaciones entre dos variables. Existen diversos tipos de tcnicas, con fundamentos, exigencias e interpretaciones diferentes, en funcin de las caractersticas de las variables cuya relacin se quiere estudiar. Para simplificar, y aunque evidentemente no se agotan las tcnicas estadsticas con las que veremos aqu, si veremos las ms utilizadas en ciencias sociales, humanidades y salud. Podemos verlo en forma de toma de decisiones de la siguiente manera, en funcin de cmo sean las variables, de su naturaleza. Cuando las dos variable a relacionar son categricas la tcnica estadstica pasa por tablas de chi-cuadrado y los estadsticos relacionados. Cuando una de las variables es categrica y la otra cuantitativa (mnimo cuasicuantitativa con un nmero razonablemente alto de niveles) las tcnicas estadsticas pueden ser las pruebas t o el anlisis de varianza, en funcin de: o Si la variable categrica tiene dos categoras se aplicaran pruebas t (o el equivalente no paramtrico) o Si la variable categrica tiene tres o ms categoras se aplicaran anlisis de varianza (o el equivalente no paramtrico) Cuando ambas variables son cuantitativas o al menos cuasi-cuantitativas las tcnicas estadsticas, en principio, son la correlacin y la regresin

4.1. Relaciones entre variables categricas El primer caso que nos podemos encontrar es el de querer estudiar la relacin entre variables categricas como, por ejemplo, el sexo y la eleccin de carrera universitaria. El procedimiento habitual es realizar una tabla de contingencia donde se calcula una prueba de chi-cuadrado (o una razn de verosimilitud) de independencia entre las variables, junto con el clculo de alguna medida de la cuanta de la asociacin, si existe. Estos dos clculos pueden realizarse en el men ANLISIS, dentro de la opcin de ESTADSTICOS DESCRIPTIVOS, al seleccionar tablas de contingencia. Una vez seleccionada la opcin de tablas de contingencia se abre una ventana, donde simplemente hay que colocar una de las variables categricas en filas, y la otra en columnas (en principio, para estudiar la relacin es indiferente cul se ponga en cada sitio). Est la opcin de definir capas, que es simplemente colocar una o ms variables categricas en esta sub-ventana para que realice el anlisis de las dos variables

63

categricas de inters, pero en funcin de los subgrupos de la variable categrica que defina las capas. La figura 34 muestra un ejemplo de seleccin de variables en SPSS para realizar la prueba de chi-cuadrado. En este caso es para ver la relacin entre sexo y grupo del ejemplo 2.sav. Luego volveremos sobre este mismo ejemplo.
Figura 34. Ventanas para pedir una prueba de chi-cuadrado en SPSS.

Adems de la definicin de las filas y columnas de la tabla, las opciones relevantes que hay que dar estn en los botones de estadsticos y de casillas. En la opcin de estadsticos las mejores opciones son el clculo del coeficiente phi para tablas

64

de 2x2, y el clculo de la V de Cramer para el caso de tablas de I x J. Una tabla 2x2 es aqulla que viene de cruzar (relacionar) dos variables categricas que tienen, las dos, dos categoras. Por ejemplo si se cruza el sexo (hombre/mujer) con aprobar una asignatura (aprueba/suspende). Una tabla de IxJ es aqulla que viene de relacionar dos variables categricas que no tienen alguna de ellas dos opciones, sino ms. Por ejemplo, si una tienen 3 categoras y la otra 4 categoras, sera una tabla 3x4. En la opcin de casillas resulta conveniente para la interpretacin posterior pedir los porcentajes, bien por filas, bien por columnas. A continuacin aparecen los resultados de un ejemplo de cruce de variables categricas. En este caso es en la base de datos ejemplo 2.sav. Queremos saber si existe alguna relacin entre el sexo y el grupo (ir a clases extras, frente a no ir o grupo catalogado como normal). Esto es, queremos saber si existen mayores probabilidades de ir a clases extra por el hecho de ser hombre o ser mujer. En la siguiente tabla (tabla 6) aparecen las frecuencias y, adems, en este caso hemos pedido los porcentajes por filas. Ello nos permite ver que el patrn de grupo vara de forma porcentual en funcin del sexo (hombre o mujer) de que se trate. As, por ejemplo, podemos fijarnos en que de los hombres el 31.4% dan clases extra. Por el contrario de las mujeres es el 55.3%, un porcentaje superior, el que da clases extra.
Tabla 6. Tabla de contingencia de sexo x grupo con porcentajes por filas.

Ahora bien, esta tabla puede interpretarse de forma cualitativa de manera inadecuada al tratar como estadsticamente significativas diferencias porcentuales que pueden ser debidas al azar. Para eliminar este error se hace necesario realizar alguna prueba estadstica que permita saber si la asociacin entre las variables es estadsticamente significativa. El estadstico (prueba) ms utilizado es el de chicuadrado que contrasta la hiptesis de que las variables de fila y columna son independientes. No debe utilizarse si cualquiera de las casillas tiene un valor observado menor que 1, o si ms de un 20% de las casillas tienen valores esperados menores que 5. En cualquier caso, el propio SPSS avisa si ocurre cualquiera de estos problemas. Hay dos pruebas, en realidad, disponibles, la de chi-cuadrado y la razn de verosimilitud, pero los resultados de ambas convergen a medida que aumenta la muestra. No obstante, en muestras pequeas funciona mejor la razn de verosimilitud. En el caso de la prueba aplicada puede verse que la prueba de chi-cuadrado tiene un valor de significacin asinttica bilateral de 0.001. Cualquier valor de significacin que est por debajo de 0.05 (p< 0.05) es, en general, indicativo de que existe una relacin estadsticamente significativa. As pues, en este caso la prueba de chi-cuadrado indica que parece haber

65

una relacin entre ambas variables, que como hemos visto hace que sea ms probable dar clases extra si se es mujer que si se es hombre.
Tabla 7. Prueba de chi-cuadrado aplicada a la tabla de contingencia de la tabla 6.

Finalmente, y an cuando la prueba de chi-cuadrado ha resultado estadsticamente significativa, mostrando por tanto una asociacin, resulta conveniente tener una medida de la fuerza de esa asociacin. La siguiente tabla de resultados ofrece tanto el coeficiente phi, como la V de Cramer. En este caso el ms adecuado sera la phi, dado que la tabla es 2x2. En cualquier caso para tablas de 2x2 ambas medidas siempre coinciden. Son coeficientes que oscilan entre 0 y 1, indicando el cero ninguna relacin y el 1 relacin perfecta. En este caso la asociacin es moderada, pues vale 0.23.
Tabla 8. Medidas de cuanta de la relacin.

4.2. Pruebas t y Anlisis de la Varianza (ANOVA) Ya hemos visto que cuando una de las variables es categrica y la otra cuantitativa (mnimo cuasi-cuantitativa con un nmero razonablemente alto de niveles) las tcnicas estadsticas pueden ser las pruebas t o el anlisis de varianza, en funcin de: si la variable categrica tiene dos categoras que se aplicaran pruebas t (o el equivalente no paramtrico); o si la variable categrica tiene tres o ms categoras que se aplicaran anlisis de varianza (o el equivalente no paramtrico). Ahora vamos a ver estos dos tipos de tcnicas, pruebas t y anlisis de varianza.

66

PRUEBAS T La prueba t permite comparar dos medias muestrales. Por lo tanto est indicada cuando se quiere estudiar si una variable categrica con dos niveles guarda relacin con una variable cuantitativa (o al menos cuasi-cuantitativa). Existen dos tipos de pruebas t principales, aquellas para grupos independientes, para muestras independientes, y aquellas para muestras, grupos, dependientes. El primero de los casos respondera al genrico de dos grupos de sujetos diferentes, como la comparacin de las medias de hombres y mujeres en un variable cualquiera. El segundo caso, muestra dependientes, respondera al genrico de los mismos sujetos medidos en dos ocasiones o en dos aspectos diferentes, parar saber si las medias son iguales o diferentes. Por ejemplo la media antes y despus de una intervencin teraputica. Todas las pruebas t anteriormente descritas, se realizan en el men ANALIZAR dentro del submen COMPARAR MEDIAS. Dentro de este submen existe diversas opciones de pruebas t, adems de las opciones de medias y ANOVA de un factor. Las tres opciones de pruebas t son: la de comparacin con un valor poblacional (o prueba de una muestra), y las de comparacin de dos muestras, siendo estas independientes o dependientes, que suelen ser las de nuestro inters (ver figura 35).
Figura 35. Opciones de pruebas t para comparar medias en SPSS.

La prueba t de comparacin de dos muestras independientes suele denominarse tambin prueba t de Student. Si se opta por esta opcin aparece una ventana de dilogo en que simplemente debemos colocar la variable (o variables) de la que queremos conocer si existen diferencias de medias en la ventana de variable a analizar y la variable que genera los grupos, aquella que define qu sujetos pertenecen a una muestra, y cules a la otra, en la ventana de variable agrupadora.

67

Figura 35. Pruebas t de muestras independientes, comparacin de dos grupos.

Esta prueba t alberga en realidad dos pruebas diferentes, una para el caso de varianzas homogneas, otra para el caso de varianzas heterogneas. La prueba para el caso de heterogeneidad de varianzas es la correccin de Welch-Satterwhite para el problema de Behrens-Fisher. Puede saberse si las varianzas son homogneas o no mediante la prueba de Levene, tambin ofrecida por la salida del ordenador. No obstante el supuesto de homogeneidad de varianza es relativamente poco importante si los grupos presentan tamaos de muestra similares. Si stos difieren bastante (diversos autores -ver Stevens, 1999- hablan de razones de 1.5), entonces en ese caso conviene contrastar la igualdad de varianzas y aplicar la prueba ms adecuada. (No obstante parece que la prueba de varianzas iguales funciona bastante bien con tal de que las varianzas no superen la razn 3 a 1). A continuacin aparece el ejemplo anterior de contraste de las medias de razonamiento verbal de hombres y mujeres. El ordenador ofrece en primer lugar los descriptivos (media y varianza) de cada grupo, y a continuacin las pruebas de varianza y de medias, propiamente dichas.
Tabla 9. Resultados de la prueba t de muestras independientes.

Como puede verse en la tabla 9 las varianzas son homogneas, ya que la prueba de Levene no es estadsticamente significativa (p> 0.05), luego no hay diferencias entre las 68

varianzas de ambos grupos. Por tanto, conviene utilizar la prueba que asume varianzas iguales. No obstante hay que darse cuenta de que ambas pruebas ofrecen la misma conclusin (para el 5% y el 1%), desigualdad de medias. Puede verse que el valor de la t para varianza iguales (en la fila de la tabla nombrada se han asumido varianzas iguales) es de -0.147. Esto lleva aparejado un valor de significacin bilateral (sig. bilateral en la tabla) o valor de p de 0.883, lo que es p>0.05, y es indicativo de que no hay diferencias estadsticamente significativas entre las medias de razonamiento verbal de hombres y mujeres. O lo que es lo mismo, no hay evidencia de relacin entre el sexo y el razonamiento verbal en la poblacin de la que se extrajo la muestra. Una cuestin importante que aparece en este mismo ejemplo de forma clara es la de la significacin estadstica de los efectos. En este caso es evidente que las dos pruebas ofrecen resultados estadsticamente significativos. Sin embargo resulta siempre interesante un clculo del tamao del efecto que nos pudiera ofrecer no solo una medida de diferencias, sino de cuanta de las diferencias, lo que finalmente puede devenir en una evaluacin ms prctica. Una de las medidas ms empleadas del tamao del efecto, fcil de calcular a partir de los resultados de SPSS, es la propuesta por Hedges: y donde Esta no es ms que una diferencia entre medias estandarizada, y Cohen, uno de los principales tericos sobre la potencia y el tamao del efecto, propone como guas para su evaluacin que un valor de 0.2 se considere un efecto bajo, 0.5 medio y 0.8 alto. De la misma manera puede operarse en muestras dependientes o relacionadas. En este caso queremos comprobar si existen diferencias entre las medias de razonamiento verbal y numrico. Como todos los alumnos se han medido en ambas medidas (y adems tienen la misma escala y son por tanto comparables) tenemos muestras dependientes o relacionadas, porque los sujetos de ambas medidas son los mismos, y estn pues relacionados. Se operara pidiendo en COMPARAR MEDIAS la prueba t de muestras relacionadas. All se sita el par de variables a comparar. La siguiente figura ofrece la ventana donde se pide la prueba t para muestras relacionadas.
Figura 36. Pruebas t de muestras independientes, comparacin de dos grupos.

Los resultados relevantes de SPSS se muestran en la tabla 10 a continuacin. Lo relevante es saber si, acorde al valor de la prueba estadstica, que en este caso es un valor t de -0.897, puede decirse que existen diferencias entre los promedios de

69

razonamiento verbal y numrico. Al observar el valor de significacin podemos ver que no es el caso, ya que la significacin (o valor de p) es 0.371, lo que implica que no existen diferencias entre ambos promedios, ya que p< 0.05.
Tabla 10. Resultados de la prueba t de muestras dependientes.

Puede verse cmo la tabla 10 no ofrece diferencias estadsticamente significativas. Las cuestiones de tamao del efecto que ya comentamos en el caso de muestras independientes tienen aqu la misma importancia. En cualquier caso para el clculo de la d (diferencia entre medias), la desviacin tpica del denominador ya est calculada en la tabla que adjuntamos, lo que evita un clculo tedioso.

ANLISIS DE VARIANZA (ANOVA) Si en lugar de querer comparar las medias de dos grupos se desean contrastar las diferencias de tres o ms grupos, la prueba F de anlisis de varianza (ANOVA) resulta, en principio, la adecuada. La prueba de ANOVA es muy verstil, ya que permite analizar, compara, medias de diversos diseos y/o tipos de variables simultneamente. Los diseos de mayor simplicidad son el ANOVA unifactorial entre-sujetos (el caso de tres o ms grupos independientes) y el intra-sujetos o de medidas repetidas (tres o ms grupos dependientes o relacionados). Veamos un ejemplo de cada uno de ellos. ANOVA de un factor entre-sujetos Cuando hay un factor o variable independiente que agrupa a los sujetos en grupos o muestras independientes, y queremos saber si existen diferencias entre las medias de esos grupos en una variable cuantitativa (variable dependiente) podemos emplear el ANOVA simple o unifactorial. Pongamos por caso que queremos saber si el tipo de familia en que vive el alumno afecta a su rendimiento en matemticas (siempre utilizando la base ejemplo 2.sav). Los cinco tipos de familia, por tanto, actuaran como variable independiente, factor o agrupadora, mientras que la variable dependiente sera el razonamiento numrico. El anlisis empezara en el men ANALIZAR, y dentro de l en el submen COMPARAR MEDIAS, eligiendo la opcin ANOVA de un factor. All sealaramos al ordenador que la variable dependiente es razonamiento numrico y que el factor es el tipo de familia. De entre las opciones que resulta importante considerar tenemos en opciones la posibilidad de: pedir los descriptivos por grupos, lo que ofrece informacin sobre la media y la desviacin tpica de cada grupo; la homogeneidad de varianzas, mediante la prueba de Levene que ya vimos en las pruebas t; y un grfico de medias, menos importante. De especial importancia es 70

escoger las pruebas a posteriori (o post-hoc) adecuadas. La figura 37 ilustra algunas de estas opciones. Sobre lo que indican las pruebas post-hoc incidiremos luego, tras ver los primeros resultados de este ejemplo de ANOVA entre-sujetos.
Figura 37. Anlisis de varianza entre-sujetos en SPSS.

La siguiente tabla (tabla 11) presenta la prueba de homogeneidad de varianzas (primera tabla) y la prueba de ANOVA propiamente dicha (segunda tabla). Como puede apreciarse la prueba de homogeneidad de varianzas resulta estadsticamente significativa (p< 0.05) por lo que las varianzas de los distintos grupos son distintas entre s, y no se cumple el supuesto de homogeneidad de varianzas. En cuanto a las medias el contraste para comprobar si las medias de los distintos tipos de familia son distintas entre s o no se pueden ver ya en la tabla del anlisis de varianza (ANOVA). All puede verse que la prueba de ANOVA (una F) vale 6.61, y que efectivamente es estadsticamente significativa (el valor de significacin es de 0.000, lo que es menor de 0.05, p< 0.05). Esto indica que efectivamente s hay diferencias entre las medias de razonamiento numrico en funcin del tipo de familia. O en otras palabras que s hay alguna relacin entre el razonamiento numrico y el tipo de familia en que vives.
Tabla 11. Resultados del ANOVA entre-sujetos: homogeneidad de varianzas y prueba F del ANOVA.

71

Como ya sabemos que el resultado del ANOVA es estadsticamente significativo, tenemos evidencia de que hay al menos un grupo que es diferente (en promedio) a los dems. O sea que al menos un tipo de familia tiene una media distinta a las dems. Pero saber que al menos uno es diferente es saber bien poco. Porque podran ser ms. Las pruebas post-hoc sirven precisamente para detectar cuntos son diferentes a los dems y cules son diferentes. Como recomendacin general para escoger entre la multitud de pruebas a posteriori puede usarse la siguiente lgica: una buena prueba general que sirve para la mayor parte de situaciones la de Tukey; si las varianzas no son homogneas la de Games-Howell. Estos son los dos estndares adecuados. Si, no obstante se cumplen los supuestos y se quiere una prueba ms potente se puede usar cualquiera de las dos pruebas de Ryan-Einot-Gabriel y Welch (REGW-F o REGW-q); mientras si se quiere una prueba conservadora, se puede optar por Scheff. La tabla 12 precisamente muestra los resultados de estas dos pruebas post-hoc. En nuestro caso, y como ya sabemos con anterioridad que las varianzas no son homogneas (que las varianzas de los grupos son distintas), nos iremos directamente a los resultados de la prueba de Games-Howell. La forma de entender la prueba es simple. Aquellas comparaciones que tengan un asterisco es que son estadsticamente significativas, es decir, que efectivamente ah se tiene una diferencia entre las dos medias. Por ejemplo en la prueba de Games-Howell en el primer recuadro aparece la comparacin de los que viven con el padre solo, contra todos los dems tipos de familia. Hay asteriscos frente a vive con los padres y ms familia y frente a vive con los abuelos. Por tanto esas dos diferencias de medias s son estadsticamente significativas. Como, adems la diferencia entre las medias puede verse que en esos casos es positiva, quiere decir que los que viven slo con el padre presentan una media de razonamiento numrico mayor que los que viven con sus padres y ms familia o los que viven con sus abuelos, de ah la diferencia positiva. Y as sucesivamente tenemos todas las comparaciones de los grupos dos a dos.

72

Tabla 12. Resultados del ANOVA entre-sujetos: pruebas post-hoc.

Para finalizar, la figura 38 muestra el grfico de medias, donde puede verse de forma descriptiva dnde estn situados los promedios de razonamiento numrico de los distintos tipos de familia de la muestra.

73

Figura 38. Grfico de medias del anlisis de varianza.

Los mismos anlisis que hemos realizado en comparar medias puede realizarse, para el caso de ANOVA de un factor entre-sujetos en el submen MODELO LINEAL GENERAL en la opcin univariante. Lo nico que permite hacer en esta nueva opcin frente a la que hemos utilizado es que ofrece estimaciones del tamao del efecto, aspecto general del ANOVA sobre el que volveremos una vez se revise el ANOVA de medidas repetidas. ANOVA de un factor de medidas repetidas Cuando los sujetos se miden repetidas veces, por ejemplo por tener cuatro momentos temporales, y estamos interesados en contrastar las medias de esos momentos, podemos resolver mediante anlisis de varianza de medidas repetidas. El ejemplo que vamos a manejar es el siguiente: tenemos un cuestionario de autoestima, con tres factores, autoestima social, de desempeo y de apariencia fsica, aplicado a una muestra de adolescentes escolarizados2. Los tres factores presentan la misma escala de medida, y queremos saber si existen diferencias en promedio en la evaluacin que hacen los sujetos de estos tres factores de autoestima. Todos los sujetos han contestado a los tres factores (todos han pasado por el cuestionario completo) y nos encontramos, por tanto ante un problema a resolver mediante ANOVA de medidas repetidas. Para pedir este tipo de anlisis hay que acudir al men ANALIZAR, dentro de l al submen MODELO LINEAL GENERAL, y finalmente a la opcin medidas repetidas. SPSS abre una ventana en que debemos informar del nombre del factor, en nuestro caso autoestima, y del nmero de niveles que presenta, en nuestro caso tres: social, de desempeo y fsica. Se pulsa aadir, y despus a definir, lo que abre una nueva ventana. El funcionamiento de la nueva ventana es intuitivo, y muy parecido al que hemos visto para ANOVA entre-sujetos. Simplemente anotar que en esta ventana no slo se realizan anlisis de varianza de medidas repetidas, sino tambin los mixtos, por lo que esa es la razn de que ofrezca la posibilidad de colocar factores entre-sujetos. De las opciones a
2

Este ejemplo se ofrece con carcter ilustrativo, pero no est en las bases de datos ofrecidas

74

pedir en el caso de ANOVA intra o de medidas repetidas solamente hay un cambio con respecto al ANOVA entre-sujetos: las pruebas a posteriori para este tipo de diseo se piden en opciones pinchando en la opcin comparar efectos principales, y seleccionando Bonferroni o Sidk. Los resultados relevantes para nuestro problema seran los que aparecen en las siguientes tablas. La primera de las tablas (tabla 13) presenta la prueba de esfericidad de Mauchly. El supuesto de esfericidad es un nuevo supuesto que rige en el anlisis de varianza de medidas repetidas y que, por tanto, hay que comprobar. En nuestro caso el supuesto puede mantenerse, dado que la prueba no resulta estadsticamente significativa. Tan importante como la significatividad de la prueba son las estimaciones de epsilon que, si no puede mantenerse el supuesto de esfericidad, son necesarias para las correcciones. En nuestro ejemplo, dado que el supuesto se mantiene no resultan relevantes. En cualquier caso, si la estimacin de Huyhn y Feldt del valor de epsilon se encuentra entre 0.7 y 1, entonces no hay que preocuparse an cuando el test de esfericidad resulte significativo.
Tabla 13. Resultados del ANOVA intra-sujetos o de medidas repetidas: prueba del supuesto de esfericidad.

Tras la prueba del supuesto nos centramos ya en si las medias pueden considerarse estadsticamente diferentes o no. Esto es, en el anlisis de varianza propiamente dicho. La tabla a continuacin ofrece los resultados del ANOVA. En este caso, como se cumple el supuesto de esfericidad, solamente resulta necesario analizar la significatividad de la F generada bajo el supuesto de esfericidad, que ofrece un resultado estadsticamente significativo (p< 0.05). Si no se hubiera cumplido el supuesto de esfericidad, entonces la prueba recomendada por casi todos los autores sera la de Huynh y Feldt.

75

Tabla 14. Resultados del ANOVA intra-sujetos o de medidas repetidas: prueba F de comparacin de las medias.

Una vez se presenta un rechazo de la hiptesis nula de igualdad de medias, resulta normalmente necesario evaluar entre qu grupos se encuentran esas diferencias. En nuestro caso eso implica observar los valores de las medias y realizar la prueba de comparacin por pares mediante la correccin de Bonferrroni que hbilmente pedimos con anterioridad. Como puede verse en las siguientes tablas (tabla 15 a y b), los sujetos se auto-evalan ms alto en autoestima de desempeo (media 2), y en lo que ms bajo se auto-evalan es en autoestima social (media 1). Por su parte tambin las siguientes tablas ofrecen la prueba de Bonferroni por pares, que muestra cmo todas las comparaciones por pares han resultado estadsticamente significativas.
Tabla 15. Resultados del ANOVA intra-sujetos o de medidas repetidas: medias (tabla a) y prueba post-hoc de Bonferroni (tabla b). (a)

(b)

76

Hemos repasado los dos tipos simples de anlisis de varianza: entre-sujetos y de medidas repetidas. El hecho de aadir ms variables independientes o factores no produce cambios en la manera de proceder, pues se mantienen las normas y opciones comentadas hasta ahora. Los diseos factoriales son simples extensiones de los diseos simples. Tamao del efecto en ANOVA De la misma manera que hemos visto la importancia que puede tener la estimacin del tamao del efecto en la comparacin de medias mediante pruebas t, o en la bsqueda de relaciones entre variables categricas, ahora nos centraremos en los mismos clculos en el caso del anlisis de varianza. La medida ms simple para la estimacin del tamao del efecto en anlisis de varianza es la eta al cuadrado (2), que se calcula dividiendo la Suma de Cuadrados de la variable independiente entre la Suma de Cuadrados Total. Se puede interpretar como un porcentaje de varianza explicada, y se puede calcular en cualquier tipo de diseo. Un problema de esta medida es que suele dar ms alto en diseos unifactoriales (simples) que en complejos. Para corregir este problema hay una modificacin consistente en partir la suma de cuadrados de la variable independiente por la suma de cuadrados de error y la propia suma de cuadrados anterior. Esta es la estimacin de eta-cuadrado que calcula SPSS cuando se pide estimacin del tamao del efecto en opciones. Simplemente hay que tener en cuenta una cosa, que este clculo implica que en ocasiones la suma de los porcentajes de varianza explicados de todas las variables independientes del diseo (y sus interacciones) puede sumar ms de la unidad. Finalmente otra medida popular del tamao del efecto en ANOVA es la omega al cuadrado, que pretende ser una estimacin del porcentaje de varianza explicado en la poblacin. Sus inconvenientes, desde el punto de vista prctico, son dos: solamente se puede calcular en diseos entre-sujetos, siendo sus equivalentes para otros diseos complicados, y que no se ofrece en SPSS. 4.3. Correlacin y regresin simple Cuando se dispone de dos variables cuantitativas (o al menos cuasi-cuantitativas con suficiente nmero de categoras, la forma de saber si estn linealmente asociadas es mediante el coeficiente de correlacin de Pearson*. Esto es, si existe alguna tendencia a que los valores altos o bajos de una de las variables se relacionen de forma sistemtica con los valores positivos o negativos de la otra. Puede verse, precisamente, en las siguientes figuras, ejemplos de estas tendencias. En la figura 39 se muestran en un eje cartesiano las puntuaciones de una muestra de nios en talla en centmetros (eje X) y su peso en kilogramos (eje Y). Puede verse cmo existe la tendencia de que cuanto ms talla se tienen ms peso tambin. Si quisiramos representarlo grficamente dibujaramos una lnea recta como la que se muestra.

Evidentemente se pueden estudiar asociaciones no lineales, ms complejas, pero normalmente la hiptesis de linealidad en la relacin es ms parsimoniosa y suele ponerse a prueba primero. Sera la ms bsica de las relaciones posibles.

77

Evidentemente hay fluctuacin con respecto a esa recta, pero el patrn es claro. La recta tiene pendiente positiva, y por tanto la relacin es positiva, a ms talla ms peso.
Figura 39. Diagrama de dispersin de las variables talla y peso.

Sin embargo la figura 40 a continuacin muestra en el eje de las X la subida de las hipotecas y en el eje de las Y el valor de los inmuebles. Se ve que cuanto ms suben las hipotecas (ms hay que pagar) menos se puede pagar por los inmuebles, y por tanto, cae el precio de los pisos. Si quisiramos mostrar esta tendencia linealmente, haramos una lnea recta con pendiente negativa como la que se muestra. Esta sera una relacin negativa o inversa. A ms aumento porcentual las hipotecas, menos valor de los inmuebles.

78

Figura 40. Diagrama de dispersin de las variables aumento porcentual de hipotecas y precio promedio de la vivienda.

Finalmente, si no existe una relacin clara, como es el caso de la capacidad y el rendimiento las puntuaciones de las dos variables no mostrarn ninguna tendencia lineal aparente. Esto puede verse en la figura 41.
Figura 41. Diagrama de dispersin de las variables capacidad y rendimiento.

Ahora bien, nosotros hemos visto esta relacin o asociacin entre variables grficamente, pero habitualmente necesitamos cuantificarla, darle valor, saber cuanto es la relacin. Para medir esta asociacin entre dos variables cuantitativas sin asumir ningn orden de prevalencia entre ellas (asociacin que llamamos simtrica) utilizamos el coeficiente de correlacin de Pearson (rxy), de fcil interpretacin por su rango 79

acotado de 1 a 1, que equivale a una covarianza tipificada. Al elevar al cuadrado el coeficiente de correlacin obtenemos el coeficiente de determinacin, r2xy que es siempre positivo, nos informa de la proporcin de una variable que se puede explicar a partir de la otra. Un criterio para valorar si esta capacidad explicativa es baja, media o alta es tomar los valores 0.1, 0.3 y 0.5 respectivamente, que Cohen ofrece como referentes. Adems de este coeficiente de correlacin, el ms habitual, existen otros tipos de coeficientes, generalmente utilizados para variables ordinales. Tienen en comn el funcionar con datos de ordenaciones realizadas sobre las puntuaciones: Coeficiente rho de Spearman, es una aplicacin (sobre las ordenaciones) de rxy y por tanto mantiene, sus caractersticas y forma de interpretacin. Coeficiente de Kendall, aunque se sigue interpretando dentro del mismo rango de valores, ste no es aplicacin de Pearson y puede diferir en el resultado. Habitualmente ofrece valores considerablemente menores que Pearson. Coeficiente de Goodman-Kruskal, es el indicado cuando existen muchos empates al hacer las ordenaciones, al asignar los rangos. Para variables dicotmicas y dicotomizadas, las opciones para medir asociacin son: Coeficiente de correlacin biserial-puntual: se utiliza cuando una variable es continua y la otra es dicotmica, es aplicacin de Pearson, y mantiene sus caractersticas Coeficiente de correlacin biserial: con una variable continua y la otra dicotomizada. Se trata de un coeficiente estimacin de rxy y por ello parece ms recomendable evitar la situacin de tener que usarlo, es decir, no dicotomizar en la medida de lo posible. Coeficiente de correlacin tetracrica: se usa para dos variables dicotomizadas siendo estimacin de Pearson y por ello la recomendacin vuelve a ser evitar la dicotomizacin. En el caso de que se quieran calcular correlaciones en el SPSS debemos ir al men ANALIZAR, y desplegar el submen CORRELACIONES. All se presenta la opcin de bivariadas, que es la de nuestro inters. Las correlaciones bivariadas que permite calcular el SPSS son el coeficiente de correlacin producto-momento (Pearson), la rho de Spearman y la tau de Kendall. Los resultados se presentan en forma de matriz de correlaciones en todos los casos, y se ofrece, adems, la correspondiente prueba de significacin sobre la correlacin. En la figura 42 se muestra el men de correlaciones. De las variables que queramos as correlaciones se sitan en la ventana de variables, en nuestro caso el nmero de horas de estudio y el rendimiento en matemticas. Si se quiere calcular simultneamente ms de una correlacin, por ejemplo las correlaciones de horas de estudio con rendimiento en matemticas, pero tambin la de horas de estudio con rendimiento en lenguaje, se hace igual pero poniendo simultneamente las tres variables implicadas en la ventana.

80

Figura 42. Ventana de correlaciones en SPSS.

El resultado de la correlacin entre horas de estudio y rendimiento en matemticas se puede ver en la tabla 16 (a), mientras que en la tabla 16 (b) se puede ver las correlaciones de las tres variables horas de estudio, rendimiento en matemticas y rendimiento en lenguaje.
Tabla 16. Correlacin entre horas de estudio y rendimiento en matemticas (a)

(b)

81

Al ver la parte a de la tabla se ve que la relacin es positiva (0.708) y elevada. Esto indica que cuantas ms horas estudian los alumnos tanto mayor es su rendimiento. El valor de significatividad (sig. bilateral) que aparece sirve para saber si puede considerarse (si p< 0.05, si sig< 0.05, habitualmente) que la correlacin es distinta a cero en la poblacin. Por su parte la tabla 16 (b) ofrece lo mismo, solo que para ms variables. Lo organiza en forma de una matriz, matriz que se conoce como matriz de correlaciones. No vamos a entrar en el detalle, por ser muy claro, pero por ejemplo si ahora se quiere saber la correlacin entre horas de estudio y rendimiento en lenguaje, entonces se va al cruce correspondiente en la tabla y se ve que es 0.442 (p< 0.05), lo que indica que la relacin tambin es positiva, pero que est menos relacionado el rendimiento en lenguaje con las horas que el de matemticas. REGRESIN SIMPLE No es frecuente que nos limitemos a estudiar la asociacin entre dos variables. A menudo el objetivo es de carcter predictivo. Cuando el inters es hacer predicciones en una variable a partir de otra, recurriremos a la regresin simple, mientras que si se toman diversos predictores se acude a la regresin mltiple. En este caso nos centraremos en regresin simple. Supongamos, como ejemplo, que en nuestra investigacin estamos interesados en conocer cul es la capacidad predictiva de las horas de estudio en el rendimiento en matemticas. En principio, lo primero es que se debieran realizar algunos anlisis previos. En concreto, primero un estudio en cada variable sobre la existencia de asimetra o curtosis fuerte, o valores atpicos. Todos ellos se pueden realizar mediante los anlisis descriptivos y las grficas realizadas con anterioridad. En segundo lugar, se debiera pedir un diagrama de dispersin para evaluar si la tendencia de relacin entre las variables es lineal. Para pedir el diagrama de dispersin se opta por el men GRFICOS, y escoger el submen DISPERSIN. La opcin por defecto del programa, simple, es la correcta en nuestro ejemplo. Solamente hay que definir las horas de estudio como eje de las X (abcisas), y rendimiento en matemticas en el eje de las Y (ordenadas). El diagrama de dispersin resultante se presenta a continuacin, y muestra una relacin que tiene una clara tendencia lineal, lo que hace indicado el clculo de una regresin lineal simple.

82

Figura 43. Diagrama de dispersin de horas de estudio y rendimiento en matemticas.

Ahora estamos en disposicin de pasar a realizar la regresin lineal simple. Para ello volvemos al men ANALIZAR, dentro de ello al submen regresin, y se opta por la opcin lineal. La figura 44 muestra la ventana de regresin. Hay que colocar la variable a explicar en la ventana de dependientes y la variable explicativa en la de independientes. En nuestro caso, horas de estudio y rendimiento en matemticas, respectivamente. El resto de caractersticas de la ventana, que aparecen como botones de opcin abajo (estadsticos, grficos, guardar y opciones), se encuentran principalmente relacionados con el diagnstico del modelo, por lo que aplazamos su uso para la revisin de la regresin lineal mltiple.
Figura 44. Diagrama de dispersin de horas de estudio y rendimiento en matemticas.

83

Los resultados ms relevantes de la regresin simple que acabamos de plantear se resumen en las dos siguientes tablas. La primera de ellas (tabla 17) nos informa sobre el valor del coeficiente de determinacin (0.502, en nuestro ejemplo), lo que implica un porcentaje de varianza explicado del rendimiento en matemticas del 50.2%. El valor de la R-cuadrado corregida es de mayor inters en el caso de la regresin mltiple, por lo que aplazamos tambin su explicacin.
Tabla 17. Correlacin entre horas de estudio y rendimiento en matemticas y coeficiente de determinacin

La segunda tabla (tabla 18) nos ofrece los valores de la constante y de la pendiente, tanto en puntuaciones directas como en estandarizada. El valor B asociado a la constante es el punto de corte del eje de la Y, y nos dice el valor que se espera del rendimiento cuando las horas de estudio son cero (cuando no se estudia nada). El valor B asociado a horas de estudio nos informa del cambio que se espera en un nio que aumente una hora sus horas de estudio. As un nio que estudie una hora, si pasa a estudiar 1 hora ms se espera que aumente 0.615 en rendimiento en matemticas. El valor ms relevante es, no obstante el estandarizado, que s est acotado (entre -1 y 1, y que coincide en regresin simple con el valor del coeficiente de correlacin de Pearson de estas dos variables.
Tabla 18. Regresin simple de rendimiento en matemticas sobre horas de estudio

El SPSS ofrece, adems una prueba t sobre los dos parmetros. En nuestro caso, tpicamente slo la prueba t sobre la pendiente presenta inters, ya que es la que nos puede informar si la relacin entre ambas variables puede o no considerarse todava nula en la poblacin. En el ejemplo la pendiente sin estandarizar alcanza un valor de 0.615, que equivale a un valor estandarizado de 0.708. Esta pendiente s ha resultado estadsticamente significativa, como muestra el valor de significacin (p<0.05). Cuando hemos planteado la regresin simple anterior, pasamos por alto una opcin que puede resultar relevante: la variable de seleccin. Esta variable, que puede ser cualquiera del fichero, sirve para realizar la regresin que deseemos pero por subgrupos. Por ejemplo, si se plantea realizar la regresin por separado en hombres y mujeres se podra realizar seleccionando primero sexo =1 y despus repetir la operacin 84

poniendo sexo =2. De esta forma tendramos una regresin realizada para los hombres y otra para las mujeres, con lo que podramos compararlas. 4.4. Algunas pruebas no paramtricas Cuando se incumplen los supuestos para realizar las pruebas paramtricas de comparacin de medias, como: heterogeneidad o no normalidad extremas, escala de medida de las variables ordinal con un nmero pequeo de categoras, o existen abundantes valores atpicos, cabe la posibilidad de realizar pruebas no paramtricas. Podramos verlos, por tanto, como las alternativas a las pruebas t y el ANOVA, y por tanto estaran indicadas para la comparacin de dos grupos, o bien tres o ms grupos. Las pruebas que vamos a ver estn en el men ANALIZAR, dentro de ste en pruebas no paramtricas. Como puede verse en la figura 45 las pruebas que nosotros vamos a repasar estn al final: a) pruebas para dos muestras independientes; b) k muestras independientes; c) dos muestras relacionadas; y d) k muestras relacionadas.
Figura 45. Opciones del men de pruebas no paramtricas.

PRUEBAS PARA DOS GRUPOS Seran los equivalentes no paramtricos a las pruebas t que hemos revisado con anterioridad. La equivalente no paramtrica a la prueba t de muestras independientes es la prueba U de Mann-Whitney, mientras la equivalente a la de muestras dependientes es la prueba de Wilcoxon. En realidad existen otras opciones, ms especficas, pero las dos que hemos destacado son las de mayor uso y de carcter ms general. Para pedir la prueba de Mann-Whitney se debe acudir a ANALIZAR, despus al men de PRUEBAS NO PARAMTRICAS, y entre las opciones escoger 2 muestras independientes. La opcin por defecto es la que interesa, y simplemente debemos informar al programa de cul es la variable agrupadora, y cual la que deseamos analizar. La interpretacin del output es muy similar a la de otras pruebas de contraste, paramtrico o no. En este caso hemos pedido que compare los grupos de hombres y 85

mujeres en fluidez lectora. La tabla 19 ofrece los resultados. La primera de las dos tablas (a) nos da los rangos promedio, lo que nos da una idea de qu grupo est ms alto. En este caso los hombres parecen ms altos en fluidez lectora. La prueba U nos ofrece un valor (una vez pasado a z) de -1.785, que resulta estadsticamente significativo (significacin < de 0.05, p< 0.05)
Tabla 19. Resultados de una prueba U de Mann-Whitney (a)

(b)

En cuanto al contraste de dos muestrass relacionadas, la prueba que vamos a ver es la de Wilcoxon. Para pedir la prueba de Wilcoxon se debe acudir a ANALIZAR, despus al men de PRUEBAS NO PARAMTRICAS, y entre las opciones escoger 2 muestras dependientes. La opcin por defecto es la que interesa, y simplemente debemos seleccionar las variables 1 y 2 (por ejemplo en nuestro caso el rendimiento en lenguaje y en matemticas, porque se han medido en los mismos sujetos y con las mismas escalas de medida) y situarlas en contrastar pares. La interpretacin de los resultados del SPSS es muy similar a la de otras pruebas de contraste, paramtrico o no, por lo que no iremos rpido. En este caso la tabla 20 muestra que el valor de la prueba de Wilcoxon es z= -2.905 que resulta estadsticamente significativo (p< 0.05), luego efectivamente hay diferencias entre ambos. Si se pide la tendencia central de ambos grupos se puede saber qu asignatura tiene un rendimiento mayor.

86

Tabla 20. Resultados de una prueba de Wilcoxon

PRUEBAS PARA K GRUPOS Seran los equivalentes no paramtricos a las pruebas de ANOVA que hemos revisado con anterioridad. La prueba no paramtrica equivalente al ANOVA entre-sujetos (de muestras independientes) es la prueba H de Kruskal-Wallis, mientras la equivalente al ANOVA intra-sujetos o de medidas repetidas es la prueba de Friedman. En realidad existen otras opciones, ms especficas, pero las dos que hemos destacado son las de mayor uso y de carcter ms general.
Tabla 21. Resultados de una prueba de Kruskal-Wallis (a)

(b)

Para pedir la H de Kruskal-Wallis se debe acudir a ANALIZAR, despus al men de PRUEBAS NO PARAMTRICAS, y entre las opciones escoger k muestras independientes. La opcin por defecto es la que interesa, y simplemente debemos informar al programa de cul es la variable de agrupacin (variable independiente), y cual la variable a contrastar (variable o variables dependiente). La interpretacin del output es muy

87

similar a la de otras pruebas de contraste. En nuestro caso el ejemplo de la tabla 21 muestra los resultados de la prueba de Kruskal-Wallis para ver si hay diferencias entre los distintos tipos de familias en el rendimiento en matemticas. En la parte a se nos muestra los rango promedio, lo que nos permite ver que la familia con los dos padres tiene el rendimiento ms alto, y as sucesivamente. La parte b nos ofrece la prueba, que tiene un valor de chi-cuadrado de 25.64, lo que resulta estadsticamente significativo (p< 0.05), y efectivamente el tipo de familia en que viven los alumnos se asocia a diferencias en rendimiento. Para pedir la prueba de Friedman se debe acudir a ANALIZAR, despus al men de PRUEBAS NO PARAMTRICAS, y entre las opciones escoger k muestras dependientes. La opcin por defecto es la que interesa, y simplemente debemos seleccionar las variables a contrastar (por ejemplo tres momentos temporales). La interpretacin de los resultados del SPSS es muy similar a la de otras pruebas de contraste. El ejemplo de la tabla 22 es la comparacin del nivel de sntomas conductuales, somticos y cognitivos de ansiedad, que evidentemente estn medidos en todos los sujetos y con la misma escala de medida. Efectivamente hay diferencias estadsticamente significativas ya que el valor de chi-cuadrado vale 44.36 y es significativo (p< 0.05).
Tabla 22. Resultados de una prueba de Friedman (a)

4.5. Fiabilidad y validez: integracin Los aspectos de fiabilidad y validez son cuestiones externas al anlisis de datos. Son cuestiones de psicometra. No obstante, el anlisis de datos ofrece las herramientas de tipo estadstico necesarias para una evaluacin adecuada de las caractersticas psicomtricas de cualquier medida psicolgica. Por lo tanto, lo nico que se produce es un cambio de objetivo (de terico a psicomtrico) en el uso de las tcnicas de anlisis de datos que hemos revisado, o revisaremos, a lo largo del texto.

88

Ante cualquier medicin psicolgica resulta necesario saber si los nmeros extrados de ella presentan la bondad suficiente como para ser empleados con garantas. Su bondad suele resumirse en que cumplan dos aspectos: ser fiables y vlidas, fiabilidad y validez. Una medida es fiable en el sentido de que mide con exactitud. En psicologa esto se traduce normalmente en dos aspectos relacionados, pero distinguibles. Un primero es el de consistencia interna, otro el de estabilidad temporal. Consistencia interna. Suele medirse mediante el coeficiente alpha, opcin muy sencilla de obtener en SPSS. La lgica de la consistencia interna consiste en que si estamos haciendo varias mediciones simultneas de un mismo constructo psicolgico, como pueden ser los items de una escala de depresin, stos deben estar altamente relacionados entre s. No debe ser posible que dos items que miden dos aspectos (sntomas) de depresin ofrezcan informacin contradictoria (no relacionada). Supongamos, por ejemplo, que tenemos una escala de autoestima de 10 items, que consideramos unifactorial. Para obtener el coeficiente alfa en SPSS debemos acudir a ANALIZAR, dentro al men ESCALA, y pedir anlisis de fiabilidad. El coeficiente alpha es el modelo por defecto, por lo que no resulta necesario pedirlo. Solamente hace falta situar los items que conforman la escala en la ventana de elementos. Si se desea, adems, un anlisis de fiabilidad individual (para cada tem), simplemente hay que pinchar en la opcin estadsticos y seleccionar elemento, escala y escala si se elimina el elemento. Estabilidad temporal. Otro aspecto relacionado con la exactitud de la medida es su estabilidad a lo largo del tiempo (en constructos psicolgicos que se mantengan razonablemente invariantes con el tiempo). As, la lgica aqu es que: si la medicin psicolgica que estamos realizando es exacta, al medir una segunda vez debe dar aproximadamente el mismo resultado. (De la misma manera que cuando medimos la longitud de una mesa nos creemos el resultado del metro si al hacerlo dos veces consecutivas nos da los mismos centmetros). En el ejemplo de la longitud de la mesa, caracterstica fsica, se pueden realizar tantas mediciones seguidas como queramos, pero en el caso de mediciones psicolgicas, hay que ser cuidadosos al escoger el lapso temporal. En cuanto a cmo realizar el anlisis de datos para saber si una cierta medida psicolgica es estable temporalmente, no resulta complicado. Se tomaran las dos mediciones y se correlacionaran en base al coeficiente de correlacin ms adecuado dada su naturaleza, tal y como hemos visto en el apartado sobre correlacin. Una medida es vlida en el sentido de que mide lo que pretendemos medir, y no aspectos diferentes. La validez tiene diversos aspectos (o facetas) relacionados. Aunque abundan otras clasificaciones, todas ellas estn de acuerdo en que el problema de la validez no es ms que el de aglutinar evidencia emprica acorde a las razones substantivas (tericas) de medicin del constructo. Adoptaremos una clasificacin, de las ms utilizadas: Validez de contenido. La validez de contenido se refiere a una adecuada eleccin de las preguntas (o mediciones) a efectuar. En rastrear todas las facetas del constructo de inters y balancearlas totalmente. Es un aspecto totalmente externo al anlisis de datos, y por tanto no lo trataremos aqu.

89

Validez criterial. Normalmente suele, desde un punto de vista simplista, confundirse con la validez. Es el estudio de la relacin del constructo (y sus componentes, si los tiene) con variables externas o criterios. En funcin de la naturaleza de las variables se emplean los distintos tipos de coeficientes de correlacin que hemos comentado y/o regresin simple y mltiple. Validez factorial. Consiste en el estudio de los componentes constituyentes de la medida del constructo psicolgico de inters. ste puede ser unifactorial, si incluye un nico componente, o multifactorial, si incluye ms de uno. Desde el punto de vista del anlisis de datos el estudio de la estructura factorial implica, normalmente, el anlisis factorial, bien exploratorio, bien confirmatorio. En algunas ocasiones (escasas) se han utilizado otras tcnicas, como el escalamiento multidimensional o el anlisis de conglomerados. Validez diferencial. En ocasiones una teora bien establecida sobre un cierto concepto psicolgico incluye hiptesis sobre su comportamiento diferencial en funcin de ciertas variables (por ejemplo: el desarrollo diferencial del razonamiento verbal en funcin del sexo). En esos casos, puede hablarse de validez diferencial si la medida que desarrollamos de ese constructo muestra, efectivamente, este comportamiento diferencial. Suelen estudiarse, a nivel de anlisis discriminante con cualquiera de las tcnicas de comparacin de grupos que hemos visto. Validez convergente-discriminante. Es una especie de validez criterial mejorada. Implica un estudio en que se sitan conjuntamente medidas relacionadas con el constructo y medidas dispares. Se espera alta relacin con las medidas relacionadas (validez convergente), y baja con las medidas dispares (validez discriminante). Suele estudiarse, a nivel de anlisis de datos, con matrices multirrasgo-multimtodo, que no son ms que matrices de correlaciones.

90

Tema 5. Relaciones complejas


5.1. Regresin lineal mltiple La regresin lineal mltiple es una extensin natural de la regresin simple. Resulta evidente que en ciencias sociales la capacidad explicativa de los modelos exige la inclusin de un nmero relativamente importante de predictores. Esa es la consecuencia de la complejidad de el/los objetos de estudio. Por lo tanto, lo habitual es que se presente la situacin en que queremos evaluar la capacidad que tenemos para predecir una determinada variable dependiente (cuantitativa) en base a diversos predictores (usualmente, pero no necesariamente, cuantitativos). Normalmente estamos tambin interesados en evaluar el impacto individual de esos predictores, esto es, su importancia relativa a la hora de explicar los valores de la variable dependiente o criterio. La regresin mltiple es un marco adecuado para estos objetivos. 5.1.1. Estimacin La estimacin va precedida, necesariamente, de una fase de constitucin del modelo, de una fase de especificacin, consistente en la seleccin de las variables que van a intervenir en la ecuacin de regresin. Esta eleccin viene dictada habitualmente por motivos tericos, empricos (estadsticos), o por una combinacin de ambos. La idea es tener el mximo de predictores relevantes al fenmeno a predecir, y el mnimo (a ser posible ninguno) irrelevante. Pero claro, a veces es necesario realizar selecciones estadsticas debido a los requisitos de tamao de la muestra, que en regresin mltiple suele situarse en un mnimo de 5-10 sujetos por predictor, pero recomendndose muestras mayores de 100, sea cual sea el nmero de predictores. Una vez elegidos los predictores la estimacin propiamente dicha de los parmetros de la ecuacin de regresin suele realizarse mediante el mtodo de mnimos cuadrados, aspecto tcnico que no tocaremos. Simplemente es relevante que de los resultados del anlisis obtendremos una estimacin de la pendiente para cada variable predictora, que en el caso no estandarizado es un coeficiente de regresin parcial y en el estandarizado un coeficiente de correlacin parcial (y sus pruebas de significacin), adems de una estimacin de la capacidad explicativa del modelo en trminos del coeficiente de determinacin (y su correspondiente valor ajustado). Pero, an asumiendo siempre este tipo de estimacin, cabe todava hacer ciertas elecciones crticas en el proceso de estimacin, ya que existen diversos procedimientos de seleccin de variables. El problema de escoger entre diversos procedimientos de seleccin es doble. Por un lado, cuando hay muchos predictores potenciales y la muestra es relativamente pequea se impone en ocasiones una reduccin en su nmero, lo que nos suele llevar a algn tipo de seleccin de tipo estadstico. Por otro lado, en ocasiones el orden de entrada de las variables en la ecuacin de regresin es relevante, por lo que ste no es indiferente, debindose, por tanto, imponer un cierto orden, de forma estadstica o substantiva. Los principales tipos de procedimientos de seleccin,

91

todos ellos montados en el SPSS, a las dos lgicas ya esbozadas con anterioridad: la substantiva y la estadstica. A) CONOCIMIENTO SUBSTANTIVO Es el investigador el que escoge todos los predictores a introducir en la ecuacin de regresin, de todos ellos se obtendr estimacin de su efecto sobre la variable dependiente. El investigador tambin determina su orden. Existen dos subtipos bien diferenciados: introducir todos los predictores y regresin jerrquica. Todos los predictores Es la opcin por defecto de SPSS. Resulta sencilla. El investigador escoge los predictores y su orden de entrada en la ecuacin de regresin, pero todos los predictores se incluyen en la misma ecuacin simultneamente. Simplemente hay que acudir a ANALIZAR y escoger REGRESIN, asumiendo la opcin lineal. Aqu, en principio, solamente hace falta colocar en la ventana de dependiente la variable que queremos predecir (explicar), y en la ventana de independientes todos los predictores que consideremos necesarios para su prediccin, en el orden que nos parezca adecuado. Hay que asegurarse que la opcin por defecto, introducir, es la que est seleccionada. Justo debajo de la ventana de independiente. Como es el tipo de regresin mltiple ms sencilla no entraremos en ms detalles, ni pondremos ejemplos, ya que se subsumirn en los ejemplos siguientes. Regresin jerrquica En la regresin jerrquica las variables se introducen por bloques segn un criterio lgico (terico) definido por el investigador. De esta forma se evala lo que la (o las) variables de cada nuevo bloque aaden a las ya introducidas previamente. Normalmente las variables que se consideran de mayor importancia, o de efecto causal anterior se introducen antes. Como ejemplo* supongamos que se quiere estudiar cmo diversas facetas de la autoestima (social, de desempeo, y de apariencia fsica) explican o se relacionan con la autoestima general en adolescentes. La idea es evaluar qu tipo de autoestima especfica tiene ms peso en la muestra de adolescentes recogida. No obstante y dado que algunos aspectos fsicos de los adolescentes pueden tener un impacto tambin en la autoestima se decide introducirlos primero en una regresin jerrquica. Los aspectos fsicos considerados relevantes son la edad y el sexo. Este ltimo, pese a ser una variable categrica puede introducirse sin problemas en la ecuacin de regresin ya que solamente presenta dos categoras. Por lo tanto los predictores considerados relevantes por el investigador son cinco: edad, sexo, autoestima social, de desempeo y de apariencia fsica. El investigador, no obstante, va a incluirlas en dos bloques (regresin jerrquica), el primero con las dos primeras y el segundo con las tres ltimas. Por lo tanto, el cambio que se produce es que el investigador est interesado en saber qu explican los tres componentes de la autoestima, una vez que edad y sexo han recogido su parte en la explicacin.
*

El ejemplo seguido en este apartado no se corresponde con datos que se adjunten. El lector puede realizar los mismos pasos con otras variables del ejemplo 2.sav proporcionado.

92

Para realizar este procedimiento se acude a ANALIZAR y despus se escoge REGRESIN, asumiendo la opcin lineal. Tras ello se escoge la autoestima general (rosen) como dependiente y sexo y edad como independientes. Justo arriba de la ventana donde estn las independientes se le da a la opcin bloque siguiente y aqu se colocan las tres predictoras (AS, AD y AF) del bloque dos. Con ello ya hemos informado al programa de que queremos realizar una regresin jerrquica en dos bloques. En principio lo nico que necesitamos, adems, para realizar la regresin jerrquica es pinchar en la opcin estadsticos y pedir el cambio en R-cuadrado.
Tabla 23. Resultados de una regresin lineal mltiple

La primera tabla de la secuencia simplemente nos ofrece un eco de lo que hemos pedido, nos dice qu variables hemos introducido en el primer bloque, y cules en el segundo. De ah que haya dos modelos. El modelo 1 que incluye el sexo y la edad, y el modelo 2 que incluye estas dos variables ms las tres del segundo bloque. La segunda tabla ofrece las correlaciones mltiples al cuadrado, que ofrecen la informacin sobre cunta es la proporcin de varianza de la variable dependiente que 93

son capaces de explicar todas las independientes (conjuntamente) en el modelo. Por esto puede verse que la R2 es de 0.037 (3.7%) para el modelo 1 y 0.626 (62.6%) para el modelo 2, luego es evidente que las tres medidas especficas de autoestima del bloque 2 aaden mucho a la explicacin de la variable dependiente. Adems se ofrecen las R2 ajustadas, ms adecuadas cuando el nmero de predictores aumenta. Si se quiere una prueba estadstica para saber si las variables aadidas en el bloque 2 mejora estadsticamente la prediccin, solamente hay que mirar que el cambio en R cuadrado da un valor de 0.590, que es estadsticamente significativo (sig. del cambio en F es 0.000, o sea, p< 0.05). Para finalizar la ltima tabla, de la que solamente hay que interpretar el modelo 2. En este caso nos fijaremos simplemente en los coeficientes b estandarizados. Nos dicen si las relaciones entre las variables son positivas o negativas y su cuanta (sabiendo que los mximos son -1 o +1), as puede verse que la relacin de Ad es positiva y las ms elevada (0.535). Adems en la ltima columna aparece la significatividad estadstica que nos indica si las relaciones de cada una de las variables predoctoras es estadsticamente significativa o no (p< 0.05). En este caso las cinco variables predoctoras son estadsticamente significativas (ya que p siempre es menor de 0.05). B) MTODOS ESTADSTICOS Otra opcin para seleccionar predictores de entre un conjunto amplio es recurrir a razones puramente estadsticas. Los procedimientos son: hacia delante, en que se introduce el predictor con mayor relacin con la variable dependiente, luego el segundo, etctera; hacia atrs, en que se empieza con todos los predictores y se van eliminando, uno a uno, los menos relacionados; y la regresin paso a paso, probablemente el ms utilizado. Regresin paso a paso (stepwise) La regresin paso a paso es ligeramente diferente a la regresin hacia delante. Es igual que sta en que empieza con el predictor ms relacionado con el criterio, y sigue con el segundo ms relacionado, y as sucesivamente. La diferencia es que evala la regresin en cada paso, y si al entrar un nuevo predictor alguno de los predictores ya en la regresin pasa a ser no significativo, lo elimina. Supongamos que el ejemplo anterior se trata, en lugar de mediante regresin jerrquica, mediante regresin paso a paso. Para poder realizarlo se opta por ANALIZAR, en el men REGRESIN, opcin lineal. Se abre una ventana en que se tiene que colocar en la dependiente la variable rosen, y en las independientes el sexo, edad, AS, AD y AF, sin colocar bloques. Se opta por mtodo pasos suc. (pasos sucesivos). Los resultados ms importantes se muestran a continuacin. La tabla 24 nos ofrece un resumen de los cinco pasos que se han realizado, y del incremento (en este caso) en los porcentajes de varianza explicada. En este ejemplo la regresin ha introducido uno a uno todos los predictores, sin eliminar ninguno, porque coincide que todos ellos continan siendo significativos cuando otros predictores entran en la regresin.

94

Tabla 24. Resultados de regresin lineal mltiple por pasos

Tabla 25. Resultados de regresin lineal mltiple por pasos

Por su parte, la tabla 25 nos ofrece los coeficientes de cada uno de los pasos de la regresin paso a paso, siendo el ltimo el que debe interpretarse. Como vemos todos los

95

predictores han resultado estadsticamente significativos (p<0.05), tal y como ocurra en la regresin por bloques. La interpretacin es idntica al caso anterior. 5.1.2. Diagnstico en regresin La regresin, al igual que el anlisis de varianza, dado que es un submodelo del modelo lineal general, como ste, presenta una serie de supuestos subyacentes, de cumplimiento ms o menos necesario para una correcta utilizacin de la prueba. Prcticamente ningn conjunto de datos aplicados (reales) cumple estrictamente todos los supuestos en los que se basa la regresin, de forma que el problema se traslada a comprobar si el alejamiento de los supuestos no es tan grande que genere problemas graves de aplicacin e interpretacin del modelo de regresin. La evaluacin del grado de cumplimiento de los supuestos es lo que se conoce como diagnstico en regresin. Para aprender a hacer un buen diagnstico en regresin, que sea al mismo tiempo muy sencillo, conviene ir a las pruebas a realizar, ms que evaluar supuesto a supuesto, ya que algunas pruebas responden sobre el cumplimiento de varios supuestos. Hay tres cuestiones a realizar:
A) GRFICOS DE RESIDUALES

Los residuales son los errores que se cometen al predecir cada puntuacin individual en base a la ecuacin de regresin. Si la regresin es buena, los residuales tienden a ser pequeos. Pero no es por esto por los que los tratamos aqu, sino porque al estudiar el comportamiento de los residuales podemos observar de forma simple posibles alejamientos de los supuestos. Este estudio de diagnstico conviene realizarlo para cada predictor por separado, y para la ecuacin completa. En concreto los grficos de residuos nos permiten tener una idea de problemas con la homogeneidad de varianzas y con la linealidad. Supongamos que se quiere predecir ROSEN en base a AD, siguiendo con las mismas variables de ejemplos anteriores. Queremos aadir a lo pedido habitualmente un grfico de residuos. Para hacerlo se opta en la ventana abierta de regresin lineal por la opcin grficos, lo que nos abre una nueva ventana, en la que escogeremos como valores para el eje de abscisas (X) los valores predichos estandarizados (ZPRED, en SPSS), mientras en el eje de ordenadas (Y) escogeremos, de entre las distintas medidas de residuales estandarizados y estudentizados la opcin de SDRESID. Si lo hacemos as para este ejemplo obtendremos un grfico como el siguiente (figura 46).

96

Figura 46. Grfico de residuales

Este grfico no muestra problemas importantes (obvios) ni de homogeneidad, ni de no linealidad. Si hubiramos tenido problemas de homocedasticidad tendramos mucha ms dispersin alrededor de l valor de residual cero en unos puntos del eje de abscisas que en otros. Si hubiramos tenido problemas de linealidad el propio diagrama de dispersin mostrara una relacin no lineal. Si ahora pasamos a realizar el mismo grfico para el caso de la regresin mltiple con cinco predictores que realizamos anteriormente con el procedimiento paso a paso, el resultado que obtenemos es el siguiente (figura 47). Este grfico tampoco muestra problemas obvios de homogeneidad o no linealidad.
Figura 47. Grfico de residuales

97

B) ESTUDIO DE VALORES ATPICOS

Todas las tcnicas estadsticas basadas en el modelo lineal general son bastante sensibles a los valores atpicos. Hemos visto ya cmo detectar valores atpicos en variables aisladas (valores atpicos univariantes), pero en regresin simple y mltiple la cosa es un poco ms complicada, pues se trata de revisar valores atpicos multivariantes. Claro, aqu la cosa se complica ya que los casos, los sujetos, pueden ser atpicos en la variable Y, en la variable X o en ambas. Por lo tanto necesitamos procedimientos que nos digan si tenemos alguna observacin que nos genere problemas a cualquiera de estos niveles. Por lo tanto, debemos detectar: Valores atpicos en Y, o outliers. Para comprobar si se tiene algn caso que genere problemas como outlier se puede optar por calcular el residual estudentizado eliminado. Si cualquier caso tiene un residual estudentizado eliminado mayor de 2, nos generar problemas. Para pedir los residuales de este tipo se debe ir a la ventana de la regresin, escoger la opcin guardar y pedir los Residuos eliminados estudentizados. Valores atpicos en X, o leverages. Para comprobarlo hay que acudir al valor de un estadstico, hi, conocido como valor de leverage. SPSS no ofrece el valor de este estadstico, pero s ofrece el valor de la Distancia de Mahalanobis, en el que esta basado. Para pedir la distancia de Mahalanobis hay que seleccionarla tambin en la opcin de guardar de regresin. Una vez se obtienen las distancias, el valor del estadstico es:

Genera problemas si igual o supera el valor 5 veces el valor de (k+1)/n donde k es el nmero de predictores. Valores atpicos en ambos, observaciones influyentes. Se puede controlar si se presentan observaciones influyentes mediante el clculo de las distancias de Cook, que son el equivalente al producto de outlier por leverage. El SPSS ofrece directamente estos valores de las distancias de Cook, simplemente en la misma opcin que anteriormente escogimos las distancias de Mahalanobis y los residuales. Resulta un problema cualquier observacin que supere el valor de 4/(n-k-1).
C) MULTICOLINEALIDAD

En el caso de regresin simple solamente se considera un predictor, por lo que no se puede producir multicolinealidad (colinealidad), que de forma intuitiva puede definirse como el problema que aparece cuando los predictores estn parcialmente solapados (altamente correlacionados), y por tanto resulta difcil discernir quin predice mejor (o ms) a la variable dependiente. En el lmite si los predictores estn muy correlacionados, entonces los resultados de los coeficientes de regresin son muy inestables e inseguros. Por lo tanto, lo que debemos de asegurarnos es que el nivel de correlacin entre los factores no es tan importante como para hacer inseguros nuestros resultados, para lo que es necesario tomar medidas de diagnstico de la colinealidad.

98

El SPSS nos ofrece diversos estadsticos para evaluar los problemas de colinealidad. La tolerancia es uno de los ms empleados (si su valor es menor de 0.1, suele ser indicativo de problemas. Nosotros veremos dos de fcil clculo y ms fcil interpretacin, que funcionan tan bien como la tolerancia. Para poder pedir estos estadsticos debemos estar en la ventana de regresin lineal, y seleccionar la opcin de estadsticos. Una de las opciones dentro de la nueva ventana que se abre es diagnstico de colinealidad, el cual seleccionaremos. Al seleccionar este botn, entre los resultados que obtendremos, aparecern los estadsticos que nos permiten evaluar posibles problemas de colinealidad, y que son, en concreto, el factor de inflacin de la varianza (FIV) y el ndice de condicin (condicionamiento). El primero de ellos suele ser suficiente y muestra un problema de multicolinealidad asociado a una variable en concreto si es mayor de 10. Al aplicar a nuestro ejemplo de regresin mltiple estas opciones obtenemos (relevante para el diagnstico de colinealidad), la tabla 26.
Tabla 26. Resultados de regresin lineal mltiple por pasos

Como puede verse, ninguno de los predictores parece generarnos problema alguno de multicolinealidad: ni visto con la tolerancia, ni visto por el factor de inflacin de la varianza. 5.1.3. Validacin cruzada Un aspecto crucial de cualquier tcnica estadstica es el de la replicacin, la generalizacin de los resultados a muestras de la misma poblacin. En el caso de la regresin simple y mltiple el problema se agudiza por la capitalizacin del azar que se produce, entre otros problemas, como que, por ejemplo que simplemente aumentando el nmero de predictores se obtienen predicciones mayores aunque stos no aporten nada. Por lo tanto, es muy necesario, en ocasiones realizar estudios de validacin cruzada. La validacin cruzada exige una divisin aleatoria de la muestra en dos mitades (ms partes en el caso de doble validacin cruzada). En ocasiones esta divisin no es aconsejable dado que nos dejara con un tamao muestral demasiado pequeo en nuestra muestra como para que nuestra estimacin fuera adecuada. Si se da este caso, la validacin cruzada ha de esperar a la recogida de otra muestra de la misma poblacin. Mientras tanto solamente podemos utilizar la R al cuadrado ajustada para tener una mejor idea de la capacidad predictiva del modelo sin estar influida por el tamao muestral ni el nmero de predictores, por lo que nos resultar de especial utilidad para comparar regresiones mltiples de distintas muestras y de tamaos desiguales.

99

Si la muestra que tenemos es grande podemos proceder a un estudio propiamente de validacin cruzada. Para ello hace falta dividir de forma aleatoria, mediante las herramientas de seleccin de SPSS, la muestra (pongamos 1000 sujetos o participantes) en dos submuestras de aproximadamente el mismo tamao. Ahora cabran dos posibilidades, la primea de ellas simple, que sera calcular la regresin en las dos muestras por separado y comparar los resultados, siempre en valores no estandarizados. Este procedimiento nos puede ofrecer una informacin valiosa pero de carcter ms bien cualitativo y difcil de ponderar. Un mejor procedimiento consiste en llevar a cabo una validacin cruzada propiamente dicha. Se calculara la regresin en una muestra (muestra de estimacin) obteniendo una estimacin de los coeficientes de regresin. En la segunda muestra (de validacin) se calcula la regresin obteniendo los valores predichos segn esta nueva estimacin. Adicionalmente se calculan los valores predichos para los sujetos de la muestra de validacin en base a la ecuacin de regresin hallada en la muestra de estimacin. La correlacin (en la muestra de validacin) entre ambos tipos de valores predichos nos ofrece una medida cuantitativa de la capacidad explicativa de nuestra regresin.

5.2. Anlisis factorial El objetivo general del anlisis factorial es descubrir las diferentes dimensiones de variabilidad comn existente en cierto campo de fenmenos que se hace operativo a partir de un grupo de variables. Algunas de las situaciones o preguntas de investigacin que pueden contestarse desde el anlisis factorial. Se tienen medidas de un conjunto de variables y se desea tener una idea sobre qu construcciones pueden usarse para explicar las intercorrelaciones entre estas variables. Se desea probar una teora sobre el nmero y la naturaleza de las dimensiones subyacentes a un nmero de variables. Se desea saber qu mide un cuestionario: cuantos conceptos diferentes, y qu contenidos (preguntas) agrupa. Como puede verse, en todos los casos se asume que un cierto nmero de variables estn altamente correlacionadas entre s, porque comparten algo en comn. Por ejemplo, se asume que los distintos sntomas de depresin deben darse conjuntamente, covariar, en una muestra de depresivos. Otro ejemplo puede ser que se asume que si se preguntan varias preguntas de razonamiento numricos, los nios con alta capacidad matemtica tendern a contestar bien a todas, y los de baja capacidad matemtica tendern a contestar mal a todas, y por tanto que las respuestas covariarn (estarn relacionadas) porque subyace a las respuestas una capacidad comn. Nosotros vamos a realizar como ejemplo una factorizacin de una escala muy conocida en psicologa, la escala de autoestima de Rosenberg, que se dise para medir un solo factor de autoestima global en poblacin general. Presenta 10 items o preguntas de respuesta tipo Likert de cinco anclajes. En nuestro caso disponemos de una muestra de ms de seiscientos adolescentes que contestan al cuestionario. Los 10 items de esta 100

escala, junto con algunas otras variables se encuentran en la base de datos ejemplo1.sav, con la que el lector puede practicar. 5.2.1. Pasos previos al anlisis factorial Existen requisitos previos a un anlisis de varianza. Uno de ellos tiene que ver con el tamao de muestra necesario para realizarlo. Se aconseja no menos de 10 participantes por cada variable observable que se quiera factorizar. Adicionalmente hay un requisito de escala de medida, en principio el anlisis factorial debe realizarse sobre variables observables cuantitativas, o al menos semi-cuantitativas con un nmero razonable de categoras de respuesta. En cualquier caso, y a nivel estadstico, existe el requisito previo de variables correlacionadas. Como se asume que las variables estn altamente correlacionadas entre s, ya que de otra forma no pueden tener nada en comn, el primer paso para hacer un anlisis factorial es comprobar que efectivamente esa es la situacin. Tiene, por tanto, que ponerse a prueba, previo al anlisis factorial que los datos son susceptibles de ser factorizados. Las pruebas ms utilizadas para evaluar si unas determinadas variables son adecuadas para ser factorizadas, para aplicarles un anlisis factorial son la prueba de esfericidad de Bartlett y la medida de adecuacin muestral de Kaiser-Meyer-Olkin (KMO). Ambas pueden obtenerse en SPSS. Para obtenerlas en SPSS hay que entrar en analizar, dentro de este men en reduccin de datos y anlisis factorial. En la ventana que se abre, ver figura 48) en el botn de descriptivos estn ambas opciones (Bartlett y KMO) y son seleccionables (ver figura 49).
Figura 48. Ventana de anlisis factorial en SPSS

101

Figura 49. Ventana de anlisis factorial en SPSS: descriptivos

Los resultados de ambas pruebas, para la factorizacin de las 10 variables del cuestionario de Rosenberg, se pueden ver en las siguiente tabla extrada de SPSS (tabla 27).
Tabla 27. Resultados de la prueba de Bartlett y la medida KMO

En el caso de la medida de KMO se espera que los valores sean elevados para que se acepte que las variables son factorizables. Kaiser (1974) plantea la siguiente escala para interpretar los resultados de ndice KMO: Prximas a 0.9 valores maravillosos Cercanas a 0.8 meritorios A 0.7 como medianas En torno a 0.6 son mediocres Y 0.5 o menores inaceptables En el caso de la prueba de esfericidad de Bartlett, el estadstico se distribuye aproximadamente como una chi-cuadrado, y si su resultado resulta estadsticamente significativo (p< 0.05) para un determinado valor de alfa se considera que puede realizarse el anlisis factorial. Para nuestros caso, el valor de KMO es de 0.856, lo que sita nuestra evaluacin de los datos como entre meritorios y maravillosos para realizar un anlisis factorial, y el valor de la prueba de esfericidad de Bartlett es estadsticamente

102

significativo (p< 0.05), lo que tambin indica que las 10 preguntas del cuestionario de Rosenberg son factorizables. 5.2.2. Tipos de anlisis factorial Existen diversos tipos de anlisis factorial. Una primera divisin divide el anlisis factorial en exploratorio frente a confirmatorio. El ltimo de ellos no se realiza en la aplicacin SPSS, por lo que no lo trataremos, nos centraremos en anlisis factorial exploratorio. No obstante, y como breve descripcin de ambos, mientras en el caso del anlisis factorial confirmatorio se parte de una idea terica de cmo se estructuran las variables, y a partir de esto se pone a prueba si es cierto o no para los datos observados, en el caso del exploratorio es al contrario, sin tener una idea a priori se pide a los datos que nos muestren su estructura. Una vez dentro de anlisis factorial exploratorio existe una diversidad de tcnicas ligeramente diferentes, en funcin de qu mtodos se escojan para extraer los factores o componentes comunes a las variables. Tres de entre los principales mtodos para extraer factores o componentes son: componentes principales, mxima verosimilitud y mtodo alfa. Todos ellos estn montados en SPSS, en reduccin de datos anlisis factorial. El defecto del programa es obtener un anlisis de componentes principales, como puede verse en la figura 50. Nos centraremos en este tipo de extraccin por diversos motivos: Con suficientes variables y sujetos suele ofrecer resultados similares a los otros mtodos, Es matemticamente ms simple No presenta el problema de indeterminacin de la escala Es el ms empleado
Figura 50. Ventana de anlisis factorial de SPSS

103

5.2.3. Cuntos componentes retener? Por defecto el anlisis de componentes principales calcula tantos componentes como variables observables hay, porque as explica el 100% de la varianza. No obstante esto no presenta lgica, porque precisamente se realiza el anlisis para reducir el nmero de variables originales a un nmero menor que tengan mayor peso terico. As pues, es necesario tener algunos criterios para saber dnde cortar y decidir que las 10 variables originales quedarn razonablemente representadas en p componentes. Existen diversos criterios, todos ellos parcialmente subjetivos y que no pueden aplicarse a ciegas, sino en cuidadosa interaccin con la teora, para que el resultado tenga sentido. De entre los criterios ms utilizados tenemos: 1. Escoger solamente componentes que tengan valores propios mayores que uno. Esto es tanto como decir que no se aceptarn componentes salvo que sean, a menos, igual de importantes que una variable observable. Este criterio, propuesto por Kaiser se conoce como criterio de Kaiser. 2. El grfico de sedimentacin. Bsicamente ordena en un grfico los componentes en funcin de cunta varianza explican y donde se produce un salto abrupto dejan de cogerse componentes adicionales a los ms explicativos. Tambin se conoce como Scree-test de Cattell. 3. Un test estadstico propuesto por Lawley, bastante afectado por el tamao muestral. 4. Retener componentes hasta que se explique un porcentaje dado de la varianza (tpicamente en torno a un 70%). De todos estos mtodos es la combinacin de los dos primeros la que ofrece mejores resultados a nivel prctico, siempre buscando que la interpretacin de los factores retenidos y los no retenidos se sostenga tericamente. Para pedirle a SPSS el grfico de sedimentacin y autovalores mayores de 1 hay que seleccionar lo oportuno en la ventana de extraccin de anlisis factorial en el SPSS, cuya forma se presenta, con las oportunas especificaciones en la figura 51.
Figura 51. Ventana de anlisis factorial de SPSS: extraccin

104

5.2.4. Rotaciones Los factores o componentes resumen un nmero elevado de variables en unos pocos componentes, pero a menudo estos componentes son difciles de explicar, resulta difcil interpretar lo que representan, ya que mezclan muchas aportaciones diferentes. Las rotaciones, que presentan aspectos tcnicos en los que no entraremos, sirven para hacer ms fcilmente interpretables los factores o componentes, y las hay de dos tipos: Ortogonales: Los factores resultantes tras la rotacin son independientes entre s. Oblicuas: Los factores resultantes pueden correlacionar entre s. De entre las rotaciones ortogonales las ms utilizadas son la quartimax y la varimax, y sta ltima es la que SPSS realiza por defecto. Cuando se quiere resumir las variables observables de forma que los factores resultantes no se solapen, por ejemplo al predecir un criterio, las rotaciones ortogonales son adecuadas. Cuando, por contra se sospecha que los factores puede guardar relaciones entre s, como al buscar factores en un cuestionario de un constructo, conviene realizar rotaciones oblicuas, de entre las que oblimin es una opcin razonable en SPSS. Cuando se realiza una rotacin oblicua, para interpretar los factores se debe mirar dos matrices, la matriz patrn y la matriz de estructura. La primera dice la relacin de la variable con el factor controlando por el resto de variables observables, la segunda es simplemente la saturacin factorial, o sea, la correlacin del factor y la variable. 5.2.5. Qu saturaciones interpretar? Solamente las variables observables que saturan (se relacionan) de forma elevada con el componente sirven para definirlo, en otras palabras, pesan mucho ms en la interpretacin. Por ello, hay que poner ciertos lmites a qu saturaciones considerar como representativas del factor. Hay ciertas reglas evidentes: Que sean estadsticamente significativos. El error estndar es 1/ Que los sean al 0.01, no al 0.05 por la capitalizacin del azar Que tengan valores absolutos iguales o superiores a 0.4

5.2.6. Un ejemplo Realizaremos un anlisis factorial sobre los 10 items del cuestionario de Rosenberg, que se supone unifactorial. Los datos son los del ejemplo1.sav. Realizaremos un anlisis de componentes principales con rotacin varimax, pidiendo que extraiga los factores con valores propios mayores de 1. Adicionalmente en opciones pediremos que no nos muestre las saturaciones que sean menores de 0.10, mediante la orden que aparece en la figura 52.

105

Figura 52. Ventana de anlisis factorial de SPSS: opciones

Los resultados del anlisis factorial se presentan en una serie de tablas. La primera de stas nos ofrece el porcentaje de varianza explicada de cada uno de los componentes retenidos, antes y despus de la rotacin. En este caso, como en todos, el primer componente es el que ms explica. Especialmente antes de la rotacin es cuatro veces ms importante que el segundo.
Tabla 28. Resultados del anlisis de componentes principales: autovalores y varianza explicada

El grfico de sedimentacin nos ofrece alguna duda sobre que la solucin de dos componentes sea la mejor, ya que parece que el factor ms importante es el primero (ver figura 53).

106

Figura 53. Grfico de sedimentacin (scree-test)

La siguiente tabla (tabla 29) muestra las saturaciones factoriales, que nos permitiran interpretar los componentes. La mayor parte de los tems del cuestionario saturan de forma elevada solamente en uno de los componentes, pero hay al menos tres tems que claramente saturan elevado en ambos componentes.
Tabla 29. Saturaciones factoriales en los dos componentes extrados

A la vista de lo anterior hemos optado por realizar un nuevo anlisis de componentes principales pero forzando a que se extraiga un solo componente, con lo que no es necesaria la rotacin. Los resultados de este nuevo anlisis, que pueden verse 107

en las tablas a continuacin muestran que aunque el porcentaje de varianza explicado es relativamente bajo (tabla 30), todos los tems, quiz con la excepcin del primero, saturan (tabla 31) de forma elevada en un nico componente, que dada la teora y resultados previos de Rosenberg interpretamos como autoestima global.
Tabla 30. Resultados del anlisis de componentes principales: autovalores y varianza explicada

Tabla 31. Saturaciones factoriales en el nico componente extrado

108

INDICE
1. Conceptos previos 1.1. 1.2. 1.3. 1.4. 1.5. La estadstica en el mtodo cientfico Tipos de diseos de investigacin Conceptos estadsticos bsicos y definicin Medicin, variables y escalas de medida Muestreo 2 2 3 5 7 11

2. Introduccin de datos 20 2.1. 2.2. 2.3. 2.4. 2.5. 2.6. 2.7. Introduccin de datos y manejo bsico de SPSS 20 Datos omitidos Fundir archivos Seleccin de datos Transformacin de variables Segmentado de archivos Recodificacin de variables 21 22 23 27 31 37

3. Tcnicas estadsticas descriptivas bsicas: representaciones grficas y estadsticos descriptivos 36 3.1. 3.2. 3.3. Caractersticas estadsticas descriptivas a estudiar 36 Representaciones grficas Estadsticos descriptivos 41 54 63 63 66 77 84 88 91 91

4. Relaciones bivariadas 4.1. 4.2. 4.3. 4.4. 4.5. Relaciones entre variables categricas Pruebas t y anlisis de la varianza (ANOVA) Correlacin y regresin simple Algunas pruebas no paramtricas Fiabilidad y validez: integracin

5. Relaciones complejas 5.1. Regresin lineal mltiple

109

5.1.1. macin 5.1.2. nstico en regresin 5.1.3. dacin cruzada 5.2. Anlisis factorial 5.2.1. os previos al anlisis factorial 5.2.2. s de anlisis factorial 5.2.3. ntos componentes retener? 5.2.4. aciones 5.2.5. saturaciones interpretar? 5.2.6. ejemplo

Esti 91 Diag 96 Vali 99 100 Pas 101 Tipo 103 Cu 104 Rot 104 Qu 105 Un 105

110