Está en la página 1de 110

INTRODUCCIN A LA

METODOLOGA
CUANTITATIVA CON SPSS
Dr. Jos Manuel Toms

1
Tema 1.Conceptos previos

1.1. La estadstica en el mtodo cientfico


La estadstica aplicada encuentra su lugar dentro de la fisioterapia en el momento en que
se deban analizar datos empricos para extraer conclusiones vlidas y fiables. En tanto
en cuanto estos datos vengan del uso de un mtodo cientfico, y tengan por tanto una
calidad que permita incorporarlos a la base de conocimiento.
Por tanto, partiremos de que los datos que aprenderemos a analizar de forma
aplicada son datos que proceden de una correcta aplicacin del mtodo cientfico,
mtodo hipottico-deductivo, por cualquiera de los diseos de investigacin habituales.
Repasaremos algunos de los diseos de investigacin ms relevantes, pero antes
plantearemos de forma grfica el lugar de la estadstica dentro de la solucin de
problemas cientficos (ver figura 1).
Figura 1
Lugar de la estadstica en la resolucin de problemas cientficos

Planteamiento del problema

Formulacin de
hiptesis

Estadstica
Contrastacin Sirve para analizar los
emprica de datos que son siempre
hiptesis necesarios para
poner a prueba las
hiptesis

Lo que la grfica 1 nos muestra es el momento en que la estadstica, como ciencia


que trata de extraer conclusiones de los datos, y por bsico que sea su uso, resulta
necesaria para resolver un problema cientfico. Supongamos un ejemplo prctico de la
grfica antes planteada.
Planteamiento del problema: Un investigador en fisioterapia cree el
distinto agrupamiento de grasa corporal en el cuerpo humano puede dar lugar a
diferencias en la vejez en desgastes de cadera.
Formulacin de hiptesis. Dado el anterior problema la hiptesis que se
plantea es que hombres y mujeres (cuya distribucin de grasa corporal es

2
inherentemente diferente), tendrn problemas de desgaste de cadera con distinta
probabilidad.
Contrastacin (puesta a prueba) emprica de hiptesis. Para ponerlo a
prueba es necesario escoger una cierto nmero de hombres y mujeres mayores,
suficientemente elevado y representativo de todos los sujetos para los que se
quiere conocer la respuesta al problema, y comparar si efectivamente presentan
problemas de desgaste de cadera con mayor probabilidad
Como efectivamente se trata de contraste emprico, ser necesario medir (obtener
datos empricos) de cada persona escogida, hombre o mujer, sobre el desgaste de sus
caderas. Es a partir de aqu, en esta fase de contraste, donde la estadstica juega su
papel.
Primero, si se quiere una muestra suficientemente grande y representativa,
es necesario acudir a la estadstica para obtener muestras mediante los
mtodos de muestreo apropiados. Se obtendr as una muestra de personas
mayores mujeres y otra de varones.
Segundo, se tratar de ver si, efectivamente hay diferencias en el desgaste
de caderas de ambos grupos (hombres y mujeres). Pero la comparacin no
puede ser persona a persona, sino de forma general. Se requiere por tanto
resumir cada grupo de alguna manera. Por ejemplo, se puede calcular la
proporcin de varones mayores con problemas de cadera y la proporcin
de mujeres, lo que implica clculos estadsticos de ordenacin y resumen
de datos. O puede calcularse la media de desgaste de cadera en los
hombres mayores y la media de desgaste de cadera en mujeres mayores.
Tambin es otra forma estadstica de resumir datos.
Tercero, dado que las muestras, an siendo representativas, difcilmente
pueden ser idnticas a todos los sujetos de inters de donde se han
extrado, es necesario considerar que puede haber cierta cantidad de error.
Por tanto, parece razonable evaluar la cuanta de ese error antes de
asegurar que las diferencias encontradas, si las hay, son relevantes. La
estadstica permite cuantificar ese error.

1.2. Tipos de diseos de investigacin


Los distintos tipos de diseos de investigacin son los que establecen lmites a la
capacidad de generalizacin de las conclusiones y al grado de seguridad que se tiene
sobre cmo son las relaciones entre variables, por ejemplo, si las relaciones son de tipo
causal o no.

3
Figura 2
Principales tipos de diseos de investigacin

Experimental No Experimental

Caracterstica: Caractersticas:
Manipulacin Ni manipulacin
Ni aleatorizacin

Cuasi- Encuesta
Experimental
Experimental

Aleatorizacin Observaciona
Sin l
aleatorizacin
Cualitativo

Aunque hay diversas clasificaciones de los diseos de investigacin, una de las


ms habituales es la que se presenta en la figura 2. La primera divisin se produce entre
los diseos experimentales y los no experimentales. La forma de distinguir a ambos es,
fundamentalmente, que en los diseos experimentales se produce la manipulacin de
una o ms variables para ver cul es su efecto sobre una o varias variables dependientes.
La manipulacin implica que es el investigador el que decide la presencia y el grado de
la variable manipulada. Veamos ejemplos de diseo experimentales en sentido amplio.
Supongamos que un investigador est interesado en saber si determinadas dosis de
frmaco a tomar durante un mes a diario puede mejorar las articulaciones de corredores
de fondo veteranos (mayores de 40 aos). Para ponerlo a prueba recluta a 200
corredores veteranos voluntarios y los divide al azar en cuatro grupos de 50. A un grupo
simplemente no le da frmaco, a otro le da una dosis de 1mg/da de frmaco, a otro
2mg/da, y a otro 3mg/da. Ha manipulado la dosis de frmaco porque ha decidido sobre
su presencia o no (en el grupo 1 no hay frmaco, es un grupo control) y el grado de 1 a
3 mg/da. Tras esto mide sus articulaciones en una serie de medidas al mes, para evaluar
si el frmaco mejora. Este es un diseo experimental y, dentro de experimental es
experimental propiamente dicho, porque se ha manipulado, pero tambin el investigador
ha elegido al azar qu sujetos van a qu grupo, lo que aade la aleatorizacin.
Supongamos que el mismo investigador tiene el mismo problema, y elige las
mismas dosis, pero en lugar de tener la posibilidad de elegir quin forma parte de los
cuatro grupos al azar. Solamente tiene la posibilidad de ir a cuatro clubes de atletismo
amateur y: en uno medir sin dar dosis de frmaco; a otro club dar la dosis de 1mg/da;
etc. As que no coloca a los sujetos al azar (aleatorizacin), sino que los cuatro grupos
son naturales. Por tanto se ha producido manipulacin, pero no aleatorizacin, por lo
que estamos ante un diseo cuasi-experimental o de grupos naturales.

4
Ahora supongamos que simplemente el investigador tiene la duda de si los atletas
veteranos hombres presentan peores articulaciones que las atletas veteranas mujeres. En
otras palabras lo que cree el investigador es que el sexo puede afectar a las
articulaciones a esas edades. As que el sexo es la variable que afecta (independiente) y
la variable afectada las articulaciones (en cualquier medida que se quiera tomar de
ellas). Evidentemente no se manipula ni se aleatoriza, ya que el investigador no decide
en qu grado se posee la caracterstica sexo, ni quin va a ir (al azar) a un sexo u otro
porque no es posible. Ene se caso el estudio es no experimental. La divisin de los no
experimentales en de encuesta, observacionales y cualitativos es un poco ms dudosa,
pero en general puede decirse que se trata de encuesta cuando se miden muchas
variables y tpicamente las contesta el propio sujeto (bien entrevistado, bien dejndole
una encuesta para que la rellene). Se habla de observacional cuando se trata de medir a
unos pocos sujetos en una serie de conductas por parte de uno o varios observadores
externos. Generalmente se calculan frecuencias de las conductas en ciertos periodos de
tiempo. Se registran conductas. Y finalmente el cualitativo es el estudio en profundidad
de unos pocos sujetos, normalmente considerados prototpicos.

1.3. Conceptos estadsticos bsicos y definicin


A partir de una definicin de estadstica iremos desgranando algunos conceptos muy
bsicos de esta ciencia. Bsicos, pero totalmente necesarios para entender la forma de
aplicarla razonadamente. La estadstica puede definirse de la siguiente forma (Amn,
1986):
Ciencia que recoge, ordena y analiza los datos de una
muestra de cierta poblacin, y que, a partir de esa muestra
valindose del clculo de probabilidades, se encarga de hacer
inferencias acerca de la poblacin
Esta definicin presenta dos conceptos claves, que son los de poblacin y muestra.
Adems presenta otros aspectos importantes, como la descripcin de las funciones de la
estadstica o anlisis de datos y la nocin de inferencia. Vayamos primero a los dos
conceptos clave: poblacin y muestra.
Poblacin sera todo el conjunto de objetos de inters y stos pueden ser
finitos o infinitos. Se dice objetos de inters porque, aunque habitualmente
la estadstica trabaja con individuos, en ocasiones puede no ser ste el
caso. Por ejemplo, la totalidad de objetos a medir pueden ser todas las
fbricas de un pas, o las piedras de una determinada cantera. Ejemplos
ms comunes son los de querer conocer el nivel socioeducativo de una
provincia, y entonces que la poblacin sea todas las personas que viven en
un momento dado en esa provincia. Evidentemente la poblacin puede ser
finita o infinita, porque la totalidad de objetos de inertes pueden ser los
alumnos de una clase (30 personas), lo que es finito, pero tambin pueden
ser todos los hombres y esto es infinito (o casi infinito) porque en
principio incluye todos los hombres nacidos y los nacidos. A efectos
prcticos las poblaciones infinitas y prcticamente infinitas o
extremadamente grandes no suponen una diferencia prctica relevante.
La muestra, por su parte, supone cualquier subconjunto extrado de la
poblacin, por cualquier mtodo. Por ejemplo es cuando el profesor que
delante de sus treinta alumnos decide escoger solamente a 10 para realizar

5
una prueba y as conocer el nivel intelectual de sus alumnos. Sea cual sea
la forma de escoger a esos 10 alumnos, lo que consigue es siempre una
muestra. Puede decidir, por ejemplo, poner 30 nmeros en un bombo y
extraer 10 bolas de l, lo que constituye un procedimiento aleatorio. O
puede escoger a los 10 que se sientan en las primeras filas, lo que
difcilmente nos ofrece una muestra azarosa de individuos. Sea cual sea la
forma de obtener a los 10 sujetos el resultado es una muestra de tamao
diez, procedente de una poblacin de tamao treinta.
As que la estadstica trabaja o bien con la totalidad o con un subconjunto de los
datos que se quiere estudiar, o sea, con una poblacin o con una muestra. Lo que hace
con ellas es recogerlas (escoger el mejor mtodo para recogerlas), ordenarlas (plantear
alguna forma lgica de ordenacin, como menor a mayor) y analizarlas (extraer de ellas
el mximo de informacin posible, entenderlas).
Por tanto la recogida, ordenacin y anlisis puede hacerse con la poblacin o con
la muestra. Estas tres funciones pueden sintetizarse en estudiar la muestra y/o la
poblacin. Si stas se estudian por separado, entonces estamos ante un anlisis de datos
o una estadstica descriptiva. Tenemos un conjunto de individuos que presentan cierta
informacin en algunos aspectos que nosotros queremos estudiar racionalmente. Los
recogemos, los ordenamos y los analizamos.
Pero si entendemos algo de las leyes de la probabilidad, y su lgica, entonces
rpidamente nos daremos cuenta de que una muestra se diferencia de la poblacin en un
aspecto fundamental: no incluye todos los objetos de inters. Por lo tanto, no tiene toda
la informacin. Es una informacin restringida, no plena.
Pongamos un ejemplo: queremos saber la altura y peso que tiene en la actualidad
la poblacin espaola nacida entre 1980 y 2000. Queremos informacin sobre una
poblacin, todos los nacidos entre 1980 y 2000, en una serie de caractersticas. En este
caso, la altura y el peso. Las opciones que tenemos son medir a todos los nacidos entre
esos aos en altura y en peso. Evidentemente esto presenta dificultades: primero es muy
costoso medir a todos estos individuos, es difcil recogerlos. En algunos casos puede
incluso ser muy difcil o imposible. Algunos de los nacidos entre 1980 y 2000 de
nacionalidad espaola han muerto. Decidimos, por tanto, escoger solamente una
muestra (un subconjunto de toda la poblacin). Esta es una decisin sobre cmo
recogerlos. Podemos decidir escoger varias ciudades de la geografa espaola, al azar, y
medir la altura y peso de un cierto nmero de ciudadanos de ella, de nacionalidad
espaola, y que cumplan con la restriccin de nacimiento entre 1980 y 2000. Finalmente
escogemos un total de 1000 personas en un total de 20 ciudades espaolas.
Evidentemente, a nadie se le escapa que esos 1000 individuos no tienen porqu ser
idnticos al milmetro en altura a la poblacin, o idnticos al miligramo en peso al total
de la poblacin. Es decir, representan a la poblacin, pero solo tienen cierta
probabilidad de ser iguales que ellos. O incluso, mejor dicho, se parecen a la
poblacin, pero solamente con ciertos mrgenes de error. La muestra, por tanto, y este
es el fondo del asunto, sirve no para medir a la poblacin, sino para inferir lo que
ocurre en la poblacin. Por tanto, cuando la muestra se usa no como un fin en s mismo,
sino como un medio para conocer la poblacin, entonces estamos ante anlisis de datos
inferencial.
Concluyendo, la estadstica, es la ciencia que recoge, ordena y analiza datos. En
tanto que los datos vienen de una poblacin o de una muestra, pero se tratan en s
mismos, estamos ante la estadstica descriptiva, mientras que si se relaciona lo obtenido

6
en la muestra con lo que se cree que ocurre en la poblacin, estamos ante estadstica
inferencial.
As si disponemos de una poblacin completa, podemos estar interesados en medir
alguna de sus caractersticas. Por ejemplo, si somos profesores en un colegio nuestra
poblacin de inters puede ser los alumnos de una clase de segundo de la ESO. Si
estamos interesados en conocer su rendimiento en matemticas tendremos que hacerles,
como mnimo un examen de matemticas a cada uno de ellos, medirlos. Si queremos
resumir el nivel de matemticas de toda la poblacin calcularemos sobre estos datos
algn valor resumen. Por ejemplo la proporcin de aprobados o la media de todos los
exmenes.
Si los alumnos de la clase no son la poblacin de inters, sino una muestra de
todos los alumnos de segundo de ESO del colegio (que s son, en este caso la poblacin
de inters), la operacin puede repetirse. Se hacen los exmenes de matemticas
correspondientes y se obtienen las notas de los alumnos de la clase. Si se quieren
resumir, se puede hacer lo mismo que en el caso anterior: por ejemplo la proporcin de
aprobados o la media de todos los exmenes.
Ahora bien, ambas situaciones, an siendo muy similares no son idnticas desde el
punto de vista estadstico:
Los valores obtenidos en la poblacin (la media de matemticas y la
proporcin de aprobados del primer caso) se llaman parmetros y se
representan por letras griegas. En concreto la media es y la
proporcin .
Los valores obtenidos en la muestra (media y proporcin del segundo
caso en que los alumnos son solamente una muestra) se llaman
estadsticos y se representan por letras latinas. En concreto la media
es y la proporcin p.
Los parmetros y los estadsticos tienen caractersticas muy diferentes. La media
de rendimiento en matemticas del primer caso, en que los alumnos son todos los de
inters (poblacin), y asumiendo que el examen representa de forma fiable y vlida el
conocimiento requerido en matemticas, los valores obtenidos representan
perfectamente a los alumnos de inters, sin error. Por contra, los estadsticos son valores
calculados en una muestra de la poblacin de inters, por lo que no puede considerarse
que representen perfectamente a todos los alumnos de inters. Slo lo representarn
perfectamente si la muestra coincide exactamente con la poblacin, lo que es altamente
improbable. Presentar, por tanto en general un error muestral, en general, tanto mayor
cuanto ms distinta sea la muestra de la poblacin (cuanto ms pequea sea la muestra,
por ejemplo. En resumen los parmetros no presentan error estadstico, los estadsticos
s, y ste es conocido por error muestral. Lo que s comparten es que ambos son valores
obtenidos sobre objetos de inters en caractersticas de inters, y para obtener valores
hay que medir las caractersticas de inters y a la medicin dedicaremos el siguiente
punto.

1.4. Medicin, variables y escalas de medida


Medir consiste en atribuir nmeros a las caractersticas que presentan los elementos de
una poblacin y/o una muestra. Por su parte las caractersticas a medir se llaman

7
variables, mientras que las distintas modalidades de cada variable dan lugar al rango de
valores.
Pongamos ejemplos de estos conceptos. Podemos estar interesados en conocer
algunas caractersticas de los alumnos de fisioterapia. Veamos algunas de esas diversas
caractersticas:
[a] Entre las caractersticas a conocer tenemos el sexo de los alumnos. A
partir de aqu el sexo es una variable, ya que presenta diversas opciones o
modalidades en que los alumnos pueden variar (de ah variable). Esta
variable puede presentar dos modalidades: hombre y mujer. Salvo que
todos los alumnos sean hombres o mujeres, lo que convertira la variable
en una constante (una sola modalidad), medir consistir en este caso en
numerar a hombres y mujeres. Por ejemplo: mujer= 1 y hombre= 2. La
nica regla seguida en este caso es dar un nmero distinto a cada
modalidad, pero salvo eso, se podra haber dado cualquier valor.
[b] Otra de las caractersticas que se quieren medir es el grado de motivacin
hacia la carrera que presentan. Para ello se les hace la pregunta, desde nada
hasta mucho, cul es el grado de motivacin que tienes por cursar esta
licenciatura? Y se sita una escala graduada con extremos Nada y Mucho
y cinco puntos. Se decide que el que conteste nada ser un 1, y cada
anclaje superior a nada ir sumando 1 punto nuevo. As hasta hacer mucho
igual a un cinco. Aqu las reglas seguidas son dar a cada anclaje un
nmero, pero no se dan de cualquier forma, sino dando un orden de menor
(nada) a mayor (hasta mucho).
[c] Se quiere saber tambin los conocimientos previos de matemticas. Para
ello se realiza un examen con 20 preguntas de matemticas con tres
alternativas de respuesta, de las que solamente una es correcta. Se decide
dar notas desde 0 (ningn acierto) hasta 10 (todos correctos). Adems hay
que realizar alguna frmula para corregir la posibilidad de acertar por
simple azar de entre las tres respuestas posibles.
Todo esto son ejemplo de caractersticas para medir, que dan lugar en este caso a
tres variables, sexo, motivacin y conocimiento de matemticas, con su rango de
valores posibles (1-2; 1-5 y 1-20, respectivamente).
Las variables pueden clasificarse de acuerdo a diversos criterios, algunos de los
cuales son relevantes para poder tratar correctamente los datos posteriormente (ver
figura 3).

8
Figura 3
Tipos de variables en funcin de criterios clasificatorios

Stevens (1951, 1957) plante que las variables podan tener distinto estatus
mtrico, diferente escala de medida. Y planteo cuatro posibles escalas de medida, que
desde entonces se han empleado como una clasificacin de variables que se arrastra
incluso en paquetes estadsticos. Las cuatro escalas de medida de Stevens eran:
Nominal: Aquellas variables que en verdad no tienen nmero natural, sino
que responden a cualidades distintas. Por ejemplo el sexo, no hay siquiera
orden. La religin que se confesa, que no puede siquiera ordenarse. El club
de ftbol del que se es socio. El tipo de gnero de cine que gusta, etc.
Ordinal. Se pueden ordenar las distintas modalidades, pero no es seguro
que entre una modalidad y otra haya exactamente la misma distancia
real. Por ejemplo si se pregunta cunto te gusta el gobierno? Y las
opciones son nada, algo y mucho. No es seguro que para pasar de nada a
algo haya la misma distancia que de algo a mucho.
Intervalo. Cuando no solo hay ordenamiento sino que los nmero que
tienen misma distancia entre ellos mantienen esa distancia en la realidad
tambin. Si, por ejemplo medimos altura en centmetros y un sujeto tiene
170cm y otro 190cm, es evidente que se diferencian 20cm entre s. Otros
dos sujetos de 140cm y 160cm estn en otro punto d la escala, pero siguen
teniendo la misma distancia entre ellos que los dos primeros.

9
Razn. Cuando se cumple las condiciones de la escala de intervalo, pero
adems el cero es absoluto (existe en realidad, al menos potencialmente).
Por ejemplo el nmero de hijos.
Por otro lado, desde un punto de vista ms estadstico, las mayores diferencias
entre variables se hacen entre las categricas o cualitativas, que se corresponderan con
las nominales y el resto, en que el uso de nmeros es algo ms que una mera etiqueta.
An as se divide tambin en semi-cuantitativas, en que solamente cuenta el orden,
como por ejemplo las posiciones de llegada de una carrera, y las cuantitativas, en que el
nmero tiene significado en s mismo representa relaciones cuantitativas
razonablemente claras.
Por otra parte, las variables se pueden distinguir por el estatus que tienen en la
investigacin, por el papel que juegan. Aunque no son los nicos papeles, ya que otros
son posibles, los ms importantes son los de variables independientes y dependientes.
Veamos estos tipos con algunos ejemplos.
Variable independiente o predictora es la que en una investigacin dada se
asume que produce un efecto o es capaz de predecir a otra. Como ejemplo,
se puede pensar que la variable peso levantado en un banco de pesas tienen
un efecto sobre el desarrollo muscular. En este caso la variable
independiente ser el peso levantado. O se puede pensar que el
rendimiento en una asignatura puede depender de la motivacin que se
tenga a esa asignatura. En este ejemplo la motivacin se asume que tiene
un efecto sobre la nota.
Las variables dependientes o criterios son las que se ven afectadas en una
investigacin dada. Por ejemplo si queremos explicar el peso de una
muestra de personas, entonces la variable dependiente es precisamente el
peso, y habr que buscar en la investigacin qu variables independientes
pueden explicarlo, como la ingesta de caloras o el ejercicio fsico
realizado.
Evidentemente lo que en una investigacin puede ser variable independiente, en
otra puede ser dependiente y viceversa. Por ejemplo, la ingesta de caloras por da puede
ser una variable independiente que explique el peso, pero en otros casos podemos querer
explicar precisamente esa ingesta de caloras (se transforma en dependiente), en funcin
de, por ejemplo el poder adquisitivo.
Una vez se han medido a uno o varios individuos en una o varias variables,
entonces se obtienen observaciones. Cada observacin siempre ha de quedar
representada por un nico nmero, es por tanto una medicin. Las observaciones puede,
a su vez, dividirse en dependientes e independientes.
Las observaciones son independientes cuando la probabilidad de extraer
cualquiera de ellas no altera la probabilidad de extraer otra cualquiera. Mientras, las
observaciones dependientes o relacionadas son las que cualquiera de ellas altera la
probabilidad de obtener otra observacin cualquiera. Aunque esta es una simplificacin
enorme, grosso modo las observaciones independientes se suelen obtener al escoger
medidas de una serie de sujetos al azar, sujetos diferentes. Las observaciones
dependientes suelen coincidir con medidas repetidas de unos mismos sujetos. Por
ejemplo, si se escoge al azar una muestra de 10 estudiantes de la Universitat de Valncia
y se les mide su cociente intelectual, porque Alberto haya sacado 101, esto no nos dice
nada de qu observacin de CI tendremos de Juan, de aqu la independencia o falta de

10
relacin. Por el contrario si queremos observar a lo largo de su carrera los CI de estos 10
sujetos (medidas repetidas), el CI del primer ao de Alberto s nos dice algo (se
relaciona con) el CI del propio Alberto, medida repetida, en el segundo curso, luego a
priori ya sabemos algo del CI de ste y la segunda observacin se relaciona, no es
independiente de la primera. No obstante dejaremos esta distincin sobre observaciones
independientes y dependientes para detallarla ms adelante cuando se trate de cmo
situar unas y otras en los paquetes estadsticos y cmo analizarlas diferencialmente.
Si las observaciones vienen de muestreos aleatorios, se puede decir que a largo
plazo son representativas de la poblacin. Por el contrario si el muestreo no es aleatorio,
esto no puede asegurarse. Ahora veremos una introduccin a los diferentes tipos de
muestreo.

1.5. Muestreo
Las tcnicas de muestreo son algo ms que simples frmulas estadsticas que nos dicen
cuntas personas hay que seleccionar de una poblacin dada, si queremos cometer un
cierto error mximo al emplear tal o cul estadstico. El empleo de una herramienta de
muestreo adecuada es la que nos da confianza para la generalizacin de los resultados,
caso de que una muestra sea necesaria para analizar una poblacin, lo que es habitual
cuando la totalidad de la poblacin no est disponible. O no resulta razonable en
trminos de costes-beneficios medirlos a todos.
Efectivamente, el muestreo debe permitirnos analizar crticamente qu tipo de
muestra necesitamos, en base a los objetivos de la investigacin y los recursos
disponibles. Nos debe responder a tres preguntas:
[1] Necesitamos una muestra?
[2] Qu tipo de muestreo vamos a realizar?
[3] Qu tamao de muestra es necesario para cierto margen de error? (esta
ltima pregunta, por su complejidad no la abordaremos, pero se puede
encontrar informacin en cualquier manual estndar de muestreo)
La poblacin objetivo es el grupo ideal de objetos que sern sometidos al diseo de
encuesta. Hablamos de objetos, cuando casi siempre son sujetos, porque en ocasiones
podemos estar interesados no en que conteste la encuesta personas individuales, sino
casas, grupos de trabajo, compaas, etctera, por lo que no siempre la poblacin sobre
la que se desea realizar la investigacin est compuesta de personas. Menos
tcnicamente, la poblacin objetivo es el total de personas o cosas que desearamos
sobre la que queremos, en principio, analizar sus puntuaciones en una serie de variables.
En muchas ocasiones definir la poblacin objetivo parece muy sencillo. Por
ejemplo, un psiclogo deportivo puede estar interesado en la relacin entre motivacin
y rendimiento en pruebas de atletismo en la actualidad. Tal inters, en principio, parece
demandar una poblacin objetivo de todos los estudiantes de matemticas. Pero claro,
esto nos lleva a importantes cuestiones: de todas las edades? de todo el mundo?
Etctera, lo que puede hacer que la poblacin objetivo definida como ideal sea muy
grande, infinita o prcticamente infinita.
Otro ejemplo puede aclarar ofrecer otra visin,. Supongamos que los encuestadores
han sido contratados por una empresa de 10.000 empleados con el objetivo de saber la
satisfaccin laboral de stos, y sus relaciones con ciertas variables organizacionales,

11
entonces la poblacin objetivo es claramente el nmero total de empleados. Sin
embargo, si esa misma empresa desea saber la satisfaccin de las empleadas con nios
menores de tres aos con la carga de trabajo, entonces solamente las que estn en esa
situacin, del total de diez mil empleados, es la poblacin objetivo.
En general hay tres situaciones, por tanto, en las que resulta conveniente recoger
muestras, frente a medir la poblacin:
[1] Cuando la poblacin es tan grande que no es posible, para las posibilidades
de la investigacin, medir a todos.
[2] Cuando la poblacin es suficientemente uniforme como para que cualquier
muestra bien extrada sea una buena representacin de sta.
[3] Cuando el proceso de encuesta (la medicin) de los elementos es destructivo.
En estos casos se tienen que conseguir muestras, y stas deben escogerse mediante
alguno de los tipos de muestreo disponibles, que resulte adecuado para los fines de la
investigacin. Los principales tipos de muestreo pueden dividirse, con matizaciones, en
dos, probabilstico y no probabilstico.
El muestreo probabilstico presenta ciertas caractersticas, que son las que le
permiten ser el nico cientficamente vlido. En primer lugar, la probabilidad de
seleccin de cada miembro es conocida. Adems, la seleccin de un individuo
cualquiera del marco es independiente de la seleccin de cualquier otro individuo. El
supuesto bsico de este tipo de muestreo es que la gente que se selecciona como
muestra son, a la larga, como cualquier otra muestra extrada por el mismo
procedimiento. Los tipos de muestreos probabilsticos ms utilizados son: a) muestreo
aleatorio simple; b) muestreo estratificado; y c) muestreo por conglomerados o reas.
Por su parte el muestreo no probabilstico sera aquel en que la probabilidad de
seleccin de cada elemento del marco no es conocida, ni calculable. Son, en otras
palabras, aquellos tipos de muestreo en que la seleccin para la muestra se basa en algo
ms que el azar. Existen diversos tipos de muestreo no probabilstico, ya que pueden
realizarse recogidas de muestra en base a diferentes consideraciones no aleatorias.
Normalmente se distingue entre (Azorn y Snchez-Crespo, 1986): a) muestreo
intencional u opintico; b) muestreo sin norma.
Finalmente, puede hacerse una ltima distincin que incluira a aquellos tipos de
muestreo que s presentan caractersticas probabilsticas, pero no son totalmente
probabilsticos. En este sentido, Mosteller y Tukey (1954) hablan de muestreos
semiprobabilsticos superior e inferior, o tambin podemos encontrar el muestreo por
cuotas. En cualquier caso, todos estos tipos de muestreo, hay que tenerlo claro, no son
probabilsticos, y por lo tanto no garantizan, a la larga, la adecuacin de las muestras
para representar a la poblacin.

12
Figura 5. Tipos de muestreo

Muestreo aleatorio simple

PROBABILSTICO Muestreo estratificado

Muestreo por conglomerados o reas

Muestreo sistemtico
SEMI-
PROBABILSTICO Semiprobabilstico inferior

Semiprobabilstico superior

Muestreo intencional u opintico


NO PROBABILSTICO
Muestreo sin norma

Pasaremos ahora al detalle de todos estos tipos de muestreo, as como a algunas de sus
implicaciones.

Muestreo aleatorio simple. Desde un punto de vista general, se considera muestreo


aleatorio simple a aquel en que a priori todos los elementos de la poblacin tienen la
misma probabilidad de aparicin, sea sta finita o infinita. Una vez se sabe o se estima
un determinado tamao muestral, hay que pasar a seleccionar, aleatoriamente, los casos
que entrarn a formar parte de la muestra. Para ello es necesario tener un listado de
todos los sujetos de la poblacin, para, a partir de stos, obtener la muestra.

Muestreo estratificado. En el muestreo estratificado, los investigadores dividen o


clasifican a los distintos sujetos a distintas subpoblaciones o estratos, y despus
realizan un muestreo aleatorio simple dentro de cada estrato. Cada individuo ha de
pertenecer a un estrato, y cada individuo de ese estrato tendr la misma probabilidad de
ser escogido para formar parte de la muestra.
Para formar los estratos, se utiliza una o varias variables que sean de inters para
el investigador, y/o que estn relacionadas con el objetivo del estudio. As, por ejemplo,
los investigadores pueden estar interesados en el sexo de los sujetos y, en consecuencia,
decidir que hay que extraer la muestra al azar dentro de dos estratos, hombres y
mujeres. Otra variable importante para la encuesta puede ser la filiacin poltica, de
forma que se decida extraer la muestra al azar de varios estratos, cada uno de ellos
siendo un determinado partido u opcin poltica.

13
La estratificacin es el proceso por el que se asigna a cada una de las unidades de la
poblacin al subgrupo o estrato que le corresponde. Cada unidad de la poblacin, cada
sujeto, solamente puede aparecer en un estrato, por lo que los grupos definidos han de
ser mutuamente excluyentes y exhaustivos.
Los motivos principales para realizar un muestreo estratificado son:
Se necesita obtener estimaciones para subpoblaciones, de forma que no
puede dejarse al azar el que alguna de las subpoblaciones quede sin
representar o pobremente representada.
Dado que el muestreo estratificado siempre baja o mantiene como
mnimo igual la variabilidad muestral, se mejora la precisin de los
estimadores. Hay que tener en cuenta, no obstante, que la estratificacin
solamente aumenta la precisin de los estimadores aplicados a variables
que se encuentran relacionados con las variables que sirven para
estratificar.
En resumen, se estratifica para conseguir mejorar la representatividad de la muestra
y la precisin de la estimacin. No obstante, las variables que se utilicen para la
estratificacin debieran estar relacionadas con alguna o algunas de las variables objetivo
del estudio, pues de lo contrario se pagara el precio de una mayor complejidad sin la
consiguiente ganancia en precisin.
Una vez se ha estratificado, y por tanto se conoce el nmero de estratos relevantes,
queda todava por determinar el nmero de sujetos que se muestrearn en cada uno de
los estratos. Este proceso, el de determinar cuntos individuos de cada estrato van a ser
seleccionados para formar parte de la muestra (muestra total, que incluye todos los
estratos), se conoce como afijacin. Existen diversos tipos de afijacin, en funcin de
los intereses del estudio y de la estructura de la muestra. Los tipos de afijacin ms
importantes son (Azorn y Snchez-Crespo, 1986):
Afijacin uniforme Se toman en todos los estratos el mismo nmero de
sujetos, con lo que los estratos quedan igualados. Por supuesto, si este no es el
caso en la poblacin, hay que corregir en los estadsticos este cambio de las
proporciones por estrato antes de calcular estadsticos para representar a la
poblacin. Este tipo de afijacin da la misma importancia a todos los estratos,
favoreciendo la precisin de los de menor tamao y perjudicando a los de mayor
tamao.
Afijacin proporcional. Las n unidades de la muestra se distribuyen
proporcionalmente a los tamaos de los estratos en la poblacin. Esto es, si se
decide, por ejemplo, que el sexo va a ser la nica variable para estratificar, y en
la poblacin objetivo hay un 75% de mujeres y un 25% de hombres, la muestra
total que se escoja ha de tener los mismos porcentajes que la poblacin de
hombres y mujeres.
Afijacin de varianza mnima. La afijacin de varianza mnima o afijacin
de Neyman consiste en determinar los valores del tamao de muestra de cada
estrato para que la varianza sea mnima. La utilidad de este tipo de afijacin
aumenta si hay muchas diferencias en variabilidad entre los diferentes estratos
en las variables de inters. En cualquier otro caso, la afijacin proporcional suele
dar buenos resultados para su nivel de dificultad. Adems es un tipo de afijacin
difcil porque exige el conocimiento de la variabilidad poblacional, o una
estimacin de sta, de las variables de inters para cada estrato.

14
Muestreo por conglomerados. En el muestreo estratificado los estratos a tener en
cuenta los fijaba el o los investigadores para, posteriormente y dentro de cada estrato,
seleccionar al azar las unidades elementales de la muestra que son el objetivo ltimo de
la encuesta. Por el contrario, en el muestreo por conglomerados, se definen
conglomerados (conjuntos) tales que incluyen a dos o ms (generalmente bastantes
ms) unidades muestrales ltimas a seleccionar (personas, por ejemplo), y lo que se
escoge al azar es una muestra aleatoria de conglomerados, y dentro de cada
conglomerado escogido no se hace muestreo, sino que se seleccionan todas las
unidades muestrales objetivo (personas). Por lo tanto, lo que se escoge al azar son los
conglomerados, que suelen ser conjuntos formados naturalmente, y no las unidades
elementales a estudiar finalmente.
Un ejemplo ayuda, sin duda, a entender el muestreo por conglomerados de forma
cabal. Supongamos que se quiere estudiar las relaciones entre motivacin, inteligencia y
rendimiento acadmico en alumnos de ESO de la provincia de Valencia. Podra pedirse
un listado de todos los alumnos de ESO (la poblacin) en este ao y escoger al azar la
muestra necesaria, por ejemplo n=1000, lo que sera muestreo aleatorio simple. Se
podra decidir que se quiere la misma proporcin de nios que de nias, con lo que se
estratificara por sexo, y tras la estratificacin se escogera al azar n1=500 nios y
n2=500 nias. Este sera un caso de muestreo estratificado. En los dos casos anteriores
se escogen al azar las personas que son, finalmente, objetivo de anlisis de la encuesta.
Otra alternativa es obtener un listado de todos los colegios o escuelas que imparten
ESO en la provincia de Valencia, y definir cada uno de esos colegios como un
conglomerado (de alumnos de ESO, para nuestros intereses), y escoger aleatoriamente
de entre todos los conglomerados un cierto nmero, tal que la suma de todos los
alumnos de ESO en esos colegios nos ofrezca aproximadamente el tamao de muestra
deseado. En la figura 6 aparece un esquema de cmo se producira un muestreo por
conglomerados para este ejemplo. El proceso aleatorio es con los conglomerados,
mientras que las personas (alumnos de ESO) se escogen todas las disponibles de cada
escuela o colegio seleccionado. Ntese, por tanto, que una vez escogidos los colegios al
azar, los alumnos de cada uno de ellos se incluyen en la muestra necesariamente. El
muestreo es, no obstante probabilstico, porque los conglomerados s se escogieron al
azar.

15
Figura 6.
Esquema de un muestreo por conglomerados, donde los conglomerados son escuelas o
colegios.

SE SELECCIONAN ESCUELAS (LOS CONGLOMERADOS)

Azar Azar Azar Azar


Azar

...
Todos Todos Todos Todos Todos

...
Otros ejemplos de muestreos por conglomerados, pueden ser escoger al azar: a)
Familias, de las que se escogen todos los miembros para obtener una muestra final de
padres, madres, hijos, hijas, abuelos y abuelas, etc; b) Casas, en las que miden a todos
los que viven en la casa; c) Municipios de un Estado; d) Mesas electorales, de las que se
recuentan todas las papeletas, y un largo etctera.
En algunos casos, especialmente en estudios geogrficos y sociolgicos es comn
que los conglomerados se definan como reas o zonas fsicamente delimitadas de
terreno, de forma que muy a menudo se conoce este muestreo como muestreo por
reas.
El muestreo por conglomerados presenta ventajas e inconvenientes. De entre los
primeros se puede destacar:
i. Es el indicado cuando no se dispone de un listado exhaustivo de las
unidades muestrales, pero s de los conglomerados.
ii. Se ahorra por comparacin a los anteriores tipos de muestreo, ya que al
concentrarse las unidades fsicamente disminuye las necesidades de
desplazamiento, y por ello los costes de tiempo y dinero.
iii. En algunos casos puede eliminar sesgos, ya que la supervisin de la
encuesta es ms fcil de realizar, y se hacen mnimos la necesidad de
equipo de apoyo.

16
Estas ventajas, por descontado vienen a costa de inconvenientes. De otra forma
sera el adecuado siempre. De entre los inconvenientes ms relevantes:
i. Falta de independencia de las puntuaciones. Dado que los sujetos se
encuentran en unidades formadas naturalmente, como clases, o familias,
entra dentro de lo posible que sus puntuaciones no sean estadsticamente
independientes, sino que guarden una cierta relacin. Por tanto, cuando
se realizan muestreos por conglomerados no hay que asumir la
independencia de las puntuaciones, sino que ms bien hay que
comprobarla. As, una forma til es contrastar si existe una correlacin
intraclase importante, y si esto es as, habra que utilizar tcnicas
estadsticas multinivel para analizar los datos de la encuesta.
ii. Sesgos debidos a baja representatividad de los conglomerados. Si se
escogen pocos conglomerados, estos pueden estar sesgados con respecto
a las caractersticas de la poblacin. La solucin pasa por escoger un
mayor nmero de conglomerados. Caso de que al escoger un gran
nmero de conglomerados se obtuviera una tamao de la muestra
excesiva, la solucin entonces es el siguiente tipo de muestreo
probabilstico, el muestreo por etapas.

Evidentemente los muestreos que hemos visto a continuacin (aleatorio simple,


estratificado y conglomerados) son los bsicos, pero pueden hacerse ms complejos al
combinarlos. A este tipo de muestreos ms complejos, combinacin de varios los
llamaremos genricamente polietpicos o por etapas. Por ejemplo, combinando el
muestreo aleatorio simple y el de conglomerados, tenemos un polietpico. Primero se
realiza un muestreo por conglomerados, en el que de los conglomerados definidos, en
este caso colegios o escuelas de la provincia de Valencia, se escogen unos cuantos, al
azar, por tanto aleatoriamente. De entre los conglomerados seleccionados, se escogen
no todos los alumnos de ESO, sino una muestra aleatoria (simple o de otro tipo, por
ejemplo puede complicarse estratificando) del total de alumnos de cada centro. Por lo
tanto se produce otra etapa de muestreo aleatorio, otra vez interviene el azar. En este
caso el muestreo ha tenido dos etapas, la primera seleccionar al azar conglomerados, la
segunda seleccionar al azar alumnos (unidades muestrales elementales). En este caso,
por tanto, estamos ante un muestreo bietpico o en dos etapas. Muestreos de ms de dos
etapas son posibles. El muestreo por etapas presenta las caractersticas, propiedades,
ventajas y desventajas de la combinacin de mtodos de muestreo que supone.
Hasta aqu los muestreos probabilsticas. Ahora dedicaremos algo de espacio a los
no probabilsticas, pero teniendo en cuenta siempre que estos tipos de muestreo, si bien
pueden aportar informacin valiosa en funcin de los intereses del investigador, no
garantizan, desde un punto de vista cientfico, la representatividad de la muestra. Esto
ltimo solamente se puede garantizar desde cualquiera de los muestreos probabilsticos
anteriores.

Muestreo sin norma. El muestreo sin norma, tambin en ocasiones llamado muestra
de conveniencia es simplemente eso. Se extrae una muestra de la poblacin objetivo
simplemente porque es conveniente, fcil, econmica, pero no en base a la aleatoriedad.
Ejemplos de este tipo de muestreo es cuando un profesor extrae conclusiones al respecto
de los alumnos de educacin infantil, basndose en las pruebas que pasa a sus alumnos

17
de ese ao de educacin infantil. Otro ejemplo es cuando los medios de comunicacin
hacen una pregunta en un telediario y recogen una muestra de respuestas, asumiendo
que eso es lo que piensan los espaoles, sin caer en la cuenta de qu tipo de espaoles
ven esa cadena a esa hora... y un largo etctera.

Muestreo intencional u opintico. En el muestreo intencional u opintico los


investigadores escogen la muestra de forma no aleatoria, pero no por conveniencia, sino
intentando garantizar la representatividad de la muestra. Aunque tampoco es
probabilstico, resulta evidente que es ligeramente superior al anterior, al sin norma, ya
que el investigador intenta, al menos, hacer la muestra representativa. No obstante, al
realizar ese intento sin valerse del azar, sino ms bien de su intencin, traslada con
mucha probabilidad todos sus posibles sesgos, conocidos o no, a la muestra obtenida.

Muestreo por cuotas (semiprobabilstico inferior). El muestreo por cuotas fue


desarrollado por Cressley, Cherington, Roger y Gallup en los aos treinta. Muchos
organismos oficiales lo utilizan habitualmente, especialmente en investigacin de
mercados y opinin pblica. Lo que caracteriza al muestreo por cuotas es el paso final
del muestreo. Se supone que se ha seguido en todo momento un muestreo de tipo
probabilsitico, por ejemplo por conglomerados. En la etapa final, y dentro de cada
conglomerado, o rea, o zona determinada por los investigadores acta un encuestador.
Este encuestador puede tener un nmero fijo de encuestas a hacer, sin importar a qu
tipo de personas encuesta, o puede tener un nmero fijo y, adems, estratificado, como
por ejemplo coger el mismo nmero de menores de 15 aos que de mayores de 15 aos.
Esto es, el encuestador tiene una cierta cuota de encuestas por realizar. Hasta aqu
tenemos un muestreo probabilstico, pero en este punto se deja libertad al encuestador
para que escoja como desee a las personas que necesita para cumplir su cuota.

Muestreo sistemtico. El muestreo sistemtico lo hemos dejado para el final,


porque si bien no es ciento por ciento un muestreo probabilstico, s puede serlo en un
gran nmero de ocasiones. Si se dan las circunstancias adecuadas, el resultado de un
muestreo sistemtico es una muestra probabilsitica, de tanta calidad como el muestreo
aleatorio simple y, por tanto, con las garantas cientficas necesarias. El muestreo
sistemtico consiste en escoger un inicio aleatorio y despus coger uno de cada equis
sujetos de la lista. Por ejemplo, empezar en el sujeto 12 y luego escogerlos de 10 en 10,
el 22, 32, 42,.... hasta alcanzar el tamao muestral deseado. Un ejemplo ayudar a
entender la mecnica del muestreo sistemtico. Se tiene un listado de N=15000
trabajadores de una gran compaa. Se desea escoger una muestra probabilstica de
n=200. Al dividir el tamao de la poblacin entre el tamao de muestra deseado se
obtiene una fraccin. En este caso:

En este caso, el resultado de la fraccin indica que para obtener una muestra de
n=200 de entre una poblacin de N=15000, resulta necesario coger un trabajador de
entre cada 75, por lo que en el muestreo sistemtico escogeremos de 75 en 75 hasta
conseguir el total de la muestra. Ahora solamente quedar escoger un inicio aleatorio de
entre los sujetos numerados entre 1 y 75. Por ejemplo se puede escoger como punto

18
inicial aleatorio el valor sujeto 23. De esta forma, la muestra sistemtica quedar
compuesta por la siguiente secuencia de sujetos, el primero el sujeto que es el nmero
23 en el listado de la poblacin, y luego de 75 en 75 a partir de l, de forma que el
siguiente sujeto ser el 23+75= 98, y el tercero el 98+75= 173, y as sucesivamente..
Existe la posibilidad de escoger el muestreo sistemtico an cuando no se conozca
el listado de la poblacin o incluso el tamao de sta. Pongamos un ejemplo.
Supongamos que un hospital est interesado en realizar una encuesta a los pacientes de
sus distintos servicios, para conocer la satisfaccin de stos con el servicio ofrecido, el
trato, etctera. No saben en este ao, en el que quieren hacer la encuesta, cul ser la
poblacin total, ni sus nombres, pero saben, por ejemplo que el ao anterior dieron
servicio a 10000 pacientes. Desean obtener una muestra de tamao n=500. Aunque
verdaderamente no saben si tendrn 10000 pacientes, o ms, o menos, ni tampoco
pueden hacer un listado de ellos a priori, pueden, no obstante, realizar un muestreo
sistemtico. Escogern, en principio, a:

1 de cada 20 pacientes que pasen por el hospital para tratarse, y lo nico que tienen
que hacer es ir a unas tablas de nmeros aleatorios para tomar un nmero al azar de
entre 1 y 20, pera empezar el proceso. Supongamos que el primer nmero que aparece
es el 3, en ese caso el paciente 3 que entre en el hospital ser el primer sujeto de la
muestra, y se seguir la siguiente secuencia hasta satisfacer el tamao muestral
necesario.

19
Tema 2. Introduccin de datos y
manejo bsico del SPSS

2.1. Introduccin de datos


Existen dos grandes opciones: a) Importar datos ya introducidos, desde cualquier otro
programa; b) Introducir los datos desde el propio programa SPSS, en cualquiera de sus
versiones. En la primera, aunque los formatos y los programas desde donde pueden
venir los datos son mltiples, es normalmente el caso que el programa externo es una
hoja de clculo, habitualmente EXCEL. La segunda de las opciones es la ms habitual,
y probablemente la ms recomendable, ya que a partir del propio SPSS es sencilla la
importacin a otros programas, si fuera necesario.
A) Datos desde EXCEL. Simplemente considerar que antes de importar los
datos a SPSS es conveniente guardarlos en formato SYLK, en las opciones de
GUARDAR COMO. Despus en SPSS se pide ABRIR con formato SYLK.
B) Desde el propio SPSS. Cuando se introducen los datos desde SPPS hay que
considerar varias cuestiones.
Primero hay que definir las variables. La forma de definirlas, as como la
colocacin de etiquetas, longitud de la variable y nmero de decimales son
autoexplicativas. No obstante a tener en cuenta que al abrir SPSS hay que definir todas
las variables que se vayan a introducir, y esto se hace en la pestaa VISTA DE
VARIABLES, donde hay diversos apartados a rellenar, aunque no todos son
verdaderamente importantes, y que pasamos a detallar:
Nombre: El nombre de la variable es mejor que sea simple y corto, y
muy importante, no admite ni espacios ni empezar con nmeros.
Tipo: se define si es numrica o alfanumrica. Aunque hay diversas
opciones, para simplificar decir que si se quieren utilizar nmeros la
opcin es numrica y cadena si se quiere poner valores alfanumricos.
Por ejemplo, si a la variable sexo le queremos dar valores 1 y 2 a sus dos
categoras, entonces diramos tipo numrico, pero si se quiere escribir
hombre y mujer, entonces diramos alfanumrico. En general lo mejor es
numrico.
Anchura: Determina el nmero de cifras en variables numricas o el
nmero de caracteres en alfanumricas.
Decimales: Determina el nmero de decimales que aparecern en los
valores numricos.
Etiquetas: para nombrar la variable con un nombre largo en lugar del
acrnimo corto que hemos elegido antes. Adems de esas etiquetas, se
puede colocar etiquetas para cada uno de los valores.
Valores: Si, por ejemplo hemos decidido que 1 sea hombre y 2 sea
mujer, aqu se puede decir 1 es igual a hombre y 2 igual a mujer y

20
tecleando 1 y 2 luego siempre que se realicen anlisis aparecern los
nombres, no los nmeros.
Perdidos: Caso de que se quiera poner un valor o rango de valores para
los valores que se desconocen. Por ejemplo, un alumno contestando a
una escala de autoestima se deja una pregunta. Las opciones que tenemos
es dejar un hueco en la base de datos, lo que es una buena opcin, o dar
un valor que signifique perdido o no contestado. Por ejemplo, se puede
poner el valor 999, o cualquier otro. La nica lgica es poner un valor
que no sea posible para esa variable. Si la anterior pregunta de
autoestima es una variable que va de 1 a 5, no tienen lgica decir que 5
es perdido, pues todos los sujetos que hayan contestado 5 sern de aqu
en adelante perdidos.
Columnas: es irrelevante para nuestros intereses.
Alineacin: es la posicin dentro de la columna. Bien se colocarn los
nmeros o etiquetas de valor a la izquierda, a la derecha o centrados.
Medida: Sirve para declarar la escala de medida que presenta la
variable. Como opciones tienen escala (lo que engloba las escalas de
intervalo y razn de Stevens), ordinal y nominal.
Finalmente, aqu como recomendacin es importante considerar que puede, a la
larga, resultar recomendable nombrar todas las variables como cuantitativas, an cuando
su escala de medida simplemente alcance las escalas nominal u ordinal. Aunque ello
implica que el investigador ha de ser cuidadoso en la eleccin de tcnica estadstica, le
deja libre para un mayor nmero de anlisis, cuando lo considere necesario. Existen
otras razones para esta eleccin, como por ejemplo que aunque se distinga entre
nominales y ordinales, el programa, en segn qu opciones (por ejemplo en grficas) no
las distingue, y te impide realizar algunas grficas de inters. Por tanto la
recomendacin es catalogar todas las variables como de escala, aunque manteniendo
nuestro conocimiento sobre su verdadera escala de medida.

2.2. Datos omitidos


En la misma introduccin de datos merece la pena colocar los valores que representarn
a los datos omitidos, a los datos perdidos (missing data). Una primera opcin de
carcter general es no definir ningn valor perdido, simplemente dejar un hueco en la
matriz de datos. Implcitamente esto significa definir el valor perdido como perdido del
sistema (SYSMISSING), denominacin que usar internamente desde entonces el
programa. Esta es una buena solucin por defecto para las variables numricas, pero si
la variable se ha definido como cadena no es vlido porque entonces las plantea como
una categora ms. Entonces hay que informar al programa explcitamente (mediante la
opcin de valores discretos que veremos luego) de que el faltante es un espacio en
blanco.
La segunda opcin es definir los valores que queremos para los faltantes, que debe
ser un valor (o rango de valores, o varios valores) que no sean valores potenciales de la
variable (por ejemplo, se puede definir como faltante el 999 para la edad, pero no el 9,
porque es posible que tengamos nios de 9 aos ahora o en el futuro en la muestra). La
posibilidad de dar distintos valores perdidos puede ser de utilidad caso de que se quiera

21
distinguir entre tipos de perdidos, por ejemplo perdidos que vienen de una persona que
apenas contesta nada de la encuesta, y perdidos ocasionales, que pueden ser despistes.

2.3. Fundir archivos


Existe la posibilidad de que el investigador tenga ms de un archivo de datos que se
corresponda con las mismas variables o con los mismos sujetos de otra muestra, de
forma que quiera juntar dos o ms archivos. La unin de dos o ms archivos es un
fundido de archivos. Esta operacin de fundir archivos se realiza dentro del men de
DATOS
As pues al desplegar el men DATOS de SPSS se buscar la opcin de FUNDIR
ARCHIVOS. Es aqu donde se pueden agregar bases de datos para conseguir una base
nueva de mayores dimensiones. Existen dos formas de hacerlo: aadir variables, que
puede realizarse siempre que las dos bases de datos tengan los mismos sujetos (las
mismas filas), en el mismo orden; y aadir casos, que sirve para fundir dos archivos
con las mismas variables (mismas columnas) y en el mismo orden.
Pongamos un ejemplo del primer caso, de fundir archivos para aadir casos
(sujetos). Supongamos que tenemos recogidas cuatro variables de una muestra
de pacientes. Llamemos a estas variables v1 a v4. Otro colega tiene otra muestra
de pacientes en los que ha medido esas mismas cuatro variables v1 a v4, pero en
otros pacientes. Si queremos trabajar con los pacientes de ambos para que la
muestra tenga mayor fiabilidad (menos error, ms amplitud), deberamos
agregar los casos de un investigador a los del otro. Se trata, pues de aadir casos,
ya que las variables son las mismas. Supongamos que el archivo nuestro se
llama archivo1.sav y el del otro investigador archivo2.sav. Se procede a abrir
archivo1.sav, porque es donde se quiere aadir los casos del otro colega. Tras
abrirlo se procede a ir al men DATOS y all a FUNDIR ARCHIVOS, para
desplegarlo y escoger aadir casos. Se abre una pantalla donde simplemente hay
que abrir el archivo2.sav. Inmediatamente reconocer que las variables son las
mismas y al aceptar juntar los casos del segundo archivo en el archivo dos
concatenndolos al final. An en el caso de que haya algunas variables
desemparejadas, el programa lo detecta las coloca en una ventana que se llama
variables desemparejadas y solamente une las variables que s estn
emparejadas.
Ahora vemos un ejemplo de fundir archivos para agregar variables. Supongamos
ahora que nuestro archivo1.sav tiene los datos de 10 de nuestros pacientes
medidos en las cuatro variables de antes v1 a v4. Supongamos que les han hecho
a esos mismos pacientes (en el mismo orden) otra medicin en otras cuatro
variables (v5 a v8). Quisiramos tener todas las variables de esos sujetos en el
mismo archivo de datos y no en dos archivos separados. El proceso es muy
similar al anterior. Se procede a abrir archivo1.sav, porque es donde se quiere
aadir las variables del segundo archivo. Tras abrirlo se procede a ir al men
DATOS y all a FUNDIR ARCHIVOS, para desplegarlo y escoger aadir variables.
Se abre una pantalla donde simplemente hay que abrir el archivo2.sav. Tras esto
el programa abre una ventana donde seala las variables que va a poner en el
archivo 1, que sern todas las del archivo 1, esto es de v1 a v4, alas que seala
con una asterisco (*) y las del archivo 2, v5 a v8, que las seala con el signo de
suma (+). Si en este momento quisiramos no aadir (o eliminar) alguna de las
variables podramos simplemente colocarlas en variables excluidas. Tras

22
aceptar se estar en el archivo 1, pero con todas las variables, desde la v1 a la v8.
Aunque lo recomendable es tener el mismo nmero de sujetos en ambos
archivos, puede ser que tengamos solamente 9 de los 10 en el segundo archivo.
En ese caso el sujeto que falta debe ser el ltimo y el resto estar ordenado de la
misma forma en los dos archivos, tal y como se ha dicho antes. Al fundir los
archivos el sujeto 10, al que le faltan las variables v5 a v8 del segundo archivo,
se aadir pero con valores faltantes de sistema en esas variables.

2.4. Seleccin de datos


Por otro lado dentro del men datos esta la opcin SELECCIONAR CASOS de tremenda
utilidad. Este es un proceso para filtrar los datos, esto es, para analizar solamente una
parte de los datos, en funcin de diversos criterios. Los criterios ms importantes son:
Satisfacer una condicin, como por ejemplo, seleccionar solamente los casos
con gnero = 1 (mujeres u hombres).
Muestra aleatoria de casos, que puede usarse como una opcin previa a realizar
validaciones cruzadas (replicacin de los resultados), y puede realizarse de forma
exacta o aproximada.
Rango de los casos, como seleccionar los casos 50 a 100 de una muestra, por
ejemplo.
Los datos no seleccionados de cualquiera de estas formas, pueden filtrarse, con lo que
quedan disponibles en la misma base de datos, y pueden volverse a utilizar cuando se
elimine la seleccin, o pueden eliminarse, con lo que la base de datos original quedar
reducida solamente a los datos s seleccionados.
Veamos algunos ejemplos de ejecucin de estos tres tipos de seleccin. Para
realizar estos templos utilizaremos la base de datos ejemplo1.sav. En esta base de datos
se han recogido los datos de una muestra de 317 adolescentes. Se han medido una serie
de variables que tienen que ver bsicamente con la autoestima que tienen. En concreto
se han medido la autoestima mediante 10 preguntas directas que ide Rosenberg para
medir la autoestima global, y que se supone que son indicadores de esta alta o baja
autoestima. Si se punta bajo en estas preguntas es que se tiene una autoestima baja, si
se punta alto que se tiene alta. Estas 10 preguntas (variables) se llaman ros1 a ros10 en
la base de datos. Es importante entender que estas 10 preguntas no sirven ms que para,
evaluadas conjuntamente, medir mediante un valor para cada sujeto la autoestima
global. Esta variable de autoestima global se llama en la base autoestima escala de
Rosenberg. Adems la base de datos presenta otra medida de la autoestima, esta vez la
propuesta por Marsh. Es otra variable en la base de datos, con ese nombre, autoestima
Marsh. Y finalmente la ltima variable es l sexo de lo adolescentes, pudiendo ser
hombres (valor 1) o mujeres (valor 2).
Los primero que ejemplificaremos ser una seleccin en funcin de una condicin.
Por ejemplo, se puede estar interesado en seleccionar solamente a los varones, para
estudiar su autoestima por separado. Para ello se acude a DATOS, dentro de este men

La autoestima es la percepcin, positiva o negativa, que tiene un sujeto de s mismo. Se puede medir en
global (si se tiene autoestima positiva o negativa en general), pero tambin se puede medir en facetas:
autoestima de apariencia fsica (percepcin positiva o negativa que se tiene sobre el propio cuerpo y
aspecto fsico); la autoestima social (percepcin positiva o negativa que se tiene sobre la capacidad de
relacionarse socialmente con otros), etc.

23
en seleccionar casos. Hacer clic en si se satisface la condicin, y esto abre una
ventana donde se pondr sexo=1. La secuencia en forma fotogrfica puede verse en la
figura 7 a continuacin. Esto generar una seleccin en los datos, de forma que
solamente los hombres (sexo=1) estarn activos, y sern los nicos que se analicen,
hasta que se elimine la seleccin. Hay que fijarse en que est seleccionada la opcin
filtrar. Si se hubiera elegido la opcin eliminar todas las mujeres desapareceran para
siempre de la base de datos.
Figura 7.
Procedimiento de seleccin de casos si se cumple una condicin.

Evidentemente en la misma figura 7 se puede ver que las opciones que da son
mltiples. Por ejemplo se pueden seleccionar solamente los que tengan menos de 10 en
autoestima de la escala de Rosenberg, para lo que simplemente hay que poner en la

24
ltima ventana la orden que la variable autoestima de Rosenberg sea <10.
Evidentemente se pueden hacer selecciones mltiples, utilizando, principalmente los y
(&) y los o (or). Por ejemplo, si queremos seleccionar los varones que tengan en la
pregunta 10 de Rosenberg 3 o ms, pues la orden ser sexo = 1 & ros10 >= 3 como
puede verse en la figura 8. O si fuera seleccionar a cualquiera que sea mujer o bien
tenga en la pregunta 10, 3 o ms, se har mediante un o (or). Con esta orden sexo = 2
or ros10 >= 3.
Figura 8.
Procedimiento de seleccin de casos si se cumple una condicin.

El segundo ejemplo es el de seleccin aleatoria de casos. En ocasiones se puede


estar interesado en sacar una submuestra del total de sujetos, por los motivos que sean,
por ejemplo porque se desea explorar las relaciones entre variables en esa submuestra,
para ver por donde van las tendencias, y despus poner a prueba las conclusiones del
primer estudio en el resto de sujetos. O cualesquiera otras razones. Nosotros haremos un
ejemplo en el que vamos a seleccionar 100 adolescentes del total de 317 de la base de
datos y lo haremos aleatoriamente, al azar. Se va a DATOS y en ese men a seleccionar

25
casos. En la ventana que se abre se hace clic (se selecciona) muestra aleatoria de casos,
y se abre el botn muestra, justo debajo. All se dir que se quiere exactamente 100
casos de los primeros 317 (el total). Esto seleccionar solamente a 100 sujetos. Como
siempre los sujetos no seleccionados se pueden filtrar (no estn disponibles solamente
mientras dure la seleccin) o eliminar (desaparecern de la base). Todo este proceso
puede verse en imagen en la figura 9.
Figura 9.
Procedimiento de seleccin de casos: muestra aleatoria de casos.

Puede verse tambin, en la figura 9 que otra opcin es escoger un determinado


porcentaje de los casos. De esta manera se puede obtener, por ejemplo una muestra que
sea el 25% del total, o cualquier otro porcentaje.
De la misma manera se puede seleccionar una banda de casos, por ejemplo los
adolescentes en la lista desde el 50 hasta el 99, lo que nos dar una muestra (no
aleatoria) de 50 sujetos. Para ello, como siempre se va a DATOS y en ese men a
seleccionar casos. En la ventana que se abre se hace clic (se selecciona) basndose en el
rango de tiempo o de los casos, y se abre el botn rango, justo debajo. All se dir que
se quiere de la observacin 50 a la 99.

26
Un ltimo apunte sobre seleccionar. Puede verse en las figura 7 a 9 que hay una
opcin para volver la seleccin hacia atrs, esto es para deseleccionar. Solamente hay
que hacer clic en seleccionar todos los casos. Evidentemente esto solamente funciona si
no se han eliminado previamente los casos de la base de datos.

2.5. Transformaciones de variables


La mayor parte de las transformaciones de variables que vamos a ver se realizan en el
men TRANSFORMAR, y dentro de ste en la opcin CALCULAR. Las posibilidades de
transformaciones de variables mediante el comando calcular son enormes, por lo que
simplemente veremos algunos de los ms utilizados.

TRANSFORMACIN POR AGREGACIN


A menudo, una de las transformaciones habituales en una masa de datos es el agregar de
alguna forma los valores de distintas variables, para obtener un compuesto de ciertas
caractersticas. Un ejemplo concreto de este agregado es cuando se generan las
puntuaciones en una escala (o en una dimensin de una escala) mediante suma de los
items que la componen. Este agregado puede hacerse mediante dos formas similares,
pero con importantes diferencias: la suma y el promedio.
Suma: para sumar hay que ir al men TRANSFORMAR, dentro de l
CALCULAR. Hay que utilizar la funcin SUM. Evidentemente suma las puntuaciones
de los items (o variables) definidas en la funcin. Hay que considerar que si para un
caso cualquiera alguna de las variables integradas en la funcin suma tuviera un
dato faltante (omitido), el resultado global para ese caso de la suma es faltante. Por
lo tanto, es un comando que arrastra los faltantes. Si, por ejemplo, un sujeto ha
dejado solamente por contestar un tem de los 20 que forman la escala, su
puntuacin suma es un faltante. Esto no ocurre para la funcin promedio (media)
que detallamos a continuacin.
Promedio: para promediar hay que ir al men TRANSFORMAR, dentro de l
CALCULAR. Hay que utilizar la funcin MEAN. Evidentemente promedia las
puntuaciones de los items (o variables) definidas en la funcin. No se arrastran los
faltantes, con que una de las variables tenga dato vlido ya se obtiene puntuacin
para el caso. Por lo tanto, ofrece mayor tamao muestral (da menos faltantes), pero
hay que tener cuidado porque puede dar una puntuacin global muy inestable,
basada solamente en unos pocos items, incluso un solo tem. Por lo dems ambas
funciones, suma y promedio, son transformacin lineal una de la otra, por lo que la
mayora de estadsticos (por ejemplo, la correlacin y cualquier tcnica basada en
ella) no se ve afectado.
Estos procedimientos pueden usarse de forma combinada para crear indicadores
complejos donde se recoja informacin compacta p.e. de la manifestacin de una
conducta, de su intensidad y duracin, etc.. as como indicadores de salud.
La figura 10 muestra un caso de suma de las preguntas 1 a 3 de la escala de
autoestima de Rosenberg. La variable, as generada, que se acumular en la base de
datos en la ltima columna es AU, el nombre que le hemos dado. A esta variable se le
pueden poner los nombres y etiquetas que se quiera, as como sus propiedades, tal y
como aprendimos con anterioridad. Destacar que en vez de usar las funcin SUM (de

27
entre las funciones), simplemente se ha sustituido por el signo de suma colocado entre
los sumandos (las variables a sumar, ros1, ros2 y ros3).

28
Figura 10.
Transformacin de variables: agregacin por suma.

INVERSIN DE ESCALA
Cuando se suman o promedian variables es importante concentrarse muy bien en qu se
suma. Un error comn es sumar items que van en distintas direcciones, por ejemplo un
tem positivo y uno negativo (invertido) de autoestima. El resultado es un desastre. Por
lo tanto hay que darle la vuelta a los items invertidos previo a la suma o el promedio.
Esto es posible hacerlo tambin en el men transformar. Vamos a ver dos de los
ejemplos ms comunes: un tem en formato tipo Likert con valor mnimo cero; el
mismo formato tipo Likert, pero empezando en uno.
Valor mnimo es 0: En ese caso para realizar una inversin de escala hay que
realizar el siguiente clculo en TRANSFORMAR y calcular: La variable nueva (la
invertida) es igual al valor mximo de la variable menos la propia variable.
Valor mnimo es 1: En ese caso para realizar una inversin de escala hay que
realizar el siguiente clculo en TRANSFORMAR y calcular: La variable nueva (la
invertida) es igual al valor mximo ms uno de la variable menos la propia variable.
No obstante, otro procedimiento ms laborioso, pero ms simple de entender, para
realizar esto mismo es la recodificacin de variables, que veremos posteriormente.

Los items o preguntas tipo Likert son las ms comunes en ciencias sociales y consisten en diversos
anclajes ordenados de respuesta, como por ejempllo: Totalmente en desacuerdo Desacuerdo -
Deacuerdo Totalmente deacuerdo.

29
TRANSFORMACIONES DE POTENCIA
Al margen de los dos tipos de transformaciones vistos anteriormente, por agregacin e
inversin de escala, existen un cierto grupo de transformaciones habituales en anlisis
de datos. Una muy habitual es transformar en rangos, transformacin usada en muchas
pruebas de estadstica no paramtrica, y que veremos entonces. Siempre es posible
realizar transformaciones basadas en la teora, como al agregar las notas de lengua y de
matemticas dar el doble de valor a una de ellas, por motivos tericos, pero son tan
numerosas, y cambiantes, que se resuelven segn el caso.
Finalmente una categora de transformaciones bastante estandarizada, y empleada
a menudo, es la transformacin de potencia, presentada claramente, entre otros por
Tukey (1977), y cuyo procedimiento, simple e intuitivo se conoce como la escalera de
potencias de Tukey. El objetivo de estas transformaciones consiste bsicamente en
corregir asimetras en las variables, aunque normalmente tambin pueden mejorar
problemas de heterogeneidad de varianza (varianzas muy desproporcionadas entre
grupos), etc. La idea es sencilla: se pueden transformar las variables elevando a una
potencia, positiva o negativa, cuanto mayor sea la potencia a la que se elevan las
puntuaciones originales, mayor el efecto sobre la escala original. Las potencias
positivas corrigen la asimetra negativa, las potencias negativas corrigen la asimetra
positiva. En el cuadro:

Potencia 3 2 1 .5 0 -.5 ... -2


Transformacin X3 X2 X RCX logX 1/RCX 1/X2
RC= raz cuadrada

Para ver qu transformacin aplicar, y tambin para evaluar el efecto que sobre la
variable ha tenido la transformacin es adecuado estudiar descriptivamente la variable
en todo momento: calcular estadsticos descriptivos, realizar histogramas, y muy
especialmente en este caso realizar Q-Q plots (grfico de cuantil-cuantil). Todo esto se
ver posteriormente.
Ejemplo prctico: la variable autoestima que es asimtrica negativa puede
funcionar mejor realizando una transformacin de potencia positiva (cuadrado, cubo..),
para corregir esta asimetra. Para ello lo nico que hay que hacer es entrar en
TRANSFORMAR y de ah en calcular. Como realizar el cuadrado simplemente es
multiplicar los valores por ellos mismos pondremos el nombre de la nueva variable que
queremos generar, en nuestro caso AUcuadrado, en variable de destino y al otro lado del
igual en expresin numrica autoesti*autoesti. El asterisco es el signo de producto en
SPSS y puede verse en la figura 10b entre los botones de la calculadora que SPSS
proporciona.

30
Figura 10b. Transformacin de variables: cuadrado de una variable.

De la misma forma expuesta se pueden realizar tantas transformaciones


matemticas permiten los smbolos de la calculadora y las funciones matemticas
listadas al lado derecho de ella.

2.6. Segmentado de archivos


La segmentacin divide el archivo de datos en distintos grupos para el anlisis,
basndose en los valores de una o ms variables de agrupacin (hasta un mximo de
ocho variables de agrupacin). Para realizar la segmentacin hay que ir a DATOS y dar
a SEGMENTAR ARCHIVOS. All hay dos opciones: comparar los grupos que definamos por
la variable (o variables agrupadoras) y organizar los resultados por grupos. Ambas dan
los resultados para los grupos definidos, solamente cambia el formato. En el primer caso
todos los resultados por grupos en una misma tabla, en el otro separados en tantas tablas
como grupos se definan.
Como ejemplo sencillo supongamos que en la base de autoestima de los
adolescentes que venimos utilizando (ejemplo 1.sav) queremos que nos de los
resultados de todos los anlisis que queramos hacer, pero no para el total de
adolescentes, sino para los hombres y las mujeres por separado. Si segmentamos el
archivo en funcin de la variable sexo, nos dar los resultados siempre para hombres y
mujeres por separado. La imagen de las opciones a utilizar se puede ver en la figura 11.
Se trata de entrar en DATOS, y de all seleccionar segmentar archivo. Se abrir la
ventana de la figura, y se seleccionar organizar los resultados por grupos, y se pondr
sexo en grupos basados en. A destacar, finalmente dos cosas. La primera es que,
por defecto del programa (lo que el programa selecciona como programado) es ordenar
el archivo en funcin de la variable de agrupacin (sexo). Si no se quiere esta
agrupacin, entonces hay que decirle al programa que el archivo ya est ordenado.
Adems, hay que darse cuenta que para eliminar el segmentado de archivos, y volver a

31
operar con el archivo total hay que entrar otra vez en la ventana de la figura 11 y dar
clic a analizar todos los casos.
Figura 11. Segmentado de archivos.

2.7. Recodificacin de variables


Se puede recodificar en las mismas variables o en variables diferentes. El consejo
conservador es recodificar en distintas variables siempre, con lo que la variable original
queda intacta, y previene fallos. Ms tarde siempre se puede eliminar la variable
original (no transformada), si es que la remodificacin ha resultado satisfactoria. As
pues veremos algn ejemplo de estas recodificaciones.

RECODIFICACIN EN LAS MISMAS VARIABLES


Reasigna los valores existentes en la variable, puede ser cambiando valor a valor (valor
antiguo cambia a valor nuevo) o por agrupacin en un valor de un rango de valores
previos (desde tal a tal valor antiguo ser el valor x nuevo). Se realiza en el men
TRANSFORMAR, y dentro de l en Recodificar... en las mismas variables.
Veamos un ejemplo. La escala de autoestima de Rosenberg puede oscilar entre un
mnimo de 10 puntos y un mximo de 40. El 10 sera una persona con la ms baja
autoestima y el 40 una persona con la ms alta autoestima. Supongamos tambin que se
sabe que los valores entre 10 y 20 representan baja autoestima, que los valores entre 21
y 29 representan autoestima media y que los valores 30 a 40 representan autoestima
alta. Entonces la remodificacin que quisiramos hacer para poder emplear solamente
las categoras alta, media y baja, en lugar de todos los valores numricos consistira en
recodificar la variable autoestima de Rosenberg, autoesti en la base, en una nueva
variable (por ejemplo AUrecodificada) con los siguientes parmetros:

32
Variable original: Variable recodificada:
Autoestima AUrecodificada
10-20 1= autoestima baja
12-29 2= autoestima media
30-40 3= autoestima alta
Para poder realizar esta rectificacin hay que ir a TRANSFORMAR, y luego a
recodificar en las mismas variables. Se abre la ventana primera que aparece en la figura
12, que perite decir cul es la variable original, en nuestro caso autoesti. Al ponerla en
la ventana central permite poner nombre a la variable de resultado (nuestra nueva
variable, AUrecodificada), as como aadir una etiqueta, lo que nosotros no hemos
hecho. Tras esto se hace clic en cambiar y pasa a la ventana central. En esta situacin se
hace clic a valores antiguos y nuevos, y aparece la ventana de debajo de la figura 12.
All ya solamente se trata de en rango poner que de 10 a 20 es un 1, y dar al botn
cambiar, que 21 a 29 es un 2 en valor nuevo y dar a cambiar, y finalmente decir que el
rango 30 a 40 es el valor nuevo 3, y dar a cambiar. Toda esta secuencia puede verse en
la figura 12 a continuacin.
Figura 12.
Recodificacin en distinta variable.

Puede verse tambin en esta figura 12 que hay otras opciones, no solo el rango para
cambiar valores, por ejemplo la opcin valor, que permite cambios de valor individual

33
en valor individual, o un rango hasta el mayor valor. O dar un valor a todos los dems
valores que no se hayan recodificado ya en las ordenes anteriores. En fin, todas las
opciones resultan autoexplicativas.

RECODIFICACIN EN DISTINTAS VARIABLES


Todo igual que la opcin anterior pero guarda los valores nuevos en una nueva variable
que generamos al efecto. No obstante, y como ltimo ejemplo, haremos una
remodificacin por inversin de escala.
Supongamos que la primera pregunta de la escala de Rosenberg (ros1 en la base)
es sta a continuacin:
Me siento una persona con pocos mritos
Resulta evidente que esta pregunta es un indicador de autoestima, pero es un
indicador invertido, ya que cuanto ms de acuerdo est con la afirmacin, menos (y no
ms) autoestima tengo. As que si las puntuaciones normalmente son:
Totalmente en desacuerdo= valor 1
Desacuerdo= valor 2
De acuerdo= valor 3
Totalmente de acuerdo= valor 4
En realidad, para medir autoestima en positivo (no en negativo) querramos que
los valores fueran:
Totalmente en desacuerdo= valor 4
Desacuerdo= valor 3
De acuerdo= valor 2
Totalmente de acuerdo= valor 1
Es decir, que los valores de ros1 cambiaran as: el 4 se debe hacer 1, el 3 un 2, el 2
un tres y el 1 un 4. Invertir la escala, darle la vuelta. Vamos a ejemplificar cmo hacer
esto en la misma variable mediante la recodificacin oportuna.
Se entra en TRANSFORMAR, y luego en recodificar en las mismas variables.
All se abre la ventana correspondiente, y que puede verse en la parte superior de la
figura 13, donde ponemos la variable a recodificar en la ventana de variables numricas
y entonces damos al botn valores antiguos y nuevos, con lo que se abre la ventana que
se ve debajo. All simplemente es ir poniendo los valores antiguos en qu valor nuevo
queremos que se transforme y hacerlo para los cuatro valores, siempre acordndonos de
dar a aadir tras cada cambio de valor. Tras esto aceptar y tendremos en la base datos la
variable ros1, pero midiendo en el sentido bsico de la autoestima.

34
Figura 13.
Recodificacin en misma variable.

35
Tema 3. Tcnicas estadsticas
descriptivas bsicas:
representaciones grficas y
estadsticos descriptivos

Ya hemos visto en el primer tema de conceptos previos, la diferencia entre estadstica


descriptiva e inferencial. Lo pasos ms bsicos para describir una masa de datos, con
sus variables en formato numrico, y su conjunto de sujetos, consiste en estudiar el
comportamiento estadstico de cada variable.
Este comportamiento estadstico de cada variable nos sirve para resumir
ordenadamente lo que sucede para todos los sujetos seleccionados en cada una de las
variables, de forma separada. Nos servira, por ejemplo, para poder contestar a estas
preguntas en una muestra cualquiera de la poblacin, en que se hayan recogido las
variables a las que se hace referencia, evidentemente:
Cuntos casados hay en mi muestra?
Cul es la media de hijos que tienen los casados?
Y la media de hijos que tienen los que no estn casados?
Cunto dinero gastan, como mximo, los solteros en un fin de semana?
Al tener un hijo los cambios que declaran tener los padres varones son
evaluados ms positiva o ms negativa?
En otras palabras, la estadstica descriptiva nos permitir contestar de diversas
maneras sintticas a qu pasa con un cierto nmero de variables en una cierta muestra
de sujetos u objetos. Generalmente la descripcin de esos sujetos u objetos que son una
muestra o una poblacin de inters se basa en una de estas dos posibilidades: la
representacin grfica o el clculo numrico de estadsticos. Estos dos tipos son los que
vamos a ver a continuacin. Pero antes de pasar a realizar mediante el programa SPSS
todos los anlisis estadsticos pertinentes, hay que repasar, siquiera brevemente, cules
son las caractersticas estadsticas que queremos describir.

3.1. Caractersticas estadsticas descriptivas a estudiar


Aunque resulte obvio, la primera de las caractersticas estadsticas es conocer para cada
variable cuntos casos hay. Saber cuntos sujetos estn en cada modalidad de la
variable.
Por lo tanto la primera caracterstica relevante de una variable es estudiar sus
frecuencias. Por ejemplo, supongamos que se tiene medida la variable sexo en una
muestra de 300 trabajadores textiles. Calcular la frecuencia consiste en decir cuntos
son varones y cuntos mujeres. Si, por ejemplo, hay 100 varones, entonces la frecuencia
de la modalidad varn es 100. Si en otra muestra de 300 trabajadores de una mina hay
295 varones, entonces se puede decir que en la muestra de trabajadores textiles hay
menos varones que en la de mineros. Existe las frecuencias absolutas, que no es ms
que el conteo en cada modalidad, y las frecuencias relativas, que no es ms que el
conteo pero en tantos por uno. En el ejemplo anterior tenemos 100 varones (frecuencia

36
absoluta) que son una frecuencia relativa de 100 de 300 (100/300= 0,333) en frecuencia
relativa o 3 de cada 10 o en porcentajes, que todos entendemos ms claramente 30%.
Evidentemente cuando las muestras son de tamaos desiguales es de mucho ms inters
la frecuencia relativa porque es mucho ms fcilmente entendible y comparable.
Evidentemente cualquier variable, sea cualitativa o cuantitativa permite el clculo de las
frecuencias relativas y de las absolutas. Por ejemplo, si hubisemos recogido el nmero
de hijos de 2000 parejas de la Comunitat Valenciana casadas 10 o ms aos, podramos
contar y decir que 400 de ellas no tienen hijos, que 615 tienen 1 hijo, y as
sucesivamente. Evidentemente podramos pasarlo a proporciones (frecuencias relativas)
y si a partir de estas ltimas multiplicramos por 100 tendramos las proporciones
pasadas a porcentajes.
Adems de las frecuencias, que son la forma estadstica ms simple e inmediata,
existen una cierta cantidad de estadsticos que responden a un conjunto de
caractersticas estadsticas de inters. Los tipos de estadsticos que intentan contestar a
estas preguntas son estadsticos que tratan de atrapar los siguientes conceptos
estadsticos:
1. Posicin
2. Tendencia central
3. Variabilidad
4. Asimetra
5. Curtosis
No podemos repasar estos conceptos en profundidad, para lo que existe
abundancia de manuales de estadstica. De hecho cualquiera de ellos, por introductorio
que sea, los recoge en mayor o menor profundidad. Lo que si podemos es enumerar los
principales, las lgicas que tienen y despus pasar a calcularlos en SPSS e interpretarlos
de manera aplicada con datos concretos.

MEDIDAS DE POSICIN
Aquellas que nos revelan el lugar que ocupa una puntuacin con respecto a un grupo
tomado como marco de referencia. Son por tanto estadsticos que nos indican posicin
relativa. Relativa a un grupo. En genrico se los llama CUANTILES
Los cuantiles ms relevantes son los CENTILES o PERCENTILES (Ck). Son los
99 valores de la variable que dividen la distribucin en 100 secciones, cada una
conteniendo la centsima parte de las observaciones. Calculables en variables como
mnimo semi-cuantitativas.

Por ejemplo:
C20= puntuacin que deja por debajo suyo al 20%
C98= puntuacin que deja por debajo suyo al 98%

Evidentemente son relativos, lo que resulta fcil de entender con un ejemplo.


Supongamos que somos profesores universitarios y en una muestra de 180 estudiantes
(todos los de nuestros grupos) medimos las notas que sacan a final de curso en la
asignatura (supongamos estadstica), y que las notas van de 0 a 10. Lo primero que
haremos ser sacar la frecuencia de cada una de las notas, podemos sacar luego esta

37
frecuencia en relativo, mediante las frecuencias relativas. Supongamos que para la nota
cinco obtenemos estos resultados:
Frecuencia absoluta= 10
Frecuencia relativa= 0,055 o en porcentajes 5,5%.
Con esos datos lo nico que resulta evidente es que pocos alumnos han obtenido la
nota cinco. Pero sin saber ms informacin, sabemos poco de lo que quiere decir 5 en
esa muestra. Sin embargo, si calculamos qu centil es el valor 5 y resulta ser el centil
20 (C20= 5), entonces sabemos que el 20% tiene notas inferiores a 5, y por tanto que el
porcentaje de suspensos es del 20% en esos grupos de ese ao. Por relativo en los
centiles se entiende que esa nota de cinco puede ser, y de hecho a menudo lo es, otro
centil en otra muestra. Si la nota cinco en los grupos del ao anterior era el centil 60
(C60= 5), era que los grupos del ao anterior eran mucho peores en la asignatura, ya que
por debajo del cinco, del aprobado, estaban el 60%.

MEDIDAS DE TENDENCIA CENTRAL


Tipo especial de medidas de posicin, que pretenden representar a, o informar sobre:
Cul es aproximadamente la puntuacin (valor de la variable) que
ocupa posiciones centrales
Cul es la puntuacin tpica, el valor tpico
Qu magnitud es la ms genrica
Cul es la magnitud que representa mejor a TODO el conjunto de
datos
Las medidas de tendencia central sirven, especialmente, para:
a) Situar a un grupo mediante un valor genrico, que lo represente. As, por
ejemplo si en una asignatura valorada de 0 a 10 decimos que tenemos un
grupo cuya nota media ha sido 7.9, sabemos que se trata de un buen
grupo, aunque evidentemente algunos sujetos tendrn puntuaciones
suspensas.
b) Valorar la posicin de un sujeto particular frente al grupo. Por ejemplo si
de un sujeto del grupo anterior decimos que tiene un 4, sabemos que est
suspendido, pero tambin que esta lejos del grupo entendido como un
genrico, esta lejos de lo que un sujeto cualquiera del grupo puede
alcanzar. Sin embargo otro sujeto con un 4 de nota en un grupo de nota
media 5, est igualmente suspenso, pero ms cercano a su grupo.
c) Comparar grupos entre s. Si queremos comparar los grupos de alumnos
anteriores y suponiendo que uno tiene 180 sujetos, y el otro 220, mejor
que comparar todas las puntuaciones, se calculan las dos medias que
hemos visto antes, 7.5 y 5 y es fcil resumir diciendo que el primer grupo
est sustancialmente por encima en esa asignatura que el segundo. Que el
primer grupo es mejor que el segundo.
Las ms clsicas son:
Media aritmtica. La suma de todas las puntuaciones partida por el
nmero de puntuaciones. La ms utilizada, sin lugar a duda, y en la

38
que se basan la mayor parte de tcnicas estadsticas. Solamente es
utilizable en medidas que sean, al menos semi-cuantitativas1.
Mediana. Es la puntuacin que deja por debajo de s el 50% de las
observaciones. La puntuacin que est en el medio de la ordenacin
de las puntuaciones. Divide a la distribucin en 50% y 50%.
Solamente tiene sentido si las variables pueden, al menos, ordenarse
de menor a mayor. Por tanto, exige medida, al menos, semi-
cuantitativa.
Moda. La puntuacin ms frecuente. Puede ser til en el caso de
variables cualitativas (nominales).
En general la media es la medida de tendencia central de preferencia. Solamente
en pocos casos no es recomendable. En concreto uno es del mximo inters, cuando se
presentan datos atpicos. Estos datos afectan fuertemente a la media ya que se basa en
todas las observaciones. Supongamos como ejemplo sencillo que tenemos una clase de
10 alumnos de estadstica bsica. Las notas que sacan son las siguientes una vez
ordenadas:
Notas: 0, 5, 6, 7, 7, 7, 8, 8, 8, 8
Como puede verse fcilmente en este caso, al ser pocas las puntuaciones, el grupo
se caracteriza por notas notables, ya que hay 4 valores 8 y tres valores 7 (7 de 10
sujetos, el 70% son notables). Luego hay dos valores cercanos al notable, se van
solamente uno y dos puntos respectivamente, mientras que solamente un alumno
presenta una nota claramente mala, un cero. La tendencia central podramos concluir al
observar estos datos que es de alumnos notables. Sin embargo al calcular la media
obtenemos 6.4, ligeramente por debajo del notable, no representando adecuadamente al
total de los datos. Esto en estadstica se conoce como falta de resistencia de la media. La
media no es un estadstico resistente a los datos extremos. En estos casos particulares
de datos atpicos y/o extremos, suele ser aconsejable obtener una medida de tendencia
central que sea resistente, como la mediana, o incluso mejor, robusta, como la media
recortada, que se obtiene, como veremos fcilmente ms adelante en SPSS. Definir bien
el concepto de robustez queda fuera del propsito del texto. Baste decir que un
estadstico es robusto si es resistente y adems funciona bien para un rango amplio de
distribuciones (de masas de datos).
Bien, en este caso la mediana de los datos es 7 (puede verse que ocupa el valor
central, dejando 50% por debajo y 50% por encima. Y la media recortada consiste, en
breve, en eliminar un cierto porcentaje de las observaciones de los extremos y recalcular
la media en los datos que quedan. Por ejemplo, en nuestro caso podramos quitar al 10%
de los sujetos superiores y al 10% de los inferiores. El 10% de 10 sujetos es 1 sujeto.
Grficamente puede verse en las puntuaciones, sera quitar el cero (mnimo) y el ltimo
8 (mximo):
Notas: 0 /, 5, 6, 7, 7, 7, 8, 8, 8, / 8
La media recortada al 10% sera 7, el resultado de calcular la media de los 8
alumnos centrales. En este caso tanto la mediana como la media recortada al 10% nos
ofrecen una mejor representacin del grupo, de su tendencia central.

1
Si se es estricto solo en las cuantitativas

39
MEDIDAS DE VARIABILIDAD
Resulta evidente que para representar de forma adecuada a un grupo no solamente basta
con la tendencia central. Los sujetos dentro de un grupo pueden ser muy diferentes entre
s, o muy parecidos. Esto es, un grupo puede tener mucha o poca variabilidad dentro de
sus sujetos. Consideremos los alumnos de tres grupos, a los que se mide en nota de una
asignatura tras un examen de 0 a 10. Los tres grupos tienen 10 sujetos. Sus notas a
continuacin:
Notas: 0, 0, 0, 0, 0, 10, 10, 10, 10, 10
Notas: 0, 0, 0, 5, 5, 5, 5, 10, 10, 10
Notas: 5, 5, 5, 5, 5, 5, 5, 5, 5, 5
Pues bien, los tres grupos presentan la misma media (y mediana y media recortada
al 5%). Sin embargo es evidente que los tres grupos son muy diferentes entre s. En lo
que difieren es en la variabilidad. Mayor en el primero, luego en el segundo y ninguna
variabilidad en el tercero. De hecho la variabilidad del tercer grupo es nula,
convirtiendo a la variable nota en ese grupo en una constante. Ni tan siquiera es una
variable. As pues la variabilidad:
Mide el grado de similitud (homogeneidad) entre un conjunto de
puntuaciones
Es independiente de la tendencia central
El estadstico de variabilidad ms utilizado es la varianza y su raz
cuadrada, la desviacin. Esta ultima transformacin tiene mucho uso por
ser interpretable en las mismas unidades, en la misma escala de la variable.
Oscilan de cero a infinito. Valores mayores indican mayores
variabilidades.
El clculo en SPSS es sencillo.

MEDIDAS DE ASIMETRA Y CURTOSIS


Ligeramente menos importantes para un curso introductorio, pero no por ello
irrelevantes son los conceptos de asimetra y el de curtosis que veremos posteriormente.
La asimetra sera el grado en que los datos se reparten equilibradamente en torno a la
tendencia central. Existe: asimetra positiva, negativa y simetra.
La asimetra positiva se caracteriza por una mayor concentracin de
puntuaciones en los valores bajos de la escala, y mayor dispersin en los
valores altos.
La asimetra negativa se caracteriza por una mayor concentracin de
puntuaciones en los valores altos de la escala, y mayor dispersin en los
valores bajos. (Lo contrario a la positiva)
La simetra es un reparto equilibrado alrededor de la tendencia central.
Grficamente puede verse a continuacin, en la siguiente figura (figura 13)

40
Figura 13.
Representacin de la asimetra positiva, negativa y la simetra

La curtosis simplemente la enunciaremos, sin entrar en ella ni en su clculo. La


curtosis es el grado de apuntamiento de los datos con respecto a una distribucin de
referencia, la normal.
Aunque no es una cuestin ni de asimetra ni de apuntamiento, queremos hablar,
aunque sea unas lneas de los valores atpicos. Ya hemos visto que son valores
inusuales, generalmente extremos y aislados. Es necesario identificarlos, lo que puede
hacerse grficamente o mediante estadsticos, y resulta sencillo en SPSS. Veremos esta
identificacin en lo siguientes puntos. Y es necesario identificarlos, porque como ya
hemos visto pueden distorsionar las conclusiones que se obtengan de las variables
afectando a la tendencia central, variabilidad y las relaciones entre variables.

3.2. Representaciones grficas


Los diagramas o representaciones grficas ms importantes se sitan en SPSS en el
men GRAFICOS, y son la mayora, bien entendidos y utilizados, por lo que haremos
simplemente algunos ejemplos de entre los tipos de grficos ms habituales,
introduciendo, de paso, la lgica del editor de grficos que usa SPSS. Para realizar todos
los grficos de esta seccin, as como los estadsticos descriptivos de la seccin de
estadsticos descriptivos vamos a emplear el ejemplo2.sav. Por ello, se recomienda al
lector que abra este archivo y se familiarice con l. As como que practique con los
ejemplos.
Esta base de datos incluye las puntuaciones de 195 nios medidos en una serie de
variables de inters educativo. El listado de variables, que puede verse en vista de
variables de SPSS es el siguiente:
1. Identificacin
2. Tipo de familia
3. Hermanos
4. Grupo
5. Sexo
6. Inteligencia promedio de los padres
7. Educacin promedio de los padres

41
8. Libros en casa
9. Fluidez lectora
10. Nivel de informtica
11. Horas de estudio
12. Rendimiento matemticas
13. Rendimiento lenguaje
14. Sntomas conductuales de ansiedad
15. Sntomas somticos de ansiedad
16. Sntomas cognitivos de ansiedad
17. Motivacin al estudio
18. Razonamiento numrico
19. Razonamiento verbal
20. Razonamiento espacial
Algunas de estas variables son cualitativas, otras cuasi-cuantitativas y otras
cuantitativas. La mayor parte cuantitativas. En general ya hemos visto que las
representaciones grficas, en SPSS, se realizan en el men de grficos. Al desplegarlo
se ve la imagen que se muestra en la figura 14.
Figura 14.
Men de grficos del SPSS 12

42
Como puede verse en la figura 14, las opciones grficas son mltiples. Nosotros
vamos a ver, mediante ejemplos, algunas de la ms utilizadas, y empezando por las ms
sencillas para acabar en ms complejas. Conocer cmo son las variables nos ayuda a
elegir el tipo de grfico ms adecuado. No obstante, antes de empezar a realizar
ejemplos, y siendo que es la primera vez que realizaremos verdaderos anlisis, es
necesario que el lector tenga claro que al abrir las diversas ventanas de anlisis o de
grficos las opciones de SPSS son mltiples. Nosotros no vamos a agotar las
posibilidades de anlisis, por ello solamente hablaremos de lo que es necesario realizar
para obtener un anlisis adecuado de nuestros datos, y no del porqu ni para qu del
resto de opciones.
El primer ejemplo que vamos a realizar es de los ms sencillos. Representar
grficamente una variable cualitativa o nominal. En este tipo de variables tenemos una
serie de categoras que nosotros hemos ordenado de cierta manera, y a las que les hemos
colocado nmeros, pero son meras etiquetas, y el orden podra ser otro. Lo nico que
podemos decir de ellas es cuntos sujetos de nuestra muestra estn en cada categora, y
se puede decir en frecuencias absolutas, relativas o porcentajes. Los tipos de grficos
para este caso simple suelen ser el diagrama de barras (barras en las opciones de la
figura 14) y el de sectores (sectores en figura 14). Nosotros vamos a realizarlo para la
variable tipo de familia.
Para realizar un grfico de barras, se va al men GRFICOS, de ah a barras y
aparecer una ventana. Si slo se quiere hacer un grfico de una sola variable la opcin
por defecto del programa (lo que ya est seleccionado en esa ventana es correcta, ya que
el grfico es simple y los resmenes para grupos de casos, con lo que solamente hay que
dar a definir y aparecer la ventana que se ve en la figura 15, a continuacin.
Figura 15.
Generando un diagrama de barras simple en SPSS

Y al dar a aceptar el resultado es que SPSS abre una hoja nueva, en blanco, que es
donde coloca el resultado del anlisis. Aqu solamente es relevante comentar que se
permite poner frecuencias o porcentajes, que los porcentajes pueden ser acumulados o

43
no. La acumulacin de valores se utiliza relativamente poco, por lo que las elecciones
son en realidad, dar las frecuencias o los porcentajes. Generalmente usaremos
porcentajes. Esta hoja, ahora, tendr el grfico que le hemos pedido, y conforme
vayamos haciendo anlisis se irn poniendo en esta hoja, uno detrs de otro. Por
supuesto esta hoja (resultados) se puede guardar, etc. como en cualquier otra aplicacin
informtica. En cualquier caso, el resultado de la grfica es ste que se ve en la figura
16.
Figura 16.
Porcentajes de los distintos tipos de familia en la muestra

Como puede verse, al haber pedido porcentajes son stos los que aparecen en la
figura. Por lo dems los grficos son autoexplicativos. Si se desea modificar el grfico
para ofrecer otros colores, otros formatos de lneas, o cambiar algunas etiquetas, o poner
ttulo, etc, entonces se tiene que pinchar dos veces en el grfico (estando en SPSS) y se
abrir un editor de grficos. Dejamos al lector que juegue abriendo el editor de
grficos, pero no es el objetivo estadstico. En la figura 17 puede verse la ventana que se
abre (editor de grficos) al dar doble clic a la grfica en SPSS.

44
Figura 17. Ventana del editor de grficos de SPSS

Esta misma variable podra haberse representado mediante un grfico de sectores.


Todo es igual, salvo que en lugar de ir a barras, se va a sectores, y en la ventana que se
abre se tienen que volver a elegir entre resmenes para grupos de casos, la opcin que
vamos a ver y que sirve para resumir los valores de una variable, u otras opciones. Al
dar al botn definir se abre una nueva ventana que permite elegir entre frecuencias o
porcentajes y donde hay que situar la variable que se desea en la grfica en definir
sectores por. El resultado es el que se ve en la figura 18. Los porcentajes, manejando el
editor de grficos pueden ponerse como etiquetas al lado de cada modalidad que define
a cada sector (ver figura 19).

45
Figura 18.
Grfico de sectores para la variable tipo de familia

Figura 19.
Grfico de sectores para la variable tipo de familia con los porcentajes de respuesta

Para una variable semi-cuantitativa, como puede ser la medicin que se tiene en la base
ejemplo 2.sav del nmero de hermanos, tambin suelen utilizarse los diagramas de
barras, como puede verse en la figura 20.

46
Figura 20.
Diagrama de barras para la variable nmero de hermanos

Sin embargo, las variables cuantitativas, las continuas o simplemente las que
tienen un rango amplio de valores posibles, suelen tratarse grficamente mediante
histogramas. Estos histogramas se realizan tambin en grficos, pero se tiene que ir a
histogramas. All se abre la siguiente ventana, donde si simplemente se quiere el
histograma de una variable, como por ejemplo el rendimiento en matemticas, tan solo
se debe situar esta variable en la ventana de variable, y aceptar. Esta ventana se presenta
en la figura 21.
Figura 21.
Ventana para pedir un histograma en SPSS

47
El resultado de uno de estos histogramas es el que se presenta a continuacin.
Puede verse que los valores de rendimiento oscilan entre un mnimo de 1 y un mximo
de cinco, y que el SPSS ofrece, adems, la media y la desviacin tpica.
Figura 22.
Histograma del rendimiento en matemticas.

Hasta aqu los tres tipos de grficos bsicos. Aunque los grficos de lneas son
tambin muy comunes, en realidad son muy similares a los ya expuestos, y no los
tocaremos. Estos tres grficos permiten, no obstante una gran variedad una vez se coge
soltura en su edicin. Sobre todo muy til es aprender a realizar estos tres grficos, pero
divididos en funcin otra variable con el propsito de comparar grupos. Veamos unos
ejemplos. Supongamos que se desea ver el rendimiento en matemticas, pero en vez de
en el global de la muestra, en funcin de en qu tipo de familia viva el nio. Para ello,
simplemente, hay que poner (ver figura 21 nuevamente) la variable tipo de familia en la
ventana filas. El resultado sera el que se ve en la figura 23. En ella puede compararse
rpidamente el rendimiento de los distintos grupos de alumnos. De vistazo se ve que el
rendimiento es superior en los que viven con los dos padres solamente, y probablemente
el ms bajo el de los que viven con los abuelos.

48
Figura 23.
Histograma del rendimiento en matemticas en funcin del tipo de familia.

Supongamos ahora que queremos saber si la variable grupo (normal y con clases
extras en el colegio) presenta una distribucin distinta de hombres y mujeres. Para
contestar a esto es realizar lo mismo que antes, pero al ser dos variables cualitativas se
hace con diagrama de barras. As se trata de graficar una variable en funcin de otra,
pero mediante diagrama de barras, y se realiza en GRFICOS, eligiendo barras, y
aparecer la ventana de la izquierda de la figura 24. All se escoge agrupado, y
resmenes para distintas variables. Entonces aparecer la ventana de la derecha en la
figura 24, y solo se trata de colocar grupo en el eje de categoras y sexo en definir
grupos por.

49
Figura 24.
Ventanas para pedir un diagrama de barras en funcin de otra variable

El resultado de la seleccin grfica anterior en SPSS es la grfica que se muestra


en la figura 25. Puede verse que mientras entre los alumnos con clases extra son ms
numerosas las mujeres, el contrario ocurre en el grupo normal (sin clases extras). Las
mujeres acuden ms a clases extras.
Figura 25.
Diagrama de barras de grupo dividido en funcin del sexo.

50
Al margen de estas grficas, digamos sencillas, ya que simplemente tratan de
ofrecer las frecuencias y/o porcentajes de una variable o a lo sumo de una variable en
funcin de una serie de grupos, SPSS hace una serie de grficas con propsitos menos
generales, ms especficos. Algunas de las ms importantes para el trabajo aplicado las
vamos a tratar, brevemente a continuacin.
Para el cumplimiento de los supuestos de algunas tcnicas estadsticas es
fundamental evaluar el grado de alejamiento de la normalidad, la falta de simetra y la
presencia de datos atpicos. Un primer paso en este sentido es estudiar las variables de
forma descriptiva, y concretamente mediante graficas y mediante el clculo de
estadsticos.
Una primera aproximacin es pedir el histograma de una variable, tal y como
hemos hecho anteriormente, pero con una representacin de la distribucin normal
superpuesta, de forma que permite ver alejamientos de sta. Para pedir un histograma se
debe ir al men GRFICOS, dentro de la opcin HISTOGRAMA, y all situar la variable
sobre la que se quiere el histograma y la opcin de ver curva normal (consultar figura
21).
El resultado de un histograma para un par de variables es como el de las grficas a
continuacin (figura 26). La primera de las grficas muestra la asimetra negativa de una
variable, mientras que la segunda de las grficas presenta una extrema asimetra
positiva. Estos ejemplos no son de las bases de datos que hemos manejado. El lector
puede realizar sus propios ejemplos con ellas.
Figura 26.
Histogramas con curva normal superpuesta.

Para estudiar las caractersticas de una distribucin en cuanto a su aproximacin a


la normal es, no obstante mejor, especialmente en tamaos muestrales no muy grandes,
acudir a diagramas de cuantiles. Hay dos posibilidades, los grficos P-P (percentil-
percentil) y los grficos Q-Q (cuantil-cuantil). Se diferencian en que los primeros
utilizan las proporciones acumuladas, y los segundos los valores. Estos ltimos son
quiz ms fciles, por tanto, de interpretar. Los grficos Q-Q se piden en el men
GRFICOS y en la opcin Q-Q. Las opciones por defecto que ofrece SPSS son buenos,
simplemente hay que decir de qu variables queremos los grficos. Los resultados para
las dos variables anteriores se pueden ver a continuacin.

51
Figura 27.
Grficos de cuantiles.

Por ltimo repasaremos un tipo de grficos que resulta til para revisar la simetra,
pero especialmente para sealar la presencia de valores atpicos (outliers). Los
diagramas de caja y bigotes, desarrollados por Tukey desde el anlisis exploratorio de
datos, se pueden pedir en SPSS en el men GRFICOS, y dentro de la opcin
DIAGRAMAS DE CAJA. Existen dos opciones, una vez pedidos, el defecto es el adecuado,
pidiendo diagramas simples. De todas formas, an pidiendo simple existen dos opciones
a elegir. Por un lado se puede optar por resmenes para distintas variables, lo que nos da
para cada variable que seleccionemos un diagrama de cajas, o la opcin de resmenes
para grupos de casos, que sirve para que se ofrezca un diagrama de caja y bigotes por
subgrupos definidos en base a una tercera variable. Veamos un ejemplo de cada opcin.
Supongamos que queremos un diagrama de caja y bigotes para una variable,
iramos a diagrama de caja y seleccionaramos la opcin resmenes para distintas
variables, pincharamos en definir y seleccionaramos la variable en cuestin. El
resultado vendra en un formato como en el de la grfica a continuacin (figura 28).
La interpretacin del diagrama de caja y bigotes es simple. La raya negra central
muestra la mediana de la variable. Mientras que arriba y debajo de ella hay un
rectngulo en rojo (caja) que va hasta los valores del cuartil 1 y cuartil 3. Si la distancia
entre la mediana y los cuartiles fuera idntica sera muestra de simetra en la
distribucin. Por su parte las lneas que se extienden hasta un lmite superior e inferior
que seala los lmites de las observaciones tpicas (no outliers). A partir de stos
lmites aparecen los valores atpicos, si los hay. Estos valores se muestran con su valor
de caso.
Por su parte, si se opta por los resmenes para grupos de casos, entonces el
diagrama es exactamente igual pero hay varias, una para cada subgrupo. A continuacin
puede verse un ejemplo donde la variable agrupadora es el sexo, hombre, mujer y
omitido, y cada uno de estos grupos tiene su diagrama correspondiente (ver figura 29).

52
Figura 28.
Diagrama de caja y bigotes.

Figura 29.
Diagrama de caja y bigotes por grupos.

53
3.3. Estadsticos descriptivos
Los estadsticos descriptivos son bien conocidos, y fciles de obtener. Normalmente se
reduce a obtener una distribucin de frecuencias, especialmente til en el caso de
variables cualitativas, y el estudio de la tendencia central, variabilidad, asimetra y
curtosis. Todos estos estadsticos descriptivos se obtienen del men ANALIZAR, y
dentro de la opcin ESTADSTICOS DESCRIPTIVOS. La siguiente figura muestra estos
mens:
Figura 30.
Opciones de obtencin de estadsticos descriptivos en SPSS.

La opcin de estadsticos descriptivos presenta, a su vez, diversas posibilidades


(ver figura 30), de las que nos interesan las de frecuencias, descriptivos y explorar. La
primera de ellas la de frecuencias. En frecuencias se obtiene las tablas de frecuencia
(distribuciones de frecuencia) en que se da la frecuencia y porcentaje de cada uno de los
valores de la variable en la muestra bajo estudio. Se pueden pedir en estadsticos de esa
misma ventana las medidas ms utilizadas de tendencia central, variabilidad, asimetra,
curtosis, y los percentiles que deseemos. Esto ltimo, los percentiles, son de
extraordinaria importancia en la descripcin de grupos normativos de cuestionarios y
escalas, por ejemplo. Tambin pinchando en la opcin grficos pueden obtenerse
diagramas de barras e histogramas (con curva normal), como los que hemos analizado
ya en la seccin anterior.
La figura 31 muestra estas opciones (salvo la de grficos que es muy redundante
con lo que ya se plante en el punto anterior). Por ejemplo, en el caso que se muestra en
la figura 31, se est trabajando con la base de datos ejemplo 2.sav. Aqu puede verse
que se ha abierto la ventana de frecuencias, donde est sealado mostrar tabla de
frecuencia (ventana superior), lo que quiere decir que el paquete estadstico nos va a
ofrecer frecuencias y porcentajes de las variables seleccionadas, en nuestro caso:
hermanos, inteligencia promedio de los padres, fluidez lectora y sexo. Adems se ha
pinchado en el botn estadsticos, por lo que aparece la ventana inferior, del mismo

54
ttulo. Aqu pueden pedirse casi todos los estadsticos que hemos visto hasta ahora, y los
calcular de todas las variables seleccionadas, en nuestro caso cuatro. Puede verse cmo
se ha pedido:
media, mediana y moda
los percentiles 25 y 75
la asimetra y curtosis
desviacin tpica
mnimo y mximo.
Resulta evidente que algunas de las variables, por ejemplo sexo por ser cualitativa,
no son susceptibles de hacer algunos de estos clculos, como la media y mediana o la
desviacin tpica, la asimetra y curtosis y los percentiles. Pero es labor del investigador
elegir los estadsticos que son tiles en funcin de la naturaleza de las variables, como
hemos visto, y descartar aqullos que, por el contrario, no ofrecen informacin vlida.
Figura 31.
Ventanas de frecuencias en SPSS.

Al pedir estos anlisis se obtiene, lo primero, una tabla con los estadsticos
descriptivos que se han seleccionado anteriormente para todas las variables, tal y como
se muestra en la tabla a continuacin (tabla 1).

55
Tabla 1.
Estadsticos descriptivos para cuatro variables de la base ejemplo 2.sav.

Adems al pedir las tablas de frecuencias de todas las variables (como se ve en la


figura 31, el SPSS ofrece una tabla de frecuencias con porcentajes para cada una de las
variables seleccionadas. En el output (resultado) de SPSS aparecern cuatro tablas de
frecuencias, una por cada variable. Solamente vamos a poner una tabla aqu, la de sexo,
que ha resultado absolutamente necesaria por ser una variable cualitativa. El resto de
variables siguen la misma lgica, ya que simplemente es presentar los valores que han
ocurrido de la variable, su frecuencia y su porcentaje. A sealar que existe el porcentaje
vlido, porque al poder haber valores faltantes (missing), pueden no coincidir los
porcentajes de verdad y el porcentaje sobre los que realmente contestan. Adems se
ofrece el porcentaje acumulado (ver tabla 2).
Tabla 2.
Tabla de frecuencias de sexo.

Otra de las opciones dentro de ANALIZAR.... ESTADSTICOS DESCRIPTIVOS


es la de descriptivos. Ofrece los mismos estadsticos que la opcin anterior de
frecuencias, por lo que tpicamente lo pediremos junto a la tabla de frecuencias anterior.
No obstante, si solamente se quieren los estadsticos descriptivos bsicos, entonces

56
descriptivos es una opcin. Simplemente se abre la ventana donde se seleccionan las
variables a analizar y dando a opciones se escogen los estadsticos que se deseen. Como
ejemplo se han calculado los descriptivos de fluidez lectora (ver tabla 3), para que se
vea que los clculos son los mismos que los presentados para esta variable en la tabla 1.
Tabla 3.
Descriptivos de fluidez lectora.

Ms interesante puede resultar la opcin de explorar, en el mismo men y


submen, que integra algunos de los aspectos de diagnstico que hemos estado viendo
hasta ahora, tanto a nivel grfico, como de estadsticos descriptivos. Por lo tanto es una
opcin interesante para pedir de forma integrada alguno de los aspectos ya considerados
por separado.
La opcin de explorar abre una ventana en la que se debe colocar las variables de
las que queramos estadsticos descriptivos y grficos en la ventana de dependientes.
Ofrece la posibilidad de determinar factores, que seran variables agrupadoras. Es decir,
variables que generan subgrupos sobre los que se calcular, por separado, los
estadsticos y grficas que deseemos. As, por ejemplo, si ponemos la edad como
dependiente y variable gnero como factor, nos realizar estadsticos descriptivos y
grficas por separado para hombres y mujeres.
Dentro de la ventana de explorar hay, por tanto, dos botones de inters, uno de
estadsticos y otro de grficos. En la opcin de estadsticos por defecto da los
descriptivos ms habituales, pero adems ofrece estimadores robustos de tendencia
central, valores atpicos y los percentiles ms utilizados. En la opcin de grficos
permite calcular los diagramas de caja y bigotes presentados con anterioridad,
diagramas de tallo y hojas e histogramas con curva normal. Adems ofrece en la opcin
de grficos con prueba de normalidad los Q-Q plots presentados anteriormente junto a
una prueba de normalidad (Kolmogorov-Smirnov con correccin de Lilliefors).
La figura 31 a continuacin permite ver las principales ventanas que se abrirn al
hacer clic en las opciones de explorar:

57
Figura 31.
Ventanas del submen explorar de SPSS.

Como se ve, la opcin explorar ofrece una forma rpida de pedir los principales
estadsticos descriptivos y las representaciones grficas de forma unitaria, sin necesidad
de acudir a mens diferentes. Supongamos, por ejemplo, que se desea, como se ve en la
figura 31, obtener los estadsticos descriptivos para la variable razonamiento numrico
en funcin del sexo, esto es, para hombres y mujeres. Entonces se coloca en
dependientes el razonamiento numrico, y en factores sexo. Al hacer clic en estadsticos
se abre la ventana de abajo a la izquierda, donde descriptivos es el defecto, y da los
resultados habituales, y si se quiere adems los percentiles hay que seleccionarlo. Si se
hace clic en el botn de grficos, se puede pedir un diagrama de tallo y hojas (que no
veremos), un histograma (similar a los ya utilizados, y que tampoco veremos), el
diagrama de caja y bigotes y los grficos con pruebas de normalidad que tambin
veremos.
Entre los resultados que se ofrecen, rescataremos los ms interesantes. La primera
tabla (tabla 4) ofrece los principales estadsticos descriptivos. Aqu no entraremos, pues
son conocidos, simplemente sealar que divide en los dos grupos, en hombres y en
mujeres. Otra cosa a sealar es que en explorar es el nico sitio donde se puede calcular
medidas robustas. En concreto nosotros hemos pedido la media recortada, que por
defecto la da recortada al 5%, lo que puede ser muy razonable para la mayor parte de
situaciones.

58
Tabla 4.
Descriptivos de razonamiento numrico en funcin del sexo.

La siguiente tabla, la tabla 5 ofrece los percentiles, ya que fue una de las opciones
que seleccionamos con anterioridad, pero nuevamente hay que destacar que los da para
hombres y para mujeres por separado. Tambin sealar que en la misma tabla 5, pero
debajo se ofrecen las pruebas de normalidad que se pidieron, si bien aunque las
mostramos aqu, dado el carcter introductorio del texto no las vamos a interpretar, sino
que dejaremos esto para ms adelante, cuando se haya avanzado en temas posteriores.

59
Tabla 5.
Percentiles de razonamiento numrico en funcin del sexo.

Para finalizar simplemente mostrar las figuras 32 y 33, que muestra,


respectivamente los histogramas de razonamiento numrico y los grficos Q-Q. Todos
estos tipos de grficos ya los hemos visto, de forma que simplemente es mostrarlos.
Una vez ms incidir en que se presentan por separado para hombres y para
mujeres, y esta opcin nos permite comparar visualmente de forma muy sencilla en el
primer caso, el de los histogramas, lo que ocurre en la variable con los hombres por
comparacin a las mujeres. En el caso de los grficos Q-Q es exactamente lo mismo,
nos permite la comparacin visual rpida de hombres y mujeres con respecto a
alejamientos de la normalidad. Nos permite ver si se cumple o incumple la normalidad
de la misma forma o distinta en hombres que en mujeres.

60
Figura 32.
Histogramas de razonamiento numrico para hombres y mujeres.

61
Figura 33.
Grficos Q-Q de razonamiento numrico para hombres y mujeres.

62
Tema 4.
Relaciones bivariadas

Entre las tcnicas estadsticas bsicas ocupan un lugar predominante las que permiten
estudiar las relaciones entre dos variables. Existen diversos tipos de tcnicas, con
fundamentos, exigencias e interpretaciones diferentes, en funcin de las caractersticas
de las variables cuya relacin se quiere estudiar. Para simplificar, y aunque
evidentemente no se agotan las tcnicas estadsticas con las que veremos aqu, si
veremos las ms utilizadas en ciencias sociales, humanidades y salud. Podemos verlo en
forma de toma de decisiones de la siguiente manera, en funcin de cmo sean las
variables, de su naturaleza.

Cuando las dos variable a relacionar son categricas la tcnica estadstica pasa
por tablas de chi-cuadrado y los estadsticos relacionados.

Cuando una de las variables es categrica y la otra cuantitativa (mnimo cuasi-


cuantitativa con un nmero razonablemente alto de niveles) las tcnicas
estadsticas pueden ser las pruebas t o el anlisis de varianza, en funcin de:
o Si la variable categrica tiene dos categoras se aplicaran pruebas t (o el
equivalente no paramtrico)
o Si la variable categrica tiene tres o ms categoras se aplicaran anlisis
de varianza (o el equivalente no paramtrico)

Cuando ambas variables son cuantitativas o al menos cuasi-cuantitativas las


tcnicas estadsticas, en principio, son la correlacin y la regresin

4.1. Relaciones entre variables categricas


El primer caso que nos podemos encontrar es el de querer estudiar la relacin entre
variables categricas como, por ejemplo, el sexo y la eleccin de carrera universitaria.
El procedimiento habitual es realizar una tabla de contingencia donde se calcula una
prueba de chi-cuadrado (o una razn de verosimilitud) de independencia entre las
variables, junto con el clculo de alguna medida de la cuanta de la asociacin, si existe.
Estos dos clculos pueden realizarse en el men ANLISIS, dentro de la opcin
de ESTADSTICOS DESCRIPTIVOS, al seleccionar tablas de contingencia. Una vez
seleccionada la opcin de tablas de contingencia se abre una ventana, donde
simplemente hay que colocar una de las variables categricas en filas, y la otra en
columnas (en principio, para estudiar la relacin es indiferente cul se ponga en cada
sitio). Est la opcin de definir capas, que es simplemente colocar una o ms variables
categricas en esta sub-ventana para que realice el anlisis de las dos variables

63
categricas de inters, pero en funcin de los subgrupos de la variable categrica que
defina las capas.
La figura 34 muestra un ejemplo de seleccin de variables en SPSS para realizar la
prueba de chi-cuadrado. En este caso es para ver la relacin entre sexo y grupo del
ejemplo 2.sav. Luego volveremos sobre este mismo ejemplo.
Figura 34.
Ventanas para pedir una prueba de chi-cuadrado en SPSS.

Adems de la definicin de las filas y columnas de la tabla, las opciones


relevantes que hay que dar estn en los botones de estadsticos y de casillas. En la
opcin de estadsticos las mejores opciones son el clculo del coeficiente phi para tablas

64
de 2x2, y el clculo de la V de Cramer para el caso de tablas de I x J. Una tabla 2x2 es
aqulla que viene de cruzar (relacionar) dos variables categricas que tienen, las dos,
dos categoras. Por ejemplo si se cruza el sexo (hombre/mujer) con aprobar una
asignatura (aprueba/suspende). Una tabla de IxJ es aqulla que viene de relacionar dos
variables categricas que no tienen alguna de ellas dos opciones, sino ms. Por ejemplo,
si una tienen 3 categoras y la otra 4 categoras, sera una tabla 3x4. En la opcin de
casillas resulta conveniente para la interpretacin posterior pedir los porcentajes, bien
por filas, bien por columnas.
A continuacin aparecen los resultados de un ejemplo de cruce de variables
categricas. En este caso es en la base de datos ejemplo 2.sav. Queremos saber si
existe alguna relacin entre el sexo y el grupo (ir a clases extras, frente a no ir o grupo
catalogado como normal). Esto es, queremos saber si existen mayores probabilidades de
ir a clases extra por el hecho de ser hombre o ser mujer. En la siguiente tabla (tabla 6)
aparecen las frecuencias y, adems, en este caso hemos pedido los porcentajes por filas.
Ello nos permite ver que el patrn de grupo vara de forma porcentual en funcin del
sexo (hombre o mujer) de que se trate. As, por ejemplo, podemos fijarnos en que de los
hombres el 31.4% dan clases extra. Por el contrario de las mujeres es el 55.3%, un
porcentaje superior, el que da clases extra.
Tabla 6.
Tabla de contingencia de sexo x grupo con porcentajes por filas.

Ahora bien, esta tabla puede interpretarse de forma cualitativa de manera


inadecuada al tratar como estadsticamente significativas diferencias porcentuales que
pueden ser debidas al azar. Para eliminar este error se hace necesario realizar alguna
prueba estadstica que permita saber si la asociacin entre las variables es
estadsticamente significativa. El estadstico (prueba) ms utilizado es el de chi-
cuadrado que contrasta la hiptesis de que las variables de fila y columna son
independientes. No debe utilizarse si cualquiera de las casillas tiene un valor observado
menor que 1, o si ms de un 20% de las casillas tienen valores esperados menores que 5.
En cualquier caso, el propio SPSS avisa si ocurre cualquiera de estos problemas. Hay
dos pruebas, en realidad, disponibles, la de chi-cuadrado y la razn de verosimilitud,
pero los resultados de ambas convergen a medida que aumenta la muestra. No obstante,
en muestras pequeas funciona mejor la razn de verosimilitud. En el caso de la prueba
aplicada puede verse que la prueba de chi-cuadrado tiene un valor de significacin
asinttica bilateral de 0.001. Cualquier valor de significacin que est por debajo de
0.05 (p< 0.05) es, en general, indicativo de que existe una relacin estadsticamente
significativa. As pues, en este caso la prueba de chi-cuadrado indica que parece haber

65
una relacin entre ambas variables, que como hemos visto hace que sea ms probable
dar clases extra si se es mujer que si se es hombre.
Tabla 7.
Prueba de chi-cuadrado aplicada a la tabla de contingencia de la tabla 6.

Finalmente, y an cuando la prueba de chi-cuadrado ha resultado estadsticamente


significativa, mostrando por tanto una asociacin, resulta conveniente tener una medida
de la fuerza de esa asociacin. La siguiente tabla de resultados ofrece tanto el
coeficiente phi, como la V de Cramer. En este caso el ms adecuado sera la phi, dado
que la tabla es 2x2. En cualquier caso para tablas de 2x2 ambas medidas siempre
coinciden. Son coeficientes que oscilan entre 0 y 1, indicando el cero ninguna relacin y
el 1 relacin perfecta. En este caso la asociacin es moderada, pues vale 0.23.
Tabla 8.
Medidas de cuanta de la relacin.

4.2. Pruebas t y Anlisis de la Varianza (ANOVA)


Ya hemos visto que cuando una de las variables es categrica y la otra cuantitativa
(mnimo cuasi-cuantitativa con un nmero razonablemente alto de niveles) las tcnicas
estadsticas pueden ser las pruebas t o el anlisis de varianza, en funcin de: si la
variable categrica tiene dos categoras que se aplicaran pruebas t (o el equivalente no
paramtrico); o si la variable categrica tiene tres o ms categoras que se aplicaran
anlisis de varianza (o el equivalente no paramtrico). Ahora vamos a ver estos dos
tipos de tcnicas, pruebas t y anlisis de varianza.

66
PRUEBAS T
La prueba t permite comparar dos medias muestrales. Por lo tanto est indicada cuando
se quiere estudiar si una variable categrica con dos niveles guarda relacin con una
variable cuantitativa (o al menos cuasi-cuantitativa). Existen dos tipos de pruebas t
principales, aquellas para grupos independientes, para muestras independientes, y
aquellas para muestras, grupos, dependientes. El primero de los casos respondera al
genrico de dos grupos de sujetos diferentes, como la comparacin de las medias de
hombres y mujeres en un variable cualquiera. El segundo caso, muestra dependientes,
respondera al genrico de los mismos sujetos medidos en dos ocasiones o en dos
aspectos diferentes, parar saber si las medias son iguales o diferentes. Por ejemplo la
media antes y despus de una intervencin teraputica.
Todas las pruebas t anteriormente descritas, se realizan en el men ANALIZAR
dentro del submen COMPARAR MEDIAS. Dentro de este submen existe diversas
opciones de pruebas t, adems de las opciones de medias y ANOVA de un factor. Las
tres opciones de pruebas t son: la de comparacin con un valor poblacional (o prueba de
una muestra), y las de comparacin de dos muestras, siendo estas independientes o
dependientes, que suelen ser las de nuestro inters (ver figura 35).
Figura 35.
Opciones de pruebas t para comparar medias en SPSS.

La prueba t de comparacin de dos muestras independientes suele denominarse


tambin prueba t de Student. Si se opta por esta opcin aparece una ventana de dilogo
en que simplemente debemos colocar la variable (o variables) de la que queremos
conocer si existen diferencias de medias en la ventana de variable a analizar y la
variable que genera los grupos, aquella que define qu sujetos pertenecen a una muestra,
y cules a la otra, en la ventana de variable agrupadora.

67
Figura 35.
Pruebas t de muestras independientes, comparacin de dos grupos.

Esta prueba t alberga en realidad dos pruebas diferentes, una para el caso de
varianzas homogneas, otra para el caso de varianzas heterogneas. La prueba para el
caso de heterogeneidad de varianzas es la correccin de Welch-Satterwhite para el
problema de Behrens-Fisher.
Puede saberse si las varianzas son homogneas o no mediante la prueba de
Levene, tambin ofrecida por la salida del ordenador. No obstante el supuesto de
homogeneidad de varianza es relativamente poco importante si los grupos presentan
tamaos de muestra similares. Si stos difieren bastante (diversos autores -ver Stevens,
1999- hablan de razones de 1.5), entonces en ese caso conviene contrastar la igualdad de
varianzas y aplicar la prueba ms adecuada. (No obstante parece que la prueba de
varianzas iguales funciona bastante bien con tal de que las varianzas no superen la razn
3 a 1).
A continuacin aparece el ejemplo anterior de contraste de las medias de
razonamiento verbal de hombres y mujeres. El ordenador ofrece en primer lugar los
descriptivos (media y varianza) de cada grupo, y a continuacin las pruebas de varianza
y de medias, propiamente dichas.
Tabla 9.
Resultados de la prueba t de muestras independientes.

Como puede verse en la tabla 9 las varianzas son homogneas, ya que la prueba de
Levene no es estadsticamente significativa (p> 0.05), luego no hay diferencias entre las

68
varianzas de ambos grupos. Por tanto, conviene utilizar la prueba que asume varianzas
iguales. No obstante hay que darse cuenta de que ambas pruebas ofrecen la misma
conclusin (para el 5% y el 1%), desigualdad de medias. Puede verse que el valor de la t
para varianza iguales (en la fila de la tabla nombrada se han asumido varianzas
iguales) es de -0.147. Esto lleva aparejado un valor de significacin bilateral (sig.
bilateral en la tabla) o valor de p de 0.883, lo que es p>0.05, y es indicativo de que no
hay diferencias estadsticamente significativas entre las medias de razonamiento verbal
de hombres y mujeres. O lo que es lo mismo, no hay evidencia de relacin entre el sexo
y el razonamiento verbal en la poblacin de la que se extrajo la muestra.
Una cuestin importante que aparece en este mismo ejemplo de forma clara es la
de la significacin estadstica de los efectos. En este caso es evidente que las dos
pruebas ofrecen resultados estadsticamente significativos. Sin embargo resulta siempre
interesante un clculo del tamao del efecto que nos pudiera ofrecer no solo una medida
de diferencias, sino de cuanta de las diferencias, lo que finalmente puede devenir en
una evaluacin ms prctica. Una de las medidas ms empleadas del tamao del efecto,
fcil de calcular a partir de los resultados de SPSS, es la propuesta por Hedges:

y donde

Esta no es ms que una diferencia entre medias estandarizada, y Cohen, uno de


los principales tericos sobre la potencia y el tamao del efecto, propone como guas
para su evaluacin que un valor de 0.2 se considere un efecto bajo, 0.5 medio y 0.8 alto.
De la misma manera puede operarse en muestras dependientes o relacionadas. En
este caso queremos comprobar si existen diferencias entre las medias de razonamiento
verbal y numrico. Como todos los alumnos se han medido en ambas medidas (y
adems tienen la misma escala y son por tanto comparables) tenemos muestras
dependientes o relacionadas, porque los sujetos de ambas medidas son los mismos, y
estn pues relacionados. Se operara pidiendo en COMPARAR MEDIAS la prueba t de
muestras relacionadas. All se sita el par de variables a comparar. La siguiente figura
ofrece la ventana donde se pide la prueba t para muestras relacionadas.
Figura 36.
Pruebas t de muestras independientes, comparacin de dos grupos.

Los resultados relevantes de SPSS se muestran en la tabla 10 a continuacin. Lo


relevante es saber si, acorde al valor de la prueba estadstica, que en este caso es un
valor t de -0.897, puede decirse que existen diferencias entre los promedios de

69
razonamiento verbal y numrico. Al observar el valor de significacin podemos ver que
no es el caso, ya que la significacin (o valor de p) es 0.371, lo que implica que no
existen diferencias entre ambos promedios, ya que p< 0.05.
Tabla 10.
Resultados de la prueba t de muestras dependientes.

Puede verse cmo la tabla 10 no ofrece diferencias estadsticamente significativas. Las


cuestiones de tamao del efecto que ya comentamos en el caso de muestras
independientes tienen aqu la misma importancia. En cualquier caso para el clculo de la
d (diferencia entre medias), la desviacin tpica del denominador ya est calculada en la
tabla que adjuntamos, lo que evita un clculo tedioso.

ANLISIS DE VARIANZA (ANOVA)


Si en lugar de querer comparar las medias de dos grupos se desean contrastar las
diferencias de tres o ms grupos, la prueba F de anlisis de varianza (ANOVA) resulta,
en principio, la adecuada. La prueba de ANOVA es muy verstil, ya que permite
analizar, compara, medias de diversos diseos y/o tipos de variables simultneamente.
Los diseos de mayor simplicidad son el ANOVA unifactorial entre-sujetos (el caso de
tres o ms grupos independientes) y el intra-sujetos o de medidas repetidas (tres o ms
grupos dependientes o relacionados). Veamos un ejemplo de cada uno de ellos.

ANOVA de un factor entre-sujetos


Cuando hay un factor o variable independiente que agrupa a los sujetos en grupos o
muestras independientes, y queremos saber si existen diferencias entre las medias de
esos grupos en una variable cuantitativa (variable dependiente) podemos emplear el
ANOVA simple o unifactorial.
Pongamos por caso que queremos saber si el tipo de familia en que vive el alumno
afecta a su rendimiento en matemticas (siempre utilizando la base ejemplo 2.sav).
Los cinco tipos de familia, por tanto, actuaran como variable independiente, factor o
agrupadora, mientras que la variable dependiente sera el razonamiento numrico. El
anlisis empezara en el men ANALIZAR, y dentro de l en el submen COMPARAR
MEDIAS, eligiendo la opcin ANOVA de un factor.

All sealaramos al ordenador que la variable dependiente es razonamiento


numrico y que el factor es el tipo de familia. De entre las opciones que resulta
importante considerar tenemos en opciones la posibilidad de: pedir los descriptivos por
grupos, lo que ofrece informacin sobre la media y la desviacin tpica de cada grupo;
la homogeneidad de varianzas, mediante la prueba de Levene que ya vimos en las
pruebas t; y un grfico de medias, menos importante. De especial importancia es

70
escoger las pruebas a posteriori (o post-hoc) adecuadas. La figura 37 ilustra algunas de
estas opciones. Sobre lo que indican las pruebas post-hoc incidiremos luego, tras ver los
primeros resultados de este ejemplo de ANOVA entre-sujetos.
Figura 37.
Anlisis de varianza entre-sujetos en SPSS.

La siguiente tabla (tabla 11) presenta la prueba de homogeneidad de varianzas


(primera tabla) y la prueba de ANOVA propiamente dicha (segunda tabla). Como puede
apreciarse la prueba de homogeneidad de varianzas resulta estadsticamente
significativa (p< 0.05) por lo que las varianzas de los distintos grupos son distintas entre
s, y no se cumple el supuesto de homogeneidad de varianzas. En cuanto a las medias el
contraste para comprobar si las medias de los distintos tipos de familia son distintas
entre s o no se pueden ver ya en la tabla del anlisis de varianza (ANOVA). All puede
verse que la prueba de ANOVA (una F) vale 6.61, y que efectivamente es
estadsticamente significativa (el valor de significacin es de 0.000, lo que es menor de
0.05, p< 0.05). Esto indica que efectivamente s hay diferencias entre las medias de
razonamiento numrico en funcin del tipo de familia. O en otras palabras que s hay
alguna relacin entre el razonamiento numrico y el tipo de familia en que vives.
Tabla 11.
Resultados del ANOVA entre-sujetos: homogeneidad de varianzas y prueba F del
ANOVA.

71
Como ya sabemos que el resultado del ANOVA es estadsticamente significativo,
tenemos evidencia de que hay al menos un grupo que es diferente (en promedio) a los
dems. O sea que al menos un tipo de familia tiene una media distinta a las dems. Pero
saber que al menos uno es diferente es saber bien poco. Porque podran ser ms. Las
pruebas post-hoc sirven precisamente para detectar cuntos son diferentes a los dems y
cules son diferentes. Como recomendacin general para escoger entre la multitud de
pruebas a posteriori puede usarse la siguiente lgica: una buena prueba general que
sirve para la mayor parte de situaciones la de Tukey; si las varianzas no son
homogneas la de Games-Howell. Estos son los dos estndares adecuados. Si, no
obstante se cumplen los supuestos y se quiere una prueba ms potente se puede usar
cualquiera de las dos pruebas de Ryan-Einot-Gabriel y Welch (REGW-F o REGW-q);
mientras si se quiere una prueba conservadora, se puede optar por Scheff.
La tabla 12 precisamente muestra los resultados de estas dos pruebas post-hoc. En
nuestro caso, y como ya sabemos con anterioridad que las varianzas no son homogneas
(que las varianzas de los grupos son distintas), nos iremos directamente a los resultados
de la prueba de Games-Howell. La forma de entender la prueba es simple. Aquellas
comparaciones que tengan un asterisco es que son estadsticamente significativas, es
decir, que efectivamente ah se tiene una diferencia entre las dos medias. Por ejemplo en
la prueba de Games-Howell en el primer recuadro aparece la comparacin de los que
viven con el padre solo, contra todos los dems tipos de familia. Hay asteriscos frente a
vive con los padres y ms familia y frente a vive con los abuelos. Por tanto esas dos
diferencias de medias s son estadsticamente significativas. Como, adems la diferencia
entre las medias puede verse que en esos casos es positiva, quiere decir que los que
viven slo con el padre presentan una media de razonamiento numrico mayor que los
que viven con sus padres y ms familia o los que viven con sus abuelos, de ah la
diferencia positiva. Y as sucesivamente tenemos todas las comparaciones de los grupos
dos a dos.

72
Tabla 12.
Resultados del ANOVA entre-sujetos: pruebas post-hoc.

Para finalizar, la figura 38 muestra el grfico de medias, donde puede verse de


forma descriptiva dnde estn situados los promedios de razonamiento numrico de los
distintos tipos de familia de la muestra.

73
Figura 38.
Grfico de medias del anlisis de varianza.

Los mismos anlisis que hemos realizado en comparar medias puede realizarse,
para el caso de ANOVA de un factor entre-sujetos en el submen MODELO LINEAL
GENERAL en la opcin univariante. Lo nico que permite hacer en esta nueva opcin
frente a la que hemos utilizado es que ofrece estimaciones del tamao del efecto,
aspecto general del ANOVA sobre el que volveremos una vez se revise el ANOVA de
medidas repetidas.

ANOVA de un factor de medidas repetidas


Cuando los sujetos se miden repetidas veces, por ejemplo por tener cuatro momentos
temporales, y estamos interesados en contrastar las medias de esos momentos, podemos
resolver mediante anlisis de varianza de medidas repetidas. El ejemplo que vamos a
manejar es el siguiente: tenemos un cuestionario de autoestima, con tres factores,
autoestima social, de desempeo y de apariencia fsica, aplicado a una muestra de
adolescentes escolarizados2. Los tres factores presentan la misma escala de medida, y
queremos saber si existen diferencias en promedio en la evaluacin que hacen los
sujetos de estos tres factores de autoestima. Todos los sujetos han contestado a los tres
factores (todos han pasado por el cuestionario completo) y nos encontramos, por tanto
ante un problema a resolver mediante ANOVA de medidas repetidas.
Para pedir este tipo de anlisis hay que acudir al men ANALIZAR, dentro de l
al submen MODELO LINEAL GENERAL, y finalmente a la opcin medidas repetidas.
SPSS abre una ventana en que debemos informar del nombre del factor, en nuestro caso
autoestima, y del nmero de niveles que presenta, en nuestro caso tres: social, de
desempeo y fsica. Se pulsa aadir, y despus a definir, lo que abre una nueva ventana.
El funcionamiento de la nueva ventana es intuitivo, y muy parecido al que hemos visto
para ANOVA entre-sujetos. Simplemente anotar que en esta ventana no slo se realizan
anlisis de varianza de medidas repetidas, sino tambin los mixtos, por lo que esa es la
razn de que ofrezca la posibilidad de colocar factores entre-sujetos. De las opciones a

2
Este ejemplo se ofrece con carcter ilustrativo, pero no est en las bases de datos ofrecidas

74
pedir en el caso de ANOVA intra o de medidas repetidas solamente hay un cambio con
respecto al ANOVA entre-sujetos: las pruebas a posteriori para este tipo de diseo se
piden en opciones pinchando en la opcin comparar efectos principales, y seleccionando
Bonferroni o Sidk.
Los resultados relevantes para nuestro problema seran los que aparecen en las
siguientes tablas. La primera de las tablas (tabla 13) presenta la prueba de esfericidad de
Mauchly. El supuesto de esfericidad es un nuevo supuesto que rige en el anlisis de
varianza de medidas repetidas y que, por tanto, hay que comprobar. En nuestro caso el
supuesto puede mantenerse, dado que la prueba no resulta estadsticamente
significativa. Tan importante como la significatividad de la prueba son las estimaciones
de epsilon que, si no puede mantenerse el supuesto de esfericidad, son necesarias para
las correcciones. En nuestro ejemplo, dado que el supuesto se mantiene no resultan
relevantes. En cualquier caso, si la estimacin de Huyhn y Feldt del valor de epsilon se
encuentra entre 0.7 y 1, entonces no hay que preocuparse an cuando el test de
esfericidad resulte significativo.
Tabla 13.
Resultados del ANOVA intra-sujetos o de medidas repetidas: prueba del supuesto de
esfericidad.

Tras la prueba del supuesto nos centramos ya en si las medias pueden considerarse
estadsticamente diferentes o no. Esto es, en el anlisis de varianza propiamente dicho.
La tabla a continuacin ofrece los resultados del ANOVA. En este caso, como se
cumple el supuesto de esfericidad, solamente resulta necesario analizar la
significatividad de la F generada bajo el supuesto de esfericidad, que ofrece un resultado
estadsticamente significativo (p< 0.05). Si no se hubiera cumplido el supuesto de
esfericidad, entonces la prueba recomendada por casi todos los autores sera la de
Huynh y Feldt.

75
Tabla 14.
Resultados del ANOVA intra-sujetos o de medidas repetidas: prueba F de comparacin
de las medias.

Una vez se presenta un rechazo de la hiptesis nula de igualdad de medias, resulta


normalmente necesario evaluar entre qu grupos se encuentran esas diferencias. En
nuestro caso eso implica observar los valores de las medias y realizar la prueba de
comparacin por pares mediante la correccin de Bonferrroni que hbilmente pedimos
con anterioridad. Como puede verse en las siguientes tablas (tabla 15 a y b), los sujetos
se auto-evalan ms alto en autoestima de desempeo (media 2), y en lo que ms bajo
se auto-evalan es en autoestima social (media 1). Por su parte tambin las siguientes
tablas ofrecen la prueba de Bonferroni por pares, que muestra cmo todas las
comparaciones por pares han resultado estadsticamente significativas.
Tabla 15.
Resultados del ANOVA intra-sujetos o de medidas repetidas: medias (tabla a) y prueba
post-hoc de Bonferroni (tabla b).
(a)

(b)

76
Hemos repasado los dos tipos simples de anlisis de varianza: entre-sujetos y de
medidas repetidas. El hecho de aadir ms variables independientes o factores no
produce cambios en la manera de proceder, pues se mantienen las normas y opciones
comentadas hasta ahora. Los diseos factoriales son simples extensiones de los diseos
simples.

Tamao del efecto en ANOVA


De la misma manera que hemos visto la importancia que puede tener la estimacin del
tamao del efecto en la comparacin de medias mediante pruebas t, o en la bsqueda de
relaciones entre variables categricas, ahora nos centraremos en los mismos clculos en
el caso del anlisis de varianza.
La medida ms simple para la estimacin del tamao del efecto en anlisis de
varianza es la eta al cuadrado (2), que se calcula dividiendo la Suma de Cuadrados de
la variable independiente entre la Suma de Cuadrados Total. Se puede interpretar como
un porcentaje de varianza explicada, y se puede calcular en cualquier tipo de diseo. Un
problema de esta medida es que suele dar ms alto en diseos unifactoriales (simples)
que en complejos. Para corregir este problema hay una modificacin consistente en
partir la suma de cuadrados de la variable independiente por la suma de cuadrados de
error y la propia suma de cuadrados anterior. Esta es la estimacin de eta-cuadrado que
calcula SPSS cuando se pide estimacin del tamao del efecto en opciones.
Simplemente hay que tener en cuenta una cosa, que este clculo implica que en
ocasiones la suma de los porcentajes de varianza explicados de todas las variables
independientes del diseo (y sus interacciones) puede sumar ms de la unidad.
Finalmente otra medida popular del tamao del efecto en ANOVA es la omega al
cuadrado, que pretende ser una estimacin del porcentaje de varianza explicado en la
poblacin. Sus inconvenientes, desde el punto de vista prctico, son dos: solamente se
puede calcular en diseos entre-sujetos, siendo sus equivalentes para otros diseos
complicados, y que no se ofrece en SPSS.

4.3. Correlacin y regresin simple


Cuando se dispone de dos variables cuantitativas (o al menos cuasi-cuantitativas con
suficiente nmero de categoras, la forma de saber si estn linealmente asociadas es
mediante el coeficiente de correlacin de Pearson*. Esto es, si existe alguna tendencia a
que los valores altos o bajos de una de las variables se relacionen de forma sistemtica
con los valores positivos o negativos de la otra.
Puede verse, precisamente, en las siguientes figuras, ejemplos de estas tendencias.
En la figura 39 se muestran en un eje cartesiano las puntuaciones de una muestra de
nios en talla en centmetros (eje X) y su peso en kilogramos (eje Y). Puede verse cmo
existe la tendencia de que cuanto ms talla se tienen ms peso tambin. Si quisiramos
representarlo grficamente dibujaramos una lnea recta como la que se muestra.

*
Evidentemente se pueden estudiar asociaciones no lineales, ms complejas, pero normalmente la
hiptesis de linealidad en la relacin es ms parsimoniosa y suele ponerse a prueba primero. Sera la ms
bsica de las relaciones posibles.

77
Evidentemente hay fluctuacin con respecto a esa recta, pero el patrn es claro. La recta
tiene pendiente positiva, y por tanto la relacin es positiva, a ms talla ms peso.
Figura 39.
Diagrama de dispersin de las variables talla y peso.

Sin embargo la figura 40 a continuacin muestra en el eje de las X la subida de las


hipotecas y en el eje de las Y el valor de los inmuebles. Se ve que cuanto ms suben las
hipotecas (ms hay que pagar) menos se puede pagar por los inmuebles, y por tanto, cae
el precio de los pisos. Si quisiramos mostrar esta tendencia linealmente, haramos una
lnea recta con pendiente negativa como la que se muestra. Esta sera una relacin
negativa o inversa. A ms aumento porcentual las hipotecas, menos valor de los
inmuebles.

78
Figura 40.
Diagrama de dispersin de las variables aumento porcentual de hipotecas y precio
promedio de la vivienda.

Finalmente, si no existe una relacin clara, como es el caso de la capacidad y el


rendimiento las puntuaciones de las dos variables no mostrarn ninguna tendencia lineal
aparente. Esto puede verse en la figura 41.
Figura 41.
Diagrama de dispersin de las variables capacidad y rendimiento.

Ahora bien, nosotros hemos visto esta relacin o asociacin entre variables
grficamente, pero habitualmente necesitamos cuantificarla, darle valor, saber cuanto es
la relacin. Para medir esta asociacin entre dos variables cuantitativas sin asumir
ningn orden de prevalencia entre ellas (asociacin que llamamos simtrica) utilizamos
el coeficiente de correlacin de Pearson (rxy), de fcil interpretacin por su rango

79
acotado de 1 a 1, que equivale a una covarianza tipificada. Al elevar al cuadrado el
coeficiente de correlacin obtenemos el coeficiente de determinacin, r2xy que es
siempre positivo, nos informa de la proporcin de una variable que se puede explicar a
partir de la otra. Un criterio para valorar si esta capacidad explicativa es baja, media o
alta es tomar los valores 0.1, 0.3 y 0.5 respectivamente, que Cohen ofrece como
referentes.
Adems de este coeficiente de correlacin, el ms habitual, existen otros tipos de
coeficientes, generalmente utilizados para variables ordinales. Tienen en comn el
funcionar con datos de ordenaciones realizadas sobre las puntuaciones:
Coeficiente rho de Spearman, es una aplicacin (sobre las ordenaciones) de rxy
y por tanto mantiene, sus caractersticas y forma de interpretacin.
Coeficiente de Kendall, aunque se sigue interpretando dentro del mismo rango
de valores, ste no es aplicacin de Pearson y puede diferir en el resultado.
Habitualmente ofrece valores considerablemente menores que Pearson.
Coeficiente de Goodman-Kruskal, es el indicado cuando existen muchos
empates al hacer las ordenaciones, al asignar los rangos.
Para variables dicotmicas y dicotomizadas, las opciones para medir asociacin son:
Coeficiente de correlacin biserial-puntual: se utiliza cuando una variable
es continua y la otra es dicotmica, es aplicacin de Pearson, y mantiene sus
caractersticas
Coeficiente de correlacin biserial: con una variable continua y la otra
dicotomizada. Se trata de un coeficiente estimacin de rxy y por ello parece
ms recomendable evitar la situacin de tener que usarlo, es decir, no
dicotomizar en la medida de lo posible.
Coeficiente de correlacin tetracrica: se usa para dos variables
dicotomizadas siendo estimacin de Pearson y por ello la recomendacin
vuelve a ser evitar la dicotomizacin.
En el caso de que se quieran calcular correlaciones en el SPSS debemos ir al men
ANALIZAR, y desplegar el submen CORRELACIONES. All se presenta la opcin de
bivariadas, que es la de nuestro inters. Las correlaciones bivariadas que permite
calcular el SPSS son el coeficiente de correlacin producto-momento (Pearson), la rho
de Spearman y la tau de Kendall. Los resultados se presentan en forma de matriz de
correlaciones en todos los casos, y se ofrece, adems, la correspondiente prueba de
significacin sobre la correlacin.
En la figura 42 se muestra el men de correlaciones. De las variables que
queramos as correlaciones se sitan en la ventana de variables, en nuestro caso el
nmero de horas de estudio y el rendimiento en matemticas. Si se quiere calcular
simultneamente ms de una correlacin, por ejemplo las correlaciones de horas de
estudio con rendimiento en matemticas, pero tambin la de horas de estudio con
rendimiento en lenguaje, se hace igual pero poniendo simultneamente las tres variables
implicadas en la ventana.

80
Figura 42.
Ventana de correlaciones en SPSS.

El resultado de la correlacin entre horas de estudio y rendimiento en matemticas


se puede ver en la tabla 16 (a), mientras que en la tabla 16 (b) se puede ver las
correlaciones de las tres variables horas de estudio, rendimiento en matemticas y
rendimiento en lenguaje.
Tabla 16.
Correlacin entre horas de estudio y rendimiento en matemticas
(a)

(b)

81
Al ver la parte a de la tabla se ve que la relacin es positiva (0.708) y elevada.
Esto indica que cuantas ms horas estudian los alumnos tanto mayor es su rendimiento.
El valor de significatividad (sig. bilateral) que aparece sirve para saber si puede
considerarse (si p< 0.05, si sig< 0.05, habitualmente) que la correlacin es distinta a
cero en la poblacin. Por su parte la tabla 16 (b) ofrece lo mismo, solo que para ms
variables. Lo organiza en forma de una matriz, matriz que se conoce como matriz de
correlaciones. No vamos a entrar en el detalle, por ser muy claro, pero por ejemplo si
ahora se quiere saber la correlacin entre horas de estudio y rendimiento en lenguaje,
entonces se va al cruce correspondiente en la tabla y se ve que es 0.442 (p< 0.05), lo que
indica que la relacin tambin es positiva, pero que est menos relacionado el
rendimiento en lenguaje con las horas que el de matemticas.

REGRESIN SIMPLE
No es frecuente que nos limitemos a estudiar la asociacin entre dos variables. A
menudo el objetivo es de carcter predictivo. Cuando el inters es hacer predicciones en
una variable a partir de otra, recurriremos a la regresin simple, mientras que si se
toman diversos predictores se acude a la regresin mltiple. En este caso nos
centraremos en regresin simple.
Supongamos, como ejemplo, que en nuestra investigacin estamos interesados en
conocer cul es la capacidad predictiva de las horas de estudio en el rendimiento en
matemticas.
En principio, lo primero es que se debieran realizar algunos anlisis previos. En
concreto, primero un estudio en cada variable sobre la existencia de asimetra o curtosis
fuerte, o valores atpicos. Todos ellos se pueden realizar mediante los anlisis
descriptivos y las grficas realizadas con anterioridad. En segundo lugar, se debiera
pedir un diagrama de dispersin para evaluar si la tendencia de relacin entre las
variables es lineal. Para pedir el diagrama de dispersin se opta por el men
GRFICOS, y escoger el submen DISPERSIN. La opcin por defecto del programa,
simple, es la correcta en nuestro ejemplo. Solamente hay que definir las horas de estudio
como eje de las X (abcisas), y rendimiento en matemticas en el eje de las Y
(ordenadas). El diagrama de dispersin resultante se presenta a continuacin, y muestra
una relacin que tiene una clara tendencia lineal, lo que hace indicado el clculo de una
regresin lineal simple.

82
Figura 43.
Diagrama de dispersin de horas de estudio y rendimiento en matemticas.

Ahora estamos en disposicin de pasar a realizar la regresin lineal simple. Para


ello volvemos al men ANALIZAR, dentro de ello al submen regresin, y se opta por
la opcin lineal. La figura 44 muestra la ventana de regresin. Hay que colocar la
variable a explicar en la ventana de dependientes y la variable explicativa en la de
independientes. En nuestro caso, horas de estudio y rendimiento en matemticas,
respectivamente. El resto de caractersticas de la ventana, que aparecen como botones
de opcin abajo (estadsticos, grficos, guardar y opciones), se encuentran
principalmente relacionados con el diagnstico del modelo, por lo que aplazamos su uso
para la revisin de la regresin lineal mltiple.
Figura 44.
Diagrama de dispersin de horas de estudio y rendimiento en matemticas.

83
Los resultados ms relevantes de la regresin simple que acabamos de plantear se
resumen en las dos siguientes tablas. La primera de ellas (tabla 17) nos informa sobre el
valor del coeficiente de determinacin (0.502, en nuestro ejemplo), lo que implica un
porcentaje de varianza explicado del rendimiento en matemticas del 50.2%. El valor de
la R-cuadrado corregida es de mayor inters en el caso de la regresin mltiple, por lo
que aplazamos tambin su explicacin.
Tabla 17.
Correlacin entre horas de estudio y rendimiento en matemticas y coeficiente de
determinacin

La segunda tabla (tabla 18) nos ofrece los valores de la constante y de la


pendiente, tanto en puntuaciones directas como en estandarizada. El valor B asociado a
la constante es el punto de corte del eje de la Y, y nos dice el valor que se espera del
rendimiento cuando las horas de estudio son cero (cuando no se estudia nada). El valor
B asociado a horas de estudio nos informa del cambio que se espera en un nio que
aumente una hora sus horas de estudio. As un nio que estudie una hora, si pasa a
estudiar 1 hora ms se espera que aumente 0.615 en rendimiento en matemticas. El
valor ms relevante es, no obstante el estandarizado, que s est acotado (entre -1 y 1, y
que coincide en regresin simple con el valor del coeficiente de correlacin de Pearson
de estas dos variables.
Tabla 18.
Regresin simple de rendimiento en matemticas sobre horas de estudio

El SPSS ofrece, adems una prueba t sobre los dos parmetros. En nuestro caso,
tpicamente slo la prueba t sobre la pendiente presenta inters, ya que es la que nos
puede informar si la relacin entre ambas variables puede o no considerarse todava
nula en la poblacin. En el ejemplo la pendiente sin estandarizar alcanza un valor de
0.615, que equivale a un valor estandarizado de 0.708. Esta pendiente s ha resultado
estadsticamente significativa, como muestra el valor de significacin (p<0.05).
Cuando hemos planteado la regresin simple anterior, pasamos por alto una
opcin que puede resultar relevante: la variable de seleccin. Esta variable, que puede
ser cualquiera del fichero, sirve para realizar la regresin que deseemos pero por
subgrupos. Por ejemplo, si se plantea realizar la regresin por separado en hombres y
mujeres se podra realizar seleccionando primero sexo =1 y despus repetir la operacin

84
poniendo sexo =2. De esta forma tendramos una regresin realizada para los hombres y
otra para las mujeres, con lo que podramos compararlas.

4.4. Algunas pruebas no paramtricas


Cuando se incumplen los supuestos para realizar las pruebas paramtricas de
comparacin de medias, como: heterogeneidad o no normalidad extremas, escala de
medida de las variables ordinal con un nmero pequeo de categoras, o existen
abundantes valores atpicos, cabe la posibilidad de realizar pruebas no paramtricas.
Podramos verlos, por tanto, como las alternativas a las pruebas t y el ANOVA, y por
tanto estaran indicadas para la comparacin de dos grupos, o bien tres o ms grupos.
Las pruebas que vamos a ver estn en el men ANALIZAR, dentro de ste en
pruebas no paramtricas. Como puede verse en la figura 45 las pruebas que nosotros
vamos a repasar estn al final: a) pruebas para dos muestras independientes; b) k
muestras independientes; c) dos muestras relacionadas; y d) k muestras relacionadas.
Figura 45.
Opciones del men de pruebas no paramtricas.

PRUEBAS PARA DOS GRUPOS


Seran los equivalentes no paramtricos a las pruebas t que hemos revisado con
anterioridad. La equivalente no paramtrica a la prueba t de muestras independientes es
la prueba U de Mann-Whitney, mientras la equivalente a la de muestras dependientes es
la prueba de Wilcoxon. En realidad existen otras opciones, ms especficas, pero las dos
que hemos destacado son las de mayor uso y de carcter ms general.
Para pedir la prueba de Mann-Whitney se debe acudir a ANALIZAR, despus al
men de PRUEBAS NO PARAMTRICAS, y entre las opciones escoger 2 muestras
independientes. La opcin por defecto es la que interesa, y simplemente debemos
informar al programa de cul es la variable agrupadora, y cual la que deseamos analizar.
La interpretacin del output es muy similar a la de otras pruebas de contraste,
paramtrico o no. En este caso hemos pedido que compare los grupos de hombres y

85
mujeres en fluidez lectora. La tabla 19 ofrece los resultados. La primera de las dos
tablas (a) nos da los rangos promedio, lo que nos da una idea de qu grupo est ms
alto. En este caso los hombres parecen ms altos en fluidez lectora. La prueba U nos
ofrece un valor (una vez pasado a z) de -1.785, que resulta estadsticamente
significativo (significacin < de 0.05, p< 0.05)
Tabla 19.
Resultados de una prueba U de Mann-Whitney
(a)

(b)

En cuanto al contraste de dos muestrass relacionadas, la prueba que vamos a ver es


la de Wilcoxon. Para pedir la prueba de Wilcoxon se debe acudir a ANALIZAR,
despus al men de PRUEBAS NO PARAMTRICAS, y entre las opciones escoger 2
muestras dependientes. La opcin por defecto es la que interesa, y simplemente
debemos seleccionar las variables 1 y 2 (por ejemplo en nuestro caso el rendimiento en
lenguaje y en matemticas, porque se han medido en los mismos sujetos y con las
mismas escalas de medida) y situarlas en contrastar pares. La interpretacin de los
resultados del SPSS es muy similar a la de otras pruebas de contraste, paramtrico o no,
por lo que no iremos rpido. En este caso la tabla 20 muestra que el valor de la prueba
de Wilcoxon es z= -2.905 que resulta estadsticamente significativo (p< 0.05), luego
efectivamente hay diferencias entre ambos. Si se pide la tendencia central de ambos
grupos se puede saber qu asignatura tiene un rendimiento mayor.

86
Tabla 20.
Resultados de una prueba de Wilcoxon

PRUEBAS PARA K GRUPOS


Seran los equivalentes no paramtricos a las pruebas de ANOVA que hemos revisado
con anterioridad. La prueba no paramtrica equivalente al ANOVA entre-sujetos (de
muestras independientes) es la prueba H de Kruskal-Wallis, mientras la equivalente al
ANOVA intra-sujetos o de medidas repetidas es la prueba de Friedman. En realidad
existen otras opciones, ms especficas, pero las dos que hemos destacado son las de
mayor uso y de carcter ms general.
Tabla 21.
Resultados de una prueba de Kruskal-Wallis
(a)

(b)

Para pedir la H de Kruskal-Wallis se debe acudir a ANALIZAR, despus al men


de PRUEBAS NO PARAMTRICAS, y entre las opciones escoger k muestras independientes.
La opcin por defecto es la que interesa, y simplemente debemos informar al programa
de cul es la variable de agrupacin (variable independiente), y cual la variable a
contrastar (variable o variables dependiente). La interpretacin del output es muy

87
similar a la de otras pruebas de contraste. En nuestro caso el ejemplo de la tabla 21
muestra los resultados de la prueba de Kruskal-Wallis para ver si hay diferencias entre
los distintos tipos de familias en el rendimiento en matemticas. En la parte a se nos
muestra los rango promedio, lo que nos permite ver que la familia con los dos padres
tiene el rendimiento ms alto, y as sucesivamente. La parte b nos ofrece la prueba, que
tiene un valor de chi-cuadrado de 25.64, lo que resulta estadsticamente significativo
(p< 0.05), y efectivamente el tipo de familia en que viven los alumnos se asocia a
diferencias en rendimiento.
Para pedir la prueba de Friedman se debe acudir a ANALIZAR, despus al men
de PRUEBAS NO PARAMTRICAS, y entre las opciones escoger k muestras dependientes.
La opcin por defecto es la que interesa, y simplemente debemos seleccionar las
variables a contrastar (por ejemplo tres momentos temporales). La interpretacin de los
resultados del SPSS es muy similar a la de otras pruebas de contraste. El ejemplo de la
tabla 22 es la comparacin del nivel de sntomas conductuales, somticos y cognitivos
de ansiedad, que evidentemente estn medidos en todos los sujetos y con la misma
escala de medida. Efectivamente hay diferencias estadsticamente significativas ya que
el valor de chi-cuadrado vale 44.36 y es significativo (p< 0.05).
Tabla 22.
Resultados de una prueba de Friedman
(a)

4.5. Fiabilidad y validez: integracin


Los aspectos de fiabilidad y validez son cuestiones externas al anlisis de datos. Son
cuestiones de psicometra. No obstante, el anlisis de datos ofrece las herramientas de
tipo estadstico necesarias para una evaluacin adecuada de las caractersticas
psicomtricas de cualquier medida psicolgica. Por lo tanto, lo nico que se produce es
un cambio de objetivo (de terico a psicomtrico) en el uso de las tcnicas de anlisis de
datos que hemos revisado, o revisaremos, a lo largo del texto.

88
Ante cualquier medicin psicolgica resulta necesario saber si los nmeros
extrados de ella presentan la bondad suficiente como para ser empleados con garantas.
Su bondad suele resumirse en que cumplan dos aspectos: ser fiables y vlidas, fiabilidad
y validez.
Una medida es fiable en el sentido de que mide con exactitud. En psicologa esto
se traduce normalmente en dos aspectos relacionados, pero distinguibles. Un primero es
el de consistencia interna, otro el de estabilidad temporal.
Consistencia interna. Suele medirse mediante el coeficiente alpha, opcin
muy sencilla de obtener en SPSS. La lgica de la consistencia interna
consiste en que si estamos haciendo varias mediciones simultneas de un
mismo constructo psicolgico, como pueden ser los items de una escala de
depresin, stos deben estar altamente relacionados entre s. No debe ser
posible que dos items que miden dos aspectos (sntomas) de depresin
ofrezcan informacin contradictoria (no relacionada). Supongamos, por
ejemplo, que tenemos una escala de autoestima de 10 items, que
consideramos unifactorial. Para obtener el coeficiente alfa en SPSS debemos
acudir a ANALIZAR, dentro al men ESCALA, y pedir anlisis de fiabilidad.
El coeficiente alpha es el modelo por defecto, por lo que no resulta necesario
pedirlo. Solamente hace falta situar los items que conforman la escala en la
ventana de elementos. Si se desea, adems, un anlisis de fiabilidad
individual (para cada tem), simplemente hay que pinchar en la opcin
estadsticos y seleccionar elemento, escala y escala si se elimina el elemento.
Estabilidad temporal. Otro aspecto relacionado con la exactitud de la
medida es su estabilidad a lo largo del tiempo (en constructos psicolgicos
que se mantengan razonablemente invariantes con el tiempo). As, la lgica
aqu es que: si la medicin psicolgica que estamos realizando es exacta, al
medir una segunda vez debe dar aproximadamente el mismo resultado. (De
la misma manera que cuando medimos la longitud de una mesa nos creemos
el resultado del metro si al hacerlo dos veces consecutivas nos da los mismos
centmetros). En el ejemplo de la longitud de la mesa, caracterstica fsica, se
pueden realizar tantas mediciones seguidas como queramos, pero en el caso
de mediciones psicolgicas, hay que ser cuidadosos al escoger el lapso
temporal. En cuanto a cmo realizar el anlisis de datos para saber si una
cierta medida psicolgica es estable temporalmente, no resulta complicado.
Se tomaran las dos mediciones y se correlacionaran en base al coeficiente
de correlacin ms adecuado dada su naturaleza, tal y como hemos visto en
el apartado sobre correlacin.
Una medida es vlida en el sentido de que mide lo que pretendemos medir, y no
aspectos diferentes. La validez tiene diversos aspectos (o facetas) relacionados. Aunque
abundan otras clasificaciones, todas ellas estn de acuerdo en que el problema de la
validez no es ms que el de aglutinar evidencia emprica acorde a las razones
substantivas (tericas) de medicin del constructo. Adoptaremos una clasificacin, de
las ms utilizadas:
Validez de contenido. La validez de contenido se refiere a una adecuada
eleccin de las preguntas (o mediciones) a efectuar. En rastrear todas las
facetas del constructo de inters y balancearlas totalmente. Es un aspecto
totalmente externo al anlisis de datos, y por tanto no lo trataremos aqu.

89
Validez criterial. Normalmente suele, desde un punto de vista simplista,
confundirse con la validez. Es el estudio de la relacin del constructo (y sus
componentes, si los tiene) con variables externas o criterios. En funcin de la
naturaleza de las variables se emplean los distintos tipos de coeficientes de
correlacin que hemos comentado y/o regresin simple y mltiple.
Validez factorial. Consiste en el estudio de los componentes
constituyentes de la medida del constructo psicolgico de inters. ste puede
ser unifactorial, si incluye un nico componente, o multifactorial, si incluye
ms de uno. Desde el punto de vista del anlisis de datos el estudio de la
estructura factorial implica, normalmente, el anlisis factorial, bien
exploratorio, bien confirmatorio. En algunas ocasiones (escasas) se han
utilizado otras tcnicas, como el escalamiento multidimensional o el anlisis
de conglomerados.
Validez diferencial. En ocasiones una teora bien establecida sobre un
cierto concepto psicolgico incluye hiptesis sobre su comportamiento
diferencial en funcin de ciertas variables (por ejemplo: el desarrollo
diferencial del razonamiento verbal en funcin del sexo). En esos casos,
puede hablarse de validez diferencial si la medida que desarrollamos de ese
constructo muestra, efectivamente, este comportamiento diferencial. Suelen
estudiarse, a nivel de anlisis discriminante con cualquiera de las tcnicas de
comparacin de grupos que hemos visto.
Validez convergente-discriminante. Es una especie de validez criterial
mejorada. Implica un estudio en que se sitan conjuntamente medidas
relacionadas con el constructo y medidas dispares. Se espera alta relacin
con las medidas relacionadas (validez convergente), y baja con las medidas
dispares (validez discriminante). Suele estudiarse, a nivel de anlisis de
datos, con matrices multirrasgo-multimtodo, que no son ms que matrices
de correlaciones.

90
Tema 5.
Relaciones complejas

5.1. Regresin lineal mltiple


La regresin lineal mltiple es una extensin natural de la regresin simple. Resulta
evidente que en ciencias sociales la capacidad explicativa de los modelos exige la
inclusin de un nmero relativamente importante de predictores. Esa es la consecuencia
de la complejidad de el/los objetos de estudio. Por lo tanto, lo habitual es que se
presente la situacin en que queremos evaluar la capacidad que tenemos para predecir
una determinada variable dependiente (cuantitativa) en base a diversos predictores
(usualmente, pero no necesariamente, cuantitativos). Normalmente estamos tambin
interesados en evaluar el impacto individual de esos predictores, esto es, su importancia
relativa a la hora de explicar los valores de la variable dependiente o criterio. La
regresin mltiple es un marco adecuado para estos objetivos.

5.1.1. Estimacin
La estimacin va precedida, necesariamente, de una fase de constitucin del modelo, de
una fase de especificacin, consistente en la seleccin de las variables que van a
intervenir en la ecuacin de regresin. Esta eleccin viene dictada habitualmente por
motivos tericos, empricos (estadsticos), o por una combinacin de ambos. La idea es
tener el mximo de predictores relevantes al fenmeno a predecir, y el mnimo (a ser
posible ninguno) irrelevante. Pero claro, a veces es necesario realizar selecciones
estadsticas debido a los requisitos de tamao de la muestra, que en regresin mltiple
suele situarse en un mnimo de 5-10 sujetos por predictor, pero recomendndose
muestras mayores de 100, sea cual sea el nmero de predictores.
Una vez elegidos los predictores la estimacin propiamente dicha de los
parmetros de la ecuacin de regresin suele realizarse mediante el mtodo de mnimos
cuadrados, aspecto tcnico que no tocaremos. Simplemente es relevante que de los
resultados del anlisis obtendremos una estimacin de la pendiente para cada variable
predictora, que en el caso no estandarizado es un coeficiente de regresin parcial y en el
estandarizado un coeficiente de correlacin parcial (y sus pruebas de significacin),
adems de una estimacin de la capacidad explicativa del modelo en trminos del
coeficiente de determinacin (y su correspondiente valor ajustado).
Pero, an asumiendo siempre este tipo de estimacin, cabe todava hacer ciertas
elecciones crticas en el proceso de estimacin, ya que existen diversos procedimientos
de seleccin de variables. El problema de escoger entre diversos procedimientos de
seleccin es doble. Por un lado, cuando hay muchos predictores potenciales y la
muestra es relativamente pequea se impone en ocasiones una reduccin en su nmero,
lo que nos suele llevar a algn tipo de seleccin de tipo estadstico. Por otro lado, en
ocasiones el orden de entrada de las variables en la ecuacin de regresin es relevante,
por lo que ste no es indiferente, debindose, por tanto, imponer un cierto orden, de
forma estadstica o substantiva. Los principales tipos de procedimientos de seleccin,

91
todos ellos montados en el SPSS, a las dos lgicas ya esbozadas con anterioridad: la
substantiva y la estadstica.

A) CONOCIMIENTO SUBSTANTIVO
Es el investigador el que escoge todos los predictores a introducir en la ecuacin de
regresin, de todos ellos se obtendr estimacin de su efecto sobre la variable
dependiente. El investigador tambin determina su orden. Existen dos subtipos bien
diferenciados: introducir todos los predictores y regresin jerrquica.

Todos los predictores


Es la opcin por defecto de SPSS. Resulta sencilla. El investigador escoge los
predictores y su orden de entrada en la ecuacin de regresin, pero todos los predictores
se incluyen en la misma ecuacin simultneamente. Simplemente hay que acudir a
ANALIZAR y escoger REGRESIN, asumiendo la opcin lineal. Aqu, en principio,
solamente hace falta colocar en la ventana de dependiente la variable que queremos
predecir (explicar), y en la ventana de independientes todos los predictores que
consideremos necesarios para su prediccin, en el orden que nos parezca adecuado. Hay
que asegurarse que la opcin por defecto, introducir, es la que est seleccionada. Justo
debajo de la ventana de independiente. Como es el tipo de regresin mltiple ms
sencilla no entraremos en ms detalles, ni pondremos ejemplos, ya que se subsumirn
en los ejemplos siguientes.

Regresin jerrquica
En la regresin jerrquica las variables se introducen por bloques segn un criterio
lgico (terico) definido por el investigador. De esta forma se evala lo que la (o las)
variables de cada nuevo bloque aaden a las ya introducidas previamente. Normalmente
las variables que se consideran de mayor importancia, o de efecto causal anterior se
introducen antes.
Como ejemplo* supongamos que se quiere estudiar cmo diversas facetas de la
autoestima (social, de desempeo, y de apariencia fsica) explican o se relacionan con la
autoestima general en adolescentes. La idea es evaluar qu tipo de autoestima especfica
tiene ms peso en la muestra de adolescentes recogida. No obstante y dado que algunos
aspectos fsicos de los adolescentes pueden tener un impacto tambin en la autoestima
se decide introducirlos primero en una regresin jerrquica. Los aspectos fsicos
considerados relevantes son la edad y el sexo. Este ltimo, pese a ser una variable
categrica puede introducirse sin problemas en la ecuacin de regresin ya que
solamente presenta dos categoras. Por lo tanto los predictores considerados relevantes
por el investigador son cinco: edad, sexo, autoestima social, de desempeo y de
apariencia fsica. El investigador, no obstante, va a incluirlas en dos bloques (regresin
jerrquica), el primero con las dos primeras y el segundo con las tres ltimas. Por lo
tanto, el cambio que se produce es que el investigador est interesado en saber qu
explican los tres componentes de la autoestima, una vez que edad y sexo han recogido
su parte en la explicacin.

*
El ejemplo seguido en este apartado no se corresponde con datos que se adjunten. El lector puede
realizar los mismos pasos con otras variables del ejemplo 2.sav proporcionado.

92
Para realizar este procedimiento se acude a ANALIZAR y despus se escoge
REGRESIN, asumiendo la opcin lineal. Tras ello se escoge la autoestima general
(rosen) como dependiente y sexo y edad como independientes. Justo arriba de la
ventana donde estn las independientes se le da a la opcin bloque siguiente y aqu se
colocan las tres predictoras (AS, AD y AF) del bloque dos. Con ello ya hemos
informado al programa de que queremos realizar una regresin jerrquica en dos
bloques. En principio lo nico que necesitamos, adems, para realizar la regresin
jerrquica es pinchar en la opcin estadsticos y pedir el cambio en R-cuadrado.
Tabla 23.
Resultados de una regresin lineal mltiple

La primera tabla de la secuencia simplemente nos ofrece un eco de lo que hemos


pedido, nos dice qu variables hemos introducido en el primer bloque, y cules en el
segundo. De ah que haya dos modelos. El modelo 1 que incluye el sexo y la edad, y el
modelo 2 que incluye estas dos variables ms las tres del segundo bloque.
La segunda tabla ofrece las correlaciones mltiples al cuadrado, que ofrecen la
informacin sobre cunta es la proporcin de varianza de la variable dependiente que

93
son capaces de explicar todas las independientes (conjuntamente) en el modelo. Por esto
puede verse que la R2 es de 0.037 (3.7%) para el modelo 1 y 0.626 (62.6%) para el
modelo 2, luego es evidente que las tres medidas especficas de autoestima del bloque 2
aaden mucho a la explicacin de la variable dependiente. Adems se ofrecen las R2
ajustadas, ms adecuadas cuando el nmero de predictores aumenta. Si se quiere una
prueba estadstica para saber si las variables aadidas en el bloque 2 mejora
estadsticamente la prediccin, solamente hay que mirar que el cambio en R cuadrado
da un valor de 0.590, que es estadsticamente significativo (sig. del cambio en F es
0.000, o sea, p< 0.05).
Para finalizar la ltima tabla, de la que solamente hay que interpretar el modelo 2.
En este caso nos fijaremos simplemente en los coeficientes b estandarizados. Nos dicen
si las relaciones entre las variables son positivas o negativas y su cuanta (sabiendo que
los mximos son -1 o +1), as puede verse que la relacin de Ad es positiva y las ms
elevada (0.535). Adems en la ltima columna aparece la significatividad estadstica
que nos indica si las relaciones de cada una de las variables predoctoras es
estadsticamente significativa o no (p< 0.05). En este caso las cinco variables
predoctoras son estadsticamente significativas (ya que p siempre es menor de 0.05).

B) MTODOS ESTADSTICOS
Otra opcin para seleccionar predictores de entre un conjunto amplio es recurrir a
razones puramente estadsticas. Los procedimientos son: hacia delante, en que se
introduce el predictor con mayor relacin con la variable dependiente, luego el segundo,
etctera; hacia atrs, en que se empieza con todos los predictores y se van eliminando,
uno a uno, los menos relacionados; y la regresin paso a paso, probablemente el ms
utilizado.

Regresin paso a paso (stepwise)


La regresin paso a paso es ligeramente diferente a la regresin hacia delante. Es igual
que sta en que empieza con el predictor ms relacionado con el criterio, y sigue con el
segundo ms relacionado, y as sucesivamente. La diferencia es que evala la regresin
en cada paso, y si al entrar un nuevo predictor alguno de los predictores ya en la
regresin pasa a ser no significativo, lo elimina.
Supongamos que el ejemplo anterior se trata, en lugar de mediante regresin
jerrquica, mediante regresin paso a paso. Para poder realizarlo se opta por
ANALIZAR, en el men REGRESIN, opcin lineal. Se abre una ventana en que se tiene
que colocar en la dependiente la variable rosen, y en las independientes el sexo, edad,
AS, AD y AF, sin colocar bloques. Se opta por mtodo pasos suc. (pasos sucesivos).
Los resultados ms importantes se muestran a continuacin. La tabla 24 nos ofrece un
resumen de los cinco pasos que se han realizado, y del incremento (en este caso) en los
porcentajes de varianza explicada. En este ejemplo la regresin ha introducido uno a
uno todos los predictores, sin eliminar ninguno, porque coincide que todos ellos
continan siendo significativos cuando otros predictores entran en la regresin.

94
Tabla 24.
Resultados de regresin lineal mltiple por pasos

Tabla 25.
Resultados de regresin lineal mltiple por pasos

Por su parte, la tabla 25 nos ofrece los coeficientes de cada uno de los pasos de la
regresin paso a paso, siendo el ltimo el que debe interpretarse. Como vemos todos los

95
predictores han resultado estadsticamente significativos (p<0.05), tal y como ocurra en
la regresin por bloques. La interpretacin es idntica al caso anterior.

5.1.2. Diagnstico en regresin


La regresin, al igual que el anlisis de varianza, dado que es un submodelo del modelo
lineal general, como ste, presenta una serie de supuestos subyacentes, de cumplimiento
ms o menos necesario para una correcta utilizacin de la prueba. Prcticamente ningn
conjunto de datos aplicados (reales) cumple estrictamente todos los supuestos en los que
se basa la regresin, de forma que el problema se traslada a comprobar si el alejamiento
de los supuestos no es tan grande que genere problemas graves de aplicacin e
interpretacin del modelo de regresin. La evaluacin del grado de cumplimiento de los
supuestos es lo que se conoce como diagnstico en regresin. Para aprender a hacer un
buen diagnstico en regresin, que sea al mismo tiempo muy sencillo, conviene ir a las
pruebas a realizar, ms que evaluar supuesto a supuesto, ya que algunas pruebas
responden sobre el cumplimiento de varios supuestos. Hay tres cuestiones a realizar:

A) GRFICOS DE RESIDUALES
Los residuales son los errores que se cometen al predecir cada puntuacin individual en
base a la ecuacin de regresin. Si la regresin es buena, los residuales tienden a ser
pequeos. Pero no es por esto por los que los tratamos aqu, sino porque al estudiar el
comportamiento de los residuales podemos observar de forma simple posibles
alejamientos de los supuestos. Este estudio de diagnstico conviene realizarlo para cada
predictor por separado, y para la ecuacin completa.
En concreto los grficos de residuos nos permiten tener una idea de problemas con
la homogeneidad de varianzas y con la linealidad. Supongamos que se quiere predecir
ROSEN en base a AD, siguiendo con las mismas variables de ejemplos anteriores.
Queremos aadir a lo pedido habitualmente un grfico de residuos. Para hacerlo se opta
en la ventana abierta de regresin lineal por la opcin grficos, lo que nos abre una
nueva ventana, en la que escogeremos como valores para el eje de abscisas (X) los
valores predichos estandarizados (ZPRED, en SPSS), mientras en el eje de ordenadas
(Y) escogeremos, de entre las distintas medidas de residuales estandarizados y
estudentizados la opcin de SDRESID. Si lo hacemos as para este ejemplo
obtendremos un grfico como el siguiente (figura 46).

96
Figura 46.
Grfico de residuales

Este grfico no muestra problemas importantes (obvios) ni de homogeneidad, ni de no


linealidad. Si hubiramos tenido problemas de homocedasticidad tendramos mucha
ms dispersin alrededor de l valor de residual cero en unos puntos del eje de abscisas
que en otros. Si hubiramos tenido problemas de linealidad el propio diagrama de
dispersin mostrara una relacin no lineal. Si ahora pasamos a realizar el mismo
grfico para el caso de la regresin mltiple con cinco predictores que realizamos
anteriormente con el procedimiento paso a paso, el resultado que obtenemos es el
siguiente (figura 47). Este grfico tampoco muestra problemas obvios de homogeneidad
o no linealidad.
Figura 47.
Grfico de residuales

97
B) ESTUDIO DE VALORES ATPICOS
Todas las tcnicas estadsticas basadas en el modelo lineal general son bastante
sensibles a los valores atpicos. Hemos visto ya cmo detectar valores atpicos en
variables aisladas (valores atpicos univariantes), pero en regresin simple y mltiple la
cosa es un poco ms complicada, pues se trata de revisar valores atpicos multivariantes.
Claro, aqu la cosa se complica ya que los casos, los sujetos, pueden ser atpicos en la
variable Y, en la variable X o en ambas. Por lo tanto necesitamos procedimientos que
nos digan si tenemos alguna observacin que nos genere problemas a cualquiera de
estos niveles.
Por lo tanto, debemos detectar:
Valores atpicos en Y, o outliers. Para comprobar si se tiene algn caso que
genere problemas como outlier se puede optar por calcular el residual
estudentizado eliminado. Si cualquier caso tiene un residual estudentizado
eliminado mayor de 2, nos generar problemas. Para pedir los residuales de este
tipo se debe ir a la ventana de la regresin, escoger la opcin guardar y pedir los
Residuos eliminados estudentizados.
Valores atpicos en X, o leverages. Para comprobarlo hay que acudir al valor de
un estadstico, hi, conocido como valor de leverage. SPSS no ofrece el valor de
este estadstico, pero s ofrece el valor de la Distancia de Mahalanobis, en el que
esta basado. Para pedir la distancia de Mahalanobis hay que seleccionarla
tambin en la opcin de guardar de regresin. Una vez se obtienen las distancias,
el valor del estadstico es:

Genera problemas si igual o supera el valor 5 veces el valor de (k+1)/n donde k


es el nmero de predictores.
Valores atpicos en ambos, observaciones influyentes. Se puede controlar si se
presentan observaciones influyentes mediante el clculo de las distancias de
Cook, que son el equivalente al producto de outlier por leverage. El SPSS ofrece
directamente estos valores de las distancias de Cook, simplemente en la misma
opcin que anteriormente escogimos las distancias de Mahalanobis y los
residuales. Resulta un problema cualquier observacin que supere el valor de
4/(n-k-1).

C) MULTICOLINEALIDAD
En el caso de regresin simple solamente se considera un predictor, por lo que no se
puede producir multicolinealidad (colinealidad), que de forma intuitiva puede definirse
como el problema que aparece cuando los predictores estn parcialmente solapados
(altamente correlacionados), y por tanto resulta difcil discernir quin predice mejor (o
ms) a la variable dependiente. En el lmite si los predictores estn muy
correlacionados, entonces los resultados de los coeficientes de regresin son muy
inestables e inseguros. Por lo tanto, lo que debemos de asegurarnos es que el nivel de
correlacin entre los factores no es tan importante como para hacer inseguros nuestros
resultados, para lo que es necesario tomar medidas de diagnstico de la colinealidad.

98
El SPSS nos ofrece diversos estadsticos para evaluar los problemas de
colinealidad. La tolerancia es uno de los ms empleados (si su valor es menor de 0.1,
suele ser indicativo de problemas. Nosotros veremos dos de fcil clculo y ms fcil
interpretacin, que funcionan tan bien como la tolerancia. Para poder pedir estos
estadsticos debemos estar en la ventana de regresin lineal, y seleccionar la opcin de
estadsticos. Una de las opciones dentro de la nueva ventana que se abre es diagnstico
de colinealidad, el cual seleccionaremos. Al seleccionar este botn, entre los resultados
que obtendremos, aparecern los estadsticos que nos permiten evaluar posibles
problemas de colinealidad, y que son, en concreto, el factor de inflacin de la varianza
(FIV) y el ndice de condicin (condicionamiento). El primero de ellos suele ser
suficiente y muestra un problema de multicolinealidad asociado a una variable en
concreto si es mayor de 10. Al aplicar a nuestro ejemplo de regresin mltiple estas
opciones obtenemos (relevante para el diagnstico de colinealidad), la tabla 26.
Tabla 26.
Resultados de regresin lineal mltiple por pasos

Como puede verse, ninguno de los predictores parece generarnos problema alguno
de multicolinealidad: ni visto con la tolerancia, ni visto por el factor de inflacin de la
varianza.

5.1.3. Validacin cruzada


Un aspecto crucial de cualquier tcnica estadstica es el de la replicacin, la
generalizacin de los resultados a muestras de la misma poblacin. En el caso de la
regresin simple y mltiple el problema se agudiza por la capitalizacin del azar que se
produce, entre otros problemas, como que, por ejemplo que simplemente aumentando el
nmero de predictores se obtienen predicciones mayores aunque stos no aporten nada.
Por lo tanto, es muy necesario, en ocasiones realizar estudios de validacin cruzada.
La validacin cruzada exige una divisin aleatoria de la muestra en dos mitades
(ms partes en el caso de doble validacin cruzada). En ocasiones esta divisin no es
aconsejable dado que nos dejara con un tamao muestral demasiado pequeo en
nuestra muestra como para que nuestra estimacin fuera adecuada. Si se da este caso, la
validacin cruzada ha de esperar a la recogida de otra muestra de la misma poblacin.
Mientras tanto solamente podemos utilizar la R al cuadrado ajustada para tener una
mejor idea de la capacidad predictiva del modelo sin estar influida por el tamao
muestral ni el nmero de predictores, por lo que nos resultar de especial utilidad para
comparar regresiones mltiples de distintas muestras y de tamaos desiguales.

99
Si la muestra que tenemos es grande podemos proceder a un estudio propiamente
de validacin cruzada. Para ello hace falta dividir de forma aleatoria, mediante las
herramientas de seleccin de SPSS, la muestra (pongamos 1000 sujetos o participantes)
en dos submuestras de aproximadamente el mismo tamao.
Ahora cabran dos posibilidades, la primea de ellas simple, que sera calcular la
regresin en las dos muestras por separado y comparar los resultados, siempre en
valores no estandarizados. Este procedimiento nos puede ofrecer una informacin
valiosa pero de carcter ms bien cualitativo y difcil de ponderar.
Un mejor procedimiento consiste en llevar a cabo una validacin cruzada
propiamente dicha. Se calculara la regresin en una muestra (muestra de estimacin)
obteniendo una estimacin de los coeficientes de regresin. En la segunda muestra (de
validacin) se calcula la regresin obteniendo los valores predichos segn esta nueva
estimacin. Adicionalmente se calculan los valores predichos para los sujetos de la
muestra de validacin en base a la ecuacin de regresin hallada en la muestra de
estimacin. La correlacin (en la muestra de validacin) entre ambos tipos de valores
predichos nos ofrece una medida cuantitativa de la capacidad explicativa de nuestra
regresin.

5.2. Anlisis factorial


El objetivo general del anlisis factorial es descubrir las diferentes dimensiones de
variabilidad comn existente en cierto campo de fenmenos que se hace operativo a
partir de un grupo de variables. Algunas de las situaciones o preguntas de investigacin
que pueden contestarse desde el anlisis factorial.
Se tienen medidas de un conjunto de variables y se desea tener una idea sobre
qu construcciones pueden usarse para explicar las intercorrelaciones entre estas
variables.
Se desea probar una teora sobre el nmero y la naturaleza de las dimensiones
subyacentes a un nmero de variables.
Se desea saber qu mide un cuestionario: cuantos conceptos diferentes, y qu
contenidos (preguntas) agrupa.
Como puede verse, en todos los casos se asume que un cierto nmero de variables
estn altamente correlacionadas entre s, porque comparten algo en comn. Por ejemplo,
se asume que los distintos sntomas de depresin deben darse conjuntamente, covariar,
en una muestra de depresivos.
Otro ejemplo puede ser que se asume que si se preguntan varias preguntas de
razonamiento numricos, los nios con alta capacidad matemtica tendern a contestar
bien a todas, y los de baja capacidad matemtica tendern a contestar mal a todas, y por
tanto que las respuestas covariarn (estarn relacionadas) porque subyace a las
respuestas una capacidad comn.
Nosotros vamos a realizar como ejemplo una factorizacin de una escala muy
conocida en psicologa, la escala de autoestima de Rosenberg, que se dise para medir
un solo factor de autoestima global en poblacin general. Presenta 10 items o preguntas
de respuesta tipo Likert de cinco anclajes. En nuestro caso disponemos de una muestra
de ms de seiscientos adolescentes que contestan al cuestionario. Los 10 items de esta

100
escala, junto con algunas otras variables se encuentran en la base de datos
ejemplo1.sav, con la que el lector puede practicar.

5.2.1. Pasos previos al anlisis factorial


Existen requisitos previos a un anlisis de varianza. Uno de ellos tiene que ver con el
tamao de muestra necesario para realizarlo. Se aconseja no menos de 10 participantes
por cada variable observable que se quiera factorizar. Adicionalmente hay un requisito
de escala de medida, en principio el anlisis factorial debe realizarse sobre variables
observables cuantitativas, o al menos semi-cuantitativas con un nmero razonable de
categoras de respuesta.
En cualquier caso, y a nivel estadstico, existe el requisito previo de variables
correlacionadas. Como se asume que las variables estn altamente correlacionadas entre
s, ya que de otra forma no pueden tener nada en comn, el primer paso para hacer un
anlisis factorial es comprobar que efectivamente esa es la situacin. Tiene, por tanto,
que ponerse a prueba, previo al anlisis factorial que los datos son susceptibles de ser
factorizados.
Las pruebas ms utilizadas para evaluar si unas determinadas variables son
adecuadas para ser factorizadas, para aplicarles un anlisis factorial son la prueba de
esfericidad de Bartlett y la medida de adecuacin muestral de Kaiser-Meyer-Olkin
(KMO). Ambas pueden obtenerse en SPSS. Para obtenerlas en SPSS hay que entrar en
analizar, dentro de este men en reduccin de datos y anlisis factorial. En la ventana
que se abre, ver figura 48) en el botn de descriptivos estn ambas opciones (Bartlett y
KMO) y son seleccionables (ver figura 49).
Figura 48.
Ventana de anlisis factorial en SPSS

101
Figura 49.
Ventana de anlisis factorial en SPSS: descriptivos

Los resultados de ambas pruebas, para la factorizacin de las 10 variables del


cuestionario de Rosenberg, se pueden ver en las siguiente tabla extrada de SPSS (tabla
27).
Tabla 27.
Resultados de la prueba de Bartlett y la medida KMO

En el caso de la medida de KMO se espera que los valores sean elevados para que
se acepte que las variables son factorizables. Kaiser (1974) plantea la siguiente escala
para interpretar los resultados de ndice KMO:
Prximas a 0.9 valores maravillosos
Cercanas a 0.8 meritorios
A 0.7 como medianas
En torno a 0.6 son mediocres
Y 0.5 o menores inaceptables
En el caso de la prueba de esfericidad de Bartlett, el estadstico se distribuye
aproximadamente como una chi-cuadrado, y si su resultado resulta estadsticamente
significativo (p< 0.05) para un determinado valor de alfa se considera que puede
realizarse el anlisis factorial.
Para nuestros caso, el valor de KMO es de 0.856, lo que sita nuestra
evaluacin de los datos como entre meritorios y maravillosos para realizar un anlisis
factorial, y el valor de la prueba de esfericidad de Bartlett es estadsticamente

102
significativo (p< 0.05), lo que tambin indica que las 10 preguntas del cuestionario de
Rosenberg son factorizables.

5.2.2. Tipos de anlisis factorial


Existen diversos tipos de anlisis factorial. Una primera divisin divide el anlisis
factorial en exploratorio frente a confirmatorio. El ltimo de ellos no se realiza en la
aplicacin SPSS, por lo que no lo trataremos, nos centraremos en anlisis factorial
exploratorio. No obstante, y como breve descripcin de ambos, mientras en el caso del
anlisis factorial confirmatorio se parte de una idea terica de cmo se estructuran las
variables, y a partir de esto se pone a prueba si es cierto o no para los datos observados,
en el caso del exploratorio es al contrario, sin tener una idea a priori se pide a los datos
que nos muestren su estructura.
Una vez dentro de anlisis factorial exploratorio existe una diversidad de tcnicas
ligeramente diferentes, en funcin de qu mtodos se escojan para extraer los factores o
componentes comunes a las variables. Tres de entre los principales mtodos para extraer
factores o componentes son: componentes principales, mxima verosimilitud y mtodo
alfa. Todos ellos estn montados en SPSS, en reduccin de datos anlisis factorial. El
defecto del programa es obtener un anlisis de componentes principales, como puede
verse en la figura 50. Nos centraremos en este tipo de extraccin por diversos motivos:
Con suficientes variables y sujetos suele ofrecer resultados similares a
los otros mtodos,
Es matemticamente ms simple
No presenta el problema de indeterminacin de la escala
Es el ms empleado
Figura 50.
Ventana de anlisis factorial de SPSS

103
5.2.3. Cuntos componentes retener?
Por defecto el anlisis de componentes principales calcula tantos componentes como
variables observables hay, porque as explica el 100% de la varianza. No obstante esto
no presenta lgica, porque precisamente se realiza el anlisis para reducir el nmero de
variables originales a un nmero menor que tengan mayor peso terico. As pues, es
necesario tener algunos criterios para saber dnde cortar y decidir que las 10 variables
originales quedarn razonablemente representadas en p componentes. Existen diversos
criterios, todos ellos parcialmente subjetivos y que no pueden aplicarse a ciegas, sino en
cuidadosa interaccin con la teora, para que el resultado tenga sentido.
De entre los criterios ms utilizados tenemos:
1. Escoger solamente componentes que tengan valores propios mayores
que uno. Esto es tanto como decir que no se aceptarn componentes
salvo que sean, a menos, igual de importantes que una variable
observable. Este criterio, propuesto por Kaiser se conoce como criterio
de Kaiser.
2. El grfico de sedimentacin. Bsicamente ordena en un grfico los
componentes en funcin de cunta varianza explican y donde se
produce un salto abrupto dejan de cogerse componentes adicionales a
los ms explicativos. Tambin se conoce como Scree-test de Cattell.
3. Un test estadstico propuesto por Lawley, bastante afectado por el
tamao muestral.
4. Retener componentes hasta que se explique un porcentaje dado de la
varianza (tpicamente en torno a un 70%).
De todos estos mtodos es la combinacin de los dos primeros la que ofrece
mejores resultados a nivel prctico, siempre buscando que la interpretacin de los
factores retenidos y los no retenidos se sostenga tericamente. Para pedirle a SPSS el
grfico de sedimentacin y autovalores mayores de 1 hay que seleccionar lo oportuno
en la ventana de extraccin de anlisis factorial en el SPSS, cuya forma se presenta, con
las oportunas especificaciones en la figura 51.
Figura 51.
Ventana de anlisis factorial de SPSS: extraccin

104
5.2.4. Rotaciones
Los factores o componentes resumen un nmero elevado de variables en unos pocos
componentes, pero a menudo estos componentes son difciles de explicar, resulta difcil
interpretar lo que representan, ya que mezclan muchas aportaciones diferentes. Las
rotaciones, que presentan aspectos tcnicos en los que no entraremos, sirven para hacer
ms fcilmente interpretables los factores o componentes, y las hay de dos tipos:
Ortogonales: Los factores resultantes tras la rotacin son independientes
entre s.
Oblicuas: Los factores resultantes pueden correlacionar entre s.
De entre las rotaciones ortogonales las ms utilizadas son la quartimax y la
varimax, y sta ltima es la que SPSS realiza por defecto. Cuando se quiere resumir las
variables observables de forma que los factores resultantes no se solapen, por ejemplo al
predecir un criterio, las rotaciones ortogonales son adecuadas. Cuando, por contra se
sospecha que los factores puede guardar relaciones entre s, como al buscar factores en
un cuestionario de un constructo, conviene realizar rotaciones oblicuas, de entre las que
oblimin es una opcin razonable en SPSS. Cuando se realiza una rotacin oblicua, para
interpretar los factores se debe mirar dos matrices, la matriz patrn y la matriz de
estructura. La primera dice la relacin de la variable con el factor controlando por el
resto de variables observables, la segunda es simplemente la saturacin factorial, o sea,
la correlacin del factor y la variable.

5.2.5. Qu saturaciones interpretar?


Solamente las variables observables que saturan (se relacionan) de forma elevada con el
componente sirven para definirlo, en otras palabras, pesan mucho ms en la
interpretacin. Por ello, hay que poner ciertos lmites a qu saturaciones considerar
como representativas del factor. Hay ciertas reglas evidentes:
Que sean estadsticamente significativos. El error estndar es
1/
Que los sean al 0.01, no al 0.05 por la capitalizacin del azar
Que tengan valores absolutos iguales o superiores a 0.4

5.2.6. Un ejemplo
Realizaremos un anlisis factorial sobre los 10 items del cuestionario de Rosenberg, que
se supone unifactorial. Los datos son los del ejemplo1.sav. Realizaremos un anlisis
de componentes principales con rotacin varimax, pidiendo que extraiga los factores
con valores propios mayores de 1. Adicionalmente en opciones pediremos que no nos
muestre las saturaciones que sean menores de 0.10, mediante la orden que aparece en la
figura 52.

105
Figura 52.
Ventana de anlisis factorial de SPSS: opciones

Los resultados del anlisis factorial se presentan en una serie de tablas. La primera
de stas nos ofrece el porcentaje de varianza explicada de cada uno de los componentes
retenidos, antes y despus de la rotacin. En este caso, como en todos, el primer
componente es el que ms explica. Especialmente antes de la rotacin es cuatro veces
ms importante que el segundo.
Tabla 28.
Resultados del anlisis de componentes principales: autovalores y varianza explicada

El grfico de sedimentacin nos ofrece alguna duda sobre que la solucin de dos
componentes sea la mejor, ya que parece que el factor ms importante es el primero (ver
figura 53).

106
Figura 53.
Grfico de sedimentacin (scree-test)

La siguiente tabla (tabla 29) muestra las saturaciones factoriales, que nos
permitiran interpretar los componentes. La mayor parte de los tems del cuestionario
saturan de forma elevada solamente en uno de los componentes, pero hay al menos tres
tems que claramente saturan elevado en ambos componentes.
Tabla 29.
Saturaciones factoriales en los dos componentes extrados

A la vista de lo anterior hemos optado por realizar un nuevo anlisis de


componentes principales pero forzando a que se extraiga un solo componente, con lo
que no es necesaria la rotacin. Los resultados de este nuevo anlisis, que pueden verse

107
en las tablas a continuacin muestran que aunque el porcentaje de varianza explicado es
relativamente bajo (tabla 30), todos los tems, quiz con la excepcin del primero,
saturan (tabla 31) de forma elevada en un nico componente, que dada la teora y
resultados previos de Rosenberg interpretamos como autoestima global.
Tabla 30.
Resultados del anlisis de componentes principales: autovalores y varianza explicada

Tabla 31.
Saturaciones factoriales en el nico componente extrado

108
INDICE

1. Conceptos previos 2
1.1. La estadstica en el mtodo cientfico 2
1.2. Tipos de diseos de investigacin 3
1.3. Conceptos estadsticos bsicos y definicin 5
1.4. Medicin, variables y escalas de medida 7
1.5. Muestreo 11

2. Introduccin de datos 20
2.1. Introduccin de datos y manejo bsico de SPSS
20
2.2. Datos omitidos 21
2.3. Fundir archivos 22
2.4. Seleccin de datos 23
2.5. Transformacin de variables 27
2.6. Segmentado de archivos 31
2.7. Recodificacin de variables 37

3. Tcnicas estadsticas descriptivas bsicas:


representaciones grficas y estadsticos descriptivos 36
3.1. Caractersticas estadsticas descriptivas a estudiar
36
3.2. Representaciones grficas 41
3.3. Estadsticos descriptivos 54

4. Relaciones bivariadas 63
4.1. Relaciones entre variables categricas 63
4.2. Pruebas t y anlisis de la varianza (ANOVA) 66
4.3. Correlacin y regresin simple 77
4.4. Algunas pruebas no paramtricas 84
4.5. Fiabilidad y validez: integracin 88

5. Relaciones complejas 91
5.1. Regresin lineal mltiple 91

109
5.1.1. Esti
macin 91
5.1.2. Diag
nstico en regresin 96
5.1.3. Vali
dacin cruzada 99
5.2. Anlisis factorial 100
5.2.1. Pas
os previos al anlisis factorial 101
5.2.2. Tipo
s de anlisis factorial 103
5.2.3. Cu
ntos componentes retener? 104
5.2.4. Rot
aciones 104
5.2.5. Qu
saturaciones interpretar? 105
5.2.6. Un
ejemplo 105

110