Documentos de Académico
Documentos de Profesional
Documentos de Cultura
LA PSICOLOGÍA.
INFERENCIAL.
Una variable tiene efecto sobre otra, si hay diferencia entre sujetos. Estas son las hipótesis que
se contrastan con los modelos estructurales o de efectos.
El modelo de regresión (análisis de regresión): modelos predictivos. Una variable explica otra.
Por ejemplo, un test de aptitudes.
1. Conceptos.
➢ Población y muestra
1
La muestra tiene que ser representativa. Por ejemplo,
calidad de vida en enfermos con Alzheimer, conjunto de
personas con Alzheimer que vive en el entorno familiar
(estas son las características que definen mi población)
esto determina los criterios de inclusión en la muestra.
➢ Parámetro y estadístico
➢ Inferencia estadística.
Definición de estadística: es la ciencia que se encarga de recoger, ordenar y analizar los datos
de una muestra extraída de cierta población y que, a partir de esa muestra, valiéndose del
cálculo de probabilidades, se encarga de hacer inferencias acerca de la población. (Amón, 1993).
Líneas de desarrollo de la Estadística.
Históricamente, la estadística ha tendido a dividirse en dos grandes ramas:
2
Inferencia estadística: consiste en extraer conclusiones de tipo general, referidas a
propiedades de la población, a partir de datos concretos –estadísticos-, obtenidos en
una muestra representativa de esa población. Esto exige la utilización de, por un lado,
procedimientos que nos ayuden a efectuar este salto (inducción, inferencia, análisis)
de lo particular a lo general, y por otro, procedimientos que nos garanticen que la
inducción efectuada se apoya en una buena base (selección, muestreo).
Inferir es ir de algo concreto, como es una muestra, hasta algo más general, el estudio de la
población. Ir de lo articular a lo general, lo que se materializa en el proceso inductivo.
En la inferencia, el hecho de no conocer el conjunto total hace que todas las conclusiones que
se extraigan utilizando este razonamiento contengan incertidumbre. El papel de la Estadística
inferencial va a consistir en cuantificar esta incertidumbre. Por lo tanto, estas inferencias
nunca serán exactas, siempre habrá un margen de error que controlaremos mediante la
probabilidad; aunque nunca alcanzaremos una probabilidad de cometer error igual a cero,
intentaremos que sea la menor posible.
3
➢ Muestreo probabilístico o aleatorio. (técnicas)
Son los métodos basados en el principio de equiprobabilidad, es decir, aquellos en los que
todos los individuos de la población tienen la misma probabilidad (conocida o calculable) de
ser elegidos para formar parte de una muestra y, consiguientemente, todas las posibles
muestras de tamaño n tienen la misma probabilidad de ser seleccionadas. Son las más
recomendables.
Como ventajes: son los más rígidos, evitan sesgos y aseguran la representatividad de la
muestra extraída.
Como inconvenientes: son muy costosos y en cuento a su técnica de muestreo: presentan
4
o Ventajas: proporciona muestras más representativas que el aleatorio
simple, porque asegura que en la muestra aparecerán elementos de la
población de todas las clases.
o Inconvenientes: cuando en la disposición ordenada de los elementos de la
población existe una periodicidad coincidente con el de la muestra, este
procedimiento proporcionará muestras sesgadas. (prohibido en las poblaciones
ordenadas).
5
✓ Muestreo aleatorio por conglomerados.
o Procedimientos.
1. Se selecciona aleatoriamente como unidades muestrales un número
de conglomerados, grupo de elementos de la población que forma
una unidad, hasta alcanzar el tamaño muestral establecido.
Principios.
- Heterogeneidad entre los elementos de la población dentro
de cada conglomerado.
- Homogeneidad entre los conglomerados.
Métodos donde no todos los individuos de la población tienen la misma probabilidad de ser
seleccionados (no se basan en el principio de equiprobabilidad).
Los inconvenientes que presenta son: ser menos rigurosos, no garantizar la representatividad
de la muestra, poder dar lugar a datos sesgados y tener una capacidad limitada para plantear
conclusiones generales. Pueden ser adecuados para estudios exploratorio (en fases
preliminares).
✓ Muestreo por Cuotas. (es lo mismo que la fijación proporcional en el caso del estratificado)
o Procedimiento.
1. Se fijan las cuotas (variables de interés), número de unidades de análisis
que reúnen determinadas características.
2. Se incluyen en la muestra los primeros elementos de análisis que se
encuentren y que cumplan las características fijadas.
o Ventajas: facilita el reclutamiento de la muestra.
o Inconvenientes: exige el conocimiento de los grupos de interés y de las
unidades de análisis para los fines de la investigación.
✓ Muestreo de conveniencia.
o Procedimiento.
1. Se incluyen en la muestra los elementos de análisis disponibles. Se utilizan
como muestra los individuos a los que se tiene fácil acceso (los profesores
de universidad emplean con mucha frecuencia a sus propios alumnos). Un
caso particular es el de los voluntarios.
o Ventajas: facilita el reclutamiento de la muestra
o Inconvenientes: no existe control sore la representatividad de la muestra.
6
✓ Muestreo de bola de nieve.
o Procedimiento.
1. Se identifican algunas unidades de análisis.
2. Estas unidades de análisis conducen a otras, y estas a otras, y así hasta que
se consigue una muestra de acuerdo con el tamaño fijado.
o Ventajas: adecuado cuando se seleccionan muestras en poblaciones de difícil
acceso, como poblaciones marginales.
o Inconvenientes: no existe control sobre la representatividad de la muestra.
4. Distribuciones muestrales.
• Definiciones.
o Parámetro: valor numérico que describe una característica de una población:
- Valor desconocido. // - Valor constante o fijo.
o Estadístico: valor numérico que describe una característica de una muestra. Se
calcula a partir de datos muestrales, por lo que es conocido. Tiene un valor
variable que depende de la muestra en la que se calcula (variable aleatoria).
o Estimador: es un estadístico utilizado para conocer el parámetro desconocido
de la población. Para cada parámetro pueden existir diferentes estimadores.
“Es una variable aleatoria (estadístico) formada por los valores de
determinado estadístico obtenido a partir de las infinitas muestras del mismo
tamaño n que se pueden extraer de una población”.
o Estimación: proceso que consiste en atribuir a un parámetro el valor tomado
por su correspondiente estadístico.
o Distribución muestral del estadístico: distribución de probabilidad de un
estadístico en la que se conoce la probabilidad asociada a cada valor.
Distribución teórica que asigna una probabilidad concreta a cada uno de los
valores que puede tomar un estadístico en todas las muestras del mismo
tamaño que es posible extraer de una determinada población. Las
distribuciones muestrales son constructos matemáticos teóricos y no se
pueden general empíricamente. Cada distribución muestral representa a un
estimador y es específica para él.
Sus características son:
- Forma: distribuciones teóricas a la que se acomoda o ajusta cada
estimador (z, t,x2, F).
- Media o valor esperado de la distribución muestral, que
generalmente coincide con el parámetro.
- Varianza de la distribución muestral.
7
Error típico del estadístico: desviación típica de la distribución
muestral. Se obtiene calculando la raíz cuadrada de la varianza de la
distribución muestral.
Forma Varianza
Media
8
Ejemplos. Cálculo de la Distribución muestral de la Media.
9
Tema 2. Estimación de parámetros.
1. Concepto.
• Estimación de parámetros: consiste en plantear propiedades de la población a
partir de la información obtenida en una muestra. Se asigna valores a los
parámetros de la población a partir de los datos obtenidos en una muestra.
2. Estimación puntual.
• Estimación puntual: consiste en asignar a un parámetro poblacional el valor
concreto del correspondiente estadístico utilizado como estimador, obtenido en
una muestra perteneciente a dicha población. El valor muestral concreto
dependerá del método de estimación:
o Método de los momentos. Igualar las características muestrales a las
características de la población.
o Máxima verosimilitud: elegimos, dentro de la muestra, la estimación del
parámetro cuya probabilidad de ser cierta sea máxima.
o Mínimos cuadrados. (tema5, regresión).
10
• Suficiencia: Un estimador es suficiente si para estimar el parámetro utiliza toda la
información muestral relacionada con el parámetro. Y, por lo tanto, la estimación
del parámetro no puede ser mejorada considerando otros aspectos de los datos
no incluidos en el estimador.
La media, la varianza (sesgada -varianza- e insesgada -cuasivarianza-) y la proporción
son estimadores suficientes de sus respectivos parámetros
11
• Características de los intervalos de confianza.
o Garantizar una alta probabilidad de incluir al parámetro estimado.
o Proporcionar una precisión de la estimación aceptable: tamaño de la muestra.
Niveles de confianza: 95% - 99
Niveles de significación: 0,05 - 0,01
- Media.
- Proporción
- Varianza
- Correlación
- Diferencia de medias: M.
- Independientes y relacionadas.
- Razón entre varianzas
12
Ejemplo: distribución de parámetros
1. Estimación puntual.
1. Estimación puntual.
2. Estimación por intervalos: Cálculo del Intervalo Crítico (IC) - Nivel de significación o
riesgo de error: (α=.05)
a. Distribución muestral:
13
Tema 3. Contraste de hipótesis.
1. Concepto.
El contraste de hipótesis, también conocido como prueba de significación o prueba estadística,
consiste en comprobar si una proposición (afirmación) sobre una propiedad de la población
(forma o valor de un parámetro) puede ser aceptada a partir de la información obtenida en
una muestra perteneciente a dicha población. También puede definirse como el proceso de
decisión en el que una hipótesis estadística se pone en relación con los datos obtenidos en una
muestra para determinar si es compatible con ellos.
Dependiendo del cumplimiento o no de los supuestos, del objetivo de la prueba y del tipo de
variable, podemos diferenciar entre contrastes paramétricos y contrastes no paramétricos.
• Contrastes paramétricos.
1) Contrastan hipótesis referidas a un parámetro poblacional.
2) Requieren el cumplimiento de determinados supuestos.
3) Analizan datos cuantitativos (escala de medida de intervalo o razón)
• Contrastes no paramétricos.
1) Contrastan hipótesis no referidas a un parámetro poblacional.
2) No requieren el cumplimiento de determinados supuestos.
3) Analizan datos ordinales y nominales
14
igualdad. Esta hipótesis se acepta cuando NO hay efectos significativos
de la VI en la VD (como las medias son iguales, la VI no tiene efectos
significativos).
o Hipótesis alternativa (H1): Hipótesis complementaria a la hipótesis
nula, e incluye todo lo que la hipótesis nula excluye. Se acepta cuando
SÍ hay efectos significativos de la VI en la VD (como las medias son
distintas, la VI si tiene efectos significativos).
Dependiendo de los signos que queden en las hipótesis, tendremos diferentes tipos de
contrastes.
15
Delimitación de las regiones de aceptación y rechazo: nivel de significación ().
16
4. Tipos de error, potencia y tamaño del efecto
17
Ejemplo de: Contraste de Hipótesis.
1ª Hipótesis. Se quiere comprobar si existen diferencias significativas en aptitud espacial
en función del sexo (entre varones y mujeres).
Determinar:
3. Distribución muestral:
18
2ª Hipótesis. Se quiere comprobar si el nivel en aptitud espacial de los varones es
significativamente superior al de las mujeres.
Determinar:
3. Distribución muestral:
19
➢ 3º. Toma de decisión: (α = 0,05)
o Probabilidad asociada (p).
Estimación diferencia.
Comparación estimación
20
Prácticas 1. Ejemplo contraste t diferencia de medias para muestras independientes
En un estudio, se ha tratado de comprobar si existen diferencias en función del sexo en el recuerdo de material
presentado de forma auditiva. Para comprobarlo se seleccionó una muestra de 56 estudiantes (28 varones y 28
mujeres). La presentación del material, una lista de 15 objetos de uso cotidiano se realizaba a través de unos
auriculares. Posteriormente, se pedía a los participantes en el estudio que escribieran en un folio en blanco el
mayor número posible de objetos que se le habían presentado, teniendo en cuenta que los errores no penalizaban
negativamente. La puntuación en la prueba era el número de objetos recordados correctamente. A continuación, se
presentan los resultados obtenidos.
varón 9,00
varón 3,00
varón 7,00
varón 9,00
varón 11,00
varón 3,00
varón 10,00
varón 7,00
varón 12,00
varón 9,00
varón 8,00
varón 13,00
varón 7,00
varón 2,00
varón 6,00
varón 7,00
varón 9,00
varón 6,00
varón 8,00
varón 11,00
varón 7,00
varón 5,00
varón 4,00
varón 3,00
varón 5,00
varón 4,00
varón 2,00
varón 3,00
mujer 9,00
mujer 8,00
mujer 7,00
mujer 9,00
mujer 6,00
mujer 11,00
mujer 10,00
mujer 7,00
mujer 8,00
mujer 11,00
mujer 8,00
mujer 8,00
mujer 12,00
mujer 10,00
mujer 5,00
mujer 7,00
mujer 9,00
mujer 4,00
mujer 11,00
mujer 2,00
mujer 8,00
mujer 5,00
mujer 7,00
mujer 8,00
mujer 5,00
mujer 10,00
mujer 6,00
mujer 3,00
21
A partir de estos resultados, ¿se puede afirmar que existen diferencias entre varones y
mujeres? (=0,05)
f) Representa gráficamente los resultados. Procura que los gráficos tengan una presentación
atractiva.
22
Practica 2. Ejemplo contraste t diferencia de medias para muestras relacionadas
A partir de estos resultados, ¿puede afirmar el psicólogo que la publicidad ha sido eficaz?
(=0,05)
e) Una vez obtenidos los resultados, plantea la conclusión a la que llegarías, reflejándolo con
los resultados.
f) Representa gráficamente los resultados. Procura que los gráficos tengan una presentación
atractiva
23
Tema 4. Análisis de varianza.
En el contraste de diferencia de medias o prueba "t" se estudia la relación entre dos variables:
una independiente con dos niveles definidos por los dos grupos cuyas medias se comparan, y
una dependiente medida en una escala de intervalo o de razón. El objetivo de la prueba "t" es
comprobar, si hay diferencias significativas entre las medias en la variable dependiente de los
dos grupos. El Análisis de Varianza (ANOVA) permite extender esas ideas al caso en que la
variable independiente tiene más de dos niveles, es decir, cuando se quieren comparar las
medias de más de dos grupos y, además, ofrece la posibilidad de estudiar más de una variable
independiente. Tal vez debido a esto el ANOVA es la técnica de análisis de datos más
frecuentemente utilizada en la investigación psicológica.
Por lo que respecta a la elección de los niveles de la variable independiente que se incluirán en
el modelo es una decisión que ha de tomar el investigador, en función de la teoría sobre el
tema de estudio, con el fin de obtener una idea clara de los mecanismos subyacentes al
fenómeno estudiado. Los diferentes aspectos del análisis de varianza se sustentan sobre una
serie de modelos matemáticos acompañados de un conjunto de supuestos referidos a las
distribuciones de las variables aleatorias que forman parte de esos modelos.
El modelo de ANOVA no es más que una versión del modelo lineal general adaptado al caso de
variable independiente categórica –Modelo estructural o de efectos-.
24
Antes de comenzar la investigación, de actuar VI, si el experimento está bien planeado, las
puntuaciones de los sujetos en los diversos grupos no diferirán significativamente, sino dentro
de los límites esperables como consecuencia de los efectos del azar, pero, tras el tratamiento
experimental, uno o varios de tales grupos habrán experimentado cambios distintos de aquél o
aquéllos que no lo hayan recibido o lo hayan hecho en grado diferente, esto es, cambios que
diferirán según el nivel de la VI que les haya correspondido. Esta varianza explicada puede ser
única o incluir varias partes, tantas como VI contenga el diseño, con sus correspondientes
interacciones.
Un principio fundamental del ANOVA es que ambas medias cuadráticas, dentro y entre los
grupos, son estimaciones insesgadas del parámetro varianza poblacional. Consiguientemente
no deben diferir significativamente sino dentro de los márgenes del azar, salvo que algo ajeno
a ellas haya hecho variar fuertemente una de ellas dejando inalterada a la otra. Y esto es
justamente lo que ocurre merced al influjo de la VI uno o varios grupos cambian, elevándose o
descendiendo respecto de otro u otros grupos del diseño, con lo que la varianza entre grupos
aumentará. La media cuadrática dentro de los grupos únicamente tiene una fuente de
variación, el error.
La media cuadrática entre los grupos incluye junto a ésta las variaciones producidas por la VI.
Si ésta ha sido eficaz, su valor respecto a la varianza poblacional irá más allá de los límites de
las fluctuaciones del azar. En caso contrario una y otra estarán muy próximas y cercanas a la
varianza poblacional, dentro de las fluctuaciones explicables por azar. El ANOVA trata de
comprobar si la varianza entre grupos es suficientemente mayor que la de error. Es necesario
que aquélla sea suficientemente más elevada que ésta para atrevernos a afirmar que es
significativa, ¿cuánto mayor? Snedecor es el autor de las tablas que indican los valores F (razón
entre ambas medias cuadráticas) que permiten afirmar la significación estadística de las
diferencias para diferentes grados de libertad y niveles de significación. Si la H0 fuera cierta
ambas medias cuadráticas tenderán a ser iguales y su cociente próximo a 1; si H0 fuera falsa, el
valor de la media cuadrática intergrupos será sensiblemente superior a la media cuadrática
intragrupo o de error.
El ANOVA concluye en una prueba de significación de diferencias -F- que permite comprobar si
diversos niveles de una misma variable independiente dan lugar a diferencias significativas.
Lógicamente, el valor de F será tanto mayor cuanto más elevada sea la media cuadrática
intergurpos y cuanto menor sea la existente dentro de los grupos. En estos Modelos, el
Modelo Lineal General se concretiza en la siguiente ecuación
25
Este modelo establece que la puntuación obtenida por un sujeto i bajo el tratamiento j puede
ser explicada recurriendo a tres componentes que se combinan de forma aditiva: el término
"µ" que es un término constante, la media total de todas las observaciones en la variable
dependiente, representa o recoge el conjunto de efectos debidos a los factores mantenidos
constantes, es decir, aquellos factores que son comunes a todos los sujetos; el término "α" que
representa el cambio que se produce en la variable dependiente "Y" como consecuencia del
cambio de nivel en la variable independiente "X", es decir, el efecto atribuible a la variable
independiente (el efecto atribuible al nivel de la VI bajo el que se obtiene esa puntuación Yij, y
que se puede definir como αj= µj − µ , pues lo que cada tratamiento tiene de específico es
justamente aquello en lo que se diferencia del promedio total. Por esta razón, es conocido
como modelo de efectos. Y, por último, el término aleatorio de error "ε ", que representa el
efecto atribuible al conjunto de variables no contempladas en el modelo, variables extrañas
cuyo efecto es desconocido, variables cuyo efecto aun siendo conocido, no se desea estudiar,
errores de medida, etc.
Los términos µ y αj incluidos en el modelo son parámetros y, por tanto, son desconocidos y es
necesario estimarlos. Se utilizará la media de la VD (Y) como estimador de µ, la media de cada
grupo (Yj) como estimador de µj, y la diferencia entre la media de un grupo y la media total en
la VD (Yj-Y) como estimador de αj (pues αj=µj-µ) Desde el punto de vista del modelo
estructural, los parámetros asociados a la parte determinística o sistemática son los que más
interesan. Por esta razón, el sentido último de la prueba de contraste de hipótesis consiste en
obtener el nivel de significación de tales parámetros, en concreto de "α".
2. Supuestos.
El incumplimiento de uno o más de estos supuestos puede llevarnos a tomar una decisión
equivocada. Ese incumplimiento puede hacer que la distribución muestral F cambie y,
consecuentemente, que el nivel de significación propuesto no coincida con el real, pasando a
ser menor o mayor. En general, el estadístico F es bastante robusto frente a desviaciones
moderada en el incumplimiento de los supuestos que exige, pero desviaciones más acusadas
pueden tener graves consecuencias sobre nuestras conclusiones.
➢ Independencia.
26
Como consecuencia de esto, lo que una puntuación se desvía del promedio de su grupo (Eij) es
independiente de los que se desvía otra puntuación cualquiera de ese mismo grupo: la
covariación de los errores es igual a cero. Y, como una consecuencia más, puesto que las
observaciones de cada grupo constituyen una muestra aleatoria, las desviaciones (errores) de
cada puntuación respecto de su promedio también serán aleatorias y unas se anularán con
otras, el valor esperado de los errores, es decir, la media será igual a cero. Probablemente el
no cumplimiento de este supuesto produzca los efectos más graves, pero es la condición más
fácil de cumplir. Se consigue con los muestreos aleatorios y la asignación aleatoria de los
sujetos a los grupos. Si se duda de la independencia de las observaciones, se puede poner a
prueba la hipótesis de que las muestras son aleatorias utilizando la prueba de rachas.
➢ Normalidad.
Las J muestras aleatorias son extraídas de J poblaciones normales, es decir, las observaciones
de cada nivel de la VI constituyen una muestra aleatoria extraída de una población normal.
Este supuesto puede quedar referido también al término de error. Los errores, además de ser
independientes unos de otros, y de tener media cero, se distribuyen normalmente.
Las desviaciones de la normalidad pueden detectarse, cuando son muy marcadas, utilizando
sencillos métodos gráficos. Pero si estamos interesados en contrastar la hipótesis de que una
muestra procede de una población normalmente distribuida podemos utilizar la prueba de
normalidad de Lillieffors.
Las J poblaciones de donde son extraídas las muestras, además de ser normales, tienen todas
ellas la misma varianza. Puesto que las observaciones han sido aleatoriamente asignadas a
cada uno de los J tratamiento, podemos pensar que la variación observada entre las
observaciones de una misma muestra será independiente del tratamiento concreto al que
haya sido asignada esa muestra. Ahora bien, si cada una de las J muestras se considera
aleatoriamente extraída de una población y las J varianzas muestrales son similares, debemos
suponer que esas poblaciones tienen, todas ellas, la misma varianza:
Además, puesto que los errores son la única fuente de variación presente en el modelo, pues µ
y α son constantes para cada tratamiento, la variación mostrada por las puntuaciones Y en un
tratamiento cualquiera no será más que la variación propia de los errores de ese tratamiento.
De ese modo, la varianza de los errores será igual a las varianzas poblacionales:
27
Durante muchos años se ha venido aceptando que el estadístico F es muy robusto frente al
incumplimiento de este supuesto si los tamaños muestrales son iguales y no demasiado
pequeños. Estudios más recientes, sin embargo, parecen confirmar que, cuando las varianzas
poblacionales son distintas, el estadístico F puede resultar insatisfactorio incluso con tamaños
muestrales iguales. Y, desde luego, si los tamaños muestrales son diferentes, muchos trabajos
ponen de manifiesto que el estadístico F pierde robustez frente a la heterogeneidad de
varianzas: se convierte en muy conservador cuando las varianzas más grandes corresponden a
los grupos de mayor tamaño (perdiendo, además, potencia) y es marcadamente liberal cuando
las varianzas más grandes corresponden a los grupos de menor tamaño.
3. Modelos de ANOVA.
Los modelos del ANOVA son muchos, presentamos los más representativos, que son los que se
utilizan más frecuentemente en la investigación empírica, y permiten resolver la mayor parte
de las situaciones experimentales con las que un investigador se puede encontrar en la
práctica. Vamos a utilizar cuatro criterios para clasificar estos modelos: cumplimiento de los
supuestos y nivel de medida de la variable dependiente, el número de factores, el tipo de
aleatorización seguida y el tipo de muestreo efectuado sobre los niveles de los factores.
➢ Número de factores.
28
Se pueden plantear dos tipos de modelos: sin interacción si se considera que los efectos de los
tratamientos son aditivos o independientes, que un tratamiento afecta por igual a los
diferentes niveles del otro tratamiento; con interacción, si se considera que son dependientes
y actúan sobre otro, que un tratamiento afecta de forma diferente a los distintos niveles del
otro tratamiento.
➢ Tipo de aleatorización
Si sospechamos que existe alguna variable extraña que puede alterar de forma importante los
resultados, distorsionando los posibles efectos atribuibles a los tratamientos, entonces, con un
diseño adecuado se puede eliminar, es decir, ejercer algún tipo de control directo sobre la
variable extraña. En este caso, se forman bloques se sujetos en función de la variable extraña
que se desee controlar, y después se asignan aleatoriamente los sujetos de cada bloque a cada
uno de los niveles del factor. De tal forma, que en cada nivel del factor haya sujetos de todos
los bloques, el efecto de la variable extraña habrá quedado controlado al quedar todos los
grupos igualados en la variable extraña. El ANOVA que permite analizar los datos así obtenidos
recibe el nombre de ANOVA de un factor aleatorizado en bloques.
El bloqueo llevado a sus extremos puede ser aquel en el cada bloque está formado por un
único sujeto. Es decir, aquel en el que todos y cada uno de los sujetos se les aplican todos y
cada uno de los niveles de la variable independiente o factor. De modo que, se elimina mayor
número de variables extrañas. El ANOVA que permite analizar los datos con un diseño de este
tipo se denomina ANOVA de medidas repetidas.
➢ Muestreo de niveles.
29
El propósito del diseño es determinar si esos niveles concretos difieren entre sí. Si en lugar de
fijar los niveles que se desea estudiar se procede seleccionando al azar unos pocos niveles
dentro de todos los posibles, porque las inferencias que interesa realizar se refieren, no a unos
niveles concretos, sino a cualquiera de los posibles, entonces el modelo de ANOVA es de
efectos aleatorios o componentes principales (también llamado modelo II). Aquí no interesa
estudiar unos niveles concretos del factor sino cualquiera de los posibles niveles del factor.
30
o Especificación del modelo.
(ANOVA de un factor de efectos fijos completamente aleatorizados).
31
o Estimación de parámetros: varianza inter e intra - grupo.
32
Análisis de la varianza 2 FEF con interacción.
o Fundamentos del ANOVA 2 FEF con interacción: varianzas implicadas.
33
o Concepto de interacción.
o Especificación del modelo.
o Estimación de parámetros.
34
35
36
Tema 5. Análisis de la relación entre variables.
1. Coeficientes de correlación: criterios de elección.
37
Tema 5.1. Análisis de regresión lineal simple.
1. Técnicas de Análisis de Regresión: criterios de clasificación.
4. Estimación de parámetros
o Coeficiente de regresión
38
5. Evaluación de la bondad de ajuste del modelo
39
o Índice de bondad de ajuste: Coeficiente de determinación (R2).
40
3. Supuestos: diagnóstico.
• NORMALIDAD: Univariable (variables individuales) y multivariable (errores)
o Representación gráfica: Histograma.
o Prueba de significación estadística: Pruebas de Bondad de Ajuste.
• HOMOCEDASTICIDAD
• LINEALIDAD: Gráfico de Regresión parcial.
• INDEPENDENCIA Y ALEATORIEDA DE LOS ERRORES:
o Prueba de Durbin-Watson:
• AUSENCIA DE MULTICOLINEALIDAD: Correlaciones entre las VI.
o Índice de Tolerancia.
4. Estimación de parámetros
41
Tema 5.3. Análisis de regresión lineal simple.
El Análisis de Regresión Lineal Simple es un procedimiento estadístico mediante el cual
podemos pronosticar las puntuaciones de los sujetos en una variable (Y), denominada
dependiente o criterio, mediante el conocimiento de sus puntuaciones en otra variable (X),
denominada independiente o predictora, y la ecuación de regresión. Si sabemos, por ejemplo,
que las variables de inteligencia y rendimiento están relacionadas, podemos utilizar la
puntuación de un sujeto en inteligencia para predecir su rendimiento, utilizando una ecuación
de regresión.
En el análisis de Regresión Lineal Simple se parte de una matriz de datos, en la que en las
columnas se sitúan la variable predictora y el criterio, y en las filas los sujetos. En las celdillas,
tenemos las puntuaciones de los sujetos en las dos variables.
A partir de esta matriz de datos, para poder responder a la cuestión de si existe una relación
lineal entre dos variables, y que recta es la más adecuada para realizar predicciones en una
variable a partir de otra, se plantean dos pasos:
A esta ecuación se le llama ecuación de regresión de Y sobre X. Los términos A y B son los
estimadores de α y b. Para obtener A y B, utilizaremos el método de mínimos cuadrados, que
se basa en hacer mínimas las distancias al cuadrado entre Y e Y'. De esta forma, se obtiene la
recta que mejor expresa la relación lineal entre las dos variables, es decir, la recta que mejor se
ajusta a la nube de puntos que representa la relación entre las dos variables.
42
2. Evaluación del Modelo.
El siguiente paso, es determinar si esa recta es lo bastante buena como para permitirnos
efectuar predicciones aceptables en una variable a partir de otra, es decir, analizaremos si las
predicciones efectuadas sobre Y a partir de X son mejores que las que podríamos efectuar sin
considerar X. Y si podemos decir que la relación entre las variables X e Y es una relación lineal.
En el contraste de hipótesis, sobre el parámetro b se siguen los mismos pasos que en cualquier
contraste:
c) Decisión.
43
o ANOVA de la Regresión.
A partir, de las sumas de cuadrados se obtienen las medias de cuadrados, que no son más que
las SC divididas por los grados de libertad correspondientes. Y, por último, se obtiene el
estadístico F la razón entre MCR/MCE. Cuanto mayor sea la suma de cuadrados debida a la
regresión, y, por lo tanto, menor sea la suma de cuadrados debida al error, obtendremos
resultados de F más altos y unas probabilidades asociadas más bajas, que nos llevarán a
rechazar hipótesis nula. Y, por tanto, a concluir que existe una relación lineal significativa entre
las dos variables.
44
Tema 5.4. ANALISIS DE REGRESIÓN
El Análisis de Regresión es una de las técnicas más utilizadas para evaluar las relaciones entre
las variables. Concretamente, para estudiar el grado de asociación y la naturaleza de la
relación entre una o más variables predictoras (independientes) y una sola variable criterio
(dependiente), plantear ecuaciones matemáticas que la describan, y permitan la predicción y
control de la variable criterio a partir del conocimiento de los valores de la otra, es decir,
determinar en qué medida la variable criterio puede ser explicada o predicha por la predictora
o independiente.
A continuación, vamos a ver la relación del Análisis de Regresión con otras técnicas estadísticas
como el ANOVA y la correlación.
Tanto el Modelo de Regresión del que se deriva el Análisis de Regresión, como el Modelo
Estructural del que a su vez se deriva el ANOVA son concreciones del MLG.
El objetivo en ambos casos es analizar la relación entre las variables independientes y
dependientes. Pero como hemos señalado, mientras en el Modelo de Regresión se trata de
analizar la naturaleza, es decir, la forma de la relación entre las variables, y predecir el
comportamiento de la variable dependiente –variable criterio- en función de su relación con
la/s variable/s independiente/s –variable/s predictora/s-; en el Modelo de Efectos el énfasis se
pone sobre el efecto diferencial de los distintos niveles de la variable independiente –factor-
sobre la variable dependiente, es decir, sobre la comparación de medias.
Mientras en un ANOVA se trata de comprobar si existen diferencias significas entre las medias
en la variable dependiente de los diferentes grupos de sujetos formados en función de los
niveles en el factor; en un Análisis de Regresión se trata de comprobar además que esas
medias se encuentran en una línea recta.
45
1. Modelo. En el Modelo de Regresión, los componentes del Modelo Lineal General
El segundo término, "ε", es el componente aleatorio o de error, cuyo efecto sobre la variable
observada es totalmente impredecible, y que no posee en el modelo un carácter explicativo.
En este término, se incluyen una serie de componentes no observables: las diferencias
individuales en variables no incluidas en el modelo, los errores de medida que se han cometido
al medir las variables, y los errores de especificación, es decir, los errores atribuibles a la
omisión de alguna(s) variable(s) independiente(s) relevante(s) en el modelo, bien variables
extrañas cuyo efecto se desconoce, bien variables contaminadoras cuyo efecto, aun siendo
conocido, no se desea estudiar, y no se han incluido en el modelo y, tampoco, se han
controlado. En términos estadísticos de varianza, este término se correspondería con la
denominada varianza de error, porque es la parte de la varianza que no es explicada por las
variables que se incluyen en el modelo. En el Modelo de Regresión, con la denominada
varianza residual.
El modelo de regresión lineal es el modelo lineal general adaptado al caso concreto de una
variable independiente y una dependiente, ambas cuantitativas.
46
2. Supuestos.
o Supuestos como modelo descriptivo.
▪ En el modelo propuesto no se han omitido variables relevantes ni se
han incluido variables irrelevantes.
▪ No existen errores de medida en las variables, es decir, las variables
han sido medidas sin error.
▪ La variable X, independiente o predictora, presenta unos valores
fijados o predeterminado. No es una variable aleatoria.
▪ La relación entre las variables es lineal –linealidad- Para cada uno de
los valores fijos de X existe una subpoblación o distribución de valores
de Y. Las medias en la variable Y para estas subpoblaciones de X están
en la misma línea recta, dicha línea es la recta de regresión, y su
ecuación es la regresión lineal de Y sobre X.
o Supuestos como modelo inferencial.
▪ Normalidad. Los errores se distribuyen normalmente, por lo tanto, las
diferentes subpoblaciones de la variable dependiente para cada uno
de los valores de la variable independiente se distribuyen
normalmente.
▪ Homocedasticidad. Para los distintos valores de X los términos de
error tienen igual varianza, por lo que la varianza de las distribuciones
de las diferentes subpoblaciones de Y para los diferentes valores de X
es la misma, la varianza de los errores.
▪ Independencia. Los errores son aleatorios, y, por tanto, no están
relacionados entre sí ni con la variable independiente.
El cumplimiento del supuesto de que la variable X tenga valores fijos no es crucial. El análisis
de regresión no tiene por qué limitarse al modelo de X fijos, puede utilizarse con el modelo
bivariante normal, después de considerar cuál ha de ser la variable independiente.
47
La otra alternativa es incluir directamente el componente no lineal de la relación en el modelo,
es decir, plantear Modelos de Regresión Polinómicos.
48
Si la representación gráfica de los residuos refleja heterocedasticidad, se pueden plantear una
serie de pruebas de significación estadística, como la prueba modificada de Levene.
o Número de variables.
Cuando estamos ante el caso de más de una ecuación con varias variables independientes
estaremos ante los denominados Modelos Causales o Modelos de ecuaciones estructurales o
Análisis de Vías.
Se puede optar por un Modelo de Regresión Lineal, y como técnica de análisis por un Análisis
de Regresión Lineal, cuando se observa una relación lineal entre las variables predictora y
criterio, es decir, cuando se observa que a incrementos de la variable predictora se producen
incrementos en la variable criterio –relación lineal directa- o cuando a incrementos en la
variable predictora se observan decrementos en la variable criterio –relación lineal inversa-.
49
Cuando entre las variables se observan relaciones curvilíneas o parabólicas habrá que optar
por los Modelos de Regresión Polinómicos, y como técnica de análisis por el Análisis de
Regresión Polinómico o Curvilíneo. El caso más simple es cuando sólo se incluye una variable
independiente. La ecuación de regresión polinómica incluirá, además de los términos de la
ecuación de regresión simple, otros términos en los que la variable independiente es elevada a
una cierta potencia. Cuando la variable independiente es elevada al cuadrado, la ecuación es
un polinomio de segundo grado, también denominada ecuación cuadrática. Un polinomio de
tercer grado o una ecuación cúbica, cuando la variable independiente es elevada al cubo
50