Está en la página 1de 33

RESUMEN ANÁLISIS SOCIOLÓGICO I

Técnicas de análisis multivariado (TAM):


Son técnicas que tienen múltiples variables independientes o regresoras. Por ejemplo, el análisis factorial, el árbol
lógico, etc.
Lo que necesitamos saber es qué son, cuándo y para qué se utilizan (potencialidades y limitaciones), cuáles se
conocen y en qué investigaciones se usa alguna de estas técnicas. No las usan solo los investigadores positivistas,
sino que son muchos y de diferentes campos.
Para qué usarlas: Una razón es que nos permiten lidiar con la complejidad que suele ser inherente al tipo de
objetos de estudio. El tipo de sujetos y datos que queremos analizar pueden ser más complejos de lo que el análisis
univariado puede ofrecer. Eso implica también una razón de realismo.

El ABC del análisis multivariado:


Los cálculos los hacen los programas, por lo que esa parte del problema está resuelta y no es ahí donde tenemos
que situar nuestro mayor esfuerzo. En la medida que hacemos análisis multivariado tendemos a alejarnos de los
datos, ya que estamos perdiendo de vista algunas características más simples de esos datos. Hay que revisar cómo
funcionan las cosas antes de ponernos a trabajar, conocer bien la
fuente de datos y las limitaciones o potencialidades de la
información. Hay un proceso de construcción del dato que no es
abordado por las técnicas de análisis multivariado, ya que estas
ocurren luego. Si no conocemos bien ese proceso, es muy posible
que cometamos errores. Por último, generalmente no redundan en
una solución completamente concluyente, no nos dicen qué concluir,
eso lo saca el investigador, no el programa.
A) La clave no está en los cálculos, porque calcular, calculan los programas. A lo que debemos ponerle esfuerzo
es a:
- tener coherencia entre objetivos, estrategia y técnicas de investigación. Tenemos que tener hipótesis
operativas que sean adecuadas para el tipo de problema conceptual que queremos abordar. Eso no lo puede
hacer el programa, depende del investigador.
- seleccionar medidas confiables y válidas. Las variables son la medida de alguna dimensión de interés. Eso,
obviamente, no lo puede resolver una técnica multivariada, porque es algo generado al momento de producir
la información. Debemos preguntarnos si la gente entendió lo que yo quería preguntar, si lo contestaron o
no, si quienes lo hicieron o no se organizan en función de algún factor o es al azar. Si tengo mala información,
los resultados de mis técnicas de análisis multivariado van a ser malos.
- elegir el programa adecuado. Acá usamos el SPSS porque sirve para lo que vamos a trabajar. Pero el
investigador debe usar el que sea mejor para lo que quiere hacer.
- elegir la técnica correcta. Es importante conocer varias y los objetivos de cada una, para elegir en función
de la pregunta y los objetivos de investigación. El detalle se puede aprender sobre la marcha, pero tengo que
tener una idea general.
- generar una interpretación sustantiva relevante.
B) Nos alejamos de los datos, porque cundo hacemos análisis multivariado no debemos perder de vista la calidad
y características de los datos con los que estamos trabajando. Se debe empezar por análisis descriptivos uni y
bivariados que permitan ver cómo se comportan las variables con las que vamos a trabajar. Solo ese
conocimiento nos va a permitir la confianza suficiente para después interpretar los resultados multivariados y
nos va a permitir comprender los alcances y limitaciones del modelo que estamos usando. Entonces debemos:

C) La salida no sustituye el análisis o la decisión. Las técnicas de análisis multivariado tienen un costo, que tiene
que ver con que muchas veces sus resultados son ambiguos. Dan muchos elementos acerca de un problema y
uno tiene que hacer la conclusión. Estas técnicas son un modo de ordenar esta información y poner a prueba
ciertas ideas, pero la decisión acerca de qué es lo que eso nos está diciendo depende de cada investigador. La
decisión sobre cuál solución tomar y sobre qué interpretación realizar no resulta del análisis multivariado: hay
muchos análisis de correspondencia múltiple (ACM), pero solo un “La distinción” (de Bourdieu). ´
No siempre las técnicas de análisis multivariado nos van a dar una respuesta estadística firme, pero eso no
quiere decir que no tengan valor. Nos ahorran mucho trabajo por el lado de los cálculos, pero no en la
interpretación.

Cómo definir a las técnicas de análisis multivariado: En un sentido amplio, significa realizar una indagación en
la estructura de interrelaciones entre múltiples medidas. Encontrar patrones, regularidades, en un conjunto de
variables. La esencia del pensamiento multivariado es dar cuenta de esa estructura inherente, analizar el sentido
de esos conjuntos de variables y sus relaciones, mediante la aplicación e interpretación de varias técnicas
estadísticas.

Algunos conceptos de base:


1. Diseños experimentales o no experimentales:
A los efectos de las TAM, los datos pueden provenir de cualquiera de los dos tipos de diseños. A los efectos
de atribuir causalidad, los diseños experimentales son infinitamente mejores que los no experimentales por
dos cosas: la asignación aleatoria de individuos a un grupo de tratamiento y a otro de control, lo cual es
importante para asegurarnos de que no haya sesgos, y la manipulación del tratamiento. Hay dos tipos de
inferencia: causal (lo que buscamos cuando hacemos una selección aleatoria de individuos para la muestra de
un grupo de control y uno de tratamiento) y poblacional (lo que tratamos de hacer cuando tomamos una
muestra aleatoria de una población). En los diseños experimentales partimos de un conjunto de personas que
cumplen determinadas características (bola de nieve, autoselección). La aleatoriedad no entra para elegir a los
individuos, sino para asignarlos al grupo de tratamiento o al de control, que no tienen por qué ser muestra de
nada. Cuando no tenemos este tipo de mecanismos, la estadística no nos permite hacer inferencias causales.
Las TAM se pueden usar tanto en un tipo de diseño como en el otro, pero la interpretación en términos causales
en un diseño observacional que usa las mismas TAM no es estrictamente correcta.
Eventualmente podemos ir hacia una imputación de causalidad, pero no en función de los resultados, sino de
otras cosas.
2. Escalas de medición y tipos de datos:
Vamos a encontrar un conjunto de técnicas de análisis
multivariado para variables de respuesta nominales,
ordinales o intervales, pero tenemos que tener en cuenta que
el nivel de medición de una variable va a depender de qué
es lo que se le pregunte. Podemos, mediante diferentes
procedimientos, transformar variables de un tipo en otro, porque ese tipo es resultado de cómo fue
conceptualizada, medida y expresada. Podemos encontrar
formas de expresar la misma variable de modo en que la
podamos tratar como una variable métrica o no métrica, y en
función de eso elegimos las TAM.
Hay algunas cosas que son hasta más importantes que si las
variables son ordinales, nominales o de razón, y tienen que ver
con cómo son las categorías y cómo es la distribución, en
particular cuál es la forma de esa distribución. Esto es
importante porque todas las TAM tienen un conjunto de
supuestos, que muchas veces hacen a la forma de la
distribución de la variable.
3. Muestras y poblaciones:
En los diseños observacionales, queremos ver cómo se relacionan las variables en una población predefinida.
La preocupación es hacer la inferencia desde la muestra a la población. Vamos a tener un conjunto de datos,
en el que vamos a observar una determinada regularidad o
patrón, y la apuesta va a ser poder generalizar de esa muestra a
una población más amplia. En los diseños experimentales lo que
nos preocupa es lograr un mecanismo aleatorio que destruya
sesgos para después poder establecer una inferencia causal, que
no necesita que esos individuos sean una muestra representativa
de una población más amplia. Si logro establecer la muestra
causal, no importa mucho que la muestra sea representativa.
4. Estadística descriptiva e inferencial:
El uso de una u otra no suele ser un tema de elección. Lo que hacemos es hacer uso de las herramientas de
estadística descriptiva para luego inferir a la población, no nos va a importar lo de la muestra específica, sino
que vamos a querer tratar eso desde la estadística inferencial. Pero en algunos casos podemos estar frente a
una muestra que es todo lo que hay, no tengo una población mayor a la que inferir, sino que lo que encuentro
ahí es todo lo que puedo encontrar. Ahí hay una serie de desafíos y problemas que ya no tengo más.
5. Ortogonalidad: análisis estándar y análisis secuencial:
Dos variables son ortogonales si no están asociadas. Es la perfecta no asociación. Si dos variables no son
ortogonales, el conocer los valores de una unidad de una de ellas nos da pistas sobre el valor de la otra, pero
eso no sucede cuando existe la ortogonalidad. Es una propiedad deseable para las TAM.
Por ejemplo, si pensamos en un modelo de regresión múltiple, la idea es que hay un conjunto de variables
independientes que está incidiendo en una variable dependiente o de respuesta, pero la idea es que esas
variables independientes no estén a su vez relacionadas entre sí.
Esto de ver si están poco o muy asociadas entre sí las variables independientes es importante porque la
magnitud de la asociación va a tener importancia en cómo manejamos la varianza compartida. En todas las
TAM hay por lo menos dos opciones: el análisis estándar y el análisis secuencial. Lo que hace el análisis
estándar es que la varianza compartida entre variables independientes no se asigne a ninguna de las dos, y la
consecuencia de esto es que, si las dos comparten mucho, cada una explica muy poco, y por lo tanto terminan
siendo variables que aparecen en los modelos con muy poco peso estadístico; en este caso el problema no
sería que no tienen un papel, sino que es un papel compartido. El análisis secuencial es la asignación de
prioridad en la entrada de las variables en un modelo de análisis multivariado. Quien puede definir esto es el
investigador. El paquete estadístico solo se fija en función de criterios técnicos que no tienen ningún valor
sustantivo.
6. El valor teórico:
El rol crucial que tiene el investigador es construir el conjunto de variables que van a entrar en ese modelo o
técnica. Después, las ponderaciones que le van a corresponder a cada variable, las determina la técnica, lo
hace el programa. El resultado es un valor único que representa una combinación del conjunto de variables
que mejor se adaptan al objeto del análisis.

RLM= Regresión lineal múltiple


AD= Análisis discriminante
AF= Análisis factorial
7. Múltiples variables, pero ¿cuántas y cuáles?

Lista de chequeo para el conjunto de datos:


 Inspección univariada descriptiva para analizar la consistencia de los datos
- ¿Hay valores fuera de rango? Sería si una variable puede asumir valores entre 1 y 5, y me encuentro con un
20. Tengo que arreglar eso antes de hacer una TAM, porque son muy sensibles a los casos extremos, raros o
desviados.
- ¿Las medias y desvíos son plausibles?
- ¿Existen casos extremos? ¿posibles errores de medición o ingreso de datos?
 ¿Cuántos datos perdidos tengo y cómo se distribuyen? No es lo mismo un porcentaje reducido de datos perdidos
que un porcentaje muy alto, y no es lo mismo que se distribuyan de forma aleatoria que de modo sistemático.
 Tablas y gráficos bivariados para ver si hay no linealidad o heterocedasticidad. Si hay relaciones, pero no son
lineales voy a tener que pensar cómo expresar las variables para que los modelos sean capaces de captar esas
relaciones, y eso también lo tengo que solucionar.
 Identificar las variables con distribuciones no normales y los casos extremos
- Chequear los resultados de estadísticos de sesgo
(skewness) o “puntiagudez” (kurtosis)
- Transformar variables (si es lo apropiado)
- Chequear los resultados de las transformaciones
 Identificar si existen casos extremos multivariados
(combinaciones de valores en las variables que son
muy poco frecuentes, y que van a pesar mucho en las
TAM, por lo que hay que controlar antes que no pase)
- Determinar las variables generando los casos
extremos
- Describir los casos extremos multivariables
 Evaluar las variables para determinar multicolinealidad
y singularidad.

Inferencias, pruebas de hipótesis y prueba de diferencia de medias:


¿Qué es una inferencia? Es la conclusión de que un cierto patrón o regularidad está presente en un contexto más
amplio. Observamos una cierta regularidad en un conjunto de datos reducido, y la inferencia es decir que eso
también está presente en un contexto más amplio.
La inferencia estadística es más específica, ya que es una inferencia justificada por un modelo de probabilidad
que enlaza los datos observados con un contexto más amplio. Ese modelo de probabilidad se puede usar para dos
tipos de inferencia: inferir causalidad e inferir a una población.
La inferencia causal es la que puede sostenerse en el marco de un diseño experimental aleatorio, pero no en el
marco de un diseño observacional. Esto es porque en un experimento la aleatorización asegura que las
características que diferencian a las personas estén igualmente presentes en un grupo y otro. Mediante el
mecanismo de asignación aleatoria de los individuos a los grupos destruimos cualquier patrón sistemático de
diferencia entre los grupos, por lo que lo único que los diferenciará será el tratamiento al que vamos a exponer a
uno de ellos y no al otro. En un diseño observacional es imposible asegurar que las características diferentes
“medidas y no medidas” de las personas hayan sido equiparadas entre grupos. Es imposible porque suele ser
imposible redistribuir a las personas en función de ciertas características que tenemos medidas, porque incluso si
tratara de hacerlo en base a lo que sé de esas personas, va a haber un montón de cosas que no que no puedo saber
si están equiparadas. En la selección aleatoria esto no es un problema, porque el azar se encargó de equiparar
tanto en lo medido como en lo no medido u observado.

Variable de confusión: es una variable relacionada al mismo tiempo con dos cosas: con la pertenencia al grupo y
con el resultado (efecto o variable dependiente). Es una variable que no me permite saber si el resultado que estoy
observando (la medida que obtengo de mi variable dependiente para diferenciar en los grupos) se debe a lo que
yo postulo como variable independiente o a cómo fueron seleccionados los grupos. Como consecuencia,
inhabilita que el análisis estadístico sea suficiente para concluir causalidad. Cuando no tenemos capacidad de
controlar esas variables de confusión (o sea, en un diseño observacional), no tenemos elementos suficientes desde
el punto de vista estadístico para postular que estamos frente a una relación (lo puedo hacer solo en un diseño
experimental). Que no sea suficiente es una cosa, sí es importante que el análisis estadístico sea concordante con
la hipótesis causal.

Entonces, ¿sirven los diseños observacionales? Sí. Para empezar, porque la descripción causal no siempre e la
meta del estudio. Aunque no sepa cuál es la causa efectivamente, sí puedo saber que hay diferencias entre grupos
y trabajar partiendo de esas diferencias. Además, la causalidad puede establecerse mediante otros mecanismos.
Aunque desde el punto de vista del análisis estadístico no tengamos elementos para descartar variables de
confusión, podemos tener razones teóricas fuertes para hacerlo. El análisis observacional va generando evidencia
y guiando el trabajo futuro. Por ejemplo, los estudios observacionales señalaron la asociación entre fumar y el
cáncer mucho antes de que se conociera el mecanismo causal o se pudiera probar.

Inferencia a poblaciones: Tiene que ver con cómo son seleccionadas


las unidades que voy a observar. No es lo mismo que la causal,
porque en esa hablamos de cómo las voy a asignar a cada grupo (o
sea, tratamiento o control), pero no hablamos nada acerca de cómo
seleccionamos a esas personas en una primera instancia.
El tema de la inferencia a poblaciones tiene que ver con cómo son
seleccionadas las unidades que voy a observar. Si tenemos un
muestreo aleatorio, tenemos: una población bien definida (el
universo que me interesa estudiar), todas las unidades tienen una
probabilidad conocida de ser seleccionadas y utilizamos un
mecanismo aleatorio para seleccionar un subconjunto, una muestra.
En estas condiciones es posible hacer una inferencia estadística de
la muestra de la población, en cualquier otro caso no.
Cuando hablamos de inferencia estadística en este curso nos
estaremos refiriendo a la inferencia desde lo que observamos en una
muestra, a la población de la que esa muestra proviene, es decir a la
versión dos o tipo dos de inferencia tal como lo hemos presentado
aquí.
La muestra es un subconjunto de la población. Las medidas resumen de características de esa población se
denominan estadísticos, y son creados para inferir parámetros muestrales. Por ejemplo, podríamos trabajar con
todos los estudiantes de sociología de la facultad (población) de la que tomaré un conjunto (muestra), del que
podría obtener una media (estadístico) que trataré de usar para inferir lo que sucede en la población (parámetro).
Este procedimiento deja claras dos cosas: voy a cometer errores seguro, pero gracias a la estadística puedo saber
cuánto error voy a tener.
- ¿Estadística para qué? Para tomar decisiones en un contexto de incertidumbre, que viene definido por el hecho
de que las muestras sobre las que trabajamos tienen, por definición, información incompleta, porque son un
subconjunto de la población total y tienen alguna diferencia con esta, y también con otras muestras posibles. En
este sentido, la inferencia siempre implica un riesgo.
Las inferencias a la población siempre implican error. La medida de qué tan bien mide un estadístico muestral a
un parámetro poblacional, se llama error muestral. Cuanto mayor es el error muestral, menor es la precisión de
la muestra, es decir, con menos seguridad estoy estimando las características de la población cuando analizo la
muestra. Y eso se puede medir porque, así como hay estadísticos de variabilidad de la distribución de una variable,
hay estadísticos también de la distribución de la diferencia entre éstas dos medidas (estadístico y parámetro): el
error estándar.

Esto nos lleva a la idea de hipótesis nula: H0. Las hipótesis nulas son sentencias que enuncian igualdad, falta de
diferencia o falta de relación. Por ejemplo: “La edad al primer trabajo no es diferente entre varones y mujeres
jóvenes”, “No hay relación entre el sexo y la edad al primer trabajo”. Sirve para varias cosas. Para empezar, es
un punto de partida.
Cuando no hay ningún tipo de conocimiento previo, es razonable suponer ausencia de relación. Lo que hace es
obligarnos a, mientras no demostremos que hay diferencia, asumir que no la hay. Es un piso del que vamos a
partir, con el que vamos a contrastar lo que encontremos.
Cuando no tenemos ninguna información adicional sobre algo y no logramos “explicarnos” lo que vemos, el
camino más razonable es asumir que no hay diferencia y, si vemos que sí hay, lo más seguro es atribuir al azar el
resultado.

En cambio, la hipótesis del estudio (o alternativa) es un enunciado sobre una desigualdad. Puede ser de dos
formas: direccionales y no direccionales. Un ejemplo de no direccional sería: “La edad al primer trabajo es
distinta entre varones y mujeres jóvenes”, es distinta, no dice para qué lado, solo da la diferencia. La direccional,
en cambio, sería “La edad al primer trabajo es menor para los varones jóvenes”, no solo afirma una diferencia,
sino que tiene una dirección, “arriesga más”. Las dos hipótesis afirman una relación entre variables (sexo y edad
al primer trabajo), pero la direccional adelanta más información que la no direccional, porque esta última se
arriesga menos, abarca más posibilidades.
Otra manera de hablar de hipótesis direccionales y no direccionales es hacerlo en términos de prueba “a una cola”
o “a dos colas”. Las hipótesis direccionales implican una prueba a una cola, porque hay solo un lado de la
distribución que resulta ser favorable a la hipótesis alternativa, todo lo demás. A dos colas es cuando tenemos
una hipótesis no direccional, tanto los valores extremos positivos como negativos le dan lugar a la hipótesis de
relación.

Diferencias entre la H0 y la H1:


Acá hay una igualdad. Esta, como usa letras griegas, sabemos que es sobre la población.
Estas hipótesis están afirmando, respectivamente, una desigualdad y una relación de orden. Hay una
diferencia. Esta es sobre la muestra, usa el alfabeto latino. Las hipótesis alternativas dependen de los
datos muestrales.

Diferencia significativa o no significativa:


No está la opción de que no haya diferencia, porque siempre trabajamos con el error y, aunque no sea más que
por culpa de otra cosa (el azar), va a haber diferencia.
Diferentes muestras producen, en base a información incompleta (por definición son un subconjunto de la
población), estimaciones diferentes del parámetro de interés. Lo que vamos a hacer es separar las diferencias que
conviene atribuir al azar de aquellas que conviene atribuir a algo diferente.
Para trabajar con esto planteamos escenarios. Una hipótesis nula puede ser cierta o falsa: o bien hay diferencia
entre los grupos o bien no la hay… Pero nunca lo sabremos, porque la hipótesis nula es sobre la población. El
asunto de la decisión en un contexto de incertidumbre se traduce en una tabla de 2x2:

El error de tipo I o nivel de significación tiene un valor asociado que es el riesgo aceptado. Generalmente se
usan estos valores: 0,01 (estás aceptando un 1% de probabilidad de estar aceptando como verdadera una
diferencia que en realidad es falsa) o 0,05 (estás aceptando un 5% de error por estar aceptando como verdadera
una diferencia que realmente es falsa).
El error de tipo II está vinculado con el concepto de potencia, que es 1-b. Se refiere a cuánto error estamos
cometiendo por aceptar una hipótesis nula cuando en realidad deberíamos rechazarla.
En ninguno de los dos casos podemos tener certeza. Si estamos trabajando en 0.05 de significación, estamos
asumiendo una probabilidad de estar equivocados, y esa probabilidad esta siempre.

¿Cómo se prueba la significación? Las pruebas de significación se basan en el hecho de que, a cada tipo de
hipótesis nula, y según la información disponible, se asocia un tipo de estadístico. A su vez, cada estadístico tiene
asociada una distribución que puede contrastarse con los datos obtenidos en la muestra. La comparación de las
características de la muestra con las de la distribución de prueba permiten concluir si la diferencia está más allá
del azar.
α es el símbolo que se usa para el nivel de significación. Si tengo un nivel de
significación del 5%, digo que trabajo un α de 0,05. Acá dice dividido 2
porque es una prueba a dos colas, así que voy a buscar la región de rechazo
que acumula 2,5 de probabilidad a cada lado, para llegar a ese 5% de error
que quiero encontrar en total.

Pasos para probar la significación:


1. Enunciar la hipótesis nula: lo que sería cierto o razonable sin más información.
2. Elegir el grado de riesgo: error tipo I. Hay una situación asimétrica en cuanto al error de tipo I y el de tipo II,
porque el primero se puede controlar (decir “voy a aceptar hasta un 5% de error por rechazar la hipótesis nula
cuando debí haberla rechazado”).
3. Elegir el estadístico de prueba adecuado. Para eso me baso en cuál es la H0, cuál es la información que tengo
disponible y cuáles son las características de los grupos que quiero estudiar.
4. Calcular el valor del estadístico (lo hace un programa con base en lo que definimos antes): valor obtenido.
5. Determinación del valor crítico (valor de ese estadístico que está asociado al nivel de significación que me
propuse y que me va a permitir el rechazo de la H0).
6. Comparar el valor obtenido con el valor crítico.
7. Decidir: si el valor observado es más extremo que el valor crítico entonces explicar la diferencia por azar no
resulta buena idea y viceversa.

Si estamos interesados en analizar diferencias entre dos grupos, eso nos lleva a las pruebas t para muestras
independientes.
Entonces, si me interesa comparar dos grupos en cuanto a una variable métrica, debo realizar una prueba t. Pero
lo que tengo que determinar es si son grupos independientes o correlacionados. Los grupos dependientes o
correlacionados son aquellos en los que cada uno de los grupos está compuesto en todo o parte por los mismos
elementos. Un caso típico de esto es la comparación de puntaje pretest y postest, o el caso de los diseños de serie,
en los que se tienen las mismas unidades y se las va viendo en el tiempo. Están correlacionados en el sentido de
que la observación 2 sobre el mismo grupo está muy asociada a la observación 1 de ese grupo.
Los grupos independientes son cuando los grupos a comparar están compuestos por elementos que solo fueron
medidos una vez. Este es el escenario típico de un diseño experimental tratamiento-control, y también es el caso
típico de las comparaciones entre grupos preexistentes, como el ejemplo trabajado de la edad de inicio laboral
por sexo.

Prueba T: Creada por William Gosset bajo el seudónimo de Student.


La distribución muestral de t es una distribución de probabilidad de los valores t que se pueden presentar si se
consideran todas las posibles muestras de un tamaño fijo N, extraídas de la población de la hipótesis nula. Esta
distribución proporciona: todos los valores t para muestras tamaño N y la probabilidad de cada valor t (en caso
de que H0 sea verdadera). Es una distribución teórica que podemos usar para construir un escenario respecto del
cual evaluar los resultados que obtenemos en una muestra.

*Gosset encontró que esa distribución de t varía respecto a los grados de libertad.

Los grados de libertad son el número de datos que varía libremente al calcular un estadístico. Por ejemplo, para
calcular un promedio de edad de 3 personas necesitamos saber la edad de cada una de ellas, porque con solo las
dos primeras no podemos saber la tercera, por lo que esa última puede variar libremente. En el caso de la varianza,
del desvío estándar, es un poco distinto: los grados de libertad son iguales al número de casos (N) menos 1. Esto
es porque si quiero calcular el desvío estándar de edad entre tres estudiantes, conocer la distancia de las edades
de dos de ellos respecto a la media determina la distancia de la edad del tercer estudiante.

- Los grados de libertad se refieren al número de variables independientes que se pueden variar en un sistema o
experimento. Cuantos más grados de libertad tenga un sistema, mayor será su capacidad para cambiar y
adaptarse.
- En el contexto de la estadística, los grados de libertad se utilizan para determinar la distribución de una
estadística de prueba y calcular los intervalos de confianza. En general, los grados de libertad se obtienen
restando el número de restricciones o condiciones impuestas en un problema estadístico del número total de
variables.
- En algunas situaciones, los grados de libertad pueden perderse debido a restricciones o limitaciones en el
sistema. Por ejemplo, en un experimento con un diseño completamente aleatorizado, los grados de libertad se
pierden cuando se asignan tratamientos específicos a diferentes grupos o sujetos. También es posible perder
grados de libertad cuando se utilizan modelos de regresión para ajustar datos a una línea o curva específica.
- La pérdida de grados de libertad puede tener un impacto en el poder estadístico y en la precisión de las
inferencias realizadas a partir de los datos. Por lo tanto, es importante tener en cuenta los grados de libertad al
realizar análisis estadísticos.
- En un análisis de varianza (ANOVA), los grados de libertad perdidos dentro de los grupos se calculan restando
el número de grupos menos uno del número total de observaciones. Matemáticamente, los grados de libertad
dentro de los grupos (denominados df_within) se calculan de la siguiente manera:

- Por lo tanto, los grados de libertad perdidos dentro de los grupos en un ANOVA son igual al número de grupos
menos uno.

- La igualdad en la cantidad de grados de libertad de la suma de cuadrados total para dos modelos con diferente
número de variables independientes se debe al hecho de que los grados de libertad en el análisis de la varianza
(ANOVA) se distribuyen entre los diferentes componentes de la variabilidad de una manera que permite que la
suma de cuadrados total tenga la misma cantidad de grados de libertad, independientemente del número de
variables independientes en el modelo.
- La suma de cuadrados total (SCT) representa la variabilidad total en los datos y se calcula como la suma de las
diferencias al cuadrado entre cada observación y la media de todas las observaciones. En el contexto de
ANOVA, los grados de libertad asociados con la SCT representan el número de observaciones menos uno.
- Ahora bien, cuando se comparan dos modelos con diferente número de variables independientes, la distribución
de los grados de libertad entre los componentes de la variabilidad (como la suma de cuadrados del modelo, el
error residual, etc.) se ajusta de manera que la suma de cuadrados total sigue teniendo el mismo número de
grados de libertad. Esto se logra asignando los grados de libertad de manera que reflejen adecuadamente la
complejidad de cada modelo y permitan una comparación justa de su capacidad para explicar la variabilidad en
los datos.
- En resumen, la igualdad en la cantidad de grados de libertad de la suma de cuadrados total para modelos con
diferente número de variables independientes es el resultado de cómo se distribuyen los grados de libertad entre
los componentes de la variabilidad en el análisis de la varianza, de manera que se garantiza una comparación
equitativa de los modelos.

Problema // Hipótesis: La hipótesis es que el promedio de la edad al primer trabajo significativo será distinto en
función del sexo. Hay dos grupos generados por las categorías de una variable no métrica (el sexo): varón y
mujer. Hay una hipótesis sobre diferencias en el nivel de una variable métrica.
Estrategia: poner la variabilidad entre grupos en relación a la variabilidad dentro de los grupos, eso es la t
de Student. La variabilidad entre grupos la vamos a resumir a partir de las diferencias en los promedios de edad
de inicio entre varones y mujeres. Dentro de los grupos lo único que está actuando es la variable que genera los
grupos, no hay diferencias de sexo en grupos definidos por la variable sexo, por lo que la variabilidad que hay
allí me está hablando de otra cosa, que es el error, el azar, de que hay otras cosas que importan que no son la
variable con la que conformé los grupos.
El escenario sin ninguna información antecedente sería que mujeres y varones jóvenes empiezan a trabajar a la
misma edad. Dicho de otro modo: las diferencias en la edad promedio al primer trabajo se deben al azar. Es decir,
las diferencias son producto del error.

- Paso 1: enunciamos las hipótesis nula y alternativa


- Paso 2: decidimos cual es el grado de confianza con el que queremos trabajar.
Nivel de riesgo / nivel de significación/probabilidad del error de tipo I / α=0,05 (confianza del 95%).
- Paso 3: seleccionamos el estadístico de prueba adecuado. Quiero decidir si dos grupos independientes
(mujeres/varones) son distintos en relación a una medida continua (edad al primer trabajo). Una prueba t es lo
adecuado.
Estadístico de prueba:

La x con gorrito son los promedios de cada grupo. Las n son el número de casos en cada grupo. Las s ² son las
varianzas de cada grupo. El denominador es una forma de expresar la variabilidad de las diferencias atendiendo
a la dispersión dentro de cada grupo, ponderándola por sus grados de libertad.

- Paso 4: se aplica la fórmula a los datos muestrales disponibles.


- Paso 5: se determina el valor necesario para rechazar la hipótesis nula (usando la tabla de valores ‘t’).
- Paso 6: se compara el valor obtenido en el paso 4 con el valor de la tabla que buscamos en 5.
- Pasos 7 y 8: si el valor calculado de `t` es más extremo que el valor de la tabla, rechazamos H0

Supuestos de la prueba t:
La distribución de es normal
Existe homogeneidad de varianzas: ‘t’ prueba que la variable independiente afecta las medias de la VD, pero no
a su desviación estándar.
Si las varianzas son muy distintas (por ejemplo, la de G1 es 4 veces mayor que la de G2 mejor usar otra prueba,
o bien la fórmula t para grupos con varianzas desiguales).
Siempre es necesario explorar previamente los datos para ver si hay homogeneidad de varianzas (si no la hay, se
usa la t de Welch o la versión de la prueba t para varianzas desiguales) y si la forma de la distribución se aproxima
a la normal (si no lo hace, hay que considerar usar pruebas basadas en la mediana en lugar de la media, como la
prueba de suma de posiciones de Wilcoxon o la prueba de U de Mann-Whitney.

La prueba t de Welch es una prueba de ubicación de dos muestras que se usa para probar la hipótesis de que dos
poblaciones tienen los mismos medios.
Si el valor calculado de t es mayor que el valor crítico, se rechaza la hipótesis nula y se acepta la hipótesis
alternativa. Si el valor calculado de t es menor que el valor crítico, no se puede rechazar la hipótesis nula.
El valor p de Welch, ro valor p de la prueba t de Welch, la usamos para determinar la significancia estadística de
una diferencia entre dos grupos cuando se asume que las varianzas de los grupos son diferentes(heterogeneidad)
En general, si el valor p de Welch es menor que 0.05, se considera que hay evidencia suficiente para rechazar la
hipótesis nula y decir que la diferencia entre los grupos es estadísticamente significativa. Esto significa que es
poco probable que la diferencia observada se deba al azar y sugiere que existe una diferencia real entre
los grupos en estudio.
Pero es importante tener en cuenta que la interpretación del valor p debe considerarse en el contexto de la
investigación y las preguntas científicas específicas que se están abordando (el problema). Además, la decisión
de considerar una diferencia como estadísticamente significativa no debe basarse únicamente en el valor p, sino
que también debe tenerse en cuenta el tamaño del efecto, (eta2) el diseño del estudio y otras consideraciones
relevantes.

H0 total" podría interpretarse como la hipótesis nula general o global que se formula para abordar una pregunta
de investigación. Por ejemplo, si se está estudiando el efecto de un nuevo medicamento en la reducción de la
presión arterial, la H0 total podría ser que no hay diferencia significativa en la presión arterial entre los grupos
tratados con el medicamento y los grupos que reciben un placebo.
Por otro lado, "H0 parcial" podría referirse a hipótesis nulas adicionales que se formulan para abordar aspectos
específicos o subconjuntos de los datos o variables en un estudio. Por ejemplo, en el mismo estudio sobre el
efecto de un medicamento en la presión arterial, una H0 parcial podría ser que no existe una diferencia
significativa en la presión arterial entre hombres y mujeres en el grupo de tratamiento.
Es importante tener en cuenta que estas interpretaciones de "H0 total y parcial" se basan en la terminología
comúnmente utilizada y no representan definiciones estandarizadas en estadística. Si tienes más contexto o
información específica sobre cómo se utiliza esta terminología en un campo particular, puedo proporcionarte una
respuesta más precisa.

Repaso:
Hasta el momento vimos que hay ciertos supuestos de la prueba t que tienen que ver con que dentro de la
distribución de la variable métrica que estamos analizando sea o se aproxime a una distribución normal y ahí
tenemos que ver qué tan robusta es una prueba estadística. Eso quiere decir qué tanto sigue ayudándonos a tomar
decisiones acertadas en la medida que no se cumplen los supuestos matemáticos o estadísticos que requiere la
técnica. La prueba t es bastante robusta a la violación de alguno de sus supuestos, aunque no en la misma medida
en todos los casos.
Si las muestras son suficientemente grandes, la no normalidad no suele ser un problema importante.
El tema es decidir qué tan grande es suficiente y eso depende de qué tipo de apartamiento de la normal estemos
viendo. Si estamos frente al caso de dos muestras que tiene formas similares, desvíos estándar iguales y su n es
casi el mismo: ni la leptocurtidez ni el sesgo generarán mayores problemas.
Una distribución leptocúrtica es aquella que es más puntiaguda, hay una concentración de casos.
Cuando la distribución se achata, es platicúrtica, significa que hay más dispersión, menos concentración en el
medio. Cuando en nuestros dos grupos la variable métrica se distribuye con una forma similar, los desvíos son
similares, y el N de los grupos que estamos comparando es similar, ni la leptocurtidez ni el hecho de que tenga
colas largas ni el sesgo generan mayores problemas. Podemos tener una distribución positivamente sesgada o
negativamente sesgada, y eso tiene que ver con una concentración de casos grande en los valores bajos de la
variable y muy pocos casos en los valores altos, o viceversa.
Eso tampoco genera muchos problemas si tenemos dos muestras con formas similares, los sesgos van para el
mismo lado. Esa es una primera situación en la que vamos a andar bien. Si, a diferencia de ese caso, el número
de casos de cada grupo es distinto, sí vamos a tener problemas. Lo mismo pasa si tenemos una muestra sesgada
para un lado y otra, para el otro; ahí también vamos a tener malos resultados de la prueba T.
Esta tabla nos muestra qué pasa con los intervalos de confianza del 95% cuando tenemos diferentes distribuciones
en los dos grupos que estamos comparando:
Si nuestras muestras provienen de poblaciones que tienen distribuciones no normales, pero tienen el mismo
desvío y el mismo tamaño muestral vemos que la prueba es bastante robusta. El intervalo de confianza de un 95%
funciona bien cuando tenemos un sesgo muy fuerte hacia los valores bajos de la variable, también funciona bien
cuando el sesgo es moderado y la peor situación, si se quiere, es la que se da cuando tenemos distribuciones muy
leptocúrticas, con colas largas, con pocos casos hacia los valores extremos más pequeños o más grandes, es
cuando más falla la prueba T y se vuelve mucho más conservadora de lo que querríamos. En conclusión, la prueba
T es bastante robusta a apartamientos de la normalidad cuando se dan ciertas condiciones. Es un poco diferente
la situación cuando tenemos desvíos estándar diferentes. Sin embargo, si el número de casos en los grupos es
parecido, que los desvíos sean diferentes no es un problema grave. La peor situación es cuando tenemos n
diferentes y los desvíos son distintos en una razón de ¼, siendo el grupo con menor n el de mayor desvío.
Otro problema que inhibe el uso de la prueba T para muestras independientes es cuando tenemos muestras que
no son independientes. Si hay motivos fundados para sospechar que las muestras no son independientes, no
deberíamos usar este tipo de prueba. Los efectos sobre la prueba T son tanto peores cuanta más correlación hay
entre las observaciones. Hay motivos para sospechar que hay correlación cuando los casos proviene de
conglomerados o grupos, cuando los casos son observaciones repetidas en el tiempo y cuando las medidas tienen
asociación con el espacio.

Hasta ahora veníamos hablando de la robustez de la prueba, que se trata de si sigue funcionando aun cuando no
se estén satisfaciendo algunos de los requisitos matemáticos o estadísticos que están implicados en los supuestos
de esa prueba. En el caso de la prueba T, lo central es la normalidad en la distribución, la igualdad de desvíos y
la igualdad de tamaños de los grupos. Como vimos, es una prueba robusta sobre todo a no cumplimientos de la
normalidad, y bastante robusta cuando hay sesgos, siempre y cuando las diferencias en los desvíos en los dos
grupos no sean en una magnitud o un orden muy grandes (1 a 4, si el desvío de un grupo es cuatro veces la del
otro estamos en problemas).

La resistencia de una prueba estadística vamos a verla referida principalmente a los casos extremos.
Los casos extremos en la distribución son los valores llamativamente altos o bajos, que están demasiado lejos del
resto. La presencia de ese tipo de casos genera colas largas en la distribución, se vincula a la leptocurtidez de la
distribución. Conceptualmente la resistencia de una prueba tiene que ver con que su resultado no cambie
dramáticamente, frente a un cambio dramático de una parte de los datos. Un cambio dramático sería cuando tengo
una distribución con unos poquitos casos muy extremos y hago la prueba con y sin esos casos. Si el resultado de
la prueba cambia mucho, no es resistente; si cambia poco, sí lo es. La media no es resistente a casos extremos,
tiende a irse con ellos; una parte pequeña de los casos genera cambios grandes. La mediana es insensible a esos
cambios, por lo que es más resistente. La prueba T es una diferencia de medias, por lo que también es muy
sensible a la presencia de casos extremos.
Si lo que queremos evaluar si tenemos falta de independencia, deberíamos responder ciertas preguntas: ¿las
observaciones provienen de grupos (alumnos en clases, clases en escuelas…)? ¿Las diferentes medidas son
medidas distintas de los mismos sujetos? ¿Las medidas fueron tomadas en tiempos próximos pero distintos?
Para evaluar la robustez, es necesario empezar por realizar un análisis gráfico (histograma u otros, como box-
plot, stem and leaf…) para comparar la distribución de la variable métrica en los dos grupos.
También podemos hacer alguna transformación de la variable métrica que queremos estudiar, por ejemplo, aplicar
logaritmos.
Qué hacer cuando estamos en presencia de casos extremos: estrategia de
realizar más de un análisis, uno incluyendo y otro excluyendo a los casos
extremos. Si los resultados son iguales con y sin esos casos, no hay
problema, los incluyo en el análisis y listo. Si los resultados se modifican
con la inclusión de esos casos, se vuelve
necesario examinarlos intensamente. De ese análisis puede resultar que
descubramos errores, caso en el que deberíamos corregirlos y después
volver a hacer el análisis. Si resulta que no podemos atribuir esos casos
a errores, la pregunta es si no será que esos casos provienen de otra
población que no es la que estoy estudiando. En ese caso, lo eliminamos
y explicamos por qué lo hicimos. Si no es un caso que podamos eliminar
por no ser parte de nuestra población, podemos o bien movernos a un
análisis que sea resistente a casos extremos o bien reportar los dos
resultados, incluyendo o no los casos extremos.

Diferencia entre significación práctica y significación estadística:


Los valores p (p-value) nos hablan de la significación estadística, no de la práctica. Por ejemplo, una diferencia
de dos semanas en la edad al primer trabajo entre varones y mujeres puede ser estadísticamente significativa,
pero no necesariamente significativa en términos sustantivos.
Esto pasa porque la significación asociada al p valor está muy relacionada con el tamaño de la muestra.
Si hay una diferencia en la población, aunque esa diferencia no sea sustantivamente relevante, una muestra grande
la va a mostrar. Un número de casos elevado en la muestra con la que estamos trabajando va a hacer que sea muy
probable que cualquier diferencia sea estadísticamente significativa. Por el contrario, aunque haya una diferencia
muy significativa en la población, es probable que con una muestra muy pequeña no la captemos.
Hay que atender a tres cosas: 1. Los p valores dependen del tamaño de la muestra, no hay que endiosar a la
significación estadística. 2. Un p-valor de 0,08 puede tener más relevancia académica o científica que uno de
0,0001. 3. La prueba de hipótesis rara vez transmite lo que está en juego. Es conveniente reportar siempre el
intervalo de confianza del estimador para poder evaluar mejor la significación práctica.

ANOVA:
- Es un análisis de la varianza, nos permite analizar diferencias entre grupos en relación a una variable métrica
cuando esos grupos son 3 o más. Generalización de la prueba T para el caso de más de dos grupos. Por eso los
puntos a discutir son muy similares. Lo que cambia es el tipo y la cantidad de las preguntas que podemos
realizar, que son muchas más. La primera, y la más simple, es si las medias son iguales o distintas (pregunta
que nos lleva a realizar una prueba T de diferencia de medias).
- Queremos ver si las diferencias de medias que vemos al comparar los distintos grupos son realmente diferencias
que caracterizan a esos grupos, o son diferencias que se deben simplemente al azar o a error.
- Lo que queremos es analizar la relación entre dos aspectos o características que varían en una población para
detectar posibles patrones subyacentes basados en un marco conceptual y/o en la discusión antecedente sobre
el tema que quiero estudiar. También puede ser que queramos pasar a una inferencia causal, es decir, ver si un
aspecto o característica (una variable no métrica: región, barrio, tipo de escuela) incide o no en otra (métrica:
resultados en pruebas de aprendizaje, salarios, edades al primer trabajo…).
- Un aspecto sobre el que siempre debemos detenernos a reflexionar es el de la antecedencia temporal, porque
solemos trabajar sobre conjuntos de datos que corresponden a una única observación en el tiempo y por lo tanto
la antecedencia temporal es un supuesto que hacemos desde la teoría o las características de las variables. Es
algo lógico, y no tanto que estemos logrando incidir en la secuencia temporal en la que intervienen los distintos
factores.
- El supuesto que tenemos que garantizar es que ambas características varíen en la población, que sean
conmensurables (medibles) y que puedan expresarse como variables métrica y categórica respectivamente.
- Cómo analizarlo empíricamente: preciso disponer de una muestra de individuos con información sobre la
distribución de mi variable categórica (con la cual clasifico a la población en grupos o categorías) y la
distribución de mi variable a explicar (métrica).
- Mi interés estará en comparar el comportamiento de la variable dependiente en los distintos grupos o categorías
que definen la variable independiente en la muestra. El foco estará en comparar los valores promedio y la
dispersión (varianzas) en la variable de interés entre y dentro de os grupos.
- Para comparar dos o más grupos en relación a una variable continua debemos considerar la diferencia o
variabilidad entre los grupos (cuánto difiere un grupo de otro
u otros) y las diferencias entre los individuos de un mismo
grupo, es decir, una medida de la variabilidad al interior de
los grupos.
- Cuantos mayores sean las diferencias promedio entre los
grupos y menores las diferencias de los individuos al interior
de los grupos, más confiados estaremos de que los grupos no
son iguales entre sí. Eso es lo que busca analizar el ANOVA.
- La prueba ANOVA se basa en dos estimaciones de la varianza, en estimar la varianza por dos caminos distintos
para ponerlas en relación y sacar conclusiones. En la prueba T, utilizamos la media para evaluar H0. La prueba
F usa la varianza para saber si existen o no diferencias significativas entre los grupos que construye una variable
categórica.
- La distribución F se puede generar de manera empírica considerando todas las
muestras de tamaño n₁ y n₂ de la misma población, estimando la varianza σ² de la
población de cada muestra mediante s₁² y s₂²,
calculando Fobt para cada una de las combinaciones de s₁² y s₂² y
determinando p(Fobt) para cada valor de F.
- Al igual que t, la distribución f varía según los grados de libertad, pero la
diferencia está en que en el caso de F tenemos dos grados de libertad, porque
es una distribución de las razones de dos estimaciones de la varianza, por lo
que en cada una de esas estimaciones vamos a tener un número de grados de
libertad.

- El ANOVA prueba si podemos sostener o nos conviene descartar la hipótesis de igualdad de medias, que en el
caso de ANOVA sería que el promedio del grupo 1 es igual al del grupo 2, el 3 y los que haya. La hipótesis
alternativa es que esa igualdad de medias no se sostiene, lo cual quiere decir que al menos uno de los promedios
es distinto y, quizá, más de uno.
- Al igual que la prueba T, supone que solo la media es modificada por la variable independiente. Dicho de otro
modo, asume que la varianza no es modificada por la pertenencia a distintos grupos.
- Cada una de las sumas de cuadrados es una estimación independiente de
la varianza de la población bajo Ho.
- En lo fundamental, hacer un ANOVA es partir de la variabilidad total de
los datos (sima de
cuadrados total) en
dos partes: la variabilidad existente dentro de cada
grupo (SCW, widding) y la variabilidad existente entre
los grupos (SCB, por between).
Uno de esos dos caminos, la varianza dentro (de los
grupos), también se conoce como error cuadrado medio.
Esto es porque cuando comparamos la variabilidad o
la descomponemos en dos partes, podemos entender
que la variabilidad dentro de cada grupo, la que no
depende de mí variable independiente, es una especie
de error, es algo que no estoy captando con mi variable independiente, porque la varianza que se da dentro de
los grupos si hay algo a lo que no responde es justamente a la categoría que forma los grupos.
- La estimación de la varianza intra grupos es una forma de expresar la variabilidad de las diferencias atendiendo
a la dispersión dentro de cada grupo, ponderándola por sus grados de libertad. Es lo mismo que como
describimos al denominador de la prueba T.

ANOVA y el problema de las comparaciones múltiples:


Un ANOVA es una técnica que nos sirve para estudiar si las diferencias en los promedios condicionales a las
categorías de una variable no métrica, es decir, los promedios de grupos definidos por las categorías de una
variable no métrica, son significativamente distintos de los que obtendríamos si esos grupos se hubieran generado
al azar.

ANOVA parte de la suma de cuadrados total o la variabilidad total que hay en los datos y toma dos caminos:
- por un lado, la suma de cuadrados entre grupos (SC B), que sirve para estimar la varianza entre grupos (SB²).
- por otro, la suma de cuadrados dentro de los grupos (SCw) que estima la varianza dentro (SW²).

La suma de cuadrados es una medida estadística que se utiliza para calcular la variabilidad o dispersión de un
conjunto de datos. Consiste en tomar cada valor de los datos, restarle la media del conjunto y elevar al cuadrado
ese resultado. Luego, se suman todos los resultados obtenidos. La suma de cuadrados nos indica cuánto varían
los datos con respecto a su media.
Por otro lado, la media cuadrática (también conocida como raíz cuadrada de la media de los cuadrados o RMS
por sus siglas en inglés) es una medida que se utiliza para calcular el valor promedio de una serie de valores
cuadráticos. Se obtiene sumando los valores al cuadrado, dividiendo la suma entre la cantidad de valores y luego
tomando la raíz cuadrada de ese resultado. La media cuadrática se utiliza comúnmente en el cálculo de
magnitudes que involucran valores al cuadrado, como la intensidad de una señal o la desviación estándar.
En resumen, la suma de cuadrados nos indica cuánto varían los datos con respecto a su media, mientras que la
media cuadrática nos proporciona una medida promedio de los valores cuadráticos de una serie de datos.
La varianza muestral es una medida estadística que se utiliza para cuantificar la dispersión de un conjunto de
datos con respecto a su media. Se calcula tomando la diferencia entre cada valor de los datos y la media, elevando
al cuadrado esos resultados, sumándolos y dividiendo el total por el número de datos menos uno. La varianza
muestral se denota comúnmente como s^2, donde s representa la desviación estándar muestral.

La prueba de ANOVA va a realizarse en base a una razón entre esas dos maneras de aproximar la varianza
poblacional. Pone en relación esas dos formas independientes de captar la variabilidad. Como en una está el
efecto de la variable independiente y en la otra no, nos sirve para ver si el efecto de esta es significativo.

El porcentaje de varianza explicada es una medida utilizada en análisis de varianza y en técnicas como el análisis
de componentes principales (PCA, por sus siglas en inglés). Se refiere a la proporción de la varianza total de un
conjunto de datos que puede ser explicada o representada por un conjunto específico de variables o componentes.
Por lo general, se expresa como un valor entre 0% y 100%.
En el contexto del análisis de componentes principales, por ejemplo, el porcentaje de varianza explicada indica
cuánta información se conserva al reducir la dimensionalidad de un conjunto de variables a un conjunto más
pequeño de componentes principales. Un porcentaje de varianza explicada alto indica que los componentes
principales seleccionados capturan una gran parte de la variabilidad total de los datos, mientras que un porcentaje
bajo indica que estos componentes no explican bien la variabilidad y que se requieren más componentes para
representar los datos de manera adecuada.

Estimación de la varianza intra grupos… Ejemplo: tratar de entender las diferencias que hay en la edad del primer
trabajo significativo de los jóvenes uruguayos. Lo primero que hacemos es una prueba T para estudiar si había
diferencias por sexo. Supongamos que ahora queremos entender cuál es la diferencia entre los jóvenes de
Montevideo, el interior urbano (localidades de más de 5000 habitantes) y el interior rural. Ahí tenemos una
variable, región, en tres categorías que genera más de dos grupos. Para hacer ANOVA vamos a estimar la
variabilidad dentro, que es la variabilidad que hay en las edades del primer trabajo de los jóvenes de Montevideo,
a lo que le vamos a sumar la del interior urbano y la del interior rural. Vamos a tener la variabilidad, el promedio,
de cada uno de los grupos en su interna. Es la variabilidad que no tiene que ver con la variable que genera los
grupos.

En cada grupo pierdo un grado de libertad, por lo que tengo como grados de libertad de la varianza dentro el
número de casos menos el número de grupos.

La varianza entre grupos: Es una forma de estimar la varianza total a partir de la varianza entre una muestra de
medias. La muestra de media es el conjunto de grupos que define nuestra variable no métrica, la independiente.
En el ejemplo, sería la variable región, que divide a los jóvenes uruguayos en tres grupos, por lo que tendríamos
tres muestras de jóvenes y podríamos calcular tres medias. A partir de esa media de muestras, se hace una
estimación de la varianza de la población, de la varianza total. Esa estimación deriva de

En nuestro estudio tendremos varias medias muestrales, tantas como grupos (en el ejemplo, tres). Esa distribución
de medias la vamos a usar para estimar la muestra. Vamos a dividir esa suma de cuadrados por k-1 grado de
libertad.
XG es la gran media, la media general de todos los promedios combinados. Respecto de esa media
podemos analizar qué distancia tiene el promedio para los jóvenes de Montevideo, por ejemplo.

- Cuando la variable independiente tiene un efecto importante, las diferencias de las medias muestrales aumentan
y aumenta SCB. Si aumenta SCB (el numerador) aumentará SB².
- Si la variable que genera los grupos, la variable independiente, tiene un efecto, genera diferencias en el resultado
que observamos en la variable métrica, la varianza entre va a aumentar. Lo que no va a aumentar es la varianza
entre, por lo que la razón va a tender a alejarse cada vez más de los valores medianos de esa
distribución, que siempre están en el entorno de 1, y por lo tanto van a ser valores más improbables bajo la H0,
por lo que vamos a tener más evidencia de que hay una diferencia significativa entre esos grupos.
Conceptualmente podemos pensar que la varianza entre es una forma de calcular la variabilidad poblacional
que capta los efectos de la variable independiente, mientras que la varianza dentro justamente excluye esa
información. En la medida en que esa variable independiente vaya generando una diferencia más importante,
la probabilidad de que obtengamos un valor de F significativo va a ser mayor.
- Si la variable independiente (la categórica, la que genera los grupos) no tiene ningún efecto, la suma de
cuadrados entre y la suma de cuadrados dentro van a ser simplemente estimaciones independientes de la misma
varianza poblacional. Si la variable que genera los grupos no tiene ningún efecto significativo, en esos casos
las varianzas no van a ser muy distintas, por lo que van a caer en una zona en la que la probabilidad de observar
esas diferencias bajo la hipótesis de que en realidad son iguales es bastante alta, no vamos a poder rechazar la
H0.
- En la distribución F, a diferencia de la distribución T, tenemos 2 grados de libertad: unos GL asociados a la
varianza entre, al numerador, y unos GL que están asociados a la varianza dentro, al denominador.
- Relación entre T y F: En el caso de un diseño con dos grupos de comparación se observa que F=t ².
Adicionalmente, una vez fijado el nivel de significación α, la conclusión de aceptar o rechazar la H0 será
concordante ya sea con una prueba t o un ANOVA.
- Supuestos de ANOVA: Las poblaciones de las que se extraen las muestras siguen una distribución normal. Las
muestras se extraen de poblaciones que tienen la misma varianza (homocedasticidad).
- Ejemplo en Excel: Tenemos el promedio de edad del primer trabajo en cada una de las tres regiones. A gran
media es el promedio de todos los jóvenes, sin separarlos por región.
- Ejemplo en SPSS: Analizar/Comparar medias/ANOVA de un único factor. Ahí ponemos la variable región y
ponerla como factor (la que define los grupos). La variable edad al primer trabajo la pongo arriba. En opciones
le pido que me dé los descriptivos y un gráfico de medias.

Potencia y ANOVA:
Cuando dimos la tablita de los tipos de error vimos que la potencia era el complemento del error de tipo 2, la cual
no puede controlarse directamente, como sí podemos controlar el error de tipo 1.
¿Qué factores afectan la potencia de un ANOVA? El error de tipo 2 era no poder deshacerme de la hipótesis nula
cuando debí haberlo hecho. Como vimos recién, que yo no pueda deshacerme de la H0 no significa que esa H0
esté bien, que esté comprobada. Las cosas que afectan mi capacidad para deshacerme de esa hipótesis son el
número de casos, el efecto de la variable independiente y la variabilidad de la muestra.
Supongamos que tenemos un ANOVA para tres grupos y la siguiente ecuación de cálculo:

El número de casos está en el denominador; si es más grande, la suma de cuadrados dentro va a tender a ser más
chica, por lo que tengo más chances de que lo del numerador genere diferencias mayores.
Con la misma diferencia entre, según cuál sea el tamaño de mi muestra, puedo terminar con un resultado que sea
o no significativo.
El efecto real de la variable independiente, o sea, la diferencia entre grupos también influye: si la diferencia es
más grande, entonces tengo más chances de que el numerador sea más grande y, por lo tanto, voy a tener un valor
de F significativo.
Por último, la potencia varía en proporción inversa a la variabilidad de la muestra. Si la variabilidad dentro es
más chica, voy a tener más chances de tener valores F significativos. Si la variabilidad dentro es mayor, voy a
estar en una situación más desventajosa para poder deshacerme de la hipótesis nula.
Una vez que logramos rechazar la hipótesis nula, varias preguntas quedan distintas. En general, en nuestras
investigaciones no nos alcanza con que un ANOVA solo nos diga si hay o no diferencia, que hay o no efecto de
la variable independiente, lo que queremos saber es qué tanto efecto. Necesitamos empezar a ver cuál es la
magnitud de ese efecto, si es prácticamente significativo, además de serlo en lo estadístico. Otra cosa que
queremos saber es cuál grupo es distinto de cuál. Sé, en principio, que hay diferencia, pero no sé si es un grupo
diferente, dos, si son todos… Para eso necesitaremos pruebas post hoc, que se hacen después de ANOVA y sirven
para estudiar en más profundidad qué grupos son diferentes de cuáles.

Así pues, después de que logramos rechazar la hipótesis nula, quedan cosas por responder. Sabemos que hay
efecto, pero necesitamos estimar su magnitud y también ver cuál grupo es distinto a cuál.
Vamos a entrar en el primero de estos asuntos, el del tamaño o magnitud o del efecto.

Ya hablamos sobre la significación estadística (el p-value, alfa, confianza, error de tipo I), y también comentamos
algo sobre la significación práctica o sustantiva, que tiene que ver con que una vez que tenemos una prueba de
hipótesis y podemos descartar la hipótesis nula, tenemos que avanzar en una interpretación sustantiva. O sea,
hasta ahí sabemos que el azar no explica los esas diferencias, pero eso no quiere decir que tengamos una
interpretación sustantiva relevante de esa diferencia. Es un problema más que estadístico, es un problema de
interpretación y diálogo entre los antecedentes, lo conceptual, y los resultados. Al hacer la prueba ANOVA
sabemos que en función de nuestros datos tenemos evidencia suficiente como para descartar por improbable
nuestra hipótesis de que nuestras medias son iguales siempre hasta ahí tenemos que la diferencia no es a causa
del azar, pero eso necesitamos interpretarlo, lo que necesito saber es si es relevante o no en términos prácticos.

La lógica es esta: En general, cuando hacemos un análisis estadístico hacemos un test o prueba de hipótesis.
Cuando hacemos una prueba de hipótesis estamos buscando una diferencia (buscamos descartar una hipótesis de
igualdad o ausencia de diferencia, H0). El asunto es el significado de esa diferencia, más allá de su significación
(que solo sirve para descartar esa H0, mientras que el significado refiere a la relevancia sociológica).
El asunto central en el cálculo de la magnitud del efecto es que no se toma en cuenta el tamaño de la muestra. El
mismo resultado con una muestra de un tamaño u otro pasa de no ser significativo a serlo, y esto tiene
consecuencias muy importantes en términos de la interpretación. El tamaño de la muestra sí incide en el resultado
de la prueba de significación y en la posibilidad de descartar la H0.

Ya conocemos algunos indicadores del tamaño o magnitud del efecto. Por ejemplo, vimos en estadística los odd
ratio o riesgo relativo, luego los vimos de nuevo en metodología, junto con el r² o el coeficiente de determinación.
Estos estadísticos tienen en común que nos transmiten una idea del grado de asociación, o del tamaño de la
diferencia, según el tipo de medida. Por ejemplo, si el r ² es muy elevado (próximo a 1) la varianza compartida es
casi toda, o sea que estoy captando más de la variabilidad de la variable dependiente en función de las regresoras
con las que estoy trabajando. Si el odd ratio es un número muy grande estar en una categoría o en otra se asocia
una probabilidad muy distinta de experimentar cierto evento.
En el caso de ANOVA el indicador de magnitud de efecto se llama eta cuadrado. Es una medida resumen del
efecto de la variable no métrica o del grado de asociación que complementa el dato de que la diferencia de medias
es significativa (poco probable que se deba al azar. Para interpretar kis resultados del eta:

(…) Volviendo a la relación entre la prueba t y ANOVA… La lógica de análisis es muy parecida, pero ANOVA
tiene algunas ventajas. Una de ellas es que, si queremos comparar más de dos grupos, con t deberíamos hacer
varias pruebas, pero con ANOVA hacemos una sola- La consecuencia práctica de esto min 34.

El problema de las comparaciones múltiples se vincula con el Error de Tipo I. Podemos pensar que hay como
tres tipos de alfa:
- El alfa por experimento. Este es el nivel de riesgo que explícitamente acepto tomar en cada una de las
comparaciones. La idea es que si tengo más ensayos asumo más riesgo de errar.
- El alfa por familia
- El alfa por comparación.
*Son formas de nombrar la probabilidad de que cometamos algún error de tipo I durante todo el experimento

 ¿Cuál es la probabilidad de no cometer un error de tipo 1?


- Si α = 0,05 → 1 – α = 0,95
Y si esa es la probabilidad de no equivocarnos en 1 prueba. La de no hacerlo en 10 pruebas es igual “’por 10
veces” → 0,95¹⁰ = 0,60 → 0,95x10 = 0,60
Y si esa es la probabilidad de no equivocarnos en 10 pruebas, la de cometer un error de tipo 1 es su
complemento→ αfw = 1 - 0,95¹⁰ = 0,40
- Al calcular de este modo asumimos que las pruebas son independientes, y eso no es exactamente así. De
cualquier forma, la idea es lograr una aproximación al error que estaríamos cometiendo para advertirnos algo
muy concreto
- Si tengo muchísimas comparaciones, tengo muchísimas probabilidades de encontrarme con alguna diferencia
que se deba al azar. No se está trabajando al final con un 5%, sino con algo más cercano a un 40% de alfa.
- Dado que αew = 1 – (αpc)ʲ, necesitamos corregir α cuando hay comparaciones múltiples
- Lo que necesitamos entonces es corregir alfa. Para eso son las pruebas post hoc.
- Si son tres grupos, tengo 3 comparaciones; mientras que si tengo 4 grupos son 6 comparaciones… La fórmula
para calcular este número de comparaciones es (grupos*(grupos-1))/2. En el ejemplo de cuatro grupos sería:
NºComp=(4*(4-1))/2=6
- Otro asunto que es importante, más desde el punto de vista sustantivo pero que también influye
estadísticamente, es la diferencia entre las comparaciones a priori o planeadas y las comparaciones a posteriori
o post hoc. Las planeadas se planean antes de realizar el experimento, mientras que las post hoc surgen una vez
ya obtenidos los datos.

Una vez que logramos rechazar la H0, varias preguntar quedan pendientes:
- Hay efecto → rechazo de H0. Pero ¿cuál grupo es distinto de cuál?
- Con un valor “F” significativo sabemos que al menos uno es distinto, pero no sabemos cuál o cuáles. Hay dos
o tres caminos para seguir aquí
- Planeadas:
En el caso de comparaciones planeadas, la idea es que el experimento (y la recogida de información) esté
estructurada para cierta comparación. Un supuesto de las comparaciones “planeadas” es que no son muchas.
Básicamente es un procedimiento que “premia” aumentando la potencia
Veremos dos procedimientos

Tenemos el error de tipo I, que es min 50


La potencia es la capacidad de la prueba de rechazar la H0. Si tenemos pocos casos, tenemos poca potencia, por
lo que construimos un escenario en el que es muy poco probable descartar H0. El tamaño del efecto aumenta la
potencia.
Entonces, cuando tenemos pocas comparaciones suele significar que tenemos un mejor diseño. Una parte muy
importante se juega en el diseño, en tenerlo claro, y eso es posible si tengo claros los antecedentes, las preguntas,
las hipótesis. Si tengo eso claro, no voy a salir a pescar diferencias (que es un modo de proceder no científico),
sino que voy a tener claro qué es lo que busco.
Cuando tenemos comparaciones planeadas.
Pruebas t protegidas (se le llama así porque la idea es que sólo hacemos una prueba “t” si y sólo si la prueba F de
ANOVA fue significativa. La prueba de hipótesis ómnibus de ANOVA es la que protege a las pruebas “t” que
siguen): necesitamos tres fórmulas para esto:
*El F de Fisher me dice si las varianzas son homogéneas o no
LSD:
El problema con la prueba de Fisher es que no siempre queremos descartar sólo la H0 completa, sino también H0
parciales
Por eso Tukey propuso la HSD:
- Significa: Honest significant difference
- La idea es que como tenemos 3 o más medias, vamos a tener más diferencia entre las medias. Como tengo tres
medias, la diferencia entre la más pequeña y la más grande va a ser mayor que la que varía entre dos medias
- Para solucionar esta tendencia a diferencias mayores, Tukey ideó una distribución distinta a la “t”. es una
distribución más “segura”
- Post hoc: En el caso de Tukey, el asunto es que se corrige “la distribución”. Es
decir, la prueba deja de ser contra la distribución “t” y se hace contra la “q”
- Esto tiene una consecuencia buena y una mala: la buena/mala es que HSD siempre
mantiene el alfa debajo de 0,05. Esto quiere decir que es una prueba relativamente conservadora y con menos
potencia. La mala noticia es que es una prueba más conservadora, por lo que tiene menos potencia, o sea, a
rechazar la H0, por lo que nos arriesga más a cometer error de tipo II, es decir, a no aceptar la hipótesis de
igualdad cuando deberíamos hacerlo.

Comparación
Fisher´s LSD Tukey´s HSD
No es recomendable usarlo para más de tres grupos Siempre amntiene el αfw en un nivel bajo
Es común encontrar diferencias significativas aun con No es nada común encontrar pares de diferencias
ANOVA no significativo: debe hacerse ANOVA antes significativas si ANOVA no lo fue
El αfw se mantendrá en los niveles elegidos si: la Asume que todas las comparaciones de a pares serán
hipótesis nula completa sea cierta y no haya más de tres realizadas
grupos
El ANOVA tiene que haber sido significativo
Supuestos adicionales
El caso de LSD es un caso de comparaciones El caso de HSD es un caso de comparaciones
secuenciales: primero hago ANOVA y luego las “t” simultáneas: no necesito primero un ANOVA

Bonferroni:
- El problema es que los libros impresos son caros → los escribo a mano
- El problema es que hay muchas comparaciones y alfa de la familia se infla → ajustamos el alfa de cada
comparación para que αpc quede bajo 0,05
- Si quiero un αfw que sea menor a 0,05 y tengo 3 grupos → necesito que:

- La lógica sería esta: no tenemos muy claro el asunto, así que vamos a salir a buscar todas las diferencias que
haya, pero hay algo que se llama azar y que puede generarme diferencias, por lo que vamos a ser muy rigurosos
con el azar para tener cierta coherencia. Por eso cada prueba es muy exigente.
- El método de Bonferroni es una técnica utilizada para controlar el error tipo I en pruebas de hipótesis múltiples.
Se basa en ajustar el nivel de significancia individual de cada prueba para mantener el nivel general de
significancia.
- Cuando se realiza un gran número de pruebas simultáneas, existe una mayor probabilidad de obtener falsos
positivos (rechazar incorrectamente la hipótesis nula cuando es verdadera). El método de Bonferroni aborda
este problema dividiendo el nivel de significancia general (por ejemplo, 0.05) entre el número de pruebas
realizadas.
- Para interpretar los resultados obtenidos con el método de Bonferroni, se compara el valor p de cada prueba
individual con el nivel de significancia ajustado. Si el valor p es menor o igual que el nivel de significancia
ajustado, se rechaza la hipótesis nula para esa prueba en particular.
- Por ejemplo, si se están realizando 10 pruebas simultáneas y se utiliza un nivel de significancia general de 0.05,
el nivel de significancia ajustado por el método de Bonferroni sería 0.05 dividido por 10 (0.005). Si un valor p
obtenido en una prueba es menor o igual a 0.005, se rechazaría la hipótesis nula para esa prueba.
- En resumen, la interpretación del método de Bonferroni implica comparar los valores p individuales con el nivel
de significancia ajustado para determinar si existe evidencia suficiente para rechazar la hipótesis nula en cada
prueba en particular.
- Si el valor p de la prueba de Levene es superior a 0.05, las varianzas no son significativamente diferentes entre
sí (es decir, se cumple el supuesto de homogeneidad de la varianza). Si el valor p de la prueba de Levene es
inferior a 0.05, entonces existe una diferencia significativa entre las varianzas.
- Cuando el valor p es menor que o igual al nivel de significancia, se rechaza la hipótesis nula y se concluye que
no todas las medias de población son iguales.

Recapitulando:
Qué usamos depende de qué queremos hacer:
- Si tenemos claro cuál es la comparación crucial antes de mirar los datos podemos usar LSD (o contrastes
planeados con “t” protegida)
- Si ANOVA fue significativo y tenés 3 grupos, podes seguir con LSD
- Si tenés más de 3 grupos, mejor usa HSD (el LSD aumenta mucho el Error Tipo I)
- Si estás muy preocupado por mantener tu alfa bajo muchos grupos y distintos n: usa Bonferroni. Recordá que
esto hace mucho más probable cometer error de tipo II

Falacias asociadas al razonamiento estadístico y formas de evitarlas:


Nombre Falacia Forma de evitarla
Falsa causalidad Interpretar la significación estadística en Interpretar en términos de asociación
un estudio observacional como
evidencia de causalidad
Aceptar lo nulo Creer que la falta de evidencia sobre la El estudio muestra que no hay evidencia de que exista
inadecuación de la hipótesis nula es diferencia. Y es buena idea reportar y leer el IC
evidencia de que la H0 es verdadera mostrando todos los valores que hay, además del “0”
Confundir significación Confundir el hecho de que hay mucha Evitar hablar de algo “significativo” sin agregar
estadística con evidencia de que existe un efecto con el estadísticamente antes. Reportar e interpretar los IC
hecho de que hay mucho efecto para transmitir una idea de tamaño de efecto
significación práctica
“Salir a pescar”, exprimir o Concluir en base a p-valores no Utilizar las correcciones para múltiples
torturar los datos corregidos obtenidos luego de realizar comparaciones (o los métodos de selección de
múltiples comparaciones sin un plan de variables que veremos más adelante)
análisis claro previo
Resultados estadísticos Concluir en base a resultados de análisis Evaluar críticamente las muestras, en especial las no
notables a p partir de datos realizados sobre datos sesgados o aleatorias
contaminados
terribles

“t” y ANOVA:
- La lógica de análisis es muy parecída, pero ANOVA tiene algunas ventajas, por ahora enfatizaremos 1.
- Si queremos comparar más de 2 grupos: con ´t´ deberíamos hacer varias pruebas, mientras que con ANOVA
hacemos una única prueba incluyendo todos los grupos
- El problema es que la prueba ómnibus (F) nos deja a pie. Entonces necesitamos pruebas posthoc:
Algunas nociones básicas: (y repaso, clase práctica)
 Nociones básicas de estadística descriptiva: lo principal es recordar que la varianza es el análisis de la
heterogeneidad o la dispersión en la variable que estoy estudiando.
 Nociones básicas de estadística inferencial: Universo son todos nuestros casos y la muestra es una porción que
elegimos de ese universo, que es representativa de este y me permite inferir. En la estadística inferencial
tenemos un error estadístico, que implica que cuando paso de la muestra al universo el resultado o estimación
puntual (estimación que hago de una variable partiendo de una muestra) tiene un margen de error, al que
llamamos error estadístico. A las estimaciones puntuales generalmente se les estima un intervalo de confianza,
o sea, entre cuánto y cuánto espero que pueda variar ese valor. Este intervalo no tiene por qué ser simétrico.
Otro tema importante en este punto de la estadística inferencial es la significación o significatividad estadística.
Quiere decir el margen de error que estoy dispuesto a tolerar con mis inferencias (la significatividad estadística
que tiene mi prueba puede diferir en su magnitud, en el porcentaje). Todo esto se vincula con la idea de prueba
de hipótesis. Por ejemplo, pensemos en diferencias de promedios de los ingresos en hombres y mujeres;
supongamos que de las 36 personas de la clase se toma una muestra aleatoria y la divido por sexo, para ver si
hay diferencias de ingresos entre hombres y mujeres; lo que debería hacer primero es calcular el promedio de
ingreso de las mujeres y después el de los hombres, para ver si la diferencia de medias es significativa o no.
Para saber eso planteo una prueba de hipótesis. La hipótesis nula es la negación de la relación. Si tengo una
diferencia entre las medias, por ejemplo, tengo que ver si esa diferencia se debe al azar, a que justo pasa eso en
la muestra que elegí o se debe a diferencias estadísticamente significativas. Para eso, dependiendo de lo que yo
quiera comparar (relaciones entre dos grupos, más de dos grupos, relaciones entre variables…) van a ser las
pruebas que voy a hacer, pero la forma de proceder va a ser siempre la misma: voy a establecer una hipótesis
nula (en el ejemplo sería que no hay diferencia en los ingresos de hombres y mujeres) y una hipótesis alternativa,
en la cual sí hay una diferencia significativa; después voy a hacer una prueba, en la que voy a asumir un umbral
de rechazo (por lo general, del 95%) y para cada estadístico vamos a tener un valor crítico, que si es superado
rechazo la hipótesis nula y por lo tanto hay una diferencia significativa.
 Nociones de metodología, vinculadas a las etapas de la investigación, a la operacionalización, al establecer
hipótesis conceptuales y operativas… Un punto muy importante es la toma de decisiones. El decidir qué usar
para cada cosa. Esto resume prácticamente todo el curso:
 Cuando hablamos de diferencias entre grupos vamos a tener una variable de corte no métrica, y podemos pensar
en ejemplos como grupos de edades (niños, adolescentes y adultos), territorios, sexo, niveles educativos, afros
y no afros. Me interesa ver diferencias de una variable en determinados grupos o categorías de esa variable.

 Este curso presenta herramientas de análisis estadístico bivariado y multivariado. Buena parte de la decisión
acerca de qué procedimientos vamos a ir haciendo se toma en función de si queremos ver relaciones entre
variables o grupos. En este último caso, lo que vemos es la diferencia en algún estadístico resumen (hoy, con
la media). Vamos a empezar con diferencias entre dos grupos, por lo que lo primero es la prueba t.
 Para la guía 1 los conceptos importantes son prueba de hipótesis, media y diferencia de medias. Por más que
los estadísticos difieren en su forma de cálculo y su aplicación depende del problema que queremos abordar,
hay una parte operativa general que es común a todos: se plantea una prueba de hipótesis, que tiene una hipótesis
nula que niega la diferencia o la asociación (dependiendo de lo que esté tratando de probar) y una hipótesis
alternativa, y se establece un valor crítico en función del cual por encima de ese valor voy a rechazar la H0 y,
por debajo, voy a aceptar la H0.

 No puedo inferir a toda la población porque estoy trabajando con una muestra y puede ser que las diferencias
se deban a eso. Para determinar si las diferencias de promedio entre dos poblaciones son estadísticamente
significativas se usa la distribución t. Eso implica dos pasos previos:
Tengo que definir primero cuánto error estoy dispuesto a aceptar, que se usa habitualmente el de α=0,05. Luego
tengo que dar cuenta de los grados de libertad con los que cuenta mi distribución, que son de cuántos casos de
mi distribución tengo que tener info antes de inferir los resultados del resto de la distribución. Si voy a hacer
un promedio de la edad de 3 personas, necesito saber todos los resultados menos el último, por lo que mis
grados de libertad son 2. En el caso específico de la prueba t lo calculamos N-2.

 Venimos de trabajar con la prueba T y comparación de medias entre dos muestras independientes, que estaban
dadas, por lo tanto, por una variable dicotómica, con dos categorías. La prueba que queríamos realizar nos
permitía inferir estadísticamente, con cierto grado de error como siempre, si los promedios que existen en dos
poblaciones son diferentes o no. Estamos comparando las varianzas que existen al interior de un grupo (por
ejemplo, la varianza en los hombres y la varianza en las mujeres) con la varianza entre grupos (entre hombres
y mujeres).
 En la prueba ANOVA, que es un análisis de varianzas, es una extensión, una generalización, de la prueba T,
que tiene como rasgo particular que permite trabajar con 3 grupos o más.

 El F es un estadístico que permite ver esa diferencia entre las varianzas de los grupos y al interior de los grupos.
Mientras más grande es la diferencia entre los grupos y menor la varianza intra grupos, más podemos confiar
en que los grupos no son iguales (en el ejemplo, que los promedios de ingresos entre los grupos no son iguales).
 Dos cosas pendientes de la clase pasada:
- Grados de libertad: en términos generales, son el número de valores que podemos elegir libremente teniendo
un total fijo. Tenemos un resultado fijo, tenemos que ver cuántos valores podemos dejar libres. Imaginemos
que tengo una suma que me da como resultado 10 y que mi n=3. El primer número lo puedo elegir libremente,
el segundo también. El tercer número no es libre, porque mis grados de libertad en este caso son mi n-1. En
el caso de la prueba T tenemos dos muestras independientes, por lo que los grados de libertad van a ser n-1
pero en cada muestra: (n de hombres -1) + (n de mujeres -1). Por eso decíamos que el grado de libertad es n-
2.
- la prueba de hipótesis la vamos a hacer en función de p, la significación. Comparamos el alfa en función del
valor p. Si el alfa es igual o mayor a p, rechazamos la hipótesis nula. Si es menor, no la podemos rechazar. En
términos teóricos, más sociológicos por decirlo de alguna manera, puede pasar que el p da muy bajo, por más
que tengo un desarrollo por detrás que muestra que sí existe una diferencia significativa. No sería adecuado
en términos conceptuales, analíticos, desechar ese tipo de desarrollos teóricos porque mi p cayó una décima
más allá de la zona de rechazo. Esto porque el valor p también está determinado por la cantidad de casos que
tenga mi muestra, por lo que si trabajamos con muestras muy chicas es común que las diferencias sean poco
significativas y viceversa.

 Si solo trabajáramos con esa variable y quisiéramos hacer una prueba de hipótesis que nos permita establecer
si las diferencias en los promedios de ingresos entre públicos y privados son significativas deberíamos hacer
una prueba t, ya que son solo dos grupos. Deberíamos establecer primero si las varianzas son homogéneas o no.
Si quisiéramos trabajar solo con el efecto principal del nivel (primaria, secundaria, terciaria) deberíamos trabajar
con una prueba ANOVA, porque tenemos tres categorías. Lo que queremos ahora es, además, trabajar con las
interacciones, ver qué resultados obtenemos al combinar las categorías de dos variables independientes.
¿Siempre que aumenta el nivel en el que el docente da clase aumenta el ingreso, o eso está condicionado por el
sector en el que se desempeña? Lo mismo al revés: ¿siempre los privados ganan más que los públicos, o eso
está condicionado por el nivel en que dan clase? Queremos ver si interactúan esas relaciones o si son
independientes. Esta es la tercera pregunta, y la resumimos diciendo que queremos ver si hay interacciones
significativas en las variables.
 Lo que implica la interacción es que las relaciones que vos estás viendo, los efectos principales (o sea, los
efectos de una y otra variables independientes), no se mantienen constantes en todas las conjunciones de
categorías. Es ver si al interior de la tabla se ven las mismas tendencias que en los marginales.

 (…) Lo que demos hoy nos va a permitir entrar en el tema de la regresión, que es el estudio de dependencia de
una variable dependiente respecto de una o más variables independientes con el objetivo de estimar la media
poblacional o valor promedio de la primera, dados ciertos valores fijos (en nuestras muestras repetidas) de las
últimas. O sea, se trata de encontrar el lugar por donde para la recta que toca los promedios condicionales de la
variable dependiente. En sí lo que nos interesa analizar con la regresión es la relación entre pares de variables
manteniendo constante el efecto de las otras variables que estén incluidas en el modelo, de forma tal que a partir
de los valores que asuman las observaciones en las variables independientes podré estimar el valor de una
variable dependiente. Por ejemplo, si estoy trabajando con la variable ingresos el análisis de regresión me puede
permitir analizar la relación del ingreso con variables independientes que puedan asociársele, como el nivel
educativo, la ascendencia racial o la cantidad de hijos y, a su vez, analizar cuál es el resultado de la variable
dependiente que surge al combinar estos factores.

 En términos gráficos, si mi eje vertical es Y (la v. dependiente) la constante es el valor que toma la variable
dependiente cuando todas las demás son 0, por lo que es el origen de la recta de regresión. Cuando todas las X
valen 0, el valor esperado de la variable dependiente (ingresos, en este caso) es el valor de la constante.
 El coeficiente de regresión B1 expresa el valor de la pendiente, es decir, cuánto va aumentando mi variable
dependiente en la medida en que aumenta en una unidad la variable independiente. Esto supone linealidad en
los parámetros, es decir que, si digo que por cada cambio en una unidad de la variable independiente el valor
de la dependiente va a aumentar en B1, lo mismo va a pasar (si fuera edad, por ejemplo) de 20 a 21 que de 40
a 41. Siempre los coeficientes son lineales en su distribución, por lo que van a aumentar lo mismo.
 (…) Esto hace pensar que la variable edad es lineal en toda su distribución, cosa que no es necesariamente así,
porque la forma funcional no tiene que ser necesariamente una recta. Esto no necesariamente va a ser captado
por el modelo, por lo que existen formas de incluir en la regresión, en la especificación del modelo, los
comportamientos no lineales de nuestras variables, nos permite comprobar si la distribución es o no lineal. Una
de las formas para hacerlo es expresando la variable al cuadrado, como la edad en este caso, por lo que
incluiríamos la edad al cuadrado como una variable. Eso me permite, entonces, captar efectos no lineales en los
parámetros. Todo esto pasa porque las variables no necesariamente tienen que ser lineales. Los parámetros sí.
Entonces, para trabajar con otras formas funcionales en las que los parámetros no sean lineales, tengo que incluir
ciertas transformaciones en las variables independientes, como elevarlas al cuadrado, pero eso lo vamos a hacer
más adelante, no ahora.
 (…) La clase pasada dijimos que hay dos cosas que ver: la interpretación del modelo en su conjunto y la
interpretación de cada uno de los parámetros entre sí. Nos interesa cómo este modelo me ayuda a explicar los
ingresos por hora y después cómo se comporta cada una de las variables, su signo, magnitud… En la primera
parte, en la global, me van a interesar dos cosas: una, si el modelo es en términos generales significativo o no y
eso lo vamos a hacer mediante una prueba F de Fisher, con ANOVA. Nuestra hipótesis nula es que el modelo
no es significativo y la vamos a contrastar con el valor de significación de la prueba F, que en este caso es
menor que alfa, por lo que rechazamos la hipótesis nula, así que el modelo es significativo.
La otra cosa que voy a ver es la bondad de ajuste, es decir, en qué medida el modelo me ayuda a explicar la
varianza de los ingresos. Para eso uso el r2, que es de 0.025, que lo puedo multiplicar por cien y obtener un
2.5%. Esto quiere decir que mi modelo explica el 2.5% de la varianza de los ingresos por hora.
*para evaluar al modelo miramos primero el r2 (y luego otros estadísticos), es decir, el porcentaje de varianza
explicada de uno y otro, pero para hacer una comparación entre modelo y ver con cuál nos quedamos usamos
el r2 ajustado, que corrige el aumento del r2 por incluir más variables

 (…) La última interpretación que podemos hacer es la de los coeficientes estandarizados, que me permiten
establecer cuál de las variables introducidas es la que más aporta a la explicación del fenómeno al mostrarla
con el valor más alto. En este caso es secundaria privada, por lo que esa es la variable que más aporta a la
explicación de las diferencias de ingresos entre los docentes. Es seguida por el sector y luego por terciaria
privada. Esto me permite ver el peso explicativo de cada variable. Sirve más todavía cuando estamos trabajando
con variables que tienen diferentes unidades (como edad y cantidad de hijos, por ejemplo), porque al
estandarizarlas las puedo comparar.

 (…) Acá tenemos que recordar siempre que, aunque agregar variables nos puede servir, tenemos que ser
parsimoniosos. Además, hay un supuesto en la regresión que es el de multicolinealidad que supone que las
variables independientes no deben estar correlacionadas entre sí. Muchas veces el incluir muchas variables lleva
a que aumente la multicolinealidad y eso genera problemas en el modelo.

 (…) Estábamos trabajando con un modelo de regresión lineal múltiple que quería predecir el ingreso por hora
de los docentes y para eso se especificaban como variables independientes el nivel educativo (que lo
trabajábamos, por ser una variable pluricotómica, en dos variables dummys y una de referencia), sector público,
edad y sexo. Al incluir la edad estamos suponiendo que, por cada cambio en una unidad, en un año, el ingreso
aumenta en x cantidad, y suponemos que ese aumento es lineal en toda la distribución. Puede haber argumentos,
y en este caso los hay, para suponer que esa distribución en realidad no es lineal, no se da siempre igual. Si bien
los parámetros de la regresión siempre van a ser lineales, la variable en sí no se comporta de manera lineal, y
para testear eso una de las formas es especificar esa variable cuadrática, es decir, elevada al cuadrado.

 Leer el r2 nos da una idea general de la bondad de ajuste. Al r2 ajustado deberíamos leerlo cuando tenemos más
de un modelo, ya que a medida que introducimos nuevas variables el r2 común tiende a aumentar, entonces eso
hace que no tenga mucho sentido comparar r2 porque es una comparación que está sesgada.
El ajuste se da mediante los grados de libertad, que van aumentando a medida que introducimos parámetros,
por lo que mi r2 ajustado siempre va a ser igual o menor que mi r2 original. Cuando tenemos un solo modelo,
leemos el r2, pero cuando tenemos más de un modelo y queremos comparar las bondades de ajuste que tienen,
leemos el ajustado.

 El coeficiente de determinación ajustado (R^2 ajustado) y el criterio de información de Akaike (AIC) son dos
medidas comúnmente utilizadas para evaluar la bondad de ajuste de modelos estadísticos, pero tienen enfoques
ligeramente diferentes y, por lo tanto, pueden no siempre indicar lo mismo en cuanto a qué modelo es "mejor".
El R^2 ajustado es una medida de la proporción de la variabilidad en los datos que es explicada por el modelo,
teniendo en cuenta el número de variables en el modelo.
Mientras que el R^2 estándar tiende a aumentar a medida que se agregan más variables al modelo, el R^2
ajustado penaliza la inclusión de variables irrelevantes al descontar el efecto de tener más predictores en el
modelo. Por lo tanto, un R^2 ajustado más alto indica un mejor ajuste del modelo, con la consideración del
número de variables incluidas.
 Por otro lado, el AIC es una medida que tiene en cuenta tanto la bondad de ajuste del modelo como su
complejidad. El AIC penaliza la inclusión de variables adicionales en el modelo, reflejando la idea de que un
modelo más simple es preferible a uno más complejo, a menos que el modelo más complejo proporcione una
mejora significativa en la bondad de ajuste. En términos generales, un valor más bajo de AIC indica un mejor
equilibrio entre la bondad de ajuste y la complejidad del modelo. Dado que el R^2 ajustado y el AIC tienen
enfoques ligeramente diferentes para evaluar la calidad del ajuste del modelo, es posible que sus resultados no
siempre sean consistentes en términos de cuál modelo indican como "mejor". Por ejemplo, un modelo con un
R^2 ajustado más alto puede no tener necesariamente un AIC más bajo si la mejora en la bondad de ajuste no
compensa la penalización por la inclusión de variables adicionales.
 En resumen, si bien tanto el R^2 ajustado como el AIC son medidas importantes para evaluar modelos, es
importante considerar ambos en conjunto al tomar decisiones sobre la selección del mejor modelo. Un modelo
que tenga tanto un R^2 ajustado alto como un AIC bajo generalmente se consideraría como el "mejor" en
términos de balancear la bondad de ajuste y la complejidad del modelo.
 El problema de las comparaciones múltiples surge cuando se realizan múltiples pruebas de hipótesis o
comparaciones en un conjunto de datos, lo que aumenta la probabilidad de cometer un error de tipo I. El error
de tipo I, también conocido como "falso positivo", ocurre cuando se rechaza incorrectamente una hipótesis nula
verdadera. En el contexto de las comparaciones múltiples, la probabilidad de cometer al menos un error de tipo
I aumenta a medida que se realizan más pruebas, incluso si la tasa de error de tipo I en cada prueba individual
es controlada.
 Para comprender esto mejor, consideremos un escenario en el que se realizan múltiples pruebas de hipótesis
simultáneamente. Si se utiliza un nivel de significancia del 5% (es decir, α = 0.05) para cada prueba individual,
se espera que aproximadamente el 5% de las pruebas arrojen resultados "significativos" por puro azar, incluso
si todas las hipótesis nulas son verdaderas. A medida que se realizan más pruebas, la probabilidad de que al
menos una de ellas produzca un resultado significativo por pura casualidad aumenta significativamente. Esto
significa que, en un conjunto grande de pruebas, es probable que se obtengan algunos resultados "significativos"
simplemente debido al azar, incluso si no hay efectos reales presentes.
 El control del error de tipo I en el contexto de las comparaciones múltiples es crucial para evitar conclusiones
erróneas basadas en resultados espurios. Hay varios métodos para abordar este problema, incluyendo la
corrección de Bonferroni, la corrección de Holm, los procedimientos de control de la tasa de falsos
descubrimientos (FDR), entre otros. Estos métodos ajustan los niveles de significancia individuales para
controlar la tasa global de error de tipo I en todas las pruebas realizadas.

 Hay varios modelos de análisis que podrían ser adecuados para estudiar problemas similares al abordado
mediante regresión lineal múltiple. Algunos de estos modelos incluyen:
1. Regresión Polinomial: La regresión polinomial puede ser útil cuando la relación entre la variable
dependiente y las variables independientes no es lineal. Este modelo permite ajustar curvas de grado superior
a una línea recta, lo que puede capturar patrones no lineales en los datos.
2. Regresión no lineal: Los modelos de regresión no lineal son útiles cuando la relación entre la variable
dependiente y las variables independientes no puede ser capturada adecuadamente por un modelo lineal o
polinomial. Estos modelos pueden tomar muchas formas y se ajustan a patrones complejos en los datos.
3. Modelos de series temporales: Si los datos muestran una estructura de dependencia temporal, los modelos
de series temporales, como ARIMA (Media Móvil Integrada Autoregresiva) o modelos de suavizado
exponencial, pueden ser más apropiados para modelar y predecir la evolución de la variable dependiente a
lo largo del tiempo.
4. Modelos de regresión robusta: Los modelos de regresión robusta son útiles cuando los supuestos de la
regresión clásica, como la normalidad de los residuos o la homocedasticidad, no se cumplen. Estos modelos
pueden proporcionar estimaciones más robustas en presencia de datos atípicos o no conformidad con los
supuestos clásicos.
5. Modelos de regresión de efectos mixtos: Estos modelos son adecuados cuando los datos tienen una estructura
jerárquica o de panel, con observaciones agrupadas en distintos niveles. Pueden tener en cuenta la
correlación entre las observaciones dentro de los grupos y entre los grupos.
 En resumen, la elección del modelo de análisis más adecuado dependerá de la naturaleza específica de los datos,
la relación entre las variables y los objetivos del análisis. Es importante considerar cuidadosamente la estructura
de los datos y los supuestos del modelo al seleccionar el enfoque de modelado más apropiado.

 Para hacer la lectura de los coeficientes siempre seguimos los mismos pasos: vemos si son o no significativos
con las pruebas t, veo el signo (el sentido con el que se relaciona con la variable dependiente, o sea, si un
incremento en mi variable dependiente produce un aumento o una disminución en la dependiente) y la magnitud
de esa relación (cuánta “fuerza” tiene la relación entre la dependiente y la independiente).
 El coeficiente no estandarizado está expresado en la misma unidad de medida que tiene mi variable dependiente.
Cuando quiero expresar la magnitud de la variable me fijo en el coeficiente estandarizado, que me dice cuál es
el beta que aporta más a la explicación.

 El (supuesto de normalidad de los residuos) residuo en la regresión es la diferencia entre lo que estimo y lo que
realmente pasa. Uno de los supuestos de la regresión es que los residuos se distribuyen normalmente. Que esto
no se cumpla va a afectar a los parámetros y a la construcción de los intervalos de confianza, por lo que me
puede llevar a determinar que una variable es o no significativa y que cometa un error en esa determinación,
porque esa prueba de hipótesis que realicé supone una distribución normal de los parámetros. Esto lo vamos a
testear mediante la prueba de Smirnov. Lo hacemos de dos formas. Por un lado, tenemos un histograma que
representa la distribución de los residuos. Es un examen visual, no tiene valor inferencial (no puedo concluir en
que esos patrones de distribución que me muestra sean estadísticamente significativos), pero sí me puede ayudar
a orientarme sobre cómo se distribuyen los residuos. Vemos que no se distribuyen normalmente. La curva
normal es la que está dibujada con azul y vemos que muchos de los residuos escapan de esa curva. Entonces, a
partir del análisis del histograma puedo sospechar que la distribución no es normal. Para corroborar si esta
apreciación es estadísticamente significativa lo que hago es una prueba de hipótesis. Mi hipótesis nula va a ser
que la distribución de los residuos es normal y voy a comparar la significación con un alfa de 0.05, lo que me
da que sí es significativa, por lo que los residuos no se distribuyen de forma normal. Estoy violando uno de los
supuestos de la regresión lineal, y eso tiene consecuencias en mis estimadores. Esto, en una situación de
investigación real, nos lleva a replantearnos nuestro modelo y a volver a trabajar en la especificación,
probablemente me estén faltando variables.
- Distribución normal de los residuos. Los residuos son la diferencia entre lo que observé y lo que estimé. El
hecho de que los residuos no sigan una distribución normal implica que los parámetros que estimo y las
pruebas t que realizo pueden tener un problema de validez. Para ver si pasa vamos a hacer dos tipos de pruebas.
Una de ellas es una prueba descriptiva, gráfica que es el histograma con la curva de la normal dibujada para
comparar. Eso nos permite darnos cuenta de que la distribución que tenemos traspasa los límites de la
distribución normal. La otra prueba es la de Kolmogórov-Smirnov, que interpretamos en función de la
significación.
- Los residuos son la diferencia entre la variable dependiente observada y la estimada a través del modelo que
ajustamos. Uno de los supuestos de la RLM es que estos residuos deben seguir una distribución normal, el
hecho de que no lo hagan podría significar podría estar suponiendo que nuestros estimadores tampoco sigan
una distribución normal, por lo que las pruebas de hipótesis que realizamos para corroborar si los estimadores
son o no significativos podrían no ser válidas, noes podrían estar conduciendo a errores de tipo 1, es decir,
aceptar como significativo un indicador cuando en realidad no lo es.
- La forma de corroborar este supuesto es, por un lado, a través de un procedimiento descriptivo. Tenemos un
gráfico en el que en el eje horizontal tenemos los residuos estandarizados y en el vertical, las frecuencias de
estos residuos. En azul está la curva normal, para corroborar si la distribución de los residuos coincide o no
con esa curva. En este caso no coincide, por lo que en principio podríamos decir que no se está cumpliendo
con este supuesto. Sin embargo, este tipo de gráficos no son concluyentes, sino que debemos corroborar lo
que nos muestra con una prueba inferencial. Para eso está la prueba de Kolmogórov-Smirnov, que tiene como
hipótesis nula la homogeneidad respecto a la distribución normal, es decir, que la distribución que estamos
testeando es igual a la normal y la hipótesis alternativa sería entonces que estas distribuciones son distintas a
la normal. Para eso empezamos por establecer un alfa, de 0.05, y compararlo con la significación.
- La normalidad de los residuos es importante porque los coeficientes se evalúan en función de una prueba t,
que asume distribuciones normales, si no hay normalidad en los residuos estas pruebas pueden estar sesgadas
y quizá estamos rechazando la hipótesis nula cuando en realidad no deberíamos rechazarla, por ejemplo.

 A veces se discute si el supuesto de multicolinealidad puede ser considerado como tal, porque en realidad es
esperable que las variables se correlacionen, porque si estoy usando variables que espero que todas contribuyan
para explicar un fenómeno, es esperable que algunas de ellas se relacionen entre sí. Si quiero explicar los
ingresos, puede ser importante considerar el nivel educativo y el área geográfica, y ahí hay cierta correlación,
porque en las localidades urbanas, en particular en las ciudades más grande, el nivel educativo es más alto. Hay
correlaciones que es esperable que existan, pero se establecen ciertos criterios para evaluar hasta donde es
aceptable y desde donde ya no. Hay diferentes caminos para evaluar esto.
En el curso vemos dos estadísticos, el tolerance y la inflación de la varianza, que es el inverso. Si el FIV es
menor a 10 o menor a 5 (según el libro) o si el tolerance es menor a 0.1 entonces hay problemas de
multicolinealidad. Al tolerance lo representamos como 1-r2. Ese r2 es de un modelo ficticio que hace el
programa que toma como variable dependiente a cada una de las variables independientes y como variables
independientes a todas las otras. Por ejemplo, de público va a hacer 1-r2, y r2 va a ser una regresión con público
como variable dependiente y las independientes van a ser nivel secundario, terciaria, edad, mujer y edad2. Lo
que me está diciendo de esa regresión es cuánto de la varianza de mi variable independiente (que en cada caso
la pone como dependiente) está explicado por la variación de las otras variables independientes.
Si esa explicación es muy chica, mi variable está poco correlacionada con todo lo otro, por lo que va a dar un
valor grande. O sea que cuando tengo un valor grande de tolerance, no tengo problema. Pero cuando el valor es
muy chiquito (se maneja el 0.1 como valor umbral en los manuales) quiere decir que la varianza de mi variable
independiente está explicada en gran medida por la varianza en otras variables independientes, por lo que está
correlacionada. Ahí lo que puede surgir en el proceso de ajuste del modelo es sacar alguna de las variables.
Hay otro estadístico para evaluar la multicolinealidad que se llama número condicional, que da un número
global del modelo.
- Supuesto de ausencia de multicolinealidad: Para eso vemos el tolerance y el FIV. El tolerance, que es 1-r2,
estima regresiones lineales tomando como variable dependiente a cada una de las variables independientes y
ve cuánto de esa varianza está explicada por las demás. Si da un valor muy chiquito, puede ser porque tenemos
problemas de multicolinealidad. El VIF es lo inverso, si da valores muy grandes puede estar indicando
problemas de multicolinealidad. Los umbrales que manejamos para el tolerance es que valores menores a 0.1
indican problemas de multicolinealidad y en el VIF lo indican los valores superiores a 10. La multicolinealidad
es la relación que existe entre las variables independientes.
- Otro supuesto es el de colinealidad. Este implica que no va a haber una correlación lineal alta entre nuestras
variables independientes. Es esperable que exista relación entre ellas, pero el supuesto lo que propone es que
esta correlación no puede ser lineal ni de gran magnitud. Para eso se utilizan dos estadísticos: la tolerancia y
el factor de inflación de la varianza (FIV). La tolerancia opera realizando regresiones lineales, tomando como
variable dependiente cada una de las variables independientes que está testeando y es igual a 1 menos el r2 de
esa regresión. Lo que vamos a esperar es tener valores altos de tolerance, de tal modo que poca parte de la
varianza de la variable independiente (que para esto fue puesta como dependiente) esté relacionada con el
resto de las variables independientes. Con el FIV es al revés, por lo que queremos valores bajos. Generalmente
en la bibliografía en el caso del tolerance se toma como problemas de multicolinealidad aquellos valores
inferiores a 0.01 y para el FIV se consideran como niveles problemáticos aquellos que son menores a 10.
- Es posible que, aunque se cumpla el supuesto de ausencia de colinealidad aparente entre las variables
independientes en un modelo de regresión, aún exista colinealidad en el modelo. La colinealidad se refiere a
la alta correlación entre dos o más variables independientes en un modelo de regresión, lo que puede causar
problemas en la estimación de los coeficientes y la interpretación de los efectos de las variables.
- La colinealidad perfecta ocurre cuando una o más variables independientes pueden expresarse como una
combinación lineal exacta de otras variables en el modelo, lo que hace imposible estimar los coeficientes de
forma única. La colinealidad imperfecta, aunque menos extrema, implica una alta correlación entre variables
independientes, lo que puede conducir a coeficientes inestables y a la pérdida de precisión en las estimaciones.
- Incluso si las correlaciones bivariadas entre las variables independientes son bajas, aún puede existir
colinealidad cuando se consideran múltiples variables simultáneamente. Esto se conoce como colinealidad
multivariada, y puede pasar desapercibida si se evalúan únicamente las correlaciones bivariadas entre las
variables independientes.
- Por lo tanto, es importante realizar diagnósticos específicos para detectar la colinealidad en un modelo de
regresión, como el cálculo de los factores de inflación de la varianza (VIF) o el análisis de números de
condición. Estas herramientas pueden revelar la presencia de colinealidad incluso cuando las correlaciones
simples
- no sugieren un problema.
- En resumen, la colinealidad puede estar presente en un modelo de regresión incluso si se cumple el supuesto
de ausencia de colinealidad a simple vista, por lo que es fundamental realizar un diagnóstico adecuado para
detectar este problema potencial.

 La idea de la regresión es estimar una variable dependiente a partir de un conjunto de variables independientes
y la interpretación que le damos a los pares de variables (la dependiente con cada una de las independientes)
era la relación manteniendo constantes las terceras variables, a lo cual se le llama ceteris paribus. En la
interpretación de los modelos de regresión habíamos dicho que, si bien los parámetros son lineales, las variables
pueden no serlo. Podíamos especificar variables independientes elevadas al cuadrado para dar cuenta de formas
funcionales no lineales.
 Si bien habitualmente especificamos variables simples, métricas o dicotómicas (o pluricotómicas como
dummys), también podemos establecer interacciones entre variables.
 La evaluación del modelo la podíamos dividir en dos grandes momentos:
- Primer momento: evaluación del ajuste general del modelo L
1. Vemos si el modelo es significativo.
2. Analizamos la bondad de ajuste del modelo, a través de r2, que representa el porcentaje de varianza explicada
por el modelo. Hay otros estadísticos de ajuste, pero nosotros solo vimos el r2.
Cuando estamos trabajando con dos modelos o más debemos utilizar el r2 ajustado o corregido, porque el
r2 común va a estar determinado por la cantidad de variables que incluyamos, por lo que para comparar
modelos con diferente cantidad de variables teníamos que compararlos sobre un r2 normalizado.
 Segundo momento: evaluación de los parámetros.
1. Evalúo si cada parámetro es o no significativo, eso con una prueba t.
2. De ser significativo, veo cuál es el signo del parámetro, es decir, cuál es la dirección de la relación entre la
variable dependiente y la independiente. Eso en la interpretación es lo mismo que en el análisis de
correlación: si tengo un signo positivo en el coeficiente de regresión implica que mi variable independiente
se relaciona inversamente con mi variable dependiente, si es positivo la relación es directa (a mayor valor
de la variable independiente, mayor valor de la dependiente).
3. Interpreto el valor del coeficiente. El coeficiente de regresión esta expresado en la unidad de medida que
está la variable independiente. Si estoy trabajando con la edad de ingreso al primer trabajo como variable
dependiente, el coeficiente va a estar expresado en años. La interpretación que le vamos a dar al coeficiente
es que por cada cambio unitario en mi variable independiente (si es la edad, por cada año que aumenta la
edad) mi variable dependiente, en promedio, se va a modificar en la magnitud que establezca mi coeficiente
de regresión, controlando el efecto que ejercen las restantes variables en mi modelo.
 La técnica de RLM se sustenta en una serie de supuestos. Para esto, leer a Gujarati, que menciona 9 supuestos
de la regresión: multicolinealidad, exogeneidad de los errores, homocedasticidad, distribución normal del
error… No es necesario aprenderse cada uno, pero sí entenderlos. La homocedasticidad es que la varianza de
los errores debe ser constante en todos los casos. La multicolinealidad es que no debe haber una excesiva
relación entre las variables independientes.

 El supuesto de exogeneidad del error, o sea, que los residuos no deben estar relacionados con la variable
independiente, se deben distribuir de una forma similar entre las categorías de las variables independientes. No
puede ser que los residuos de los varones estén todos por allá arriba en la gráfica y los de las mujeres mucho
más abajo. Los residuos deben ser independientes, no deben asociarse con los regresores. No puede ser que en
una de las categorías de la variable los residuos sean muy grandes y que en otra sean casi 0. De pasar eso, puede
querer decir que tenemos problemas de exogeneidad.
Para ver si esto pasa o no vamos a usar dos procedimientos. Uno es haciendo gráficas de dispersión, como esa,
y ver si los residuos son cercanos a 0 (que lo sean significa que la diferencia entre lo estimado y lo observado
no es tan grande, así que no le estoy errando tanto) y que no haya mucha diferencia entre lo que pasa en una de
las categorías de la variable independiente y lo que pasa en otra. Otro es aplicando el estadístico de Durbin-
Watson que prueba la exogeneidad del error. La hipótesis nula es que los errores son independientes, y si se
rechaza esa hipótesis significa que sí se está violando este supuesto.
 Vamos a ver el análisis de la distribución de los residuos. Esto tiene que ver con el supuesto de exogeneidad
del error, que explica que los residuos no están relacionados con las variables independientes. Entonces, para
dar cuenta de esto se testea la distribución de los residuos respecto de cada una de las variables independientes.
Esperamos que la distribución de los residuos sea en todos los casos cercana a 0, es decir, que los errores que
cometamos se concentren sobre 0. También esperamos que las distribuciones en las diferentes categorías de
las variables independientes sean similares. En caso de no cumplirse este supuesto, los efectos estimados por
las variables independientes podrían estar sesgados. Esto no necesariamente implica problemas de validez en
las pruebas de las hipótesis, pero sí un problema de sesgo en los regresores.

 El supuesto de homocedasticidad implica que la varianza de los residuos es igual en todas las observaciones.
Puede llegar a resultar confuso con lo de la normalidad de los residuos. Una cosa es la distribución, pero a su
vez la varianza tiene que ser homogénea. Para interpretarlo gráficamente vamos a hacer un gráfico de puntos
de los residuos estandarizados y de los valores predichos. Tenemos una evaluación gráfica de la
heterocedasticidad y una evaluación inferencial con una prueba de hipótesis a partir del estadístico de White.
Su hipótesis nula es que la varianza en los residuos es homogénea. Cuando rechazo esa hipótesis tengo
heterocedasticidad, que es el problema, la violación del supuesto de homocedasticidad. Que haya
heterocedasticidad no significa que no se pueda hacer nada más, se pueden modificar cosas en el modelo (incluir
variables, por ejemplo) o, si no se puede, hay otras formas de proceder con estimadores de regresión que son
robustos al problema de la heterocedasticidad.
 La homocedasticidad implica que la varianza del error es la misma para todas las observaciones. En el caso
de la exogeneidad del error no estábamos pensando en la variabilidad que existía en los residuos, sino que
evaluábamos que el error fuera exógeno a las variables independientes del modelo. El error da cuenta de
variables omitidas en el modelo. Si el error es endógeno, estaría dando cuenta de que hay variables omitidas
en el modelo que se estarían vinculadas con las variables independientes, que a su vez estarían vinculadas con
los residuos. En el caso de la heterocedasticidad, implica que la varianza de los errores es distinta en cada
observación.

 En estadísticos marcamos el ajuste del modelo, los intervalos de confianza, los cambios en el r cuadrado (que
es importante cuando trabajamos con más de un modelo, porque me permite evaluar si las variables que voy
incluyendo mejoran o no el modelo). Uno de los supuestos de la regresión es que los residuos (la diferencia
entre los valores observados y los predichos) eran independientes, es decir, que no se concentraban en una u
otra categoría, tipo si digo “le erra bastante, pero solo en las mujeres, lo de los varones lo estima mal” ahí tengo
un problema, porque no hay independencia. Para eso marcamos Durbin-Watson. Después en guardar puedo
pedirle que me guarde los valores pronosticados (que me dejan ver para cada unidad cuáles son los ingresos
que el modelo le calcula) y los residuos (estandarizados y no estandarizados). En estadísticos marcamos también
los diagnósticos de colinealidad (cuando analizamos un fenómeno es habitual que las variables que usamos
estén relacionadas entre sí, pero las variables independientes en un modelo no pueden estar altamente
relacionadas, porque de existir debería incluir solo una).

Es importante tener en cuenta que el porcentaje de varianza explicada depende de las características y la
naturaleza de los datos, así como del método de análisis utilizado. En el análisis de regresión lineal, a veces se
utilizan términos cuadráticos, como la edad al cuadrado, para capturar relaciones no lineales entre las variables
predictoras y la variable de respuesta. La inclusión de términos cuadráticos puede ser útil cuando hay una relación
curvilínea entre las variables o cuando se sospecha que el efecto de una variable predictora disminuye o aumenta
a medida que la variable aumenta.
En el caso específico de la edad al cuadrado, se utiliza para modelar relaciones no lineales con la variable de
respuesta cuando se sospecha que el efecto de la edad no es constante a lo largo de todo el rango de edades. Por
ejemplo, si estás estudiando cómo la edad afecta el ingreso y observas que el ingreso aumenta a medida que las
personas envejecen hasta cierta edad y luego comienza a disminuir, podrías utilizar la edad al cuadrado para
capturar esa relación no lineal.
Al incluir la edad al cuadrado en un modelo de regresión lineal, estás permitiendo que el efecto de la edad en la
variable de respuesta cambie a medida que la edad aumenta. Esto se debe a que el término cuadrático permite
que la relación entre la edad y la variable de respuesta tenga una forma curvilínea.
Es importante destacar que la inclusión de términos cuadráticos en un modelo de regresión lineal debe basarse
en una justificación teórica o en evidencia empírica que respalde la presencia de una relación no lineal entre las
variables. Además, es posible que se necesiten otros términos polinómicos o transformaciones de las variables
para capturar relaciones más complejas si la relación no es simplemente curvilínea.
En un análisis de regresión lineal múltiple con histogramas, se suelen hacer los siguientes supuestos:
1. Linealidad: Se asume que la relación entre las variables independientes y la variable dependiente es lineal.
Esto significa que los cambios en los valores de las variables independientes se relacionan directamente con
los cambios en el valor de la variable dependiente.
2. Independencia: Se supone que los valores de la variable dependiente son independientes entre sí. Esto significa
que no hay una relación sistemática o dependencia entre las observaciones.
3. Homocedasticidad: Se supone que la variabilidad de los errores es constante en todas las combinaciones de
los valores de las variables independientes. En otras palabras, la dispersión de los errores no debe aumentar o
disminuir a medida que cambian los valores de las variables independientes.
4. Normalidad: Se asume que los errores siguen una distribución normal. Esto significa que los errores se
distribuyen simétricamente alrededor de cero y la mayoría de los errores se concentran cerca de cero.
5. Ausencia de multicolinealidad: Se supone que no existe una fuerte correlación entre las variables
independientes. La multicolinealidad puede dificultar la interpretación de los coeficientes de regresión y
conducir a estimaciones inestables.
Para evaluar si se cumplen estos supuestos, se pueden realizar pruebas y análisis adicionales, como la inspección
de residuos, pruebas de normalidad, pruebas de heterocedasticidad y análisis de correlación entre las variables
independientes.
Los histogramas pueden ser útiles para visualizar la distribución de las variables dependientes e independientes
y evaluar si se aproximan a una distribución normal. También se pueden utilizar para identificar valores atípicos
o sesgos en los datos.
Sin embargo, los histogramas por sí solos no son suficientes para validar completamente los supuestos de
regresión lineal múltiple. La corrección de Bonferroni es un método estadístico utilizado para controlar el error
tipo I en comparaciones múltiples. Este método implica dividir el nivel de significación (usualmente 0.05) por el
número de comparaciones realizadas, con el fin de ajustar el valor de p umbral para cada comparación individual.
Si la significación entre dos grupos después de aplicar la corrección de Bonferroni es de 1, esto significa que la
probabilidad de que la diferencia observada entre los dos grupos se deba al azar es muy baja (menor que 0.01).
En otras palabras, podemos estar seguros al 99% de que la diferencia observada entre los dos grupos es real y
no se debe al azar.
Sin embargo, es importante tener en cuenta que la significación estadística no siempre es lo mismo que la
importancia clínica o práctica. Por lo tanto, es importante considerar el tamaño del efecto y la relevancia clínica
al interpretar los resultados de un análisis estadístico.

El estadístico de Durbin-Watson es una medida utilizada para detectar la presencia de autocorrelación en los
residuos de un modelo de regresión. Su valor puede oscilar entre 0 y 4, y se interpreta de la siguiente manera en
relación con el supuesto de ausencia de autocorrelación:
1. Valor cercano a 2: Un valor de Durbin-Watson cercano a 2 indica que no hay autocorrelación serial detectable
en los residuos. Esto cumple con el supuesto de ausencia de correlación del error, lo que sugiere que los
residuos son independientes entre sí.
2. Valor menor que 2: Un valor de Durbin-Watson menor que 2 sugiere la presencia de autocorrelación positiva
en los residuos. Esto significa que los residuos en un tiempo dado están correlacionados con los residuos en
momentos anteriores.
3. Valor mayor que 2: Un valor de Durbin-Watson mayor que 2 sugiere la presencia de autocorrelación negativa
en los residuos. Esto significa que los residuos en un tiempo dado están correlacionados con los residuos en
momentos posteriores.
En resumen, para que se cumpla el supuesto de ausencia de correlación del error, se busca un valor de Durbin-
Watson cercano a 2. Sin embargo, es importante tener en cuenta que el criterio exacto para interpretar el
estadístico de Durbin-Watson puede variar según el contexto y la naturaleza específica de los datos.

REGRESIÓN LOGÍSTICA (comentario nomás): Se encuentra dentro del modelo lineal generalizado. Su
característica central es que la variable dependiente no es continua o métrica, sino que es no métrica, ya sea
dicotómica como pluricotómica (nominal u ordinal). Las independientes pueden ser de cualquier tipo, como ya
vimos en la RLM. Vamos a ver el ejemplo de variables dicotómicas, con 0 y 1. Muchas veces nos interesan temas
como la pobreza, por ejemplo, entonces queremos evaluar en qué medida el ser o no identificado como pobre
varía de acuerdo a determinadas características de la población. Por ejemplo, en qué medida las personas
afrodescendientes tienen mayores chances o no de integrar un hogar pobre, o en qué medida las personas que
viven en el medio rural tienen mayor probabilidad o no de integrar un hogar pobre. Pero en este caso estamos
trabajando con una variable que es 1 y 0, presencia o ausencia, es o no es, por lo que la lectura de los coeficientes
y del ajuste que propone la regresión lineal múltiple (que proponía ajustar una recta entre los valores continuos
de una variable dependiente y los posibles valores que puede asumir una variable independiente) no es el mismo
que hacemos en esta regresión logística, porque acá no tenemos una variable continua para ajustar una recta.
Entonces lo que se hace es una transformación de esa probabilidad 0 – 1 en un logaritmo y ahí varía entre –∞ e
∞. Lo que vamos a interpretar son cambios en la probabilidad de pasar de ser 0 a ser 1. Permite evaluar en qué
medida las chances de experimentar un fenómeno varían al cambiar determinadas características en la población:
en qué medida tu probabilidad de ser pobre aumenta por vivir en Montevideo respecto de vivir en el interior, o
en la medida de ser afrodescendiente o no serlo… La información que da la regresión logística es eso, el cambio
en la probabilidad de experimentar o no un fenómeno. El ajuste no se hace por mínimos cuadrados, sino por
máxima verosimilitud, que es otra técnica de ajuste. Para ver la bondad de ajuste no vamos a usar el r2, sino que
se usan otros estadísticos (que hoy los vamos a introducir también para la RLM) que son el BIC y el Akaike (que
la regla para interpretarlo es que mientras más chico sea, mejor el modelo, entonces permite comparar entre
modelos). Al no tener variables continuas nuestros indicadores de bondad de ajuste y de significación del modelo
también van a cambiar, entonces para ver la significación vamos a ver el estadístico Devianse. Para ver la
significación de los parámetros tampoco nos vamos a fijar en a prueba T, porque supone una distribución normal,
vamos a mirar la prueba de Wall (¿?). Dependiendo de la variable dependiente que sea de mi interés, va a ser la
regresión que voy a aplicar: si son los ingresos hago la RLM, si son los años de estudio o la edad a la que se
experimenta un fenómeno, también, pero si tengo variables que no son métricas, como la condición de pobreza
u las clases sociales, tengo que usar la logística.

También podría gustarte