Está en la página 1de 23

UVA 6: comparación de dos poblaciones normales

A diferencia de lo que veníamos haciendo que era comparar un parámetro con un número, ahora lo que
hacemos es comparar dos poblaciones, comparando dos parámetros. Por ejemplo, en vez de decidir si lanzar una
campaña publicitaria si las ventas superan los $10000, decidiremos si lanzar una campaña con la agencia A o con la
agencia B.
Ejemplo: supongamos que estamos intentando visualizar si un medicamento nuevo disminuye el tiempo en
que desaparece el dolor de cabeza. Se toma una población de 4 personas que sufre migrañas y se le administra este
nuevo medicamento con el objetivo de registrar en cuánto tiempo desaparece el dolor de cabeza, su promedio y su
variabilidad. A su vez, se toma otra población distinta de 5 personas (las poblaciones no necesariamente deben
tener la misma cantidad de muestras) que sufre migrañas y se les administra un placebo, sin que ellos lo sepan, y
se registra lo mismo que a la población a la cual se le administró el medicamento. Se concluye que el medicamento
sirve cuando las personas que lo tomaron dejan de tener dolor de cabeza antes que aquellas que tomaron el placebo.

x1 < x2 no se traduce en μ1 < μ2 Del resultado muestral se debe inferir el


resultado poblacional
Comparación de varianzas poblacionales
Se utiliza un nuevo modelo de probabilidad conocido como la Distribución F de Fisher Snedecor, Y SOLO
EN LA COMPARACIÓN DE VARIANZAS POBLACIONALES
Características:
 Es una distribución asimétrica, con asimetría positiva.
 Su eje empieza en 0, no puede ser negativa, al igual que la Chi cuadrado
 Trabaja con dos grados de libertad, donde:
o v1 = n1 – 1
o v2 = n2 – 1
Ejemplo: n1= 20 n2= 30 α= 0,05 v1= 20 – 1 = 19 v2= 30 – 1 = 29
En la app

Si se trabaja con dos


colas, el α se divide por
dos para el cálculo.
α/2 = 0,05/2 = 0,025
2
S1
F calculado= 2
S2

Se rechaza H0

Ejemplo: En una universidad un profesor sospecha que la


variabilidad en el conocimiento deSeestadística
rechaza H0
del curso A es mayor αa la
variabilidad del curso B, debido a que ha implementado distintos
métodos de enseñanza. Para corroborarlo,
α evaluó los resultados de los
exámenes de los cursos y sobre una muestra de 30 alumnos del curso A
obtuvo un desvío de 20 puntos y sobre una muestra de 25 alumnos del
Fcrítico F(V1;V2) Fcrítico F(V1;V2)

curso B, se observó un desvío de 15 puntos. A la luz de los resultados

Se rechaza H0

Se rechaza H0

Fcrítico1 Fcrítico2

obtenidos y asumiendo un nivel de significación del 5%, ¿considera que las sospechas son fundadas?

Dado lo resaltado, lo natural sería definir la H1 en base a ello como H 1¿ σ 2A >σ 2B, pero puede también definirse
como H 1¿ σ 2B < σ 2A.
 Puede apreciarse que el test puede plantearse en dos sentidos diferentes, y las conclusiones serán las mismas, pero,
una vez establecido el orden en el cual se plantea el análisis deberá mantenerlo en el resto del proceso.
PRIMERA OPCIÓN

Los datos del ejercicio son


desvíos, no varianzas, por lo que
hay que elevarlos al cuadrado

α=0,05

Fcalculado = 1,7778 1

Como el valor del estadístico de prueba no supera al punto crítico, no se rechaza la hipótesis nula, con lo que
no hay evidencias para afirmar que la variabilidad del curso A sea mayor a la del B.

SEGUNDA OPCIÓN

α=0,05

Fcrítico = 0,5141 Fcalculado = 0,5625

Como el valor del estadístico de prueba no supera al punto crítico, no se rechaza la hipótesis nula,con lo que
no hay evidencias para afirmar que la variabilidad del curso A sea mayor a la del B.
Comparación de dos medias poblacionales
Unidad experimental: ente material o inmaterial, animado o inanimado sobre el cual se realiza la observación.
Muestras independientes: cuando las unidades experimentales son expuestas a distintos tratamientos.
Muestras dependientes: cuando los sujetos sobre los que ensayo ambos tratamientos son los mismos.
Muestras:
 Independientes
 Sigmas conocidos (Caso 1)  trabajo con la Z
 Sigmas desconocidos supuestos iguales (Varianza amalgamada, Caso 2) Trabajo con la t
 Sigmas desconocidas pero distintos (Test de Welch, Caso 3)
 Dependientes
 Muestras apareadas (Caso 4)  trabajo con la t
Independientemente del caso de trabajo, en la comparación de medias se trabaja con el parámetro D, que
representa a la diferencia de las medias poblacionales: D = μ1−μ 2

Estadísticos de prueba
Caso 1: sigmas conocidos, poblaciones independientes

Siempre cero

Caso 2: Sigmas desconocidos supuestos iguales, poblaciones independientes

Siempre cero

v = n1 + n2 - 2

Desvío amalgamado
Caso 3: Sigmas desconocidos pero distintos, poblaciones independientes

Siempre cero

Se redondea al entero más próximo:


12,2 es 12
12,7 es 13

Caso 4: muestras apareadas, poblaciones dependientes

Siempre cero

¿Cómo analizar un ejercicio de comparación?

Análisis de casos
Una empresa desea analizar si las ventas mensuales promedio en la sucursal A son mayores a las de la
sucursal B.
Opción 1:
Para verificarlo se toman muestras de 10 meses en cada empresa y se obtienen promedios de 15 y 20 (en miles
de unidades), respectivamente. Se sabe que el desvío histórico de las ventas mensuales fue de 2 en la sucursal A y 4
en la sucursal B.
Se desea saber si μA > μB D= μA – μB > 0
Como se comparan promedios, las muestras son independientes. Observamos que sí se cuenta con los desvíos
poblacionales, por lo que se usa el Caso 1.
Opción 2:
Para verificarlo se toman muestras de 10 meses en cada empresa y se obtienen un promedio de 15 con un
desvío de 2,5 en la sucursal A y un promedio de 20 y desvío de 2 en la sucursal B, todo medido en miles de unidades.
Se desea saber si μA > μB D= μA – μB > 0
Como se comparan promedios, las muestras son independientes. Observamos que no se cuenta con los
desvíos poblacionales, sino con los muestrales. Por ello, se utiliza la definición con test F, cuyo estadístico de prueba
es:

Si asumimos un riesgo del 5%, tendremos:


H0) σ 2A=σ 2B
H1)σ 2A ≠ σ 2B

En este caso la definición F da un No RHo, con lo que se presume que las varianzas poblacionales son iguales
y se utilizara el Caso 2.

Opción 3:
Para verificarlo se toman muestras de 10 meses en cada empresa y se obtienen un promedio de 15 con un
desvío de 5 en la sucursal A y un promedio de 20 y desvío de 2 en la sucursal B, todo medido en miles de unidades.
Se desea saber si μA > μB D= μA – μB > 0
 Como se comparan promedios, las muestras son independientes. Observamos que no se cuenta con los
desvíos poblacionales, sino con los muestrales. Por ello, se utiliza la definición con test F.
Si asumimos un riesgo del 5%, tendremos:
H0) σ 2A=σ 2B

H1)σ 2A ≠ σ 2B
En este caso la definición F da RHo, con lo que se asegura que las varianzas poblacionales son distintas y se
utilizará el Caso 3.
Opción 4:
Una empresa desea analizar si los rendimientos promedio de sus empleados, mejoran luego de un plan de
entrenamiento. Para ellos observa las calificaciones obtenidas por un grupo de 4 empleados antes y después del plan.

Se desea saber si μA < μD D= μA – μD < 0


Como se comparan promedios, pero las muestras son dependientes, se utiliza el Caso 4.
Antes de poder utilizar el estadístico de prueba se deberán procesar los datos por cada uno de los empleados,
calculando la diferencia para cada individuo, recordando siempre la importancia del orden establecido en la relación
de los promedios.
D= μA – μD Con lo que A ocupa el orden 1 y D el orden 2.

Una vez establecidas las diferencias, se calculará su promedio y su desvío, en este caso:
d = −0,375; Sd= 0,9465

−0,375−0
t calculado=
0,9465 = - 0,7924
√4
UVA 7: Pruebas de bondad de ajuste y tablas de contingencia
Pruebas no paramétricas
A los contrastes chi cuadrado se los conoce como pruebas no paramétricas. Poseen dos procedimientos:
1. Bondad de ajuste
2. Prueba de independencia
Bondad de ajuste
Es un procedimiento que se utiliza para tratar de verificar si una variable sigue:
 Un modelo estadístico especifico
 Un patrón histórico
 Una ley empírica
Se utiliza tanto para variables cuantitativas como cualitativas (género, nivel de estudios, etc.).
Ejemplo: Se desea probar con un nivel de significación del 5 % si un dado está cargado. Para ello, se realizan 90
tiradas y se obtiene la siguiente información:
cara del dado 1 2 3 4 5 6
cantidad de veces que salió 10 16 20 15 17 12

“Se desea probar”, asumimos que debemos realizar un test de hipótesis, y aquello que se quiere probar es la
H1: “dado está cargado”
n = 90
α= 5%
x: variable: cara del dado
H0: el dado no está cargado
H1: el dado está cargado
Si bien las hipótesis son no paramétricas, el planteo de las mismas determina el procedimiento que debe
llevarse a cabo.
La H0 determinará las probabilidades del evento que se desea analizar. En el ejemplo, se declara en Ho que el
dado no está cargado, lo que implicará que todas ellas deberán tener la misma probabilidad de ocurrencia.
Entonces, si se asume H0 verdadera, se esperan las siguientes probabilidades para la variable “cara del dado”:
P(1) = P(2) = P(3) = P(4) = P(5) = P(6) = 1/6
Frecuencias esperadas = e
La probabilidad se asignará siempre
acorde a lo declarado en la H0 e = P(x) . n
e= 1/6 . 90 = 15
Frecuencias
esperadas si
H0 es
verdadera
 El único caso en el que el x calculado da 0 es cuando las frecuencias observadas (fi) coinciden con las
frecuencias esperadas.
 Cuanto mayor sea la diferencia entre lo observado y lo esperado, mayores evidencias habrá de que H0 no es
verdadera.
2
 Grados de libertad para el x crítico
Solo para la bondad de ajuste
v=x–1
donde x es igual a la cantidad de categorías que asuma la variable
v=6–1=5

α = 5%

0 ∞

x= 11,07 P (X>x) = 0,05 App

4,27 No cae en la zona de rechazo, por lo que se puede decir que no


hay evidencias para afirmar que el dado está cargado.

Prueba de independencia
Se utiliza para analizar si hay relación entre dos variables cualitativas.
Ejemplo: La agencia publicitaria Atlántico investiga la relación entre el tipo preferido de mensaje para una campaña
contra el SIDA y el nivel socioeconómico para una muestra de jóvenes de ambos sexos. La cantidad de individuos de
cada nivel socioeconómico que prefirieron cada uno de los mensajes fue:

a) Pruebe si el nivel socioeconómico se relaciona con la


preferencia de los mensajes. Utilice un nivel de
significación del 1%.

Los datos obtenidos de la muestra seleccionada representarán las frecuencias observadas.


Siempre en la H1 queda afirmada la relación:
H0: no existe relación entre la preferencia de los mensajes y el nivel socioeconómico
H1: existe relación entre la preferencia de los mensajes y el nivel socioeconómico

PLANTEO
GENERAL
Cálculo de las frecuencias esperadas:
Ahora, se comparan las diferencias entre lo observado y lo esperado para encontrar el

 El
único
caso en
el que el x calculado da 0 es cuando las frecuencias observadas (fi) coinciden con las frecuencias esperadas.
 Cuanto mayor sea la diferencia entre lo observado y lo esperado, mayores evidencias habrá de que H0 no es
verdadera.
 Grados de libertad para el
v = (cantidad de filas – 1) (cantidad de columnas – 1) v=(3–1)(3–1)=4

x = 13,27 P (X>x) = 0,01

Xcalculado=45,324 Rechazo H0, ya que hay evidencias contundentes para asegurar la existencia
de relación entre el tipo de mensaje y el nivel socioeconómico.
Xcritico=13,27
UVA 8: Regresión lineal de dos variables. Obtención del
modelo de regresión
Estudio de relaciones entre dos variables cuantitativas
Se trabaja con dos variables que se definen:
Y: variable a pronosticar (variable dependiente) la que queremos saber cuánto valdrá en un futuro
X: variable predictora (variable independiente)
 Conociendo una variable predictora X, controlar el valor que tendrá la variable Y.
Y= f(x)
Regresión lineal
¿Quién es Y y quién es X?
 Siempre la Y dependerá de la X. ejemplo: lluvia y cosecha. ¿La lluvia dependerá de cuánto se cosecha o la
cosecha dependerá de cuánto llueva?
 El procedimiento se usa siempre con la finalidad de inferir el valor de Y. ¿A quién estoy buscando estimar?
Recta de mínimos cuadrados

Ejemplo:
Diagrama de dispersión 

Para hallar la recta de los


mínimos cuadrados se busca un
promedio entre los puntos.
La diferencia entre la recta y
los valores realmente observados se
conoce como residuos, y pueden ser
positivos o negativos.

Requisitos de la recta:
 La sumatoria de los residuos
debe ser igual a cero (por ello es una recta promedio).
 La sumatoria del cuadrado de los residuos deberá ser mínima

∑ e2=∑ ( y i− y^i )2=Mínima

Método de los mínimos cuadrados

¿Cómo se logra que la suma del cuadrado de los residuos sea mínima? Derivando
Cumpliéndose estas dos condiciones, se hayan las fórmulas de trabajo para la obtención de los coeficientes a y
b.

Se resuelve con Excel siguiendo los siguientes pasos:


1. Cargar la tabla en la hoja
2. Ir a menú, opciones, complementos
3. Seleccionar esta opción
4. Clickear “herramientas para análisis” y “herramientas para análisis VBA”. Aceptar.
5. Ir a la pestaña “Datos”. Seleccionar la opción “análisis de datos”.
6. Seleccionar la opción “Regresión”.
7. Seleccionar valores de Y y de X de la tabla, y en “Rango de salida” selecciono una celda del Excel. Aceptar.
ESTOS SON LOS ÚNICOS
DATOS CON LOS QUE
VAMOS A TRABAJAR

Entorno de la observación

Entorno de
observación: entre
qué valores se
encuentra el modelo
que encontramos.

Extrapolación: es
usar la recta que
encontramos para
estos datos, fuera del
entorno de
observación. Inferir la
recta más allá del X
mínimo y el X
máximo.
Interpretación de los estimadores
Los estimadores son los coeficientes de la recta (a y b).
En el ejemplo:
o X = cantidad de horas trabajadas
o Y = cantidad de errores cometidos
o ^y= 1 + 2X

a: un empleado que trabaja 0 horas, cometerá 1 error de tipeo. En este caso, al encontrase el valor
0 fuera del entorno de observación ( 2 y 6 horas) se estaría cometiendo una extrapolación.
b: por cada hora adicional que el empleado se espera que la cantidad de errores cometidos se incremente en 2.
Varianza de la estimación
Es un indicador de la dispersión de los puntos observados alrededor de la recta, es decir, nos proporciona una
idea de la variabilidad de los puntos alrededor de la recta encontrada.
Este indicador se utiliza en las inferencias o para comparar distintos modelos de regresión. Como el valor de
la varianza depende de las unidades de medida de la variable “Y”, no se utiliza para concluir si es “alta” o “baja” la
dispersión, sólo se utilizará para efectuar inferencias.
Es la suma de los cuadrados de los residuos promediada.

Es el desvío,
por lo que la
varianza es
este valor
elevado al
cuadrado.

2
Se Varianza de la estimación
UVA 9 - Regresión lineal de dos variables. Validación e
intervalos de confianza
Validación del modelo de regresión
La recta de los mínimos cuadrados siempre encuentra la mejor recta que pasa por una nube de puntos,
independientemente de que esa nube de puntos tengo una tendencia lineal o no.
Para saber si la recta encontrada realmente explica el comportamiento de los datos observados, se utiliza una
herramienta llamada validación del modelo de regresión. Se utiliza para determinar qué tan buena es la calidad de
la relación entre las dos variables que se están vinculando. Esta conclusión a la que se arriba es en términos
muestrales.
La validación del modelo de regresión utiliza los coeficientes de la validación, que son indicadores que hablan
de la calidad de la recta encontrada. Estos coeficientes son el coeficiente de determinación R2, y el coeficiente de
correlación R.
Dado que lo que se busca es inferir la población, lo que se realiza es un test de significancia. Esto nos permite
probar si existe relación entre las variables, planteando un juego de hipótesis en donde en la H0) se expresa que β =
0.
Coeficientes
Coeficiente de determinación R2
Mide la variación porcentual de Y que queda explicada por la recta, es decir, cuánta de la variación que tiene
Y es gracias a la X.

En este ejemplo, cada punto real cae sobre la recta.


Cada proyección de Y es exactamente el valor que tiene la Y, es
decir que esta recta no tiene residuos.
e = y – y^ = 2 – 2 = 0.
No existen residuos porque es una recta perfecta.
Al no existir residuos, tampoco existe una variación de los
residuos (Se=0).
El coeficiente de determinación R2=1 . Esto se lee “con esta X explicamos al 100% lo que le pasa a la Y.
Existen residuos ya que no todos los puntos reales
e e caen en la recta. e>0.
Si hay residuos, hay una variación en los residuos.
Se>0.
Cuando existen residuos, el coeficiente de
determinación es menor a 1. R2 <1. Esto significa que hay
una parte de lo que le pasa a la Y que es gracias a la x, y una
parte que no lo es, sino que es gracias a los residuos.

Al ser una proporción es un valor que estará


comprendido entre 0 y 1.
Si bien dependerá de la disciplina de análisis un coeficiente de determinación de al menos un 50% indicará un
buen ajuste del modelo.

Esto se lee como “el 80% de las variaciones porcentuales que se presentan en Y se deben a las
variaciones en X”.
En nuestro ejemplo de horas trabajadas (X) y errores cometidos (Y), se leería “el 80% de las variaciones
porcentuales que se presentan en los errores cometidos se deben a las variaciones en las horas trabajadas”.
El modelo presenta un buen ajuste debido a que el coeficiente es mayor al 50%.
Coeficiente de correlación R
Mide el grado de relación entre las variables analizadas, es decir, mide la sensibilidad de una variable a los
cambios producidos en otra variable.
El coeficiente de correlación es un indicador adimensional, es decir que no tiene una unidad de medida, por lo
que permite comparar variables de diferente unidad de medida.
El valor del coeficiente de relación no es un porcentaje. Puede tomar valores que van desde -1 a 1.
un signo positivo de R indica que la relación entre las variables es directa.
un signo negativo de R indica que la relación entre las variables es inversa.
El signo de R es coincidente con el de la pendiente.
Al igual que el coeficiente anterior estará sujeto al campo de análisis. Sin embargo, un valor de |𝑅|≥0,7 basta
para considerar una relación intensa entre las variables de análisis.

Excel siempre pone el


coeficiente de
correlación múltiple
positivo, por lo que
debemos mirar el
valor de la variable X1
para determinar la
pendiente.

En el ejemplo, el valor de R muestra que la relación es muy intensa entre las variables ya que supera al límite
0,7 y, además, al ser positivo, la relación es directa.
Esto se lee como que la variable Y es muy sensible a las variaciones en la variable X.
Test de significancia
Cuando se habla de la relación entre las variables, el impacto de la variable x sobre la y queda medido por el
coeficiente de regresión/pendiente.
Que en términos muestrales haya una pendiente, no quiere decir que en términos poblacionales también sea
así.
Coeficiente de regresión muestral b Estimador
Coeficiente de regresión poblacional β Parámetro
Para que haya relación entre las variables analizadas es necesario que el coeficiente de regresión en términos
de la población sea diferente de cero.
Para encontrar el parámetro poblacional se realiza un test de hipótesis:
H0) β = 0, no existe relación entre las variables.
H1) β ≠ 0, existe relación entre las variables.
¿Por qué usamos β? 4.5 ^  en términos
1.2 muestrales la recta es y = a 4 + bx, mientras que
1 3.5
en términos poblacionales la 3 recta es y = α + βx
0.8 2.5
0.6 2
0.4 1.5
1
0.2 0.5
0 0
β=0 β>0

En regresión lineal, la v
siempre es igual a n – 2.

En el
ejemplo de los errores cometidos por hora de trabajo:
Asumimos un α=10%
v=n–2
v = 10 – 2 = 8
En la app 1,8595 2P 0,1

Como 5,65 es mayor a 1,8595, se Rho y se concluye


que existen evidencias para probar la existencia de
relación entre las horas trabajadas y los errores cometido,
con un riesgo del 10%.

Modelos de regresión poblacionales


A partir del modelo muestral promedio (y^= a + bx), vamos a estimar:
 modelo poblacional puntual (Y).
 modelo poblacional promedio μ(y).
 coeficiente de regresión poblacional (β). Sin nivel de confianza
Intervalos de confianza en la regresión

IC (β)

IC
(μ(y))

IC (Y)
En nuestro ejemplo de los errores de los trabajadores:
 Estimar con una confianza del 90% la variación de la cantidad de errores cometidos por cada hora adicional
trabajada.
Pide hallar el IC(β). Teníamos una y^ = 1 + 2x.
IC ( β )=b ±t . S b
IC(β)= 2 ± 1,8595 . 0,354
El coeficiente de regresión se encuentra entre 1,34 y 2,66
IC(β)= [1,34 ; 2,66]
errores/hora, con una confianza del 90%
 Estimar con una confianza del 90% la cantidad promedio de errores que cometerá un empleado que ha
trabajado tres horas y media.
Pide hallar el IC(μ(y)). α=0,1 Sxx=20 x= 4
^y = 1 + 2x ^y = 1 + 2 . 3,5 = 8

IC(μ(y)) = 8 ± 1,8595 . 0,53 Un empleado que trabajo tres horas y medias cometerá entre 7 y 9
errores en promedio con una confianza del 90% (se redondea).
IC(μ(y)) = [7 ; 9]

 Hallar un intervalo del 90% para la cantidad de errores que cometerá un empleado que ha trabajado 3,5 horas.
Pide hallar IC(Y). α=0,1 Sxx=20 x= 4

IC(Y) = 8 ± 1,8595 . 1,67 Un empleado que trabajo tres horas y medias cometerá entre 5 y 11
errores en promedio con una confianza del 90% (se redondea).
IC(Y) = [5 ; 11]

También podría gustarte