Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Resumen Segundo Parcial Estadística 2 UADE
Resumen Segundo Parcial Estadística 2 UADE
A diferencia de lo que veníamos haciendo que era comparar un parámetro con un número, ahora lo que
hacemos es comparar dos poblaciones, comparando dos parámetros. Por ejemplo, en vez de decidir si lanzar una
campaña publicitaria si las ventas superan los $10000, decidiremos si lanzar una campaña con la agencia A o con la
agencia B.
Ejemplo: supongamos que estamos intentando visualizar si un medicamento nuevo disminuye el tiempo en
que desaparece el dolor de cabeza. Se toma una población de 4 personas que sufre migrañas y se le administra este
nuevo medicamento con el objetivo de registrar en cuánto tiempo desaparece el dolor de cabeza, su promedio y su
variabilidad. A su vez, se toma otra población distinta de 5 personas (las poblaciones no necesariamente deben
tener la misma cantidad de muestras) que sufre migrañas y se les administra un placebo, sin que ellos lo sepan, y
se registra lo mismo que a la población a la cual se le administró el medicamento. Se concluye que el medicamento
sirve cuando las personas que lo tomaron dejan de tener dolor de cabeza antes que aquellas que tomaron el placebo.
Se rechaza H0
Se rechaza H0
Se rechaza H0
Fcrítico1 Fcrítico2
obtenidos y asumiendo un nivel de significación del 5%, ¿considera que las sospechas son fundadas?
Dado lo resaltado, lo natural sería definir la H1 en base a ello como H 1¿ σ 2A >σ 2B, pero puede también definirse
como H 1¿ σ 2B < σ 2A.
Puede apreciarse que el test puede plantearse en dos sentidos diferentes, y las conclusiones serán las mismas, pero,
una vez establecido el orden en el cual se plantea el análisis deberá mantenerlo en el resto del proceso.
PRIMERA OPCIÓN
α=0,05
Fcalculado = 1,7778 1
Como el valor del estadístico de prueba no supera al punto crítico, no se rechaza la hipótesis nula, con lo que
no hay evidencias para afirmar que la variabilidad del curso A sea mayor a la del B.
SEGUNDA OPCIÓN
α=0,05
Como el valor del estadístico de prueba no supera al punto crítico, no se rechaza la hipótesis nula,con lo que
no hay evidencias para afirmar que la variabilidad del curso A sea mayor a la del B.
Comparación de dos medias poblacionales
Unidad experimental: ente material o inmaterial, animado o inanimado sobre el cual se realiza la observación.
Muestras independientes: cuando las unidades experimentales son expuestas a distintos tratamientos.
Muestras dependientes: cuando los sujetos sobre los que ensayo ambos tratamientos son los mismos.
Muestras:
Independientes
Sigmas conocidos (Caso 1) trabajo con la Z
Sigmas desconocidos supuestos iguales (Varianza amalgamada, Caso 2) Trabajo con la t
Sigmas desconocidas pero distintos (Test de Welch, Caso 3)
Dependientes
Muestras apareadas (Caso 4) trabajo con la t
Independientemente del caso de trabajo, en la comparación de medias se trabaja con el parámetro D, que
representa a la diferencia de las medias poblacionales: D = μ1−μ 2
Estadísticos de prueba
Caso 1: sigmas conocidos, poblaciones independientes
Siempre cero
Siempre cero
v = n1 + n2 - 2
Desvío amalgamado
Caso 3: Sigmas desconocidos pero distintos, poblaciones independientes
Siempre cero
Siempre cero
Análisis de casos
Una empresa desea analizar si las ventas mensuales promedio en la sucursal A son mayores a las de la
sucursal B.
Opción 1:
Para verificarlo se toman muestras de 10 meses en cada empresa y se obtienen promedios de 15 y 20 (en miles
de unidades), respectivamente. Se sabe que el desvío histórico de las ventas mensuales fue de 2 en la sucursal A y 4
en la sucursal B.
Se desea saber si μA > μB D= μA – μB > 0
Como se comparan promedios, las muestras son independientes. Observamos que sí se cuenta con los desvíos
poblacionales, por lo que se usa el Caso 1.
Opción 2:
Para verificarlo se toman muestras de 10 meses en cada empresa y se obtienen un promedio de 15 con un
desvío de 2,5 en la sucursal A y un promedio de 20 y desvío de 2 en la sucursal B, todo medido en miles de unidades.
Se desea saber si μA > μB D= μA – μB > 0
Como se comparan promedios, las muestras son independientes. Observamos que no se cuenta con los
desvíos poblacionales, sino con los muestrales. Por ello, se utiliza la definición con test F, cuyo estadístico de prueba
es:
En este caso la definición F da un No RHo, con lo que se presume que las varianzas poblacionales son iguales
y se utilizara el Caso 2.
Opción 3:
Para verificarlo se toman muestras de 10 meses en cada empresa y se obtienen un promedio de 15 con un
desvío de 5 en la sucursal A y un promedio de 20 y desvío de 2 en la sucursal B, todo medido en miles de unidades.
Se desea saber si μA > μB D= μA – μB > 0
Como se comparan promedios, las muestras son independientes. Observamos que no se cuenta con los
desvíos poblacionales, sino con los muestrales. Por ello, se utiliza la definición con test F.
Si asumimos un riesgo del 5%, tendremos:
H0) σ 2A=σ 2B
H1)σ 2A ≠ σ 2B
En este caso la definición F da RHo, con lo que se asegura que las varianzas poblacionales son distintas y se
utilizará el Caso 3.
Opción 4:
Una empresa desea analizar si los rendimientos promedio de sus empleados, mejoran luego de un plan de
entrenamiento. Para ellos observa las calificaciones obtenidas por un grupo de 4 empleados antes y después del plan.
Una vez establecidas las diferencias, se calculará su promedio y su desvío, en este caso:
d = −0,375; Sd= 0,9465
−0,375−0
t calculado=
0,9465 = - 0,7924
√4
UVA 7: Pruebas de bondad de ajuste y tablas de contingencia
Pruebas no paramétricas
A los contrastes chi cuadrado se los conoce como pruebas no paramétricas. Poseen dos procedimientos:
1. Bondad de ajuste
2. Prueba de independencia
Bondad de ajuste
Es un procedimiento que se utiliza para tratar de verificar si una variable sigue:
Un modelo estadístico especifico
Un patrón histórico
Una ley empírica
Se utiliza tanto para variables cuantitativas como cualitativas (género, nivel de estudios, etc.).
Ejemplo: Se desea probar con un nivel de significación del 5 % si un dado está cargado. Para ello, se realizan 90
tiradas y se obtiene la siguiente información:
cara del dado 1 2 3 4 5 6
cantidad de veces que salió 10 16 20 15 17 12
“Se desea probar”, asumimos que debemos realizar un test de hipótesis, y aquello que se quiere probar es la
H1: “dado está cargado”
n = 90
α= 5%
x: variable: cara del dado
H0: el dado no está cargado
H1: el dado está cargado
Si bien las hipótesis son no paramétricas, el planteo de las mismas determina el procedimiento que debe
llevarse a cabo.
La H0 determinará las probabilidades del evento que se desea analizar. En el ejemplo, se declara en Ho que el
dado no está cargado, lo que implicará que todas ellas deberán tener la misma probabilidad de ocurrencia.
Entonces, si se asume H0 verdadera, se esperan las siguientes probabilidades para la variable “cara del dado”:
P(1) = P(2) = P(3) = P(4) = P(5) = P(6) = 1/6
Frecuencias esperadas = e
La probabilidad se asignará siempre
acorde a lo declarado en la H0 e = P(x) . n
e= 1/6 . 90 = 15
Frecuencias
esperadas si
H0 es
verdadera
El único caso en el que el x calculado da 0 es cuando las frecuencias observadas (fi) coinciden con las
frecuencias esperadas.
Cuanto mayor sea la diferencia entre lo observado y lo esperado, mayores evidencias habrá de que H0 no es
verdadera.
2
Grados de libertad para el x crítico
Solo para la bondad de ajuste
v=x–1
donde x es igual a la cantidad de categorías que asuma la variable
v=6–1=5
α = 5%
0 ∞
Prueba de independencia
Se utiliza para analizar si hay relación entre dos variables cualitativas.
Ejemplo: La agencia publicitaria Atlántico investiga la relación entre el tipo preferido de mensaje para una campaña
contra el SIDA y el nivel socioeconómico para una muestra de jóvenes de ambos sexos. La cantidad de individuos de
cada nivel socioeconómico que prefirieron cada uno de los mensajes fue:
PLANTEO
GENERAL
Cálculo de las frecuencias esperadas:
Ahora, se comparan las diferencias entre lo observado y lo esperado para encontrar el
El
único
caso en
el que el x calculado da 0 es cuando las frecuencias observadas (fi) coinciden con las frecuencias esperadas.
Cuanto mayor sea la diferencia entre lo observado y lo esperado, mayores evidencias habrá de que H0 no es
verdadera.
Grados de libertad para el
v = (cantidad de filas – 1) (cantidad de columnas – 1) v=(3–1)(3–1)=4
Xcalculado=45,324 Rechazo H0, ya que hay evidencias contundentes para asegurar la existencia
de relación entre el tipo de mensaje y el nivel socioeconómico.
Xcritico=13,27
UVA 8: Regresión lineal de dos variables. Obtención del
modelo de regresión
Estudio de relaciones entre dos variables cuantitativas
Se trabaja con dos variables que se definen:
Y: variable a pronosticar (variable dependiente) la que queremos saber cuánto valdrá en un futuro
X: variable predictora (variable independiente)
Conociendo una variable predictora X, controlar el valor que tendrá la variable Y.
Y= f(x)
Regresión lineal
¿Quién es Y y quién es X?
Siempre la Y dependerá de la X. ejemplo: lluvia y cosecha. ¿La lluvia dependerá de cuánto se cosecha o la
cosecha dependerá de cuánto llueva?
El procedimiento se usa siempre con la finalidad de inferir el valor de Y. ¿A quién estoy buscando estimar?
Recta de mínimos cuadrados
Ejemplo:
Diagrama de dispersión
Requisitos de la recta:
La sumatoria de los residuos
debe ser igual a cero (por ello es una recta promedio).
La sumatoria del cuadrado de los residuos deberá ser mínima
¿Cómo se logra que la suma del cuadrado de los residuos sea mínima? Derivando
Cumpliéndose estas dos condiciones, se hayan las fórmulas de trabajo para la obtención de los coeficientes a y
b.
Entorno de la observación
Entorno de
observación: entre
qué valores se
encuentra el modelo
que encontramos.
Extrapolación: es
usar la recta que
encontramos para
estos datos, fuera del
entorno de
observación. Inferir la
recta más allá del X
mínimo y el X
máximo.
Interpretación de los estimadores
Los estimadores son los coeficientes de la recta (a y b).
En el ejemplo:
o X = cantidad de horas trabajadas
o Y = cantidad de errores cometidos
o ^y= 1 + 2X
a: un empleado que trabaja 0 horas, cometerá 1 error de tipeo. En este caso, al encontrase el valor
0 fuera del entorno de observación ( 2 y 6 horas) se estaría cometiendo una extrapolación.
b: por cada hora adicional que el empleado se espera que la cantidad de errores cometidos se incremente en 2.
Varianza de la estimación
Es un indicador de la dispersión de los puntos observados alrededor de la recta, es decir, nos proporciona una
idea de la variabilidad de los puntos alrededor de la recta encontrada.
Este indicador se utiliza en las inferencias o para comparar distintos modelos de regresión. Como el valor de
la varianza depende de las unidades de medida de la variable “Y”, no se utiliza para concluir si es “alta” o “baja” la
dispersión, sólo se utilizará para efectuar inferencias.
Es la suma de los cuadrados de los residuos promediada.
Es el desvío,
por lo que la
varianza es
este valor
elevado al
cuadrado.
2
Se Varianza de la estimación
UVA 9 - Regresión lineal de dos variables. Validación e
intervalos de confianza
Validación del modelo de regresión
La recta de los mínimos cuadrados siempre encuentra la mejor recta que pasa por una nube de puntos,
independientemente de que esa nube de puntos tengo una tendencia lineal o no.
Para saber si la recta encontrada realmente explica el comportamiento de los datos observados, se utiliza una
herramienta llamada validación del modelo de regresión. Se utiliza para determinar qué tan buena es la calidad de
la relación entre las dos variables que se están vinculando. Esta conclusión a la que se arriba es en términos
muestrales.
La validación del modelo de regresión utiliza los coeficientes de la validación, que son indicadores que hablan
de la calidad de la recta encontrada. Estos coeficientes son el coeficiente de determinación R2, y el coeficiente de
correlación R.
Dado que lo que se busca es inferir la población, lo que se realiza es un test de significancia. Esto nos permite
probar si existe relación entre las variables, planteando un juego de hipótesis en donde en la H0) se expresa que β =
0.
Coeficientes
Coeficiente de determinación R2
Mide la variación porcentual de Y que queda explicada por la recta, es decir, cuánta de la variación que tiene
Y es gracias a la X.
Esto se lee como “el 80% de las variaciones porcentuales que se presentan en Y se deben a las
variaciones en X”.
En nuestro ejemplo de horas trabajadas (X) y errores cometidos (Y), se leería “el 80% de las variaciones
porcentuales que se presentan en los errores cometidos se deben a las variaciones en las horas trabajadas”.
El modelo presenta un buen ajuste debido a que el coeficiente es mayor al 50%.
Coeficiente de correlación R
Mide el grado de relación entre las variables analizadas, es decir, mide la sensibilidad de una variable a los
cambios producidos en otra variable.
El coeficiente de correlación es un indicador adimensional, es decir que no tiene una unidad de medida, por lo
que permite comparar variables de diferente unidad de medida.
El valor del coeficiente de relación no es un porcentaje. Puede tomar valores que van desde -1 a 1.
un signo positivo de R indica que la relación entre las variables es directa.
un signo negativo de R indica que la relación entre las variables es inversa.
El signo de R es coincidente con el de la pendiente.
Al igual que el coeficiente anterior estará sujeto al campo de análisis. Sin embargo, un valor de |𝑅|≥0,7 basta
para considerar una relación intensa entre las variables de análisis.
En el ejemplo, el valor de R muestra que la relación es muy intensa entre las variables ya que supera al límite
0,7 y, además, al ser positivo, la relación es directa.
Esto se lee como que la variable Y es muy sensible a las variaciones en la variable X.
Test de significancia
Cuando se habla de la relación entre las variables, el impacto de la variable x sobre la y queda medido por el
coeficiente de regresión/pendiente.
Que en términos muestrales haya una pendiente, no quiere decir que en términos poblacionales también sea
así.
Coeficiente de regresión muestral b Estimador
Coeficiente de regresión poblacional β Parámetro
Para que haya relación entre las variables analizadas es necesario que el coeficiente de regresión en términos
de la población sea diferente de cero.
Para encontrar el parámetro poblacional se realiza un test de hipótesis:
H0) β = 0, no existe relación entre las variables.
H1) β ≠ 0, existe relación entre las variables.
¿Por qué usamos β? 4.5 ^ en términos
1.2 muestrales la recta es y = a 4 + bx, mientras que
1 3.5
en términos poblacionales la 3 recta es y = α + βx
0.8 2.5
0.6 2
0.4 1.5
1
0.2 0.5
0 0
β=0 β>0
En regresión lineal, la v
siempre es igual a n – 2.
En el
ejemplo de los errores cometidos por hora de trabajo:
Asumimos un α=10%
v=n–2
v = 10 – 2 = 8
En la app 1,8595 2P 0,1
IC (β)
IC
(μ(y))
IC (Y)
En nuestro ejemplo de los errores de los trabajadores:
Estimar con una confianza del 90% la variación de la cantidad de errores cometidos por cada hora adicional
trabajada.
Pide hallar el IC(β). Teníamos una y^ = 1 + 2x.
IC ( β )=b ±t . S b
IC(β)= 2 ± 1,8595 . 0,354
El coeficiente de regresión se encuentra entre 1,34 y 2,66
IC(β)= [1,34 ; 2,66]
errores/hora, con una confianza del 90%
Estimar con una confianza del 90% la cantidad promedio de errores que cometerá un empleado que ha
trabajado tres horas y media.
Pide hallar el IC(μ(y)). α=0,1 Sxx=20 x= 4
^y = 1 + 2x ^y = 1 + 2 . 3,5 = 8
IC(μ(y)) = 8 ± 1,8595 . 0,53 Un empleado que trabajo tres horas y medias cometerá entre 7 y 9
errores en promedio con una confianza del 90% (se redondea).
IC(μ(y)) = [7 ; 9]
Hallar un intervalo del 90% para la cantidad de errores que cometerá un empleado que ha trabajado 3,5 horas.
Pide hallar IC(Y). α=0,1 Sxx=20 x= 4
IC(Y) = 8 ± 1,8595 . 1,67 Un empleado que trabajo tres horas y medias cometerá entre 5 y 11
errores en promedio con una confianza del 90% (se redondea).
IC(Y) = [5 ; 11]