Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Estadística inferencial:
Es el conjunto de métodos y técnicas que permiten determinar, de una muestra debidamente
representativa de una población, los valores estadísticos, a fin de poder inferir sobre los
parámetros poblacionales con un cierto grado de bondad.
Los parámetros poblacionales más usuales en la estimación son: a) la media; b) el desvío
estándar; y c) la proporción de los elementos de la población que cumplen con determinada
característica.
Media:
Varianza:
Desviación Estándar:
Esta es una situación ideal de una población muy pequeña, por eso, no se considera N-1 en
el denominador para la varianza y la desviación estándar (no se trata de una muestra).
Cálculo de estadísticos de la distribución de medias muestrales:
Varianza: Var(x) =
Desviación estándar:
Otro cálculo que puede interesar es el de la probabilidad de ocurrencia de las medias
muestrales, que viene dada por las frecuencias relativas
; quedando la fórmula;
Entonces,
Ejemplo de planteo, en un caso se nos pregunta cuál es la probabilidad de que la diferencia
entre la media de la muestra tomada y la media poblacional no sea mayor a 0,5 kg. Se plantea lo
siguiente, en valor absoluto, pues se pretende que la media muestral no esté más alla
de ± 0,5.
También puede interpretarse de la siguiente manera. Si la media poblacional es
desconocida, podemos plantear que el intervalo a considerar es el que está dentro de
.
Se estandariza y se trabaja con la tabla de la distribución normal.
Un ejemplo de resolución de ejercicio sería el siguiente:
Al ser un Z tan elevado, la tabla nos arrojará el valor 1, que al restarle a 1 para saber cuál
es la probabilidad de que la muestra supere a la media poblacional (en este ejemplo), es 0.
Estimación y Estimadores
La base de la inferencia estadística es la estimación. Se basa en la obtención de
conclusiones referidas a la población, a partir de la evidencia recogida de una muestra.
Parámetros y estadísticos
Los parámetros son las medidas de resumen poblacional que permiten describir el
conjunto de datos analizados.
Los estadísticos o estimadores son las medidas análogas obtenidas a partir de datos
muestrales. Incluye a la media muestral, la varianza muestral, la proporción muestral, entre otras.
Estos valores, se utilizan para proporcionar una idea del valor de la medida poblacional
correspondiente, pero considerando solo datos muestrales.
Un buen estimador debe poseer las siguientes características:
Imparcialidad (ser insesgado).
Eficiencia
Consistencia
Suficiencia
Estimación puntual
Existen dos tipos de estimaciones sobre una población a partir de una muestra:
Estimación puntual
Estimación de intervalo
La estimación puntual sucede cuando al parámetro le asignamos un valor único, un número
que se utiliza para estimar un parámetro desconocido de la población. A este número, por lo
general, lo obtenemos a través de una fórmula.
- La media de la muestra puede ser un estimador puntual de la media de la población.
- La desviación estándar de la muestra s, puede ser un estimador puntual de la
desviación estándar de la población σ.
- La proporción de la muestra p, puede ser un estimador de la proporción de la
población π. Al estimador de la proporción de la muestra, se lo designa con .
La media de la muestra es el mejor estimador de la media de la población porque cumple
con las características mencionadas previamente. Su distribución muestral puede ser aproximada
mediante una distribución normal.
Es de esperarse que las estimaciones puntuales difieran de los parámetros poblacionales,
justamente porque las estimaciones puntuales son realizadas a partir de una muestra.
Con él, luego se puede calcular el error de estimación (o margen de error o máximo error
permitido para estimar la media poblacional) E.
Conclusiones importantes
proporción: . Donde:
Ejemplo:
Grados de libertad
Se remite a la cantidad de valores que pueden asumir libremente, las variables aleatorias
de una muestra.
Si conocemos o calculamos en función de tales datos un estadístico, podemos perder grados
de libertad o valores que pueden variar del total de datos disponibles de la muestra.
Por ejemplo: si tenemos como dato la media de una muestra y su tamaño: n, tenemos n-1
variables aleatorias que podemos especificar libremente, con la condición de que la suma de las
variables dividido n de por resultado la media. Por eso, a la expresión n-1 se la llama grados de
libertad. Si tenemos una muestra de 8 variables, n-1=7, tiene siete grados de libertad.
Características de la distribución t
Esta distribución tiene una forma similar a la distribución normal estándar:
Tiene forma de campana;
Tiene una media de 0 y es simétrica;
Tiene una varianza mayor que 1;
Se aproxima más la distribución t de student a la normal cuantos más grados de
libertad posee.
La distribución normal se observa con línea roja mientras que la distribución t de student
con línea azul.
Se distribuye con una distribución t de Student con n – 1 grados de libertad. (recordar que
todavía estamos en la determinación del t crítico)
Diferencias entre las tablas z y t
La tabla t es más compacta. Muestra las probabilidades más usadas.
La tabla t nos da, como encabezado de columnas, la probabilidad de que el
parámetro de la población que se está estimando no quede atrapado en el intervalo
de confianza que se está construyendo
Se deben especificar los grados de libertad con los que se está trabajando.
La tabla nos da el t crítico, es decir, aquel valor de t (como antes era z) que abarca una
cierta área bajo la curva. Cada tabla tiene un dibujo que te indica cuál es el área de probabilidades
bajo la curva que contiene esa tabla. Pero, esa área es la que está fuera del intervalo de confianza.
Ejemplo: Se desea estimar un intervalo de confianza del 95 % con una muestra de tamaño
10.
Se busca en la tabla t la fila para 9 grados de libertad. Se divide en 2 a la hora de buscar en
la tabla (no busco 95%, busco 97,5%). De esta manera, se encuentra el valor crítico de t.
Básicamente, se busca en la tabla t de igual manera que se busca en la tabla z, solo que
debo saber diferenciar cual es el valor crítico de t y cuáles son las variables a tener en cuenta.
Hasta ahora, cuando trabajamos con datos categóricos, nos concentramos en el parámetro
proporción.
Para que el parámetro poblacional estimado sea lo más preciso posible se debe tomar una
muestra adecuada, ni muy grande, ni muy pequeña.
Ejemplo: sabemos que el error es $10, el NC es 95%, desviación estándar Poblacional es
$12. Con estos datos podemos obtener el tamaño de la muestra.
Despejo la desviación estándar muestral del error (tengo el valor de z y del error). Con ese
valor despejo de la fórmula de la desviación estándar muestral y obtengo el número de muestras.
Errores tipo I y II
Como se trabaja con incertidumbre, existen probabilidades de cometer errores.
En la analogía del juicio. Hay dos situaciones que reflejarían errores: que el acusado sea
culpable y se lo declare inocente, o que, el acusado sea inocente y se lo declare culpable. En otras
palabras, los dos errores que pueden cometerse son:
Que se decida rechazar la H₀, declararlo culpable, cuando en realidad H₀, es
verdadera. Es decir, se declararía culpable a un inocente. A este error se lo denomina
tipo I.
Los riesgos de estos dos errores están inversamente relacionados: es decir que
cuando uno crece el otro disminuye.
Antes de realizar la prueba, se debe determinar que error tiene consecuencias más
graves para la situación que se está investigando.
La potencia de prueba no tiene relación directa con el error real del parámetro, es decir, no
disminuye si se aleja del verdadero valor del parámetro.
6. Calcular el o los valores críticos, identificando así las zonas de rechazo y no rechazo (lo
cual deriva en disponer de una la regla de decisión).
Como se pidió trabajar con una significación de 0,05, el valor crítico de t, con 14 grados
de libertad es -1,7613.
Luego, quedará determinada la siguiente regla de decisión
Si el estadístico muestral resultante es inferior a -1,7613, se rechazará la hipótesis
nula.
Si el estadístico muestral es mayor a -1,7613, entonces no se rechaza la hipótesis
nula.
Figura 3: Determinación de zona de rechazo y no rechazo, en la distribución t, para el Caso
2.
=1,8657
Entonces:
8. Verificar en qué zona (de rechazo o de no rechazo) cayó el estadístico de prueba obtenido
con los datos muestrales.
El valor del estadístico muestral se ubica en la zona de no rechazo de Ho.
de las muestras: .
Para aplicar esta prueba:
Las muestras deben ser aleatorias y de poblaciones distintas.
Las poblaciones tienen distribución normal
La prueba z sigue siendo adecuada si las muestras son lo suficientemente grandes
n>30
Se resuelve por la distribución normal estandarizada (Z).
es el estimador puntual de .
El error estándar cuando se tienen dos muestras aleatorias simples independientes
es:
Por lo tanto, el estadístico z para la diferencia entre dos medias es:
(combina) las dos varianzas de muestra para calcular , la mejor estimación para la
varianza común a ambas poblaciones bajo la suposición de que las dos varianzas de las
poblaciones son iguales.
Una vez obtenidos los grados de libertad, se puede continuar con el desarrollo de la prueba.
Prueba de diferencia de medias para muestras relacionadas
Consiste en dos muestras que no son independientes, pues aquí los datos entre las
poblaciones y las muestras, están relacionadas o apareadas. Esta relación puede darse de dos
formas.
1. Los apareos o parejas pueden ser por alguna característica de los individuos de la
población, como una prueba de la diferencia de ventas de un producto bajo distintas campañas
publicitarias.
2. Otro tipo de investigación se realiza con los mismos elementos de una muestra,
antes y después de someterlos a algún tratamiento especial.
Esta prueba es de amplia utilización cuando se necesita disponer de comparaciones entre
sujetos con mínima variabilidad entre sí o en pruebas sucesivas repetidas. Más allá de ello, el
objetivo de esta prueba es estudiar las diferencias entre dos mediciones. Uno de los fines de estas
pruebas es disminuir las diferencias, se da especialmente en el control de calidad en las industrias
manufactureras.
Se utiliza Di, que es la diferencia entre el valor del producto o servicio 1 y el 2 (la diferencia
entre los productos o servicios a comparar), luego se calcula la media con la sumatoria de estas
diferencias.
Luego resolvemos con la distribución t, esto se debe a que la muestra del ejemplo es
pequeña (n<30). El estadístico posee n-1 grados de libertad y es:
Para el cálculo de la desviación estándar muestral se deberá considerar la siguiente fórmula:
Luego quedará proseguir con los pasos consecuentes y llegar a una conclusión. Mediante
este ejemplo se logra ver que toda idea, por más evidente que sea, puede no ser la correcta. Por lo
tanto, el contrastar una suposición puede sorprendernos y darnos una respuesta científica a una
idea previa.
Con estos datos, se pueden aplicar los pasos para los casos resueltos de las medias
poblacionales, establecer la hipótesis nula, la hipótesis alternativa, etc. (VER L4 – M2)
Prueba para la diferencia de dos proporciones (con 2 muestras independientes)
Cuando se requiere comparar dos proporciones poblacionales, se utilizan las pruebas de
diferencias para proporciones seleccionando de ambas poblaciones dos muestras independientes.
El procedimiento que más se aproxima a este tipo de prueba es utilizar el estadístico z para
una distribución normal estandarizada. Aunque también hay otros procedimientos como, por
ejemplo, utilizar la distribución chi cuadrado.
, donde y
Y p: es la estimación conjunta de los éxitos de la proporción de la población:
6- Calcular el o los valores críticos, identificando así las zonas de rechazo y no rechazo.
Se utiliza la tabla de chi cuadrado
Para calcular los valores críticos de una prueba bilateral, se divide el nivel de
significancia en 2. A pesar de que el gráfico no es simétrico (en los extremos son distintos), pero
sí la parte coloreada va a representar un área de α/2.
Como el área debajo de la curva es 1, queda una probabilidad de 0,95, cuyo valor crítico
es según la tabla 13,848.
Entre estos valores críticos hay una probabilidad de 0,90 (confianza), que deja
distribuida entre los dos extremos una probabilidad de 0,1 que es la significancia dada.
Si el estadístico muestral se queda fuera del intervalo formado por ambos valores recién
determinados, se rechaza la hipótesis nula, caso contrario, no se rechaza.
Prueba chi cuadrado con 24 grados de libertad. Se muestran las regiones de rechazo y
no rechazo de Ho y se marcan los valores críticos de chi cuadrado.
7- A partir de los datos muestrales, obtener el valor del estadístico muestral
PARCIAL 2
En el ejemplo. Se muestran las cantidades que son resultado del conteo de los clientes que
pagan con distintos medios de pagos, que son las categorías que se están analizando. Ahora se
realiza la prueba de bondad de ajuste para determinar si la muestra de 1105 clientes mantiene la
proporción en tanto a la preferencia de pagos.
Ahora, se calcula la frecuencia esperada de cada categoría, multiplicando el tamaño de la
muestra por la proporción hipotética de esa categoría.
Frecuencia esperada
Tarjeta de Tarjeta de Otros medios
Efectivo
crédito débito electrónicos
1105 × 1105 × 1105 × 0,08 1105 ×
0,75= 828,75 0,21= 232,05 = 88,40 0,02= 22,10
Si existen grandes diferencias entre las frecuencias, habrá que dudar sobre si el supuesto
de la proporción hipotética de las distintas categorías es correcto.
El estadístico de prueba chi-cuadrado ayuda a decidir si las diferencias entre las frecuencias
observadas y las esperadas son grandes o pequeñas.
Tarjeta de
crédito 0,75 851 828,75 22,25 495,0625 0,597360483
Efectivo 0,21 122 232,05 -110,05 12 111,0025 52,19134885
Tarjeta de
débito 0,08 77 88,4 -11,4 129,96 1,470135747
Otros medios
electrónicos 0,02 55 22,1 32,9 1082,41 48,97782805
TOTAL 1105 Chi-cuadrado: 103,2366731
8) A partir de los datos muestrales, obtener el valor del estadístico muestral o de prueba
9) Verificar si el estadístico cayó en la zona de rechazo o no
10) Tomar la decisión estadística con base en la regla de decisión.
11) Indicar la conclusión.
Nos da el número total de usuarios que se conectaron en los 202 minutos de la muestra.
Con este parámetro estimado, se puede calcular, mediante la fórmula de distribución de Poisson,
las probabilidades de cada variable. Luego a cada probabilidad la multiplicamos por la muestra y
se obtienen las Frecuencias Esperadas.
Usuarios Probabilidad Frecuencias
conectados Poisson esperadas
0 0,165298888 33,3904
1 0,297537999 60,1027
2 0,267784199 54,0924
3 0,160670519 32,4554
4 0,072301734 14,6050
5 0,026028624 5,2578
6 0,007808587 1,5773
7 0,002007922 0,4056
Totales 0,999438473 201,8866
0 0,165298888 33,3904
1 0,297537999 60,1027
2 0,267784199 54,0924
3 0,160670519 32,4554
4 0,072301734 14,6050
5 o más 0,035845133 7,2407
Totales 0,999438473 201,8866
6) Establecer qué estadístico muestral con distribución conocida se utilizará en la prueba.
Antes de hacer los cálculos con chi-cuadrado, se debe verificar que en las frecuencias
esperadas no exista ninguna menor a 5.
p = 1 porque solo se estimó un parámetro (λ). (Esto es para calcular los valores críticos)
10 años o menos 65 20 5 90
Más de 10 años 35 60 115 210
Totales 100 80 120 300
En las celdas coloreadas, se asentaron los datos del problema. Las restantes celdas se
completan según las reglas de construcción de las tablas de contingencia, teniendo en cuenta que
dentro de cada categoría principal los eventos son complementarios o exhaustivos.
Los datos del problema pueden abarcar solo una categoría o dos categorías. Es importante
que la tabla esté equilibrada en los totales y que tengamos el número mínimo de datos para
completarla.
Elaborando así la tabla de frecuencias esperada para cada celda de la tabla de contingencias.
10 años o menos 30 24 36 90
Más de 10 años 70 56 84 210
Totales 100 80 120 300
Ahora, se deben calcular los valores críticos para determinar la zona de rechazo y no
rechazo (recordar que es una distribución de cola derecha).
El número de grados de libertad para la distribución chi-cuadrado adecuada se obtiene al
multiplicar el número de filas menos 1 por el número de columnas menos 1. Como se tienen dos
filas y tres columnas, los grados de libertad son: (2 − 1) × (3 − 1) = 1 × 2 = 2.
Puede observarse que, si las frecuencias esperadas (bajo la hipótesis nula cierta de
independencia o no relación entre variables) difieren sistemáticamente de las observadas,
tendremos elementos como para descartar la independencia y concluiremos que existe relación
entre las variables. En tal caso, el valor del estadístico asumirá valores elevados. De lo contrario,
si, en general, las frecuencias esperadas (bajo la hipótesis de no relación) no difieren de las
observadas, no tendremos elementos para descartar la independencia.
En el ejemplo anterior, utilizando las tablas de contingencia, se puede concluir que se
rechaza la hipótesis nula debido a que la distribución de chi-cuadrado para las frecuencias
esperadas cae en la zona de rechazo.
ANOVA
El análisis de varianza o, como es más conocido, ANOVA (ANalysis Of VAriance)
examina dos o más conjuntos de datos (poblaciones) e intenta detectar diferencias
estadísticamente representativas entre las medias de dichos conjuntos. Estas poblaciones se
llamarán grupos o tratamientos.
Estos grupos pertenecen a un factor de interés, como puede ser, un dato categórico
(Clientes atendidos por cada vendedor). En este caso, será una ANOVA de 1 factor o vía.
Además, a un grupo se le puede asignar diferentes niveles de factor (3 niveles, 3
vendedores).
En otras palabras, permite probar la significancia de las diferencias entre más de dos medias
muestrales. Usando el análisis de varianza, podremos hacer inferencias acerca de si nuestras
muestras se tomaron de poblaciones que tienen la misma media.
La ANOVA no tiene por objetivo en análisis de las varianzas, sino de las medias. Utiliza
las varianzas para comparar las medias.
Es útil en situaciones donde se quieren comparar distintos métodos de enseñanza o el
rendimiento de cierto combustible. Es decir, cuando es necesario tomar más de dos muestras para
comparar y así poder inferir sobre las medias poblacionales para la posterior toma de decisiones.
La razón por la que se utiliza el ANOVA es que permite comparar la media de los distintos
métodos en forma simultánea evitando la acumulación del error de tipo I. Sobre todo, al realizar
varias comparaciones en simultáneo (ejemplo de los 4 métodos de enseñanza).
La variable en estudio es cuantitativa —también se la suele llamar dependiente—, porque
está en función de los grupos o categorías que son independientes (la variable dependiente es la
cantidad de clientes que atienden los vendedores diariamente).
No necesariamente las muestras deben ser del mismo tamaño.
Por ejemplo:
O, calculando la media de las medias de cada grupo.
Lógica de la prueba
El ANOVA está basado en las comparaciones de dos estimaciones de la varianza
poblacional σ2, tomando esta como varianza total de todas las observaciones, como si todas
formaran parte de una misma población. En nuestro caso se toman las 12 observaciones.
Para las dos estimaciones de la misma varianza, se emplean métodos distintos.
1- Uno puede ser calculando la varianza de la población a partir de la varianza entre las
medias de las muestras.
2- La otra estimación se hace a partir de la varianza dentro de las muestras.
Luego, comparamos estas dos estimaciones. Si realmente es verdadera la hipótesis nula,
deberían dar aproximadamente el mismo valor para la varianza poblacional. Si son
significativamente diferentes, se rechaza la hipótesis nula.
Si existe una variación considerable entre las medias de los tratamientos, SSE será
grande, ocurrirá lo contrario si las medias son similares. El valor más bajo posible es 0.
Si hay una gran diferencia entre las medias, esta diferencia genera la diferencia entre
las SS.
2) La varianza que involucra a la dispersión entre grupos SSE se llama cuadrados medios
entre
Es la estimación de la varianza poblacional, teniendo en cuenta la variabilidad entre
grupos.