Está en la página 1de 60

Estadística 2

La muestra debe representar a la población.


Estadísticos y parámetros: Ellos permiten efectuar una correcta estimación sobre los
valores de la población.
El salario promedio obtenido en la muestra se denomina estadístico, mientras que el salario
promedio de toda la población docente constituye el parámetro.
Se define como bondad al margen de seguridad con el que se realiza la inferencia de
acuerdo con los estudios realizados sobre la o las muestras.

Estadística inferencial:
Es el conjunto de métodos y técnicas que permiten determinar, de una muestra debidamente
representativa de una población, los valores estadísticos, a fin de poder inferir sobre los
parámetros poblacionales con un cierto grado de bondad.
Los parámetros poblacionales más usuales en la estimación son: a) la media; b) el desvío
estándar; y c) la proporción de los elementos de la población que cumplen con determinada
característica.

Definición de distribución de muestreo de la media


No podemos esperar que los estadísticos de una muestra sean iguales a los parámetros
poblacionales.
La media de la muestra nos permite inferir sobre la media poblacional, mientras que el
desvío estándar o la proporción de los elementos con la característica en estudio de la muestra nos
permite inferir sobre el comportamiento de los parámetros poblacionales.
Una distribución de probabilidad de todas las medias posibles de las muestras es una
distribución de las medias de las muestras. Los especialistas en estadística la conocen como
distribución de muestreo de la media.
Esquema sobre la extracción de todas las muestras posibles del mismo tamaño de una
población.
Si consideramos las medias de todas esas muestras y generamos con ellas una distribución
(tabla de distribución de frecuencias), obtendremos lo que se denomina como distribución de
muestreo de las medias.
A cada media muestral, se la considera como variable aleatoria, pues es el resultado de un
experimento aleatorio.
La distribución de medias muestrales tendrá una forma aproximadamente normal,
independientemente de la forma original de la población.
Esta distribución tendrá una media que, en este caso, puede calcularse como la media de
todas las medias y también un valor esperado.
Al desvío estándar de esta distribución de medias muestrales, se lo denomina error
muestral estándar. Cuanto más pequeño sea este valor, menor será el error que se cometa cuando
se infiera sobre la media poblacional a través de la media de una muestra.

Error estándar o Error muestral estándar


La desviación estándar de la distribución de las medias muestrales es lo mismo que el error
estándar de la media. El error estándar de la muestra es distinto a la desviación estándar de la
población (aunque existe una relación entre ellos).
Este error indica que tan separadas se encuentran las medias de las muestras entre sí.
Explica que la variabilidad de los estadísticos calculados en las muestras proviene de un error de
muestreo. Este error es debido a la aleatoriedad de las muestras.
Cálculo de parámetros poblacionales (para un ejemplo):

Media:

Varianza:

Desviación Estándar:
Esta es una situación ideal de una población muy pequeña, por eso, no se considera N-1 en
el denominador para la varianza y la desviación estándar (no se trata de una muestra).
Cálculo de estadísticos de la distribución de medias muestrales:

Media de la distribución muestral:

Varianza: Var(x) =

Desviación estándar:
Otro cálculo que puede interesar es el de la probabilidad de ocurrencia de las medias
muestrales, que viene dada por las frecuencias relativas

Algunas características a destacar que posee la distribución de medias muestrales es que:


 La distribución de las medias muestrales para n grande tiene forma normal. Si la
población no está distribuida normalmente, la distribución de las medias muestrales
se aproximará a una normal, si el tamaño de la muestra es lo suficientemente grande.

 La distribución de las medias muestrales tiene una media igual a la media


poblacional x̿=μ.

 La desviación estándar de las distribuciones de las medias muestrales (error

estándar), está dado por la expresión


Teorema del límite central
Si de una población de media μ y desviación estándar σ se extraen todas las muestras
posibles del mismo número de elementos n en cada una de ellas y de cada muestra obtenemos su
media 𝑥, la distribución de todas esas medias tendrá una distribución del tipo normal,
independientemente del tipo de distribución que sea la población, con una media muestral x̿ igual
a la media poblacional μ y un desvío estándar σ𝑥 menor al desvío estándar poblacional, el cual

es denominado error muestral estándar. Su valor es igual a (cociente entre el desvío


estándar poblacional sobre la raíz cuadrada de n: tamaño de muestra).

Factor de corrección para poblaciones finitas


La población se considera infinita cuando el tamaño de la muestra es menor al 5 % del
tamaño de la población: n < 0,05 N
En el caso de estar frente a una población finita, es necesario introducir un factor de
corrección para poblaciones finitas. Para el cálculo del error estándar, sería:

; quedando la fórmula;

A la hora de la resolución de un ejercicio utilizando una distribución normal (ya que la


distribución de las medias muestrales se asemeja a una normal).

 Para una distribución normal:

 En caso de una distribución de medias muestrales:

 Entonces,
Ejemplo de planteo, en un caso se nos pregunta cuál es la probabilidad de que la diferencia
entre la media de la muestra tomada y la media poblacional no sea mayor a 0,5 kg. Se plantea lo
siguiente, en valor absoluto, pues se pretende que la media muestral no esté más alla
de ± 0,5.
También puede interpretarse de la siguiente manera. Si la media poblacional es
desconocida, podemos plantear que el intervalo a considerar es el que está dentro de
.
Se estandariza y se trabaja con la tabla de la distribución normal.
Un ejemplo de resolución de ejercicio sería el siguiente:

, luego lo realizamos para el caso en que


la media muestral sea mayor a la media poblacional.

Entonces ahora, buscamos en la tabla de Z y restamos:

De esta manera, la probabilidad de que la media muestral se encuentre a 0,5 kg o menos de


la media poblacional es de 98,26%.
Así debo resolver ejercicios
Ahora, si se quiere saber cuál es la probabilidad de que el consumo medio de la muestra
supere al consumo medio poblacional en 0,75. Si la media poblacional es desconocida.

Al ser un Z tan elevado, la tabla nos arrojará el valor 1, que al restarle a 1 para saber cuál
es la probabilidad de que la muestra supere a la media poblacional (en este ejemplo), es 0.

Distribución de muestreo para la proporción


Se trata de extraer una muestra, calcular la proporción de la característica de interés en
dicha muestra y analizar qué sucede en la población con esa característica, basándonos en los
datos muestrales.
La fórmula para calcular la proporción muestral es:

Siendo x el número de elementos de la muestra que poseen la característica de interés; y n


el tamaño de la muestra.
La proporción muestral 𝑝 es una variable aleatoria y su distribución de probabilidad se
conoce como distribución muestral de 𝑝.

Características de la distribución muestral de la proporción


Para determinar cuán cerca está la proporción de una muestra 𝑝 de la proporción
poblacional p, se muestran las propiedades de la distribución muestral de la proporción.
 Valor esperado o media: El valor esperado de 𝑝 es la media de todos los posibles
valores de 𝑝. A su vez, es igual a la proporción poblacional p. E(𝑝) = p.

 Desviación estándar de la proporción muestral: Error estándar de la proporción.

Para poblaciones infinitas:

Para poblaciones finitas es igual, solo que se agrega el factor de corrección.

 Forma de la distribución muestral de la proporción: Podemos afirmar entonces


que la distribución muestral de 𝑝 se aproxima mediante una distribución normal
siempre que: n.p ≥ 5 y n.q ≥ 5
Ejemplo:
En el caso de la productora de té, el valor esperado o media de la distribución muestral de
𝑝 es 0,60. n=36

El error estándar de la distribución de muestras de la


proporción de clientes que consumen esa marca es de 0,0816.
Como n.p ≥ 5 y n.q ≥ 5, la distribución muestral de 𝑝 se calcula mediante distribución
normal.
La proporción y el teorema del límite central
La proporción se encuentra en una población como un nuevo parámetro, el cual se
determinará en la mayoría de los casos con una inferencia a través del estadístico correspondiente
de una muestra.
El valor práctico de la distribución muestral de 𝑝 es que permite obtener información
probabilística acerca de la diferencia entre la proporción muestral y la proporción poblacional.
El teorema del límite central puede ser aplicado para las proporciones. Es decir, que si
luego de extraer las muestras de la población, se determina la proporción y posterior a ello, se
genera una distribución muestral de las proporciones, ésta será normal. Además, la media de la
distribución muestral de las proporciones, será igual a la proporción de la población.
Ejemplo: si queremos que el estadístico de la proporción muestral no difiera de la
proporción poblacional en más de 0.05 (5%), entonces, tenemos que calcular la probabilidad de
que la proporción poblacional esté dentro del intervalo [0,60 - 0,05; 0,60 + 0,05].

Siendo 𝑝 cualquier proporción de la distribución de proporciones de la muestra


(límites del intervalo).
p: es la proporción de la población
σ𝑝 : es el error muestral de la distribución de proporciones de la muestra.

Luego de estandarizar, 0,7291 – 0,2709 = 0,4582; por lo que, la probabilidad de seleccionar


una muestra en la cual el valor de 𝑝 no difiera más de 0,5 de la proporción poblacional p es
45,82%.
Si se aumenta el tamaño de la muestra, el error estándar de la proporción disminuye.

Estimación y Estimadores
La base de la inferencia estadística es la estimación. Se basa en la obtención de
conclusiones referidas a la población, a partir de la evidencia recogida de una muestra.
Parámetros y estadísticos
Los parámetros son las medidas de resumen poblacional que permiten describir el
conjunto de datos analizados.
Los estadísticos o estimadores son las medidas análogas obtenidas a partir de datos
muestrales. Incluye a la media muestral, la varianza muestral, la proporción muestral, entre otras.
Estos valores, se utilizan para proporcionar una idea del valor de la medida poblacional
correspondiente, pero considerando solo datos muestrales.
Un buen estimador debe poseer las siguientes características:
 Imparcialidad (ser insesgado).
 Eficiencia
 Consistencia
 Suficiencia

1) Un estimador es imparcial o insesgado cuando su valor esperado coincide con el


parámetro poblacional que estima. Sucede si la media de la distribución del estimador es igual al
parámetro.

La cuasivarianza muestral es un estimador imparcial o insesgado de la varianza

poblacional. Su fórmula es:

La mediana muestral es un estimador sesgado o parcial de la mediana poblacional.

2) Un estimador es eficiente si en promedio se acerca más al parámetro estimado que


cualquier otro estimador. La media muestral cumple este requisito para la media poblacional. La
eficiencia se refiere al tamaño del error estándar del estadístico, mientras menor sea, más eficiente
será el estadístico.

3) Un estimador es consistente si a medida que se aumenta el tamaño de la muestra, el


estimador se aproxima sistemáticamente al valor del parámetro poblacional. El cumplimiento de
estas propiedades hace de la media muestral el mejor estimador de la media poblacional.

La media y la cuasivarianza son estimadores consistentes.


4) Un estimador es suficiente si utiliza tanta información de la muestra que ningún otro
estimador puede extraer información adicional acerca del parámetro de población que se está
estimando.

Estimación puntual
Existen dos tipos de estimaciones sobre una población a partir de una muestra:
 Estimación puntual
 Estimación de intervalo
La estimación puntual sucede cuando al parámetro le asignamos un valor único, un número
que se utiliza para estimar un parámetro desconocido de la población. A este número, por lo
general, lo obtenemos a través de una fórmula.
- La media de la muestra puede ser un estimador puntual de la media de la población.
- La desviación estándar de la muestra s, puede ser un estimador puntual de la
desviación estándar de la población σ.
- La proporción de la muestra p, puede ser un estimador de la proporción de la
población π. Al estimador de la proporción de la muestra, se lo designa con .
La media de la muestra es el mejor estimador de la media de la población porque cumple
con las características mencionadas previamente. Su distribución muestral puede ser aproximada
mediante una distribución normal.
Es de esperarse que las estimaciones puntuales difieran de los parámetros poblacionales,
justamente porque las estimaciones puntuales son realizadas a partir de una muestra.

Estimación mediante intervalos de confianza


Una estimación de intervalo es un rango de valores que se utiliza para estimar un parámetro
de la población.
Una estimación puntual solo puede ser correcta e incorrecta. Es mucho más útil si está
acompañada por una estimación del error que podría cometerse en la inferencia. Es necesario tener
en cuenta que los estadísticos no coincidirán puntualmente con los parámetros poblacionales.
Por tal motivo, se calcula una estimación por intervalo. Este intervalo se construye al
sumar y restar al estimador puntual un valor llamado margen de error que designamos con E.
[estimación puntual –E ; estimación puntual +E]
Este margen es el que está dispuesto a aceptar el investigador o la persona que realiza el
estudio estadístico. La probabilidad que asociamos con una estimación de intervalo se conoce
como nivel de confianza.

Estimación de media poblacional a partir de la media muestral


mediante un intervalo de confianza
Error de estimación o margen de error. Confiabilidad
Para una muestra cualquiera, la media estará ubicada bajo la curva a una distancia máxima
E de la media poblacional, por lo tanto, si estimamos la media poblacional a través de la media de
esa muestra cometemos un error, el cual está dado por E.

Si consideramos una de las medias de la muestra , su media tendrá un valor 𝑥 y se ubicará


sobre el eje de las abscisas a una distancia E de la media poblacional μ. Esto quiere decir, que, si
estimamos la media poblacional a través de la media de una muestra, se cometerá un error E.

(es ± porque el error se comete de ambos lados de la media)


Podemos, también, expresar el error E en función del error muestral. Entonces, operando,
la expresión del error de estimación quedaría así:

z: nos indica el grado de bondad o nivel de confianza.


σ: indica el desvío estándar poblacional.
n: representa el tamaño de la muestra.
El error de estimación es el máximo error permitido entre el valor de la media de una
muestra y el valor de la media poblacional.
Si se conoce la desviación estándar de la población, entonces, el error muestral queda sujeto
a la variación del tamaño de la muestra y del grado de seguridad (confiabilidad) con que se quiera
estimar el parámetro poblacional.
Los grados de confiabilidad más utilizados son los de: 90 %, 95 %, 98 % y 99 %. (90% -
z= 1,645); (95% - z= 1,96); (98% - z= 2,33); (99% - z= 2,575).
Por ejemplo, si se adopta un valor de confianza del 95% en la estimación de la media
poblacional. Entonces, el 95% de todas las muestras tienen una media comprendida en ese
intervalo.
En la figura, se visualiza la ubicación del coeficiente de confianza y el área ocupada por
este. Además, se muestra el z = 1,96 correspondiente a la confianza del 95 %.

La desviación estándar de la distribución de muestras (error estándar o error muestral) se


calcula así (para el ejemplo de la embotelladora):

Con él, luego se puede calcular el error de estimación (o margen de error o máximo error
permitido para estimar la media poblacional) E.

Fórmulas del intervalo de confianza para la media cuando es


conocida la desviación estándar poblacional: σ
Para determinar un intervalo de confianza para la estimación de la media poblacional, será
necesario.
 Adoptar un nivel de confianza
 Determinar la media de una muestra y utilizarla como estimador puntual de la media
poblacional.
 Definir los límites del intervalo sobre la base de la estimación estándar de la
población, que es conocida.

Límite inferior de confianza:

Límite superior de confianza:


El tamaño de la muestra n es inversamente proporcional al margen de error E (a mayor n,
menor E).
Si un determinado tamaño de muestra da un intervalo demasiado amplio, para que tenga
utilidad práctica, se aumenta el tamaño de la muestra.

Desviación estándar poblacional desconocida


Si la desviación estándar no se conoce y la muestra es grande, n ≥ 30, se utiliza la
desviación estándar de la muestra como estimador de la desviación estándar poblacional.

A se lo llama, estimador de la desviación estándar poblacional. Utilizar factor de


corrección para poblaciones finitas en caso de ser necesario.

Conclusiones importantes

Si la población es normal y utilizamos la fórmula: , el intervalo de confianza que


se obtiene es exacto.
Si la población no tiene forma normal, el intervalo de confianza obtenido será aproximado.
El grado de aproximación dependerá tanto de la distribución de la población como del tamaño de
la muestra.
Si no se conoce σ y si la distribución de la población es muy sesgada, se recomienda que
n>50.
Cuando σ es conocida, E es fijo y es el mismo para todas las muestras del mismo tamaño
n.
Cuando σ no se conoce, el margen de error varía de una muestra a otra.
La amplitud del intervalo de confianza aumenta a medida que el nivel de confianza
aumenta.

Estimación de la proporción poblacional π a partir de la proporción


muestral p mediante un intervalo de confianza
La proporción se constituye en una población como un nuevo parámetro, que se
determinará, en la mayoría de los casos, como una inferencia a través del estadístico
correspondiente de una muestra.
La distribución de muestras de la proporción tiene lo siguiente:
 Una media igual a la proporción poblacional:

 El error estándar o la desviación estándar de la distribución muestral de la

proporción: . Donde:

: es la proporción de éxitos de la muestra.

: es la proporción de fracasos de la muestra.

Error estimado (E) en una estimación por intervalo de confianza de la


proporción
De manera similar a lo analizado para la estimación por intervalos de la media,
comenzaremos por obtener una estimación por intervalo para la proporción poblacional a partir
de la proporción muestral .
La fórmula general de una estimación por intervalos para la proporción será:

± margen de error (E); entonces para calcular E:

Donde es la desviación estándar de la distribución muestral de proporciones o error


estándar.
Entonces, el error de estimación es el máximo error permitido entre el valor de la
proporción de la muestra y el valor de la proporción poblacional.
Aquí no tendremos el problema de si la desviación estándar es conocida o no, pues no
interviene en la fórmula del intervalo de confianza para la proporción.
Cuando la relación entre el tamaño de la muestra n y el de la población N es mayor o igual
a 0,05 debemos aplicar el factor de corrección para poblaciones finitas.
Fórmulas del intervalo de confianza para la proporción

Límite inferior de confianza:

Límite superior de confianza:


A mayor tamaño de la muestra, menor es el error estimado E y el error estándar σ𝑝 .

Ejemplo:

Con un 95% de confianza el intervalo [0,304 ; 0,496] contiene a la proporción poblacional.


Distribución t de Student. Determinación del tamaño
de la muestra
Desviación estándar desconocida
Si no conocemos la desviación estándar poblacional y la muestra es pequeña (menor o igual
a 30), ¿cómo podremos estimar la media poblacional?
El uso de la distribución t para hacer estimaciones se requiere siempre que el tamaño de la
muestra sea menor o igual que 30 y la desviación estándar de la población no se conozca. Además,
al utilizar la distribución t, suponemos que la población es normal o aproximadamente normal.
Entonces, podremos utilizar s para estimar σ y así también estimar el error estándar y el
intervalo de confianza para la media poblacional.
La distribución t depende de un parámetro conocido como grados de libertad. La
distribución t para un grado de libertad es única, como lo es para dos o tres grados de libertad, etc.
A medida que este número aumenta, la diferencia entre la distribución t y la distribución normal
estándar se reduce.

Grados de libertad
Se remite a la cantidad de valores que pueden asumir libremente, las variables aleatorias
de una muestra.
Si conocemos o calculamos en función de tales datos un estadístico, podemos perder grados
de libertad o valores que pueden variar del total de datos disponibles de la muestra.
Por ejemplo: si tenemos como dato la media de una muestra y su tamaño: n, tenemos n-1
variables aleatorias que podemos especificar libremente, con la condición de que la suma de las
variables dividido n de por resultado la media. Por eso, a la expresión n-1 se la llama grados de
libertad. Si tenemos una muestra de 8 variables, n-1=7, tiene siete grados de libertad.
Características de la distribución t
Esta distribución tiene una forma similar a la distribución normal estándar:
 Tiene forma de campana;
 Tiene una media de 0 y es simétrica;
 Tiene una varianza mayor que 1;
 Se aproxima más la distribución t de student a la normal cuantos más grados de
libertad posee.
La distribución normal se observa con línea roja mientras que la distribución t de student
con línea azul.

para 2 grados de libertad

para 15 grados de libertad


Se puede concluir que ambas distribuciones son simétricas, hay una distribución t para cada
tamaño de la muestra, cuando los grados de libertad son menores, la distribución t abarca menos
área en el centro y más en las colas.

Uso de la tabla t: determinación del t crítico


Si la variable aleatoria x es normal, el estadístico:

Se distribuye con una distribución t de Student con n – 1 grados de libertad. (recordar que
todavía estamos en la determinación del t crítico)
Diferencias entre las tablas z y t
 La tabla t es más compacta. Muestra las probabilidades más usadas.
 La tabla t nos da, como encabezado de columnas, la probabilidad de que el
parámetro de la población que se está estimando no quede atrapado en el intervalo
de confianza que se está construyendo
 Se deben especificar los grados de libertad con los que se está trabajando.
La tabla nos da el t crítico, es decir, aquel valor de t (como antes era z) que abarca una
cierta área bajo la curva. Cada tabla tiene un dibujo que te indica cuál es el área de probabilidades
bajo la curva que contiene esa tabla. Pero, esa área es la que está fuera del intervalo de confianza.
Ejemplo: Se desea estimar un intervalo de confianza del 95 % con una muestra de tamaño
10.
Se busca en la tabla t la fila para 9 grados de libertad. Se divide en 2 a la hora de buscar en
la tabla (no busco 95%, busco 97,5%). De esta manera, se encuentra el valor crítico de t.
Básicamente, se busca en la tabla t de igual manera que se busca en la tabla z, solo que
debo saber diferenciar cual es el valor crítico de t y cuáles son las variables a tener en cuenta.

El valor de t encontrado o valor crítico de t, indica que a una distancia de ±… errores


estándar estimados de la media 𝑥 (es hacia ambos lados, por eso el ±), indica cual será el
porcentaje que se encuentra bajo la curva, mientras que el restante será lo que se encuentra en las
colas del gráfico.

Prueba de bondad de ajuste

Hasta ahora, cuando trabajamos con datos categóricos, nos concentramos en el parámetro
proporción.

Pruebas para variables categóricas


Podemos generalizar los casos de las pruebas de hipótesis para datos categóricos en dos
grupos:
 Considerar toda una distribución de valores de una variable categórica (puede ser
dicotómica o adoptar más valores).

 Considerar una distribución bivariada, y que a su vez cada categoría de la


distribución pueda observarse bajo otras categorías. Es decir, que se puedan analizar
las ocurrencias de categorías de ambas dimensiones al mismo tiempo (tablas de
contingencia).
En el primer caso, se desarrolla una prueba denominada bondad de ajuste, que sirve para
extraer una conclusión acerca de la distribución que efectivamente sigue una determinada
variable.
Para el segundo caso, nos auxiliaremos con tablas de contingencia, utilizaremos las pruebas
denominadas de “independencia”.
Ambas pruebas usan estadísticos con distribución chi-cuadrado.
La distribución binomial, tiene dos valores de probabilidad (variables dicotómicas).
Extenderemos este modelo a una distribución de variable categórica, pero adoptando ahora, más
de dos valores de probabilidad. Llamándose ahora “Distribución Multinomial”. Además, hay una
prueba de bondad de ajuste para cada distribución conocida, que se ven resumidas así:
 Si un conjunto de datos se ajusta a una distribución “modelo” (normal, Poisson,
exponencial, entre otras conocidas).

 Si un conjunto de datos se ajusta a una distribución conveniente, según el


problema que se trate. Por ejemplo, a una distribución multinomial con variables
categóricas.

Prueba de bondad de ajuste


Las pruebas de bondad de ajuste son pruebas de hipótesis para verificar si los datos
observados en una muestra aleatoria se ajustan con algún nivel de significancia a determinada
distribución de probabilidad.
También, sirve para determinar si una población tiene una distribución teórica específica,
ya sea una distribución conocida o una distribución ad hoc. Se comparan los resultados muestrales
con los resultados esperados cuando la hipótesis nula es verdadera.
La conclusión de la prueba de hipótesis se basa en qué tan “cerca” se encuentran los
resultados muestrales de los esperados.
Es decir, qué tan buena concordancia se tiene entre las frecuencias de ocurrencia según las
observaciones en una muestra y las frecuencias esperadas que se obtienen a partir de la
distribución hipotética.
El estadístico de prueba tiene distribución chi-cuadrado con (k − 1) grados de libertad,
donde k es la cantidad de valores distintos que adopta la variable de la distribución que se analiza.
Digamos que k es la cantidad de categorías de la variable. Recuerda que tendrás que utilizar la
misma tabla que se utilizó en el módulo anterior, cuando se estudió la prueba de hipótesis para la
varianza poblacional.
La fórmula del estadístico es:
En todas las cat. Las frecuencias esperadas deben ser 5 o más

𝑓𝑜𝑖 es la frecuencia observada en la categoría i.


𝑓𝑒𝑖 es la frecuencia esperada en la categoría i.
k es el número de categorías.

Para poder utilizar la distribución t en la estimación por intervalos de la media poblacional,


se tiene que desconocer la desviación estándar poblacional, con el supuesto de una variable
aleatoria que se distribuye normalmente o aproximadamente normal y la muestra es menor o igual
a 30
Fórmulas

Desviación estándar estimada de la población: Indica que puede


utilizarse la desviación estándar de una muestra para estimar la desviación estándar de una
población.
Error estimado de la población Nos permite calcular un error estándar
(estimado) de la media de una población infinita a partir de una estimación de la desviación

estándar de la población. si es necesario aplicar el factor de corrección.

Fórmulas para la estimación del intervalo de confianza utilizando la


distribución t

Límite inferior del intervalo:

Observar que que es el error estándar (estimado) de la media de una población.

Límite superior del intervalo:

En este caso, el margen de error:


Cuando no se conoce la desviación estándar poblacional, el margen de error es distinto para
cada muestra, porque depende de s. Lo contrario sucede en la estimación por intervalos de la
media cuando la desviación estándar poblacional es conocida. E siempre permanece constante
para un tamaño de muestra determinado.
El intervalo realizado con la distribución t nos da con mayor amplitud que el realizado con
la distribución z.
El intervalo utilizado con la distribución z, en el que conocíamos la desviación estándar
poblacional, es más preciso que el calculado mediante la distribución t. Esto se debe a que la
amplitud del intervalo es menor cuando se conoce la desviación estándar (o varianza) y, por lo
tanto, el error estándar es menor.
La mayor amplitud del intervalo se asocia a que exista una mayor seguridad de que la media
caiga en el.
Ejemplo: Los datos muestrales siguientes provienen de una población normal: 15; 13; 11;
10; 8; 12; 5; 6 ¿Cuál es el margen de error para la estimación de la media poblacional, con un 95
% de confianza?

Determinación del tamaño de la muestra

Para que el parámetro poblacional estimado sea lo más preciso posible se debe tomar una
muestra adecuada, ni muy grande, ni muy pequeña.
Ejemplo: sabemos que el error es $10, el NC es 95%, desviación estándar Poblacional es
$12. Con estos datos podemos obtener el tamaño de la muestra.
Despejo la desviación estándar muestral del error (tengo el valor de z y del error). Con ese
valor despejo de la fórmula de la desviación estándar muestral y obtengo el número de muestras.

Otra forma de resolver el tamaño de la muestra, cuando no hay desviación estándar


poblacional.
Se puede tomar la desviación estándar muestral como estimador de la poblacional. Es
aconsejable seleccionar una muestra preliminar y utilizarla luego como estimador.
Se puede hacer con una lógica que se basa en el rango de los datos de la población. Sabemos
que la media más y menos 3 desviaciones estándar incluyen el 99,7 % del área total bajo la curva
normal (regla empírica). Por lo tanto, el rango aproximadamente abarca 6 desviaciones estándar.
Para una estimación un poco burda de la desviación estándar podría ser el rango de la población
dividido 6. No es una estimación precisa, pero puede funcionar si la distribución es normal.
Determinación del tamaño de la muestra para proporción poblacional
Partimos de la fórmula del error permitido o margen de error en la estimación de intervalos
para la proporción.

Para obtener el tamaño de la muestra se debe despejar n y reemplazar.


En el caso de no tener p ni q, se les puede dar un valor conservador como 0,5 y 0,5.
Siendo p el estimador de la proporción poblacional de éxitos y q el estimador de la
proporción poblacional de fracasos.
Si la desviación estándar de una población es muy pequeña, los valores se agrupan muy
cerca de la media y casi cualquier tamaño de muestra los captará y producirá información precisa.
Por otro lado, si la desviación estándar de la población es muy grande y los valores están bastante
dispersos, será necesaria una muestra muy grande para incluirlos y obtener información correcta.

Esquema general de la prueba de hipótesis


Concepto y estrategia general de las pruebas de hipótesis
Una hipótesis estadística es un supuesto que se establece sobre las características de una
distribución poblacional.
Nos referimos a una hipótesis que pueda ser contrastada y que, además, permita medir la
probabilidad del error que se cometería cuando se hace una afirmación sobre la población en
estudio. Ya sea a favor o en contra de alguna hipótesis de interés sobre la población.
Podemos decidir que la afirmación es aceptable si en la muestra obtenemos un resultado
razonablemente cercano al previsto en la afirmación. El estadístico utilizado para esto se
denomina estadístico de prueba.
Si, por el contrario, la evidencia de la muestra arroja un valor muy alejado, desconfiaremos
de la validez de la idea supuesta sobre el valor del parámetro.
Analogías para comprender esta metodología
1) Se desea informar sobre la presencia de alguien en una habitación cerrada. Solo
podemos observar por la rendija de la puerta; esta zona sería equivalente a nuestra muestra. Pueden
suceder dos cosas, que efectivamente no haya nadie en la habitación; o que, hay alguien, pero se
encuentra en una zona de la habitación no accesible desde el punto de observación.

2) En un juicio, donde se analiza la culpabilidad o inocencia de un acusado. La decisión


que se tome en base a la evidencia (muestral, de las pruebas) puede ser correcta, por ejemplo, si
se lo declara inocente y efectivamente no cometió el crimen. Pero existen dos errores posibles,
que se declare inocente a una persona culpable o que se declare culpable a una persona inocente.
3) Otro caso es, establecer a través de un examen o evaluación si los alumnos
comprendieron o aprendieron una serie de temas. Los problemas aparecen si un alumno que sabe
los contenidos es reprobado en la evaluación, o bien, si se aprueba a quien realmente no los
conoce.

Hipótesis nula o hipótesis alternativa


La primera tarea consiste en definir de manera correcta cuál va a ser la hipótesis que
queremos someter a contraste o prueba.
Haciendo una analogía con la prueba de hipótesis, la hipótesis nula asume el papel del
acusado en el juicio y el investigador el papel de fiscal.
La hipótesis nula es un supuesto acerca de uno o más parámetros de la población que debe
ser rechazado o no en base a la evidencia muestral. La hipótesis nula es la idea previa sobre el
valor del parámetro que se va a probar. No se “acepta” una hipótesis nula porque no se tiene
información contundente por el hecho de ser muestral.
Simbolizaremos la hipótesis nula como H0. Se denomina nula en el sentido que supone que
no existe diferencia real entre el verdadero valor del parámetro de la población de la que hemos
obtenido la muestra y el valor hipotetizado (supuesto de inocencia).
Si la hipótesis nula es falsa, deberá existir otra hipótesis que sea verdadera. La hipótesis
alternativa. Se establece siempre como lo opuesto a lo que afirma la hipótesis nula, indica que la
conclusión es verdadera si se logra rechazar la hipótesis nula. Se simboliza con H1 o Ha.
 En la H0 siempre aparece un igual (igual estricto, mayor o igual, etc.) referido a
cierto valor del parámetro.

 En la H1 nunca se incluye el signo igual.


Las hipótesis se plantean siempre sobre la población y ambas hipótesis son
complementarias.
La metodología de prueba de hipótesis está diseñada de modo que nuestro rechazo de la
hipótesis nula esté basado en evidencias, aportadas por la muestra, de que es más probable que
nuestra hipótesis alternativa sea verdadera. Sin embargo, el hecho de no rechazar la hipótesis nula
no es una prueba de que esta sea verdadera.
Valor crítico del estadístico de la prueba – nivel de significación 𝛼
Debería establecerse un criterio que especificara, de manera objetiva, a partir de qué valor
de la media muestral se tomará la decisión de rechazar o no la hipótesis nula. Allí nace el concepto
de criterio de decisión o regla de decisión.
Este criterio está basado en el cálculo del valor crítico del estadístico de prueba, que se
calcula en base a la información aportada por la muestra.
Por lo tanto, primero se calcula el valor crítico y luego se formula la regla de decisión. El
valor crítico definirá un punto de corte para tomar la decisión estadística.
Entonces, para definir la regla de decisión establecemos qué valores se tomarán como
cercanos al establecido en la hipótesis nula y cuáles demasiado alejados del establecido en la H0
por estar más allá del valor crítico. La determinación de este valor está unido a la distribución del
muestreo del estimador y al nivel de significación de la prueba.
Determinación de las zonas de rechazo y de no rechazo
El o los valores críticos van a determinar las zonas de rechazo y no rechazo de la hipótesis
nula en la distribución muestral del estadístico de prueba.
Si el estadístico de prueba queda en la región de no rechazo de la hipótesis nula, se concluye
que no existe evidencia suficiente para rechazarla. Si el estadístico de prueba queda en la región
de rechazo de la hipótesis nula, se concluye que hay evidencia para rechazar la hipótesis nula.
Riesgos al utilizar la metodología de Prueba de
Hipótesis
La prueba de hipótesis estadística no es otra cosa que un procedimiento para tomar una
decisión bajo incertidumbre sobre la validez de la hipótesis nula usando la evidencia de los datos
de una muestra.

Errores tipo I y II
Como se trabaja con incertidumbre, existen probabilidades de cometer errores.
En la analogía del juicio. Hay dos situaciones que reflejarían errores: que el acusado sea
culpable y se lo declare inocente, o que, el acusado sea inocente y se lo declare culpable. En otras
palabras, los dos errores que pueden cometerse son:
 Que se decida rechazar la H₀, declararlo culpable, cuando en realidad H₀, es
verdadera. Es decir, se declararía culpable a un inocente. A este error se lo denomina
tipo I.

 Que se decida no rechazar la H₀, cuando esta es falsa. Es decir, no rechazar su


inocencia (declararlo inocente), cuando en realidad es culpable. A este error se lo
denomina tipo II.
Error tipo I: se produce si el investigador rechaza la hipótesis nula, cuando en realidad es
verdadera. Ocurre cuando la evidencia de la muestra indica que es inverosímil nuestra hipótesis.
Error tipo II: se produce si el investigador no rechaza la hipótesis nula cuando en realidad
es falsa. A instancias de un valor muestral no tan alejado, se toma una decisión incorrecta.
Es de importancia aclarar que, a pesar de contar con evidencias, pueden cometerse errores.
Para el ejemplo de los medicamentos:
Realidad de la población
H₀ es Verdadera H₀ es Falsa
Comparación de la efectividad
Tienen la misma no tienen la misma
de dos medicamentos
eficacia eficacia
No rechazo H₀
ERROR
Tienen la OK
Decisión del (Tipo II)
misma eficacia
médico
Rechazo H₀
basada en la ERROR
no tienen la OK
muestra (tipo I)
misma eficacia
Probabilidades asociadas a cada decisión
Se puede concluir que:
 Es una prueba bilateral, porque se trata de someter a prueba una igualdad estricta
versus una desigualdad.

 Ninguna prueba de hipótesis es 100% cierta; puesto que la prueba se basa en


probabilidades, siempre existe la posibilidad de llegar a una conclusión incorrecta.

 Se pueden cometer errores de tipo I y II.

 Los riesgos de estos dos errores están inversamente relacionados: es decir que
cuando uno crece el otro disminuye.

 El coeficiente de confianza (1-α) indica la probabilidad de no rechazar la H0 cuando


esta es verdadera.

 La potencia de la prueba (1-β) es la probabilidad de rechazar la H0 cuando esta es


falsa.

 El nivel de significación (α) es la probabilidad de cometer el error tipo I, es decir,


de rechazar la H0 cuando esta es verdadera.

 El riesgo (β) es la probabilidad de cometer un error tipo II o, lo que es lo mismo, de


no rechazar la hipótesis nula cuando esta es falsa.

 Ambos errores se determinan según el nivel de significancia (𝛼) y la potencia de la


prueba (𝛽). Estas probabilidades están relacionadas, de manera que, si una de ellas disminuye, la
otra aumenta. Por ello, para disminuir riesgos, se debe aumentar el tamaño de la muestra.

 Antes de realizar la prueba, se debe determinar que error tiene consecuencias más
graves para la situación que se está investigando.

Equilibrio entre el nivel de significancia (𝛼) y la potencia de la prueba


(𝛽)
Una forma de reducir la probabilidad de cometer un error tipo II consiste en aumentar el
tamaño de la muestra. Para un nivel de α dado, aumentar el tamaño de la muestra reducirá β y así
se incrementará el poder de la prueba para detectar que la hipótesis nula es falsa. Sin embargo,
siempre existe un límite para sus recursos, y esto afectará la decisión de qué tan grande debe ser
la muestra tomada.
Por ejemplo, si son considerables las consecuencias negativas para un error de tipo I, se
reduce seleccionando un valor de α pequeño (0,01 en lugar de 0,05), sin embargo, el valor de β
aumentará, incrementando así la posibilidad de cometer un error de tipo II.
Potencia de una prueba
Es la probabilidad de rechazar la H0 cuando esta es falsa. Es importante saber calcular la
potencia de la prueba en una investigación.
Se debe determinar primero el valor de 𝛽 y luego fácilmente obtendremos el valor de la
potencia de la prueba: 1- 𝛽
En los casos en los cuales el verdadero valor está alejado de lo hipotetizado, la probabilidad
de rechazar la hipótesis nula es alta. La potencia de la prueba está identificada como el área
sombreada de azul en cada una de las figuras. Las áreas sombreadas de rojo corresponden a la
significación (que tiene una probabilidad α) y se grafican en la distribución que supone que la
hipótesis nula es cierta.
Permite ver cómo varía la potencia de la prueba –área en azul- para diferentes escenarios
que suponemos referidos al verdadero valor de la media poblacional (en este caso hemos tomado
μ=10), para poder mostrar la variación de la potencia de la prueba.

La potencia de prueba no tiene relación directa con el error real del parámetro, es decir, no
disminuye si se aleja del verdadero valor del parámetro.

Clasificación de las pruebas de hipótesis


Las pruebas de hipótesis pueden ser de uno o dos extremos (unilaterales o bilaterales). Esto
dependerá del planteo de la hipótesis nula, en función de la cual la zona de rechazo se ubicará en
uno de los extremos o se distribuirá entre ambos.
Ejemplo 1: prueba bilateral
H₀: μ₀=μ₁
H₁: μ₀≠μ₁,
Significancia 𝛼=0,0

En el gráfico se muestra la zona de rechazo y de no rechazo de H0, además se muestran los


valores críticos determinados por 𝛼. Los valores críticos son ± 1,96.
Ejemplo 2: prueba unilateral izquierda
H₀: μ₀ ≥ μ₁
H₁: μ₀ < μ₁
Significancia 𝛼=0,05

En el gráfico se muestra la región de rechazo y no rechazo de H₀; además, se muestra el


valor crítico determinado por 𝛼. Observa que en la cola izquierda queda una probabilidad de 𝛼 =
0,05; por tal motivo, el valor crítico es -1,645.
De la misma manera sucederá para una prueba unilateral derecha, solo que la hipótesis nula
será determinada al revés (H₀: μ₀ ≤ μ₁).
Es de suma importancia observar como está planteada la Hipótesis Nula para poder
determinar si se trata de una prueba unilateral izquierda o derecha. En otras palabras, poder
responder donde se ubica la zona de rechazo de H0, sabiendo diferenciar cual es una prueba de
dos colas (o extremos) de las de una cola.

Prueba respecto de una media


Prueba de hipótesis para la media poblacional con varianza conocida:
Prueba z
Pasos para realizar una prueba de hipótesis
1- Establecer la hipótesis nula.
2- Establecer la hipótesis alternativa.
3- Seleccionar el nivel de significación.
4- Definir el tamaño de la muestra.
5- Establecer qué estadístico muestral, con distribución conocida, se utilizará en la prueba.
6- Calcular el o los valores críticos, identificando así las zonas de rechazo y no rechazo
(lo cual deriva en disponer de una la regla de decisión).
7- A partir de los datos muestrales, obtener el valor del estadístico muestral.
8- Verificar en qué zona (de rechazo o de no rechazo) cayó el estadístico de prueba
obtenido con los datos muestrales.
9- Tomar la decisión estadística en base a la regla de decisión.
10- Indicar la conclusión del problema.
Ver resolución de ejemplo en L3 – M2.

Vinculación entre la prueba de hipótesis y la estimación por intervalos


Tanto las pruebas de hipótesis como la estimación por intervalos se derivan de los
conceptos que permiten hacer inferencia basados en una muestra.
Un aspecto que suele generar confusión es la equivalencia de los valores correspondientes
a los límites de los intervalos de confianza y los valores críticos que delimitan las zonas de rechazo
y no rechazo (en términos no estandarizados).
Pero los valores que forman parte del intervalo de valores que se estiman también son los
que hacen, numéricamente, aceptables la hipótesis nula. Porque si el valor hipotetizado cae dentro
del intervalo de confianza, no se rechaza la H0, caso contrario, se rechaza.
Método del valor p
Otra manera que puede resolverse una prueba de hipótesis es determinar el nivel de
significación que tiene asociado el valor resultante del estadístico con los datos muestrales.
El valor p es la probabilidad de obtener un estadístico igual o mayor que el valor muestral,
siendo la hipótesis nula cierta. Mientras menor sea el valor-p, mayor será la evidencia contra la
H0 .
Es de gran practicidad en caso de contar con resultados procesados a través de Software
estadístico, que aproxima numéricamente el cálculo de probabilidad implicado, arrojando para la
muestra el valor p. Luego se compara esa significación con la que se considera para su
investigación (valor α), y si el valor p supera al α, no se rechaza H0; en cambio, si el valor p no
supera al α, se rechaza H0.
1. Establecer la hipótesis nula.
2. Establecer la hipótesis alternativa.
3. Seleccionar el nivel de significación (α).
4. Considerar el tamaño de la muestra.
5. Determinar la prueba y el estadístico que se utilizarán.
6. Calcular el estadístico con los datos muestrales.
7. Estimar el valor p para el estadístico muestral.
a) Considerar la distribución bajo hipótesis nula cierta
b) Utilizar un gráfico de la distribución y ubicar el valor del estadístico muestral
calculado.
c) Calcular la probabilidad deseada ayudado de las tablas o programa estadístico
apropiado.
8. Comparar el valor p con α.
9. Tomar la decisión estadística.
10. Elaborar la conclusión
Si una prueba de hipótesis es unilateral derecha, con una significancia de 𝛼=0,05, valor
crítico de z es: z=1,645. Porque al estar a la derecha del todo, la cola que deja des de 0,05, no de
0,025 como venía trabajando con las distribuciones muestrales.
Para seleccionar un estadístico, el investigador no puede basarse solo en su intuición. Debe
basarse primero en el parámetro que desea estimar y en la calidad del estimador (insesgado,
consistente, etc.).

Prueba de hipótesis para la media poblacional con varianza


desconocida: prueba t
Ejemplo:
1. Establecer la hipótesis nula:
Ho: µ ≥ 3 horas.
Si bien se sostiene que la cantidad de horas de estudio promedio fue inferior a esa cantidad,
se utiliza en la hipótesis nula la afirmación complementaria porque incluye la igualdad. Y en
particular, si se encuentra evidencia que permita refutar la hipótesis nula, haberla planteado de
esta manera nos permite un resultado más sólido.
2. Establecer la hipótesis alternativa.
H₁: µ <3 horas.
3. Seleccionar el nivel de significación.
Se trabajará con α=0,05
4. Definir el tamaño de la muestra.
La muestra de trabajo consta de 15 casos.
5. Establecer qué estadístico muestral con distribución conocida se utilizará en la prueba.
Como se desconoce la varianza, se trabajará con el estadístico t, con n-1 grados de libertad:

6. Calcular el o los valores críticos, identificando así las zonas de rechazo y no rechazo (lo
cual deriva en disponer de una la regla de decisión).
Como se pidió trabajar con una significación de 0,05, el valor crítico de t, con 14 grados
de libertad es -1,7613.
Luego, quedará determinada la siguiente regla de decisión
 Si el estadístico muestral resultante es inferior a -1,7613, se rechazará la hipótesis
nula.
 Si el estadístico muestral es mayor a -1,7613, entonces no se rechaza la hipótesis
nula.
Figura 3: Determinación de zona de rechazo y no rechazo, en la distribución t, para el Caso
2.

En el gráfico se muestran las zonas de rechazo de Ho y la de no rechazo de Ho. Observa


que, por ser unilateral a izquierda (esto se determina observando el signo de la igualdad en la
Hipótesis nula), la probabilidad que queda en el extremo izquierdo está dadas por la significancia
𝛼, el área queda por debajo de t=-1,7613.

7. A partir de los datos muestrales, obtener el valor del estadístico muestral.


Bajo H₀ cierta:
La media muestral la calculamos mediante la fórmula:

Y la desviación estándar muestral:

=1,8657
Entonces:
8. Verificar en qué zona (de rechazo o de no rechazo) cayó el estadístico de prueba obtenido
con los datos muestrales.
El valor del estadístico muestral se ubica en la zona de no rechazo de Ho.

9. Tomar la decisión estadística en base a la regla de decisión.


No se debe rechazar Ho.

10. Indicar la conclusión del problema


Con la evidencia muestral disponible no puede descartarse que el promedio de horas de
estudio haya sido mayor o igual a 3.

Prueba para la diferencia de medias


Hasta acá se estudiaron los procedimientos relacionados entre la prueba de hipótesis
cuando la muestra es una sola. Ahora, se verá como este procedimiento que utiliza la prueba de
hipótesis se extiende a comparaciones entre estadísticos; en nuestro caso, la media proveniente de
muestras extraídas de más de una población.
En muchas ocasiones necesitamos conocer si existe diferencia en las características de dos
poblaciones de interés. Es habitual preguntarse si realmente hay una diferencia significativa entre
ellas o bien, si podrían considerarse iguales. Para ello se utiliza esta prueba.
Pruebas para muestras independientes y dependientes: diferencias
En el caso de las pruebas sobre diferencias de medias, dependiendo del tipo de
investigación que se utilizó, pueden ser muestras independientes o relacionadas.
 Muestras independientes: Son independientes si la aparición o selección de un
individuo en una muestra no tiene ninguna relación con la aparición o selección de ningún
individuo o elemento en la otra muestra. Utilizada cuando los individuos son de dos poblaciones
distintas.
 Muestras relacionadas o apareadas: Cuando las dos muestras se han construido
de manera que la inclusión de un individuo en una de las muestras condiciona la selección de otro
en la otra muestra considerada, o bien se analiza repetidamente información.
Tanto en el caso de muestras independientes como apareadas, se consideran distintas
pruebas de hipótesis, teniendo en cuenta que supuestos corresponde aplicar.

Prueba z para la diferencia entre dos medias de muestras independientes con


varianzas conocidas.
Se comparan las medias de dos poblaciones sobre la base de muestras extraídas
aleatoriamente de cada una de ellas.
Si los datos provienen de variables numéricas, el estadístico de prueba utilizado para
determinar la diferencia entre las medias poblacionales se basa en la diferencia entre las medias

de las muestras: .
Para aplicar esta prueba:
 Las muestras deben ser aleatorias y de poblaciones distintas.
 Las poblaciones tienen distribución normal
 La prueba z sigue siendo adecuada si las muestras son lo suficientemente grandes
n>30
 Se resuelve por la distribución normal estandarizada (Z).

 es el estimador puntual de .
 El error estándar cuando se tienen dos muestras aleatorias simples independientes

es:
 Por lo tanto, el estadístico z para la diferencia entre dos medias es:

Las muestras aleatorias con n₁ ≥ 30 y n₂ ≥ 30 se consideran adecuadas. En el caso en que


una o las dos muestras sea menor que 30, las distribuciones de las poblaciones son importantes.
Para resolverlo, se aplican los 10 pasos analizados en el método del valor-p, con la
diferencia de que en el punto 5, a la hora de elegir un estadístico, utilizaremos fórmula del
estadístico z que fue detallada más arriba.
Luego a partir de ello, se determina la zona de no rechazo para poder calcular, a partir de
los datos muestrales, donde cae el valor del estadístico muestral (si se rechaza o no).

Prueba t de diferencia de medias para muestras independientes: Caso de


varianza conjunta
Cuando se desconocen las varianzas poblacionales y las muestras son pequeñas, se utiliza
la distribución t, que es lo más común en las investigaciones en la diferencia de medias
poblacionales.
A diferencia del caso anterior, ahora se debe resolver con distribución t, con (n1 +n2 -2)
grados de libertad.
La prueba t de varianza conjunta se denomina así porque el estadístico de prueba conjunta

(combina) las dos varianzas de muestra para calcular , la mejor estimación para la
varianza común a ambas poblaciones bajo la suposición de que las dos varianzas de las
poblaciones son iguales.

Donde, la varianza conjunta se construye de la siguiente manera a partir de las varianzas


muestrales de cada muestra respectiva:

Prueba t de diferencia de medias para muestras independientes. Caso de


varianzas separadas
Se adopta esta prueba cuando no se puede asumir que ambas poblaciones tienen la misma
varianza.
En esta prueba, el estadístico a utilizar (punto 5) tendrá distribución t con v grados de
libertad:
Los grados de libertad v, se calculan con la siguiente fórmula:

Una vez obtenidos los grados de libertad, se puede continuar con el desarrollo de la prueba.
Prueba de diferencia de medias para muestras relacionadas
Consiste en dos muestras que no son independientes, pues aquí los datos entre las
poblaciones y las muestras, están relacionadas o apareadas. Esta relación puede darse de dos
formas.
1. Los apareos o parejas pueden ser por alguna característica de los individuos de la
población, como una prueba de la diferencia de ventas de un producto bajo distintas campañas
publicitarias.

2. Otro tipo de investigación se realiza con los mismos elementos de una muestra,
antes y después de someterlos a algún tratamiento especial.
Esta prueba es de amplia utilización cuando se necesita disponer de comparaciones entre
sujetos con mínima variabilidad entre sí o en pruebas sucesivas repetidas. Más allá de ello, el
objetivo de esta prueba es estudiar las diferencias entre dos mediciones. Uno de los fines de estas
pruebas es disminuir las diferencias, se da especialmente en el control de calidad en las industrias
manufactureras.
Se utiliza Di, que es la diferencia entre el valor del producto o servicio 1 y el 2 (la diferencia
entre los productos o servicios a comparar), luego se calcula la media con la sumatoria de estas
diferencias.

Luego resolvemos con la distribución t, esto se debe a que la muestra del ejemplo es
pequeña (n<30). El estadístico posee n-1 grados de libertad y es:
Para el cálculo de la desviación estándar muestral se deberá considerar la siguiente fórmula:

Luego quedará proseguir con los pasos consecuentes y llegar a una conclusión. Mediante
este ejemplo se logra ver que toda idea, por más evidente que sea, puede no ser la correcta. Por lo
tanto, el contrastar una suposición puede sorprendernos y darnos una respuesta científica a una
idea previa.

Prueba para proporciones y varianzas


Pruebas de hipótesis para datos categóricos
A veces, el problema de decisión planteado tiene que ver con un valor asignado en la
hipótesis a la proporción de individuos de la población que poseen cierta característica.
Prueba de hipótesis para la proporción poblacional con una muestra
Siguen los mismos pasos que en el caso de las medias poblacionales. Antes de aplicar el
estadístico z, deben verificarse las condiciones de aproximación a la normal.
En el caso de las pruebas para las proporciones, el estadístico bajo hipótesis nula cierta se
distribuye normalmente:

π: proporción de éxitos de la población (proporción hipotetizada)


1−π: proporción de fracasos de la población
p: proporción de éxitos de la muestra (proporción observada)

Con estos datos, se pueden aplicar los pasos para los casos resueltos de las medias
poblacionales, establecer la hipótesis nula, la hipótesis alternativa, etc. (VER L4 – M2)
Prueba para la diferencia de dos proporciones (con 2 muestras independientes)
Cuando se requiere comparar dos proporciones poblacionales, se utilizan las pruebas de
diferencias para proporciones seleccionando de ambas poblaciones dos muestras independientes.
El procedimiento que más se aproxima a este tipo de prueba es utilizar el estadístico z para
una distribución normal estandarizada. Aunque también hay otros procedimientos como, por
ejemplo, utilizar la distribución chi cuadrado.

El estadístico de prueba z se basa en la diferencia entre las proporciones muestrales:


, que sigue una distribución normal estandarizada para muestras lo suficientemente grandes. El
estadístico se calcula:

, donde y
Y p: es la estimación conjunta de los éxitos de la proporción de la población:

La metodología de resolución de problemas es siempre la misma, cambian las fórmulas


nada más.

Prueba de chi cuadrado


Muchas veces las preocupaciones de los investigadores se centrarán en la variabilidad de
una población. Para estos últimos casos, ya no se adaptan los estadísticos z y t utilizados hasta
aquí.
Para hacer inferencias acerca de la variabilidad de la población, se necesita una varianza
muestral y una nueva distribución: chi cuadrado: x2.
La distribución x2 es una distribución de probabilidad con sesgo positivo y tiende a la
normalidad, a medida que aumentan los grados de libertad.
Gráficamente:

La expresión es la que se utiliza para denotar el área o probabilidad de 𝛼 que se encuentre


a la derecha del valor .
Se muestra una distribución chi cuadrado con 4 grados de libertad, de cola derecha con el
valor crítico que deja a su derecha un área igual a una significancia de 𝛼= 0,05.

Es una prueba unilateral a la derecha, para el caso .


Para buscar los valores críticos en la tabla de probabilidades de la distribución chi
cuadrado, lo que presenta la misma son las probabilidades que están por encima del valor crítico.
Fórmula del estadístico chi cuadrado

Si la varianza poblacional es , entonces el estadístico tiene una distribución chi cuadrado


con n-1 grados de libertad.

Este estimador da un resultado exacto si la población es normal, aunque es un buen


estimador en el caso de que la población no cumpla con el requisito previamente mencionado.

Tipos de prueba chi cuadrado


La prueba de chi cuadrado puede tener una o dos colas:
 Para hipótesis alternativas de mayor o menor se usa la prueba de una cola.
 Si queremos decir que una varianza es diferente se usa la prueba de dos colas.

Para el caso . Se muestran las zonas de rechazo y no rechazo.


También podemos encontrar una prueba de chi cuadrado que sea unilateral a la izquierda,
en el caso de que . (Será como la figura anterior, solo del lado
izquierdo).
Entonces, para la resolución por el método del chi cuadrado:
1- Establecer la hipótesis nula
2- Establecer la hipótesis alternativa
3- Seleccionar el nivel de significación
4- Definir el tamaño de la muestra
5- Establecer que estadístico muestral, con distribución conocida, se utilizará en la prueba.

Se utiliza el estadístico del chi cuadrado, con n-1 grados de libertad:

6- Calcular el o los valores críticos, identificando así las zonas de rechazo y no rechazo.
Se utiliza la tabla de chi cuadrado

Para calcular los valores críticos de una prueba bilateral, se divide el nivel de
significancia en 2. A pesar de que el gráfico no es simétrico (en los extremos son distintos), pero
sí la parte coloreada va a representar un área de α/2.
Como el área debajo de la curva es 1, queda una probabilidad de 0,95, cuyo valor crítico
es según la tabla 13,848.
Entre estos valores críticos hay una probabilidad de 0,90 (confianza), que deja
distribuida entre los dos extremos una probabilidad de 0,1 que es la significancia dada.
Si el estadístico muestral se queda fuera del intervalo formado por ambos valores recién
determinados, se rechaza la hipótesis nula, caso contrario, no se rechaza.

Prueba chi cuadrado con 24 grados de libertad. Se muestran las regiones de rechazo y
no rechazo de Ho y se marcan los valores críticos de chi cuadrado.
7- A partir de los datos muestrales, obtener el valor del estadístico muestral

Se utiliza esta fórmula:


8- Verificar si el estadístico de prueba cae en la zona de rechazo o en la de no rechazo.
9- Tomar la decisión estadística en base a la regla de decisión.
10- Indicar la conclusión del problema

PARCIAL 2

Prueba de bondad de ajuste


Hasta ahora, cuando trabajamos con datos categóricos, nos concentramos en el parámetro
proporción. Ahora utilizaremos la prueba de bondad de ajuste, donde se utiliza también chi-
cuadrado, pero, con variables categóricas

Pruebas para variables categóricas


Podemos generalizar los casos de las pruebas de hipótesis para datos categóricos en dos
grupos:
 Considerar toda una distribución de valores de una variable categórica (puede ser
dicotómica o adoptar más valores). Dicotómica = suplementario

 Considerar una distribución bivariada, y que a su vez cada categoría de la


distribución pueda observarse bajo otras categorías. Es decir, que se puedan analizar
las ocurrencias de categorías de ambas dimensiones al mismo tiempo (tablas de
contingencia).
En el primer caso, se desarrolla una prueba denominada bondad de ajuste, que sirve para
extraer una conclusión acerca de la distribución que efectivamente sigue una determinada
variable.
Para el segundo caso, nos auxiliaremos con tablas de contingencia, utilizaremos las pruebas
denominadas de “independencia”.
Ambas pruebas usan estadísticos con distribución chi-cuadrado.
La distribución binomial, tiene dos valores de probabilidad (variables dicotómicas).
Extenderemos este modelo a una distribución de variable categórica, pero adoptando ahora, más
de dos valores de probabilidad. Llamándose ahora “Distribución Multinomial”. Además, hay una
prueba de bondad de ajuste para cada distribución conocida, que se ven resumidas así:
 Si un conjunto de datos se ajusta a una distribución “modelo” (normal, Poisson,
exponencial, entre otras conocidas).

 Si un conjunto de datos se ajusta a una distribución conveniente, según el


problema que se trate. Por ejemplo, a una distribución multinomial con variables
categóricas.

Prueba de bondad de ajuste


Las pruebas de bondad de ajuste son pruebas de hipótesis para verificar si los datos
observados en una muestra aleatoria se ajustan con algún nivel de significancia a determinada
distribución de probabilidad. La prueba de bondad de ajuste se basa en la comparación de los
resultados muestrales observados con los resultados esperados, bajo el supuesto de que la hipótesis
nula es verdadera.
También, sirve para determinar si una población tiene una distribución teórica específica,
ya sea una distribución conocida o una distribución ad hoc. Se comparan los resultados muestrales
con los resultados esperados cuando la hipótesis nula es verdadera.
La conclusión de la prueba bde hipótesis se basa en qué tan “cerca” se encuentran los
resultados muestrales de los esperados.
Es decir, qué tan buena concordancia se tiene entre las frecuencias de ocurrencia según las
observaciones en una muestra y las frecuencias esperadas que se obtienen a partir de la
distribución hipotética.
El estadístico de prueba tiene distribución chi-cuadrado con (k − 1) grados de libertad,
donde k es la cantidad de valores distintos que adopta la variable de la distribución que se analiza.
Digamos que k es la cantidad de categorías de la variable. Recuerda que tendrás que utilizar la
misma tabla que se utilizó en el módulo anterior, cuando se estudió la prueba de hipótesis para la
varianza poblacional.
La fórmula del estadístico es:
En todas las cat. Las frecuencias esperadas deben ser 5 o más

𝑓𝑜𝑖 es la frecuencia observada en la categoría i.


𝑓𝑒𝑖 es la frecuencia esperada en la categoría i.
k es el número de categorías.
En el estadístico de prueba se muestran las diferencias entre frecuencias observadas y
esperadas. Si las diferencias son grandes, se dudará sobre el supuesto que indica la H0.
Las hipótesis que se consideran en la prueba de hipótesis son:
 H0: La variable tiene la distribución supuesta (aquí se especifican los aspectos a
probar y sus parámetros correspondientes).

 H1: La variable no sigue la distribución supuesta.


En las pruebas de chi-cuadrado de bondad de ajuste, siempre se coloca el riesgo de no
aceptar la hipótesis nula siendo esta cierta (el nivel de significación 𝛼) en el extremo superior de
valores de la distribución chi-cuadrado. Es decir, que siempre será una prueba de cola superior.

Prueba de bondad de ajuste para una población multinomial


Aquí se estudia un caso en el que cada elemento de la población corresponde a una y solo
una de las varias clases o categorías. En cada ensayo de un experimento multinomial, uno y solo
uno de los resultados ocurre. Se supone que cada ensayo es independiente y que en todos ellos se
dan las probabilidades para que los resultados permanezcan constantes.
En el caso de tener una distribución multinomial para proporciones, primero se deben
asignar nombres a las proporciones y calcularlas, por ejemplo.

De esta manera se debe continuar con todas las proporciones.


En base a estas proporciones (que generalmente son dato), se plantean tanto la hipótesis
nula como la hipótesis alternativa.
Frecuencia observada
Tarjeta de Tarjeta de Otros medios
Efectivo
crédito débito electrónicos
851 122 77 55

En el ejemplo. Se muestran las cantidades que son resultado del conteo de los clientes que
pagan con distintos medios de pagos, que son las categorías que se están analizando. Ahora se
realiza la prueba de bondad de ajuste para determinar si la muestra de 1105 clientes mantiene la
proporción en tanto a la preferencia de pagos.
Ahora, se calcula la frecuencia esperada de cada categoría, multiplicando el tamaño de la
muestra por la proporción hipotética de esa categoría.
Frecuencia esperada
Tarjeta de Tarjeta de Otros medios
Efectivo
crédito débito electrónicos
1105 × 1105 × 1105 × 0,08 1105 ×
0,75= 828,75 0,21= 232,05 = 88,40 0,02= 22,10
Si existen grandes diferencias entre las frecuencias, habrá que dudar sobre si el supuesto
de la proporción hipotética de las distintas categorías es correcto.
El estadístico de prueba chi-cuadrado ayuda a decidir si las diferencias entre las frecuencias
observadas y las esperadas son grandes o pequeñas.

con k-1 grados de libertad


La prueba de bondad de ajuste siempre es una prueba de cola superior de la distribución
chi-cuadrado. (Para el ejemplo van a ser 3 grados de libertad, ya que, 4-1=3). De esta manera
obtenemos el valor crítico de chi-cuadrado que para el ejemplo es x20,1:3 = 6,251; por lo que, si el
estadístico de prueba es mayor o igual al valor crítico, la H0 será rechazada.
Ahora se calcula el estadístico.
Cuadrado de la
Frecuencia Frecuencia diferencia dividido
Proporción Diferencia Cuadrado de la
Categoría observada esperada entre la frecuencia
hipotética (foi−fei) diferencia (foi−fei)2
(foi) (fei) esperada
(foi−fei)2/fei

Tarjeta de
crédito 0,75 851 828,75 22,25 495,0625 0,597360483
Efectivo 0,21 122 232,05 -110,05 12 111,0025 52,19134885
Tarjeta de
débito 0,08 77 88,4 -11,4 129,96 1,470135747
Otros medios
electrónicos 0,02 55 22,1 32,9 1082,41 48,97782805
TOTAL 1105 Chi-cuadrado: 103,2366731

Entonces el estadístico de prueba chi-cuadrado nos arroja como resultado:

; que al ser superior al valor crítico, significa que el estadístico de


prueba cae en la zona de rechazo, entonces se rechaza la hipótesis nula.
Pasos a seguir en una prueba de bondad de ajuste para una distribución
multinomial hipotética
1) Establecer la hipótesis nula y alternativa.
H0: la población tiene una distribución multinomial con la probabilidad específica de
cada una de las k categorías.

H1: la población NO tiene una distribución multinomial con la probabilidad específica


de cada una de las k categorías.

2) Seleccionar el nivel de significación 𝛼.


3) Definir el tamaño de la muestra.
4) Seleccionar una muestra aleatoria y anotar las Frecuencias Observadas de cada
categoría.
5) Suponer que la Hipótesis nula es verdadera y determinar la Frecuencia Esperada en
cada categoría (se multiplica la probabilidad de esa categoría por el tamaño de la
muestra).
6) Establecer que estadístico muestral, con distribución conocida, se utilizará en la prueba
(se utiliza la distribución chi-cuadrada con k-1 grados de libertad).
7) Calcular el o los valores críticos, identificando así la zona de rechazo y no rechazo.

Si, , se rechaza H0.


Si, , no se rechaza H0.

8) A partir de los datos muestrales, obtener el valor del estadístico muestral o de prueba
9) Verificar si el estadístico cayó en la zona de rechazo o no
10) Tomar la decisión estadística con base en la regla de decisión.
11) Indicar la conclusión.

Prueba de bondad de ajuste: Distribución de Poisson


1) Formulación de la H0 y la H1.

H0: la población tiene una distribución de Poisson.


H1: la población NO tiene una distribución de Poisson.

2) Seleccionar el nivel de significación 𝛼

Cálculo de las frecuencias esperadas (se estima el valor de λ). La fórmula de la


distribución de Poisson es:

En esta función, λ representa la media o el número esperado de usuarios que se conectan


en lapsos de 1 minuto, x representa la variable aleatoria del número de conectados en un lapso de
1 minuto y f(x) es la probabilidad de que x usuarios, ingresen a la página web en un lapso de 1
minuto.

Nos da el número total de usuarios que se conectaron en los 202 minutos de la muestra.
Con este parámetro estimado, se puede calcular, mediante la fórmula de distribución de Poisson,
las probabilidades de cada variable. Luego a cada probabilidad la multiplicamos por la muestra y
se obtienen las Frecuencias Esperadas.
Usuarios Probabilidad Frecuencias
conectados Poisson esperadas

0 0,165298888 33,3904
1 0,297537999 60,1027
2 0,267784199 54,0924
3 0,160670519 32,4554
4 0,072301734 14,6050
5 0,026028624 5,2578
6 0,007808587 1,5773
7 0,002007922 0,4056
Totales 0,999438473 201,8866

3) Definir el tamaño de la muestra.


4) Seleccionar una muestra aleatoria. (calcular la media λ de ocurrencias de la muestra,
con las frecuencias observadas)
5) Calcular la frecuencia esperada para cada valor de la variable aleatoria de la
muestra.

Si en alguna categoría queda una frecuencia esperada menor a 5, se combinan las


categorías tanto como sea necesario para que las frecuencias observadas de esa clase sean
mayores o iguales a 5.

Usuarios Probabilidades Frecuencias


conectados de Poisson esperadas

0 0,165298888 33,3904
1 0,297537999 60,1027
2 0,267784199 54,0924
3 0,160670519 32,4554
4 0,072301734 14,6050
5 o más 0,035845133 7,2407
Totales 0,999438473 201,8866
6) Establecer qué estadístico muestral con distribución conocida se utilizará en la prueba.

Se utiliza la distribución chi-cuadrado con k − p − 1 grados de libertad, siendo k el


número de categorías o clases de la distribución y p los parámetros que se estimaron.

Antes de hacer los cálculos con chi-cuadrado, se debe verificar que en las frecuencias
esperadas no exista ninguna menor a 5.

p = 1 porque solo se estimó un parámetro (λ). (Esto es para calcular los valores críticos)

7) Calcular el o los valores críticos, identificando así la zona de rechazo y no rechazo de


H0 .
Si, , se rechaza H0.
Si, , no se rechaza H0.
8) A partir de los datos muestrales, obtener el valor del estadístico muestral o de prueba.
9) Verificar si cae en la zona de rechazo o no.
10) Tomar la decisión estadística con base en la regla de decisión.
11) Indicar la conclusión del problema.

Prueba de independencia de dos variables categóricas


Tablas de contingencia
Es una tabla de clasificaciones cruzadas que nos facilita las asignaciones de probabilidad a
cada evento.
En las filas, va una categoría de eventos que son mutuamente excluyentes y colectivamente
exhaustivos. Lo mismo ocurre en las columnas, solo que la categorización de los eventos es
distinta a la que se presenta en las filas.
Sirve para reconocer diferentes formas de representar y visualizar un espacio muestral
dado, con el propósito de obtener información clara y detallada para determinar probabilidades.
Se utiliza como instrumento para comparar dos categorías, mediante una prueba de hipótesis.
Ejemplo de tabla de contingencia:
Tiempo de Grado de integración
residencia/percepción de Totales
integración Bajo Medio Alto

10 años o menos 65 20 5 90
Más de 10 años 35 60 115 210
Totales 100 80 120 300

En las celdas coloreadas, se asentaron los datos del problema. Las restantes celdas se
completan según las reglas de construcción de las tablas de contingencia, teniendo en cuenta que
dentro de cada categoría principal los eventos son complementarios o exhaustivos.
Los datos del problema pueden abarcar solo una categoría o dos categorías. Es importante
que la tabla esté equilibrada en los totales y que tengamos el número mínimo de datos para
completarla.

Prueba de independencia de dos variables categóricas


Entonces se realiza una prueba de hipótesis para la resolución del problema. Se debe tener
en cuenta que se pueden predecir algunas conclusiones calculando las frecuencias relativas y los
porcentajes con solo mirar la tabla.
Por ejemplo, el porcentaje de inmigrantes que llevan 10 años o menos en el país y

respondieron que su nivel de integración es alto. , y así sucesivamente para


todos los datos.
A los fines de corroborar si tal observación puede sostenerse o si se trata solo de una
casualidad presente en los datos de la muestra, someteremos a un contraste de hipótesis la relación
entre las dos variables involucradas.
Los datos de la tabla de contingencia son los datos observados.
Ahora, deben calcularse los datos esperados y ver cuánto difieren de los observados. Para
ello se aplica la prueba de chi-cuadrado. Entonces, aplicamos el procedimiento de resolución para
esta prueba (los 10 pasos).
En este ejemplo, las hipótesis planteadas serán:
 H0: el tiempo de residencia de los inmigrantes en nuestro país es independiente de
su percepción de integración.
 H1: el tiempo de residencia de los inmigrantes en nuestro país no es independiente
de su percepción de integración, por lo tanto, están relacionadas.
Observar que, la Hipótesis Nula parte siempre del supuesto neutral de no relación o
independencia. En caso de rechazar H0, se detectará la relación que se supone que existe, que
motivó el estudio.
También en la prueba de chi-cuadrado de independencia se localiza el riesgo (con el nivel
de significación α), en el extremo superior de valores (o cola derecha) de la distribución chi-
cuadrado.

El estadístico de chi-cuadrado a utilizar debe calcularse en todas las celdas,


independientemente de la cantidad de filas y columnas que posea la tabla y está dado por:

Aunque si la tabla tiene r filas y c columnas, será:

𝑓𝑜𝑖𝑗 es la frecuencia observada en una celda en particular (fila i, columna j)


𝑓𝑒𝑖𝑗 es la frecuencia esperada en una celda en particular (fila i, columna j)
r = número de filas; c = número de columnas.
Para calcular las frecuencias esperadas, se debe suponer que la hipótesis nula es verdadera.
Por lo tanto, aplicamos la regla de la multiplicación para eventos independientes. Entonces, se
realiza el siguiente cálculo.

La frecuencia esperada de la celda


Se multiplica la frecuencia marginal de la fila de la celda por la frecuencia marginal de la
columna de la celda, y luego dividimos ese resultado por el tamaño total de la muestra.
Por ejemplo, para la celda (2,3), será:

Elaborando así la tabla de frecuencias esperada para cada celda de la tabla de contingencias.

Tiempo de Grado de integración


residencia/percepción de la Totales
integración
Bajo Medio Alto

10 años o menos 30 24 36 90
Más de 10 años 70 56 84 210
Totales 100 80 120 300

Ahora, se deben calcular los valores críticos para determinar la zona de rechazo y no
rechazo (recordar que es una distribución de cola derecha).
El número de grados de libertad para la distribución chi-cuadrado adecuada se obtiene al
multiplicar el número de filas menos 1 por el número de columnas menos 1. Como se tienen dos
filas y tres columnas, los grados de libertad son: (2 − 1) × (3 − 1) = 1 × 2 = 2.
Puede observarse que, si las frecuencias esperadas (bajo la hipótesis nula cierta de
independencia o no relación entre variables) difieren sistemáticamente de las observadas,
tendremos elementos como para descartar la independencia y concluiremos que existe relación
entre las variables. En tal caso, el valor del estadístico asumirá valores elevados. De lo contrario,
si, en general, las frecuencias esperadas (bajo la hipótesis de no relación) no difieren de las
observadas, no tendremos elementos para descartar la independencia.
En el ejemplo anterior, utilizando las tablas de contingencia, se puede concluir que se
rechaza la hipótesis nula debido a que la distribución de chi-cuadrado para las frecuencias
esperadas cae en la zona de rechazo.
ANOVA
El análisis de varianza o, como es más conocido, ANOVA (ANalysis Of VAriance)
examina dos o más conjuntos de datos (poblaciones) e intenta detectar diferencias
estadísticamente representativas entre las medias de dichos conjuntos. Estas poblaciones se
llamarán grupos o tratamientos.
Estos grupos pertenecen a un factor de interés, como puede ser, un dato categórico
(Clientes atendidos por cada vendedor). En este caso, será una ANOVA de 1 factor o vía.
Además, a un grupo se le puede asignar diferentes niveles de factor (3 niveles, 3
vendedores).
En otras palabras, permite probar la significancia de las diferencias entre más de dos medias
muestrales. Usando el análisis de varianza, podremos hacer inferencias acerca de si nuestras
muestras se tomaron de poblaciones que tienen la misma media.
La ANOVA no tiene por objetivo en análisis de las varianzas, sino de las medias. Utiliza
las varianzas para comparar las medias.
Es útil en situaciones donde se quieren comparar distintos métodos de enseñanza o el
rendimiento de cierto combustible. Es decir, cuando es necesario tomar más de dos muestras para
comparar y así poder inferir sobre las medias poblacionales para la posterior toma de decisiones.
La razón por la que se utiliza el ANOVA es que permite comparar la media de los distintos
métodos en forma simultánea evitando la acumulación del error de tipo I. Sobre todo, al realizar
varias comparaciones en simultáneo (ejemplo de los 4 métodos de enseñanza).
La variable en estudio es cuantitativa —también se la suele llamar dependiente—, porque
está en función de los grupos o categorías que son independientes (la variable dependiente es la
cantidad de clientes que atienden los vendedores diariamente).
No necesariamente las muestras deben ser del mismo tamaño.

Para el ejemplo, se está probando la productividad de 3 vendedores, por lo que se van a


determinar las medias muestrales y suponer que estas representan a la media poblacional de cada
vendedor y que pueden haberse obtenido de poblaciones con la misma media μ.
Si las medias muestrales no difieren significativamente, no se rechaza la H0, caso contrario
se rechazará, diciendo que al menos uno de los empleados no está siendo productivo.
Gran media
Es la media de todas las observaciones. En un problema de ANOVA, esta media se llama
gran media o también media global y tiene una importancia especial en la metodología ANOVA.
Se calcula con todas las observaciones de todos los niveles de todos los grupos. Notación:
x̿

Por ejemplo:
O, calculando la media de las medias de cada grupo.

Lógica de la prueba
El ANOVA está basado en las comparaciones de dos estimaciones de la varianza
poblacional σ2, tomando esta como varianza total de todas las observaciones, como si todas
formaran parte de una misma población. En nuestro caso se toman las 12 observaciones.
Para las dos estimaciones de la misma varianza, se emplean métodos distintos.
1- Uno puede ser calculando la varianza de la población a partir de la varianza entre las
medias de las muestras.
2- La otra estimación se hace a partir de la varianza dentro de las muestras.
Luego, comparamos estas dos estimaciones. Si realmente es verdadera la hipótesis nula,
deberían dar aproximadamente el mismo valor para la varianza poblacional. Si son
significativamente diferentes, se rechaza la hipótesis nula.

Varianza para una muestra


Se calcula como la suma de desviaciones al cuadrado respecto de la media dividida por n
− 1 (el tamaño de la muestra menos uno).

, siendo 𝑥𝑖 la observación i de la muestra.


Tipos de dispersiones o variaciones:
 Variación total o dispersión total SST:
Llamaremos SS a la suma de los cuadrados de cada desviación con la media
(diferencia entre una observación y la media).
SST es la variación total, y se calcula como la suma de las diferencias entre cada
observación y la gran media, elevadas al cuadrado.

𝑥𝑖𝑗 es la i-ésima observación del grupo j (como cuando vi la tabla de frecuencias,


también hace referencia a un valor de la tabla de datos observados).

A esta variación total, se la considera como la suma de dos tipos de variaciones.

 Variación o dispersión entre grupos SSE:


También llamada variación intergrupos o efecto del tratamiento. Esta variación se
explica debido a la diferencia entre las medias de los distintos grupos.
Se calcula sumando las diferencias entre la media de cada grupo y la gran media,
elevadas al cuadrado y ponderadas por el tamaño de la muestra.

𝑥𝑗 es la media del grupo j


En el ejemplo, se calcula la media de cada grupo, luego se hace cada una de las
diferencias de dicha media con la gran media, se elevan al cuadrado y se las multiplica por el tamaño
de la muestra respectiva. Por último, se suman.

Si existe una variación considerable entre las medias de los tratamientos, SSE será
grande, ocurrirá lo contrario si las medias son similares. El valor más bajo posible es 0.

 Variación o Dispersión dentro de grupos SSD:


También llamada variación intragrupos o componente aleatorio o de error. Esta
variación no puede ser explicada, pues se debe a la aleatoriedad de las muestras. Se refiere al error
aleatorio.
Se calcula mediante la suma de las diferencias entre cada uno de los valores
observados en el grupo y la media correspondiente a ese grupo, elevadas al cuadrado.
; 𝑥𝑗 es la media del grupo j
Por ejemplo;

Conclusión sobre la variación total


SST = SSE + SSD
La desviación total es igual a la suma de la variación entre los grupos y la variación dentro
de los grupos.
Observaciones:
 Si la suma de cuadrados entre grupos es un valor elevado, indica una dispersión
importante. Esto quiere decir, que a mayor SSE, las medias tienden a ser bastante
diferentes.

 Si hay una gran diferencia entre las medias, esta diferencia genera la diferencia entre
las SS.

Estimación de las varianzas a partir de las variaciones estudiadas


La varianza es un promedio de los cuadrados de las desviaciones. Por lo tanto, podemos
obtener las tres varianzas correspondientes a las tres dispersiones o variaciones estudiadas
dividiendo cada una de ellas por los grados de libertad que tienen asociados.
1) La varianza que involucra a la dispersión total SST se llama cuadrados medios totales

Es la estimación de la varianza poblacional, teniendo en cuenta la variabilidad total.

2) La varianza que involucra a la dispersión entre grupos SSE se llama cuadrados medios
entre
Es la estimación de la varianza poblacional, teniendo en cuenta la variabilidad entre
grupos.

3) La varianza que involucra a la dispersión dentro de grupos SSD se llama cuadrados


medios dentro

Es la estimación de la varianza poblacional, teniendo en cuenta la variabilidad dentro


de los grupos.

Análisis de los resultados


Se pueden comparar las dos estimaciones de la varianza total, que son CME y CMD, con
la prueba F, cuyo estadístico es el cociente entre ambas varianzas. Si el estadístico es
significativamente mayor que 1, las dos varianzas son distintas y las medias de los grupos, o al
menos una de ellas, es significativamente diferente al resto. (CME/CMD)
Cuando las poblaciones no son las mismas, la varianza entre columnas tenderá a ser mayor
que la varianza dentro de columnas, y el valor de F tenderá a ser grande. Esto nos conducirá a
rechazar la hipótesis nula.

También podría gustarte