Documentos de Académico
Documentos de Profesional
Documentos de Cultura
INFERENCIAL.
UNIDAD 3
Itzel Denisse Ayala Huerta.
¿Qué es la estadística inferencial?
■ La estimación por intervalos consiste en establecer el intervalo de valores donde es más probable
se encuentre el parámetro. La obtención del intervalo se basa en las siguientes consideraciones:
■ a) Si conocemos la distribución muestral del estimador podemos obtener las probabilidades de
ocurrencia de los estadísticos muestrales.
■ b) Si conociéramos el valor del parámetro poblacional, podríamos establecer la probabilidad de
que el estimador se halle dentro de los intervalos de la distribución muestral.
■ c) El problema es que el parámetro poblacional es desconocido, y por ello el intervalo se
establece alrededor del estimador. Si repetimos el muestreo un gran número de veces y definimos
un intervalo alrededor de cada valor del estadístico muestral, el parámetro se sitúa dentro de cada
intervalo en un porcentaje conocido de ocasiones. Este intervalo es denominado "intervalo de
confianza"
3.2 PRUEBA DE
HIPÓTESIS.
3.2.1 Conceptos de:
■ Este establecimiento estará dentro del marco teórico donde se inserta el fenómeno de
nuestro interés.
Hipótesis:
Es el intento de explicación a una respuesta “provisional” a un fenómeno. Su función
consiste en delimitar el problema que se va a investigar según algunos elementos tales
como el tiempo, el lugar, las características de los sujetos, etc.
Es decir, es una respuesta tentativa a un problema, pero que no esta comprobada.
Criterio de aceptación.
Existen medidas de la intensidad de la relación que presentan las variables que son
fundamentales para determinar en qué momento es conveniente utilizar regresión lineal.
3.4 DISEÑO DE
EXPERIMENTOS
3.4.1 Concepto de diseño de
experimentos.
■ El diseño de experimentos (DOE según sus siglas en inglés) es un método de trabajo
empleado por entidades de todos los sectores para conocer cómo funciona un proceso,
estudiar las variables que le afectan y, empleando herramientas estadísticas, obtener la
información necesaria para su mejora.
3.4.2 ELEMENTOS DE
ANOVA.
ANÁLISIS DE VARIANZA.
Fuentes de variación.
■ En el análisis de varianza (ANOVA), la suma total de los cuadrados ayuda a expresar la variación
total que se puede atribuir a diferentes factores. Por ejemplo, usted hace un experimento para
probar la efectividad de tres detergentes para ropa.
■ La suma total de los cuadrados = suma de los cuadrados del tratamiento (SST) + suma de los
cuadrados del error residual (SSE)
■ La suma de los cuadrados del tratamiento es la variación atribuida a, o en este caso entre, los
detergentes para ropa. La suma de los cuadrados del error residual es la variación atribuida al
error.
■ El convertir la suma de los cuadrados en cuadrados medios al dividir entre los grados de libertad
le permitirá comparar estas relaciones y determinar si existe una diferencia significativa debido al
detergente. Mientras mayor sea esta relación, más afectarán los tratamientos el resultado.
Cuadrados medios.
■ En ANOVA, los cuadrados medios se utilizan para determinar si los factores (tratamientos)
son significativos .El cuadrado medio del tratamiento se obtiene dividiendo la suma de los
cuadrados del tratamiento entre los grados de libertad. El cuadrado medio del tratamiento
representa la variación entre las medias de las muestras.
■ El cuadrado medio del error (MSE) se obtiene dividiendo la suma de los cuadrados del error
residual entre los grados de libertad. El MSE representa la variación dentro de las muestras.
■ Por ejemplo, usted hace un experimento para probar la efectividad de tres detergentes para
ropa. Recolecta 20 observaciones para cada detergente. La variación entre las medias de
Detergente 1, Detergente 2 y Detergente 3 es representada por el cuadrado medio del
tratamiento. La variación dentro de las muestras es representada por el cuadrado medio del
error.
Estadístico de prueba.
■ Un estadístico de prueba es una variable aleatoria que se calcula a partir de datos de muestra y se
utiliza en una prueba de hipótesis. Puede utilizar los estadísticos de prueba para determinar si
puede rechazar la hipótesis nula. El estadístico de prueba compara sus datos con lo que se espera
bajo la hipótesis nula. El estadístico de prueba se utiliza para calcular el valor p.
■ Un estadístico de prueba mide el grado de concordancia entre una muestra de datos y la hipótesis
nula. Su valor observado cambia aleatoriamente de una muestra aleatoria a una muestra diferente.
Un estadístico de prueba contiene información acerca de los datos que es relevante para decidir si
se puede rechazar la hipótesis nula. La distribución del muestreo del estadístico de prueba bajo la
hipótesis nula se denomina distribución nula. Cuando los datos muestran evidencia clara en
contra de los supuestos de la hipótesis nula, la magnitud del estadístico de prueba se vuelve
demasiado grande o demasiado pequeña dependiendo de la hipótesis alternativa. Esto hace que el
valor p de la prueba se vuelva lo suficientemente pequeño como para rechazar la hipótesis nula.
Ejemplo:
■ El estadístico de prueba para una prueba Z es el estadístico Z, que sigue la distribución
normal estándar bajo la hipótesis nula. Supongamos que usted realiza una prueba Z de
dos colas con un nivel de significancia (α) de 0.05 y un obtiene un estadístico Z
(también denominado valor Z) de 2.5 basado en sus datos. Este valor Z corresponde a
un valor p de 0.0124. Puesto que este valor p es menor que α, usted declara
significancia estadística y rechaza la hipótesis nula.
■ Las diferentes pruebas de hipótesis utilizan diferentes estadísticos de prueba según el
modelo de probabilidad asumido en la hipótesis nula. Las pruebas comunes y sus
respectivos estadísticos de prueba incluyen:
■ IMPORTANTE
■ Interprete cuidadosamente estos intervalos porque hacer comparaciones múltiples aumenta la
tasa de error de tipo 1. Es decir, cuando se aumenta el número de comparaciones, también se
incrementa la probabilidad de que al menos una comparación concluirá de forma incorrecta
que una de las diferencias observadas es significativamente diferente.
■ Para evaluar las diferencias que aparecen en esta gráfica, utilice la tabla Información de
agrupación y otros resultados de comparación (como se muestra en el paso 3).
■ En la gráfica de intervalo, la Mezcla 2 tiene la media más baja y la Mezcla 4 tiene la más alta. Usted no
puede determinar, con base en esta gráfica, si algunas de las diferencias son estadísticamente significativas.
Para determinar la significancia estadística, evalúe los intervalos de confianza de las diferencias medias.
Paso 3: Comparar las medias de los grupos.
■ Si el valor p del ANOVA de un solo factor es menor que el nivel de significancia, usted
sabrá que algunas de las medias de los grupos son diferentes, pero no cuáles pares de
grupos. Utilice la tabla Información de agrupación y pruebe las diferencias de las
medias para determinar si esas diferencias entre los pares específicos de grupos es
estadísticamente significativa y para estimar qué tan diferentes son las medias.
Tabla Información de agrupación
Utilice la tabla Información de agrupación para determinar rápidamente si la diferencia de las
medias entre cualquier par de grupos es estadísticamente significativa.
Los grupos que no comparten una letra son significativamente diferentes.
Pruebas para las diferencias de las medias
Utilice los intervalos de confianza para determinar los posibles rangos de las diferencias y para
determinar si las diferencias son significativas desde el punto de vista práctico. La tabla muestra
un conjunto de intervalos de confianza para la diferencia entre los pares de medias. La gráfica de
intervalo para las diferencias de las medias muestra la misma información.
Los intervalos de confianza que no contienen el cero indican una diferencia en las medias que es
estadísticamente significativa.
Dependiendo del método de comparación que elija, la tabla compara diferentes pares de grupos y
muestra uno de los siguientes tipos de intervalos de confianza.
■ Nivel de confianza individual
■ El porcentaje de veces que un solo intervalo de confianza incluye la diferencia real entre
un par de medias de grupo si el estudio se repite múltiples veces.
■ Nivel de confianza simultáneo
■ El porcentaje de veces que un conjunto de intervalos de confianza incluye las diferencias
reales de todas las comparaciones de grupos si el estudio se repite múltiples veces.
■ Controlar los intervalos de confianza simultáneos es particularmente importante cuando
usted realiza comparaciones múltiples. Si no se controlan los intervalos de confianza
simultáneos, la probabilidad de que al menos un intervalo de confianza no contenga la
diferencia real aumenta con el número de comparaciones.
■ Resultados clave: Media, Agrupación
■ En estos resultados, la tabla muestra que el grupo A contiene las Mezclas 1, 3 y 4 y el
grupo B contiene las Mezclas 1, 2 y 3. Las Mezclas 1 y 3 están en ambos grupos. Las
diferencias entre las medias que comparten una letra no son estadísticamente
significativas. Las Mezclas 2 y 4 no comparten una letra, lo que indica que la Mezcla 4
posee una media significativamente mayor que la Mezcla 2.
■ Resultados clave: IC simultáneos de 95%, nivel de confianza individual
■ En los resultados de Tukey, los intervalos de confianza en la gráfica y la salida de la ventana
Sesión indican lo siguiente:El intervalo de confianza para la diferencia entre las medias de las
Mezclas 2 y 4 es de 3.11 a 15.89. Este rango no incluye el cero, lo que indica que la diferencia
es estadísticamente significativa.
■ Los intervalos de confianza de los demás pares de medias incluyen el cero, lo que indica que
las diferencias no son estadísticamente significativas.
■ El nivel de confianza simultáneo de 95% indica que usted puede estar 95% seguro de que
todos los intervalos de confianza contienen las diferencias reales.
■ La tabla indica que el nivel de confianza individual es 98.89%. Este resultado indica que usted
puede estar 98.89% seguro de que cada intervalo individual contiene la diferencia real entre un
par específico de medias de grupo. Los niveles de confianza individuales de cada comparación
producen el nivel de confianza simultáneo de 95% para las seis comparaciones.
Paso 4: Determinar hasta qué punto el modelo se ajusta
a sus datos
■ Para determinar qué tan bien se ajusta el modelo a los datos, examine los estadísticos de
bondad de ajuste en la tabla Resumen del modelo.
■ S
■ Utilice S para evaluar qué tan bien el modelo describe la respuesta.
■ S se mide en las unidades de la variable de respuesta y representa la distancia que separa
a los valores de los datos de los valores ajustados. Mientras más bajo sea el valor de S,
mejor será descrita la respuesta por el modelo. Sin embargo, un valor de S bajo no
indica por sí solo que el modelo cumple con los supuestos del modelo. Debe examinar
las gráficas de residuos para verificar los supuestos.
■ R-cuad.
■ El R2 es el porcentaje de variación en la respuesta que es explicada por el modelo. Mientras mayor sea
el valor de R2, mejor se ajustará el modelo a los datos. El R2 siempre está entre 0% y 100%.
■ Un valor de R2 alto no indica que el modelo cumple con los supuestos del modelo. Debe examinar las
gráficas de residuos para verificar los supuestos.
■ R-cuad.(pred)
■ Utilice el R2 pronosticado para determinar qué tan bien el modelo predice la respuesta para nuevas
observaciones. Los modelos que tienen valores más grandes de R2 pronosticado tienen mejor capacidad
de predicción.
■ Un R2 pronosticado que sea sustancialmente menor que el R2 puede indicar que el modelo está
sobreajustado. Un modelo sobreajustado se produce cuando se agregan términos para efectos que no son
importantes en la población. El modelo se adapta a los datos de la muestra y, por lo tanto, es posible que
no sea útil para hacer predicciones acerca de la población.
■ El R2 pronosticado también puede ser más útil que el R2 ajustado para comparar modelos, porque se
calcula con observaciones que no se incluyen en el cálculo del modelo.
■ Resultados clave: S, R-cuad., R-cuad. (pred)
■ En estos resultados, el factor explica un 47.44 % de la variación en la respuesta. S
indica que la desviación estándar entre los puntos de datos y los valores ajustados es de
aproximadamente 3.95 unidades.
Paso 5: Determinar si el modelo cumple con los
supuestos del análisis.
■ Utilice las gráficas de residuos como ayuda para determinar si el modelo es adecuado y
cumple con los supuestos del análisis. Si los supuestos no se cumplen, el modelo podría no
ajustarse adecuadamente a los datos y se debería tener cuidado al interpretar los
resultados.
■ Gráfica de residuos vs. ajustes
■ Utilice la gráfica de residuos vs. ajustes para verificar el supuesto de que los residuos están
distribuidos aleatoriamente y tienen una varianza constante. Lo ideal es que los puntos se
ubiquen aleatoriamente a ambos lados del 0, con patrones no detectables en los puntos.
■ Los patrones que se observan en la siguiente tabla podrían indicar que el modelo no
cumple con los supuestos del modelo.
■ En esta gráfica de residuos vs. ajustes, los puntos parecen estar dispersos aleatoriamente
en la gráfica. Ninguno de los grupos parece tener una variabilidad sustancialmente
diferente y no hay ningún valor atípico evidente.
■ Gráfica de residuos vs. orden
■ Utilice la gráfica de residuos vs. orden para verificar el supuesto de que los residuos son
independientes entre sí. Los residuos independientes no muestran tendencias ni patrones
cuando se muestran en orden cronológico. Los patrones en los puntos podrían indicar
que los residuos que están cercanos entre sí podrían estar correlacionados y, por lo
tanto, podrían no ser independientes. Lo ideal es que los residuos que se muestran en la
gráfica se ubiquen aleatoriamente alrededor de la línea central:
■ NOTA
■ Si el diseño del ANOVA de un solo factor cumple con las directrices para el tamaño de
la muestra, los resultados no se ven afectados sustancialmente por desviaciones con
respecto a la normalidad.
■ En esta gráfica de probabilidad normal, los residuos generalmente parecen seguir una
línea recta. En la gráfica de residuos vs. ajustes se puede observar que hay seis
observaciones en cada uno de los cuatro grupos. Puesto que este diseño no cumple con
las directrices de tamaño de la muestra, es importante satisfacer el supuesto de
normalidad de manera que los resultados de la prueba sean fiables.
REFERENCIAS.
■ https://concepto.de/estadistica-inferencial/
■ https://es.wikipedia.org/wiki/Estimaci%C3%B3n_estad%C3%ADstica#:~:
text=En%20Inferencia%20Estad%C3%ADstica%20se%20llama,datos%20proporcionados%20por%20una%20muestra
■ https://economipedia.com/definiciones/estimacion-puntual.html
■ https://www.uv.es/webgid/Inferencial/5_estimacin_por_intervalos.html
■ https://economipedia.com/definiciones/hipotesis-estadistica.html
■ https://economipedia.com/definiciones/hipotesis-nula.html
■ https://www.superprof.es/diccionario/matematicas/estadistica/error-tipo.html#:~:text=El%20error%20de%20tipo%20I,consecuencia
%20del%20contraste%2C%20se%20rechaza.&text=error%20de%20tipo%20II%20se,consecuencia%20del%20contraste%20se
%20acepta.&text=La%20probabilidad%20de%20cometer%20Error,el%20nivel%20de%20significaci%C3%B3n%20%CE%B1
■ http://lalocoria.blogspot.com/2009/06/23-establecimiento-de-hipotesis-y.html
■ https://www.elsevier.es/es-revista-investigacion-educacion-medica-343-articulo-la-prueba-hipotesis-nula-sus-X2007505712427368#:~:
text=Aceptar%20o%20rechazar%20la%20hip%C3%B3tesis,se%20rechazar%C3%ADa%20la%20hip%C3%B3tesis%20nula
■ https://datavizcatalogue.com/ES/metodos/diagrama_de_dispersion.html
■ https://www.ingenioempresa.com/diagrama-de-dispersion/
■ https://www.google.com/search?q=ecuacion+de+regresion&rlz=1C1UEAD_esMX989MX989&sxsrf=APq-
WBuLkJKBtDJMr8vCYfpNDaVGEZgtlQ:1649174729448&source=lnms&tbm=isch&sa=X&ved=2ahUKEwiBhq_Ppv32AhW3D0QI
HSt2BVIQ_AUoAXoECAEQAw&biw=1366&bih=625&dpr=1#imgrc=K43Huymeh8xDZM
■ https://www.aulafacil.com/cursos/estadisticas/gratis/coeficiente-de-correlacion-lineal-l11224#:~:text=Numerador%3A%20se
%20denomina%20covarianza%20y,el%20tama%C3%B1o%20de%20la%20muestra
■ https://www.ingenieriaindustrialonline.com/pronostico-de-la-demanda/regresion-lineal /
■ https://
www.uaeh.edu.mx/docencia/P_Presentaciones/icea/asignatura/administracion/2018/dolores_admon
.pdf
■ https://www.tcmetrologia.com/blog/diseno-de-experimentos-2/#:~:
text=El%20dise%C3%B1o%20de%20experimentos%20
■ http://halweb.uc3m.es/esp/Personal/personas/mcasas/esp/disenio/introduction2.pdf
■ https://support.minitab.com/es-mx/minitab/18/help-and-how-to/modeling-statistics/anova/supportin
g-topics/anova-statistics/understanding-sums-of-squares
/
■ https://support.minitab.com/es-mx/minitab/18/help-and-how-to/modeling-statistics/anova/supportin
g-topics/anova-statistics/understanding-mean-squares
/
■ https://support.minitab.com/es-mx/minitab/18/help-and-how-to/statistics/basic-statistics/supporting
-topics/basics/what-is-a-test-statistic
/