Está en la página 1de 76

ESTADÍSTICA

INFERENCIAL.
UNIDAD 3
Itzel Denisse Ayala Huerta.
¿Qué es la estadística inferencial?

■ Se llama estadística inferencial o inferencia estadística a la rama de la


Estadística encargada de hacer deducciones, es decir, inferir
propiedades, conclusiones y tendencias, a partir de una muestra del conjunto. Su papel
es interpretar, hacer proyecciones y comparaciones.
■ La estadística inferencial emplea usualmente mecanismos que le permiten llevar a cabo
dichas deducciones, tales como pruebas de estimación puntual (o de intervalos de
confianza), pruebas de hipótesis, pruebas paramétricas (como de media, de diferencia de
medias, proporciones, etc.) y no paramétricas (como la prueba del chi-cuadrado, etc.).
También le son útiles los análisis de correlación y de regresión, las series cronológicas,
el análisis de varianza, entre otros.
3.1 ESTIMACIÓN.
3.1.1 Estimación.

■ En Inferencia Estadística se llama estimación al conjunto de técnicas que permiten dar


un valor aproximado de un parámetro de una población a partir de los datos
proporcionados por una muestra.
3.1.2 TIPOS DE
ESTIMACIÓN DE MEDIAS
Y PROPORCIONES.
Puntual.
■ Una estimación puntual de un parámetro poblacional es cuando se utiliza un único valor
para estimar ese parámetro, es decir, se usa un punto en concreto de la muestra para
estimar el valor deseado.
■ Cuando estimamos un parámetro de forma puntual, podemos saber con certeza, cual es
ese valor. Imaginemos una población de 30 personas de las que seleccionamos una
muestra de 20 para las que conocemos sus edades. Estimar de forma puntual la media
de edad, sería tan sencillo como sumar esos 20 datos y dividirlos entre el total de la
muestra estadística.
Por intervalo.

■ La estimación por intervalos consiste en establecer el intervalo de valores donde es más probable
se encuentre el parámetro. La obtención del intervalo se basa en las siguientes consideraciones:
■ a) Si conocemos la distribución muestral del estimador podemos obtener las probabilidades de
ocurrencia de los estadísticos muestrales.
■ b) Si conociéramos el valor del parámetro poblacional, podríamos establecer la probabilidad de
que el estimador se halle dentro de los intervalos de la distribución muestral.
■ c) El problema es que el parámetro poblacional es desconocido, y por ello el intervalo se
establece alrededor del estimador. Si repetimos el muestreo un gran número de veces y definimos
un intervalo alrededor de cada valor del estadístico muestral, el parámetro se sitúa dentro de cada
intervalo en un porcentaje conocido de ocasiones. Este intervalo es denominado "intervalo de
confianza"
3.2 PRUEBA DE
HIPÓTESIS.
3.2.1 Conceptos de:

Hipótesis. Hipótesis nula.


■ La hipótesis estadística es la ■ Una hipótesis nula es una suposición
suposición que se realiza acerca de que se utiliza para negar o afirmar un
las características de una población. suceso en relación a algún o algunos
Es utilizada para verificarla o parámetros de una población o
rechazarla tras realizar el estudio muestra.
estadístico pertinente.
Hipótesis alternativa. Error tipo I y II.
■ La hipótesis alternativa es la ■ El error de tipo I se comete cuando la
suposición alternativa a la hipótesis hipótesis nula es verdadera y, como
nula formulada en un experimento consecuencia del contraste, se
y/o investigación. Esta surge como rechaza. error de tipo II se comete
resultado de una determinada cuando la hipótesis nula es falsa y,
investigación realizada sobre una como consecuencia del contraste se
población o muestra. acepta. La probabilidad de
cometer Error de tipo I es el nivel de
significación α.
3.2.2 MÉTODO DE LA
PRUEBA DE HIPÓTESIS CON
UNA Y DOS MUESTRAS DE
MEDIA Y VARIANZA.
Establecimiento de hipótesis.

■ Este establecimiento estará dentro del marco teórico donde se inserta el fenómeno de
nuestro interés.
Hipótesis:
Es el intento de explicación a una respuesta “provisional” a un fenómeno. Su función
consiste en delimitar el problema que se va a investigar según algunos elementos tales
como el tiempo, el lugar, las características de los sujetos, etc.
Es decir, es una respuesta tentativa a un problema, pero que no esta comprobada.
Criterio de aceptación.

■ Aceptar o rechazar la hipótesis nula. Si el valor p es menor que el criterio α de


significancia (especificado a priori), se rechaza la hipótesis nula; en el caso contrario se
acepta. Usualmente se elige α = 0.05.
Estadístico de prueba.

■ Un estadístico de prueba es una variable aleatoria que se calcula a partir de datos de


muestra y se utiliza en una prueba de hipótesis. Puede utilizar los estadísticos de prueba
para determinar si puede rechazar la hipótesis nula. El estadístico de prueba compara
sus datos con lo que se espera bajo la hipótesis nula. El estadístico de prueba se utiliza
para calcular el valor p.
3.3 REGRESIÓN
LINEAL Y
CORRELACIÓN.
3.3.1 Proceso de construcción de
diagramas de dispersión
■ Paso 1: Determina cuál es la situación. Si no entendemos qué es lo que esta ocurriendo, no podremos
establecer las variables a estudiar.
■ Paso 2: Determina las variables a estudiar. Si ya determinaste las variables a estudiar, es porque crees
que puede existir una relación entre ellas que te permita caracterizar la situación.
■ Paso 3: Recolecta los datos de las variables: Si ya los tienes, perfecto. Si no, definimos un período de
tiempo para conseguir los datos de las variables antes definidas. Recuerda que los datos de las dos
variables deben estar dados en el mismo período de tiempo.
■ Paso 4: Ubica los valores en el eje respectivo. Por lo general, la variable independiente es aquella que
no está influenciada por la otra y se ubica en el eje x. La variable dependiente que es la que se ve
afectada por la otra variable se ubica en el eje y. Así pues, procedemos a ubicar los valores en el plano
cartesiano de acuerdo a su variable (x, y)
■ Paso 5: Determina el coeficiente de correlación: El coeficiente de correlación debe verse reflejado en
la forma que toma el gráfico de dispersión. Es el cociente de la covarianza y la multiplicación de la
desviación típica de las dos variables. Con excel logramos calcularlo de manera muy simple.
■ Paso 6: Analizamos: Con base en el coeficiente y en el gráfico, definimos cuál es la relación de las dos
variables y tomamos las decisiones pertinentes
3.3.2 Coeficiente de relación.

■ El coeficiente de correlación es la medida específica que cuantifica la intensidad de


la relación lineal entre dos variables en un análisis de correlación.
3.3.3 PROCESO DE
REGRESIÓN LINEAL Y
SU INTERPRETACIÓN.
Diagrama de dispersión.

■ También conocido como gráfico de


dispersión, gráfico de puntos,
diagrama de XY, diagrama de
dispersión o Scattergram.
■ Los diagramas de dispersión usan una
colección de puntos colocados
usando coordenadas cartesianas para
mostrar valores de dos variables. Al
mostrar una variable en cada eje, se
puede detectar si existe una relación o
correlación entre las dos variables.
■ Se pueden interpretar varios tipos de correlación a través de los patrones mostrados en
los diagramas de dispersión. Estos son: 
■ positivo (los valores aumentan juntos).
■  negativo (un valor disminuye a medida que el otro aumenta). 
■ nulo (sin correlación).
■ lineal, exponencial y en forma de U. La fuerza de la correlación puede determinarse
por la proximidad de los puntos entre sí en el gráfico.
■ Los puntos que terminan muy lejos del conjunto general de puntos se conocen
como valores atípicos.
■ Las líneas o curvas se ajustan dentro del gráfico para ayudar en el análisis y se dibujan
tan cerca de todos los puntos como sea posible para mostrar cómo se condensaron todos
los puntos en una sola línea. Esto se conoce normalmente como «línea de mejor
ajuste» un «línea de tendencias» y se puede utilizar para hacer estimaciones mediante
interpolación.
■ Los diagramas de dispersión son ideales cuando se tienen datos numéricos emparejados
y se desea ver si una variable afecta a la otra. Sin embargo, recuerde que la correlación
no es causal y otra variable inadvertida puede estar influyendo en los resultados.
Coeficiente de correlación.
■ En una distribución bidimensional puede ocurrir que las dos variables guarden algún
tipo de relación entre si.
■ Por ejemplo, si se analiza la estatura y el peso de los alumnos de una clase es muy
posible que exista relación entre ambas variables: mientras más alto sea el alumno,
mayor será su peso.
■ El coeficiente de correlación lineal mide el grado de intensidad de esta posible
relación entre las variables. Este coeficiente se aplica cuando la relación que puede
existir entre las variables es lineal (es decir, si representáramos en un gráfico los pares
de valores de las dos variables la nube de puntos se aproximaría a una recta).
■ No obstante, puede que exista una relación que no sea lineal, sino exponencial,
parabólica, etc. En estos casos, el coeficiente de correlación lineal mediría mal la
intensidad de la relación las variables, por lo que convendría utilizar otro tipo de
coeficiente más apropiado.
■ Para ver, por tanto, si se puede utilizar el coeficiente de correlación lineal, lo mejor es
representar los pares de valores en un gráfico y ver que forma describen.
■ El coeficiente de correlación lineal se calcula aplicando la siguiente fórmula:
■ Es decir:
■ Numerador: se denomina covarianza y se calcula de la siguiente manera: en cada par de valores
(x,y) se multiplica la "x" menos su media, por la "y" menos su media. Se suma el resultado obtenido
de todos los pares de valores y este resultado se divide por el tamaño de la muestra.
■ Denominador se calcula el producto de las varianzas de "x" y de "y", y a este producto se le calcula
la raíz cuadrada.
■ Los valores que puede tomar el coeficiente de correlación "r" son: -1 < r < 1
■ Si "r" > 0, la correlación lineal es positiva (si sube el valor de una variable sube el de la otra). La
correlación es tanto más fuerte cuanto más se aproxime a 1.
■ Por ejemplo: altura y peso: los alumnos más altos suelen pesar más.
■ Si "r" < 0, la correlación lineal es negativa (si sube el valor de una variable disminuye el de la otra).
La correlación negativa es tanto más fuerte cuanto más se aproxime a -1.
■ Por ejemplo: peso y velocidad: los alumnos más gordos suelen correr menos.
■ Si "r" = 0, no existe correlación lineal entre las variables. Aunque podría existir otro tipo de
correlación (parabólica, exponencial, etc.)
■ De todos modos, aunque el valor de "r" fuera próximo a 1 o -1, tampoco esto quiere decir
obligatoriamente que existe una relación de causa-efecto entre las dos variables, ya que este
resultado podría haberse debido al puro azar.
Ejemplo:

Ccalcular el coeficiente de correlación de la siguiente serie de datos de altura y peso de los


alumnos de una clase:
Aplicamos la fórmula:
                             (1/30) * (0,826)
r =-----------------------------------------------------------
      (((1/30)*(0,02568)) * ((1/30)*(51,366)))^(1/2)
 
Luego:
r = 0,719
Por lo tanto, la correlación existente entre estas dos variables es elevada (0,7) y de signo
positivo.
Ecuación de regresión

■ La ecuación de regresión lineal simple indica que el valor medio o valor esperado de y


es una función lineal de x: E(y/x) = β0 + β1 x. Si β1=0 entonces E(y/x) = β0 y en este
caso el valor medio no depende del valor de x, y concluimos que x y y no tienen
relación lineal.
3.3.4 Proceso de regresión lineal en
software.
■ El uso de un software estadístico permite disminuir el tiempo en el desarrollo de los
cálculos para el análisis de regresión cuando se desea medir la relación que mantienen
dos variables, la dependiente y la independiente, el software proporciona también la
ecuación de regresión que nos permite calcular proyecciones y realizar la correcta toma
de decisiones.
Instalación.
Método.
3.3.5 Concepto de pronóstico en
regresión lineal.
■ El modelo de pronóstico de regresión lineal permite hallar el valor esperado de una
variable aleatoria a cuando b toma un valor específico. La aplicación de este método
implica un supuesto de linealidad cuando la demanda presenta un comportamiento
creciente o decreciente, por tal razón, se hace indispensable que previo a la selección de
este método exista un análisis de regresión que determine la intensidad de las relaciones
entre las variables que componen el modelo.
El pronóstico de regresión lineal simple es un modelo óptimo para patrones de demanda
con tendencia (creciente o decreciente), es decir, patrones que presenten una relación de
linealidad entre la demanda y el tiempo.

Existen medidas de la intensidad de la relación que presentan las variables que son
fundamentales para determinar en qué momento es conveniente utilizar regresión lineal.
3.4 DISEÑO DE
EXPERIMENTOS
3.4.1 Concepto de diseño de
experimentos.
■ El diseño de experimentos (DOE según sus siglas en inglés) es un método de trabajo
empleado por entidades de todos los sectores para conocer cómo funciona un proceso,
estudiar las variables que le afectan y, empleando herramientas estadísticas, obtener la
información necesaria para su mejora.
3.4.2 ELEMENTOS DE
ANOVA.
ANÁLISIS DE VARIANZA.
Fuentes de variación.

■ Una fuente de variación es cualquier causa que pueda generar variabilidad en la


respuesta. Es recomendable hacer una lista de todas las posibles fuentes de
variación del problema, distinguiendo las que generarán una mayor variabilidad.
Suma de cuadrados.

■ La suma de cuadrados representa una medida de variación o desviación con respecto a


la media. Se calcula como una suma de los cuadrados de las diferencias con respecto a
la media. El cálculo de la suma total de los cuadrados considera tanto la suma de los
cuadrados de los factores como la de aleatoriedad o error.
Suma de cuadrados en ANOVA.

■ En el análisis de varianza (ANOVA), la suma total de los cuadrados ayuda a expresar la variación
total que se puede atribuir a diferentes factores. Por ejemplo, usted hace un experimento para
probar la efectividad de tres detergentes para ropa.
■ La suma total de los cuadrados = suma de los cuadrados del tratamiento (SST) + suma de los
cuadrados del error residual (SSE)
■ La suma de los cuadrados del tratamiento es la variación atribuida a, o en este caso entre, los
detergentes para ropa. La suma de los cuadrados del error residual es la variación atribuida al
error.
■ El convertir la suma de los cuadrados en cuadrados medios al dividir entre los grados de libertad
le permitirá comparar estas relaciones y determinar si existe una diferencia significativa debido al
detergente. Mientras mayor sea esta relación, más afectarán los tratamientos el resultado.
Cuadrados medios.

■ Los cuadrados medios representan una estimación de la varianza de la población. Se


calculan dividiendo la suma correspondiente de los cuadrados entre los grados de
libertad.
Cuadrados medios en ANOVA.

■ En ANOVA, los cuadrados medios se utilizan para determinar si los factores (tratamientos)
son significativos .El cuadrado medio del tratamiento se obtiene dividiendo la suma de los
cuadrados del tratamiento entre los grados de libertad. El cuadrado medio del tratamiento
representa la variación entre las medias de las muestras.
■ El cuadrado medio del error (MSE) se obtiene dividiendo la suma de los cuadrados del error
residual entre los grados de libertad. El MSE representa la variación dentro de las muestras.
■ Por ejemplo, usted hace un experimento para probar la efectividad de tres detergentes para
ropa. Recolecta 20 observaciones para cada detergente. La variación entre las medias de
Detergente 1, Detergente 2 y Detergente 3 es representada por el cuadrado medio del
tratamiento. La variación dentro de las muestras es representada por el cuadrado medio del
error.
Estadístico de prueba.

■ Un estadístico de prueba es una variable aleatoria que se calcula a partir de datos de muestra y se
utiliza en una prueba de hipótesis. Puede utilizar los estadísticos de prueba para determinar si
puede rechazar la hipótesis nula. El estadístico de prueba compara sus datos con lo que se espera
bajo la hipótesis nula. El estadístico de prueba se utiliza para calcular el valor p.
■ Un estadístico de prueba mide el grado de concordancia entre una muestra de datos y la hipótesis
nula. Su valor observado cambia aleatoriamente de una muestra aleatoria a una muestra diferente.
Un estadístico de prueba contiene información acerca de los datos que es relevante para decidir si
se puede rechazar la hipótesis nula. La distribución del muestreo del estadístico de prueba bajo la
hipótesis nula se denomina distribución nula. Cuando los datos muestran evidencia clara en
contra de los supuestos de la hipótesis nula, la magnitud del estadístico de prueba se vuelve
demasiado grande o demasiado pequeña dependiendo de la hipótesis alternativa. Esto hace que el
valor p de la prueba se vuelva lo suficientemente pequeño como para rechazar la hipótesis nula.
Ejemplo:
■  El estadístico de prueba para una prueba Z es el estadístico Z, que sigue la distribución
normal estándar bajo la hipótesis nula. Supongamos que usted realiza una prueba Z de
dos colas con un nivel de significancia (α) de 0.05 y un obtiene un estadístico Z
(también denominado valor Z) de 2.5 basado en sus datos. Este valor Z corresponde a
un valor p de 0.0124. Puesto que este valor p es menor que α, usted declara
significancia estadística y rechaza la hipótesis nula.
■ Las diferentes pruebas de hipótesis utilizan diferentes estadísticos de prueba según el
modelo de probabilidad asumido en la hipótesis nula. Las pruebas comunes y sus
respectivos estadísticos de prueba incluyen:

Prueba de hipótesis Estadístico de prueba


Prueba Z Estadístico Z
Pruebas t Estadístico t
ANOVA Estadístico F
Pruebas de chi-cuadrada Estadístico de chi-cuadrada
3.4.3 PROCESO DE
CONSTRUCCIÓN E
INTERPRETACIÓN DE LA
TABLA ANOVA.
Paso 1: Determinar si las diferencias entre las medias de
los grupos son estadísticamente significativas.

■ Para determinar si cualquiera de las diferencias entre las medias es estadísticamente


significativa, compare el valor p con el nivel de significancia para evaluar la hipótesis nula. La
hipótesis nula indica que las medias de población son todas iguales. Por lo general, un nivel de
significancia (denotado como α o alfa) de 0.05 funciona adecuadamente. Un nivel de
significancia de 0.05 indica un riesgo de 5% de concluir que existe una diferencia cuando no
hay una diferencia real.
■ Valor p ≤ α: Las diferencias entre algunas de las medias son estadísticamente
significativas.
■ Si el valor p es menor que o igual al nivel de significancia, usted rechaza la hipótesis nula y
concluye que no todas las medias de población son iguales. Utilice su conocimiento
especializado para determinar si las diferencias son significativas desde el punto de vista
práctico. Para obtener más información, vaya a Significancia estadística y práctica.
■ Valor p > α: Las diferencias entre las medias no son estadísticamente significativas
■ Si el valor p es mayor que el nivel de significancia, usted no cuenta con suficiente
evidencia para rechazar la hipótesis de que las medias de población son todas iguales.
Verifique que la prueba tenga suficiente potencia para detectar una diferencia que sea
significativa desde el punto de vista práctico. Para obtener más información, vaya a
Aumentar la potencia de una prueba de hipótesis.

■ Resultado clave: Valor p


■ En estos resultados, la hipótesis nula establece que los valores de dureza media de 4
pinturas diferentes son iguales. Puesto que el valor p es menor que el nivel de
significancia de 0.05, usted puede rechazar la hipótesis nula y concluir que algunas de
las pinturas tienen medias diferentes.
Paso 2: Examinar las medias de los grupos.
■ Use la gráfica de intervalo para mostrar la media y el intervalo de confianza para cada grupo.
■ Las gráficas de intervalo muestran lo siguiente: Cada punto representa una media de muestra.
■ Cada intervalo es un intervalo de confianza de 95 % de la media de un grupo. Usted puede
estar 95% seguro de que una media de grupo está dentro del intervalo de confianza del grupo.

■ IMPORTANTE
■ Interprete cuidadosamente estos intervalos porque hacer comparaciones múltiples aumenta la
tasa de error de tipo 1. Es decir, cuando se aumenta el número de comparaciones, también se
incrementa la probabilidad de que al menos una comparación concluirá de forma incorrecta
que una de las diferencias observadas es significativamente diferente.
■ Para evaluar las diferencias que aparecen en esta gráfica, utilice la tabla Información de
agrupación y otros resultados de comparación (como se muestra en el paso 3).

■ En la gráfica de intervalo, la Mezcla 2 tiene la media más baja y la Mezcla 4 tiene la más alta. Usted no
puede determinar, con base en esta gráfica, si algunas de las diferencias son estadísticamente significativas.
Para determinar la significancia estadística, evalúe los intervalos de confianza de las diferencias medias.
Paso 3: Comparar las medias de los grupos.

■ Si el valor p del ANOVA de un solo factor es menor que el nivel de significancia, usted
sabrá que algunas de las medias de los grupos son diferentes, pero no cuáles pares de
grupos. Utilice la tabla Información de agrupación y pruebe las diferencias de las
medias para determinar si esas diferencias entre los pares específicos de grupos es
estadísticamente significativa y para estimar qué tan diferentes son las medias.
Tabla Información de agrupación
Utilice la tabla Información de agrupación para determinar rápidamente si la diferencia de las
medias entre cualquier par de grupos es estadísticamente significativa.
Los grupos que no comparten una letra son significativamente diferentes.
Pruebas para las diferencias de las medias
Utilice los intervalos de confianza para determinar los posibles rangos de las diferencias y para
determinar si las diferencias son significativas desde el punto de vista práctico. La tabla muestra
un conjunto de intervalos de confianza para la diferencia entre los pares de medias. La gráfica de
intervalo para las diferencias de las medias muestra la misma información.
Los intervalos de confianza que no contienen el cero indican una diferencia en las medias que es
estadísticamente significativa.
Dependiendo del método de comparación que elija, la tabla compara diferentes pares de grupos y
muestra uno de los siguientes tipos de intervalos de confianza.
■ Nivel de confianza individual
■ El porcentaje de veces que un solo intervalo de confianza incluye la diferencia real entre
un par de medias de grupo si el estudio se repite múltiples veces.
■ Nivel de confianza simultáneo
■ El porcentaje de veces que un conjunto de intervalos de confianza incluye las diferencias
reales de todas las comparaciones de grupos si el estudio se repite múltiples veces.
■ Controlar los intervalos de confianza simultáneos es particularmente importante cuando
usted realiza comparaciones múltiples. Si no se controlan los intervalos de confianza
simultáneos, la probabilidad de que al menos un intervalo de confianza no contenga la
diferencia real aumenta con el número de comparaciones.
■ Resultados clave: Media, Agrupación
■ En estos resultados, la tabla muestra que el grupo A contiene las Mezclas 1, 3 y 4 y el
grupo B contiene las Mezclas 1, 2 y 3. Las Mezclas 1 y 3 están en ambos grupos. Las
diferencias entre las medias que comparten una letra no son estadísticamente
significativas. Las Mezclas 2 y 4 no comparten una letra, lo que indica que la Mezcla 4
posee una media significativamente mayor que la Mezcla 2.
■ Resultados clave: IC simultáneos de 95%, nivel de confianza individual
■ En los resultados de Tukey, los intervalos de confianza en la gráfica y la salida de la ventana
Sesión indican lo siguiente:El intervalo de confianza para la diferencia entre las medias de las
Mezclas 2 y 4 es de 3.11 a 15.89. Este rango no incluye el cero, lo que indica que la diferencia
es estadísticamente significativa.
■ Los intervalos de confianza de los demás pares de medias incluyen el cero, lo que indica que
las diferencias no son estadísticamente significativas.
■ El nivel de confianza simultáneo de 95% indica que usted puede estar 95% seguro de que
todos los intervalos de confianza contienen las diferencias reales.
■ La tabla indica que el nivel de confianza individual es 98.89%. Este resultado indica que usted
puede estar 98.89% seguro de que cada intervalo individual contiene la diferencia real entre un
par específico de medias de grupo. Los niveles de confianza individuales de cada comparación
producen el nivel de confianza simultáneo de 95% para las seis comparaciones.
Paso 4: Determinar hasta qué punto el modelo se ajusta
a sus datos

■ Para determinar qué tan bien se ajusta el modelo a los datos, examine los estadísticos de
bondad de ajuste en la tabla Resumen del modelo.

■ S
■ Utilice S para evaluar qué tan bien el modelo describe la respuesta.
■ S se mide en las unidades de la variable de respuesta y representa la distancia que separa
a los valores de los datos de los valores ajustados. Mientras más bajo sea el valor de S,
mejor será descrita la respuesta por el modelo. Sin embargo, un valor de S bajo no
indica por sí solo que el modelo cumple con los supuestos del modelo. Debe examinar
las gráficas de residuos para verificar los supuestos.
■ R-cuad.
■ El R2 es el porcentaje de variación en la respuesta que es explicada por el modelo. Mientras mayor sea
el valor de R2, mejor se ajustará el modelo a los datos. El R2 siempre está entre 0% y 100%.
■ Un valor de R2 alto no indica que el modelo cumple con los supuestos del modelo. Debe examinar las
gráficas de residuos para verificar los supuestos.

■ R-cuad.(pred)
■ Utilice el R2 pronosticado para determinar qué tan bien el modelo predice la respuesta para nuevas
observaciones. Los modelos que tienen valores más grandes de R2 pronosticado tienen mejor capacidad
de predicción.
■ Un R2 pronosticado que sea sustancialmente menor que el R2 puede indicar que el modelo está
sobreajustado. Un modelo sobreajustado se produce cuando se agregan términos para efectos que no son
importantes en la población. El modelo se adapta a los datos de la muestra y, por lo tanto, es posible que
no sea útil para hacer predicciones acerca de la población.
■ El R2 pronosticado también puede ser más útil que el R2 ajustado para comparar modelos, porque se
calcula con observaciones que no se incluyen en el cálculo del modelo.
■ Resultados clave: S, R-cuad., R-cuad. (pred)
■ En estos resultados, el factor explica un 47.44 % de la variación en la respuesta. S
indica que la desviación estándar entre los puntos de datos y los valores ajustados es de
aproximadamente 3.95 unidades.
Paso 5: Determinar si el modelo cumple con los
supuestos del análisis.

■ Utilice las gráficas de residuos como ayuda para determinar si el modelo es adecuado y
cumple con los supuestos del análisis. Si los supuestos no se cumplen, el modelo podría no
ajustarse adecuadamente a los datos y se debería tener cuidado al interpretar los
resultados.
■ Gráfica de residuos vs. ajustes
■ Utilice la gráfica de residuos vs. ajustes para verificar el supuesto de que los residuos están
distribuidos aleatoriamente y tienen una varianza constante. Lo ideal es que los puntos se
ubiquen aleatoriamente a ambos lados del 0, con patrones no detectables en los puntos.
■ Los patrones que se observan en la siguiente tabla podrían indicar que el modelo no
cumple con los supuestos del modelo.
■ En esta gráfica de residuos vs. ajustes, los puntos parecen estar dispersos aleatoriamente
en la gráfica. Ninguno de los grupos parece tener una variabilidad sustancialmente
diferente y no hay ningún valor atípico evidente.
■ Gráfica de residuos vs. orden
■ Utilice la gráfica de residuos vs. orden para verificar el supuesto de que los residuos son
independientes entre sí. Los residuos independientes no muestran tendencias ni patrones
cuando se muestran en orden cronológico. Los patrones en los puntos podrían indicar
que los residuos que están cercanos entre sí podrían estar correlacionados y, por lo
tanto, podrían no ser independientes. Lo ideal es que los residuos que se muestran en la
gráfica se ubiquen aleatoriamente alrededor de la línea central:

■ Si observa un patrón, investigue la causa. Los siguientes tipos de patrones pueden


indicar que los residuos son dependientes.
TENDENCIA CAMBIO CICLO
■ En esta gráfica de residuos vs. orden, los residuos están ubicados aleatoriamente
alrededor de la línea central.
■ Gráfica de probabilidad normal de los residuos
■ Utilice la gráfica de probabilidad normal de los residuos para verificar el supuesto de
que los residuos están distribuidos normalmente. La gráfica de probabilidad normal de
los residuos debe seguir aproximadamente una línea recta.
■ Los patrones que se observan en la siguiente tabla podrían indicar que el modelo no
cumple con los supuestos del modelo.

■ NOTA
■ Si el diseño del ANOVA de un solo factor cumple con las directrices para el tamaño de
la muestra, los resultados no se ven afectados sustancialmente por desviaciones con
respecto a la normalidad.
■ En esta gráfica de probabilidad normal, los residuos generalmente parecen seguir una
línea recta. En la gráfica de residuos vs. ajustes se puede observar que hay seis
observaciones en cada uno de los cuatro grupos. Puesto que este diseño no cumple con
las directrices de tamaño de la muestra, es importante satisfacer el supuesto de
normalidad de manera que los resultados de la prueba sean fiables.
REFERENCIAS.
■ https://concepto.de/estadistica-inferencial/
■ https://es.wikipedia.org/wiki/Estimaci%C3%B3n_estad%C3%ADstica#:~:
text=En%20Inferencia%20Estad%C3%ADstica%20se%20llama,datos%20proporcionados%20por%20una%20muestra
■ https://economipedia.com/definiciones/estimacion-puntual.html
■ https://www.uv.es/webgid/Inferencial/5_estimacin_por_intervalos.html
■ https://economipedia.com/definiciones/hipotesis-estadistica.html
■ https://economipedia.com/definiciones/hipotesis-nula.html
■ https://www.superprof.es/diccionario/matematicas/estadistica/error-tipo.html#:~:text=El%20error%20de%20tipo%20I,consecuencia
%20del%20contraste%2C%20se%20rechaza.&text=error%20de%20tipo%20II%20se,consecuencia%20del%20contraste%20se
%20acepta.&text=La%20probabilidad%20de%20cometer%20Error,el%20nivel%20de%20significaci%C3%B3n%20%CE%B1
■ http://lalocoria.blogspot.com/2009/06/23-establecimiento-de-hipotesis-y.html
■ https://www.elsevier.es/es-revista-investigacion-educacion-medica-343-articulo-la-prueba-hipotesis-nula-sus-X2007505712427368#:~:
text=Aceptar%20o%20rechazar%20la%20hip%C3%B3tesis,se%20rechazar%C3%ADa%20la%20hip%C3%B3tesis%20nula
■ https://datavizcatalogue.com/ES/metodos/diagrama_de_dispersion.html
■ https://www.ingenioempresa.com/diagrama-de-dispersion/
■ https://www.google.com/search?q=ecuacion+de+regresion&rlz=1C1UEAD_esMX989MX989&sxsrf=APq-
WBuLkJKBtDJMr8vCYfpNDaVGEZgtlQ:1649174729448&source=lnms&tbm=isch&sa=X&ved=2ahUKEwiBhq_Ppv32AhW3D0QI
HSt2BVIQ_AUoAXoECAEQAw&biw=1366&bih=625&dpr=1#imgrc=K43Huymeh8xDZM
■ https://www.aulafacil.com/cursos/estadisticas/gratis/coeficiente-de-correlacion-lineal-l11224#:~:text=Numerador%3A%20se
%20denomina%20covarianza%20y,el%20tama%C3%B1o%20de%20la%20muestra
■ https://www.ingenieriaindustrialonline.com/pronostico-de-la-demanda/regresion-lineal /
■ https://
www.uaeh.edu.mx/docencia/P_Presentaciones/icea/asignatura/administracion/2018/dolores_admon
.pdf
■ https://www.tcmetrologia.com/blog/diseno-de-experimentos-2/#:~:
text=El%20dise%C3%B1o%20de%20experimentos%20
■ http://halweb.uc3m.es/esp/Personal/personas/mcasas/esp/disenio/introduction2.pdf
■ https://support.minitab.com/es-mx/minitab/18/help-and-how-to/modeling-statistics/anova/supportin
g-topics/anova-statistics/understanding-sums-of-squares
/
■ https://support.minitab.com/es-mx/minitab/18/help-and-how-to/modeling-statistics/anova/supportin
g-topics/anova-statistics/understanding-mean-squares
/
■ https://support.minitab.com/es-mx/minitab/18/help-and-how-to/statistics/basic-statistics/supporting
-topics/basics/what-is-a-test-statistic
/

También podría gustarte