Está en la página 1de 18

10 DE NOVIEMBRE DE 2022

PRUEBA DE BONDAD
Prueba de la bondad de ajuste
Esta es una prueba para decidir, a partir de una muestra particular, si se rechaza o
no la hipótesis de que una variable aleatoria7/ se ajusta a una distribución
probabilística específica. Por ejemplo, en los Capítulos anteriores los métodos
aplicados se basaban en el supuesto de población normal o tamaños de muestra lo
suficientemente grandes como para que proceda la aplicación del TCL. Un
procedimiento adecuado para contrastar ese supuesto es la prueba de la bondad
del ajuste, debiendo aclararse que no es en el único caso en que se puede aplicar
esta prueba ya que, ésta es susceptible de utilizarse cualquiera sea la distribución
especificada: uniforme, Poisson, exponencial, normal, entre otras. El procedimiento
comienza con el planteo de la hipótesis nula de que la variable aleatoria bajo estudio
tiene una distribución específica.
Luego se toma una muestra aleatoria de la población, la cual provee las frecuencias
observadas. Seguida mente se compara con la distribución teórica. Los valores de
las probabilidades teóricos cuando se los multiplica por el tamaño de la muestra se
transforman en las frecuencias esperadas. Algunos ejemplos pueden describir
mejor el procedimiento de prueba. Supongamos el siguiente caso: Una financiera
registró el número de días de atraso por semana en el pago de los préstamos
acordados para los últimos 80 clientes. Los resultados se muestran en la Tabla 1.
Con el objeto de estimar intereses y saldos disponibles para próximos préstamos,
desea probar la hipótesis de que la variable aleatoria “días de atraso” se ajusta a
una distribución Poisson.

Hipótesis: Ho : El número de días de atraso se distribuye Poisson, P (x, λ=?) H1 :


El número de días de atraso no se distribuye Poisson En primer lugar como se
desconoce λ, se deberá encontrar su estimador de máxima verosimilitud: _ λ x ∧ =
Para los datos presentados en la Tabla 1, λ 1, 51 ∧ = (sugerimos que usted lo calcule
y verifique este resultado). 2.- Nivel de significación: Se elige un nivel de
significación, para el ejemplo tomaremos α = 0,05 (asignado arbitrariamente).
Por lo tanto, 0,05 es la probabilidad de rechazar una hipótesis nula verdadera.
Prueba de independencia:
Las pruebas de independencia implican el uso de una tabla de contingencia de
valores observados (datos).
El estadístico de prueba de independencia es similar al de la prueba de bondad de
ajuste:

Σ(i⋅j)(O–E)2E
donde:
O = valores observados
E = valores esperados
i = el número de filas de la tabla
j = el número de columnas de la tabla
Hay i⋅j términos de la forma (O–E)2E.
Una prueba de independencia determina si dos factores son independientes o no.
La primera vez que vio el término independencia fue en la A modo de repaso,
considere el siguiente ejemplo. A modo de repaso, considere el siguiente ejemplo.
Supongamos que A = una infracción por exceso de velocidad en el último año y B
= un usuario de teléfono móvil mientras conduce. Si A y B son independientes,
entonces P(A ∩ B) = P(A)P(B). A ∩ B es el caso de que un conductor recibiera una
infracción por exceso de velocidad el año pasado y también utilizara un teléfono
móvil mientras conducía. Supongamos que se encuestaron 755 personas en un
estudio sobre conductores que recibieron infracciones por exceso de velocidad
durante el año pasado que usaron el teléfono móvil mientras conducían. De los 755,
70 tenían una infracción por exceso de velocidad y 685 no; 305 usaba el teléfono
móvil mientras conducían y 450 no.

Supongamos que y = número esperado de conductores que usaron un teléfono


móvil mientras conducían y recibieron infracciones por exceso de velocidad.
Si A y B son independientes, entonces P(A ∩ B) = P(A)P(B). Por sustitución,
y755=(70755)(305755)
Resuelva para y: y = (70)(305)755=28,3
Se espera que unas 28 personas de la muestra usen teléfonos móviles mientras
conducen y reciban infracciones por exceso de velocidad.

En una prueba de independencia planteamos las hipótesis nula y alternativa con


palabras. Dado que la tabla de contingencia consta de dos factores, la hipótesis nula
afirma que los factores son independientes y la hipótesis alternativa afirma que no
son independientes (dependientes). Si hacemos una prueba de independencia
usando el ejemplo, entonces la hipótesis nula es:
H0: Ser usuario de un teléfono móvil mientras se conduce y recibir una infracción
por exceso de velocidad son hechos independientes; en otras palabras, no tienen
ningún efecto entre sí.
Si la hipótesis nula fuera cierta, esperaríamos que unas 28 personas usaran el móvil
mientras conducen y recibieran una infracción por exceso de velocidad.
La prueba de independencia es siempre de cola derecha debido al cálculo del
estadístico de prueba. Si los valores esperados y observados no están cerca,
entonces el estadístico de prueba es muy grande y se encuentra en la cola derecha
de la curva de chi-cuadrado, al igual que en una bondad de ajuste.
El número de grados de libertad para la prueba de independencia es:
df = (número de columnas – 1)(número de filas – 1)
La siguiente fórmula calcula el número esperado (E):
E=(total de filas)(total de columnas)número total de encuestados

¿Qué es la prueba ji cuadrado de bondad de ajuste?


La prueba ji cuadrado de bondad de ajuste es una prueba de hipótesis estadística
que se usa para averiguar si es probable que una variable provenga o no de una
distribución específica. Se emplea a menudo para determinar si los datos de una
muestra son representativos de la población completa.
¿Cuándo puedo usar esta prueba?
Puede usar esta prueba cuando tenga conteos de valores de una variable
categórica.
¿Esta prueba es igual que la prueba de ji cuadrado de Pearson?
Sí.
La prueba de ji cuadrado de bondad de ajuste comprueba si es probable que los
datos de la muestra vengan de una distribución teórica específica. Tenemos un
conjunto de valores de datos y cierta idea sobre cómo se distribuyen. Esta prueba
nos da una manera de decidir si los datos se ajustan lo bastante bien a nuestra idea
o debemos revisarla.
EJEMPLO:
Vamos a usar las bolsas de caramelos de ejemplo. Reunimos una muestra aleatoria
de diez bolsas. Cada bolsa tiene 100 caramelos de cinco sabores. Nuestra hipótesis
es que la proporción de los cinco sabores en cada bolsa es la misma.

Vamos a empezar por responder a esto: ¿es la prueba de ji cuadrado de bondad de


ajuste un método apropiado para evaluar la distribución de sabores en las bolsas
de caramelos?

Tenemos una muestra aleatoria de 10 bolsas. Cumplimos este requisito.


Nuestra variable categórica son los sabores de caramelo. Tenemos el conteo para
cada sabor en las 10 bolsas. Cumplimos este requisito.
Cada bolsa tiene 100 caramelos. Cada bolsa tiene cinco sabores. Esperamos tener
el mismo número en cada sabor. Esto significa que esperamos 100 / 5 = 20
caramelos de cada sabor en cada bolsa. En las 10 bolsas de nuestra muestra,
esperamos 10 x 20 = 200 caramelos de cada sabor. Esto excede el requisito de al
menos cinco valores esperados en cada categoría.
Partiendo de las respuestas anteriores, sí, la prueba de ji cuadrado de bondad de
ajuste es un método adecuado para evaluar la distribución de sabores en las bolsas
de caramelos.
Sin hacer estadísticas, ya podemos ver que el número de caramelos de cada sabor
no es el mismo. Tenemos menos de los 200 caramelos esperados de algunos
sabores y de otros tenemos más. Pero, ¿cómo de distintas son las proporciones?
¿Los números son lo bastante próximos como para decir que en muchas bolsas
habrá la misma cantidad de caramelos de cada sabor? ¿O son demasiado distintos
como para sacar esa conclusión? Otra forma de decirlo es: ¿nuestros valores de
datos tienen un ajuste «lo bastante bueno» a la idea de un mismo número de
caramelos de cada sabor o no?
Para decidirlo, hallamos la diferencia entre lo que tenemos y lo que esperamos.
Luego, para dar a los sabores con menos piezas de las esperadas la misma
importancia que a los sabores con más piezas de las esperadas, elevamos la
diferencia al cuadrado. A continuación, dividimos el cuadrado entre el conteo
esperado y sumamos los valores. Esto nos da la estadística de la prueba.

Estos pasos son mucho más fáciles de entender si usamos los valores de nuestro
ejemplo.
Empecemos listando lo que esperamos si cada bolsa de caramelos tiene los mismos
de cada sabor. Arriba hemos calculado 200 para 10 bolsas.

Número de
Número esperado
Sabor caramelos (10
de caramelos
bolsas)

Manzana 180 200

Lima 250 200

Cereza 120 200

Cereza 225 200

Uva 225 200

Ahora, hallamos la diferencia entre lo que observamos en nuestros datos y lo que


esperábamos. La última columna de la tabla 2 a continuación indica esta diferencia:
Número de
Número esperado
Sabor caramelos (10 Observada-Esperada
de caramelos
bolsas)

Manzana 180 200 180-200 = -20

Lima 250 200 250-200 = 50

Cereza 120 200 120-200 = -80

Naranja 225 200 225-200 = 25

Uva 225 200 225-200 = 25

Algunas diferencias son negativas y otras positivas. Si las sumáramos a secas, nos
daría cero. En lugar de eso, usaremos sus cuadrados. Esto da la misma importancia
a aquellos sabores donde hay menos caramelos de lo esperado y a aquellos donde
hay más de lo esperado.

Número de Número
Observada- Diferencia al
Sabor caramelos esperado de
Esperada cuadrado
(10 bolsas) caramelos

Manzana 180 200 180-200 = -20 400

Lima 250 200 250-200 = 50 2500

Cereza 120 200 120-200 = -80 6400


Naranja 225 200 225-200 = 25 625

Uva 225 200 225-200 = 25 625

A continuación, dividimos el cuadrado de las diferencias entre el número esperado:

Número Diferencia
Número
de Diferencia al
esperado Observada-
Sabor caramelos al cuadrado /
de Esperada
(10 cuadrado Número
caramelos
bolsas) esperado

180-200 = - 400 / 200 =


Manzana 180 200 400
20 2

250-200 = 2500 / 200


Lima 250 200 2500
50 = 12,5

120-200 = - 6400 / 200


Cereza 120 200 6400
80 = 32

225-200 = 625 / 200 =


Naranja 225 200 625
25 3,125
225-200 = 625 / 200 =
Uva 225 200 625
25 3,125

Finalmente, sumamos las cifras de la última columna para calcular la estadística de


nuestra prueba:
2 + 12,5 + 32 + 3,125 + 3,125 = 52,75

¿Qué es una tabla de contingencia?


Una tabla de contingencia es una herramienta utilizada en la rama de la estadística,
la cual consiste en crear al menos dos filas y dos columnas para representar datos
categóricos en términos de conteos de frecuencia.
Esta herramienta, que también se conoce como tabla cruzada o como tabla de dos
vías, tiene el objetivo de representar en un resumen, la relación entre diferentes
variables categóricas.
La tabla de contingencia es una de las herramientas analíticas más útiles y un pilar
de la industria de la investigación de mercados.
La tabla permite medir la interacción entre dos variables para conocer una serie de
información “oculta” de gran utilidad para comprender con mayor claridad los
resultados de una investigación.
La tabla sólo mostrará los encuestados que respondieron ambas preguntas, lo que
significa que las frecuencias mostradas pueden diferir de una tabla de frecuencias
estándar.
El informe que ofrece también mostrará las Estadísticas Chi-cuadrado de Pearson,
el cual representa el grado de correlación entre las variables que usan el chi-
cuadrado, el valor p y el grado de libertad.
Los objetivos de la tabla de contingencia son los siguientes:
• Ordenar la información recolectada para un estudio cuando los datos se
encuentran divididos de forma bidimensional, esto significa a que se
relaciona con dos factores cualitativos.
• El otro objetivo de la tabla de contingencia es analizar si hay una relación
entre las variables cualitativas, ya sean dependientes o independientes.
Ventajas de realizar una tabla de contingencia
Entre los principales beneficios de realizar una tabla de contingencia se encuentran
los siguientes:
1. Facilita la lectura de los datos recolectados, ya que permite agruparlos
cuando aún se encuentran sin procesar, lo que disminuye el margen de error
al realizar un informe de investigación.
2. Gracias a la tabla de contingencia es posible realizar gráficas que permitan
visualizar la información fácilmente para su comprensión.
3. A diferencia de otros métodos estadísticos de análisis de datos, la tabla de
contingencia permite ahorrar tiempo durante la correlación de variables.
4. Las tablas ofrecen resultados claros y precisos que permiten tomar mejores
decisiones y crear estrategias basadas en datos.
La tabla de contingencia generalmente se realiza en datos categóricos, es decir que
se pueden dividir en grupos mutuamente excluyentes.
Un ejemplo de datos categóricos es la región de ventas de un producto.
Típicamente, la región se puede dividir en categorías como área geográfica (norte,
sur, noreste, oeste, etc.) o estado.
Es importante recordar que los datos categóricos no pueden pertenecer a más de
una categoría.
Uno de los principales usos de una tabla de contingencia es analizar la relación que
existe entre los datos, las cuales no son fáciles de identificar. Esto permite realizar
un estudio de mercado efectivo, examinando la información recolectada en una
encuesta.

Tabla de contingencia
es una de las formas más comunes de resumir datos categóricos. En general, el
interés se centra en estudiar si existe alguna asociación entre una
variable denominada fila y otra variable denominada columna y se calcula la
intensidad
de dicha asociación.
De manera formal, se consideran X e Y dos variables categóricas con I y J
categorías
respectivamente. Una observación puede venir clasificada en una de las posibles I
×J
categorías que existen.
Cuando las casillas de la tabla contienen las frecuencias observadas, la tabla se
denomina tabla de contingencia, término que fue introducido por Pearson en 1904.
Una tabla de contingencia (o tabla de clasificación cruzada), con I filas y J columnas
se denomina una tabla I × J.
Ejemplo
Por ejemplo, se considera la distribución conjunta de dos variables y la
correspondiente
tabla de contingencia en una muestra de pacientes de un hospital. Se tiene la
siguiente
tabla donde se consideran el riesgo de ataque al corazón respecto a la toma de
aspirinas:
X ≡ Se toma aspirina o placebo (I = 2).
Y ≡ Se sufre ataque cardiaco o no (J = 3)
Como resumen de la información que presenta la tabla, de los 11034 enfermos que
tomaron un placebo, 18 tuvieron un ataque al corazón, mientras que de los 11037
que
tomaron aspirina, 5 tuvieron ataques al corazón.
La distribución conjunta de dos variables categóricas determina su relación. Esta
distribución también determina las distribuciones marginales y condicionales.

Pruebas no paramétricas
Las pruebas no paramétricas hacen supuestos mínimos acerca de la distribución
subyacente de los datos. Las pruebas que están disponibles en estos cuadros de
diálogo se pueden agrupar en tres categorías amplias en función de cómo se
organizan los datos:

Una prueba de una muestra analiza un campo.


Una prueba para muestras relacionadas compara dos o más campos para el mismo
conjunto de casos.
Una prueba de muestras independientes analiza un campo que se agrupa por
categorías de otro campo.
• Pruebas no paramétricas para una muestra
• Pruebas no paramétricas para muestras independientes
• Pruebas no paramétricas para muestras relacionadas
• Características adicionales del mandato NPTESTS
• Diálogos Heredados (Pruebas no paramétricas)
Una prueba no paramétrica de una muestra identifica diferencias en campos únicos
mediante una o más pruebas no paramétricas. Las pruebas no paramétricas no dan
por hecho que sus datos sigan la distribución normal.
¿Cuál es su objetivo? Los objetivos le permiten especificar rápidamente ajustes de
prueba diferentes y comunes.
Comparar automáticamente datos observados con el valor hipotetizado. Este
objetivo aplica la prueba binomial a campos categóricos con sólo dos categorías, la
prueba de chi-cuadrado al resto de campos categóricos y la prueba de Kolmogorov-
Smirnov a campos continuos.
Probar la aleatoriedad de la secuencia. Este objetivo utiliza la prueba de rachas para
comprobar la aleatoriedad de la secuencia observada de valores de datos.
Análisis personalizado. Seleccione esta opción si desea modificar manualmente la
configuración de la prueba de la pestaña Configuración. Tenga en cuenta que esta
configuración se selecciona automáticamente si realiza cambios posteriores a
muchas opciones de la pestaña Configuración que sean incompatibles con los del
objetivo seleccionado actualmente.

Prueba de Kolmogorov-Smirnov para una muestra


El procedimiento Prueba de Kolmogorov-Smirnov para una muestra compara la
función de distribución acumulada observada de una variable con una distribución
teórica determinada, que puede ser la normal, la uniforme, la de Poisson o la
exponencial. La Z de Kolmogorov-Smirnov se calcula a partir de la diferencia mayor
(en valor absoluto) entre las funciones de distribución acumuladas teórica y
observada. Esta prueba de bondad de ajuste contrasta si las observaciones podrían
razonablemente proceder de la distribución especificada.
A partir de la versión 27.0, la estadística de prueba Lilliefors se puede utilizar para
estimar el valor p utilizando el muestreo de Monte Carlo para probar en una
distribución normal con parámetros estimados (esta funcionalidad era posible
anteriormente únicamente a través del procedimiento Explorar).
Ejemplo
Muchas pruebas paramétricas requieren que las variables se distribuyan de forma
normal. La prueba de Kolmogorov-Smirnov para una muestra se puede utilizar para
comprobar que una variable (por ejemplo, ingresos) se distribuye normalmente.
Estadísticas
Media, desviación estándar, mínimo, máximo, número de casos no perdidos,
cuartiles, prueba de Lilliefors y simulación de Monte Carlo.
La prueba de Kolmogorov-Smirnov asume que los parámetros de la distribución de
prueba se han especificado previamente. Este procedimiento estima los parámetros
a partir de la muestra. La media y la desviación estándar de la muestra son los
parámetros de una distribución normal, los valores mínimo y máximo de la muestra
definen el rango de la distribución uniforme, la media muestral es el parámetro de
la distribución de Poisson y la media muestral es el parámetro de la distribución
exponencial. La capacidad de la prueba para detectar desviaciones a partir de la
distribución hipotetizada puede disminuir gravemente.
Cuando deben estimarse algunos parámetros de la distribución a partir de la
muestra, la prueba de Kolmogorov-Smirnov ya no se aplica. En estas instancias, la
estadística de prueba de Lilliefors se puede utilizar para estimar el valor p utilizando
el muestreo de Monte Carlo para contrastar la normalidad con la media y la varianza
desconocida. La prueba de Lilliefors se aplica a las tres distribuciones continuas
(Normal, Exponencial y Uniforme). Tenga en cuenta que la prueba no se aplica si la
distribución subyacente es discreta (Poisson). La prueba solo está definida para
inferencia de una muestra cuando no se especifican los parámetros de distribución
correspondientes.

¿Qué es el estadístico de Anderson-Darling?


El estadístico Anderson-Darling mide qué tan bien siguen los datos una distribución
específica. Para un conjunto de datos y distribución en particular, mientras mejor se
ajuste la distribución a los datos, menor será este estadístico. Por ejemplo, usted
puede utlizar el estadístico de Anderson-Darling para determinar si los datos
cumplen el supuesto de normalidad para una prueba t.
Las hipótesis para la prueba de Anderson-Darling son:
H0: Los datos siguen una distribución especificada
H1: Los datos no siguen una distribución especificada
Utilice el valor p correspondiente (si está disponible) para probar si los datos
provienen de la distribución elegida. Si el valor p es menor que un nivel de
significancia elegido (por lo general 0.05 o 0.10), entonces rechace la hipótesis nula
de que los datos provienen de esa distribución. Minitab no siempre muestra un valor
p para la prueba de Anderson-Darling, porque este no existe matemáticamente para
ciertos casos.
También puede utilizar el estadístico de Anderson-Darling para comparar el ajuste
de varias distribuciones con el fin de determinar cuál es la mejor. Sin embargo, para
concluir que una distribución es la mejor, el estadístico de Anderson-Darling debe
ser sustancialmente menor que los demás. Cuando los estadísticos están cercanos
entre sí, se deben usar criterios adicionales, como las gráficas de probabilidad, para
elegir entre ellos.
Distribución Anderson-Darling Valor p

Exponencial 9,599 p < 0.003

Normal 0,641 p < 0.089

Weibull de 3 parámetros 0,376 p < 0.432

Exponencial

Normal

Weibull de 3 parámetros

Prueba Anderson Darling


El estadístico de bondad de ajuste de Anderson-Darling -AD- mide el área entre la
línea ajustada -basada en la distribución normal- y la función de distribución
empírica -que se basa en los puntos de los datos-. El estadístico de Anderson-
Darling es una distancia elevada al cuadrado que tiene mayor ponderación en las
colas de la distribución (Jensen & Alexander, 2016).
Según Guisande & Barreiro (2006), el estadístico Anderson Darling puede ser
utilizado para comprobar si los datos satisfacen el supuesto de normalidad para una
prueba t. También se lo puede definir como aquel estadístico no paramétrico que
es utilizado para probar si un conjunto de datos muéstrales provienen de una
población con una distribución de probabilidad continua específica, por lo general,
de una distribución normal. Esta prueba se basa en la comparación de la función de
la distribución acumulada empírica de los resultados de la muestra con la
distribución esperada si los datos fueran normales. Al momento de obtener los
resultados, si la diferencia observada es suficientemente grande, la hipótesis nula
de normalidad de la población es rechazada.
El estadístico A2 mide el área entre la línea ajustada basada en la distribución
elegida y la función de paso no paramétrica, basado en los puntos de la gráfica. El
estadístico es una distancia elevada al cuadrado que tiene mayor ponderación en
las colas de la distribución, por lo tanto, un valor pequeño de Anderson-Darling
indica que la distribución se ajusta mejor a los datos (Minitab, 2020). El estadístico
de Anderson-Darling -A2- está dado por la ecuación.
Donde:
N: número de casos.
S: desviación estándar.
Expresado también según la ecuación 2, así:

Donde:
n es el número de datos.
observaciones ordenadas.
F(Yi) es la función de la distribución empírica.
Y también se puede expresar tal como se muestra en la ecuación 3, así:

La prueba de Anderson-Darling se realiza en dos pasos: primero, se crean dos


distribuciones acumulativas, la primera es una distribución acumulativa de los datos
crudos y la segunda, es una distribución acumulativa normal y, segundo, se
comparan las dos distribuciones acumulativas para determinar la mayor diferencia
numérica absoluta entre ambas. De tal manera que, si la diferencia es amplia, se
rechaza la hipótesis nula, esto es, que los datos siguen una distribución normal .
El estadístico Anderson-Darling mide qué tan bien siguen los datos una distribución
específica, siendo que, para un conjunto de datos y distribución en particular,
mientras mejor se ajuste la distribución a los datos, menor será este estadístico.
También puede utilizar el estadístico de Anderson-Darling para comparar el ajuste
de varias distribuciones con el fin de determinar cuál es la mejor. Sin embargo, para
concluir que una distribución es la mejor, el estadístico de Anderson-Darling debe
ser sustancialmente menor que los demás. Cuando los estadísticos están cercanos
entre sí, se deben usar criterios adicionales, como las gráficas de probabilidad, para
elegir entre ellos.

Prueba Shapiro-Wilk

Según Novales (2010), esta prueba se emplea para contrastar normalidad cuando
el tamaño de la muestra es menor a 50 observaciones y en muestras grandes es
equivalente al test de Kolmogórov-Smirnov. El método consiste en comenzar
ordenando la muestra de menor a mayor valor, obteniendo el nuevo vector muestral.
Cuando la muestra es como máximo de tamaño 50, se puede contrastar la
normalidad con la prueba de Shapiro-Wilk, procediéndose a calcular la media y la
varianza muestral. Se rechaza la hipótesis nula de normalidad si el estadístico
Shapiro-Wilk -W- es menor que el valor crítico proporcionado por la tabla elaborada
por los autores para el tamaño de la muestra y el nivel de significancia dado.
Shapiro-Wilk, como prueba de normalidad, fue introducido considerando que el
gráfico de probabilidad normal que examina el ajuste de un conjunto de datos de
muestra para la distribución normal es semejante a la de regresión lineal - la línea
diagonal del gráfico es la recta de ajuste perfecto-, con la diferencia de que esta
línea es similar a los residuos de la regresión. Mediante el análisis de la magnitud
de esta variación -análisis de varianza-, la calidad del ajuste puede ser examinado.
La prueba puede aplicarse a muestras grandes, como fue sugerido por Royston,
que también produjo algoritmos para implementar su extensión y que se implementa
en algunos softwares especializados estadísticos (Carmona & Carrión, 2015). El
estadístico de prueba se muestra en la ecuación.

Donde Yi son los datos de la muestra, ordenados por tamaño -ordenado-. Ahora
bien, si los datos de la muestra son en realidad una muestra aleatoria de una
distribución normal con media desconocida μ y varianza σ2, entonces se debe
facilitar la representación de los datos mediante la ecuación lineal simple 6, así:
Donde la es un conjunto ordenado de azar N (0,1) variables. El ajuste de mínimos
cuadrados de los pares (x, y) proporciona los medios para determinar el
desconocido coeficientes. El vector de estos coeficientes se obtiene de la expresión
matriz expresada en la ecuación 7.

Donde V es la matriz de varianza-covarianza de los elementos del vector x, y el


vector m es el valor esperado de los elementos de x, es decir, los valores medios
de las estadísticas de orden para la distribución normal. El estadístico W es
invariante escala y el origen y tiene un valor máximo de 1 y un mínimo de /n-1. Por
lo tanto, el valor mínimo es aproximadamente el cuadrado del menor coeficiente
para n> 10. Así también, la distribución de W para generar n no es conocido y debe
ser obtenido por simulación y/o tabulación de los resultados o utilizando la
aproximación -como es el caso con el enfoque de Royston-. De tal manera que el
estadístico W es más bien como un coeficiente de correlación al cuadrado -o
coeficiente de determinación- y, en tal sentido, un valor alto indica una mayor
correspondencia a la normal. No obstante, este resultado no es concluyente, por
cuanto los valores altos a menudo se encuentran con muestras pequeñas de datos
que no son normales, siendo particularmente sensible a la distribución de asimetría
y con cola larga

REFERENCIAS
• Acevedo, A., Vilma, G., Duwanmg, P., & Fernández, H. (2019). Estudios
cuantitativos sobre correlación de la TRM y el precio del petróleo referencia
WTI con base en la prueba de normalidad Jarque- Bera y del método de
coeficiente de Hurst. Congreso Internacional En Administración de Negocios
Internacionales, October 2017, 225–237.
• Allaire, J., Yihui, X., McPherson, J., Lurashi, K., & Iannone, R. (2019).
Rmarkdown: Dynamic Documents for R. Escuela de Humanidades de la
Universidad Nacional San Martín. https://cran.r-
project.org/package=rmarkdown
• Anderson, D., Sweeney, D., & Williams, T. (2016a). Estadística para negocios
y economía (14th ed.). Cengace Learning.
https://issuu.com/cengagelatam/docs/anderson_issuu
• Anderson, D., Sweeney, D., & Williams, T. (2016b). Métodos cuantitativos
para los negocios (13th ed.). Cengace Learning.
• Arnau, J. (1996). Métodos y técnicas avanzadas de análisis de datos en
ciencias del comportamiento. Ediciones Universitat Barcelona.
https://www.casadellibro.com/libro-metodos-y-tecnicas-avanzadas-de-
analisis-de-datos-en-ciencias-del-comportamiento/9788492200436/552133
• Benvenu, M., Meshac-Bill, K., & Tshimombo, A. (2017). Comparative Study
of Approaches based on the Taguchi and ANOVA for Optimising the Leaching
of Copper–Cobalt Flotation Tailings. Chemical Engineering Communications,
204(4), 512–521. https://doi.org/10.1080/00986445.2017.1278588
• Carmona, M., & Carrión, H. (2015). Potencia de la prueba estadística de
normalidad Jarque-Bera frente a las pruebas de Anderson-Darling, Jarque-
Bera robusta, Chi cuadrada, Chen-Shapiro y Shapiro-Wilk [Universidad
Autónoma del Estado de México].
https://core.ac.uk/download/pdf/159384191.pdf
• Correa, J., Iral, R., & Rojas, L. (2006). Estudio de potencia de pruebas de
homogeneidad de varianza. Revista Colombiana de Estadística, 29(1), 57–
76.
https://www.researchgate.net/publication/4830223_Estudio_de_potencia_de
_pruebas_de_homogeneidad_de_varianza

• Eppen, G., Gould, F., Schmidt, C., Moore, J., & Weattherford, L. (2000).
Investigación de operaciones en la ciencia adminsitrativa (5th ed.). Prentice
Hall Inc. https://jrvargas.files.wordpress.com/2009/01/investigacic3b3n-de-
operaciones-en-la-ciencia-administrativa-5ta-edicic3b3n.pdf
• Flores-Tapia, C., & Flores-Cevallos, L. (2017). Estadística Inferencial.
Fundación Los Andes.
http://186.71.28.67/isbn_site/catalogo.php?mode=detalle&nt=58934
• Flores-Tapia, C., & Flores-Cevallos, L. (2018). Estadística descriptiva y
probabilidades. Fundación Los Andes.
http://186.71.28.67/isbn_site/catalogo.php?mode=detalle&nt=64118
• Flores Tapia, C., Flores Cevallos, K., Mendoza Misse, A., & Valdivieso, A.
(2017). Análisis del volumen de ventas de rosas en la empresa “High
conecction flowers” aplicando diseño de experimentos: caso particular.
Scientia et Technica, 22(3), 281–287.
https://doi.org/10.22517/23447214.13891
• Gonzáles, H., & Leal, R. (2016). Dependencia emocional como factor de
riesgo para la violencia de pareja en mujeres del setor Paraíso. Tendencias
En Psicología, 1(2), 25–35.
revistas.upagu.edu.pe/index.php/TP/article/download/332/256

También podría gustarte