Documentos de Académico
Documentos de Profesional
Documentos de Cultura
PRUEBA DE BONDAD
Prueba de la bondad de ajuste
Esta es una prueba para decidir, a partir de una muestra particular, si se rechaza o
no la hipótesis de que una variable aleatoria7/ se ajusta a una distribución
probabilística específica. Por ejemplo, en los Capítulos anteriores los métodos
aplicados se basaban en el supuesto de población normal o tamaños de muestra lo
suficientemente grandes como para que proceda la aplicación del TCL. Un
procedimiento adecuado para contrastar ese supuesto es la prueba de la bondad
del ajuste, debiendo aclararse que no es en el único caso en que se puede aplicar
esta prueba ya que, ésta es susceptible de utilizarse cualquiera sea la distribución
especificada: uniforme, Poisson, exponencial, normal, entre otras. El procedimiento
comienza con el planteo de la hipótesis nula de que la variable aleatoria bajo estudio
tiene una distribución específica.
Luego se toma una muestra aleatoria de la población, la cual provee las frecuencias
observadas. Seguida mente se compara con la distribución teórica. Los valores de
las probabilidades teóricos cuando se los multiplica por el tamaño de la muestra se
transforman en las frecuencias esperadas. Algunos ejemplos pueden describir
mejor el procedimiento de prueba. Supongamos el siguiente caso: Una financiera
registró el número de días de atraso por semana en el pago de los préstamos
acordados para los últimos 80 clientes. Los resultados se muestran en la Tabla 1.
Con el objeto de estimar intereses y saldos disponibles para próximos préstamos,
desea probar la hipótesis de que la variable aleatoria “días de atraso” se ajusta a
una distribución Poisson.
Σ(i⋅j)(O–E)2E
donde:
O = valores observados
E = valores esperados
i = el número de filas de la tabla
j = el número de columnas de la tabla
Hay i⋅j términos de la forma (O–E)2E.
Una prueba de independencia determina si dos factores son independientes o no.
La primera vez que vio el término independencia fue en la A modo de repaso,
considere el siguiente ejemplo. A modo de repaso, considere el siguiente ejemplo.
Supongamos que A = una infracción por exceso de velocidad en el último año y B
= un usuario de teléfono móvil mientras conduce. Si A y B son independientes,
entonces P(A ∩ B) = P(A)P(B). A ∩ B es el caso de que un conductor recibiera una
infracción por exceso de velocidad el año pasado y también utilizara un teléfono
móvil mientras conducía. Supongamos que se encuestaron 755 personas en un
estudio sobre conductores que recibieron infracciones por exceso de velocidad
durante el año pasado que usaron el teléfono móvil mientras conducían. De los 755,
70 tenían una infracción por exceso de velocidad y 685 no; 305 usaba el teléfono
móvil mientras conducían y 450 no.
Estos pasos son mucho más fáciles de entender si usamos los valores de nuestro
ejemplo.
Empecemos listando lo que esperamos si cada bolsa de caramelos tiene los mismos
de cada sabor. Arriba hemos calculado 200 para 10 bolsas.
Número de
Número esperado
Sabor caramelos (10
de caramelos
bolsas)
Algunas diferencias son negativas y otras positivas. Si las sumáramos a secas, nos
daría cero. En lugar de eso, usaremos sus cuadrados. Esto da la misma importancia
a aquellos sabores donde hay menos caramelos de lo esperado y a aquellos donde
hay más de lo esperado.
Número de Número
Observada- Diferencia al
Sabor caramelos esperado de
Esperada cuadrado
(10 bolsas) caramelos
Número Diferencia
Número
de Diferencia al
esperado Observada-
Sabor caramelos al cuadrado /
de Esperada
(10 cuadrado Número
caramelos
bolsas) esperado
Tabla de contingencia
es una de las formas más comunes de resumir datos categóricos. En general, el
interés se centra en estudiar si existe alguna asociación entre una
variable denominada fila y otra variable denominada columna y se calcula la
intensidad
de dicha asociación.
De manera formal, se consideran X e Y dos variables categóricas con I y J
categorías
respectivamente. Una observación puede venir clasificada en una de las posibles I
×J
categorías que existen.
Cuando las casillas de la tabla contienen las frecuencias observadas, la tabla se
denomina tabla de contingencia, término que fue introducido por Pearson en 1904.
Una tabla de contingencia (o tabla de clasificación cruzada), con I filas y J columnas
se denomina una tabla I × J.
Ejemplo
Por ejemplo, se considera la distribución conjunta de dos variables y la
correspondiente
tabla de contingencia en una muestra de pacientes de un hospital. Se tiene la
siguiente
tabla donde se consideran el riesgo de ataque al corazón respecto a la toma de
aspirinas:
X ≡ Se toma aspirina o placebo (I = 2).
Y ≡ Se sufre ataque cardiaco o no (J = 3)
Como resumen de la información que presenta la tabla, de los 11034 enfermos que
tomaron un placebo, 18 tuvieron un ataque al corazón, mientras que de los 11037
que
tomaron aspirina, 5 tuvieron ataques al corazón.
La distribución conjunta de dos variables categóricas determina su relación. Esta
distribución también determina las distribuciones marginales y condicionales.
Pruebas no paramétricas
Las pruebas no paramétricas hacen supuestos mínimos acerca de la distribución
subyacente de los datos. Las pruebas que están disponibles en estos cuadros de
diálogo se pueden agrupar en tres categorías amplias en función de cómo se
organizan los datos:
Exponencial
Normal
Weibull de 3 parámetros
Donde:
n es el número de datos.
observaciones ordenadas.
F(Yi) es la función de la distribución empírica.
Y también se puede expresar tal como se muestra en la ecuación 3, así:
Prueba Shapiro-Wilk
Según Novales (2010), esta prueba se emplea para contrastar normalidad cuando
el tamaño de la muestra es menor a 50 observaciones y en muestras grandes es
equivalente al test de Kolmogórov-Smirnov. El método consiste en comenzar
ordenando la muestra de menor a mayor valor, obteniendo el nuevo vector muestral.
Cuando la muestra es como máximo de tamaño 50, se puede contrastar la
normalidad con la prueba de Shapiro-Wilk, procediéndose a calcular la media y la
varianza muestral. Se rechaza la hipótesis nula de normalidad si el estadístico
Shapiro-Wilk -W- es menor que el valor crítico proporcionado por la tabla elaborada
por los autores para el tamaño de la muestra y el nivel de significancia dado.
Shapiro-Wilk, como prueba de normalidad, fue introducido considerando que el
gráfico de probabilidad normal que examina el ajuste de un conjunto de datos de
muestra para la distribución normal es semejante a la de regresión lineal - la línea
diagonal del gráfico es la recta de ajuste perfecto-, con la diferencia de que esta
línea es similar a los residuos de la regresión. Mediante el análisis de la magnitud
de esta variación -análisis de varianza-, la calidad del ajuste puede ser examinado.
La prueba puede aplicarse a muestras grandes, como fue sugerido por Royston,
que también produjo algoritmos para implementar su extensión y que se implementa
en algunos softwares especializados estadísticos (Carmona & Carrión, 2015). El
estadístico de prueba se muestra en la ecuación.
Donde Yi son los datos de la muestra, ordenados por tamaño -ordenado-. Ahora
bien, si los datos de la muestra son en realidad una muestra aleatoria de una
distribución normal con media desconocida μ y varianza σ2, entonces se debe
facilitar la representación de los datos mediante la ecuación lineal simple 6, así:
Donde la es un conjunto ordenado de azar N (0,1) variables. El ajuste de mínimos
cuadrados de los pares (x, y) proporciona los medios para determinar el
desconocido coeficientes. El vector de estos coeficientes se obtiene de la expresión
matriz expresada en la ecuación 7.
REFERENCIAS
• Acevedo, A., Vilma, G., Duwanmg, P., & Fernández, H. (2019). Estudios
cuantitativos sobre correlación de la TRM y el precio del petróleo referencia
WTI con base en la prueba de normalidad Jarque- Bera y del método de
coeficiente de Hurst. Congreso Internacional En Administración de Negocios
Internacionales, October 2017, 225–237.
• Allaire, J., Yihui, X., McPherson, J., Lurashi, K., & Iannone, R. (2019).
Rmarkdown: Dynamic Documents for R. Escuela de Humanidades de la
Universidad Nacional San Martín. https://cran.r-
project.org/package=rmarkdown
• Anderson, D., Sweeney, D., & Williams, T. (2016a). Estadística para negocios
y economía (14th ed.). Cengace Learning.
https://issuu.com/cengagelatam/docs/anderson_issuu
• Anderson, D., Sweeney, D., & Williams, T. (2016b). Métodos cuantitativos
para los negocios (13th ed.). Cengace Learning.
• Arnau, J. (1996). Métodos y técnicas avanzadas de análisis de datos en
ciencias del comportamiento. Ediciones Universitat Barcelona.
https://www.casadellibro.com/libro-metodos-y-tecnicas-avanzadas-de-
analisis-de-datos-en-ciencias-del-comportamiento/9788492200436/552133
• Benvenu, M., Meshac-Bill, K., & Tshimombo, A. (2017). Comparative Study
of Approaches based on the Taguchi and ANOVA for Optimising the Leaching
of Copper–Cobalt Flotation Tailings. Chemical Engineering Communications,
204(4), 512–521. https://doi.org/10.1080/00986445.2017.1278588
• Carmona, M., & Carrión, H. (2015). Potencia de la prueba estadística de
normalidad Jarque-Bera frente a las pruebas de Anderson-Darling, Jarque-
Bera robusta, Chi cuadrada, Chen-Shapiro y Shapiro-Wilk [Universidad
Autónoma del Estado de México].
https://core.ac.uk/download/pdf/159384191.pdf
• Correa, J., Iral, R., & Rojas, L. (2006). Estudio de potencia de pruebas de
homogeneidad de varianza. Revista Colombiana de Estadística, 29(1), 57–
76.
https://www.researchgate.net/publication/4830223_Estudio_de_potencia_de
_pruebas_de_homogeneidad_de_varianza
• Eppen, G., Gould, F., Schmidt, C., Moore, J., & Weattherford, L. (2000).
Investigación de operaciones en la ciencia adminsitrativa (5th ed.). Prentice
Hall Inc. https://jrvargas.files.wordpress.com/2009/01/investigacic3b3n-de-
operaciones-en-la-ciencia-administrativa-5ta-edicic3b3n.pdf
• Flores-Tapia, C., & Flores-Cevallos, L. (2017). Estadística Inferencial.
Fundación Los Andes.
http://186.71.28.67/isbn_site/catalogo.php?mode=detalle&nt=58934
• Flores-Tapia, C., & Flores-Cevallos, L. (2018). Estadística descriptiva y
probabilidades. Fundación Los Andes.
http://186.71.28.67/isbn_site/catalogo.php?mode=detalle&nt=64118
• Flores Tapia, C., Flores Cevallos, K., Mendoza Misse, A., & Valdivieso, A.
(2017). Análisis del volumen de ventas de rosas en la empresa “High
conecction flowers” aplicando diseño de experimentos: caso particular.
Scientia et Technica, 22(3), 281–287.
https://doi.org/10.22517/23447214.13891
• Gonzáles, H., & Leal, R. (2016). Dependencia emocional como factor de
riesgo para la violencia de pareja en mujeres del setor Paraíso. Tendencias
En Psicología, 1(2), 25–35.
revistas.upagu.edu.pe/index.php/TP/article/download/332/256