Está en la página 1de 18

INSTITUTO TECNOLÓGICO SUPERIOR DE

URUAPAN

LICENCIATURA EN
INGENIERÍA INDUSTRIAL

Tema 4

PRUEBAS DE BONDAD DE AJUSTE Y


PRUEBAS NO PARAMETRICAS

P R E S E N T A
Solís Alejandre Joel Iván
Vázquez Mier Gerardo

LÍNEA DE INVESTIGACIÓN:

ASESOR:
ING. Gilberto Chávez Esquivel
Instituto Tecnológico Superior de Uruapan

URUAPAN, MICH. Enero 2021


INTRODUCCION
El término estadística no paramétrica se refiere a un conjunto de métodos,
inferenciales válidos para formas muy diversas de distribución de la población La
aplicación de estos métodos no requiere modelo de población, en el sentido de un
parámetro específico relacionado con la forma de la curva que representa a la
población en estudio, como sí es necesario, por ejemplo, en el caso de la
distribución normal. En el contraste de hipótesis, las pruebas estadísticas no
paramétricas usualmente emplean algunos datos más simples de la muestra, como
los signos de las mediciones, las relaciones de orden o las categorías de las
frecuencias. Estos rasgos generales no requieren escalas de medición numéricas
significativas. Por otra parte, aún más importante es que a estos métodos no los
afecta el alargamiento o estrechamiento de la escala. Una aclaración tina,
indispensable es que los términos distribución libre y estadística no paramétrica no
son sinónimos, aunque en este texto se usarán indistintamente.

A estos procedimientos se les llama de distribución libre, por no considerar la forma


como se distribuye la población. Tienen ventajas sobre las pruebas paramétricas,
algunas de ellas son: 1) implican menos requisitos de uso, 2) son más sencillas de
entender y de aplicar, y 3) los procedimientos de cálculo resultan menos laboriosos.
Por otra parte, los métodos no paramétricos tienen ciertas desventajas: a) se pierde
información, b) la potencia de estas pruebas es menor que la de las pruebas
paramétricas, y c) tienden a ser "conservadoras»; es decir, orientan hacia la
aceptación de la hipótesis nula con más frecuencia de lo que deberían.

Una serie de guías de estudio en las que se desarrollan los temas de los programas
de las asignaturas del área de Probabilidad y Estadística, así como temas selectos
que complementan el aprendizaje de esta disciplina. Tienen la característica de que
el estudiante adquiera sólo aquella que trate el tema que necesite reforzar o el que
sea de su propio interés. Estas guías de estudio pretenden reorientar y actualizar el
enfoque con el que se debe abordar el estudio de los métodos estadísticos,
despertando la inquietud por aprender y resolver los problemas y casos planteados.

4.1 Bondad de Ajuste


Las pruebas de bondad de ajuste son pruebas de hipótesis para verificar si los datos
observados en una muestra aleatoria se ajustan con algún nivel de significancia a
determinada distribución de probabilidad (uniforme, exponencial, normal, poisson, u
otra cualquiera). n La hipótesis nula Ho indica la distribución propuesta, mientras
que la hipótesis alternativa H1, nos indica que la variable en estudio tiene una
distribución que no se ajusta a la distribución propuesta.
PRUEBA:
Para realizar la prueba, se clasifican los datos observados en k clases o categorías,
y se contabiliza el número de observaciones en cada clase, para posteriormente
comparar la frecuencia observada en cada clase con la frecuencia que se esperaría
obtener en esa clase si la hipótesis nula es correcta.
k = No. de clases, k>2 oi = Frecuencia
observada en la clase i
ei = Frecuencia esperada en la clase i, si Ho es correcta

4.1.1 Bondad de ajuste ji-Cuadrada


Se refiere a la comparación de la distribución de una muestra con alguna distribución
teórica que se supone describe a la población de la cual se extrajo la muestra.
Se usa cuando es necesario determinar si una muestra de valores observados para
alguna
variable aleatoria es compatible con la hipótesis de que dicha muestra se extrajo de
una población de valores con distribución normal.
PRUEBA:
Se tiene una muestra de 100 pacientes hospitalizados se puede observar que 50
son casados, 30 son solteros, 15 son viudos y cinco son divorciados.

La hipótesis nula puede ser que las cuatro categorías de estado civil tienen igual
representación dentro de la población de la que se extrajo la muestra. En este caso
se esperaría que en este ejemplo hubiera 25 casados, 25 solteros, 25 viudos y 25
divorciados. Emplear un α = 0,05. El estadígrafo es la χ2 es un estadígrafo resumido
que refleja el grado de congruencia global entre las frecuencias observadas y
esperadas.
Si existe una congruencia muy estrecha entre las frecuencias observadas y
las esperadas, el valor de χ2 es muy pequeño.
Si la congruencia es pobre, dicho valor es muy grande
4.1.2 Prueba de independencia
La prueba de independencia Chi-cuadrado, nos permite determinar si existe una
relación entre dos variables categóricas. Es necesario resaltar que esta prueba nos
indica si existe o no una relación entre las variables, pero no indica el grado o el tipo
de relación; es decir, no indica el porcentaje de influencia de una variable sobre la
otra o la variable que causa la influencia. Para comprender mejor este tema es
necesario recordar cuales son los eventos independientes y cuales los
dependientes.

PRUEBA:
Una agencia de publicidad desea saber si el género de los consumidores es
independiente de sus preferencias de cuatro marcas de café. La respuesta
determinará si se deben diseñar diferentes anuncios dirigidos a los hombres y otros
diferentes para las mujeres. Realice la prueba con un nivel de significancia del 5%.
4.1.3 Prueba de la bondad de ajuste
La prueba de ji cuadrada también se puede utilizar para decidir si una distribución
de probabilidad, como la binomial, la de poisson o la normal, es la distribución
apropiada. “La prueba ji cuadrada nos permite formular una pregunta para probar si
existe una diferencia significativa entre una distribución observada y de frecuencia
y una distribución teórica de frecuencias”. De esta manera, estamos en condiciones
de determinar la bondad y ajuste de una distribución teórica; en otras palabras,
podemos precisar hasta qué punto encaja en la distribución de los datos que hemos
observado. Así pues, podemos determinar si debemos creer que los datos
observados constituyen una muestra extraída de la supuesta distribución teórica.

PRUEBA:
Un dado se lanzó 36 veces, haga una prueba con un nivel de significancia del 5%,
para comprobar si el dado es legal o no. Los resultados obtenidos del ejercicio
fueron los siguientes:
4.1.4 ¿Qué es una tabla de contigencia?

Una tabla de contingencia es una tabla que cuenta las observaciones por múltiples
variables categóricas. Las filas y columnas de las tablas corresponden a estas
variables categóricas.

Por ejemplo, después de una elección reciente entre dos candidatos, una encuesta
de salida registró el sexo y el voto de 100 electores seleccionados de manera
aleatoria y los datos se tabularon

Candidato A Candidato B Todos

Hombre 18 14 32
Mujer 23 13 36

Todos 41 27 68

Esta tabla de contingencia cuenta las respuestas según sexo y voto. El conteo en la
intersección de la fila i y la columna j se denota como nij, y representa el número de
observaciones que muestra esa combinación de niveles. Por ejemplo, n 1,2 muestra
el número de encuestados masculinos que votaron por el Candidato B.

La tabla también incluye los totales marginales para cada nivel de las variables. Los
totales marginales para las filas muestran que 52 de los encuestados fueron
mujeres. Los totales marginales para las columnas muestran que 67 encuestados
votaron por el Candidato A. Además, el total general muestra que el tamaño de la
muestra es 100.

Las tablas de contingencia también pueden revelar asociaciones entre las dos
variables. Utilice una prueba de chi-cuadrada o una prueba exacta de Fisher para
determinar si los conteos observados difieren significativamente de los conteos
esperados bajo la hipótesis nula de que no existe asociación. Por ejemplo, usted
podría probar si existe una asociación entre sexo y voto.

Las tablas de contingencia más simples son tablas de dos factores que cuentan las
respuestas según dos variables. Usted puede categorizar las observaciones según
tres o más variables al "cruzarlas". En el ejemplo de votación anterior, las respuestas
también podrían clasificarse según el estatus de empleo.

Una tabla de contingencia es una tabla que cuenta las observaciones por
múltiples variables categóricas. Las filas y columnas de las tablas corresponden a
estas variables categóricas. La tabla también incluye los totales marginales para
cada nivel de las variables.

4.1.5 uso del software estadístico pruebas no paramétricas

Existe una gran cantidad de programas destinados a la manipulación de datos


estadísticos. El sector de la investigación de mercados, el marketing y los estudios
de opinión, en su vertiente cuantitativa, ha convertido estos softwares en una
herramienta indispensable para llegar a conclusiones sobre las que fundamentar
nueva teoría (en una lógica más inductiva) o para contrastar teorías preexistentes
(lógica deductiva).

Los softwares más utilizados son los siguientes:


SPSS es la herramienta estadística más utilizada a nivel mundial en el entorno
académico. Puede trabajar con bases de datos de gran tamaño. Además, de permitir
la recodificación de las variables y registros según las necesidades del usuario. El
programa consiste en un módulo base y módulos anexos que se han ido
actualizando constantemente con nuevos procedimientos estadísticos.
En spss.com/es/ se puede descargar una versión del programa
Manual en pdf: Publicación de la Universidad de Granada, que ilustra la forma de
solicitar medidas de tendencia central, dispersión, asimetría y oblicuidad en SPSS
8.0. Aunque puede haber ligeras variaciones considerando las versiones actuales.
S-Plus
Es otro de los programas estadísticos más usados a nivel mundial para el análisis
de datos. Está disponible al público la versión 8. Incluye dentro de sus principales
características: análisis multivariado de datos, análisis de sobrevivencia,
escalamiento multidimensional, regresión no paramétrica.
Entre los estadísticos de cálculo habituales incluye: pruebas de hipótesis y
construcción de intervalos de confianza, análisis de varianza, análisis exploratorio
de datos, entre otros.
Puede descargar una versión de demostración del programa funcional durante 30
días.

Minitab
Es otro de los programas más usados en el mundo para análisis estadístico. Permite
calcular la mayoría de metodologías estadísticas habituales, entre las que se
cuentan: análisis exploratorio de datos, gráficos estadísticos, control de calidad,
estadística no paramétrica, regresión y sus variantes, análisis multivariado de datos,
etc.
Puede ver las características de la versión 15 y descargar una versión de
demostración funcional durante 30 días.
Manual en pdf: Documento publicado por la Universidad Oberta de Cataluña.
Muestra de manera detallada el cálculo de medidas de tendencia central, dispersión,
posición, asimetría, para diferentes conjuntos de datos. Las ecuaciones
presentadas para el cálculo manual, son reforzadas mediante la resolución de los
ejercicios en Minitab.
Las pruebas no paramétricas, también conocidas como pruebas de distribución
libre, son las que se basan en determinadas hipótesis, pero lo datos observados no
tienen una organización normal. Generalmente, las pruebas no paramétricas
contienen resultados estadísticos que provienen de su ordenación, lo que las vuelve
más fáciles de comprender.

Las pruebas no paramétricas tienen algunas limitaciones, entre ellas se encuentra


que no son lo suficientemente fuertes cuando se cumple una hipótesis normal. Esto
puede provocar que no sea rechazada, aunque sea falsa. Otra de sus limitaciones
es que necesitan que la hipótesis se cambie cuando la prueba no corresponde a la
pregunta del procedimiento si la muestra no es proporcional.

Algunas de las características de las pruebas no paramétricas son:

 Es un método de medición difícil de aplicar.


 Es necesario realizar pruebas de hipótesis
 Las hipótesis son estrictas
 Las observaciones deben de ser independientes

4.2.1 Escala de medición

En estadística se estudian datos. Los datos son la representación de atributos o


variables que describen hechos, y al analizarlos y procesarlos, estos se transforman
en Información. Para poder hacer esto, es necesario comparar los datos entre sí y
respecto de referencias. Este proceso de comparación requiere de escalas de
medición donde situar cada posible valor que tomen los datos, y por las diferentes
características de estos, existen diferentes tipos de escalas. En la primera parte del
post hablaremos sobre las escalas de medición en estadística.

Luego, tenemos a las variables. En general, en la mayoría de las materias que


tuvimos en el colegio o en la facultad, utilizamos variables para representar las
características de elementos que deseamos estudiar cuando estas cambian según
algún parámetro. En la segunda parte del post veremos cómo se clasifican a las
variables que utilizamos en estadística.

Escalas de medición. Dichas escalas tendrán diferentes propiedades en función


de las características de los datos que se compararán. En estadística existen cuatro
escalas de medición: nominal, ordinal, de intervalo y de razón.

Escala nominal: Cuando un dato identifica una etiqueta (o el nombre de un atributo)


de un elemento, se considera que la escala de medición es una escala nominal. En
esta carecen de sentido el orden de las etiquetas, así como la comparación y las
operaciones aritméticas. La única finalidad de este tipo de datos es clasificar a las
observaciones.
Escala ordinal: Cuando los datos muestran las propiedades de los datos
nominales, pero además tiene sentido el orden (o jerarquía) de estos, se utiliza una
escala ordinal.

Ejemplo: Una variable que mide la calidad de un post. La variable puede tomar
valores enteros del 1 al 5, donde el valor 1 es el peor y el 5 el mejor. En esta variable
sigue sin tener sentido las operaciones aritméticas, pero ahora sí tiene sentido el
orden. Si un post tiene valor 4 y otro tiene valor 2, el primero se entiende que es
mejor que es segundo.

Escala de intervalo: En una escala de intervalo, los datos tienen las propiedades
de los datos ordinales, pero a su vez la separación entre las variables tiene sentido.
Este tipo de datos siempre es numérico, y el valor cero no indica la ausencia de la
propiedad.
Veamos un ejemplo: La temperatura (en grados centígrados) media de una ciudad.
En esta escala, los números mayores corresponden a temperaturas mayores. Es
decir, el orden importa, pero a la vez la diferencia entre las temperaturas importa.
Escala de razón:En una escala de razón, los datos tienen todas las propiedades
de los datos de intervalo, y la proporción entre ellos tiene sentido. Para esto se
requiere que el valor cero de la escala indique la ausencia de la propiedad a medir.
Ejemplos de este tipo de variables son el peso de una persona al tiempo utilizado
para una tarea.
Ejemplo:
Una variable que mide el salario de una persona.
En esta variable, si una persona gana 100, y otra 10, la primera gana más que la
segunda (comparación). También tiene sentido decir que la primera gana 90 más
que la segunda (diferencia), o que gana 10 veces más (proporción).

4.2.2 Métodos estadísticos contra no paramétricos


La estadística paramétrica es una rama de la estadística inferencial que
comprende los procedimientos estadísticos y de decisión que están basados en
distribuciones conocidas. Estas son determinadas usando un número finito de
parámetros. Esto es, por ejemplo, si conocemos que la altura de las personas sigue
una distribución normal, pero desconocemos cuál es la media y la desviación de
dicha normal. La media y la desviación típica de la distribución normal son los dos
parámetros que queremos estimar. Cuando desconocemos totalmente qué
distribución siguen nuestros datos entonces deberemos aplicar primero un test no
paramétrico, que nos ayude a conocer primero la distribución.
La mayoría de procedimientos paramétricos requiere conocer la forma de
distribución para las mediciones resultantes de la población estudiada. Para la
inferencia paramétrica es requerida como mínimo una escala de intervalo, esto
quiere decir que nuestros datos deben tener un orden y una numeración del
intervalo. Es decir, nuestros datos pueden estar categorizados en: menores de 20
años, de 20 a 40 años, de 40 a 60, de 60 a 80, etc., ya que hay números con los
cuales realizar cálculos estadísticos. Sin embargo, datos categorizados en: niños,
jóvenes, adultos y ancianos no pueden ser interpretados mediante la estadística
paramétrica ya que no se puede hallar un parámetro numérico (como por ejemplo
la media de edad) cuando los datos no son numéricos.

4.2.3 Prueba de Kolmogorov – Smirnov

La prueba de Kolmogórov-Smirnov es una propia perteneciente a la estadística,


concretamente a la estadística inferencial. La estadística inferencial pretende
extraer información sobre las poblaciones.

Se trata de una prueba de bondad de ajuste, es decir, sirve para verificar si las
puntuaciones que hemos obtenido de la muestra siguen o no una distribución
normal. Es decir, permite medir el grado de concordancia existente entre la
distribución de un conjunto de datos y una distribución teórica específica. Su objetivo
es señalar si los datos provienen de una población que tiene la distribución teórica
especificada, es decir, lo que hace es contrastar si las observaciones podrían
razonablemente proceder de la distribución especificada.
4.2.4 Prueba de Anderson – Darling
En estadística, la prueba de Anderson-Darling es una prueba no paramétrica
sobre si los datos de una muestra provienen de una distribución específica. La
fórmula para el estadístico A determina si los datos (observar que los datos se
deben ordenar) vienen de una distribución con función acumulativa Donde:
El estadístico de la prueba se puede entonces comparar contra las distribuciones
del estadístico de prueba (dependiendo que se utiliza) para determinar el P-valor.
El estadístico Anderson-Darling mide qué tan bien siguen los datos una distribución
específica. Para un conjunto de datos y distribución en particular, mientras mejor se
ajuste la distribución a los datos, menor será este estadístico. Por ejemplo, usted
puede utilizar el estadístico de Anderson-Darling para determinar si los datos
cumplen el supuesto de normalidad para una prueba t.

4.2.5 PRUEBA DE RYAN-JOINER

Esta prueba evalúa la normalidad calculando la correlación entre sus datos y los
valores normales de sus datos. Si el coeficiente de correlación está cerca de 1, la
población probablemente es normal.

La estadística de Ryan-Joiner evalúa la fuerza de esta correlación; si es menos


que el valor apropiado crítico, usted rechazará la hipótesis nula de normalidad
demográfica. Esta prueba es similar a la prueba de normalidad Shapiro-Wilk.

FORMULA
DONDE:

• Yi= Observaciones ordenadas

• bi= Puntuaciones normales de las observaciones ordenadas

• S= Desviación estándar

Se acepta que Ho sigue una distribución normal

Se rechaza que Ho sigue una distribución

EJEMPLO 1
Pruebe la hipótesis de si los siguientes datos se ajustan a una distribución normal
3.2 4.1 6.3 1.9 0.6
5.4 5.2 3.2 4.9 6.2
1.8 1.7 3.6 1.5 2.6
4.3 6.1 2.4 2.2 3.3
Rj=1.00313642
Rj0.05.20= 0.9303
1.00313>0.9303
Ho: Rj>Rja se acepta que Ho sigue una distribución normal.

Fuentes bibliográficas

http://asesorias.cuautitlan2.unam.mx/Laboratoriovirtualdeestadistica/CARPETA%203%20I
NFERENCIA_ESTADISTICA/DOC_%20INFERENCIA/TEMA%204/08%20PRUEBA%20D
E%20CHICUADRADA.pdf
https://campus.i.edu.mx/_Cursos/Curso00519/Temario/pdf%20leccion%202/2.%20JI%20
Cuadrada.pdf
https://prezi.com/f8b8-f86ml2s/prueba-ryan-joiner/

También podría gustarte