Está en la página 1de 21

4.

- PRUEBAS DE BONDAD DE AJUSTE Y PRUEBAS NO PARAMTRICAS


4.1 Bondad de ajuste
Una hiptesis estadstica se defini como una afirmacin o conjetura acerca de la
distribucin f(x,q) de una o ms variables aleatorias. Igualmente se plante que la
distribucin poda tener uno o ms parmetros desconocidos, que denotamos por
q y que la hiptesis se relaciona con este parmetro o conjunto de parmetros En
otros casos, se desconoce por completo la forma de la distribucin y la hiptesis
entonces se relaciona con una distribucin especfica f(x,q) que podamos
asignarle al conjunto de datos de la muestra. El primer problema, relacionado con
los parmetros de una distribucin conocida o supuesta es el problema que hemos
analizado en los prrafos anteriores. Ahora examinaremos el problema de verificar
si el conjunto de datos se puede ajustar o afirmar que proviene de una
determinada distribucin. Las pruebas estadsticas que tratan este problema
reciben el nombre general de Pruebas de Bondad de Ajuste.
Se analizarn dos pruebas bsicas que pueden aplicarse: La prueba Chi Cuadrado y la prueba de Smirnov-Kolmogorov. Ambas pruebas caen en la
categora de lo que en estadstica se denominan pruebas de Bondad de Ajuste y
miden, como el nombre lo indica, el grado de ajuste que existe entre la distribucin
obtenida a partir de la muestra y la distribucin terica que se supone debe seguir
esa muestra. Ambas pruebas estn basadas en la hiptesis nula de que no hay
diferencias significativas entre la distribucin muestral y la terica. Ambas pruebas
estn basadas en las siguientes hiptesis:

H0: f(x,q) = f0(x,q)


H1: f(x,q) f0(x,q)

Donde f0(x,q) es la distribucin que se supone sigue la muestra aleatoria. La


hiptesis alternativa siempre se enuncia como que los datos no siguen la
distribucin supuesta. Si se desea examinar otra distribucin especfica, deber
realizarse de nuevo la otra prueba suponiendo que la hiptesis nula es esta nueva
distribucin. Al especificar la hiptesis nula, el conjunto de parmetros definidos
por q puede ser conocido o desconocido. En caso de que los parmetros sean
desconocidos, es necesario estimarlos mediante alguno de los mtodos de
estimacin analizados con anterioridad.
Para formular la hiptesis nula debern tenerse en cuenta los siguientes aspectos
o criterios:
a) La naturaleza de los datos a analizar. Por ejemplo, si tratamos de investigar la
distribucin que siguen los tiempos de falla de unos componentes, podramos
pensar en una distribucin exponencial, o una distribucin gama o una distribucin
Weibull, pero en principio no consideraramos una distribucin normal. Si estamos

analizando los caudales de un ro en un determinado sitio, podramos pensar en


una distribucin logartmica normal, pero no en una distribucin normal.
b) Histograma. La forma que tome el histograma de frecuencia es quizs la mejor
indicacin del tipo de distribucin a considerar.

4.1.1 Anlisis de ji-cuadrada


En realidad la distribucin ji-cuadrada es la distribucin muestral de s 2. O sea que
si se extraen todas las muestras posibles de una poblacin normal y a cada
muestra se le calcula su varianza, se obtendr la distribucin muestral de
varianzas.
Para estimar la varianza poblacional o la desviacin estndar, se necesita conocer
el estadstico X2. Si se elige una muestra de tamao n de una poblacin normal
con varianza

, el estadstico:

Tiene una distribucin muestral que es una distribucin ji-cuadrada con gl=n-1
grados de libertad y se denota X2 (X es la minscula de la letra griega ji). El
estadstico ji-cuadrada esta dado por:

Donde n es el tamao de la muestra, s 2 la varianza muestral y


la varianza de la
poblacin de donde se extrajo la muestra. El estadstico ji-cuadrada tambin se
puede dar con la siguiente expresin:

Propiedades de las distribuciones ji-cuadrada


1. Los valores de X2 son mayores o iguales que 0.

2. La forma de una distribucin X 2 depende del gl=n-1. En consecuencia, hay


un nmero infinito de distribuciones X2.
3. El rea bajo una curva ji-cuadrada y sobre el eje horizontal es 1.
4. Las distribuciones X2 no son simtricas. Tienen colas estrechas que se
extienden a la derecha; esto es, estn sesgadas a la derecha.
5. Cuando n>2, la media de una distribucin X 2 es n-1 y la varianza es 2(n-1).
6. El valor modal de una distribucin X2 se da en el valor (n-3).
La siguiente figura ilustra tres distribuciones X 2. Note que el valor modal aparece
en el valor (n-3) = (gl-2).

La funcin de densidad de la distribucin X 2 est dada por:

Para x>0
La tabla que se utilizar para estos apuntes es la del libro de probabilidad y
estadstica de Walpole, la cual da valores crticos
(gl) para veinte valores
especiales de
. Para denotar el valor crtico de una distribucin X 2 con gl grados
de libertad se usa el smbolo
(gl); este valor crtico determina a su derecha un
2
rea de bajo la curva X y sobre el eje horizontal. Por ejemplo para encontrar
X20.05(6) en la tabla se localiza 6 gl en el lado izquierdo y
lado superior de la misma tabla.

a o largo del

Clculo de Probabilidad
El clculo de probabilidad en una distribucin muestral de varianzas nos sirve para
saber cmo se va a comportar la varianza o desviacin estndar en una muestra
que proviene de una distribucin normal.
Ejemplos:
1. Suponga que los tiempos requeridos por un cierto autobs para alcanzar un
de sus destinos en una ciudad grande forman una distribucin normal con
una desviacin estndar
=1 minuto. Si se elige al azar una muestra de
17 tiempos, encuentre la probabilidad de que la varianza muestral sea
mayor que 2.
Solucin:
Primero se encontrar el valor de ji-cuadrada correspondiente a s 2=2 como
sigue:

El valor de 32 se busca adentro de la tabla en el rengln de 16 grados de


libertad y se encuentra que a este valor le corresponde un rea a la
derecha de 0.01. En consecuencia, el valor de la probabilidad es P(s 2>2)

2. Encuentre la probabilidad de que una muestra aleatoria de 25


observaciones, de una poblacin normal con varianza
, tenga una varianza muestral:
a. Mayor que 9.1
b. Entre 3.462 y 10.745
Solucin.
a. Primero se proceder a calcular el valor de la ji-cuadrada:

Al buscar este nmero en el rengln de 24 grados de libertad nos da un rea a la


derecha de 0.05. Por lo que la P(s2 >9.1) = 0.05
b. Se calcularn dos valores de ji-cuadrada:

y
Aqu se tienen que buscar los dos valores en el rengln de 24 grados de libertad.
Al buscar el valor de 13.846 se encuentra un rea a la derecha de 0.95. El valor de
42.98 da un rea a la derecha de 0.01. Como se est pidiendo la probabilidad
entre dos valores se resta el rea de 0.95 menos 0.01 quedando 0.94.
Por lo tanto la P (3.462

s2

10.745) = 0.94

4.1.2 Prueba de independencia


Cuando cada individuo de la poblacin a estudio se puede clasificar segn dos
criterios A y B, admitiendo el primero a posibilidades diferentes y b el segundo, la
representacin de las frecuencias observadas en forma de una matriz a x b recibe
el nombre de Tabla de contingencia. Los datos se disponen de la forma siendo nij
el nmero de individuos que presentan simultneamente la i-sima modalidad del
carcter A y la j-sima del B.
La hiptesis nula a contrastar admite que ambos caracteres, A y B, se presentan
de forma independiente en los individuos de la poblacin de la cual se extrae la
muestra; siendo la alternativa la dependencia estocstica entre ambos caracteres.
La realizacin de esta prueba requiere el clculo del estadstico donde:y son las
frecuencias absolutas marginales y el tamao muestral total.
El estadstico L se distribuye como una con (a - 1)(b - 1) grados de libertad. El
contraste se realiza con un nivel de significacin del 5%.
Ejemplo de Aplicacin
Para estudiar la dependencia entre la prctica de algn deporte y la depresin, se
seleccion una muestra aleatoria simple de 100 jvenes, con los siguientes
resultados:
Sin depresin Con depresin total

38

Deportista
9
No deportista

47

31
69

22
31

53
100

L = (38 32,43)2/32,43 + (31 36,57)2/36,57 + (9 14,57)2/14,57 + (22


16,43)2/16,43
= 0,9567 + 0,8484 + 2,1293 + 1,8883 = 5,8227
El valor que alcanza el estadstico L es 5,8227. Buscando en la tabla terica de
Chi Cuadrado para 1 grado de libertad se aprecia Lt = 3,84146 < 5,8227 lo que
permite rechazar la hiptesis de independencia de caracteres con un nivel de
significacin del 5%, admitiendo por tanto que la prctica deportiva disminuye el
riesgo de depresin.
4.1.3 Prueba de bondad de ajuste
Las pruebas de bondad de ajuste tienen por objetivo determinar si los datos se
ajustan a una determinada distribucin, esta distribucin puede estar
completamente especicada (hiptesis simple) o perteneciente a una clase
paramtrica (hiptesis compuesta).
Test
Estn diseados para variables aleatorias discretas con un nmero nito de
valores, si
Esto no ocurriese los valores de la variable se agrupan en un nmero nito de
clases.
1. Hiptesis nula simple H0: X F0
Dada una muestra aleatoria simple de una variable aleatoria X que toma valores
en las clases
C1; Ck, sea Oi = n
o
De individuos de la muestra en la clase Ci y sea pi = P (X 2 Ci).
Con esta formulacin lo que se contrasta es
H0: pi = PF0(X 2 Ci) = p0i 8i

y se puede hacer por dos procedimientos: mediante el estadstico de la razn de


verosimilitudes o mediante el estadstico de Pearson. Ambos procedimientos se
basan en la comparacin de la frecuencia observada en cada clase.
O con la frecuencia esperada bajo la hiptesis nula Ei = np0i = no de individuos
esperados en la clase Ci, bajo H0; si esta fuese cierta no deberan presentarse
grandes discrepancias.

4.1.4 Tablas de contingencia


En estadstica las tablas de contingencia se emplean para registrar y analizar la
relacin
entre
dos
o
ms
variables,
habitualmente
de
naturaleza cualitativa (nominales u ordinales).
Supngase que se dispone de dos variables, la primera el sexo (hombre o mujer)
y la segunda recoge si el individuo es zurdo o diestro. Se ha observado esta
pareja de variables en una muestra aleatoria de 100 individuos. Se puede emplear
una tabla de contingencia para expresar la relacin entre estas dos variables, del
siguiente modo:
Hombre
Mujer
TOTAL

Diestro
43
44
87

Zurdo
9
4
13

Total
52
48
100

Las cifras en la columna de la derecha y en la fila inferior reciben el nombre


de frecuencias marginales y la cifra situada en la esquina inferior derecha es
el gran total.
La tabla nos permite ver de un vistazo que la proporcin de hombres diestros es
aproximadamente igual a la proporcin de mujeres diestras. Sin embargo, ambas

proporciones no son idnticas y lasignificacin estadstica de la diferencia entre


ellas puede ser evaluada con la prueba de Pearson, supuesto que las cifras de
la tabla son una muestra aleatoria de una poblacin. Si la proporcin de individuos
en cada columna vara entre las diversas filas y viceversa, se dice que
existe asociacin entre las dos variables. Si no existe asociacin se dice que
ambas variables son independientes.
El grado de asociacin entre dos variables se puede evaluar empleando distintos
coeficientes: el ms simple es el coeficiente phi que se define por
= (2 / N)
Donde 2 se deriva del test de Pearson, y N es el total de observaciones -el gran
total-. puede oscilar entre 0 (que indica que no existe asociacin entre las
variables) e infinito. A diferencia de otras medidas de asociacin, el coeficiente
de Cramer no est acotado.

4.1.5 Uso de software estadstico

4.2 Pruebas no paramtricas


Se denominan pruebas no paramtricas aquellas que no presuponen una
distribucin de probabilidad para los datos, por ello se conocen tambin como de
distribucin libre (distribution free). En la mayor parte de ellas los resultados
estadsticos se derivan nicamente a partir de procedimientos de ordenacin y
recuento, por lo que su base lgica es de fcil comprensin. Cuando trabajamos
con muestras pequeas (n < 10) en las que se desconoce si es vlido suponer la
normalidad de los datos, conviene utilizar pruebas no paramtricas, al menos para
corroborar los resultados obtenidos a partir de la utilizacin de la teora basada en
la normal
Aunque el trmino no paramtrico sugiere que la prueba no est basada en un
parmetro, hay algunas pruebas no paramtricas que dependen de un parmetro
tal como la media. Las pruebas no paramtricas, sin embargo, no requieren una
distribucin particular.
4.2.1 Escala de medicin

La medicin puede definirse como la asignacin de numerales a objetos o sucesos


siguiendo ciertas reglas Stevens (1946). El autor de esta definicin desarroll un
mtodo para clasificar los diferentes resultados de las mediciones en lo que llam
niveles de medicin. Un nivel de medicin es la escala que representa una
jerarqua de precisin dentro de la cual una variable puede evaluarse, en funcin
de las caractersticas que rigen las escalas. Por ejemplo, la variable estatura
puede analizarse en diferentes niveles de medida. Un conjunto de personas
pueden clasificarse en altos y bajos, A y B respectivamente, creando dos grupos.
Para ello no es necesario recurrir a ninguna cinta mtrica, simplemente basta
observar quienes destacan sobre los dems (el grupo de altos) y el resto
completarn el grupo de bajos. El nivel de medicin que corresponde a esta forma
de medir es nominal.
Tambin podran alinearse a los sujetos y ordenarlos segn su altura, el primero
sera el ms alto y el ltimo el ms bajo, el resto se organizara de forma que cada
persona tuviese delante a uno ms alto y detrs a uno ms bajo. El nivel de
medicin en este caso es ordinal. Hasta el momento no es posible decir cunto es
una persona ms alta que otra.
A travs del nmero de personas que hay entre dos sujetos, por ejemplo, Andra y
Juan en la fila ordenada anteriormente. En este caso adems del orden se conoce
la magnitud de la altura. Si en lugar de utilizar el nmero de personas se recurre a
una regla se puede ofrecer otra medida de la altura. Esta forma de medir es propia
del nivel de intervalos, que permite saber la magnitud de los elementos
comparando unos con otros.
La cuarta posibilidad es utilizar un metro que sita el cero en el mismo suelo y, por
lo tanto, la altura se define en funcin de la distancia desde la cabeza al suelo
(valor cero absoluto donde se sita la ausencia de altura). En ciencias sociales es
poco frecuente encontrar variables en niveles de razn, normalmente son
nominales, ordinales y en ocasiones de intervalos, rara vez de razn. Una
caracterstica de esta clasificacin es que las propiedades de una escala se
cumplen en el nivel superior.
En la estadstica descriptiva y con el fin de realizar pruebas de significancia, las
variables se clasifican de la siguiente manera de acuerdo con su nivel de medida:

nominal (tambin categrica o discreta)

ordinal

de intervalo o intervalar (continua)

de razn o racional (continua)

Las variables de intervalo y de razn tambin estn agrupadas como variables


continuas.

Medida nominal
El nivel nominal de medicin, de la palabra latina nomn (nombre) describe
variables de naturaleza categrica que difieren en calidad ms que en cantidad
(Salkind, 1998: 113). Ante las observaciones que se realizan de la realidad, es
posible asignar cada una de ellas exclusivamente a una categora o grupo. Cada
grupo o categora se denomina con un nombre o nmero de forma arbitraria, es
decir, que se etiqueta en funcin de los deseos o conveniencia del investigador.
Este nivel de medicin es exclusivamente cualitativo y sus variables son por lo
tanto cualitativas.
Por ejemplo, los sujetos que son del curso de A de 2 de ESO y los de B generan
dos grupos. Cada sujeto se asigna a un grupo, y las variables son de tipo
cualitativo (de calidad) y no cuantitativo puesto que indica donde est cada sujeto
y no "cuanto es de un curso y no de otro". En este ejemplo los nmeros 2 y 3
pueden sustituir las letras A y B, de forma que 2 y 3 son simples etiquetas que no
ofrecen una valoracin numrica sino que actan como nominativos.
En esta escala hay que tener en cuenta dos condiciones:

No es posible que un mismo valor o sujeto est en dos grupos a la vez. No


se puede ser de 2 y 3 a la vez. Por lo tanto este nivel exige que las
categoras sean mutuamente excluyentes entre s.

Los nmeros no tienen valor ms que como nombres o etiquetas de los


grupos.

En este tipo de medidas, se asignan nombres o etiquetas a los objetos. La


asignacin se lleva a cabo evaluando, de acuerdo con un procedimiento, la
similaridad de la instancia a ser medida con cada conjunto de ejemplares
nominados o definiciones de categoras. El nombre de la mayora de los
ejemplares nominados o definiciones es el valor asignado a la medida nominal
de la instancia dada. Si dos instancias tienen el mismo nombre asociado a ellas,
entonces pertenecen a la misma categora, y ese es el nico significado que las
medidas nominales tienen.
Esta escala comprende variables categricas que se identifican por atributos o
cualidades. Las variables de este tipo nombran e identifican distintas categoras
sin seguir un orden. El concepto nominal sugiere su uso que es etiquetar o
nombrar. El uso de un nmero es para identificar. Un nmero no tiene mayor valor
que otro. Un ejemplo son los nmeros de las camisetas de los jugadores de un
equipo de bisbol. El nmero mayor no significa que tiene el mayor atributo que el
nmero menor, es aleatorio o de capricho personal a quien otorga el nmero.
Para el procesamiento de datos, los nombres pueden ser remplazados por
nmeros, pero en ese caso el valor numrico de los nmeros dados es irrelevante.
El nico tipo de comparaciones que se pueden hacer con este tipo de variables es
el de igualdad o diferencia. Las comparaciones mayor queo menor que no
existen entre nombres, as como tampoco operaciones tales como la adicin, la
substraccin, etc.

Ejemplos de medidas nominales son algunas de estas variables: estado marital,


gnero, raza, credo religioso, afiliacin poltica, lugar de nacimiento, el nmero de
seguro social, el sexo, los nmeros de telfono, entre otros.
La nica medida de tendencia central que se puede hacer es la moda. La
dispersin estadstica se puede hacer con tasa de variacin, ndice de variacin
cualitativa, o mediante entropa de informacin. No existe la desviacin estndar.
Medida ordinal
El nivel ordinal describe las variables a lo largo de un continuo sobre el que se
pueden ordenar los valores. En este caso las variables no slo se asignan a
grupos sino que adems pueden establecerse relaciones de mayor que, menor
que o igual que, entre los elementos.
Por ejemplo, se puede ordenar al conjunto de alumnos del mdulo de
diversificacin curricular en funcin de la calificacin obtenida en el ltimo examen.
Las variables de este tipo adems de nombrar se considera el asignar un orden a
los datos. Esto implica que un nmero de mayor cantidad tiene un ms alto grado
de atributo medido en comparacin con un nmero menor, pero las diferencias
entre rangos pueden no ser iguales.
Las operaciones matemticas posibles son: contabilizar los elementos, igualdad y
desigualdad, adems de ser mayor o menor que.
En esta clasificacin, los nmeros asignados a los objetos representan el orden o
rango de las entidades medidas. Los nmeros se denominan ordinales, las
variables se denominan ordinales o variables de rango. Se pueden hacer
comparaciones como mayor que, menor que, adems de las comparaciones de
igualdad o diferencia. Las operaciones aritmticas como la sustraccin a la adicin
no tienen sentido en este tipo de variables.
Ejemplos de variables ordinales son: la dureza de los minerales, los resultados de
una carrera de caballos, actitudes como preferencias, conservatismo o prejuicio, el
nivel socioeconmico, orden de llegada de los corredores, entre otros. Las
medidas de tendencia central de una variable ordinal pueden representarse por su
moda o su mediana. La mediana proporciona ms informacin.
Medida de intervalo o intervalar
El nivel de intervalo procede del latn interval lun (espacio entre dos paredes). Este
nivel integra las variables que pueden establecer intervalos iguales entre sus
valores. Las variables del nivel de intervalos permiten determinar la diferencia
entre puntos a lo largo del mismo continuo. Las operaciones posibles son todas
las de escalas anteriores, ms la suma y la resta.
En este tipo de medida, los nmeros asignados a los objetos tienen todas las
caractersticas de las medidas ordinales, y adems las diferencias entre medidas
representan intervalos equivalentes. Esto es, las diferencias entre una par
arbitrario de medidas puede compararse de manera significativa. Estas variables

nombran, ordenan y presentan igualdad de magnitud. Por lo tanto, operaciones


tales como la adicin, la sustraccin tienen significado. En estas variables el punto
cero de la escala es arbitrario y se pueden usar valores negativos, no significa
ausencia de valor y existe una unidad de igualdad entre los valores. Las
diferencias se pueden expresar como razones. Las medidas de tendencia central
pueden representarse mediante la moda, la mediana al promedio aritmtico. El
promedio proporciona ms informacin.
Las variables medidas al nivel de intervalo se llaman variables de intervalo o
variables de escala.
Ejemplos de este tipo de variables son la fecha, la temperatura, las puntuaciones
de una prueba, la escala de actitudes, las puntuaciones de IQ, conjuntos de aos,
entre otros.
Medida de razn o racional.
El nivel de razn, cuya denominacin procede del latn ratio (clculo), integra
aquellas variables con intervalos iguales pueden situar un cero absoluto. Estas
variables nombran orden, presentan intervalos iguales y el cero significa ausencia
de la caracterstica. El cero absoluto supone identificar una posicin de ausencia
total del rasgo o fenmeno. Tiene caractersticas importantes:

El valor cero no es arbitrario (no responde a las conveniencias de los


investigadores). Un ejemplo claro es la temperatura. La existencia de un cero
en la escala Celsius no supone la ausencia de temperatura, puesto que el cero
grados centgrados est situado por arbitrio de los creadores de la escala. Por
el contrario, la escala Kelvin s tiene un cero absoluto, precisamente all donde
las molculas cesan su actividad y no se produce por lo tanto roce entre los
componentes moleculares. El cero absoluto de la escala Kelvin se sita a unos
-273 grados centgrados.

La presencia de un cero absoluto permite utilizar operaciones matemticas


ms complejas a las otras escalas. Hasta ahora se poda asignar, establecer la
igualdad (nominal), mayor o menor que (ordinal), sumar y restar (intervalo) a
las que se aade multiplicar, dividir, etc.

Los nmeros asignados a los objetos tienen todas las caractersticas de las
medidas de intervalo y adems tienen razones significativas entre pares arbitrarios
de nmeros. Operaciones tales como la multiplicacin y la divisin tienen
significado.
La posicin del cero no es arbitraria para este tipo de medida. Las variables para
este nivel de medida se llaman variables racionales. La mayora de las cantidades
fsicas, tales como la masa, longitud, energa, se miden en la escala racional, as
como tambin la temperatura (en Kelvins) relativa al cero absoluto. Las medidas
de tendencia central de una variable medida a nivel racional pueden representarse
por la moda, la mediana, el promedio aritmtico o su promedio geomtrico. Lo

mismo que con la escala de intervalos, el promedio aritmtico proporciona la


mayor informacin.
Por ejemplo; el ingreso; el cero representara que no recibe ingreso en virtud de un
trabajo, la velocidad; el cero significa ausencia de movimiento. Otros ejemplos de
variables racionales son la edad, y otras medidas de tiempo. En otras palabras, la
escala de razn comienza desde el cero y aumenta en nmeros sucesivos iguales
a cantidades del atributo que est siendo medido.

4.2.2 Mtodos estadsticos contra no paramtricos


Partiendo de la base de que algunos contrastes de hiptesis dependen del
supuesto de normalidad, muchos de estos contrastes siguen siendo
aproximadamente vlidos cuando se aplican a muestras muy grandes, incluso si la
distribucin de la poblacin no es normal. Sin embargo, muchas veces se da
tambin el caso de que, en aplicaciones prcticas, dicho supuesto de normalidad
no sea sostenible. Lo deseable entonces ser buscar la inferncia en contrastes
que sean vlidos bajo un amplio rango de distribuciones de la poblacin. Tales
contrastes se denominan no paramtricos.
En este tema intentar describir contrastes no paramtricos que son apropiados
para analizar algunos de los problemas que hubiera podido encontrar antes. Los
contrastes no paramtricos son generalmente, vlidos cualquiera que sea la
distribucin de la poblacin. Es decir, dichos contrastes pueden ser desarrollados
de manera que tengan el nivel de significacin requerido, sin importar la
distribucin de los miembros de la poblacin.
Mi objetivo, es dar una idea general de aquellos mtodos que son mas utilizados.
As, en el presente tema tratar procedimientos no paramtricos para contrastar la
igualdad de los parmetros de centralizacin de dos distribuciones poblacionales.
La mayor parte de las tcnicas estudiadas hacen suposiciones sobre la
composicin de los datos de la poblacin. Las suposiciones comunes son que la
poblacin sigue una distribucin normal, que varias poblaciones tienen varianzas
iguales y que los datos se miden en una escala de intervalos o en una escala de
razn. Este tema presentar un grupo de tcnicas llamadas no pramtricas que
son tiles cuando estas suposiciones no se cumplen.
Porqu los administradores deben tener conocimientos sobre estadstica no
paramtrica?

La respuesta a esta pregunta es muy sencilla; las pruebas de ji cuadrada son


pruebas no paramtricas. Tanto la prueba de la tabla de contingencia como la de
bondad de ajuste analizan datos nominales u ordinales. Estas pruebas, se usan
ampliamente en las aplicaciones de negocios, lo que demuestra la importancia de
la habilidad para manejar datos categricos o jerarquizados adems de los
cuantitativos.
Existen otras muchas pruebas estadsticas diseadas para situaciones en las que
no se cumplen las suposiciones crticas o que involucran datos cuantitativos o
categricos. Los analistas que manejan estos datos deben familiarizarse con libros
que abordan tales pruebas, conocidas comnmente como pruebas estadsticas no
paramtricas. Se presentarn aqu unas cuantas de las pruebas no paramtricas
que ms se usan.
Qu ocurre con las pruebas no paramtricas frente a las que s lo son?
Las pruebas no paramtricas no necesitan suposiciones respecto a la composicin
de los datos poblacionales. Las pruebas no paramtricas son de uso comn:
1.- Cuando no se cumplen las suposiciones requeridas por otras tcnicas usadas,
por lo general llamadas pruebas paramtricas.
2.- Cuando es necesario usar un tamao de muestra pequeo y no es posible
verificar que se cumplan ciertas suposiciones clave.
3.- Cuando se necesita convertir datos cualitativos a informacin til para la toma
de decisiones.
Existen muchos casos en los que se recogen datos medidos en una escala
nominal u ordinal. Muchas aplicaciones de negocios involucran opiniones o
sentimientos y esos datos se usan de manera cualitativa.
Las pruebas no paramtricas tienen varias ventajas sobre las pruebas
paramtricas:
1.- Por lo general, son fciles de usar y entender.
2.- Eliminan la necesidad de suposiciones restrictivas de las pruebas
paramtricas.
3.- Se pueden usar con muestras pequeas.
4.- Se pueden usar con datos cualitativos.
Tambin las pruebas no paramtricas tienen desventajas:
1.- A veces, ignoran, desperdician o pierden informacin.
2.- No son tan eficientes como las paramtricas.
3.- Llevan a una mayor probabilidad de no rechazar una hiptesis nula falsa
(incurriendo en un error de tipo II).

Las pruebas no paramtricas son pruebas estadsticas que no hacen suposiciones


sobre la constitucin de los datos de la poblacin.
Por lo general, las pruebas paramtricas son mas poderosas que las pruebas no
paramtricas y deben usarse siempre que sea posible. Es importante observar,
que aunque las pruebas no paramtricas no hacen suposiciones sobre la
distribucin de la poblacin que se muestrea, muchas veces se apoyan en
distribuciones muestrales como la normal o la ji cuadrada.

4.2.3 Prueba de kolmogorov-smirnov


Dentro de la estadstica se aplican en la investigacin los test o dcimas
paramtricos y no paramtricos, el presente trabajo est dedicado al estudio de
dos pruebas no paramtricas que por su importancia merecen ser tratadas de
forma independiente, ellas son las pruebas de Kolmogorov-Smirnov para una y
dos muestras.
Entre los test no paramtricos que comnmente se utilizan para verificar si
una distribucin se ajusta o no a una distribucin esperada, en particular a la
distribucin normal se encuentran el test de Kolmogorov-Smirnov. El test de
Kolmogorov-Smirnov es bastante potente con muestras grandes. El nivel
de medicin de la variable y su distribucin son elementos que intervienen en
la seleccin del test que se utilizar en el procesamiento posterior. De hecho, si la
variable
es
continua
con
distribucin
normal,
se
podrn
aplicar tcnicas paramtricas. Si es una variable discreta o continua no normal,
solo son aplicables tcnicas no paramtricas pues aplicar las primeras arrojara
resultados de dudosa validez.

Dcima de una muestra de kolmogorov-smirnov

Premisas
La nica premisa que se necesita es que las mediciones se encuentren al menos
en una escala de intervalo. Se necesita que la medicin considerada sea
bsicamente continua. Adems dicha prueba es aplicable cualquiera sea el
tamao de la muestra.

Potencia-Eficiencia
La prueba de una muestra de K-S puede en todos los casos en que se aplique ser
ms poderosa que su prueba alternativa, la prueba de c 2 ( ji-cuadrado.

Caractersticas de la dcima
La prueba de K-S de una muestra es una dcima de bondad de ajuste. Esto es, se
interesa en el grado de acuerdo entre la distribucin de un conjunto devalores de
la muestra y alguna distribucin terica especfica. Determina si razonablemente
puede pensarse que las mediciones mustrales provengan de una poblacin que
tenga esa distribucin terica. En la prueba se compara la distribucin de
frecuencia acumulativa de la distribucin terica con la distribucin de frecuencia
acumulativa observada. Se determina el punto en el que estas dos distribuciones
muestran la mayor divergencia.
Hiptesis
Ho: La distribucin observada se ajusta a la distribucin terica.
F(x) = Ft(x) para todo x.
H1: La distribucin observada no se ajusta a la distribucin terica.
Tambin:
F(x) Ft(x) para algn x
F(x): es funcin desconocida
Ft(x): es la funcin terica. Esta puede ser por ejemplo la funcin normal con cierta
media y varianzas conocidas.

Estadgrafo y distribucin muestral


D = mxima
Sn(x): es la funcin de distribucin emprica.

Ejemplo

El entrenador de salto de un grupo de atletas, desea conocer con vistas al


procesamiento de los datos por el obtenidos sobre salto de una muestra aleatoria
de atletas de esa especialidad en un CVD, si las mediciones realizadas por l
estn distribuidas normalmente. Los datos son los siguientes:
Salto_Largo
Ho: Los datos estn distribuidos normalmente
H1: Los datos no estn distribuidos normalmente

1 1.60
2 1.65
3 1 .55.
4 1.62
5 1.64
6 1.70
7 1.71
8 1.68
9 1.66
10 1.67
11 1.65
12 1.68
13 1.69
14 1.70
Salidas de la dcima

Conclusiones:
No se rechaza a Ho, por tanto la distribucin de los datos es normal.
Tcnicas adicionales a la dcima
Tabla de frecuencias
Histograma.

4.2.4 Prueba de Anderson-Darling


La ltima estadstica de adaptacin que se puede usar con datos de muestra
continuos es la Anderson-Darling, que se define como
Como la estadstica K-S, la A-D no requiere el establecimiento de compartimentos.
Pero a diferencia de la estadstica K-S, que se enfoque en el medio de la
distribucin, la estadstica A-D destaca las diferencias entre los extremos de la
distribucin adaptada y los datos de entrada.
El test Anderson-Darling determina si los datos vienen de una distribucin
especfica. La frmula para el estadstico A determina si los datos (observar que
los datos se deben ordenar) vienen de una distribucin con funcin acumulativa F
A2 = N S
Dnde:

El estadstico de la prueba se puede entonces comparar contra las distribuciones


del estadstico de prueba (dependiendo que F se utiliza) para determinar el Pvalor.

4.2.5 Prueba de Ryan-Joiner


Esta prueba evala la normalidad calculando la correlacin entre sus datos y las
puntuaciones normales de sus datos. Si el coeficiente de correlacin se encuentra
cerca de 1, es probable que la poblacin sea normal. La estadstica de RyanJoiner evala la solidez de esta correlacin; si se encuentra por debajo del valor
crtico apropiado, usted rechazar la hiptesis nula de normalidad en la poblacin.
Esta prueba es similar a la prueba de normalidad de Shapiro-Wilks.

4.2.6 Prueba de Shapiro-Wilks


La prueba de Shapiro-Wilks se basa en estudiar el ajuste de los datos graficados
sobre un grfico probabilstico en el que cada dato es un punto cuyo valor de
abscisa el valor observado de probabilidad para un valor determinado de la
variable, y el de ordenada el valor esperado de probabilidad.
En este test el Ho y la H1 son iguales que para la prueba anterior.
El estadstico W de Shapiro-Wilks mide la fuerza del ajuste con una recta. Cuanto
mayor sea este estadstico mayor desacuerdo habr con la recta de normalidad,
por lo que podremos rechazar la hiptesis nula. La prueba de Shapiro-Wilks est
considerada como la prueba ms potente para muestra inferiores a 30 casos.
Mide el ajuste de la muestra a una recta, al dibujarla en papel probabilstico
normal. Este tipo de representacin tambin lo proporcionan algunos programas
de estadstica, de tal manera que nos permite adems apreciar el ajuste o
desajuste de forma visual:

En escala probabilstica normal se representa en el eje horizontal, para cada valor


observado en nuestros datos, la funcin de distribucin o probabilidad acumulada
observada, y en el eje vertical la prevista por el modelo de distribucin normal. Si
el ajuste es bueno, los puntos se deben distribuir aproximadamente segn una
recta a 45. En la imagen vemos que en este ejemplo existe cierta discrepancia.
En cualquier caso siempre es adecuado efectuar una representacin grfica de
tipo histograma de los datos, y comparar el valor de la media y la mediana, as
como evaluar el coeficiente de asimetra y apuntamiento, adems de llevar a cabo
una representacin en escala probabilstica de la distribucin de probabilidad
esperada versus observada, como la de la figura.

También podría gustarte