Está en la página 1de 5

2.

3 PRUEBAS DE BONDAD DE AJUSTE: Gráfico Cuantil - Cuantil (Q-


Q Plot)
PARA EL CASO DE LA DISTRIBUCION NORMAL
Elaborado por: Marco Antonio Camacho García

Otra alternativa para establecer la normalidad univariada, es el empleo de los


gráficos Cuantil-Cuantil (llamado también Q-Q Plot por su denominación en inglés).
Esta es una técnica gráfica, que permite comparar la distribución de un conjunto de
datos con una distribución específica, que en nuestro caso será una distribución
normal.

La forma de este método gráfico tiene la siguiente particularidad:

Es un gráfico que se construye empleando para ello los ejes cartesianos. Como se
puede observar existe una bisectriz (línea que divide en dos partes iguales un
ángulo cualquiera) que divide el segmento de los ejes en dos partes iguales. Esta
bisectriz representa a la distribución Normal. También existe una serie de puntos
que representan a los datos observados y que tienen como coordenadas los valores
observados (eje x) y su correspondiente valor normal esperado en escala “Z” (eje
y). Mientras más se aproximen los puntos a la bisectriz, los datos tienen una mayor
tendencia a estar normalmente distribuidos. Por otro lado, mientras más se alejen
se dirá que existen mayores discrepancias entre los “valores observados” y los
“valores esperados en situaciones de normalidad”, por tanto, la serie de datos NO
sigue la distribución normal.
Ahora bien. ¿Por qué una bisectriz representa una distribución normal? Esto se
verá con un ejemplo. Los siguientes datos siguen una distribución normal:

Datos (x): 1 1.8 1.8 2.3 2.3 2.3 3 3 3 3 3.7 3.7 3.7 4.2 4.2 5

Si se realiza una tabla de distribución de frecuencias absolutas y se calculan los


valores z para cada valor se tiene lo siguiente:

Frecuencia
x Absoluta Valor Z
(f)
1 1 -1.62319
1.8 2 -0.97391
2.3 3 -0.56811
3 4 0
3.7 3 0.568115
4.2 2 0.973911
5 1 1.623185

Media aritmética: 3 – Desviación estándar muestral: 1.23215

Si se grafica la frecuencia absoluta respecto a cada dato y también el puntaje “Z” de


cada dato, se tiene:

4.5
2
4
1.5
Frecuencia absoluta

3.5
3 1
2.5
0.5
Puntaje Z

2
1.5 0
1 -0.5 0 2 4 6
0.5 -1
0
-1.5
0 2 4 6
-2
Datos (x) Datos (x)

Tal como se puede observar, la distribución de datos (x) desde la perspectiva


frecuencial (f) sigue una distribución normal. También se tiene que el gráfico
resultante entre los datos (x), respecto a sus puntajes Z es una línea recta, que
divide el plano cartesiano en dos partes con ángulos idénticos, constituyéndose por
ese hecho en una bisectriz. Por esa última razón, se explica que la distribución
NORMAL de los datos respecto a su valor Z. es una bisectriz. Y si una serie de
datos cualquiera sigue una distribución normal, pues los puntos resultantes
deberían acercarse mucho a la bisectriz, o estar superpuestos a la misma.

Ahora bien: ¿Cómo se elabora el gráfico Q-Q? Estos son los pasos a seguir:

1) Se tiene una serie de datos 𝑥 , 𝑑𝑜𝑛𝑑𝑒 𝑖 = 1, 2, … , 𝑛. Cada valor 𝑖 indica el lugar


o posición de los datos dentro la serie, y que previamente debe estar
ordenada de menor a mayor. En caso de que existan datos repetidos, se
debe utilizar como valor 𝑖 el punto o rango medio de los mismos.

2) Determinar la probabilidad de cada dato como cuantil (𝑃 ), es decir, no


tomando en cuenta el valor del dato, sino el lugar o posición 𝑖 que ocupa cada
uno de éstos en la serie numérica ordenada, empleando para el efecto:

ia
Pi 
n  1  2a
Considerando los siguientes arreglos de continuidad:

Corrección de continuidad de "Blom"


3
i
3 8
Si n  10, entonces a= , por tanto: Pi 
8 1
n
4

Corrección de continuidad de "Rankit" o Hazen (modificación de Kaplan-Meier)


1
i
1 2
Si n  10, entonces a= , por tanto, Pi 
2 n

En el programa MINITAB, se utilizan las siguientes correcciones de


continuidad:
3) Determinar los valores Z, que corresponden a cada probabilidad (𝑃 )
empleando para ello una tabla normal estandarizada Z.

4) Posteriormente, se debe representar puntos en un gráfico. Las coordenadas


para cada punto son las siguientes: Para el eje “X” se deben utilizar los
valores observados y para el eje “Y” los valores Z que corresponden a cada
𝑃.

5) Para dibujar la bisectriz, escogemos a dos valores de la serie de datos (mejor


si son los extremos) y luego Se determina el Valor Z de los mismos,
finalmente se traza una línea que une ambos puntos.

6) Finalmente se comparan los puntos y la línea, si existe proximidad o


correspondencia estamos ante una distribución normal, caso contrario la
distribución no es normal.

Seguidamente se desarrolla un ejemplo completo tanto con las aproximaciones


“Rankit” y “Blom” para 𝑝

Datos 4 8 14 16 60 70

Pi
i Valor (Rankit) Z (Rankit) Pi (Blom) Z (Blom)
1 4 0.0833 -1.38 0.10 -1.28
2 8 0.2500 -0.67 0.26 -0.64
3 14 0.4167 -0.21 0.42 -0.20
4 16 0.5833 0.21 0.58 0.20
5 60 0.7500 0.67 0.74 0.64
6 70 0.9167 1.38 0.90 1.28
Para realizar el gráfico de la bisectriz tomamos por ejemplo los valores 4 y 70, cuyos
valores Z son -1.28 y 1.28 respectivamente.

Los resultados son los siguientes:

2.00 2.00
1.50 1.50
1.00 1.00
0.50
0.50
0.00
0.00
-0.50 0 20 40 60 80
0 20 40 60 80
-1.00 -0.50

-1.50 -1.00
-2.00 Gráfico empleando el ajuste Rankit -1.50 Gráfico empleando el ajuste Blom

Tal como se puede apreciar la serie de datos original no se ajusta exactamente a la


bisectriz, por tanto, “parece que no sigue una distribución normal”.

PARA TRAZAR LA BISECTRIZ EXISTE OTRO METODO ALTERNATIVO. ESE


METODO ES EL DE REGRESION.

También podría gustarte