Está en la página 1de 4

Diagrama de Puntos

Un diagrama de puntos es una gráfica utilizada para ilustrar un número reducido de datos, la cual permite
identificar con facilidad dos características:

1. La localización de los datos.


2. La dispersión o variabilidad de los datos.

Este diagrama muestra cada uno de los elementos de un conjunto de datos numéricos por encima de una
recta numérica (eje horizontal), facilita la ubicación de los espacios vacíos y los agrupamientos en un
conjunto de datos, así como la manera en que estos datos se distribuyen a lo largo del eje horizontal.

Los pasos para construir el diagrama son:

Paso # 1: Trazar una línea horizontal con el valor mínimo colocado en el extremo izquierdo, seleccionar una
escala y utilizando intervalos regulares, marcar la escala hasta que el valor máximo sea alcanzado.

Paso # 2: Para cada valor numérico presente en la tabla de datos, colocar un punto sobre la escala de
valores en la recta numérica, cuando el valor numérico aparece más de una vez, apilar los puntos.

Ejemplo:

La tabla siguiente muestra los datos de longitud en milímetros de un conjunto de cables que serán
utilizados en un estudio de resistencia a la tensión:

Cable Longitud Cable Longitud Cable Longitud Cable Longitud


1 20 6 40 11 40 16 40
2 80 7 20 12 110 17 200
3 110 8 20 13 120 18 10
4 100 9 90 14 20 19 100
5 80 10 80 15 40 20 150

Paso # 1: Trazar una línea horizontal con el valor mínimo colocado en el extremo izquierdo, seleccionar
una escala y utilizando intervalos regulares, marcar la escala hasta que el valor máximo sea alcanzado.

Paso # 2: Para cada valor numérico presente en la tabla de datos, colocar un punto sobre la escala de
valores en la recta numérica, cuando el valor numérico aparece más de una vez, apilar los puntos.
Importante: El diagrama de puntos es una representación de datos útil para muestras pequeñas, hasta
(digamos) unas 20 observaciones (Douglas C. Montgomery, 2009).

Gráfica de puntos
La gráfica de puntos o de dispersión se utiliza para representar pares de datos, correspondientes
normalmente a valores de una variable independiente y de una variable dependiente. Consta de dos ejes
perpendiculares entre sí que representan los valores de ambas variables, habitualmente los de la
independiente en el eje horizontal y los de la dependiente en el eje vertical. Cada uno de los valores del
par se sitúa en su eje correspondiente y desde esos puntos se trazan rectas perpendiculares a ese eje; en
la intersección entre ambas se sitúa un punto, que representa la pareja de datos. Se trata de
una representación cartesiana, como la que se usó cuando se introdujo la correlación entre dos series de
datos.

Distintos grupos de datos pueden representarse en una misma gráfica usando símbolos o colores
diferentes para los puntos de cada conjunto. Los símbolos deben ser suficientemente grandes como para
distinguirlos claramente, y deben aparecer en una leyenda adjunta a la gráfica donde se especifique a qué
grupo de datos corresponden.

En los ejes se indican los valores cada cierto intervalo, no muy corto para no saturarlos de números, pero
tampoco muy amplio, de modo que se pueda estimar visualmente el valor que corresponde a los puntos
de la gráfica de la manera más precisa posible. En cada eje ha de indicarse además la variable que
representa y, muy importante, las unidades en las que están expresados sus valores, si tienen. Esto último
es esencial, porque sin las unidades no se puede entender cuantitativamente la información de la gráfica.
Todo este texto (valores en los ejes, nombre de la variable representada en cada uno de ellos, sus
unidades) debe tener un tamaño adecuado para su fácil lectura.
Los intervalos de valores que se señalan en los dos ejes pueden ser diferentes entre sí, y de hecho es lo
habitual porque se refieren a variables distintas. Además, algunos de ellos o ambos pueden darse en escala
logarítmica, en la que cada intervalo de la misma amplitud implica que el valor de la variable se multiplica
por un mismo factor, en lugar de en escala lineal (la usual).

Por ejemplo, en escala lineal los intervalos iguales en que se divide un eje pueden corresponder a un
aumento de 10 unidades en el valor de la variable, mientras que en escala logarítmica pueden expresar que
el valor de la variable se multiplica por 10; en el primer caso los intervalos podrían ir señalados en el eje con
marcas de 0, 10, 20, 30, etc., mientras que en el segundo caso podrían ir con 1, 10, 100, 1000, etc. (el cero
no puede aparecer en escala logarítmica, ni tampoco valores negativos). Con la escala logarítmica se
consigue que el eje abarque un rango de valores muchísimo más amplio en el mismo espacio, lo que puede
ser necesario en ocasiones; la desventaja es que la distribución de los puntos en la gráfica es más difícil de
interpretar intuitivamente.

Los ejes no tienen por qué comenzar en el valor cero de su respectiva variable. Si los valores representados
son muy altos, quedaría mucho espacio vacío en la gráfica, que no aporta nada. Para evitarlo, los ejes
pueden cruzarse en el valor más conveniente de cada uno de ellos. A veces será necesario realizar esta
modificación en los programas de trazado de gráficas, en algunos de los cuales los ejes se cruzan por
defecto en sus respectivos valores cero.

Una vez representadas todas las parejas de valores, los puntos contiguos pueden unirse entre sí por
segmentos rectos, dando lugar a un gráfico de líneas. Esta unión de los puntos se introduce para "guiar el
ojo", pero más bien consigue confundir al cerebro, porque la línea resultante no contiene datos reales ni
surge de un ajuste estadístico, por lo que su contenido científico es espurio. En términos generales, es
mejor no trazar esos segmentos, y quitarlos en caso de que el programa estadístico empleado los
introduzca por defecto.
Lo que sí puede tener sentido es incluir en la gráfica una curva de ajuste de los puntos, que se obtiene por
procedimientos estadísticos, por ejemplo, minimizando la separación al cuadrado de cada punto a esa
curva (ajuste por mínimos cuadrados). En una sección anterior se trató el caso de la recta de regresión,
pero lo mismo puede hacerse con otras curvas (por ejemplo, polinomios de cualquier grado o curvas
exponenciales).

Estas curvas de ajuste son suaves, porque no están formadas por segmentos concatenados que unen los
puntos; si el ajuste estadístico es bueno, la curva sigue aproximadamente la distribución de los puntos, sin
alejarse demasiado de ellos, aunque no tiene por qué pasar necesariamente por encima de todos (quizá
de ninguno). Si se incluyen curvas de ajuste, es conveniente escribir su ecuación y los parámetros
estadísticos del ajuste en la propia gráfica; en el caso de una recta de regresión habría que incluir la
pendiente y la ordenada en el origen, así como el coeficiente de correlación o su cuadrado, el coeficiente
de determinación.

Si los valores de las variables tienen incertidumbres asociadas es necesario reflejarlas en la gráfica
mediante barras de error. Son segmentos que parten de cada uno de los puntos representados, y su
longitud viene dada por la incertidumbre de los valores en la escala indicada por los ejes. Las barras de
error se extienden hacia la derecha y hacia la izquierda de cada punto según la incertidumbre de la variable
representada en el eje horizontal, y hacia arriba y hacia abajo según la incertidumbre de la variable
representada en el eje vertical. Las barras de error pueden tener distinta longitud en cada punto de la
gráfica, porque las medidas se pueden haber tomado en diferentes condiciones, dando lugar a distintas
incertidumbres.

También podría gustarte