Está en la página 1de 21

GUÍA PRÁCTICA

PRÁCTICA 4. ANÁLISIS
EXPLORATORIO DE DATOS

ANÁLISIS DESCRIPTIVO Y EXPLORATORIO


DE DATOS

GRADO EN ESTADÍSTICA Y EMPRESA


Representación gráfica y numérica de distribuciones multivariantes

A continuación, pasamos a resolver las cuestiones planteadas en la práctica:


1. Obtener el gráfico de caja y bigotes de la variable “Población”.
a) Identificar: Cuartil primero, cuartil tercero, media y mediana
b) ¿Existen datos anómalos? ¿Y extremos?
c) ¿Qué se puede decir de la asimetría de la distribución?

Para contestar la primera pregunta que nos plantean, procederemos de la forma:


Graficar/Gráficos Exploratorios/Gráfico de caja y bigotes/Una Muestra…

y hacemos clic en Aceptar

pág. 2
Representación gráfica y numérica de distribuciones multivariantes

en las salidas nos aparece el gráfico del diagrama de cajas y bigotes en la


ventana derecha, para detectar con más exactitud qué valores toman las
medidas de posición, como son los cuartiles y la mediana es mejor crear el
diagrama de cajas y bigotes con la opción:
Describir/Datos Numéricos/Análisis de Una Variable…

pág. 3
Representación gráfica y numérica de distribuciones multivariantes

hacemos clic en Aceptar y se nos muestran las salidas:

nos vamos al icono de Tablas y hacemos clic:

pág. 4
Representación gráfica y numérica de distribuciones multivariantes

y hacemos clic en Aceptar:

pág. 5
Representación gráfica y numérica de distribuciones multivariantes

ya podemos contestar a la pregunta 1. a), basta con mirar en las dos tablas de
las salidas. En la tabla: “Resumen Estadístico para Población” podemos ver que
la media es: 2.450.470 habitantes. Para calcular el valor de los cuartiles , =
y , que corresponden con el , y , respectivamente, basta con mirar
los valores que nos proporciona la tabla: “Percentiles para Población”, en ella
podemos ver: = 983.131, = 1.615.230 y = 2.762.200 habitantes.
Para contestar a la pregunta 2. b), tenemos que observar el diagrama de cajas y
bigotes y ver los valores que exceden tanto por encima, como por debajo del
límite de los bigotes, en nuestra variable “Población” tenemos tres valores
anómalos (atípicos), que serían los valores: 5.964.143 (Madrid), 6.995.206
(Cataluña) y 7.849.799 (Andalucía). Estos valores los obtenemos haciendo clic
sobre el punto del diagrama de cajas y bigotes en las mismas salidas del
Statgraphics.
Para comprobar si alguno de esos valores atípicos, es extremo tenemos que
proceder de la forma: Describir/Datos Numéricos/Identificación de Valores
Atípicos…

pág. 6
Representación gráfica y numérica de distribuciones multivariantes

hacemos clic en Aceptar y se nos muestra:

pág. 7
Representación gráfica y numérica de distribuciones multivariantes

ampliamos el gráfico superior derecho:

los valores que estén fuera del intervalo (-3, 3), que corresponden con las líneas
de color amarillas de ese gráfico son valores extremos. Por lo tanto, en nuestro
caso, no tenemos ningún valor extremo, los tres valores atípicos que muestra el
diagrama de cajas y bigotes son anómalos.
Para contestar al apartado 1. c), basta con volver a las salidas y ver que el
diagrama de cajas y bigotes está más concentrado en la parte izquierda de la
caja, alargándose el bigote superior mucho más que el inferior, además la
mediana = 1.615.230, es mucho menor que la media = 2.450.470, esto nos indica
asimetría a la derecha o positiva. Esto también podemos comprobarlo en la tabla
de Resumen Estadístico para Población, en la opción Sesgo = 1,32956, nos
muestra el valor del coeficiente de asimetría, si este coeficiente es mayor que 1
(como es nuestro caso) esto nos indica asimetría a la derecha.

pág. 8
Representación gráfica y numérica de distribuciones multivariantes

2. Realizar un gráfico comparativo de caja y bigotes de la variable


“Población” para cada uno de los niveles de instalaciones deportivas
definidos.
a) ¿En cuál de ellos existe una mayor dispersión de los datos?
b) ¿En qué nivel de instalaciones deportivas se observa que es más
frecuente en CCAA con menor población?

Procedemos de la forma: Graficar/Gráficos Exploratorios/Gráfico de Caja y


Bigotes/Varias Muestras…

hacemos clic en Aceptar y nos aparecen las salidas:

pág. 9
Representación gráfica y numérica de distribuciones multivariantes

ampliando la pantalla de los diagramas de cajas y bigotes:

Para contestar a la pregunta 2. a), basta con observar los rangos intercuartílicos
(diferencias entre los − ) de las cajas en cada caso, y ver que para la
codificación “bajo” tenemos un rango intercuartílico mucho más grande que para
las demás, por lo tanto, para el nivel bajo hay una mayor dispersión en la variable.
Para contestar a la pregunta 2. b), basta con ver cual de las tres cajas es la que
presenta unos menores valores de Población, que en este caso es el nivel medio.

pág. 10
Representación gráfica y numérica de distribuciones multivariantes

3. Obtener el diagrama de tallos y hojas de la variable “Tasa de


instalaciones deportivas”.
a) ¿Existen datos anómalos? ¿Y extremos?
b) ¿Qué se puede decir de la asimetría de la distribución?

Para contestar a las preguntas del ejercicio procedemos: Describir/Datos


Numéricos/Análisis de Una Variable…

nos vamos al icono de Tablas y hacemos clic en el Diagrama de Tallo y Hoja:

pág. 11
Representación gráfica y numérica de distribuciones multivariantes

hacemos clic en Aceptar y el programa nos muestra:

Para contestar a la pregunta 3. a), sólo con la información que obtenemos del
diagrama de tallos y hojas, no podemos probar la existencia de valores atípicos,
tanto anómalos como extremos.
Para contestar a la pregunta 3. b), podemos ver claramente que la distribución
es asimétrica a la derecha, ya que la mayoría de las frecuencias se concentran
en los valores más bajos de las modalidades. La columna de la izquierda del todo
contiene los recuentos acumulados desde el inicio y desde el final de la tabla,
deteniéndose en el renglón que contiene a la mediana que es el 2.

pág. 12
Representación gráfica y numérica de distribuciones multivariantes

4. Obtener la media recortada y winsorizada al 10% del número medio de


instalaciones deportivas que hay en las Comunidades Autónomas.

Para ello nos vamos a Describir/Datos Numéricos/Análisis de Una Variable…

hacemos clic en Aceptar…


Nos vamos a la tabla de Resumen y hacemos clic con el botón derecho del ratón:

pág. 13
Representación gráfica y numérica de distribuciones multivariantes

hacemos clic en Opciones de Ventana y seguidamente en Opciones Resumen


Estadístico marcamos Media Recortada y Media Winsorizada al 10%, y hacemos
clic en Aceptar…

en la tabla Resumen nos aparecerán incluidas las dos medias:

pág. 14
Representación gráfica y numérica de distribuciones multivariantes

como vemos la media recortada al 10% es de 3.854,4 y la winsorizada al 10%


es de 4.417,72 instalaciones deportivas.

5. Obtener la desviación winsorizada al 10% del número medio de


instalaciones deportivas que hay en las Comunidades Autónomas.

Sobre la tabla Resumen anterior, clic botón derecho del ratón, en Opciones de
Ventana y marcamos Sigma Winsorizada…

Aceptamos y nos aparecerá nuevamente la desviación winsorizada al 10% en la


tabla Resumen:

pág. 15
Representación gráfica y numérica de distribuciones multivariantes

Como podemos ver la desviación winsorizada tiene un valor de 3.830,84


instalaciones deportivas.

6. Obtener la MEDA del número medio de instalaciones deportivas que hay


en las Comunidades Autónomas.
En la tabla Resumen hacemos clic con el botón derecho del ratón, Opciones de
Ventana y en el cuadro Opciones Resumen Estadístico marcamos DAM…

y hacemos clic en Aceptar…

pág. 16
Representación gráfica y numérica de distribuciones multivariantes

la desviación absoluta mediana (DAM), es a lo que nosotros llamamos MEDA y


por tanto, su valor es de 1.903 instalaciones deportivas.

7. Obtener la recta de Tukey del número de instalaciones deportivas en


término de la población de las distintas Comunidades Autónomas.
Para hacer lo que nos piden tenemos que proceder igual que si hiciésemos un
ajuste de regresión lineal simple:
Relacionar/Un Factor/Regresión Simple…

pág. 17
Representación gráfica y numérica de distribuciones multivariantes

hacemos clic en Aceptar…

nos vamos sobre el gráfico y hacemos clic con el botón derecho del ratón, se nos
abre el cuadro y en Opciones de Análisis:

pág. 18
Representación gráfica y numérica de distribuciones multivariantes

marcamos la casilla “Utilizar medianas de 3 grupos”…

pág. 19
Representación gráfica y numérica de distribuciones multivariantes

hacemos clic en Aceptar y obtenemos las dos rectas de regresión, la de mínimos


cuadrados y la de Tukey representadas ambas en la gráfica:

La recta de mínimos cuadrados corresponde a la de color azul cuyos coeficientes


se muestran en la tabla “Coeficientes”. La de color rojo es la de Tukey (3
medianas), cuyos coeficientes no se encuentran en ninguna tabla, sino ya en la
ecuación de la recta:

para ver la gráfica más de cerca la ampliamos:

pág. 20
Representación gráfica y numérica de distribuciones multivariantes

Como vemos la recta de regresión es de la forma:

Y la de Tukey:

pág. 21

También podría gustarte