Está en la página 1de 3

PROBABILIDAD Y ESTADÍSTICA

EXAMEN PRÁCTICO: ESTADÍSTICA DESCRIPTIVA

Instrucciones:

La base de datos para trabajar se obtendrá directamente del programa Statdisk. Los estadísticos
descriptivos y gráficos solicitados, los podrás elaborar ya sea en Excel o en statdisk, según tu preferencia
o criterio.

1. Abre el programa Statdisk.


2. En el fichero de Data set, abre los datos de estadística elemental 12° Ed. “5. IQ and Lead exposure”.
Lee la siguiente descripción de este conjunto de datos:

Estos datos se refieren a la relación, si la hay, entre el Coeficiente Intelectual (CI) y la exposición al
plomo. El conjunto de datos viene del artículo "Neuropsychological Dysfunction in Children with
Chronic Low-Level Lead Absorption", un estudio realizado por PJ Landrigan, RH Whitworth, RW
Baloh, NW Staehling, WF Barthel, y BF Rosenblum que fue publicado en la revista médica respetada
Lancet (volumen 1, número 7909). En el estudio, los autores probaron 121 niños, que viven cerca
de una fundición de plomo. El estudio involucró pruebas tanto del coeficiente intelectual de los
niños, como del nivel de plomo en la sangre de los niños. El nivel de plomo se midió dos veces, en
dos años consecutivos. A continuación, los datos se tabularon y se asignó un nivel de plomo de 1, 2,
o 3. Los niños con nivel asignado de 1 tenían un bajo nivel de plomo en ambos años de medición
(menos de 40 microgramos de plomo por 100 mililitros de sangre). Los niños asignados con 2 tenían
un nivel de plomo medio, es decir, un año con nivel bajo y el segundo con alto. Los niños asignados
a 3 tenían un nivel alto de plomo, con mediciones por encima de 40 microgramos por 100 mililitros
de sangre en los dos años de prueba. El CI se midió con puntuaciones verbales y rendimiento, así
como una puntuación de CI completo para cada niño. El conjunto de datos incluye el nivel de plomo
asignado al niño (LEAD), la edad del niño (AGE), el sexo del niño (SEX, 1=VARONES, 2=NIÑAS), la
cantidad de plomo del niño expresado en microgramos de plomo por 100 mililitros de sangre
(separado en años distintos; YEAR 1, YEAR 2), la puntuación de CI verbal del niño (IQV), su CI de
Ejecución (IQP), y su puntuación total IQ (IQF).
3. Elabora las gráficas que consideres apropiadas para representar a las variables 1 (LEAD), 2 (AGE) y 3
(SEX) y describe las variables en función de esos gráficos.
Variable 1 (LEAD): la distribución de los datos nos muestra que la mayor frecuencia está en los
niños con un nivel de plomo bajo en la sangre, es decir, con menos de 40 microgramos por 100
mililitros de sangre.
Variable 2 (AGE): esta variable que la mayoría de los niños se encuentran entre los 5 y los diez años
aproximadamente.
Variable 3 (SEX): en cuanto a esta distribución vamos a encontrarnos con una mayor cantidad de
niños que de niñas en el conjunto de datos.
4. Con la información anterior, describe cómo estuvo constituida la muestra para este estudio (datos
totales, cuantos hombre, cuántos mujeres, de que edades, niveles de plomo).
Tenemos un total de 121 datos, es decir se tomaron 121 muestras del total de niños, de los cuales
74 son varones y 47 son niñas, todos ellos con edades entre los 2 y los 16 años aproximadamente.
5. Con respecto a la variable 3 (SEX)…
a. ¿Qué tipo de datos representa SEX? (es decir, cómo se clasifica esta variable).
Es una variable cualitativa y discreta.
b. Esta variable tiene una media de 1.4, esto ¿qué te indica?
No podemos tomarlo como un dato correcto porque estamos evaluando el sexo de los
niños y necesitamos tener un número entero para poder representarlo correctamente.
c. ¿Cuál es la mejor medida de tendencia central para esta variable?
La mejor medida de tendencia central para esta variable sería la mediana que nos va a
representar un mayor número de niños que niñas en el conjunto de datos.
d. ¿Cuál es ese valor de tendencia central?
Mediana= 1
6. Con respecto a la variable 1 (LEAD)…
a. ¿Qué tipo de datos representa la variable LEAD? (es decir, cómo se clasifica esta variable).
Es una variable cuantitativa y discreta.
b. ¿Cuál es la mejor medida de tendencia central para esta variable?
La mediana.
c. ¿Cuál es ese valor de tendencia central?
Mediana= 1
d. ¿Sería apropiado describir el nivel de plomo (LEAD) medio? ¿por qué?
Considero que no sería apropiado porque no nos daría un valor completo del nivel de
plomo en la sangre.
7. Con respecto a las variables 4 y 5 (YEAR1 y YEAR2)…
a. ¿Qué tipo de datos representa la variable YEAR1?
Representa el nivel de plomo en la sangre medido en el primer año de estudio.
b. Realiza un histograma de estas variables.
c. ¿Cuál es la media, mediana y moda para estas variables?
Variable 4: media= 34.60, mediana= 33, moda= 24.
Variable 5: media= 31.23, mediana= 30, moda= 34.
d. Compara ambas variables en función de estas 3 medidas de tendencia central.

e. Los datos de estas variables, ¿están sesgados? ¿qué te lo indica? Los


datos para ambas variables están ligeramente sesgados a la derecha y nos lo indica el
coeficiente de sesgo.
f. Calcula el coeficiente de asimetría (sesgo) e interprétalo para ambas variables.
Ambas variables nos dan un coeficiente de sesgo mayor a cero, por lo tanto ambas
distribuciones tienen un sesgo ligeramente inclinado a la derecha.
g. ¿Cuál es el rango de YEAR1? ¿Cómo se determina?
El valor del rango es de 67, y lo determinamos calculando la diferencia entre el valor
máximo y el valor mínimo.
h. ¿Qué te indica la curtosis?
Nos indica el grado de pico o apuntamiento que presenta una distribución.
i. ¿Qué valor de curtosis tienen ambas variables? Interprétalos.
Ambas variables tienen un valor mayor a cero, por lo tanto se van a presentar
distribuciones leptocúrticas.
j. Calcula la desviación estándar y la varianza de este conjunto de datos? ¿Qué unidades
tiene cada uno de estos estadísticos?
Variable 4: desviación estándar= 13.36, varianza= 178.42
Variable 5: desviación estándar= 9.56, varianza= 91.35
k. ¿Qué relación hay entre la varianza y la desviación estándar? ¿Qué te indican estos
valores? La desviación estándar va a representar la variación de los datos con respecto a
la media y la varianza es el cuadrado de la desviación estándar.
l. Usa estos estadísticos (desviación estándar y varianza) para comparar la dispersión entre
YEAR1 y YEAR2. ¿Cuál de las dos variables tiene mayor dispersión? Con base en los datos
calculados, la variable con mayor dispersión es la variable YEAR2.
8. Con respecto a la variables 6 y 7 (IQV, IQP e IQF)…
a. ¿Qué tipo de datos representa la variable IQV? (es decir, cómo se clasifica esta variable).
Es una variable cuantitativa y discreta.
b. ¿Qué es el Rango Intercuartílico (RIC), cómo se calcula y qué te indica?
Es la diferencia entre los valores de Q1 y Q3 y representa la variabilidad del 50%
intermedio de los datos, se calcula restando al valor de Q3 el valor de Q1.
c. Usa el RIC para comparar las variables IQV e IQP.
IQV tiene un RIC de 16 y por su parte IQP tiene un RIC de 20.

Elabora una ojiva porcentual con los datos del IQF y contesta:

d. Cuál es el IQ sobrepasado sólo por el 20% de las personas más inteligentes?


IQ= 80
e. Qué porcentaje de la población presenta IQ menores de 80?
10%
f. A partir del histograma de frecuencias del IQF, comenta cuales son los coeficientes más
comunes encontrados en la muestra y cuales los menos comunes.
Los coeficientes más comunes van en un rango de 80 a 100 y los menos comunes van de
40 a 60 y de 120 a 140.
9. Con respecto a las variables 5 y 8 (YEAR2 y IQF)
a. ¿Qué unidades de medida tienen las variables 5 y 8?
Año y puntuación total.
b. Cómo podemos comparar la variación (o dispersión) entre estas dos variables, dado que
tienen unidades diferentes? Podemos comprar el coeficiente intelectual total de los niños
del conjunto de datos con respecto al segundo año de estudio.
c. ¿Cuál de las dos presenta mayor dispersión?
La variable 8 presenta mayor dispersión.
10. Elabora un gráfico de cajas modificado para comparar los niveles de plomo en los dos años de
medición. Con éste compara ambas variables en función de máximos, mínimos, valores de centro,
dispersión, sesgo y outliers.
En el año 1 vamos a tener un rango de valores más amplio, el rango intercuartílico es más amplio
para el año 1, se presentan medias similares en ambos años; en cuanto a las distribuciones, en el
año 1 vamos a encontrar una gráfica sesgada a la derecha, y para el año 2 vamos a tener una gráfica
ligeramente sesgada hacia la izquierda; en ambas distribuciones vamos a detectar outliers, sin
embargo se presenta más en los datos del año 1.

También podría gustarte