Está en la página 1de 12

Victor Suriel 1102507

Resumen capítulo N. 3 “Descripción, exploración y comparación de datos”.


Este capítulo describe los Métodos de estadística descriptiva, los cuales son los
métodos y herramientas que resumen o describen las características relevantes de los
datos. En el transcurso del capitulo se mencionan las siguientes medidas:
Medidas de tendencia central
Una medida de tendencia central es un valor en medio o en el centro de un conjunto de
datos. La media, la moda, la mitad del rango y la mediana son medidas de tendencia
central. Por lo general, la media (o media aritmética) es la más importante de las
mediciones numéricas usadas para describir datos, y es lo que la mayoría de las

personas llama promedio.

Por otro lado, la mediana de un conjunto de datos es la medida de tendencia central que
indica el valor intermedio, cuando los datos originales se presentan en orden de
magnitud creciente (o decreciente). La mediana no utiliza directamente todos los valores
de datos.
También está la moda, como medida de tendencia central utilizada en datos cualitativos
la moda de un conjunto de datos es el valor que ocurre con mayor frecuencia. La cual
tiene propiedades como:
 Un conjunto de datos puede tener una moda, o múltiples modas, o no tener
ninguna.
 Cuando ningún valor de datos se repite, se dice que no hay moda.
 Cuando más de dos valores de datos ocurren con la misma mayor frecuencia,
cada uno es una moda y se dice que el conjunto de datos es multimodal.
Otra medida es la mitad del rango. La mitad del rango de un conjunto de datos es la
medida de tendencia central que consiste en el valor que está a la mitad entre los valores
máximo y mínimo del conjunto de datos original. Entre sus propiedades tiene:
 Debido a que la mitad del rango utiliza sólo los valores máximo y mínimo, es
muy sensible a esos extremos y, por lo tanto, no es resistente.
 En la práctica, la mitad del rango se utiliza con poca frecuencia, pero tiene tres
características redentoras.
Medidas de variación
En estas medidas hay varias reglas, como la regla del redondeo, esta se basa en que, al
redondear el valor de una medida de variación, conserve un decimal más que los
presentes en el conjunto original de datos. Las tres medidas importantes de variación: el
rango, la desviación estándar y la varianza.
Entre las medidas de variación se encuentra el rango, el rango de un conjunto de valores
de datos es la diferencia entre el valor máximo de datos y el valor mínimo de datos.
Utiliza sólo los valores máximo y mínimo de los datos, por lo que es muy sensible a los
valores extremos.
La desviación estándar es la medida de variación más comúnmente utilizada en
estadística. Es una medida de cuánto se desvían los valores de datos de la media. Se
calcula utilizando la fórmula 3-4 o 3-5. La fórmula 3-5 es solamente una versión
diferente de la fórmula 3-4; ambas son algebraicamente iguales. Esta tiene una amplia
gama de propiedades:
 La desviación estándar es una medida de cuánto se desvían los valores de datos
de la media.
 El valor de la desviación estándar s nunca es negativo. Es cero sólo cuando
todos los valores de datos son exactamente iguales.
 Las unidades de la desviación estándar s (como minutos, pies, libras) son las
mismas que las unidades de los valores de datos originales
Por último nos encontramos con la varianza de una muestra y de una población La
varianza de un conjunto de valores es una medida de variación igual al cuadrado de la
desviación estándar.
• Varianza muestral: s2--- cuadrado de la desviación estándar s.
• Varianza poblacional: σ2-- cuadrado de la desviación estándar poblacional s
Al comparar la variación en muestras o poblaciones con medias muy diferentes, es
mejor utilizar el coeficiente de variación, el cual para un conjunto de datos muestrales o
poblacionales no negativos, expresado como porcentaje, describe la desviación estándar
en relación con la media, y está dado por:

Medidas de posición relativa y gráficas de caja


Estas medidas son números que indican la ubicación de los valores de datos en relación
con los demás valores dentro del mismo conjunto de datos. Una puntuación z es una
medida de posición, en el sentido de que describe la ubicación de un valor (en términos
de desviaciones estándar) con relación a la media. Los percentiles y cuartiles son otras
medidas de posición útiles para comparar valores dentro del mismo conjunto de datos o
entre diferentes conjuntos de datos.
Para concluir es primordial dialogar sobre sobre las capacidades y conceptos básicos
que son relevantes dominar en el momento de explicar, explorar y equiparar datos.
Aquellos conceptos que poseemos que manejar son esos como por ejemplo
puntuaciones, estaturas, comparaciones y velocidades de datos.

Examen rápido del capítulo


1. Galletas. Revise la distribución de frecuencias siguiente que resume
el número de chispas de chocolate en cada galleta de una muestra
de Chips Ahoy regulares (del conjunto de datos 28 “Galletas con
chispas de chocolate” en el apéndice B). ¿Cuál es la anchura de
clase? ¿Es posible identificar los valores de los datos originales?
Chispas de Frecuencia
chocolate
18-20 6
21-23 11
24-26 18
27-29 4
30-30 1

2. Galletas. Con base en la misma distribución de frecuencias del


ejercicio 1, identifique las fronteras y los límites de la primera clase.

3. Galletas. Con base en la misma distribución de frecuencias del


ejercicio 1, ¿cuántas galletas se incluyen?

4. Galletas. Se crea un diagrama de tallo y hojas para las mismas


galletas resumidas en el ejercicio 1, y la primera fila de es diagrama
es 1|99. Identifique los valores representados por esa fila del
diagrama de tallo y hojas.

5. Computadoras. Como gerente de control de calidad en Texas


Instruments, usted encuentra que los defectos en las calculadoras
tienen varias causas, incluyendo maquinaria desgastada, errores
humanos, suministros incorrectos y maltratos durante el embalaje.
¿Cuál de las siguientes gráficas sería la mejor para describir las
causas de los defectos: histograma, diagrama de dispersión, gráfica
de Pareto, gráfica de puntos, gráfica circular?

6. Distribución de la riqueza. En los últimos años, ha habido mucha


discusión sobre la distribución de la riqueza entre los adultos de
Estados Unidos. Si usted planea realizar una investigación original
obteniendo de alguna manera el monto de la riqueza de 3000
adultos seleccionados al azar, ¿qué gráfica sería la mejor para
ilustrar la distribución de la riqueza?

7. Ensayo de salud. En una investigación de la relación entre las


presiones arteriales sistólica y diastólica de las mujeres adultas,
¿cuál de las siguientes gráficas es más útil: histograma, gráfica
circular, diagrama de dispersión, diagrama de tallo y hojas, gráfica
de puntos?

8. Lotería. En el juego de lotería Play 4 de Florida, cada día se


seleccionan aleatoriamente cuatro dígitos entre 0 y 9 inclusive.
Normalmente esperamos que cada uno de los 10 dígitos ocurra
alrededor de 1/10 de las veces, y un análisis de los resultados del
año pasado muestra que así sucedió. Debido a que los resultados
son lo que normalmente esperamos, ¿es correcto decir que la
distribución de los dígitos seleccionados es una distribución normal?

9. Cinturones de seguridad. La compañía Cinturones de Seguridad


Beams fabrica ... bueno, usted ya sabe. Cuando se examina una
muestra de cinturones de seguridad en relación con su punto de
ruptura (medida en kilogramos), se exploran los datos muestrales.
Identifique la característica importante de los datos que falta en la
siguiente lista: centro, distribución, valores atípicos, características
cambiantes en el tiempo.

10.Cinturones de seguridad. Se trazará un histograma a partir de los


puntos de ruptura medidos (en libras) de los cinturones de
seguridad para automóvil probados. Identifique dos características
clave de un histograma de esos valores que sugieren que los datos
tienen una distribución normal.

CAPITULO 3 TRIOLA. EXAMEN RAPIDO, EJERCICIOS DE REPASO, ACUMULATIVOS, PROYECTOS


Y ACTIVIDADES.

DESCRIPCIÓN, EXPLORACIÓN Y COMPARACIÓN DE DATOS


3-1 Medidas de tendencia central
3-2 Medidas de variación
3-3 Medidas de posición relativa y gráficas de caja

Examen rápido del capítulo


1. Media de sueño. Como parte de la Encuesta Nacional de Exámenes
de Salud y Nutrición, se preguntó a los sujetos cuánto tiempo
durmieron la noche anterior, y se reportaron los siguientes tiempos
(horas): 8, 7, 5, 7, 4, 7, 6, 7, 8, 8, 8, 6. Encuentre la media.

Media = (8+7+5+7+4+7+6+7+8+8+8+6)/12 = 6.75 horas  

2. Mediana de sueño ¿Cuál es la mediana de los valores muestrales


listados en el ejercicio 1?
4, 5, 6, 6, 7, 7, 7, 7, 8, 8, 8, 8

Mediana = 7 horas
3. Moda de sueño ¿Cuál es la moda de los valores muestrales listados
en el ejercicio 1?
Moda = 7 y 8 (bimodal) 
4. Varianza de sueño. La desviación estándar de los valores
muestrales en el ejercicio 1 es de 1.3 horas. ¿Cuál es la varianza
(incluyendo las unidades)?
Varianza = s2 = 1.32  = 1.69 horas2 

5. Valores atípicos de sueño. Si un tiempo de sueño de 0 horas se


incluye en los datos muestrales dados en el ejercicio 1, ¿es un valor
atípico? ¿Por qué sí o por qué no?
Si, ya que 0 es substancialmente más pequeño que
los demás valores de la muestra. 

6. Puntuación z de sueño. Una muestra mayor de 50 tiempos de


sueño (horas) tiene una media de 6.3 horas y una desviación
estándar de 1.4 horas. ¿Cuál es la puntuación z para un tiempo de
sueño de 5 horas?
z= -0.93 
7. Q3 de sueño. Para una muestra de 80 tiempos de sueño,
¿aproximadamente cuántos de esos tiempos son menores que Q 3?
60 tiempos (75% de 80) 

8. Resumen de 5 números de sueño. Para una muestra de 100


tiempos de sueño, dé los nombres de los valores que constituyen el
resumen de 5 números. (Los valores reales no se pueden
identificar).
Mínimo, Primer cuartil, Segundo cuartil o mediana, Tercer
cuartil, Máximo 

9. Estimación de s. Una gran muestra de tiempos de sueño incluye


valores que van desde un mínimo de 4 horas hasta un máximo de
10 horas. Utilice la regla práctica del rango para calcular la
desviación estándar.
s= (10 horas – 4 horas) / 4 = 6 horas / 4 = 1.5 horas 

10.Notación de sueño. Considere una muestra de los tiempos de


sueño tomadas de la población adulta que vive en Alaska.
Identifique los símbolos utilizados para la media de la muestra, la
media de la población, la desviación estándar de la muestra, la
desviación estándar de la población, la varianza de la muestra y la
varianza de la población.

respectivamente.

Ejercicios de repaso
1. Géiser Old Faithful. A continuación se listan los errores de
predicción (minutos) que son las diferencias entre los tiempos
reales de erupción y los tiempos de erupción previstos. Los números
positivos corresponden a erupciones que ocurrieron más tarde de lo
previsto, y los números negativos corresponden a erupciones que
ocurrieron antes del pronóstico. (Los datos provienen del conjunto
de datos 23 “Old Faithful” en el apéndice B). Encuentre (a) la media;
(b) la mediana; (c) la modo; (d) la mitad del rango; (e) el rango; (f) la
desviación estándar; (g) la varianza; (h) Q1; (i) Q3
4 -7 0 1 -1 1 -4 -7 22 7 -5 1
a) 1.0 min b) 0.5 min c) 1 min d) 7.5 min e) 29.0 min f) 7.9 min 
g) 61.8 min2 h) -4.5 min i) 2.5 min 

2. Puntuación z. Usando los datos muestrales del ejercicio 1,


encuentre la puntuación z correspondiente al error de predicción de
0 min. ¿Es ese error de predicción significativamente bajo o alto?
¿Por qué sí o por qué no?
Z = -0.13. El error de predicción de 0 min no es significativo porque
su puntuación z está entre 2 y -2, por lo que está dentro de 2
desviaciones estándar de la media.

3. Gráfica de caja. Utilizando los mismos errores de predicción que se


listan en el ejercicio 1, construya un diagrama de caja e incluya los
valores del resumen de 5 números.

Resumen de 5 números: -7 min, -4.5 min, 0.5 min, 2.5 min, 22 min. 

4. Códigos de emergencia. En un análisis de las actividades que


resultaron en lesiones cerebrales presentadas en las salas de
emergencia de hospital, se identificaron las siguientes actividades
mediante los códigos que se muestran entre paréntesis: ciclismo
(12); fútbol (14); parque infantil (22); baloncesto (27); natación (40).
Encuentre la media de 12, 14, 22, 27 y 40. ¿Qué tiene de erróneo
este resultado?
23.0. Los números no miden ni cuentan nada. Se usan como
reemplazos de los nombres de las categorías, por lo que los
números se encuentran en el nivel nominal de medición. En este
caso, la media es un estadístico sin sentido.
5. Comparación de pesos al nacer. El peso al nacer de una muestra de
varones tiene una media de 3272.8 g y una desviación estándar de
660.2 g. El peso al nacer de una muestra de niñas tiene una media
de 3037.1 g y una desviación estándar de 706.3 g (con base en el
conjunto de datos 4 “Nacimientos” en el apéndice B). Cuando se
considera entre los miembros del mismo sexo, ¿cuál bebé tiene el
peso al nacer relativamente mayor: un varón con un peso al nacer
de 3400 g o una niña con un peso al nacer de 3200 g? ¿Por qué?

La mujer tiene el mayor peso relativo al nacer porque su puntuación


z de 0.23 es mayor que la puntuación z de 0.19 para el hombre. 

6. Efectos de un valor atípico. A continuación se listan los conteos de


plaquetas (1000 células/ml) de los sujetos incluidos en el conjunto
de datos 1 “Datos corporales”. Identifique el valor atípico y luego
comente el efecto que tiene sobre la media y la desviación
estándar, mediante la determinación de los valores de esos
estadísticos incluyendo el valor atípico y sin incluirlo.
263 206 185 246 188 191 308 262 198 253 646

El valor atípico es 646. La media y la desviación estándar con el valor


atípico incluido son x = 267.8 y s = 131.6. Los estadísticos con el valor
atípico excluido son x = 230.0 y s = 42.0. Ambos estadísticos cambiaron en
una cantidad sustancial, por lo que aquí el valor atípico tiene un efecto
muy fuerte en la media y la desviación estándar. 

7. Interpretación de una gráfica de caja. A continuación se muestra


una gráfica de caja de una muestra de 30 anchos máximos de
cráneo (mm) medidos en cráneos egipcios de alrededor del año
4000 a.C. ¿Qué representan los números en la gráfica de caja?

El mínimo es 119 mm. El primer cuartil es 128 mm, el segundo


cuartil es 131 mm, el tercer cuartil es 135 min y el máximo es
141 mm. 
8. Estimación de la desviación estándar. A continuación se lista una
muestra de tiempos de duración (segundos) de erupciones del
géiser Old Faithful. Utilice la regla práctica del rango para estimar el
valor de la desviación estándar de todos los tiempos de duración y
compare el resultado con la desviación estándar de 33.7 segundos
obtenida de una muestra de 2634 tiempos de duración.
22 22 24 25 25 22 25 24
6 8 247 7 253 6 0 254 9 242 0 241 226 0 117

Con un mínimo de 117 segundos y un máximo de 256 segundos, x


= 34.8 segundos. Que es muy cercano a la desviación estándar de
33.7 segundos que se encuentra en la muestra más grande. 

Ejercicios de repaso acumulado

1. Arsénico en el arroz. A continuación se listan las cantidades


medidas ( μg por porción) de arsénico en una muestra de
porciones de arroz integral [datos de la Food and Drug
Administration (FDA)]. Construya una distribución de
frecuencias. Utilice una anchura de clase de 2 μg y use 0 μg como
límite inferior de la primera clase.
6.1 5.4 6.9 4.9 6.6 6.3 6.7 8.2 7.8 1.5 5.4 7.3
2. Histograma. Utilice la distribución de frecuencias del ejercicio 1
para construir un histograma. Utilice los valores medios de clase
para la escala horizontal.

3. Diagrama de tallo y hojas. Utilice las cantidades de arsénico del


ejercicio 1 para construir un diagrama de tallo y hojas.

4. Estadísticos descriptivos. Utilice cantidades de arsénico en el


ejercicio 1 y encuentre lo siguiente: (a) media, (b) mediana, (c)
desviación estándar, (d) varianza y (e) rango. Incluya las
unidades de medida apropiadas.

a. Media = 6.09 µg 
b. Mediana =6.45 µg 
c. Desviación estándar = 1.75 µg 
d. Varianza = 3.06 µg2 
e. Rango = 6.70 µg 

5. Histograma. El histograma adjunto muestra los resultados de los


dígitos de la lotería Florida Play¿Cuál es el error más importante
en este histograma?

La escala vertical no comienza en 0, por lo que los valores se ven


tan grotescamente diferenciados.  
6. Distribución normal. Examine la distribución mostrada en el
histograma del ejercicio 5. ¿Parece que los datos muestrales
provienen de una población con una distribución normal? ¿Por
qué sí o por qué no?

También podría gustarte