Está en la página 1de 15

CAPITULO 2

Estadísticas descriptivas
¿Quién fue el mejor jugador de béisbol de todos los tiempos?

L et Ponderemos por un momento dos preguntas aparentemente no relacionados: (1) ¿Qué está pasando con la salud económica de
la clase media de Estados Unidos? y (2) ¿Quién fue el mejor jugador de béisbol de todos los tiempos?

La primera pregunta es profundamente importante. Tiende a estar en el centro de las campañas presidenciales y otros
movimientos sociales. La clase media es el corazón de América, por lo que el bienestar económico de ese grupo es un
indicador clave de la salud económica general de la nación. La segunda pregunta es trivial (en el sentido literal de la
palabra), pero los entusiastas de béisbol puede discutir sobre ello sin fin. Lo que las dos preguntas tienen en común es
que pueden ser utilizados para ilustrar las ventajas y limitaciones de la estadística descriptiva, que son los números y los
cálculos que utilizamos para resumir los datos en bruto.

Si quiero demostrar que Derek Jeter es un gran jugador de béisbol, me puedo sentar abajo y describir cada turno al bate
en todos los partidos de la Liga Mayor que ha jugado. Eso sería datos en bruto, y se necesitaría un tiempo para digerir, dado
que Jeter ha jugado diecisiete temporadas con los Yankees de Nueva York y llevado 9868 en los palos.

O simplemente puedo decir que al final de la temporada 2011 Derek Jeter tuvo un promedio de bateo de .313. Esa es una
estadística descriptiva, o una “estadística de resumen.” El promedio de bateo es una simplificación grosera de diecisiete
temporadas de Jeter. Es fácil de entender, elegante en su simplicidad y limitado en lo que puede decirnos. expertos de béisbol
tienen un grupo de estadísticas descriptivas que consideran ser más valioso que el promedio de bateo. Llamé a Steve Moyer,
presidente de béisbol Info Solutions (una empresa que ofrece una gran cantidad de los datos en bruto para el Moneyball tipos), a
preguntarle: (1) ¿Cuáles son las estadísticas más importantes para evaluar el talento de béisbol? y (2) ¿Quién fue el mejor
jugador de todos los tiempos? Voy a compartir su respuesta una vez que tengamos más contexto.

Mientras tanto, volvamos al tema menos trivial, la salud económica de la clase media. Idealmente nos gustaría
encontrar el equivalente económico de un promedio de bateo, o algo aún mejor. Nos gustaría una medida simple pero
precisa de cómo el bienestar económico del trabajador típico estadounidense ha ido cambiando en los últimos años. Son
las personas que definimos como la clase media cada vez más ricos, más pobres, o simplemente correr en su lugar?
Una respuesta razonable, aunque de ninguna manera la respuesta, sería “correcto” en calcular el cambio en el ingreso
per cápita en los Estados Unidos en el transcurso de una generación, que es más o menos treinta años. El ingreso per
cápita es un promedio simple: el ingreso total dividido por el tamaño de la población. En esa medida, el ingreso promedio
en los Estados Unidos aumentó de
$ 7,787 en 1980 a $ 26487 en 2010 (el último año del que el gobierno tiene datos). 1
Voilà! Felicitaciones a nosotros.
Sólo hay un problema. Mi cálculo rápido es técnicamente correcto y sin embargo totalmente equivocado en cuanto a la pregunta
que se propuso responder. Para empezar, las cifras anteriores no se ajustan por inflación. (Un ingreso per cápita de $ 7,787 en 1980
es igual a aproximadamente $ 19,600 cuando se convierte a dólares de 2010). Eso es una solución relativamente rápida. El
problema más grande es que el ingreso promedio en Estados Unidos no es igual a los ingresos de la media de América. Vamos a
descomprimir esa pequeña frase inteligente.

El ingreso per cápita se limita a tomar todos los ingresos obtenidos en el país y lo divide por el número de personas, lo que
nos dice absolutamente nada acerca de quién está ganando la cantidad de esos ingresos en 1980 o en 2010. A medida que
las personas de Ocupar Wall Street apuntaría a cabo, el crecimiento explosivo en los ingresos de la parte superior del 1 por
ciento puede aumentar el ingreso per cápita significativamente sin poner más dinero en los bolsillos de los otros 99 por ciento.
En otras palabras, el ingreso promedio puede subir sin ayudar al americano medio. Al igual que con la consulta estadística de
béisbol, he buscado fuera de experiencia sobre cómo debemos medir la salud de la clase media estadounidense. Pedí dos
economistas laborales prominentes, incluyendo el principal asesor económico del presidente Obama, lo que las estadísticas
descriptivas que utilizarían para evaluar el bienestar económico de un americano típico. Sí, obtendrá la respuesta, también,
una vez que hemos tomado una visita rápida de las estadísticas descriptivas para darle más significado. Desde el béisbol a
los ingresos, la tarea más básica cuando se trabaja con datos es resumir una gran cantidad de información. Hay unos 330
millones de residentes en los Estados Unidos. Una hoja de cálculo con el nombre y el ingreso historia de cada
estadounidense contendría toda la información que podríamos desear sobre la salud económica del país, sin embargo,
también sería tan difícil de manejar como para decirnos nada en absoluto. La ironía es que más datos a menudo pueden
presentar menos claridad. Así se simplifica. Realizamos cálculos que reducen un complejo conjunto de datos en un puñado
de números que describen esos datos, al igual que podríamos encapsular un complejo multifacético rendimiento, gimnasia
olímpica con un número: 9,8. La buena noticia es que estas estadísticas descriptivas nos dan un resumen manejable y
significativa del fenómeno subyacente. Eso es lo que trata este capítulo. La mala noticia es que cualquier simplificación invita
al abuso. Estadística descriptiva pueden ser como los perfiles de citas en línea: técnicamente precisa y sin embargo bastante
maldito engañosa.

Supongamos que usted está en el trabajo, de brazos cruzados navegar por la web cuando se tropieza a través de una cuenta día
a día por caso de remachar fallido matrimonio de setenta y dos días de Kim Kardashian a jugador de baloncesto Kris Humphries.
Ha terminado de leer sobre el día siete del matrimonio cuando su jefe se presenta con dos enormes archivos de datos. Un archivo
tiene información de reclamación de garantía para cada uno de los 57,334 impresoras láser que su empresa vendió el año
pasado. (Para cada impresora vendida, el archivo documenta el número de problemas de calidad que fueron reportados durante el
período de garantía.) El otro archivo tiene la misma información para cada uno de los 994,773 impresoras láser que su principal
competidor vendidos durante el mismo tramo. Su jefe quiere
saber cómo las impresoras de su empresa se comparan en términos de calidad con la competencia. Afortunadamente, el
equipo que ha estado usando para leer sobre el matrimonio Kardashian tiene un paquete estadístico básico, pero ¿por dónde
empezar? Sus instintos son probablemente correcta: La primera tarea descriptiva es a menudo para encontrar alguna medida
de la “media” de un conjunto de datos, o lo que los estadísticos podrían describir como su Cuál es la experiencia típica de
calidad para sus impresoras en comparación con la “tendencia central”. los de la competencia? La medida más básica del
“medio” de una distribución es la media o promedio. En este caso, queremos saber el número medio de problemas de calidad
por impresora vendida para su empresa y para su competidor. Sólo tendría que contar el número total de problemas de calidad
reportados para todas las impresoras durante el período de garantía y se divide por el número total de impresoras vendidas.
(Recuerde que la misma impresora puede tener varios problemas mientras está en garantía.) Se podría hacer eso para cada
empresa, creando una importante estadística descriptiva: el número medio de problemas de calidad por impresora vendido.

Supongamos que resulta que las impresoras de su competidor tienen una media de 2,8 calidad- problemas relacionados por la
impresora durante el periodo de garantía en comparación con la media de su empresa de 9,1 defectos indicados. Eso fue fácil. Ya
ha dado información sobre un millón de impresoras que se venden por dos compañías diferentes, y destilada a la esencia del
problema: las impresoras rompen mucho. Está claro que el momento de enviar un breve correo electrónico a su jefe cuantificar esta
diferencia de calidad y luego volver a ocho días del matrimonio de Kim Kardashian.

O tal vez no. Estaba deliberadamente vago antes, cuando se refirió al “medio” de una distribución. La media, o
media, resulta que tiene algunos problemas en este sentido, a saber, que es propenso a la distorsión por “valores
atípicos”, que son las observaciones que se encuentran más lejos del centro. Para conseguir su mente alrededor
de este concepto, se imaginan que diez chicos están sentados en taburetes de bar en un establecimiento de
bebidas de clase media en Seattle; cada uno de estos tipos gana $ 35.000 al año, lo que hace que el ingreso
anual promedio para el grupo $ 35.000. Bill Gates entra en el bar con un loro que habla posado sobre su hombro.
(El loro tiene nada que ver con el ejemplo, pero que tipo de especias cosas.) Asumamos por el bien del ejemplo
que Bill Gates tiene un ingreso anual de $ 1 mil millones. Cuando Bill se sienta en el taburete de la barra XI, el
ingreso medio anual para los clientes del bar se eleva a cerca de $ 91 millones. Obviamente ninguno de los diez
originales bebedores es más rico (aunque podría ser razonable esperar que Bill Gates para comprar una o dos
rondas). Si tuviera que describir a los clientes de este bar por tener un ingreso anual promedio de $ 91 millones,
la declaración sería tanto estadísticamente correcta y muy engañosa. Esto no es un bar donde los
multimillonarios pasar el rato; es un bar donde un grupo de hombres con ingresos relativamente bajos resultan
ser sentado junto a Bill Gates y su loro que habla. La sensibilidad de la media de los valores extremos es por eso
que no hay que medir la salud económica de la clase media estadounidense examinado el ingreso per cápita.
Debido a que ha habido un crecimiento explosivo en los ingresos en el extremo superior de la distribución-CEOs,
gerentes de fondos de cobertura,
Por esta razón, tenemos otra estadística que también señala el “medio” de una distribución, aunque de
manera diferente: la mediana. La mediana es el punto que divide una distribución en medio, lo que significa que
la mitad de las observaciones están por encima de la mediana y la media mentira a continuación. (Si hay un
número par de observaciones, la mediana es el punto medio entre las dos observaciones medias.) Si volvemos al
ejemplo taburete de la barra, el ingreso anual promedio para los diez chicos originalmente sentado en la barra es
de $ 35.000. Cuando Bill Gates entra con su loro y se posa sobre un taburete, el ingreso anual promedio para el
once de ellos sigue siendo de $ 35.000. Si se imagina, literalmente, alineando los clientes del bar en heces con el
fin de sus ingresos de forma ascendente, los ingresos del individuo que se sienta en el sexto heces representa la
renta mediana para el grupo. *

Para distribuciones de valores extremos sin graves, la mediana y la media serán similares. He incluido un resumen hipotética
de los datos de calidad para impresoras de la competencia. En particular, me he presentado los datos en lo que se conoce como
una distribución de frecuencias. El número de problemas de calidad por impresora está dispuestos a lo largo de la parte inferior;
la altura de cada barra representa los porcentajes de impresoras que se venden con ese número de problemas de calidad. Por
ejemplo, el 36 por ciento de las impresoras del competidor tenía dos defectos de calidad durante el período de garantía. Debido
a que la distribución incluye todos los posibles resultados de calidad, incluyendo cero defectos, las proporciones deben sumar 1
(o 100 por ciento).

Distribución de frecuencia de las reclamaciones de calidad para impresoras de la competencia

Debido a que la distribución es casi simétrica, la media y la mediana son relativamente cerca uno del otro. La distribución
es ligeramente sesgada a la derecha por el pequeño número de impresoras con muchos defectos de calidad reportados.
Estos valores atípicos mover la media ligeramente hacia la derecha, pero no tienen impacto en la mediana. Supongamos que
justo antes de que el tablero fuera del informe de calidad a su jefe decide calcular el mediana número de problemas de calidad
para impresoras de su empresa y de la competencia. Con unas pocas pulsaciones de teclas, se obtiene el resultado. La
mediana del número de quejas de calidad para las impresoras del competidor es 2; la mediana del número de quejas de
calidad para impresoras de su empresa es 1. ¿Eh? número medio de su firma de quejas por impresora de calidad es en
realidad inferior que su competidor. Debido a que el matrimonio Kardashian es cada vez monótona, y debido a que está
intrigado por este hallazgo, se imprime una distribución de frecuencias para su propia calidad
problemas.

Distribución de frecuencia de las reclamaciones de calidad en su empresa

Lo que queda claro es que su empresa no tiene un problema de calidad uniforme; usted tiene un problema “limón”; un
pequeño número de impresoras tienen un gran número de quejas de calidad. Estos valores atípicos se inflan la media, pero no
la mediana. Más importante desde el punto de vista de producción, no es necesario que rediseñar todo el proceso de
fabricación; sólo es necesario averiguar dónde las impresoras de manera evidentemente de baja calidad están viniendo y
arreglar eso. *

Ni la mediana ni la media es difícil de calcular; La clave es determinar cuál es la medida de la “media” es más preciso
en una situación particular (un fenómeno que se explota con facilidad). Mientras tanto, la mediana tiene algunos parientes
útiles. Como ya hemos comentado, la mediana divide una distribución en el medio. La distribución puede ser dividida en
cuatro partes, o cuartiles. El primer cuartil consiste en la parte inferior 25 por ciento de las observaciones; el segundo
cuartil se compone de la siguiente 25 por ciento de las observaciones; y así. O la distribución se puede dividir en deciles,
cada uno con 10 por ciento de las observaciones. (Si sus ingresos están en el decil superior de la distribución del ingreso
de América, que estaría ganando más del 90 por ciento de sus compañeros de trabajo). Podemos ir aún más lejos y dividir
la distribución en centésimas, o percentiles. Cada percentil representa 1 por ciento de la distribución, de modo que la
primera percentil representa la parte inferior 1 por ciento de la distribución y el percentil 99 representa la parte superior 1
por ciento de la distribución. La ventaja de este tipo de estadística descriptiva es que describen en una observación
particular reside en comparación con todos los demás. Si te digo que su hijo anotó en el percentil 3 en una prueba de
comprensión de lectura, usted debe saber de inmediato que la familia debe ser registrado más tiempo en la biblioteca.
Usted no necesita saber nada acerca de la prueba en sí, o el número de preguntas que su hijo contestó correctamente. La
puntuación percentil proporciona un ranking de calificación de su hijo con respecto a la de todos los demás tomadores de
la prueba. Si la prueba era fácil, entonces la mayoría de los tomadores de la prueba tendrán un alto número de respuestas
correctas, pero su hijo tendrá menos correcta que la mayoría de los otros. Si la prueba fue extremadamente difícil,
entonces todos los tomadores de la prueba tendrán un bajo número de respuestas correctas, pero la puntuación de su hijo
será aún más baja.
Aquí es un buen punto para introducir algo de terminología útil. Un “absoluta” puntuación, número o figura tiene algún
significado intrínseco. Si yo disparo 83 durante dieciocho hoyos de golf, que es una cifra absoluta. Puedo hacer que en un
día que es de 58 grados, que es también una cifra absoluta. Las cifras absolutas por lo general se pueden interpretar sin
ningún contexto o información adicional. Cuando te digo que me tiro 83, usted no necesita saber lo que otros golfistas
dispararon ese día con el fin de evaluar mi desempeño. (La excepción podría ser si las condiciones son particularmente
horrible, o si el curso es especialmente difícil o fácil.) Si coloco el noveno lugar en el torneo de golf, que es una estadística
relativa. Un valor “relativo” o figura sólo tiene sentido en comparación con otra cosa, o en algún contexto más amplio, como
en comparación con los ocho golfistas que dispararon mejor que yo. La mayoría de las pruebas estandarizadas producen
resultados que sólo tienen significado como una estadística relativa. Si te digo que un tercer grado en una escuela primaria
de Illinois anotó 43 de 60 en la parte de matemáticas de la Prueba de Rendimiento del estado de Illinois, que la puntuación
absoluta no tiene mucho sentido. Pero cuando convierto a un percentil

- lo que significa que puse ese puntaje bruto en una distribución con las calificaciones de matemáticas para todos los demás terceros

Illinois grado, entonces adquiere una gran cantidad de significado. Si 43 respuestas correctas cae en el percentil 83 o, a continuación, este

estudiante está haciendo mejor que la mayoría de sus pares en todo el estado. Si él está en el percentil octava, entonces él está realmente

luchando. En este caso, el percentil (la puntuación relativa) es más significativo que el número de respuestas correctas (la puntuación

absoluta). Otro dato que puede ayudar a describir lo que podría ser un revoltijo de números es la desviación estándar, que es una medida de

cómo se dispersaron los datos son de su media. En otras palabras, ¿cómo extendió a cabo son las observaciones? Supongamos que

recolectó datos sobre los pesos de 250 personas en un avión rumbo a Boston, y también recogieron los pesos de una muestra de 250 de

clasificación para la maratón de Boston. Supongamos ahora que el peso medio de los dos grupos es más o menos lo mismo, decir 155 libras.

Cualquiera que haya sido exprimido en una fila en un vuelo lleno de gente, luchando por el reposabrazos, sabe que muchas personas en un

vuelo comercial típica pesan más de 155 libras. Pero usted puede recordar de esos mismos vuelos desagradables, hacinamiento que había

un montón de llanto bebés y niños mal atendidos, todos los cuales tienen una enorme capacidad pulmonar pero no tanta masa. Cuando se

trata de calcular el peso medio en el vuelo, el peso de los jugadores de fútbol 320 libras a cada lado de su asiento de en medio es probable

que compensado por el pequeño bebé gritando a través de la fila y los seis años de edad, patear la parte posterior de su asiento de la fila de

atrás. Supongamos ahora que el peso medio de los dos grupos es más o menos lo mismo, decir 155 libras. Cualquiera que haya sido

exprimido en una fila en un vuelo lleno de gente, luchando por el reposabrazos, sabe que muchas personas en un vuelo comercial típica

pesan más de 155 libras. Pero usted puede recordar de esos mismos vuelos desagradables, hacinamiento que había un montón de llanto

bebés y niños mal atendidos, todos los cuales tienen una enorme capacidad pulmonar pero no tanta masa. Cuando se trata de calcular el

peso medio en el vuelo, el peso de los jugadores de fútbol 320 libras a cada lado de su asiento de en medio es probable que compensado por el pequeño bebé gritando a través de la

Sobre la base de los instrumentos descriptivos introducidas hasta el momento, los pesos de los pasajeros de líneas aéreas y
los corredores de maratón son casi idénticos. Pero no lo son. Sí, los pesos de los dos grupos tienen más o menos el mismo
“medio”, pero los pasajeros de líneas aéreas tienen mucho más dispersión en torno a ese punto medio, lo que significa que sus
pesos se extienden más lejos del punto medio. Mi hijo de ocho años de edad, podría señalar que los corredores de maratón que
parezca que todos pesan la misma cantidad, mientras que los pasajeros de líneas aéreas tienen algunas personas diminutas y
algunas personas extrañamente grandes. Los pesos de los pasajeros de líneas aéreas están “más extendidas”, que es un atributo
importante cuando se trata de describir los pesos de estos dos grupos. La desviación estándar es la estadística descriptiva que
nos permite asignar un número único a
esta dispersión alrededor de la media. Las fórmulas para calcular la desviación estándar y la varianza (otra medida
común de la dispersión de la que deriva la desviación estándar) se incluyen en un apéndice al final del capítulo.
Por ahora, vamos a pensar acerca de por qué la medición de los asuntos de dispersión.

Supongamos que entra en el consultorio del médico. Se ha sentido fatigado desde entonces su ascenso a la cabeza de la
calidad de impresión de América del Norte. Su médico extrae sangre, y unos días más tarde su asistente deja un mensaje en el
contestador automático para informarle de que su recuento hCB2 (una sustancia química en la sangre ficticia) es 134. Se precipita a
Internet y descubre que la media hCB2 cuenta para una persona su edad es de 122 (y la mediana es aproximadamente la misma).
¡Santo cielo! Si eres como yo, usted finalmente redactar un testamento. Usted escribiría cartas llenas de lágrimas a sus padres,
cónyuge, hijos y amigos cercanos. Es posible tomar hasta paracaidismo o tratar de escribir una novela muy rápido. Se podría enviar
a su jefe un correo electrónico a toda prisa compuesta comparándolo con una cierta parte de la anatomía humana-EN
MAYÚSCULAS.

Ninguna de estas cosas puede ser necesario (y la dirección de correo a su jefe podría resultar muy mal). Cuando se llama
a la consulta del médico para hacer arreglos para su cuidado de hospicio, ayudante del médico le informa que su cuenta
está dentro del rango normal. Pero, ¿cómo puede ser? “Mi recuento es de 12 puntos por encima de la media!” Gritas en
repetidas ocasiones en el receptor. “La desviación estándar para el recuento hCB2 es 18”, el técnico le informa de manera
cortante. ¿Qué diablos significa eso?

Existe una variación natural en el recuento de hCB2, ya que existe con la mayoría de los fenómenos biológicos (por ejemplo,
altura). Mientras que el recuento medio de la química falso podría ser 122, un montón de personas sanas tienen recuentos que son
más altos o más bajos. El peligro surge sólo cuando el recuento hCB2 pone demasiado alta o baja. Entonces, ¿cómo podemos
averiguar lo que “en exceso” significa en este contexto? Como ya hemos dicho, la desviación estándar es una medida de
dispersión, es decir, que refleja la fuerza con las observaciones se agrupan alrededor de la media. Para muchas distribuciones
típicas de datos, una alta proporción de las observaciones se encuentran dentro de una desviación estándar de la media (lo que
significa que están en el intervalo de una desviación estándar por debajo de la media a una desviación estándar por encima de la
media). Para ilustrar con un ejemplo sencillo, la altura media de los hombres adultos estadounidenses es de 5 pies y 10 pulgadas.
La desviación estándar es aproximadamente 3 pulgadas. Una alta proporción de hombres adultos están entre 5 pies y 7 pulgadas y
6 pies 1 pulgada.

O, para decirlo de forma ligeramente diferente, cualquier hombre en este rango de altura no se consideraría anormalmente
alto o bajo. Lo que nos lleva de vuelta a los resultados hCB2 preocupantes. Sí, el recuento es 12 por encima de la media, pero
eso es menos de una desviación estándar, que es el equivalente químico de sangre de estar cerca de 6 pies de altura no es
particularmente inusual. Por supuesto, mucho menos observaciones se encuentran dos desviaciones estándar de la media, y
menos aún se encuentran tres o cuatro desviaciones estándar de distancia. (En el caso de altura, un estadounidense que está
tres desviaciones estándar por encima de la media de altura sería de 6 pies y 7 pulgadas o más.) Algunas distribuciones están
más dispersas que otros. Por lo tanto, la desviación estándar de los pesos de los 250 pasajeros de líneas aéreas será mayor que
la desviación estándar de la
pesos de los 250 corredores de maratón. Una distribución de frecuencias con los pesos de los pasajeros de líneas aéreas,
literalmente, ser más gordos (más dispersa) de una distribución de frecuencias de los pesos de los corredores de maratón. Una
vez que conocemos la media y la desviación estándar para cualquier conjunto de datos, tenemos un serio tracción intelectual. Por
ejemplo, supongamos que yo le digo que la puntuación media en el examen de matemáticas es de 500 con una desviación
estándar de 100. Al igual que con la altura, la mayor parte de los estudiantes que tomaron la prueba será dentro de una desviación
estándar de la media, o entre 400 y 600. ¿Cuántos estudiantes piensa usted puntuación de 720 o más alto? Probablemente no
muchos, ya que es más de dos desviaciones estándar por encima de la media. De hecho, podemos hacer aún mejor que “no
muchos.” Este es un buen momento para introducir uno de los más importantes, útiles, y distribuciones comunes en las
estadísticas: la distribución normal. Los datos que se distribuyen normalmente son simétricos alrededor de su valor medio en una
forma de campana que le resultará familiar.

La distribución normal describe muchos fenómenos comunes. Imagínese una distribución de frecuencias que describe palomitas de
maíz en una tapa de la estufa. Algunos núcleos comienzan a aparecer temprano, tal vez uno o dos estallidos por segundo; después de
diez o quince segundos, los granos se han disparado frenéticamente. Luego poco a poco el número de granos que hacen estallar por
segundo se desvanece aproximadamente a la misma velocidad a la que comenzó el estallido. Las alturas de los hombres
estadounidenses se distribuyen más o menos normalmente, lo que significa que son más o menos simétrica alrededor de la media de 5
pies y 10 pulgadas. Cada prueba SAT está diseñado específicamente para producir una distribución normal de las puntuaciones con
media 500 y la desviación estándar de 100. De acuerdo con la Wall Street Journal, Los estadounidenses tienden incluso a aparcar en
una distribución normal en los centros comerciales; la mayoría de los coches aparcar justo enfrente del centro-entrada el “pico” de la
curva con “colas” de coches que va a la derecha ya la izquierda de la entrada normal.

La belleza de la distribución normal, su poder de Michael Jordan, finura, elegancia y


- viene del hecho de que sabemos por definición exactamente qué proporción de las observaciones en una mentira distribución
normal dentro de una desviación estándar de la media (68,2 por ciento), dentro de dos desviaciones estándar de la media (95,4 por
ciento), dentro de tres desviaciones estándar (99,7 por ciento), y así sucesivamente. Esto puede sonar como curiosidades. De
hecho, es la base sobre la que se construye la mayor parte de las estadísticas. Vamos a volver a este punto en tanto gran
profundidad más adelante en el libro.

La distribución normal
La media es la línea media que a menudo se representa con la letra griega μ. La desviación estándar es a
menudo representado por la letra griega σ. Cada banda representa una desviación estándar.

La estadística descriptiva a menudo se utilizan para comparar dos cifras o cantidades. Soy una pulgada más alto que mi
hermano; la temperatura actual es de nueve grados por encima del promedio histórico para esta fecha; y así. Esas
comparaciones tienen sentido porque la mayoría de nosotros reconocemos la escala de las unidades implicadas. Una pulgada
no es gran cosa cuando se trata de la altura de una persona, por lo que se puede inferir que mi hermano y yo son más o menos
la misma altura. Por el contrario, nueve grados es una desviación significativa de la temperatura en casi cualquier clima en
cualquier época del año, por lo que nueve grados por encima de la media hace que para un día que es mucho más caliente de lo
normal. Pero supongamos que yo le dijera que granola A contiene 31 miligramos más sodio que granola B. A menos que sepa
mucho acerca de sodio (y los tamaños de las porciones de cereales de granola), esa declaración no va a ser particularmente
informativo. ¿Y si te dijera que mi primo de Al ganó $ 53.000 menos este año que el año pasado? ¿Hay que estar preocupado
por Al? O es un gestor de fondos de cobertura para los cuales $ 53.000 es un error de redondeo en su compensación anual?

En tanto el sodio y los ejemplos de ingresos, nos estamos perdiendo contexto. La manera más fácil de dar un sentido a
estas comparaciones relativas es mediante el uso de porcentajes. Eso haría significar algo si te dijera que Barra de granola
tiene un 50 por ciento más sodio que Barra de granola
B, o que los ingresos del Tío Al cayó un 47 por ciento el año pasado. Medir el cambio en porcentaje nos da una idea de la
escala.
Probablemente hayas aprendido cómo calcular porcentajes en cuarto grado y tendrá la tentación de saltarse los siguientes
párrafos. Lo suficientemente justo. Pero en primer lugar hacer un ejercicio sencillo para mí. Supongamos que una tienda por
departamentos es la venta de un vestido de $ 100. El subgerente marca por toda la mercancía en un 25 por ciento. Pero entonces
que subgerente se dispara para pasar el rato en un bar con Bill Gates, * y el nuevo gerente ayudante levanta todos los precios en un
25 por ciento. ¿Cuál es el precio final del vestido? Si usted ha dicho (o pensamiento) $ 100, entonces es mejor que no hubiera ningún
saltar párrafos.

El precio final del vestido es en realidad $ 93.75. Esto no es más que un truco de salón de la diversión que
le ganar el aplauso y la adulación en los cócteles. Los porcentajes son útiles, pero también se pueden llevar a
confusión o incluso engañosa. La fórmula para calcular un porcentaje de diferencia (o cambio) es la siguiente: (nueva
figura - figura original) / cifra original. El numerador (la parte en la parte superior de la fracción) nos da la magnitud del
cambio en términos absolutos; el denominador (la parte inferior de la fracción) es lo que pone este cambio de
contexto comparándolo con nuestro punto de partida. Al principio, esto parece sencillo, como cuando el director
asistente de la tienda rebaja el precio del vestido de $ 100 en un 25 por ciento. El veinticinco por ciento de la $ 100
originales precio es de $ 25; ese es el descuento, que lleva el precio a $ 75. Puede conectar los números en la
fórmula anterior y hacer alguna manipulación sencilla para llegar al mismo lugar: (100 $ - $ 75) / 100 = $ 0,25,

El vestido está vendiendo por $ 75 cuando las nuevas demandas subgerente de que el precio se elevó 25 por ciento.
Ahí es donde muchas de las personas que están leyendo este párrafo, probablemente cometió un error. El margen de
beneficio del 25 por ciento se calcula como un porcentaje del nuevo precio reducido del vestido, que es de $ 75. El
aumento será de 0,25 ($ 75), o $ 18.75, que es como el precio final termina en $ 93.75 (y no $ 100). El punto es que un
cambio porcentual siempre da el valor de alguna figura en relación a otra cosa. Por lo tanto, habíamos entender mejor lo
que es otra cosa.

Una vez invertido algún dinero en una empresa que comenzó mi compañero de la universidad. Ya que era una
empresa privada, no había requisitos en cuanto a qué información tenía que ser proporcionado a los accionistas.
Varios años pasaron sin ninguna información sobre el destino de mi inversión; mi antiguo compañero de
habitación era bastante con los labios apretados sobre el tema. Por último, he recibido una carta en el correo que
me informa de que las ganancias de la empresa eran 46 por ciento más que el año anterior. No hubo información
sobre el tamaño de esos beneficios en términos absolutos, lo que significa que todavía no tenía absolutamente
ninguna idea de cómo mi inversión estaba realizando. Supongamos que el año pasado la empresa ganó 27
centavos de dólar-esencialmente nada. Este año la empresa ganó 39 centavos de dólar-también esencialmente
nada. Sin embargo, las ganancias de la compañía crecieron a partir de 27 centavos a 39 centavos de dólar, lo que
es técnicamente un incremento del 46 por ciento.

Para ser justo con mi compañero de cuarto, que finalmente vendió la empresa para cientos de millones de dólares,
ganándome un retorno del 100 por ciento de mi inversión. (Puesto que usted no tiene idea de lo mucho que he invertido, también
tiene ni idea de la cantidad de dinero que hice, lo cual refuerza mi punto aquí muy bien!)

Permítanme hacer una distinción adicional. porcentaje de cambio no debe ser confundido con un cambio en puntos
porcentuales. Las tarifas se expresan a menudo en porcentajes. La tasa de impuesto sobre las ventas en Illinois es de 6.75 por
ciento. Pago mi agente de 15 por ciento de mis regalías del libro. Estas tasas son impuestas en contra de alguna cantidad,
tales como ingresos en el caso de la tasa de impuesto sobre la renta. Obviamente, las tasas pueden subir o bajar; menos
intuitivamente, la cambios en las tasas puede ser descrito de manera muy disímiles. El mejor ejemplo de esto fue un cambio
reciente en el IRPF Illinois, que fue levantado de entre 3 y 5 por ciento. Hay dos maneras de
expresar este cambio de impuestos, los cuales son técnicamente precisas. Los demócratas, que diseñó este aumento de
impuestos, señaló (correctamente) que el impuesto sobre la renta tarifa se aumentó en 2 puntos porcentuales ( de 3 por ciento a 5
por ciento). Los republicanos señalaron (también correctamente) que el impuesto sobre la renta estatal había sido planteada por El
67 por ciento. [ Esta es una prueba útil de la fórmula desde unos pocos párrafos atrás:. (5 - 3) / 3 = 2/3, que se redondea hasta el
67 por ciento]

Los demócratas se centró en el cambio absoluto en la tasa de impuestos; Los republicanos se centró en el cambio
porcentual de la presión fiscal. Como se ha señalado, las dos descripciones son técnicamente correcto, aunque yo diría que la
descripción republicano transmite con mayor precisión el impacto de la modificación de los impuestos, ya que lo que voy a
tener que pagar al gobierno la cantidad que me importa, en contraposición a la forma en que se calcula-realmente ha subido
un 67 por ciento. Muchos fenómenos desafían la descripción perfecta con una sola estadística. Supongamos que el
quarterback Aaron Rodgers lanza para 365 yardas, pero sin anotaciones. Mientras tanto, Peyton Manning lanza para un
magro 127 yardas, pero tres anotaciones. Manning genera más puntos, pero se supone que Rodgers estableció anotaciones
al marchar a su equipo sobre el terreno y mantener ataque del otro equipo fuera del campo. Que jugó mejor? En el capítulo 1,
Discutí el índice de pasador de la NFL, que es intento razonable de la liga para hacer frente a este reto estadístico. El índice
de pasador es un ejemplo de un índice, que es una estadística descriptiva compuestos de otras estadísticas descriptivas. Una
vez que estas diferentes medidas de rendimiento se consolidan en un solo número, esa estadística se puede utilizar para
hacer comparaciones, tales como la clasificación de los mariscales de campo en un día determinado, o incluso por toda una
carrera. Si el béisbol tenía un índice similar, entonces la cuestión de la mejor jugador de la historia estaría resuelto. O
¿verdad? La ventaja de cualquier índice es que consolida un montón de información compleja en un solo número. A
continuación, podemos clasificar las cosas que de otro modo simple comparación desafían-nada de mariscales de los colegios
a los concursantes concurso de belleza. En el concurso de Miss América, el ganador general es una combinación de cinco
competiciones diferentes: entrevista personal, trajes de baño, trajes de noche, de talento y de interrogación en el escenario.
(Miss Agente voto separado por los propios participantes.)

Por desgracia, la desventaja de cualquier índice es que consolida un montón de información compleja en un solo
número. Hay innumerables maneras de hacer eso; cada uno tiene el potencial de producir un resultado diferente.
Malcolm Gladwell hace este punto brillante en una Neoyorquino pieza crítica de nuestra imperiosa necesidad de clasificar
las cosas. 2 ( Él baja con especial dureza en el ranking de la universidad.) Gladwell ofrece el ejemplo de Car and Driver 'S
ranking de tres coches deportivos: el Porsche Cayman, el Chevrolet Corvette y el Lotus Evora. Uso de una fórmula que
incluye veintiún diferentes variables, Car and Driver clasificado como el número uno Porsche. Pero Gladwell señala que
“el estilo exterior” cuenta sólo el 4 por ciento de la puntuación total en el Car and Driver fórmula, que parece ridículamente
bajo para un coche deportivo. Si el estilo se da más peso en la clasificación general (25 por ciento), entonces el Lotus
viene a la cabeza.
Pero espera. Gladwell también señala que el precio de etiqueta del coche consigue relativamente escaso peso en el Car
and Driver fórmula. Si el valor es mayor peso (por lo que la clasificación se basa igualmente en el precio, diseño exterior, y
las características del vehículo), el Chevy Corvette está en el puesto número uno.

Cualquier índice es muy sensible a las estadísticas descriptivas que se armó para construirlo, y el peso dado a cada uno de
esos componentes. Como resultado, los índices van desde herramientas útiles, pero imperfectos para completar charadas. Un
ejemplo del primer caso es el Índice de Desarrollo Humano de las Naciones Unidas, o HDI. El IDH fue creado como una
medida del bienestar económico que es más amplio que el ingreso por sí solo. El IDH utiliza el ingreso como uno de sus
componentes, pero también incluye medidas de esperanza de vida y el nivel de instrucción. Estados Unidos ocupa el
undécimo lugar en el mundo en términos de producción económica per cápita (detrás de varios países ricos en petróleo como
Qatar, Brunei y Kuwait), pero el cuarto lugar en el mundo en desarrollo humano. 3 Es cierto que la clasificación en el Índice
cambiarían ligeramente si se reconfiguraron las partes que componen el índice, pero ningún cambio razonable va a hacer un
zoom Zimbabwe en la clasificación del pasado Noruega. El IDH proporciona una instantánea útil y razonablemente precisa de
los niveles de vida en todo el mundo.

La estadística descriptiva nos dan una idea de los fenómenos que nos interesan. En ese espíritu, podemos volver a las
preguntas planteadas al comienzo del capítulo. ¿Quién es el mejor jugador de béisbol de todos los tiempos? Más
importante para los propósitos de este capítulo, lo que las estadísticas descriptivas que sería más útil para responder a esa
pregunta? De acuerdo con Steve Moyer, presidente de Baseball Info Solutions, las tres estadísticas más valiosas (distintos
de la edad) para evaluar cualquier jugador que no es un lanzador sería la siguiente:

1. porcentaje On-base (OBP), a veces llamado el promedio on-base (OBA): Mide la proporción del tiempo
que un jugador llega a la base con éxito, incluyendo paseos (que no se cuentan en el promedio de
bateo).
2. slugging (SLG): Medidas de bateo de energía mediante el cálculo de las bases totales alcanzados por al bate. Un solo
cuenta como 1, es un doble 2, es un triple 3, y una carrera de casa es
4. Por lo tanto, un bateador que conectó un sencillo y un triple en cinco turnos al bate tendría un porcentaje de slugging de (1 + 3)
/ 5, o 0.800.
3. En los murciélagos (AB): pone el anteriormente en contexto. Cualquier ABATIDA puede tener estadísticas impresionantes para un

juego o dos. Una estrella compila “números” impresionantes de miles de apariciones en el plato.

En vista de Moyer (sin vacilar, por cierto), el mejor jugador de béisbol de todos los tiempos de Babe Ruth era debido a
su capacidad única para golpear y lanzar. Babe Ruth todavía mantiene el récord de carrera de la Liga Mayor de slugging
en .690. 4

¿Qué pasa con la salud económica de la clase media estadounidense? Una vez más, me aplace hasta los expertos. Envié un
correo electrónico Jeff Grogger (uno de mis colegas de la Universidad de Chicago) y Alan Krueger (el mismo economista de
Princeton, quien estudió los terroristas y ahora está sirviendo como
presidente del Consejo del Presidente Obama de Asesores Económicos). Ambos dieron variaciones sobre la misma respuesta básica. Para

evaluar la salud económica de los Estados Unidos “clase media”, debemos examinar los cambios en el salario medio (ajustado por inflación)

a lo largo de las últimas décadas. También recomendaron el examen de los cambios en los salarios en los percentiles 25 y 75 (que puede

razonablemente ser interpretadas como los límites superior e inferior para la clase media). Una distinción más está en orden. Al evaluar la

salud económica, podemos examinar los ingresos o salarios. No són la misma cosa. Un salario es lo que nos pagan por alguna cantidad fija

de mano de obra, tales como un salario por hora o por semana. El ingreso es la suma de todos los pagos de diferentes fuentes. Si los

trabajadores tienen un segundo trabajo o trabajar más horas, su ingreso puede subir sin un cambio en el salario. (Para esa materia, El

ingreso puede llegar hasta incluso si el salario está cayendo, siempre que entra un trabajador suficientes horas en el trabajo.) Sin embargo,

si los individuos tienen que trabajar más para ganar más, es difícil evaluar el efecto global sobre su bienestar. El salario es una medida

menos ambigua de cómo están siendo compensados ​los estadounidenses por el trabajo que hacen; cuanto mayor sea el salario, los más

trabajadores llevar a casa por cada hora en el trabajo. Habiendo dicho todo esto, aquí es un gráfico de los salarios estadounidenses durante

las últimas tres décadas. También he añadido el percentil 90 para ilustrar los cambios en los salarios de los trabajadores de clase media en

comparación durante este período de tiempo a los trabajadores en la parte superior de la distribución. El salario es una medida menos

ambigua de cómo están siendo compensados ​los estadounidenses por el trabajo que hacen; cuanto mayor sea el salario, los más

trabajadores llevar a casa por cada hora en el trabajo. Habiendo dicho todo esto, aquí es un gráfico de los salarios estadounidenses durante

las últimas tres décadas. También he añadido el percentil 90 para ilustrar los cambios en los salarios de los trabajadores de clase media en

comparación durante este período de tiempo a los trabajadores en la parte superior de la distribución. El salario es una medida menos ambigua de cómo están siendo compensados ​l

Fuente: “Los cambios en la distribución de los salarios por hora de los trabajadores entre 1979 y 2009,” Oficina de Presupuesto del Congreso,
febrero dieciséis, 2011. El datos para el gráfico puede ser encontró a
http://www.cbo.gov/sites/default/files/cbofiles/ftpdocs/120xx/doc12051/02-16-wagedispersion.pdf.

Una variedad de conclusiones se pueden extraer de estos datos. No presentan una única respuesta “correcta” con
respecto a la situación económica de la clase media. Ellos nos dicen que el trabajador típico, un trabajador estadounidense
que gana el salario medio, ha sido “correr en su lugar” desde hace casi treinta años. Los trabajadores en el percentil 90 han
hecho mucho, mucho mejor. Estadística descriptiva ayudan a enmarcar el tema. ¿Qué podemos hacer al respecto, en todo
caso, es una cuestión ideológica y política.

Apéndice del Capítulo 2


Los datos de los defectos de impresión de gráficos

Fórmula para la varianza y la desviación estándar

Varianza y la desviación estándar son los mecanismos estadísticos más comunes para medir y describir la dispersión de
una distribución. La varianza, que a menudo se representa con el símbolo σ 2, se calcula mediante la determinación de en
qué medida las observaciones dentro de una mentira distribución de la media. Sin embargo, el giro es que la diferencia
entre cada observación y la media se eleva al cuadrado; la suma de esos términos al cuadrado se divide por el número de
observaciones. Específicamente:

Debido a que la diferencia entre cada término y la media se eleva al cuadrado, la fórmula para el cálculo de la varianza pone un
peso particular en las observaciones que se encuentran lejos de la media, o los valores atípicos, como la siguiente tabla de alturas de
estudiantes ilustra.

* valor absoluto es la distancia entre dos figuras, independientemente de la dirección, de modo que siempre es positiva. En este caso, se representa el
número de pulgadas entre la altura de la persona y la media.
Ambos grupos de estudiantes tienen una altura media de 70 pulgadas. Las alturas de los estudiantes de ambos grupos
también difieren de la media por el mismo número de pulgadas totales: 14. Mediante dicha medida de la dispersión, las dos
distribuciones son idénticos. Sin embargo, la varianza para el Grupo 2 es más alta debido al peso dado en la fórmula varianza a
valores que se encuentran en particular lejos de la media-Sahar y Narciso en este caso.

Varianza rara vez se utiliza como una estadística descriptiva por sí mismo. En cambio, la variación es más útil como un paso hacia
el cálculo de la desviación estándar de una distribución, que es una herramienta más intuitiva como una estadística descriptiva.

La desviación estándar de un conjunto de observaciones es la raíz cuadrada de la varianza:

Para cualquier conjunto de norte observaciones X 1, X 2, X 3. . . X norte con media μ, desviación

estándar = σ = raíz cuadrada de toda esta cantidad =

* Con doce clientes del bar, la mediana sería el punto medio entre el ingreso del hombre en el sexto heces y la renta del individuo en el séptimo
heces. Dado que ambos hacen $ 35.000, el promedio es de $ 35.000. Si uno hizo $ 35.000 y el otro hizo $ 36.000, la mediana para el grupo
entero sería de $ 35.500.
* actualización de fabricación: Resulta que casi la totalidad de las impresoras defectuosas eran producidos en una planta en Kentucky, donde los trabajadores
habían despojado partes de la cadena de montaje con el fin de construir una destilería de bourbon. Tanto los empleados perpetuamente borracha y las piezas que
faltan al azar en la cadena de montaje parecen haber puesto en peligro la calidad de las impresoras que se producen allí.

* Sorprendentemente, esta persona era una de las diez personas con ingresos anuales de $ 35.000 que estaban sentados en taburetes de bar cuando Bill Gates
entró con su loro. ¡Imagínate!

También podría gustarte