Está en la página 1de 13

Descripción numérica

Introducción a la
de datos
Probabilidad
Promedio poblacional:
Medidas de tendencia central

Ya hemos visto la mediana y la moda.


Ahora veamos dos medidas Promedio de lista de
adicionales solo válidas en variables datos simple
cuantitativas.

Promedio: Es el valor que da el “centro Promedio


ponderado” de las observaciones. ponderado

Valor medio del rango de variación: Es *M es el número de distintos valores posibles


el punto medio entre el valor máximo
y el mínimo. Si no existen estos valores
extremos, no se puede definir. En
general, es menos usado que las otras
tres medidas. Valor medio del rango de
variación
Medidas de dispersión

Estas medidas nos dicen el grado de variabilidad


de los datos
Varianza muestral
Desviación o error estándar: Se calcula con las
desviaciones cuadráticas. Existe una diferencia en
su definición dependiendo si se trata de una
muestra o una población. Su cuadrado se conoce Varianza poblacional
como varianza.

Rango de variación: Es la diferencia entre el valor


máximo y el mínimo. Rango de variación
Coeficiente de variación: También conocido como
error relativo. Solo tiene sentido en la escala de
razón. Es la razón entre la desviación estándar y el
promedio.
Coeficiente de variación
Ejemplo sencillo:
Calcular las medidas antes descritas de las observaciones: 1,2,3,4,5
Suponga que se trata de una muestra.
Medidas de tendencia central:
Medidas de dispersión:
Tendencia central vs. dispersión
En un examen de estadística, la nota media es 3,5, la nota mínima es 1,0 y la nota
máxima 4,5. En cada uno de los dos casos, diga si cambia la tendencia central, la
dispersión, o ambas.
Primer caso: El profesor decide cambiar las notas del examen sumando 0,3 a todos
los estudiantes.
Segundo cado: el profesor decide cambiar la nota mínima a 2,0 y la nota máxima a
5,0. Las demás notas se cambian de acuerdo a estos dos cambios.

Situación original Mayor tendencia central Menor dispersión


Error relativo vs. Absoluto
¿En cuál de las dos situaciones se espera que haya mayor error relativo y
absoluto?
Primer caso: Las estaturas de una muestra de jugadores de baloncesto
profesionales, o las estaturas de los estudiantes en un colegio de
bachillerato de sexto a undécimo.
Segundo caso: La longitud de un puente medido con una cinta métrica
muy larga, o el mismo puente medido mediante un sistema con láser.
Tercer caso:

1,34±0,34 2,65±0,34
¡Pero tienen el mismo
error absoluto!

Mayor coeficiente de Menor coeficiente de


variación (25,4%) variación (12,8%)
Medidas de forma: Coeficiente de asimetría (skewness)

Es una medida de hacia dónde hay


“colas más pesadas”. Es positivo si la
cola de la derecha (datos grandes)
es más pesada. Es negativo si la cola Coeficiente de asimetría muestral
hacia la izquierda (datos pequeños)
es más pesada. Si las colas son
iguales (curva simétrica respecto al
promedio), vale cero. Coeficiente de asimetría poblacional

Coeficiente negativo Coeficiente positivo


Medidas de forma: Exceso de curtosis

Es una medida de si las colas son más o menos pesadas que una curva gaussiana.

Definición en Excel de función CURTOSIS


Valor de κ positivo (colas menos pesadas)

Valor de κ cero

Valor de κ negativo (colas más pesadas)


Medidas de datos anómalos: Puntuación Z

Es la medida más usada para saber qué tan lejos está el dato (medido en desviaciones
estándar) respecto al promedio. También se usa para “estandarizar” las distribuciones de
probabilidad.

Puntuación Z Puntuación Z
Muestral Poblacional

Teorema de Chebyshev
Si los datos tienen una distribución con promedio y varianza bien definidos; entonces la
fracción de datos que tienen el valor absoluto de su puntuación Z mayor o igual a k es
menor o igual a 1/k2.
(Es un estimativo que dice que los datos con puntuación Z de gran valor son cada vez
más escasos)

Desigualdad del Teorema de Chebyshev


Ejemplo del teorema de Chebyshev con los datos de
Ventas
Confirmemos el Teorema de Chebyshev para nuestros datos de ventas con k=1,5.

Promedio (x̄) 2852,144397


Desviación Estándar (s) 2562,958211
Límite máximo (x̄+1,5s) 6696,581712 Como
Límite mínimo (x̄-1,5s) -992,292919 12,328% ≤ 44,444%
Conteo de datos con z grande 286 Entonces se cumple el
Conteo de datos con z pequeño 0 teorema
Total de datos 2320
Porcentaje de datos anómalos 12,328%
Límite de Chebyshev 44,444%
El diagrama de caja y bigotes

En el fondo es un resumen de los datos “de cinco números”. Muchas veces


se agrega un “sexto número” (el promedio). En ese diagrama se puede
visualizar información sobre tendencia central, dispersión, forma y (a veces)
datos anómalos. De ahí viene su utilidad, al resumir los datos de una manera
relativamente simple. Los seis números posibles son:
Dato anómalo
“Máximo” Los datos que se
La mediana y el Bigote encuentran a más de
promedio coinciden Tercer cuartil 1,5RIC del primer o
únicamente si la tercer cuartil se
asimetría es nula. Caja Promedio Rango
Mediana consideran anómalos y
Intercuartílico
no se tienen en cuenta
El tamaños de la caja y (RIC)
para calcular los
los bigotes a cada lado Primer cuartil máximos y mínimos.
también da una idea
de la dispersión y la Bigote
asimetría.
“Mínimo”
Ejemplo de caja y bigotes con los datos de Ventas

Mínimo absoluto 10
Límite de mínimo normal -4900,625
Mínimo normal 10
Primer Cuartil 793,75
Mediana 1955
Promedio 2852,144397
Tercer Cuartil 4590
Máximo normal 10230
Límite de máximo normal 10284,375
Máximo absoluto 10560,00
Número de datos anómalos 3
GRACIAS

También podría gustarte