T5 EstadisticaDescriptiva

Estadística Descriptiva
Estadísticos y
Descripciones de Datos
UCR – ECCI
CI-0115 Probabilidad y Estadística
Prof. Kryscia Ramírez Benavides
Muestreo Aleatorio
En este tipo de muestreo, todos los individuos de la población pueden
formar parte de la muestra, tienen una probabilidad positiva.
El resultado de un experimento estadístico se puede registrar como un

valor numérico o como una representación descriptiva.
Cuando se lanza un par de dados y el total es el resultado de interés, se registra un
valor numérico.
Cuando a los estudiantes de cierta escuela se les hace pruebas de sangre y el tipo
sanguíneo es de interés, se registra una representación descriptiva.
En cualquier estudio, el número de observaciones posibles puede ser

pequeño, grande pero finito o infinito.
CI0115 Probabilidad y Estadística 2

Muestreo Aleatorio
Una población consiste en la totalidad de las observaciones en las
que se está interesado.
Conjunto de todos los elementos que cumplen una determinada característica.
Conjunto de todos los valores de una variable aleatoria.
Los elementos de la población se llaman observaciones, individuos o

unidades estadísticas.
El número de observaciones en la población se define como el

tamaño de la población.
El número total de observaciones puede ser finito o infinito.

Muestreo Aleatorio
La variable estadística es una propiedad característica de la

población que estamos interesados en estudiar.
Tipos de variables estadísticas:

Cualitativa: No se expresa mediante un número. Por ejemplo, el tipo
sanguíneo de los estudiantes de cierta escuela.
Cuantitativa: Se expresa mediante un número, hay dos tipos:
 Cuantitativa Discreta: Sólo admite valores aislados, toma un número determinado de valores. Por
ejemplo, el resultado total que se obtiene a lanzar dos dados.
 Cuantitativa Continua: Puede admitir cualquier valor dentro de un intervalo, puede tomar
cualquier valor entre los valores dados. Por ejemplo, medir la presión atmosférica cada día del
pasado al futuro.

Muestreo Aleatorio
Una variable estadística cualitativa se puede convertir a una variable
aleatoria discreta, para poner realizar su estudio y análisis.
Cada observación en una población es un valor de una variable

aleatoria X que tiene alguna distribución de probabilidad f(x).
Se puede hablar de población binomial, población normal, o en general, la
población f (x ), para referirse a una población cuyas observaciones son
valores de una variable aleatoria que tiene una distribución binomial, una
distribución normal o una distribución f(x).
Por lo tanto, la media y la varianza de una variable aleatoria o distribución de
probabilidad también se les denomina la media y la varianza de la población
correspondiente.

Muestreo Aleatorio
En el campo de la inferencia estadística el estadístico se interesa en llegar a
conclusiones con respecto a la población cuando es imposible o poco
práctico observar todo el conjunto de observaciones que constituyen la
población.
La población de una producción de cierto producto, sería imposible probar toda la
producción si se tienen que vender.
Los costos exorbitantes también pueden ser un factor prohibitivo para estudiar toda la
población.
Por lo que se depende de un subconjunto de observaciones para hacer

inferencias con respecto a la población.
Una muestra es un subconjunto de una población.

Muestreo Aleatorio
Si se quiere inferencias válidas a partir de la muestra para la
población, se debe obtener muestras que sean representativas de la
población.
Cualquier procedimiento de muestreo que produzca inferencias que

sobreestimen o subestimen de forma consistente alguna característica
de la población se dice que está sesgado.
Para evitar cualquier posibilidad de sesgo en el procedimiento de

muestreo, es deseado elegir una muestra aleatoria en el sentido de
que las observaciones se realizan de forma independiente y al azar.
Muestreo Aleatorio
Sean X1, X2, …, Xn variables aleatorias independientes, cada una con

la misma distribución de probabilidad f(x). Se define entonces a X1,
X2, …, Xn como una muestra aleatoria de tamaño n de la población
f(x) y se escribe su distribución de probabilidad conjunta como
f ( x1 , x2 ,..., xn ) = f ( x1 ) f ( x2 )... f (xn )

Algunos Estadísticos Importantes
El propósito principal al seleccionar muestras aleatorias es obtener

información acerca de los parámetros desconocidos de la población.
Por ejemplo, se quiere saber la proporción de una población que

toman una marca de café determinada.
Aquí se podría preguntar a cada uno de los bebedores de café de la población
en cuestión, si toman la marca de café.
En su lugar, se selecciona una muestra aleatoria grande y se calcula la

proporción p de personas que prefieren la marca de café.

El valor p se utiliza ahora para hacer una inferencia con respecto a la
proporción p verdadera.
Ahora, p es una función de los valores observados en la muestra
aleatoria; como son posibles muchas muestras aleatorias a partir de la
misma población, se espera que p variara algo de una muestra a
otra.

Es decir, p es un valor de una variable aleatoria que representamos
con P.
Tal variable aleatoria se llama estadístico, la cual se puede definir

como cualquier función de las variables aleatorias que forman una
muestra aleatoria.
Tendencia Central de la Muestra
Si X1, X2, …, Xn representan una muestra aleatoria de tamaño n,
entonces la media de la muestra se define mediante el estadístico
n
X i X1 + X 2 +  + X n
X =∑ =
i =1 n n
xi x1 + x2 +  + xn
n
Si el estadístico X toma el valor x = ∑ =
i =1 n n
cuando X1 toma el valor de x1, X2 toma el valor de x2, y así
sucesivamente.

acomodada en orden creciente de magnitud, entonces la mediana
de la muestra se define mediante el estadístico
 X (n +1)/ 2 si n es impar
~ 
X =  X n / 2 + X (n / 2 )+1
 si n es par
2

Si X1, X2, …, Xn, no necesariamente diferentes, representan una
muestra aleatoria de tamaño n, entonces la moda de la muestra M
es aquel valor de la muestra que ocurre más a menudo o con mayor
frecuencia.
La moda puede no existir, y cuando existe no necesariamente es

única.

La media de la muestra:
Es la medida de localización central más comúnmente utilizada en estadística.
Emplea toda la información disponible.
Las distribuciones de medias que se obtienen en muestreos repetidos de una
población son bien conocidos, y en consecuencia los métodos que se utilizan
en la inferencia estadística para estimar μ se basan en la media de la muestra.
La única desventaja real, es que puede resultar afectada de manera adversa
por valores extremos.

La mediana de la muestra:
Es fácil de calcular si el número de observaciones es relativamente pequeño.
No resulta influida por valores extremos.
Al tratar con muestras que se seleccionan de poblaciones, las medias de las
muestras por lo general no variarán tanto de una muestra a otra como las
medianas. Por lo tanto, si se desea estimar el centro de una población con
base en un valor de la muestra, la media es más estable que la mediana.

La moda de la muestra:
Es la menos utilizada de las tres.
Para conjuntos pequeños su valor casi no tiene utilidad, si es que existe.
Sólo tiene sentido significativo en una gran cantidad de datos.
No requiere cálculo, lo que se considera una ventaja.
Se puede usar para datos cualitativos como cuantitativos, lo que se considera
una ventaja.

Variabilidad de la Muestra
Las medidas de localización central o posición no dan por sí mismas
una descripción adecuada de los datos. Es importante conocer cómo
se dispersan las observaciones del promedio.
La variabilidad de una muestra juega un papel muy importante en el

análisis de datos.
La variabilidad de un proceso y de un producto es un hecho real en los
sistemas científicos y de ingeniería.
La variabilidad en valores de población y datos de una muestra es un hecho
real.

El rango (recorrido o amplitud) de una muestra aleatoria X1, X2, …,
Xn, se define con el estadístico Xmax – Xmin, donde Xmin y Xmax son,
respectivamente, las observaciones más grande y más pequeña de la
muestra.
El rango falla al medir la variabilidad entre la observación superior y la

inferior, pero tiene algunas aplicaciones útiles.
En la industria, el rango se puede determinar al especificar por

adelantado que una medición particular de los artículos que salen de
una línea de producción deba caer dentro de cierto intervalo.
entonces la varianza de la muestra se define mediante el
estadístico
S =∑
2
n
2
(X −Xi )
i =1 (n − 1)
El valor calculado de S2 para una muestra dada se denota con s2.
La varianza se define, esencialmente, como el promedio de los

cuadrados de las desviaciones de las observaciones de su media.

Teorema. Si S2 es la varianza de una muestra aleatoria de tamaño n,
se puede escribir como
2
n
 n

n∑ X −  ∑ X i 
i
2
S 2 = i =1  i =1 
n(n − 1)

La desviación estándar de la muestra, que se denota con S, es la
raíz cuadrada positiva de la varianza de la muestra.
n
(X −X )
2
S= ∑
i =1
i
(n − 1)
La cantidad n – 1 a menudo se denomina grados de libertad
asociados con la varianza estimada. Los grados de libertad
representan el número de piezas de información independientes
disponibles para calcular la variabilidad.

Presentaciones de Datos y Métodos Gráficos
En la estadística, con frecuencia se hace la suposición de que la distribución
es normal.
La información gráfica con respecta a la validez de esta suposición se

puede obtener de presentaciones como los diagramas de tronco y hojas, y
los histogramas de frecuencias.
A continuación se introduce la noción de gráficas de probabilidad normal y

gráficas de cuantiles.
Estas gráficas se utilizan en estudios que tienen grados de complejidad que varían,
con el objetivo principal de que las gráficas proporcionen una verificación diagnóstica
de la suposición de que los datos vienen de una distribución normal.

Los estadísticos, vistos anteriormente, proporcionan medidas simples,

mientras que una representación gráfica agrega información adicional
en términos de una imagen.
Las muestras múltiples se pueden comparar de forma gráfica.
Las gráficas de datos pueden sugerir relaciones entre variables.
Las gráficas pueden ayudar en la detección de anomalías o de observaciones
de datos apartados en las muestras.

Existen varios tipos de gráficos estadísticos, siendo cada uno de ellos
adecuados a un tipo de variable, según el siguiente esquema:
Variables cualitativas → Diagrama de sectores.
Variables cuantitativas discretas → Diagramas de barras.
Variables cuantitativas continuas → Histograma de frecuencias.
Herramienta de gráficos y diagramas:

Catálogo de Visualización de Datos
How To Think Visually Using Visual Analogies
Data Viz Project
D3: Data-Driven Documents
Top 50 ggplot2 Visualizations - The Master List (With Full R Code)

Histogramas
Los histogramas de frecuencia son similares a un diagrama de barras,
sólo que en este caso, las barras ocupan todo el ancho del intervalo al
que van asociadas, pudiendo estar pegadas unas con otras (algo que
nunca podía pasar en un diagrama de barras).
Realmente, a diferencia de lo que pasaba en un diagrama de barras, en los
histogramas de frecuencias, el área de cada rectángulo debe ser proporcional
a la frecuencia relativa, lo que pasa es que si tomamos la precaución de tomar
todos los intervalos con la misma amplitud, entonces no tendremos que
preocuparnos, por ser la razón de proporcionalidad siempre la misma: la
amplitud del intervalo.

Histogramas
Tiempo que emplean los alumnos del curso en ir desde casa a la
universidad se distribuye de la siguiente manera:
9
Tiempo (min) Frecuencia 8
7
[0,30[ 5
Frecuencia
6
[30,60[ 8 5
4
[60,90[ 3
3
[90,120[ 2 2
[120,150[ 1 1
0
[150,180[ 1 30 60 90 120 150 180
Tiempo (min)
Medidas de Posición
Los cuantiles son puntos tomados a intervalos regulares de la función de
distribución de una variable aleatoria.
Suelen usarse por grupos que dividen la distribución en partes iguales, entendidas
estas como intervalos que comprenden la misma proporción de valores.
Los más usados son:

Los cuartiles dividen a la distribución en cuatro partes (corresponden a los cuantiles
0.25, 0.50 y 0.75).
Los percentiles dividen a la distribución en cien partes (corresponden a los cuantiles
0.01, 0.02, 0.03, …, 0.98 y 0.99).
Los deciles dividen a la distribución en diez partes (corresponden a los cuantiles
0.10, 0.20, 0.30, …, 0.80 y 0.90).
Los quintiles dividen a la distribución en cinco partes (corresponden a los cuantiles
0.20, 0.40, 0.60 y 0.80).

Entre las medidas de posición (describen la posición que tiene un
dato o valor específico con respecto a todos los datos) se tienen los
cuartiles y los percentiles.
Cuartiles son los valores que dividen los datos en cuatro partes
iguales (cuartos):
El primer cuartil (Q1) es el valor tal que el 25% de los datos son menores a él.
El segundo cuartil (Q2) es el valor tal que el 50% de los datos son menores a
él (la mediana).
El tercer cuartil (Q3) es el valor tal que el 75% de los datos son menores a él.

Percentiles son los valores que dividen los datos en cien partes
iguales.
El percentil k (se escribe Pk) es el valor tal que el k% de los datos son
menores a él.
Contrariamente, el (100-k)% de los datos son mayores a este valor.
Note que:
El primer cuartil (Q1) es el mismo P25.
El segundo cuartil (Q2) es el mismo P50 (la mediana).
El tercer cuartil (Q3) es el mismo P75.

Procedimiento Cálculo de Percentiles
Procedimiento:
Ordenar los datos de menor a mayor.
Calcular nk/100.
Si el número anterior (nk/100) es un decimal, aproxime al siguiente

número. El dato correspondiente a este número es el Pk.
Si el número (nk/100) es un entero entonces el Pk es igual al
promedio del dato correspondiente a este número y el siguiente dato.

Calcule los cuartiles (Q1, Q2 y Q3) y los percentiles 15 y 65 de los
siguientes datos de edades:
37, 54, 15, 25, 30, 68, 26, 23, 25, 26, 27, 24
1. Ordenar los datos:

15, 23, 24, 25, 25, 26, 26, 27, 30, 34, 54, 68
n = 12
2. Calcular nk/100:

2. Calcular nk/100:
Interpretación: por ejemplo, el P65=27, indica que el 65% de las

personas tienen edades menores a 27 años.
Cuartil medio es otra medida de posición, la cual corresponde al
promedio entre Q1 y Q3:
𝑄𝑄1 + 𝑄𝑄3
𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶 =
2
Ejemplo: Siguiendo con los datos del ejercicio anterior.
24.5 + 33.5
𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶 = = 29
2
La interpretación de esta medida es similar a un promedio. Sin
embargo, su uso es limitado en la práctica.

Rango intercuartílico (IRQ) es otra medida de posición, la cual es
la diferencia entre Q1 y Q3:
𝑅𝑅𝑅𝑅𝑅𝑅 = 𝑄𝑄3 − 𝑄𝑄1
Ejemplo: Siguiendo con los datos del ejercicio anterior.

𝑅𝑅𝑅𝑅𝑅𝑅 = 33.5 − 24.5 = 9
La interpretación de esta medida es a valores grandes indican mayor

dispersión o variabilidad de los datos.

En la mayoría de las veces se analizan la distribución de los datos
usando cinco medidas importantes:
El mínimo
Q1 o P25
Mediana (Q2 o P50)
Q3 o P75
El máximo
Ejemplo:

Gráfico de Caja y Extensión
Esta gráfica encierra el rango intercuartil (intercuartílico) de los
datos en una caja que tiene la mediana representada dentro.
En él se representan las cinco medidas anteriores.
El rango intercuartil tiene como extremos el percentil 75 (cuartil

superior) y el percentil 25 (cuartil inferior).
Este rango lo representa el ancho de la caja, a mayor amplitud de la caja,
mayor variabilidad en los datos.
Dentro de la caja se dibuja una línea horizontal (o vertical, depende la

disposición de las cajas) que indica la mediana de los datos.
De la caja se prolongan extensiones, una va hasta el dato mínimo y la otra
al dato máximo.
Estos segmentos representan los datos que están por fuer del rango intercuartil.
Otra información importante que muestra este gráfico son las

observaciones extremas (atípicos) en la muestra.
Algunas veces, los outliers son representados por símbolos especiales (*, +, entre
otros).
Para muestras razonablemente grandes, proporciona una visión general de

la simetría de la distribución de los datos (centro de la localización,
variabilidad, grado de asimetría) y valores atípicos.
Gráfico de caja y extensión puede proporcionar información con
respecto a cuáles observaciones son datos apartados (atípicos,
outliers ).
Los datos apartados son observaciones que se consideran inusualmente
alejadas de la masa de datos. No encajan bien dentro de la distribución de los
otros datos en una muestra.
Técnicamente, se puede considerar un dato apartado como una observación
que representa un “evento raro”; es decir, existe una probabilidad pequeña de
obtener un valor tan alejado de la masa de datos.

Cuando existen valores extremos (atípicos, outliers), los valores extremos (mínimo
y máximo) se seleccionan sin tener en cuenta estos valores extremos.
En el gráfico de cajas los outliers se calculan de acuerdo a la distancia que los
separa de la caja del diagrama.
 Se definen el límite inferior (LI) y el límite superior (LS).
Determinar outliers responde, de algún modo, a criterios arbitrarios. Sin embargo,

se sigue la norma en la que se mide de acuerdo a la distancia del rango
intercuartil (RIQ o IQR).
 Un outlier ligero es un punto que se ubica a una distancia que va desde 1.5 veces a 3 veces
del RIQ, medida a partir de la caja (con respecto a Q1 y Q3).
 Un outlier extremo es un punto que se ubica a una distancia de más de 3 veces el RIQ,
medida a partir de la caja (con respecto a Q1 y Q3).
𝐿𝐿𝐿𝐿 = 𝑄𝑄𝑄 − 1.5 ∗ 𝑅𝑅𝑅𝑅𝑅𝑅
𝐿𝐿𝐿𝐿 = 𝑄𝑄𝑄 + 1.5 ∗ 𝑅𝑅𝑅𝑅𝑅𝑅
Datos representados:
Límite inferior (LI ): Es el extremo inferior del bigote. Las opiniones por encima de
este límite se consideran atípicas.
Q 1: Por debajo de este valor se encuentran como máximo el 25% de las opiniones de
los estudiantes.
Mediana (Q 2): Divide a la distribución en dos partes iguales. De este modo, 50% de
las observaciones están por debajo de la mediana y 50% está por encima.
Q 3: Por debajo de este valor se encuentran como máximo el 75% de las opiniones de
los estudiantes.
Límite superior (LS ): Es el extremo superior del bigote. Las opiniones por encima
de este límite se consideran atípicas.
Valores atípicos (outliers ): Opiniones que están apartadas del cuerpo principal de
datos. Pueden representar efectos de causas extrañas, opiniones extremas o en el
caso de la tabulación manual, errores de medición o registro.

Ejemplo. Los valores de nicotina de 40 cigarrillos son:
1,09 1,92 2,31 1,79 2,28

1,74 1,47 1,97 0,85 1,24
1,58 2,03 1,70 2,17 2,55
2,11 1,86 1,90 1,68 1,51
1,64 0,72 1,69 1,85 1,82
1,79 2,46 1,88 2,08 1,67
1,37 1,93 1,40 1,64 2,09
1,75 1,63 2,37 1,75 1,69

Obteniendo los valores de posición:
n = 40
Valor mínimo = 0.72 | Mínimo = 1.09
Q1 = 40*25/100 = 10 → 1.635 (1.63,1.64)
Q2 = 40*50/100 = 20 → 1.770 (1.75,1.79)
Q3 = 40*75/100 = 30 → 2.000 (1.97,2.03)
Valor máximo = 2.55 | Máximo = 2.46
RIQ = 2.000 – 1.635 = 0.365
LI = 1.635 – 1.5*0.365 = 1.0875 | LI(3) = 1.635 – 3*0.365 = 0.540
LS = 2.000 + 1.5*0.365 = 2.5475 | LS(3) = 2.000 + 3*0.365 = 3.095
Outliers ligeros → 0.72, 0.85, 2.55

Se tienen las siguientes estadísticas:
Descriptive Statistics
N Range Minimum Maximum Mean Std. Deviation Variance

Valores de Nicotina 40 1,83 ,72 2,55 1,7743 ,39046 ,152

Gráfico Cuantil-Cuantil
Un gráfico Cuantil-Cuantil (Q-Q) permite observar cuan cerca está la distribución
de un conjunto de datos a alguna distribución ideal o comparar la distribución de
dos conjuntos de datos.
 Se utiliza para evaluar las similitudes entre la distribución de una variable numérica y una
distribución normal, o entre las distribuciones de dos variables numéricas.
Existen dos tipos de gráficos cuantil-cuantil:

 Los gráficos cuantil-cuantil normales se construyen trazando los cuantiles de una variable
numérica respecto de los cuantiles de una distribución normal.
 Los gráficos cuantil-cuantil generales trazan los cuantiles de una variable numérica
respecto de los cuantiles de una segunda variable numérica.
Si las distribuciones de los cuantiles comparados son idénticas, los puntos del
diagrama formarán una línea recta de 45 grados. Cuanto más lejos se desvíen los
puntos del diagrama de una línea recta, menos similares serán las distribuciones
comparadas.
Un gráfico Q-Q normal de datos N(0,1) Un gráfico Q-Q normal de datos exp(1)
generados aleatoriamente generados aleatoriamente
Se utiliza para comprobar normalidad de la distribución de una
variable en una población.
Si la distribución de la variable es la misma que la distribución de comparación
se obtendrá, aproximadamente, una línea recta, especialmente cerca de su
centro.
En el caso de que se den desviaciones sustanciales de la linealidad, los
estadísticos rechazan la hipótesis nula de similitud.

A diferencia de la gráfica de caja y extensión, la gráfica de cuantiles
realmente muestra todas las observaciones.
Todos los cuantiles, incluida la mediana y los cuantiles inferior y superior, se
pueden aproximar de forma visual.
Las indicaciones de agrupaciones relativamente grandes alrededor de

valores específicos se indican por pendientes cercanas a cero,
mientras que los datos dispersos en ciertas áreas producen
pendientes más abruptas.

Gráfico de Dispersión y Correlación
Los gráficos de dispersión son una forma de expresar datos de dos
variables, y hacer predicciones basadas en los datos.
Al contrario de los histogramas y los gráficos de caja, los de

dispersión muestran valores de datos individuales.

El gráfico de dispersión que expresa la cantidad de dinero que se
ganó Mateo cada semana trabajando en la tienda de su padre.

Las semanas están diagramadas en el eje x, y la cantidad de dinero
que se ganó en esa semana en el eje y.
En general, la variable independiente (la variable que no está influenciada por
nada) está en el eje x y la variable dependiente (la que es modificada por la
variable independiente) está en el eje y.
En este gráfico se puede ver que en la semana 2 Mateo se ganó

alrededor de $125, y en la semana 18 estuvo cerca de los $165. Pero
más importante aún es la tendencia.
Por ejemplo, con estos datos podemos ver que Mateo gana cada vez más
según pasan las semanas. Quizá su padre le da más horas a la semana o más
responsabilidades.

Con los gráficos de dispersión se puede ver cómo se relacionan
ambas variables entre sí.
Esto es lo que se conoce como correlación.
Hay tres tipos de correlación:

Correlación positiva.
Correlación negativa.
Sin correlación (nula).
El gráfico de dispersión que se analizó tiene una fuerte correlación

positiva: a medida que las semanas aumentan, su pago también.
Hay tres tipos de correlación:
Correlación positiva. Ocurre cuando una variable aumenta y la otra
también. Por ejemplo: la altura de una persona y el tamaño de su pie;
mientras aumenta la altura, el pie también.
Correlación negativa. Ocurre cuando una variable aumenta y la otra
disminuye. Por ejemplo: el tiempo de estudio y el tiempo que pasas jugando
videojuegos, tienen una correlación negativa, ya que cuando tu tiempo de
estudio aumenta, no te queda tanto tiempo para jugar videojuegos.
Sin correlación (nula). No hay una relación aparente entre las variables. Por
ejemplo: los puntos en tus videojuegos y tu talla de zapato no parece tener
ninguna correlación; mientras una aumenta, la otra no tiene ningún efecto.

Al usar la línea de ajuste se puede predecir cuánto dinero se ganará
Mateo en 20 semanas de trabajo (asumiendo que el patrón continua).

En el ejemplo, Mateo se ganará, aproximadamente, $157 en la
semana 20.

Correlaciones Espurias (Spurious Correlation )
Una correlación espuria ocurre cuando dos variables están
correlacionadas, pero no tienen una relación causal.
En otras palabras, parece que los valores de una variable provocan cambios en la otra
variable, pero eso no sucede en realidad.
La relación espuria da la impresión de la existencia de un vínculo apreciable entre dos
grupos que es inválido cuando se examina objetivamente.
Ejemplo:
La venta de helados y los ataques de tiburones se correlacionan positivamente en una
playa.
A medida que aumentan las ventas de helados, hay más ataques de tiburones.
Sin embargo, el sentido común nos dice que las ventas de helados no provocan
ataques de tiburones.
Por lo tanto, es una correlación espuria.

Los investigadores necesitan identificar relaciones genuinamente

causales, lo que implica descartar la posibilidad de correlaciones
espurias.
¿Qué causa una correlación espuria?

Las correlaciones espurias ocurren por varias razones, que produce un
coeficiente de correlación distinto de cero y un gráfico que muestra una
relación donde NO existe la casualidad.
Ver ejemplos en: https://www.tylervigen.com/spurious-correlations.

Razones de correlaciones espurias:
 Variables de confusión. La confusión ocurre cuando una tercera variable provoca cambios
en otras dos variables, creando una correlación espuria entre las otras dos variables.
 Por ejemplo, imagine que existen las siguientes dos relaciones causales positivas:
 A→B
 A→C
 A medida que A aumenta, tanto B como C aumentarán juntas. Por lo tanto, parece que B → C.
 Por ejemplo, las temperaturas más altas hacen que más personas compren helados y naden en la playa, lo
que aumenta las oportunidades de ataques de tiburones. Por lo tanto, aunque no existe una relación entre
las ventas de helados y los ataques de tiburones, tienden a subir y bajar juntos. La variable de confusión
de la temperatura provoca esta correlación espuria.
 Variables mediadoras. En otros casos, una cadena de correlaciones, o variables
mediadoras, produce una correlación espuria.
 Por ejemplo, imagine que tanto A & B como B & C tienen relaciones causales, como se muestra a
continuación:
 A→B→C
 Si solo tiene medidas de A y C, encontrará una correlación espuria. Parece ser casual. En realidad, A causa
B y luego B causa C. No hay conexión directa entre A y C.
Razones de correlaciones espurias:
 Error de muestreo aleatorio. Las muestras no siempre reflejan con precisión la población
debido al azar. El error de muestreo aleatorio puede producir la aparición de efectos en la
muestra que no existen en la población. Una correlación es un efecto posible. Para los estudios
que usan muestras, las correlaciones que encuentre podrían no existir en la población. La
prueba de hipótesis puede ayudar a resolver eso. Cuando las correlaciones en una muestra no
existen en la población, es un fantasma que produjo el error aleatorio y, por lo tanto, no
puede ser una relación causal. En consecuencia, es una correlación espuria. Las muestras no
son perfectas.
 Oportunidad. En algunos casos, es pura casualidad que dos variables dispares sigan un
patrón similar que parece una relación. Esta condición es ligeramente diferente del error de
muestreo aleatorio. En este caso, los valores de las dos variables se correlacionan en la
población. No es un espejismo causado por una muestra. Sin embargo, no existe una relación
causal entre las dos variables. Los patrones de cambios coinciden por casualidad.
 Manipulación gráfica. Al ajustar las escalas de los gráficos, los patrones de cambios en las
dos variables se pueden exagerar o disminuir para que los dos patrones parezcan coincidir.
Pero es solo el resultado de una cuidadosa manipulación de la escala. Este proceso crea una
correlación espuria.

Detección y prevención de correlaciones espurias:
La mejor manera de detectar una correlación espuria es a través del
conocimiento del área temática para evaluar las correlaciones y hacer muchas
preguntas:
 ¿Tienen sentido como relaciones causales?
 ¿Se ajustan a la teoría establecida?
 ¿Puedes encontrar un mecanismo para la causalidad?
 ¿Hay un vínculo directo o hay variables mediadoras involucradas?
Establecer relaciones causales puede ser complicado. No hay ninguna prueba
estadística que pueda demostrarlo. En cambio, los analistas frecuentemente
necesitan descartar otras causas y errores.
Muchos criterios pueden ayudarlo a evaluar las correlaciones.
 Más información, leer: Hill’s Criteria for Causation.

Detección y prevención de correlaciones espurias:
Varios métodos estadísticos y experimentales pueden ayudar a reducir las
correlaciones espurias. En particular, estos métodos pueden evitar que las
variables de confusión creen correlaciones espurias.
 En un estudio aleatorizado, la aleatorización tiende a igualar los factores de confusión
entre los grupos experimentales y, por lo tanto, reduce el riesgo de una correlación
espuria. Además, puede usar variables de control para mantener las condiciones
experimentales lo más consistentes posible. Más información: Random Assignment in
Experiments.
 El emparejamiento es otra técnica que puede disminuir el riesgo de correlaciones espurias
debido a factores de confusión. Este proceso implica seleccionar participantes del estudio
con características similares fuera de la variable de interés para los grupos de tratamiento
y control. Más información: What is an Observational Study: Definition & Examples.
 El análisis de regresión múltiple puede evitar una correlación espuria mediante el uso de
modelos que tengan en cuenta las variables de confusión. Este enfoque controla
estadísticamente la confusión. Más información: When Should I Use Regression Analysis?

Referencias Bibliográficas
Walpole, R.E.; Myers, R.H.; Myers, S.L. & Ye, K. “Probabilidad y

estadística para ingeniería y ciencias”. Octava Edición. Pearson
Prentice-Hall. México, 2007.
Data Wrangling with dplyr and tidyr
How to change colors automatically and manually?
Diagramas de Caja y Bigotes
Correlaciones Espurias (Spurious Correlation)
Falacia de la causa simple

T5 EstadisticaDescriptiva

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

T5 EstadisticaDescriptiva

Cargado por

Copyright:

Formatos disponibles

Estadística Descriptiva

El resultado de un experimento estadístico se puede registrar como un

En cualquier estudio, el número de observaciones posibles puede ser

CI0115 Probabilidad y Estadística 2

Los elementos de la población se llaman observaciones, individuos o

El número de observaciones en la población se define como el

CI0115 Probabilidad y Estadística 3

La variable estadística es una propiedad característica de la

Tipos de variables estadísticas:

CI0115 Probabilidad y Estadística 4

Cada observación en una población es un valor de una variable

CI0115 Probabilidad y Estadística 5

Por lo que se depende de un subconjunto de observaciones para hacer

Una muestra es un subconjunto de una población.

CI0115 Probabilidad y Estadística 6

Cualquier procedimiento de muestreo que produzca inferencias que

Para evitar cualquier posibilidad de sesgo en el procedimiento de

Sean X1, X2, …, Xn variables aleatorias independientes, cada una con

f ( x1 , x2 ,..., xn ) = f ( x1 ) f ( x2 )... f (xn )

CI0115 Probabilidad y Estadística 8

El propósito principal al seleccionar muestras aleatorias es obtener

Por ejemplo, se quiere saber la proporción de una población que

Tal variable aleatoria se llama estadístico, la cual se puede definir

CI0115 Probabilidad y Estadística 11

CI0115 Probabilidad y Estadística 12

La moda puede no existir, y cuando existe no necesariamente es

CI0115 Probabilidad y Estadística 13

CI0115 Probabilidad y Estadística 14

CI0115 Probabilidad y Estadística 15

CI0115 Probabilidad y Estadística 16

La variabilidad de una muestra juega un papel muy importante en el

CI0115 Probabilidad y Estadística 17

El rango falla al medir la variabilidad entre la observación superior y la

En la industria, el rango se puede determinar al especificar por

La varianza se define, esencialmente, como el promedio de los

CI0115 Probabilidad y Estadística 19

CI0115 Probabilidad y Estadística 20

CI0115 Probabilidad y Estadística 21

La información gráfica con respecta a la validez de esta suposición se

A continuación se introduce la noción de gráficas de probabilidad normal y

CI0115 Probabilidad y Estadística 22

Los estadísticos, vistos anteriormente, proporcionan medidas simples,

CI0115 Probabilidad y Estadística 23

Herramienta de gráficos y diagramas:

CI0115 Probabilidad y Estadística 24

CI0115 Probabilidad y Estadística 25

Los más usados son:

CI0115 Probabilidad y Estadística 27

CI0115 Probabilidad y Estadística 28

CI0115 Probabilidad y Estadística 29

Si el número anterior (nk/100) es un decimal, aproxime al siguiente

CI0115 Probabilidad y Estadística 30

1. Ordenar los datos:

2. Calcular nk/100:

CI0115 Probabilidad y Estadística 31

Interpretación: por ejemplo, el P65=27, indica que el 65% de las

CI0115 Probabilidad y Estadística 33

Ejemplo: Siguiendo con los datos del ejercicio anterior.

La interpretación de esta medida es a valores grandes indican mayor

CI0115 Probabilidad y Estadística 34

CI0115 Probabilidad y Estadística 35

El rango intercuartil tiene como extremos el percentil 75 (cuartil

Dentro de la caja se dibuja una línea horizontal (o vertical, depende la