Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Chuleta Rio 1
Chuleta Rio 1
Chuletario o
Resumen para vagos
Estadística descriptiva.
Una variable
Se pueden ordenar
Ordinales (bajos, medios, altos)
Cualitativas (atributos)
Variables
Edad
Discretas
Número de cuentas en Suiza
Cuantitativas
xi ni Ni fi Fi
n1
x1 n1 N1 n1 f1 = F1 f1
n ni Frecuencia
n2
x(2) n2 N 2 = n1 n2 f2 = F2 = f1 f 2 absoluta
n Ni Frecuencia
n3 absoluta
x(3) n3 N 3 = n1 n2 n3 f3 = F3 = f1 f 2 f 3 acumulada
n Frecuencia
fi relativa
nr Frecuencia
x r nr Nr = n fr = Fr = 1 Fi
n relativa
acumulada
Representaciones gráficas: variables discretas
Consumo de cocaína
en Europa
Clasificación de datos en intervalos
En el caso de que haya muchas observaciones, la mayoría de ellas distintas,
observaciones que caen dentro de cada intervalo. Para ello se elige un número
𝒂𝟎 𝒂𝒌
y se divide el intervalo 𝒂𝟎 -𝒂𝒌 en 𝑘 intervalos (generalmente de igual longitud).
𝒂𝟎 𝒂𝟏 𝒂 𝟐 𝒂𝒌−𝟏 𝒂𝒌
Representaciones gráficas: variables continuas
Histograma de frecuencias Polígono de frecuencias
• Muchos intervalos – histograma muy variable Consiste en unir los puntos medios de los
• Pocos intervalos – histograma poco variable extremos superiores de los rectángulos
• Número correcto – “en general” el que da el del histograma. Luego se completa llevando
programa: las líneas al eje horizontal.
𝒏 , 𝒍𝒐𝒈𝟐 n siendo n el número de datos
Medidas de posición, tendencia central o promedios
X≡ {𝑥1 , 𝑥2 ,.., 𝑥𝑛 }
Media aritmética 𝑥1 + 𝑥2 +. . . +𝑥𝑛
𝑥=
𝑛
Media aritmética ponderada 𝑥1 ⋅ 𝑤1 + 𝑥2 ⋅ 𝑤2 +. . . +𝑥𝑛 ⋅ 𝑤𝑛
𝑥𝑝 =
Consiste en asignar a cada valor 𝑥𝑖 un peso 𝑤𝑖 que depende de la 𝑤1 + 𝑤2 +. . . +𝑤𝑛
importancia relativa de dicho valor
Mediana
el valor que divide a la variable en dos partes iguales, dejando a cada
lado el 50 por ciento de los datos
Moda 2,3,3,4,6,7,7,7,10
el valor que más se repite. Si la variable está clasificada en intervalos,
se habla de intervalo modal
Moda relativa
Moda absoluta
Medidas de posición, tendencia central o promedios
Cuantil
Se llama cuantil de orden 𝑝 (0 < 𝑝 < 100) (𝑄𝑝 ) a aquel
valor que divide a la variable en dos partes, dejando a su
izquierda (o inferiores a él) el 𝑝 por ciento de los datos (a
su derecha el 100 − 𝑝 por ciento)
medida de la variable)
𝑥1 −𝑥 2 +(𝑥2 −𝑥)2 +...+ 𝑥𝑛 −𝑥 2
= 𝑛
(a veces se divide por 𝑛-1)
Desviación típica 𝑆 = + 𝑆2
Recorrido, Amplitud o Rango 𝑅 = 𝑀𝑎𝑥(𝑋) − 𝑀𝑖𝑛(𝑋)
Medidas de dispersión Recorrido intercuartílico 𝑅𝐼 = 𝑄3 − 𝑄1
relativas Coeficiente de variación 𝑆
(son adimensionales, no 𝐶𝑉 =
|𝑥|
dependen de unidades de
medida) Recorrido semi-intercuartílico 𝑄3 − 𝑄1
𝑅𝑆𝐼 =
𝑄3 + 𝑄1
Simetría
𝑆 la desviación típica
Curtosis
𝑚4 1 𝑛
𝑔2 es algún coeficiente de curtosis Por ejemplo: 𝑔2 = − 3, siendo 𝑚4 = 𝑖=1 (𝑥𝑖 − 𝑥)4 .
𝑆4 𝑛
Box-plot (diagrama de caja y bigotes)
Estadística descriptiva.
Dos variables
Representaciones gráficas: variables discretas
En el siguiente ejemplo tenemos dos variables cualitativas que son: deportes
preferidos y género.
40
35
38
30
3 25
35
20 hombre
19
mujer
15
13 11
14 10
10
6 7
5
FUTBOL BALONCESTO VOLEIBOL ATLETISMO OTROS
hombre mujer 0
futbol baloncesto voleibol atletismo otros
Representaciones en 3 dimensions
Representaciones gráficas: nube de puntos o diagrama de dispersión
Línea de regresión.
𝑎 = 𝑦 − 𝑏𝑥
𝑦 = 𝑎 + 𝑏𝑥 𝑆𝑥𝑦
𝑏= 2
𝑆𝑥
𝑛
1
𝑆𝑥𝑦 = (𝑥𝑖 − 𝑥)(𝑦𝑖 − 𝑦)
𝑛
𝑖=1
Coeficiente de correlación lineal: posibles valores
𝑆𝑥𝑦
𝑟=
𝑆𝑥 𝑆𝑦
−1 ≤ 𝑟 ≤ 1
Coeficiente de
determinación
𝑟2
0 ≤ 𝑟 2 ≤1
Probabilidad
El conjunto de los posibles resultados de un experimento aleatorio se llama espacio
muestral. Se representa con la letra griega Ω.
Suceso imposible. Es el suceso que no puede ocurrir nunca. Como conjunto, es el conjunto
vacío ∅.
Ω
• P(Suceso total Ω)=1
• P(cualquier suceso) es un número entre 0 y 1
• P(suceso imposible ∅) = 0
• Si A está contenido en B, P(A)≤P(B)
• P(complementario de A 𝐴)=1-P(A)
• P A ∪ B = P A + P B − P A ∩ B . Si A∩B=∅ entonces P(AUB)=P(A)+P(B)
• P(AUBUC)=P(A)+P(B)+P(C)-P(A∩B)-P(A∩C) -P(B ∩ C)+ P(A ∩B ∩C) y si la unión es
de más se va complicando…
• P(A-B)=P(A)-P(A∩B)
• 𝑃 𝐴1 ∩ ⋯ ∩ 𝐴𝑛 = 1 − 𝑃 𝐴1 ∪ 𝐴2 ∪ ⋯ ∪ 𝐴𝑛
• 𝑃(𝐴1 ∪. . .∪ 𝐴𝑛 ) = 1 − 𝑃(𝐴1 ∩ 𝐴2 ∩. . .∩ 𝐴𝑛 ).
Probabilidad condicionada.
𝑃(𝐴∩𝐵) 𝑃(𝐴∩𝐵)
Si 𝑃(𝐵) ≠ 0, entonces 𝑃(𝐴/𝐵) = Si 𝑃(𝐴) ≠ 0 entonces 𝑃(𝐵/𝐴) =
𝑃(𝐵) 𝑃(𝐴)
Probabilidad de la intersección.
𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐴) ⋅ 𝑃(𝐵/𝐴) = 𝑃(𝐵) ⋅ 𝑃(𝐴/𝐵)
Ahora bien, si son independientes (que la ocurrencia de cada uno no influya en la ocurrencia de ningún
otro):
𝑃(𝐴1 ∩ 𝐴2 ∩. . .∩ 𝐴𝑛 ) = 𝑃(𝐴1 ) ⋅ 𝑃(𝐴2 ) ⋅. . .⋅ 𝑃(𝐴𝑛 )
Probabilidad total.
Si tenemos 𝐴1 , 𝐴2 , . . . , 𝐴𝑛 , tales que 𝑃(𝐴1 ) + 𝑃(𝐴2 )+. . . +𝑃(𝐴𝑛 ) = 1, y los
sucesos son incompatibles (𝐴𝑖 ∩ 𝐴𝑗 = 𝜙), entonces, para otro suceso B,
𝑛
𝑛 𝑛
Variable Función de Tabla con valores y
Discreta probabilidad probabilidades (que 𝑥𝑖 𝑝𝑖 x𝑖2 𝑝𝑖 − 𝜇 2
suman 1) 𝑖=1 𝑖=1
Función de masa de
probabilidad, 𝑋 𝑃(𝑋 = 𝑥𝑖 )
𝑥1 𝑝1
Ley de probabilidad
𝑥2 𝑝2
⋮ ⋮
Distribución de
𝑥𝑘 𝑝𝑘
probabilidad
𝑝1 +. . . +𝑝𝑘 = 1
∞
Variable Función de densidad 𝑓(𝑥) ≥ 0 y ∞
𝑥𝑓(𝑥)𝑑𝑥 𝑥 2 𝑓(𝑥)𝑑𝑥 − 𝜇 2
Continua ∞ −∞
−∞
𝑓 𝑥 𝑑𝑥 = 1
−∞
Variables aleatorias
discretas notables
Variable Características Ley de Probabilidad Media (Esperanza) y
Varianza
Bernoulli Dice si ocurre éxito o fracaso en una 𝑋 𝑃(𝑋 = 𝑥𝑖 ) 𝐸 𝑋 =𝑝
𝑋 ∈ 𝐵𝑒𝑟𝑛𝑜𝑢𝑙𝑙𝑖(𝑝) prueba. 0 𝑞 =1−𝑝 𝑉𝑎𝑟(𝑋) = 𝑝𝑞.
𝑝 = 𝑃(é𝑥𝑖𝑡𝑜) 1 𝑝
𝑛 𝑛!
=
𝑘 𝑘! (𝑛 − 𝑘)!
Uniforme 1 𝑎+𝑏
𝑓(𝑥) = 𝑏 − 𝑎
𝑠𝑖 𝑥 ∈ [𝑎, 𝑏] 𝐸 𝑋 =
𝑋 ∈ 𝑈(𝑎, 𝑏)) 2
0 𝑠𝑖 𝑥 ∉ [𝑎, 𝑏] (𝑏 − 𝑎)2
𝑉𝑎𝑟(𝑋) =
12
Exponencial 0 𝑠𝑖 𝑥<0 1
𝑓(𝑥) = 𝐸 𝑋 =
𝑋 ∈ 𝐸𝑥𝑝(𝜆) 𝜆𝑒 −𝜆𝑥 𝑠𝑖 𝑥≥0 𝜆
1
𝑉𝑎𝑟(𝑋) =
𝜆2
Normal 1 𝑥−𝜇 2 𝐸 𝑋 =𝜇
−
𝑋 ∈ 𝑁(𝜇, 𝜎)) 𝑓 𝑥 = 𝑒 2𝜎2 ,
𝑉𝑎𝑟(𝑋) = 𝜎 2
𝜎 2𝜋
𝑠𝑖 − ∞ < 𝑥 < ∞.
Variables relacionadas con la normal
Variable Definición Gráfica
Chi-cuadrado Es la suma de 𝑘 variables aleatorias
(con k grados de libertad) independientes con distribución 𝑁(0,1),
elevadas al cuadrado.
𝜒𝑘2 = 𝑋12 + 𝑋22 +. . . +𝑋𝑘2 ,
con 𝑋𝑖 ∈ 𝑁(0,1)
Este teorema dice, de manera esquemática, que, cuando sumamos un número grande de variables
independientes, la variable resultante sigue una distribución normal.
De manera general, si 𝑋1 , 𝑋2 , . . . , 𝑋𝑛 son variables aleatorias
de media o esperanza 𝜇𝑖 = 𝐸(𝑋𝑖 ) y varianza 𝜎𝑖2 = 𝑉𝑎𝑟(𝑋𝑖 ), 𝑖 = 1, . . . , 𝑛,
se verifica que la variable suma 𝑌 = 𝑋1 + 𝑋2 +. . . +𝑋𝑛 (si 𝑛 es un número tendiendo a infinito)
se puede aproximar por una variable normal, de media la suma de las medias y varianza la suma de varianzas
(desviación típica = raíz de la suma de varianzas), es decir
𝑛 𝑛
𝑌 = 𝑋1 + 𝑋2 +. . . +𝑋𝑛 ≈ 𝑁 𝜇𝑖 , 𝜎𝑖2
𝑖=1 𝑖=1
Estimación de
parámetros
Definiciones básicas
Estadístico Estimador Muestra aleatoria simple Estimación
Una función de variables Estadístico que se usa para Valor concreto del estimador para
aleatorias estimar un parámetro (𝑥1 , 𝑥2 , . . . , 𝑥𝑛 ) una muestra en particular. La
desconocido estimación viene a ser una
predicción del valor teórico
desconocido.
Ejemplo
𝑋1 + 𝑋2 . . . +𝑋𝑛 (8,21,15,11,12,23) 𝜇=
8 + 21 + 15 + 11 + 12 + 23
= 15
𝜇= 6
𝑔 𝑋1 , 𝑋2 , . . . , 𝑋𝑛 = 𝑛
𝑋1 + 𝑋2 +. . . +𝑋𝑛
=
𝑛
Parámetro a estimar
Media Varianza Proporción
Insesgado y consistente
Intervalos de confianza
Intervalo de confianza
𝑋 ∈ 𝑁(𝜇, 𝜎)
Parámetro Estadístico pivote Intervalo de confianza
𝑥 − 𝜇𝑜 𝑆𝑛−1 =
𝑛
𝑖=1(𝑥𝑖 − 𝑥)2
𝑤= ∈ 𝑡𝑛−1 𝑛−1
𝑆𝑛−1 / 𝑛
𝑡𝑛−1,𝛼/2 el valor de una distribución 𝑡 de
Student con n-1 grados de libertad que deja
a su derecha área 𝛼/2
Intervalo de confianza
𝑋 ∈ 𝑁(𝜇, 𝜎)
Parámetro Estadístico pivote Intervalo de confianza
𝑛 𝑛
Si se conoce la media 𝜇 (𝑥𝑖 − 𝜇)2 (𝑥𝑖 − 𝜇)2
Varianza 𝑖=1
2 ,
𝑖=1
2
𝜒𝑛,𝛼/2 𝜒𝑛,1−𝛼/2
𝑛 2
𝑖=1 (𝑥𝑖 − 𝜇)
𝑤= ∈ 𝜒𝑛2
𝜎𝑜2
2
𝜒𝑛,𝛼/2 el valor de una Chi-cuadrado, con
𝑛 grados de libertad, que deja a la
derecha 𝛼/2 de área
.
Si NO se conoce la media 𝜇 𝑛
𝑖=1 (𝑥𝑖 −𝑥)
2 𝑛
𝑖=1 (𝑥𝑖 −𝑥)
2
2 , 2 =
𝜒𝑛−1,𝛼/2 𝜒𝑛−1,1−𝛼/2
2
𝑛𝑆𝑛2 (𝑛 − 1)𝑆𝑛−1
𝑤= 2 =
𝜎𝑜 𝜎𝑜2 2
(𝑛−1)𝑆𝑛−1 2
(𝑛−1)𝑆𝑛−1
= 2 , 2 =
𝑛 2 𝜒𝑛−1,𝛼/2 𝜒𝑛−1,1−𝛼/2
𝑖=1 (𝑥𝑖 − 𝑥) 2
= ∈ 𝜒𝑛−1 𝑛𝑆𝑛2 𝑛𝑆𝑛2
𝜎𝑜2 2 ,2
𝜒𝑛−1,𝛼/2 𝜒𝑛−1,1−𝛼/2
2
𝜒𝑛−1,𝛼/2 el valor de una Chi-cuadrado con
𝑛 − 1 grados de libertad que deja a la
derecha 𝛼/2 de área
Intervalos de confianza para proporciones
Parámetro Estadístico pivote Intervalo de confianza
2
𝑆𝑛−1 𝑆2
(𝑥 − 𝑦) ± 𝑡𝑛+𝑚−2,𝛼/2 ⋅ 𝐴 ∙ 𝐵 2
𝑆𝑛−1 𝑆2
+ 𝑚−1 (𝑥 − 𝑦) ± 𝑡𝑛+𝑚−2−Δ,𝛼/2 + 𝑚−1
𝜎𝑋2 𝜎𝑌2 (𝑥 − 𝑦) ± 𝑍𝛼/2
𝑛 𝑚 𝑛 𝑚
(𝑥 − 𝑦) ± 𝑍𝛼/2 +
𝑛 𝑚 2 +(𝑚−1)𝑆 2
(𝑛−1)𝑆𝑛−1
siendo Δ el entero más próximo a
𝑚−1
A= 2
𝑛+𝑚−2 𝑆2 𝑆2
(𝑚 − 1) 𝑛−1 − (𝑛 − 1) 𝑚−1
𝑛 𝑚
2 2 2 2
𝑆𝑛−1 𝑆𝑚−1
1 1 (𝑚 − 1) + (𝑛 − 1)
𝑛 𝑚
B= +
𝑛 𝑚
Ejemplo: la estatura media de los varones españoles mayores de 18 años es 1.77 m (𝜇 = 1.77).
Si se especifica más de un valor para el parámetro la llamaremos hipótesis compuesta. Ejemplo: 𝜇 ≥ 1.75.
• Hipótesis alternativa.
Por medio de un test o contraste de hipótesis, el investigador deberá tomar una decisión entre dos
alternativas. La manera de hacerlo será elegir una muestra lo suficientemente representativa de la población en
estudio, y ver si los resultados que se obtienen son coherentes con la hipótesis formulada.
Cuando estamos realizando un contraste pueden darse
REALIDAD
las situaciones que vemos en la siguiente tabla
𝐻0 𝐻1
RECHAZO
𝐻0 Error tipo I Decisión correcta
b) Una persona llega a un hospital. 𝛼 es la probabilidad de rechazar que alguien esté enfermo,
cuando en realidad lo está. 𝛽 es la probabilidad de decir que sí
𝐻0 : enfermo. 𝐻1 : no enfermo. está enfermo, cuando en realidad no lo está.
En ambos casos, cometer un error de tipo I es más grave que cometer uno de tipo II
Test o contrastes de
hipótesis paramétricos
más usuales
Tipos de contrastes paramétricos: unilaterales y bilaterales
Un contraste es bilateral cuando tiene la forma
𝑯𝟎 : 𝜃 = 𝜃0 (Por 𝜃 nos referimos a un parámetro teórico y por 𝜃0 a un valor constante, un número) frente a
𝑯𝟏 : 𝜃 ≠ 𝜃0 .
𝑯𝟎 : 𝜃 = 𝜃0 frente a 𝑯𝟏 : 𝜃 > 𝜃0
Ejemplos:
3.-) Tomar una muestra (𝑥1 . 𝑥2 , . . . , 𝑥𝑛 ) y evaluar el estadístico Nivel crítico o 𝒑 −valor: es la
del contraste bajo 𝐻0 , es decir 𝑤 = 𝑑(𝑥1 . 𝑥2 , . . . , 𝑥𝑛 ; 𝐻0 ). probabilidad de tener un valor del
4.-) Concluir si la diferencia 𝑤 es estadísticamente significativa estadístico igual o mayor al
(se rechaza 𝐻0 o no), según el p-valor del estadístico. Para ello observado cuando 𝐻0 es cierta
podemos fijar un nivel de confianza 1 − 𝛼 determinado y tomar una
decisión en base al mismo.
4 bis.-) Si no se fija ningún valor para 𝛼
La regla de decisión, tras calcular el p-valor, es:
Si 𝑝 − 𝑣𝑎𝑙𝑜𝑟 > 0.2 𝐚𝐜𝐞𝐩𝐭𝐚𝐦𝐨𝐬 𝑯𝟎
Si 𝑝 − 𝑣𝑎𝑙𝑜𝑟 > 𝛼 𝐚𝐜𝐞𝐩𝐭𝐚𝐦𝐨𝐬 𝑯𝟎
𝐻0 : 𝜃 = 𝜃0 (≤)
Unilateral
frente a
𝐻1 : 𝜃 > 𝜃0
𝐻0 : 𝜃 = 𝜃0 (≥)
Unilateral
frente a
𝐻1 : 𝜃 < 𝜃0
Contrastes para los parámetros de una variable normal
𝑋 ∈ 𝑁(𝜇, 𝜎)
Estadístico pivote
Si NO se conoce la 𝑥 − 𝜇𝑜
𝑤= ∈ 𝑡𝑛−1
desviación típica 𝜎 𝑆𝑛−1 / 𝑛
Si NO se conoce la media 𝜇 2 𝑛
𝑛𝑆𝑛2 (𝑛 − 1)𝑆𝑛−1 𝑖=1 (𝑥𝑖 − 𝑥)2 2
𝑤= 2 = = ∈ 𝜒𝑛−1
𝜎𝑜 𝜎𝑜2 𝜎𝑜2
Contrastes para comparar poblaciones normales
𝐗 ∈ 𝑁(𝜇𝑋 , 𝜎𝑋 ) e 𝒀 ∈ 𝑁(𝜇𝑌 , 𝜎𝑌 ), independientes
Estadístico pivote
Estadístico pivote
Para una
proporción 𝑝 − 𝑝0
𝑤= ≈ 𝑁(0,1)
𝐻0 : 𝑝 = 𝑝0 𝑝0 (1 − 𝑝0 )
𝑛
Para la
(𝑝1 − 𝑝2 ) − (𝑝1 − 𝑝2 )
igualdad de 𝑤= ≈ 𝑁(0,1)
proporciones 𝑝1 (1 − 𝑝1 ) 𝑝2 (1 − 𝑝2 )
+
𝐻0 : 𝑝1 = 𝑝2 𝑛1 𝑛2
o 𝑝1 − 𝑝2 = 0
Contraste de independencia entre atributos o caracteres
En el contraste de independencia, se desea decidir si las dos variables en una tabla de contingencia están o no
asociadas. Este es un ejemplo de contraste no paramétrico. Se tendría
H0: Las variables en filas y columnas de la tabla son independientes
H1: Hay asociación o dependencia entre las filas y columnas de la tabla
Estadístico pivote:
(𝑓𝑖𝑗 −𝑒𝑖𝑗 )2 2
𝑤= ~𝜒(𝑓𝑖𝑙𝑎𝑠−1)(𝑐𝑜𝑙𝑢𝑚𝑛𝑎𝑠−1)
𝑒𝑖𝑗
𝑖 𝑗