Está en la página 1de 52

Fórmulas o

Chuletario o
Resumen para vagos
Estadística descriptiva.
Una variable
Se pueden ordenar
Ordinales (bajos, medios, altos)
Cualitativas (atributos)

color del pelo, raza, idioma


No se pueden ordenar
Nominales (color de ojos))

Variables

Edad
Discretas
Número de cuentas en Suiza
Cuantitativas

estatura, peso, número de dientes


Continuas Estatura, peso, tiempo,
temperatura…
Tabla de frecuencias
X variable que toma los datos, 𝑥(1), 𝑥(2) , … , 𝑥 𝑟 (𝑑𝑎𝑡𝑜𝑠 𝑜𝑟𝑑𝑒𝑛𝑎𝑑𝑜𝑠 𝑑𝑒 𝑚𝑒𝑛𝑜𝑟 𝑎 𝑚𝑎𝑦𝑜𝑟)

xi ni Ni fi Fi
n1
x1 n1 N1  n1 f1 = F1  f1
n ni Frecuencia
n2
x(2) n2 N 2 = n1  n2 f2 = F2 = f1  f 2 absoluta
n Ni Frecuencia
n3 absoluta
x(3) n3 N 3 = n1  n2  n3 f3 = F3 = f1  f 2  f 3 acumulada
n Frecuencia
     fi relativa
nr Frecuencia
x r  nr Nr = n fr = Fr = 1 Fi
n relativa
acumulada
Representaciones gráficas: variables discretas

Cartograma Pictograma Diagrama de barras Diagrama de sectores

Consumo de cocaína
en Europa
Clasificación de datos en intervalos
En el caso de que haya muchas observaciones, la mayoría de ellas distintas,

pueden disponerse agrupándolas en intervalos e indicando el número de

observaciones que caen dentro de cada intervalo. Para ello se elige un número

𝑎0 ≤ 𝑚𝑖𝑛(𝑋), y otro 𝑎𝑘 ≥ 𝑚𝑎𝑥(𝑋),

𝒂𝟎 𝒂𝒌
y se divide el intervalo 𝒂𝟎 -𝒂𝒌 en 𝑘 intervalos (generalmente de igual longitud).

𝒂𝟎 𝒂𝟏 𝒂 𝟐 𝒂𝒌−𝟏 𝒂𝒌
Representaciones gráficas: variables continuas
Histograma de frecuencias Polígono de frecuencias

Características básicas: Características básicas:

• Muchos intervalos – histograma muy variable Consiste en unir los puntos medios de los
• Pocos intervalos – histograma poco variable extremos superiores de los rectángulos
• Número correcto – “en general” el que da el del histograma. Luego se completa llevando
programa: las líneas al eje horizontal.
𝒏 , 𝒍𝒐𝒈𝟐 n siendo n el número de datos
Medidas de posición, tendencia central o promedios
X≡ {𝑥1 , 𝑥2 ,.., 𝑥𝑛 }
Media aritmética 𝑥1 + 𝑥2 +. . . +𝑥𝑛
𝑥=
𝑛
Media aritmética ponderada 𝑥1 ⋅ 𝑤1 + 𝑥2 ⋅ 𝑤2 +. . . +𝑥𝑛 ⋅ 𝑤𝑛
𝑥𝑝 =
Consiste en asignar a cada valor 𝑥𝑖 un peso 𝑤𝑖 que depende de la 𝑤1 + 𝑤2 +. . . +𝑤𝑛
importancia relativa de dicho valor

Mediana
el valor que divide a la variable en dos partes iguales, dejando a cada
lado el 50 por ciento de los datos

Moda 2,3,3,4,6,7,7,7,10
el valor que más se repite. Si la variable está clasificada en intervalos,
se habla de intervalo modal
Moda relativa

Moda absoluta
Medidas de posición, tendencia central o promedios
Cuantil
Se llama cuantil de orden 𝑝 (0 < 𝑝 < 100) (𝑄𝑝 ) a aquel
valor que divide a la variable en dos partes, dejando a su
izquierda (o inferiores a él) el 𝑝 por ciento de los datos (a
su derecha el 100 − 𝑝 por ciento)

Cuartiles Q1, Q2,Q3 dividen las observaciones en 4 partes


iguales

Deciles D1,D2,…,D9 dividen las observaciones en 10 partes


iguales

Percentiles P1…P99 dividen las observaciones en 100


partes iguales
Medidas de dispersión
𝑛
Medidas de dispersión Varianza 1
absolutas 𝑆2 = 𝜎2 = (𝑥𝑖 − 𝑥)2 =
𝑛
(vienen dadas en las unidades de 𝑖=1

medida de la variable)
𝑥1 −𝑥 2 +(𝑥2 −𝑥)2 +...+ 𝑥𝑛 −𝑥 2
= 𝑛
(a veces se divide por 𝑛-1)

Desviación típica 𝑆 = + 𝑆2
Recorrido, Amplitud o Rango 𝑅 = 𝑀𝑎𝑥(𝑋) − 𝑀𝑖𝑛(𝑋)
Medidas de dispersión Recorrido intercuartílico 𝑅𝐼 = 𝑄3 − 𝑄1
relativas Coeficiente de variación 𝑆
(son adimensionales, no 𝐶𝑉 =
|𝑥|
dependen de unidades de
medida) Recorrido semi-intercuartílico 𝑄3 − 𝑄1
𝑅𝑆𝐼 =
𝑄3 + 𝑄1
Simetría

CA es algún coeficiente de asimetría. Por ejemplo:


𝑛
𝑚3 1
𝑔1 = 3 , 𝑚3 = (𝑥𝑖 − 𝑥)3
𝑆 𝑛
𝑖=1

𝑆 la desviación típica
Curtosis

Distribución menos Distribución igual de Distribución más


apuntada que la apuntada que la apuntada que la
normal distribución normal normal

𝑚4 1 𝑛
𝑔2 es algún coeficiente de curtosis Por ejemplo: 𝑔2 = − 3, siendo 𝑚4 = 𝑖=1 (𝑥𝑖 − 𝑥)4 .
𝑆4 𝑛
Box-plot (diagrama de caja y bigotes)
Estadística descriptiva.
Dos variables
Representaciones gráficas: variables discretas
En el siguiente ejemplo tenemos dos variables cualitativas que son: deportes
preferidos y género.

futbol baloncesto voleibol atletismo otros total


hombre 35 14 10 6 7 72
mujer 3 38 19 13 11 84
total 38 52 29 19 18 156

40

35
38
30

3 25
35

20 hombre
19
mujer
15
13 11
14 10
10
6 7
5
FUTBOL BALONCESTO VOLEIBOL ATLETISMO OTROS

hombre mujer 0
futbol baloncesto voleibol atletismo otros
Representaciones en 3 dimensions
Representaciones gráficas: nube de puntos o diagrama de dispersión
Línea de regresión.

𝑎 = 𝑦 − 𝑏𝑥
𝑦 = 𝑎 + 𝑏𝑥 𝑆𝑥𝑦
𝑏= 2
𝑆𝑥
𝑛
1
𝑆𝑥𝑦 = (𝑥𝑖 − 𝑥)(𝑦𝑖 − 𝑦)
𝑛
𝑖=1
Coeficiente de correlación lineal: posibles valores

𝑆𝑥𝑦
𝑟=
𝑆𝑥 𝑆𝑦

−1 ≤ 𝑟 ≤ 1
Coeficiente de
determinación
𝑟2
0 ≤ 𝑟 2 ≤1
Probabilidad
El conjunto de los posibles resultados de un experimento aleatorio se llama espacio
muestral. Se representa con la letra griega Ω.

Suceso elemental. Cada uno de los posibles resultados de un experimento aleatorio. En el


ejemplo del lanzamiento de un dado, cualquiera de los números del 1 al 6 es un suceso
elemental.
Suceso. Es un subconjunto del espacio muestral, 𝐴 ⊂ Ω. Se dice que ocurre un suceso si
ocurre alguno de los sucesos elementales que lo componen.

Suceso imposible. Es el suceso que no puede ocurrir nunca. Como conjunto, es el conjunto
vacío ∅.

Dos sucesos se llaman incompatibles si no pueden ocurrir simultáneamente (al lanzar un


dado no puede salir un número par e impar a la vez). Dos sucesos son incompatibles si
como conjuntos son disjuntos (𝐴 ∩ 𝐵 = ∅).
Operaciones con sucesos
A B

Unión Intersección Diferencia Complementario


𝐴 ∪ 𝐵 es el conjunto o 𝐴 ∩ 𝐵 es el conjunto o 𝐴 − 𝐵 es el conjunto o El complementario de un
suceso formado por los suceso formado por los suceso formado por los suceso es el suceso
elementos que están en 𝐴 ó elementos que están en 𝐴 y elementos que están en 𝐴 y formado por todos los
están en 𝐵 también están en 𝐵 NO están en 𝐵 elementos que no están en
dicho conjunto

Ω
• P(Suceso total Ω)=1
• P(cualquier suceso) es un número entre 0 y 1
• P(suceso imposible ∅) = 0
• Si A está contenido en B, P(A)≤P(B)
• P(complementario de A 𝐴)=1-P(A)
• P A ∪ B = P A + P B − P A ∩ B . Si A∩B=∅ entonces P(AUB)=P(A)+P(B)
• P(AUBUC)=P(A)+P(B)+P(C)-P(A∩B)-P(A∩C) -P(B ∩ C)+ P(A ∩B ∩C) y si la unión es
de más se va complicando…

• P(A-B)=P(A)-P(A∩B)
• 𝑃 𝐴1 ∩ ⋯ ∩ 𝐴𝑛 = 1 − 𝑃 𝐴1 ∪ 𝐴2 ∪ ⋯ ∪ 𝐴𝑛
• 𝑃(𝐴1 ∪. . .∪ 𝐴𝑛 ) = 1 − 𝑃(𝐴1 ∩ 𝐴2 ∩. . .∩ 𝐴𝑛 ).
Probabilidad condicionada.

𝑃(𝐴∩𝐵) 𝑃(𝐴∩𝐵)
Si 𝑃(𝐵) ≠ 0, entonces 𝑃(𝐴/𝐵) = Si 𝑃(𝐴) ≠ 0 entonces 𝑃(𝐵/𝐴) =
𝑃(𝐵) 𝑃(𝐴)

Probabilidad de la intersección.
𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐴) ⋅ 𝑃(𝐵/𝐴) = 𝑃(𝐵) ⋅ 𝑃(𝐴/𝐵)

Si 𝐴 y 𝐵 son independientes, 𝑃(𝐴/𝐵) = 𝑃(𝐴) y 𝑃(𝐵/𝐴) = 𝑃(𝐵)


En consecuencia 𝑃 𝐴∩𝐵 =𝑃 𝐴 ⋅𝑃 𝐵
Si tenemos 𝑛 sucesos (Regla del producto):
𝑃 𝐴1 ∩ 𝐴2 ∩. . .∩ 𝐴𝑛 =
= 𝑃(𝐴1 )𝑃(𝐴2 /𝐴1 )𝑃(𝐴3 /𝐴1 ∩ 𝐴2 )𝑃(𝐴4 /𝐴1 ∩ 𝐴2 ∩ 𝐴3 ) ⋅. . .⋅ 𝑃(𝐴𝑛 /𝐴1 ∩. . . 𝐴𝑛−1 )

Ahora bien, si son independientes (que la ocurrencia de cada uno no influya en la ocurrencia de ningún
otro):
𝑃(𝐴1 ∩ 𝐴2 ∩. . .∩ 𝐴𝑛 ) = 𝑃(𝐴1 ) ⋅ 𝑃(𝐴2 ) ⋅. . .⋅ 𝑃(𝐴𝑛 )
Probabilidad total.
Si tenemos 𝐴1 , 𝐴2 , . . . , 𝐴𝑛 , tales que 𝑃(𝐴1 ) + 𝑃(𝐴2 )+. . . +𝑃(𝐴𝑛 ) = 1, y los
sucesos son incompatibles (𝐴𝑖 ∩ 𝐴𝑗 = 𝜙), entonces, para otro suceso B,
𝑛

𝑃(𝐵) = 𝑃(𝐵/𝐴𝑖 ) ⋅ 𝑃(𝐴𝑖 )


𝑖=1

Regla de Bayes. Si tenemos 𝐴1 , 𝐴2 , . . . , 𝐴𝑛 , tales que 𝑃(𝐴1 ) +


𝑃(𝐴2 )+. . . +𝑃(𝐴𝑛 ) = 1, los sucesos son incompatibles (𝐴𝑖 ∩ 𝐴𝑗 = 𝜙), y
conocemos los valores 𝑃(𝐵/𝐴𝑖 ), entonces
𝑃 𝐴𝑗 ∩ 𝐵 𝑃(𝐵/𝐴𝑗 ) ⋅ 𝑃(𝐴𝑗 )
𝑃 𝐴𝑗 /𝐵 = = 𝑛
𝑃 𝐵 𝑖=1 𝑃(𝐵/𝐴𝑖 ) ⋅ 𝑃(𝐴𝑖 )
Variables aleatorias
Se caracteriza por su Matemáticamente Representación gráfica Media o Varianza
Esperanza
𝝁 = 𝑬(𝑿) 𝝈𝟐 = 𝑬[𝑿𝟐 ] − 𝝁𝟐

𝑛 𝑛
Variable Función de Tabla con valores y
Discreta probabilidad probabilidades (que 𝑥𝑖 𝑝𝑖 x𝑖2 𝑝𝑖 − 𝜇 2
suman 1) 𝑖=1 𝑖=1
Función de masa de
probabilidad, 𝑋 𝑃(𝑋 = 𝑥𝑖 )
𝑥1 𝑝1
Ley de probabilidad
𝑥2 𝑝2
⋮ ⋮
Distribución de
𝑥𝑘 𝑝𝑘
probabilidad
𝑝1 +. . . +𝑝𝑘 = 1


Variable Función de densidad 𝑓(𝑥) ≥ 0 y ∞

𝑥𝑓(𝑥)𝑑𝑥 𝑥 2 𝑓(𝑥)𝑑𝑥 − 𝜇 2
Continua ∞ −∞
−∞
𝑓 𝑥 𝑑𝑥 = 1
−∞
Variables aleatorias
discretas notables
Variable Características Ley de Probabilidad Media (Esperanza) y
Varianza
Bernoulli Dice si ocurre éxito o fracaso en una 𝑋 𝑃(𝑋 = 𝑥𝑖 ) 𝐸 𝑋 =𝑝
𝑋 ∈ 𝐵𝑒𝑟𝑛𝑜𝑢𝑙𝑙𝑖(𝑝) prueba. 0 𝑞 =1−𝑝 𝑉𝑎𝑟(𝑋) = 𝑝𝑞.
𝑝 = 𝑃(é𝑥𝑖𝑡𝑜) 1 𝑝

Binomial Cuenta el número de éxitos en n 𝑃 𝑋=𝑘 =


𝑛 𝑘 𝑛−𝑘
𝑝 𝑞 , donde
𝐸 𝑋 = 𝑛𝑝
𝑋 ∈ 𝐵𝑖(𝑛, 𝑝) pruebas de Bernoulli 𝑘 𝑉𝑎𝑟(𝑋) = 𝑛𝑝𝑞.
𝑘 = 0,1,2, … 𝑛

𝑛 𝑛!
=
𝑘 𝑘! (𝑛 − 𝑘)!

Binomial Negativa Cuenta el número de fracasos hasta 𝑟+𝑘−1 𝑟 𝑘 𝑟𝑞


𝑃 𝑋=𝑘 = 𝑝 𝑞 , 𝐸 𝑋 =
𝑋 ∈ 𝐵𝑁(𝑟, 𝑝) el éxito r 𝑘 𝑝
(si r=1, se llama geométrica o de 𝑘 = 0,1,2, . . . 𝑟𝑞
𝑉𝑎𝑟(𝑋) =
Pascal) 𝑝2

Poisson Cuenta el número de sucesos de −𝜆


𝜆𝑘 𝐸(𝑋) = 𝑉𝑎𝑟(𝑋) = 𝜆.
𝑋 ∈ 𝑃𝑜𝑖𝑠(𝜆) Poisson ocurridos en un intervalo 𝑃 𝑋=𝑘 =𝑒 ,
𝑘!
𝑘 = 0,1,2, . . .

Hipergeométrica Población de 𝑁 elementos, que se 𝑛𝐴 𝑛𝐴 𝑛 ⋅ 𝑛𝐴


𝐸 𝑋 =
𝑋 ∈ 𝐻(𝑁, 𝑛𝐴 , 𝑛) divide en dos clases: 𝐴 y 𝐴. El número 𝑃(𝑋 = 𝑘) = 𝑘 𝑛−𝑘 𝑁
de elementos de cada clase los 𝑁 𝑁 − 𝑛 𝑛 ⋅ 𝑛𝐴 𝑛𝐴
𝑉𝑎𝑟 𝑋 = 1−
denotamos como 𝑛𝐴 y 𝑛𝐴 . Se extrae 𝑛 𝑁−1 𝑁 𝑁
una muestra de tamaño 𝑛 de la
población, sin reemplazamiento.
𝑋 =“número de elementos de la
clase 𝐴 en la muestra”
Variables aleatorias
continuas notables
Variable Función de densidad Gráfica Media y Varianza

Uniforme 1 𝑎+𝑏
𝑓(𝑥) = 𝑏 − 𝑎
𝑠𝑖 𝑥 ∈ [𝑎, 𝑏] 𝐸 𝑋 =
𝑋 ∈ 𝑈(𝑎, 𝑏)) 2
0 𝑠𝑖 𝑥 ∉ [𝑎, 𝑏] (𝑏 − 𝑎)2
𝑉𝑎𝑟(𝑋) =
12

Exponencial 0 𝑠𝑖 𝑥<0 1
𝑓(𝑥) = 𝐸 𝑋 =
𝑋 ∈ 𝐸𝑥𝑝(𝜆) 𝜆𝑒 −𝜆𝑥 𝑠𝑖 𝑥≥0 𝜆
1
𝑉𝑎𝑟(𝑋) =
𝜆2

Normal 1 𝑥−𝜇 2 𝐸 𝑋 =𝜇

𝑋 ∈ 𝑁(𝜇, 𝜎)) 𝑓 𝑥 = 𝑒 2𝜎2 ,
𝑉𝑎𝑟(𝑋) = 𝜎 2
𝜎 2𝜋
𝑠𝑖 − ∞ < 𝑥 < ∞.
Variables relacionadas con la normal
Variable Definición Gráfica
Chi-cuadrado Es la suma de 𝑘 variables aleatorias
(con k grados de libertad) independientes con distribución 𝑁(0,1),
elevadas al cuadrado.
𝜒𝑘2 = 𝑋12 + 𝑋22 +. . . +𝑋𝑘2 ,
con 𝑋𝑖 ∈ 𝑁(0,1)

t de Student Es una variable aleatoria cuya función de


densidad también tiene forma de campana y
(con 𝑘 grados de libertad) es simétrica. Es, por lo tanto, muy parecida a
la densidad de la variable 𝑁(0,1) (de hecho, la
𝒁 media o esperanza de cualquier variable 𝑡 de
𝒕= donde 𝑍 ∈ 𝑁(0,1) e 𝑌 ∈ 𝜒𝑘2
𝒀 Student es cero). Sin embargo, tiene colas más
𝒌 pesadas (mayor área) que la campana de
Gauss.

F de Fisher-Snedecor La distribución 𝐹 es conocida


(con d1 y d2 grados de libertad) habitualmente como la distribución F de
𝒀 Snedecor, o distribución F de Fisher-
2
𝑭= 𝒅𝟏
𝑾
2
donde 𝑌 ∈ 𝜒𝑑1 , 𝑊 ∈ 𝜒𝑑2 , Snedecor, en honor a R.A. Fisher (1890 -
𝒅𝟐 1962) y George W. Snedecor (1881 -
1974).
El teorema central del límite
O hacemos la media de

Este teorema dice, de manera esquemática, que, cuando sumamos un número grande de variables
independientes, la variable resultante sigue una distribución normal.
De manera general, si 𝑋1 , 𝑋2 , . . . , 𝑋𝑛 son variables aleatorias
de media o esperanza 𝜇𝑖 = 𝐸(𝑋𝑖 ) y varianza 𝜎𝑖2 = 𝑉𝑎𝑟(𝑋𝑖 ), 𝑖 = 1, . . . , 𝑛,
se verifica que la variable suma 𝑌 = 𝑋1 + 𝑋2 +. . . +𝑋𝑛 (si 𝑛 es un número tendiendo a infinito)
se puede aproximar por una variable normal, de media la suma de las medias y varianza la suma de varianzas
(desviación típica = raíz de la suma de varianzas), es decir

𝑛 𝑛

𝑌 = 𝑋1 + 𝑋2 +. . . +𝑋𝑛 ≈ 𝑁 𝜇𝑖 , 𝜎𝑖2
𝑖=1 𝑖=1
Estimación de
parámetros
Definiciones básicas
Estadístico Estimador Muestra aleatoria simple Estimación

Una función de variables Estadístico que se usa para Valor concreto del estimador para
aleatorias estimar un parámetro (𝑥1 , 𝑥2 , . . . , 𝑥𝑛 ) una muestra en particular. La
desconocido estimación viene a ser una
predicción del valor teórico
desconocido.

si 𝑋1 , 𝑋2 , . . . , 𝑋𝑛 son Es la función anterior, que se Los datos son independientes, la


variables aleatorias, una usa para estimar o predecir obtención de cualquier dato no influye
algún parámetro, por ejemplo
función (que cumpla algunos en la obtención de otro
para estimar la media
requisitos matemáticos)
La probabilidad de escoger esta
𝑔(𝑋1 , 𝑋2 , . . . , 𝑋𝑛 ) se llama
muestra es la misma que la
estadístico.
probabilidad de escoger cualquier otra

Ejemplo
𝑋1 + 𝑋2 . . . +𝑋𝑛 (8,21,15,11,12,23) 𝜇=
8 + 21 + 15 + 11 + 12 + 23
= 15
𝜇= 6
𝑔 𝑋1 , 𝑋2 , . . . , 𝑋𝑛 = 𝑛

𝑋1 + 𝑋2 +. . . +𝑋𝑛
=
𝑛
Parámetro a estimar
Media Varianza Proporción

Estimador Media muestral Varianza muestral Proporción muestral


𝑋1 + 𝑋2 . . . +𝑋𝑛 Se elige una muestra aleatoria simple de 𝑛
𝜇=
𝑛 𝑛
𝑖=1 (𝑥𝑖 − 𝑥)2 individuos y se anota 1 ó 0 según que el individuo tenga
𝑆𝑛2 = o no la característica de interés.
𝑛
número de unos
𝑝=
𝑛

Propiedades: Propiedades: Propiedades:

Insesgado y consistente No insesgado y consistente Insesgado y consistente

Estimador Cuasi-varianza muestral


𝑛
2 𝑖=1 (𝑥𝑖 − 𝑥)2
𝑆𝑛−1 =
𝑛−1
Propiedades:

Insesgado y consistente
Intervalos de confianza
Intervalo de confianza
𝑋 ∈ 𝑁(𝜇, 𝜎)
Parámetro Estadístico pivote Intervalo de confianza

Media Si se conoce la desviación 𝜎 𝜎


𝑥 − 𝑍𝛼 , 𝑥 + 𝑍𝛼/2
típica 𝜎 2 𝑛 𝑛
𝑥1 +. . . +𝑥𝑛
𝑥 − 𝜇𝑜 𝑥=
𝑛
𝑤= ∈ 𝑁(0,1)
𝜎/ 𝑛 𝑍𝛼/2 el valor de una distribución 𝑁 0,1 que
𝛼
deja a su derecha 2
de área

Si NO se conoce la desviación 𝑆𝑛−1 𝑆𝑛−1


𝑥 − 𝑡𝑛−1,𝛼/2 , 𝑥 + 𝑡𝑛−1,𝛼/2
típica 𝜎 𝑛 𝑛

𝑥 − 𝜇𝑜 𝑆𝑛−1 =
𝑛
𝑖=1(𝑥𝑖 − 𝑥)2
𝑤= ∈ 𝑡𝑛−1 𝑛−1
𝑆𝑛−1 / 𝑛
𝑡𝑛−1,𝛼/2 el valor de una distribución 𝑡 de
Student con n-1 grados de libertad que deja
a su derecha área 𝛼/2
Intervalo de confianza
𝑋 ∈ 𝑁(𝜇, 𝜎)
Parámetro Estadístico pivote Intervalo de confianza

𝑛 𝑛
Si se conoce la media 𝜇 (𝑥𝑖 − 𝜇)2 (𝑥𝑖 − 𝜇)2
Varianza 𝑖=1
2 ,
𝑖=1
2
𝜒𝑛,𝛼/2 𝜒𝑛,1−𝛼/2
𝑛 2
𝑖=1 (𝑥𝑖 − 𝜇)
𝑤= ∈ 𝜒𝑛2
𝜎𝑜2
2
𝜒𝑛,𝛼/2 el valor de una Chi-cuadrado, con
𝑛 grados de libertad, que deja a la
derecha 𝛼/2 de área

.
Si NO se conoce la media 𝜇 𝑛
𝑖=1 (𝑥𝑖 −𝑥)
2 𝑛
𝑖=1 (𝑥𝑖 −𝑥)
2
2 , 2 =
𝜒𝑛−1,𝛼/2 𝜒𝑛−1,1−𝛼/2
2
𝑛𝑆𝑛2 (𝑛 − 1)𝑆𝑛−1
𝑤= 2 =
𝜎𝑜 𝜎𝑜2 2
(𝑛−1)𝑆𝑛−1 2
(𝑛−1)𝑆𝑛−1
= 2 , 2 =
𝑛 2 𝜒𝑛−1,𝛼/2 𝜒𝑛−1,1−𝛼/2
𝑖=1 (𝑥𝑖 − 𝑥) 2
= ∈ 𝜒𝑛−1 𝑛𝑆𝑛2 𝑛𝑆𝑛2
𝜎𝑜2 2 ,2
𝜒𝑛−1,𝛼/2 𝜒𝑛−1,1−𝛼/2

2
𝜒𝑛−1,𝛼/2 el valor de una Chi-cuadrado con
𝑛 − 1 grados de libertad que deja a la
derecha 𝛼/2 de área
Intervalos de confianza para proporciones
Parámetro Estadístico pivote Intervalo de confianza

Proporción 𝑝−𝑝 𝑝(1 − 𝑝)


𝑤= ≈ 𝑁(0,1) 𝑝 ± 𝑍𝛼/2
𝑝(1 − 𝑝) 𝑛
𝑝 = 𝑃(𝐴) la
𝑛
proporción de 𝑝 = (número de elementos con la
elementos de la carácterística 𝐴 en la muestra de
población con la tamaño 𝑛)/𝑛;
característica 𝐴
𝑍𝛼/2 el valor de una distribución 𝑁 0,1 que
𝛼
deja a su derecha de área
2

Diferencia de (𝑝1 − 𝑝2 ) − (𝑝1 − 𝑝2 ) 𝑝1 ⋅ (1 − 𝑝1 ) 𝑝2 ⋅ (1 − 𝑝2)


w= (𝑝1 − 𝑝2) ± 𝑍𝛼/2 ⋅
𝑛1
+
𝑛2
proporciones 𝑝1 (1 − 𝑝1 ) 𝑝2 (1 − 𝑝2 )
+
𝑛1 𝑛2
Ahora suponemos dos ≈ 𝑁(0,1) Se toma una muestra de tamaño 𝑛1 de la
poblaciones en donde se primera población, y otra de tamaño 𝑛2
considera la misma en la segunda, y se calculan las
característica 𝐴. 𝑝1 es la respectivas proporciones muestrales 𝑝1
proporción de elementos y 𝑝2
con dicha característica en
la primera población, y 𝑝2
es la proporción en la
segunda población.

≈ significa que la distribución, en vez de ser exacta, es aproximada


Intervalo de confianza para comparar poblaciones normales
𝐗 ∈ 𝑁(𝜇𝑋 , 𝜎𝑋 ) e 𝒀 ∈ 𝑁(𝜇𝑌 , 𝜎𝑌 ), independientes
Intervalo para la diferencia de medias 𝝁𝑿 − 𝝁𝒀
Conociendo las desviaciones típicas Desconociendo las desviaciones típicas Desconociendo las desviaciones Desconociendo las desviaciones
𝝈𝑿 y 𝝈𝒀 pero suponiendo que son iguales típicas y suponiendo que los típicas y suponiendo que los
tamaños de las muestras son tamaños de las muestras son
grandes (𝐧, 𝐦 ≥ 𝟑𝟎) pequeños (𝐧, 𝐦 < 𝟑𝟎)

2
𝑆𝑛−1 𝑆2
(𝑥 − 𝑦) ± 𝑡𝑛+𝑚−2,𝛼/2 ⋅ 𝐴 ∙ 𝐵 2
𝑆𝑛−1 𝑆2
+ 𝑚−1 (𝑥 − 𝑦) ± 𝑡𝑛+𝑚−2−Δ,𝛼/2 + 𝑚−1
𝜎𝑋2 𝜎𝑌2 (𝑥 − 𝑦) ± 𝑍𝛼/2
𝑛 𝑚 𝑛 𝑚
(𝑥 − 𝑦) ± 𝑍𝛼/2 +
𝑛 𝑚 2 +(𝑚−1)𝑆 2
(𝑛−1)𝑆𝑛−1
siendo Δ el entero más próximo a
𝑚−1
A= 2
𝑛+𝑚−2 𝑆2 𝑆2
(𝑚 − 1) 𝑛−1 − (𝑛 − 1) 𝑚−1
𝑛 𝑚
2 2 2 2
𝑆𝑛−1 𝑆𝑚−1
1 1 (𝑚 − 1) + (𝑛 − 1)
𝑛 𝑚
B= +
𝑛 𝑚

Intervalo para la razón de varianzas 𝝈𝟐𝑿 /𝝈𝟐𝒀


2
𝑆𝑚−1 2
𝑆𝑚−1
𝐹𝑛−1,𝑚−1,1−𝛼/2 2 , 𝐹𝑛−1,𝑚−1,𝛼/2 2 siendo 𝐹𝑛−1,𝑚−1,𝛼/2 el valor de una F de Snedecor, con 𝑛 − 1 y 𝑚 − 1 grados de libertad, que
𝑆𝑛−1 𝑆𝑛−1
𝛼
deja a la derecha 𝛼/2 de área (o sea el cuantil que deja a la izquierda 1 − de área)
2
Test o contrastes de
hipótesis
Una hipótesis paramétrica es una afirmación sobre una o más características (parámetros) de una
población.
Si dicha hipótesis especifica un único valor para el parámetro la llamaremos hipótesis simple.

Ejemplo: la estatura media de los varones españoles mayores de 18 años es 1.77 m (𝜇 = 1.77).

Si se especifica más de un valor para el parámetro la llamaremos hipótesis compuesta. Ejemplo: 𝜇 ≥ 1.75.

La realización de un contraste implica la existencia de dos hipótesis:


• Hipótesis nula.

Se denota por 𝐻0 , y se asume como correcta.

• Hipótesis alternativa.

Se denota por 𝐻1 , y es la que pretendemos contrastar como opuesta a la hipótesis nula.

Por medio de un test o contraste de hipótesis, el investigador deberá tomar una decisión entre dos
alternativas. La manera de hacerlo será elegir una muestra lo suficientemente representativa de la población en
estudio, y ver si los resultados que se obtienen son coherentes con la hipótesis formulada.
Cuando estamos realizando un contraste pueden darse
REALIDAD
las situaciones que vemos en la siguiente tabla
𝐻0 𝐻1

RECHAZO
𝐻0 Error tipo I Decisión correcta

𝛼 =P(rechazar 𝐻0 siendo cierta)=P(Error tipo I).


𝐻1 Decisión Correcta Error tipo II
𝛼 se llama nivel de significación del contraste.

𝛽 =P(aceptar 𝐻0 siendo falsa)=P(Error tipo II).

1-𝛽 = 𝑃(rechazar 𝐻0 siendo falsa) se llama Potencia del contraste (mide la


probabilidad de acertar cuando rechazamos 𝐻0 ).

a) Un acusado en un juicio. 𝛼 es la probabilidad de rechazar la inocencia, cuando


realmente el acusado es inocente. 𝛽 es la probabilidad de
𝐻0 : inocente. 𝐻1 : culpable. aceptar la inocencia cuando el acusado es culpable.

b) Una persona llega a un hospital. 𝛼 es la probabilidad de rechazar que alguien esté enfermo,
cuando en realidad lo está. 𝛽 es la probabilidad de decir que sí
𝐻0 : enfermo. 𝐻1 : no enfermo. está enfermo, cuando en realidad no lo está.

En ambos casos, cometer un error de tipo I es más grave que cometer uno de tipo II
Test o contrastes de
hipótesis paramétricos
más usuales
Tipos de contrastes paramétricos: unilaterales y bilaterales
Un contraste es bilateral cuando tiene la forma

𝑯𝟎 : 𝜃 = 𝜃0 (Por 𝜃 nos referimos a un parámetro teórico y por 𝜃0 a un valor constante, un número) frente a
𝑯𝟏 : 𝜃 ≠ 𝜃0 .

Un contraste unilateral es de la forma:

𝑯𝟎 : 𝜃 = 𝜃0 frente a 𝑯𝟏 : 𝜃 > 𝜃0

o bien 𝑯𝟎 : 𝜃 = 𝜃0 frente a 𝑯𝟏 : 𝜃 < 𝜃0 .

Ejemplos:

Con el mayor consumo de chucherías y comida


basura, parece que el peso medio de los niños de 12 El nuevo virus zombi ha provocado una alteración
años ha aumentado. en el peso de los adultos.
Contraste unilateral Contraste bilateral:
𝐻0 : 𝜇 = 26 kg frente a 𝐻1 : 𝜇 > 26 unilateral 𝐻0 : 𝜇 = 60 kg frente a 𝐻1 : 𝜇 ≠ 60
Etapas básicas de un contraste
Etapas:

1.-) Especificar las hipótesis nula y alternativa.

2.-) Elegir un estadístico de contraste apropiado 𝑤 (para medir


la discrepancia entre lo observado y lo teórico)

3.-) Tomar una muestra (𝑥1 . 𝑥2 , . . . , 𝑥𝑛 ) y evaluar el estadístico Nivel crítico o 𝒑 −valor: es la
del contraste bajo 𝐻0 , es decir 𝑤 = 𝑑(𝑥1 . 𝑥2 , . . . , 𝑥𝑛 ; 𝐻0 ). probabilidad de tener un valor del
4.-) Concluir si la diferencia 𝑤 es estadísticamente significativa estadístico igual o mayor al
(se rechaza 𝐻0 o no), según el p-valor del estadístico. Para ello observado cuando 𝐻0 es cierta
podemos fijar un nivel de confianza 1 − 𝛼 determinado y tomar una
decisión en base al mismo.
4 bis.-) Si no se fija ningún valor para 𝛼
La regla de decisión, tras calcular el p-valor, es:
Si 𝑝 − 𝑣𝑎𝑙𝑜𝑟 > 0.2 𝐚𝐜𝐞𝐩𝐭𝐚𝐦𝐨𝐬 𝑯𝟎
Si 𝑝 − 𝑣𝑎𝑙𝑜𝑟 > 𝛼 𝐚𝐜𝐞𝐩𝐭𝐚𝐦𝐨𝐬 𝑯𝟎

Si 𝑝 − 𝑣𝑎𝑙𝑜𝑟 ≤ 0.1 𝐫𝐞𝐜𝐡𝐚𝐳𝐚𝐦𝐨𝐬 𝑯𝟎


Si 𝑝 − 𝑣𝑎𝑙𝑜𝑟 ≤ 𝛼 𝐫𝐞𝐜𝐡𝐚𝐳𝐚𝐦𝐨𝐬 𝐇𝟎
Si 𝑝 − 𝑣𝑎𝑙𝑜𝑟 está entre 0.1 y 0.2 mejor ampliar la muestra.
Resumen: Cálculo del p-valor
Calculo del p-valor Distribución
que variará
según cada
𝐻0 : 𝜃 = 𝜃0 contraste en
Bilateral particular
frente a
𝐻1 : 𝜃 ≠ 𝜃0

𝐻0 : 𝜃 = 𝜃0 (≤)
Unilateral
frente a
𝐻1 : 𝜃 > 𝜃0

𝐻0 : 𝜃 = 𝜃0 (≥)
Unilateral
frente a
𝐻1 : 𝜃 < 𝜃0
Contrastes para los parámetros de una variable normal
𝑋 ∈ 𝑁(𝜇, 𝜎)
Estadístico pivote

Para la media Si se conoce la desviación 𝑥 − 𝜇𝑜


𝐻0 : 𝜇 = 𝜇0 típica 𝜎 𝑤= ∈ 𝑁(0,1)
𝜎/ 𝑛

Si NO se conoce la 𝑥 − 𝜇𝑜
𝑤= ∈ 𝑡𝑛−1
desviación típica 𝜎 𝑆𝑛−1 / 𝑛

Para la Si se conoce la media 𝜇 𝑛


𝑖=1 (𝑥𝑖 − 𝜇)2
varianza 𝑤= ∈ 𝜒𝑛2
𝐻0 : 𝜎 2 = 𝜎02 𝜎𝑜2

Si NO se conoce la media 𝜇 2 𝑛
𝑛𝑆𝑛2 (𝑛 − 1)𝑆𝑛−1 𝑖=1 (𝑥𝑖 − 𝑥)2 2
𝑤= 2 = = ∈ 𝜒𝑛−1
𝜎𝑜 𝜎𝑜2 𝜎𝑜2
Contrastes para comparar poblaciones normales
𝐗 ∈ 𝑁(𝜇𝑋 , 𝜎𝑋 ) e 𝒀 ∈ 𝑁(𝜇𝑌 , 𝜎𝑌 ), independientes
Estadístico pivote

Para la igualdad Conociendo las desviaciones típicas (𝑥 − 𝑦) − (𝜇𝑋 − 𝜇𝑌 )


𝑤= ∈ 𝑁(0,1)
de medias 𝜎𝑋2 𝜎𝑌2
𝑛 +𝑚
𝐻0 : 𝜇𝑋 = 𝜇𝑌 o
𝜇𝑋 − 𝜇𝑌 = 0 Desconociendo las desviaciones
(𝑥 − 𝑦) − (𝜇𝑋 − 𝜇𝑌 )
típicas pero suponiéndolas iguales 𝑤= ∈ t n+m−2
2 2
(𝑛 − 1) ⋅ 𝑆𝑛−1 + (𝑚 − 1) ⋅ 𝑆𝑚−1 1 1
⋅ 𝑛+𝑚
𝑛+𝑚−2

Desconociendo las desviaciones


(𝑥 − 𝑦) − (𝜇𝑋 − 𝜇𝑌 )
típicas y supuesto que los tamaños 𝑤= ≈ 𝑁(0,1)
2 2
de las muestras son grandes 𝑆𝑛−1 𝑆𝑚−1
+
(𝑛, 𝑚 ≥ 30) 𝑛 𝑚

Desconociendo las desviaciones


(𝑥 − 𝑦) − (𝜇𝑋 − 𝜇𝑌 ) siendo Δ el entero más próximo a
típicas y supuesto que los tamaños 𝑤= ≈ 𝑡𝑛+𝑚−2−𝛥 2
2 2 𝑆2 2
𝑆𝑚−1
de las muestras son pequeños 𝑆𝑛−1 𝑆𝑚−1 (𝑚 − 1) ⋅ 𝑛−1
𝑛 − (𝑛 − 1) ⋅ 𝑚
(𝑛, 𝑚 < 30) 𝑛 + 𝑚
2 2 2 2
𝑆𝑛−1 𝑆𝑚−1
(𝑚 − 1) + (𝑛 − 1)
𝑛 𝑚
2
Para la razón de 𝑆𝑛−1 𝜎𝑌2
varianzas 𝑤= 2
∈ 𝐹𝑛−1,𝑚−1
𝜎𝑌2
𝑆𝑚−1 𝜎𝑋2
𝐻0 : 2 = 𝑐𝑡𝑒
𝜎𝑋
Contrastes para proporciones

Estadístico pivote

Para una
proporción 𝑝 − 𝑝0
𝑤= ≈ 𝑁(0,1)
𝐻0 : 𝑝 = 𝑝0 𝑝0 (1 − 𝑝0 )
𝑛

Para la
(𝑝1 − 𝑝2 ) − (𝑝1 − 𝑝2 )
igualdad de 𝑤= ≈ 𝑁(0,1)
proporciones 𝑝1 (1 − 𝑝1 ) 𝑝2 (1 − 𝑝2 )
+
𝐻0 : 𝑝1 = 𝑝2 𝑛1 𝑛2
o 𝑝1 − 𝑝2 = 0
Contraste de independencia entre atributos o caracteres

En el contraste de independencia, se desea decidir si las dos variables en una tabla de contingencia están o no
asociadas. Este es un ejemplo de contraste no paramétrico. Se tendría
H0: Las variables en filas y columnas de la tabla son independientes
H1: Hay asociación o dependencia entre las filas y columnas de la tabla

Estadístico pivote:
(𝑓𝑖𝑗 −𝑒𝑖𝑗 )2 2
𝑤= ~𝜒(𝑓𝑖𝑙𝑎𝑠−1)(𝑐𝑜𝑙𝑢𝑚𝑛𝑎𝑠−1)
𝑒𝑖𝑗
𝑖 𝑗

También podría gustarte