Está en la página 1de 19

1-1

1. Estadística clásica

Estadística Avanzada y
Análisis de Datos
Javier Gorgas y Nicolás Cardiel

Curso 2006-2007

Máster Interuniversitario de Astrofísica


1-2
1. Estadística clásica

Introducción
En ciencia tenemos que tomar decisiones (¿son los datos compatibles con la teoría?
¿cuáles son los parámetros que mejor ajustan? ¿son las dos muestras similares?
¿qué ha fallado, cómo podemos mejorar el experimento?)
Para cada medida o parámetro derivado necesitamos una estimación del error que
nos diga, en términos de probabilidades, la confianza que tenemos en su valor.
La estadística es la herramienta, en la mayoría de los casos, inevitable para tomar las
decisiones (el método científico).

If your experiment needs statistics, you ought to have done a better experiment
(E. Rutherford)
En particular, en astrofísica:
Nuestras medidas están sujetas a (grandes) errores de medida.
Tenemos la manía de observar al límite de las capacidades instrumentales.
El método clásico de repetir los experimentos no es aplicable.
No podemos diseñar los experimentos (las muestras pueden ser muy pequeñas)
1-3
1. Estadística clásica

Introducción (II)

No podemos evitar la estadística:


¿Cómo asignamos errores a nuestros datos? (o los de otros)
¿Cómo podemos extraer la información máxima de los datos? (¿o los tiramos?)
¿Cómo comparamos muestras? (de diferentes objetos o de diferentes autores)
¿Cómo hacer correlación, contrastar hipótesis, ajustar modelos…?
¿Qué hacer con las muestras incompletas? (¿límites superiores?)
NECESITAMOS DECIDIR
Nuestros colegas usan estadística. Tenemos que entender lo qué hacen y cómo lo
hacen.

Curso con un enfoque práctico (recetas)


• Métodos paramétricos clásicos
• Métodos no paramétricos
• Estadística bayesiana
1-4
1. Estadística clásica

Programa
1. Estadística clásica
2. Introducción a la estadística bayesiana
3. Cálculo de errores
4. Regresión lineal
5. Correlación
6. Regresión múltiple
7. Contrastes de hipótesis para una muestra
8. Contrastes de hipótesis para varias muestras
9. Análisis de componentes principales
10. Estimación de parámetros
11. Detección de la señal – Surveys
12. Análisis de datos astrofísicos
1-5
1. Estadística clásica

Tema 1
Estadística clásica
Introducción
Estadística descriptiva
Distribuciones de probabilidad
Distribuciones discretas de probabilidad
Distribución normal
Estimación de parámetros poblacionales
Distribuciones muestrales de los estadísticos
Estimación por intervalos de confianza
Contrastes de hipótesis
Métodos no paramétricos
1-6
1. Estadística clásica
centralización Estadística descriptiva
Media aritmética Media armónica Media cuadrática
Media geométrica

Mediana Moda
Me: Valor central (con
los datos ordenados de
Mo: Valor con
mayor a menor) mayor frecuencia

Varianza
dispersión

Desviación media
Coeficientes de variación

Desviación típica
asimetría

curtosis

Momento de orden r
respecto a c
1-7
1. Estadística clásica
Distribuciones de probabilidad
Función de probabilidad para Función de
una variable discreta: distribución:

Función de densidad para una


variable continua: Función de
distribución:

media (esperanza matemática) varianza

covarianza
1-8
1. Estadística clásica
Distribuciones discretas de probabilidad
Distribución Binomial
Probabilidad de obtener x éxitos en n ensayos (p = probabilidad de éxito en un ensayo)

donde

Media: Desviación típica:

Distribución de Poisson
Probabilidad de que se den x sucesos (λ = número medio de sucesos)

donde

Media: Desviación típica:


1-9
1. Estadística clásica
Distribución normal

Media: µ Desviación típica: σ

Normal
tipificada:

Teorema del límite central: Si X1, X2, …, Xn son variables aleatorias independientes con
medias µi, desviaciones típicas σi y distribuciones de probabilidad cualesquiera, y definimos la
variables Y = X1 + X2 + …+ Xn, entonces la variable:

cuando

Ej. la distribución binomial tiende a Ej. la distribución de Poisson tiende


la distribución normal: a la distribución normal:
1-10
1. Estadística clásica
Estimación de parámetros poblacionales
La estimación se hace a partir de estadísticos (variables aleatorias definidas sobre los
valores de la muestra) con funciones de probabilidad conocidas
Estimación puntual Estimación por intervalos de confianza

Método de máxima verosimilitud: Método objetivo para encontrar buenos estimadores


puntuales:
Función de máxima verosimilitud: probabilidad de obtener la muestra observada dado un
valor del parámetro poblacional:

El estimador de máxima verosimilitud es


el valor de α que hace máximo L

Ejemplo: para una distribución normal:


1-11
1. Estadística clásica
Distribuciones muestrales de los estadísticos
Distribución muestral de la media: Si es la media de una muestra aleatoria de
tamaño n que se toma de una población con distribución cualquiera, media µ y varianza σ2,
entonces la variable tipificada:

tiende a una normal N(0,1) cuando n tiende a infinito

Dsitribución muestral de la diferencia de medias: Si y son las medias


muestrales de dos distribuciones (µ1, σ1) y (µ2, σ2) entonces:

tiende a una normal N(0,1) cuando n1 y n2 tienden a infinito

Distribución muestral Distribución muestral de


El estadístico t:
de la varianza: la razón de varianzas:

sigue una distribución sigue una distribución t de sigue una distribución F


con n-1 grados de libertad Student con n-1 grados de Fisher con n1-1 y n2-1
de libertad grados de libertad
1-12
1. Estadística clásica
Estimación por intervalos de confianza
Ejemplo: media de una población normal

nivel de confianza

Si la desviación típica es desconocida:

Muestras grandes (n > 30) Muestras pequeñas


(significado del intervalo de confianza)
1-13
1. Estadística clásica
Intervalos de confianza
1-14
1. Estadística clásica
Intervalos de confianza
1-15
1. Estadística clásica
Contrastes de hipótesis
Formulación de las hipótesis:
Hipótesis nula (H0) vs Hipótesis alternativa (H1)
• Aceptación de la hipótesis nula los datos no están en contra
• Rechazo de la hipótesis nula los datos indican que es improbable que sea cierta
Se utiliza un estadístico de prueba con distribución conocida en el caso de que H_0 sea cierta

Ejemplo: media de una población normal

α: nivel de
significación

Contraste bilateral Contrastes unilaterales

región crítica región crítica región crítica

región de región de región de


aceptación aceptación aceptación
1-16
1. Estadística clásica
Contrastes de hipótesis
1-17
1. Estadística clásica
Contrastes de hipótesis
1-18
1. Estadística clásica
Contrastes de hipótesis
1-19
1. Estadística clásica
Métodos no paramétricos
Métodos parámetricos: muestras aleatorias extraídas de poblaciones con distribución
de probabilidad conocida (normal). El problema es determinar los parámetros de la
población (ej. µ, σ)
Métodos de distribución libre o NO paramétricos: no se supone ninguna
distribución de probabilidad. Muchas veces se basan en ordenar los datos en una escala
asignando rangos (análisis de rangos).

VENTAJAS DESVENTAJAS
• En general no se conoce la distribución • No usan toda la información disponible.
de probabilidad (el teorema del límite • Al no haber parámetros, es difícil hacer
central puede no aplicarse). estimaciones cuantitativas.
• Menos suposiciones sobre los datos. • Son algo menos eficientes: (para
• Válidos para muestras muy pequeñas. rechazar la hipótesis nula con el mismo
• Sirven para datos no numéricos nivel de confianza se necesitan muestras
(variables cualitativas y de rango). mayores)
• Respuestas rápidas con menos cálculos. Eficiencia relativa asintótica:

• La conversión a rangos elimina para tomar la decisión con el mismo α


incertidumbres con la escala. (típicamente: ARE entre 0.6 y 0.95)

• A veces no existe la población (no hay (Ante la duda es más seguro usar métodos
parámetros que estimar). no paramétricos)

También podría gustarte