Está en la página 1de 36

Métodos de ordenamiento

Mauricio Peñuela
ACP
ACP
ACP
ACP
ACP
ACP
ACP
ACP
ACP
ACP
ACP
AC
AC
AC
AC
AC
AC
Los resultados del ACP y del AC lucen diferentes por dos razones

1) El AC describe la diferencia entre grupos, y la dirección en la cual las


medias del grupo son más diferentes, lo que no necesariamente es la
dirección en la cual los individuos son más diferentes.

2) El AC no simplemente rota los datos originales a los ejes para maximizar


las diferencias entre grupos, si no que encuentra los ejes que optimizan
las diferencias relativas de la variación dentro de grupos. Estos ejes
tendrán diferentes direcciones de aquellos que maximizan la diferencia
entre grupos.

AC
Métodos estadísticos computacionales

• Conceptos estadísticos básicos

• Muestras
• Poblaciones
• Variables
• Distribuciones de probabilidad
• Estadísticos
• Parámetros
• Distribución
Gaussiana

• Intervalos de confianza
• Pruebas de hipótesis
• ¿ Por qué se necesitan métodos estadísticos
computacionales ?
El intervalo de confianza sería

Pero como los datos no se ajustan a una distribución normal, esto no es cierto,
por tanto no se pueden realizar pruebas de hipótesis con estos parámetros.
• Métodos basados en remuestreos

Boostrap

Es el más fácil de entender, fue uno de los últimos métodos


desarrollados.

Se basa en generar nuevas pseudomuestras del mismo tamaño


que la muestra real mediante muestreo con reemplazo

Si la muestra original es representativa de la población, la distribución


del estadístico calculada a partir de las pseudomuestras (bootstraping
distribution) se asemejará a la distribución muestral que se obtendría
si se pudiera acceder a la población para generar nuevas muestras.
• Para entender como se hace el boostrap, consideremos unos
valores en un conjunto C

• Para formar una versión boostrap de C, se genera un listado de


cinco números aleatorios, independientemente escogidos de 1
a 5. N=5

• Cboostrap contiene los correspondientes valores de C respecto


aL

• Teniendo ahora como ejemplo a los números en X, que pueden


ir hasta 31.

• Se genera un Xboot con 31 elementos escogidos al azar


• Ahora se calculan la media, la desviación estándar y la mediana de
Xboot:<XBoot>=3.39, σXBoot=1.62, y mediana(XBoot)=3.
• Los cuales son ligeramentes diferentes de X; X>=3.52; σ =1.69, and median(X)=3.0
• Para determinar los intervalos de confianza para estos estadísticos, se deben
computar un gran número de Boostrap, así se podrá determinar el intervalo de
confianza del 95%, para la media, la desviación estándar.

• Con 200 boostrap basados en X, se encontró que el intervalo de confianza de la


media es 3-4.1, para la desviación estándar 1.2-2.10 y para la mediana de 3.0-4.0.

• El modelo normal predijo un intervalos e confianza del 95% de 291-4.12, así que
los dos métodos coinciden para este caso.

• El bootstrapping no asume una asignación aleatoria de los grupos, sino que las
muestras han sido obtenidas aleatoriamente de la o las poblaciones. Se aplica por
lo tanto en diseños muestrales, no experimentales. Esta es la diferencia clave
respecto a los test de permutación.
Permutación

• Se diferencia del boostrap porque se pueden remuestrear


grupos sin reemplazo. Esto hace la prueba de permutación
adecuado para pruebas de hipótesis, pero no para la
estimación de intervalos de confianza.
• Consideremos dos grupos de datos

• Con tamaños de muestra 5 y 4, son unidos en un grupo M con


9 elementos.
Para producir unas versiones permutadas de C y D,
remuestreamos M sin remplazos, y escribimos nueve enteros
escogidos aleatoriamente en una lista L.

Los primeros cinco valores en L son los valores ordinales de los


elementos en M, ubicados en la versión permutada de C.

Y los últimos cuatro valores de la lista son los valores ordinales de


los elementos en M que son ubicados en la versión permutada
de D
• En primer lugar, se calcula la diferencia entre las medias de los
dos grupos, lo que se conoce como diferencia

• Todas las observaciones se combinan juntas sin tener en


cuenta el grupo al que pertenecían.

• Se calculan todas las posibles permutaciones en las que las


observaciones pueden ser distribuidas en dos grupos

• El conjunto de valores calculados forman la distribución


exacta de las posibles diferencias siendo cierta la hipótesis
nula.
• JACKKNIFE

• Los métodos Jackknife preceden los métodos de bootstrap, y


han sido reemplazados por ellos.
• Las estimaciones de Jackknife son obtenidos por el
remuestreo cada vez que un elemento se retira.

• Si hay N especimenes en la muestra, el grupo de datos con


que Jackknife trabaja es N-1 especímenes. Para un grupo C:

• Los posibles grupos Jackknife serían


• Los grupos de datos de Jackknife son siempre similares a los
datos originales comparados con los de bootstrap.

• El jackknife puede ser visto como una aproximación al


bootstrap y es una buena aproximación cuando los cambios
en los estadísticos son suaves o lineales respecto a los datos

• La media es siempre lineal, pero la mediana no, así que la


media de Jackknife será muy similar a la de bootstrap, sin
embargo la mediana puede variar bastante.
• MONTE CARLO

• Comparan los valores de estadísticos observados a un rango de


valores esperados bajo una hipótesis nula, asumiendo un
modelo de poblaciones.
• Requiere hacer asunciones acerca de la naturaleza de la
distribución
• Las aproximaciones Monte Carlo generan datos aleatorios
basados en parámetros y un modelo de distribución
• Los métodos Monte Carlo son simulaciones numéricas para
evitar extensos cálculos matemáticos y aproximaciones.
• La comparación entre las distribuciones observadas a aquellas
producidas por los métodos Monte Carlo es poderosa para la
prueba de hipótesis.
• Queremos determinar la diferencia entre las medias de X e Y

• Probaremos la hipótesis de que los dos grupos provengan de


la misma distribución, con la diferencia observada entre ellos
debido a asignaciones aleatorias en los grupos
• Se asume una distribución normal y se unen los datos en un
solo grupo
• Se calcula la media y la desviación estándar de este grupo
combinado: 3.67 y 2.1
• Se generan dos grupos de datos, uno con Nx=31 y Ny=18
datos, y se determina la diferencia entre las dos medias

• Luego se determina la proporción de grupos montecarlo en


los cuales la diferencia entre medias de pares, exceda la de
los grupos de datos originales
• Para los grupos anteriores X e Y, En 480 de 1000 pares de
grupos Monte Carlo (48%), la diferencia entre medias de los
grupos Monte Carlo excede la diferencia observada entre la
media de los grupos de datos originales, así que la hipótesis
de que tienen una subyacente distribución normal no puede
ser rechazada.

• Cabe resaltar que los datos combinados probablemente no se


distribuyen normalmente, así que se debe repetir la prueba
Monte Carlo con otros modelos de distribución.

• Los métodos Monte Carlo pueden ser usados en casos donde


el bootstrap no, como estimar el efecto del incremento del
tamaño de muestra sobre la varianza. Las simulaciones Monte
Carlo no están limitadas por los tamaños de muestra
observados, los métodos bootstrap si.
Referencias
• Zelditch, M. L. Swiderski, D. L. Sheets, H. D. Fink, W. L.
2004. Geometric Morphometrics for Biologist.
Elsevier. ISBN: 978-0-12-778460-1

También podría gustarte