Está en la página 1de 33

Instituto de Ciencias Naturales Instituto de Ciencias Naturales

Universidad Nacional de Colombia Universidad Nacional de Colombia


TÓPICOS AVANZADOS DE INVESTIGACIÓN TÓPICOS AVANZADOS DE INVESTIGACIÓN
2018845 - Grupo 1 2018845 - Grupo 1

“Diversidad funcional y servicios ecosistémicos en el manejo y la “Diversidad funcional y servicios ecosistémicos en el manejo y la
conservación de los bosques tropicales” conservación de los bosques tropicales”

Poblaciones,variables, datos, muestras,


descriptiva, distribuciones de frecuencias

Profesor Profesor
PEDRO SANCHEZ PALOMINO PEDRO SANCHEZ PALOMINO
Departamento de Biología Departamento de Biología
23 mayo al 05 de Junio de 2012 23 mayo al 05 de Junio de 2012
1 2

REPASO DE ALGUNOS CONCEPTOS Y TEMAS


IMPORTANTES EN LOS ANALISIS ESTADISTICOS
Miércoles 23
Repaso y prueba de hipótesis.  1. Introducción
ANOVA 2. Datos y variables. Población. Muestra
3. Estadística descriptiva.
4. Distribuciones de frecuencia
Jueves 24 5. Intervalos de confianza. Pruebas de
Regresión lineal simple y múltiple. hipótesis
6. Introducción al análisis de varianza
simple y complejo
Análisis multivariados 7. Regresión y correlación

3 4

1
¿Para qué sirve la estadística? Una definición
 POR QUÉ SON IMPORTANTES Y NECESARIOS LOS MÉTODOS La Estadística es la Ciencia de la:
ESTADISTICOS EN LOS CAMPOS DE LA BIOLOGIA?

 La Ciencia se ocupa en general de fenómenos observables


• Sistematización, recogida, ordenación y
presentación de los datos referentes a un
 La Ciencia se desarrolla observando hechos, formulando leyes que los fenómeno que presenta variabilidad o
explican
li y realizando
li d experimentos
i t para validar
lid o rechazar
h di
dichas
h lleyes incertidumbre para su estudio metódico
metódico, con
objeto de…
 Los modelos que crea la ciencia son de tipo determinista o aleatorio
(estocástico)
• deducir las leyes que rigen esos fenómenos,
 La Estadística se utiliza como tecnología al servicio de las ciencias
donde la variabilidad y la incertidumbre forman parte de su naturaleza
• y poder de esa forma hacer previsiones sobre
 “La Bioestadística [...] enseña y ayuda a investigar en todas las áreas de
las Ciencias de la Vida donde la variablidad no es la excepción sino la los mismos, tomar decisiones u obtener
regla” (Carrasco de la Peña 1982) conclusiones.
6
5

Por qué el incremento en el uso de la


estadística en biología?
En biología, a diferencia de la física de finales del siglo
XIX, la acción entre causas vs. efectos no obedece a
"leyes clásicas".

ADEMÁS:
Existen muchos factores causales,
variantes o no controlables (aleatorios) y
difíciles o imposibles de identificar.

7 8

2
1. Con la estadística medimos la variabilidad de Cómo se aborda un problema biológico, a través
los fenómenos, con un error predecible.
del uso de la estadística ?
2. Sin embargo, hay resultados que pueden ser
obvios o muy evidentes, valiosos por si solo
sin justificación de la estadística.
Definir la naturaleza del problema. Hacer los
3 El trabajo descriptivo también es muy valioso.
3. valioso cálculos adecuados.
Enseñar problemas reales en biología, con datos
4. El estudio estadístico: descriptivo, analítico y reales ojalá -pero no necesariamente-
experimental. numerosos.

5. La estadística en biología: investigación -


interpretación de los fenómenos bajo estudio.
9 10

Los métodos estadísticos en Etapas en un estudio… con estadística?


el método científico • Plantear hipótesis sobre una población

• Decidir qué datos recoger (diseño de experimentos)


Plantear Diseñar – Qué individuos pertenecerán al estudio (muestras)
hipótesis experimento – Qué datos recoger de los mismos (variables)

• Recoger los datos (muestreo)


– Aleatorio? ¿Estratificado? ¿Sistemáticamente?

• Describir (resumir) los datos obtenidos


Descriptiva
Obtener Recoger datos • Realizar una inferencia sobre la población
conclusiones y analizarlos Inferencial
• Cuantificar la confianza en la inferencia
– Nivel de confianza del 95%
– Significancia de contrastes: p=2%?

11 12

3
13

El estudio estadístico tiene componentes


Explicaciones
descriptivo, analítico y experimental
OBSERVACIONES, PREGUNTAS CONJETURAS tentativas
DUDAS (Hipótesis)

OBJETIVOS

VARIABLES

DATOS
CONCLUSIONES ANALISIS
(Muestra) 14

Krebs, C.J. 1989 Definición


Biometría, estadística biológica o
bioestadística
El progreso científico depende (en buena parte) de Aplicación de los métodos estadísticos a la
buenos métodos y existen dos componentes
para el progreso en la metodología ecológica:
solución o explicación de problemas
biológicos
biológicos.
1. Biológico y tecnológico: Ej. observación,
capturas, registro, marcas. La estadística en biología: investigación, lo
cual implica interpretación de los
2. Análisis numérico y uso de estadística o fenómenos bajo estudio.
biometría - general a todas las disciplinas.
15 16

4
Definición Moderna
Bioestadística o Biometría
Estudio científico de datos numéricos Numéricos
basados en fenómenos naturales Las observaciones se cuantifican de alguna
manera: variables
Estudio científico: Validez de evidencia científica,,
objetividad y ética al presentar y evaluar los datos a la luz de
hipótesis o preguntas de investigación.
Fenómenos naturales
Datos: Las poblaciones o grupos de individuos generan todos los fenómenos que ocurren en la
grupos o conjuntos de información. naturaleza fuera del control humano más
No se aplica a analizar un solo dato. los que controla el hombre.
17 18

Población y muestra
Numéricos Población (‘Universo) es el conjunto total o completo sobre el
que estamos interesados en obtener conclusiones (hacer
Las observaciones se cuantifican de alguna inferencia).
manera: variables
Normalmente es demasiado g
grande p
para p
poder
abarcarlo.
Fenómenos naturales Muestra es un subconjunto de la población al que tenemos
acceso y sobre el que realmente hacemos las observaciones
(mediciones)
☺ Debería ser “representativo”
Cuáles serían fenómenos no naturales? ☺ Estar formado por miembros “seleccionados” de la
población (individuos, unidades experimentales).

19 20

5
Parámetros y estadísticos Población biológica y población estadística
• Parámetro: Es una cantidad numérica calculada sobre una población

• El peso medio de los venados de una especie en un sitio. Población Biológica


• La altura de los árboles de una especie que crece en bosques secos de …

La idea es resumir toda la información que hay en la población (parámetros) en unos pocos números
(estadísticos) Conjunto de individuos de la misma especie y composición
• Estadístico: Es una cantidad numérica calculada sobre una muestra genética, ubicados en un espacio y en un tiempo determinados y
que se encuentran aislados reproductivamente (e.d. entre ellos
 La altura media de las personas que estamos en este salón de clases. compartes información
i f ió genética,
éi pero no con otros).
)
• Somos una muestra (¿representativa?) de la población.
Población estadística
Si un estadístico se usa para aproximar un parámetro también se le llama
estimador.
Totalidad de las observaciones individuales acerca de la cual se
Normalmente nos interesa conocer un parámetro, pero por la dificultad que conlleva hacen inferencias, que existen en cualquier lugar o al menos
estudiar a *TODA* la población, calculamos un estimador sobre una muestra y
“confiamos” en que sean próximos. La teoría del muestreo estudia cómo elegir dentro de un área específica de muestreo limitada en tiempo y
muestras para que el error sea “confiablemente” pequeño. espacio.
Población biológica UNIVERSO
Población estadística 22
21

Dato o Variante
Parámetros vs estadísticos
Es la unidad mínima de información.
Parámetro Se basa en observaciones individuales, que
Cantidad propia de la población, cuyo valor son observaciones o medidas tomadas de
no se puede o no se necesita conocer, sino la más pequeña unidad muestral.
que se estima con base en los estadísticos
q
La unidad muestral pueden ser individuos,
Estadísticos pero existen otros niveles de unidades
muestrales.
Cantidades computadas, calculadas o
estimadas (… a partir de la muestra). Cómo obtenemos datos?

Qué es medir?
23

6
Muestra
El conjunto de observaciones individuales
Conjunto de observaciones individuales
constituyen la muestra.
(datos), seleccionados de la población
Determinan la estructura
mediante un procedimiento específico.

Variable o carácter
Característica medida por las observaciones
individuales.
Determina la naturaleza

25 26

Variables
LAS VARIABLES Una variable es una característica observable (medible) que varía
entre los diferentes individuos de una población.

La información que disponemos de cada individuo o unidad muestral


Variable biológica es resumida en variables.

• En los individuos de la p
población del curso, de uno a
Propiedad
P i d d o caracter medida
did por las
l otro es variable:
observaciones individuales con respecto a – El grupo sanguíneo
la cual los individuos de una población • {A, B, AB, O}  Algunos la llaman “Cualitativa”
(muestra) se diferencian en algo verificable. – Su nivel de felicidad “declarado”
• {Deprimido, Ni fu ni fa, Muy Feliz}  Algunos la llaman Ordinal
– El número de hijos…?
• {0,1,2,3,...}  Variable discreta
– La altura
• {1’62 ; 1’74; ...}  Variable continua
27 28

7
Tipos de variables biológicas Tipos de variables biológicas
cuántos hay?. Cuáles son? cuántos hay?. Cuáles son?
Cualitativas
Si sus valores (modalidades) no se pueden asociar naturalmente a un número (no se
pueden hacer operaciones algebraicas con ellos).

– Nominales: Si sus valores no se pueden ordenar (atributo)


1. Continuas
2. Discontinuas, discretas o merísticas
• Sexo (género), Grupo Sanguíneo, Religión, Nacionalidad…
– Ordinales: Si sus valores se pueden ordenar
• Mejoría a un tratamiento, Grado de satisfacción, Intensidad del dolor…

Cuantitativas o Numéricas 3. Ordinales


Si sus valores son numéricos 4. Atributo o nominales
(tiene sentido hacer operaciones algebraicas con ellos).

– Discretas: Si toma valores enteros (son precisas)


5. Variables derivadas o computables
• Número crías, número huevos, edad años cumplidos, número de flores o frutos, granos de polen…
razones, proporciones, porcentajes, índices, tasas
– Continuas: Si entre dos valores, son posibles infinitos valores intermedios (son imprecisas)
• Altura, Presión intraocular, Dosis de medicamento administrado, edad

29 30

Tipos de variables biológicas…2 Tipos de variables biológicas…3


(V.derivadas o computables) (V.derivadas o computables)

Proporciones: Cantidades que se expresan mediante un Índices: expresiones que muestran una relación
solo valor que resulta de la relación entre dos variables. (existente o no?) entre variables; p.e. Número
Se pueden expresar como proporción 64:24 ó 2.666, de excrementos de jaguar vistos por kilómetro
como fracción 1.2/1.8 ó 0.666, o como cocientes. No de trayecto de observación recorrido.
tienen unidades.

Porcentajes: Son un tipo especial de proporciones.


O la relación peso vs. tamaño del ala en
murciélagos o en aves.
Tasas: Se parecen a los índices en el sentido que
relacionan dos variables. p.e. cantidad de una sustancia
liberada por unidad de peso o de volumen; peso ganado
por unidad de tiempo o de alimento, tasas reproductivas
Otros índices
por unidad de población, tamaño o tiempo, etc.
31 32

8
Desventajas en el uso de las variables
Concepto importante
derivadas o computables
Exactitud y precisión de los datos

1. Imprecisión Exactitud o Seguridad:


2. Inexactitud relativa Es la cercanía de un dato medido o
3. Distribuciones raras que no se ajusten a computado a su verdadero valor.
valor
la normal (p.e. broken stick)
4. No dicen nada acerca de la relación Precisión
existente entre las dos o más variables Es la cercanía entre medidas repetidas del
implicadas mismo objeto o entidad

33 34

muestra

Fuentes de las figuras: Krebs


real
1989, Rabinovich 1978, Fuentes de las figuras: Krebs
Bookhout 1994, Brower et al. 1989, Rabinovich 1978,
1990 Bookhout 1994, Brower et al.
1990

9
CAMPOS EN QUE SE DIVIDE
LA BIOMETRIA o BIOESTADISTICA

¿Para el uso de la biometría o Estadística Descriptiva Vs. Estadística Inferencial


bioestadística qué es más
Estadística paramétrica Vs. Estadística no paramétrica o
importante la precisión o la de distribuciones libres
libres.
exactitud ? Estadística univariada Vs. Estadística multivariada

OTROS?

Estadística Bayesiana
Por qué? Enfoque no frecuentista, o de probabilidades
condicionales
37

Este resumen se obtiene por medio de:


ESTADÍSTICA DESCRIPTIVA 1.Cálculo de estadísticos descriptivos.

Conjunto de formas y procedimientos 2. Construcción de distribuciones de frecuencias


numéricos y gráficos que permiten
presentar los resultados en forma de un
Estadísticos descriptivos
resumen corto,
corto preciso
preciso, claro
claro, formal y
comparable. Son valores (numéricos) que resumen (describen) de forma concisa y
exacta la estructura de los datos.

Distribuciones de frecuencias
empíricas -de los datos-
Es decir de los datos que provienen de las observaciones de campo o
de lo experimentos.
Tablas que ordenan y resumen información de la muestra
39

10
estadísticos estadísticos
Los estadísticos descriptivos Los estadísticos descriptivos
CUALES SON? • Posición
– Dividen un conjunto ordenado de datos en grupos con la misma
cantidad de datos

• Tendencia central, de centralización o de localización


Posición – Valores con respecto a los cuales los datos parecen agruparse.
Tendencia central, de Cantidades o valores que indican la posición espacial de
centralización o de localización una muestra.

• Dispersión o variabilidad
– Indican la mayor o menor concentración de los datos con
respecto a las medidas de centralización.

Dispersión o variabilidad • Forma


Forma
 Son medidas de la apariencia o forma que tienen las distribuciones de
frecuencia
41 42

estadísticos
Los estadísticos descriptivos Estadísticos de posición
• Posición  Se define el cuantil de orden  como un valor de la variable por
– Dividen un conjunto ordenado de datos en grupos con la misma debajo del cual se encuentra una frecuencia acumulada 
cantidad de individuos.
• Cuantiles, percentiles, cuartiles, deciles,...  Casos particulares son los percentiles, cuartiles, deciles, quintiles,...
• Tendencia central, de centralización o de localización
– Indican valores con respecto a los que los datos parecen agruparse.
• Media, mediana y moda
• Dispersión o variabilidad
– Indican la mayor o menor concentración de los datos con respecto a
las medidas de centralización. Expresan la variación o variabilidad de
una distribución de frecuencias.
• Desviación estándar (típica), coeficiente de variación, rango, varianza
• Forma
• Asimetría
• Kurtosis o curtosis
43

11
Cuantiles
Estadísticos de posición
Cuantil de orden α
• Percentil de orden k = cuantil de orden k/100 • i es el menor intervalo que tiene
☺La mediana es el percentil 50 frecuencia acumulada superior a α ·n
☺El percentil de orden 15 deja por debajo al 15% de las • α=0,5 es mediana
observaciones. Por encima queda el 85%

• Cuartiles: Dividen a la muestra en 4 grupos con   n  Ni1


C  Li 1  (Li  Li 1 )
frecuencias similares. ni
☺Primer cuartil = Percentil 25 = Cuantil 0,25
☺Segundo cuartil = Percentil 50 = Cuantil 0,5 = mediana
☺Tercer cuartil = Percentil 75 = cuantil 0,75

45 46

Estadísticos de posición… ejemplos Estadísticos de posición… ejemplos

• El 5% de los recién nacidos tiene un peso demasiado bajo. ¿Qué peso es superado sólo por el 25% de los individuos?
¿Qué peso se considera “demasiado bajo”?
• Percentil 75 o tercer cuartil
• Percentil 5 o cuantil 0,05
Percentil 75 del peso
Percentil 5 del peso
30
25
25

20
20

frecuencia

15
frecuencia

15

10
10

5
5

0
0

50 55 60 65 70 75 80 85

1 2 3 4 5 Peso (Kg) de 100 deportistas


47 48
Peso al nacer (Kg) de 100 niños

12
Estadísticos de posición… ejemplos Estadísticos de posición… ejemplos
– El colesterol se distribuye simétricamente en la población. Supongamos que
se consideran patológicos los valores extremos. El 90% de los individuos
son normales ¿Entre qué valores se encuentran los individuos normales? – ¿Entre qué valores se encuentran la mitad de los individuos “más
normales” de una población?
• Entre el cuartil 1º y 3º
Percentiles 5 y 95 Percentiles 25 y 75
20

20
15
1

15
frecuencia
frecuencia

10

10
5

5
0
0

180 200 220 240 260 150 160 170 180 190

Colesterol en 100 personas Altura (cm) en 100 varones


49 50

Diagrama de cajas de Tukey: Resumen en 5 números

Diagramas de Tukey Estadísticos de tendencia central …1


0.08
0.06

• Resumen con 5 números:


densidad

– Mínimo, cuartiles y
0.04

máximo.
Mín. P25 P50 P75 Máx.
Medidas o valores que indican posiciones con respecto a los
– Dan una “buena idea” de
0.02

la distribución. cuales los datos muestran tendencia a agruparse.


0.00

40 45 50 55 60 65
• La zona central, ‘caja’, Velocidad (Km/h) de 200 vehículos en ciudad • Media (‘mean’) Es la media aritmética (promedio “average”) de
contiene al 50% central de
las observaciones. los valores de una variable. Suma de los valores dividido por el
– Su tamaño se llama t
tamañoñ muestral.
t l
‘rango intercuartílico’ Diagrama de cajas de Tukey: Resumen en 5 números
(R.I.) – Media de 2,2,3,7 es (2+2+3+7)/4=3,5
– Conveniente cuando los datos se concentran
0.04

• Los “bigotes”, no llegan hasta


los extremos, sino hasta las simétricamente con respecto a ese valor. Muy sensible a
0.03
densidad

observaciones que se valores extremos.


separan de la caja en no más
0.02

de 1,5 R.I. Mín. P25 P50 P75 Máx – Centro de gravedad de la distribución de frecuencias.
0.01

– Más allá de esa distancia


se consideran anómalas,
0.00

y así se marcan. 80 90 100 110 120

Velocidad (Km/h) de 200 vehículos en autovía


130 140

51
Existen otras medias? 52

13
Otras medias o promedios Estadísticos de tendencia central …2

Mediana (‘median’)
Aritmética X 
X i
Es un estadístico (valor) que divide al conjunto de
n
observaciones (muestra, datos) en dos grupos con
el mismo número de datos (percentil 50). Si el
1
Geométrica MG X  anti log
n
 log X i número de datos es par, se elige la media de los
dos datos centrales.
• Mediana de 1,2,4,5,6,6,8 es 5
• Mediana de 1,2,4,5,6,6,8,9 es (5+6)/2=5,5

Media armónica
1 1
 
1 • Es conveniente cuando los datos son asimétricos. No es sensible a
valores extremos.
HX n X
• Mediana de 1,2,4,5,6,6,800 es 5. ¡La media es 117,7!

53 54

Estadísticos
Estadísticos dede tendencia central
tendencia central …3

Moda (‘mode’) Altura mediana


Es el/los valor/es donde la distribución de
frecuencia alcanza un máximo; es decir
aquellos valores más frecuente de la variable.

56
55

14
Una distribución de frecuencias puede ser unimodal,
bimodal o multimodal

Para calcular la media es necesario elegir un punto representante del


intervalo: La marca de clase.

La media se desplaza hacia los valores


58 extremos. No coincide con la
mediana. Es un punto donde el histograma “estaría en equilibrio” si tuviese

Ventajas de la media (aritmética) sobre otros Estadísticos de dispersión o variabilidad


estadísticos de tendencia central:
Los estudiantes de estadística obtienen diferentes calificaciones en la
asignatura (variabilidad). ¿A qué puede deberse?
Aunque la media se influye por las observaciones extremas
o marginales, mientras que la mediana y la moda no, Diferencias individuales en el conocimiento de la materia.
se prefiere la media porque:
¿Podría haber otras razones (fuentes de variabilidad)?

1. Posee un error medio menor Por ejemplo supongamos que todos los alumnos poseen el mismo nivel
de conocimiento. ¿Las notas serían las mismas en todos?
2. Tratamiento matemático más fácil Seguramente No.
3. Posee normalidad aunque los datos originales no
4. Es sensible a los cambios en la forma de la – Dormir poco el día del examen, el almuero estaba “pesado”…
• Diferencias individuales en la habilidad para hacer un examen.
distribución de frecuencias
– El examen no es una medida perfecta del conocimiento.
• Variabilidad por error de medida.
– En alguna pregunta difícil, se duda entre varias opciones, y al azar se
elige la mala
59
• Variabilidad por azar, aleatoriedad. 60

15
Estadísticos de dispersión o Varianza S2 (‘Variance’):
Estadísticos de dispersión o variabilidad
variabilidad 1
Miden el grado de dispersión (variabilidad) de los datos,


independientemente de su causa.

Amplitud o Rango (‘range’): Extensión de la


0.05
Mín. P25 P50 P75 Máx.
S2  
n i
(xi  x)2
distribución. Diferencia entre observaciónes
extremas.
0.04

– 2,1,4,3,8,4. El rango es 8-1=7


– Es muy sensible a los valores extremos. Mide la desviación promedio (al cuadrado) de las observaciones
con respecto
p a la media.
03
0.0

• Rango intercuartílico (‘interquartile range’): 25% 25% 25% 25%


– Es sensible a valores extremos (alejados de la media).
0.02

– Es la distancia entre primer y tercer cuartil.


• Rango intercuartílico = P75 - P25 Rango intercuartílico
– Parecida al rango, pero eliminando las – Sus unidades son el cuadrado de las unidades de la variable. Por
0.01

observaciones más extremas inferiores y esto puede ser de interpretación difícil.


superiores. Rango
0.00

– Con relación al anterior, es menos sensible a – La expresión es fea, pero de gran belleza ‘natural’ (físicamente).
valores extremos. Contiene la información geométrica relevante en muchas
150 160 170 180 190
situaciones donde la información (energía) interna de un sistema
depende de la posición de sus partículas (datos!).
61 62

Ejercicio Desviación típica o desviación estándar


(‘standard deviation’)
Calcule la varianza de los siguientes datos
datos datos
Es la raíz cuadrada de la varianza
datos desviaciones desviaciones2

S  S2
3,8 3,8 3,8 -0,16 0,0256 Desviación estándar (s): raíz cuadrada de
3,3 3,3 la suma de los cuadrados de las
3,3 -0,66 0,4356
3,9 3,9 desviaciones de cada valor a la media o
3,9 -0,06 0,0036 suma de cuadrados (SS) dividida por el
4,1 4,1
número de50 datos
4,0 4,0 4,1 0,14 0,0196 • Tiene las misma dimensionalidad (unidades)
que la variable. Versión ‘estética’ de la
40
4,0 40
4,0 40
4,0 0 04
0,04 0 0016
0,0016 varianza.
i 40
3,6 3,6 4,0 0,04 0,0016
4,4
• La distribución de frecuencias normal o
4,4
3,6 -0,36 0,1296 gaussiana que veremos más adelante 30

4,4 4,4 Suma de quedará completamente determinada por la


4,4 0,44 0,1936 cuadrados media y la desviación estándar.
4,1 4,1 20

Suma 39,6 4,4 0,44 0,1936 – A una distancia de una desviación estándar de
Suma 39,6
la media hay ‘más de la mitad’ de los datos.
4,1 0,14 0,0196 10
Media 3,96 Desv. típ. = 568,43
Media 3,96 – A una distancia de dos desviación estándar de Media = 2023
Suma 39,6 0 1,024 la media estarán “casi” todos. 0 N = 407,00

Media 3,96
50

90

1.

1.

2.

2.

2.

3.
30

70

10

50

90

30
0

La suma de las
desviaciones siempre será 64
Peso recién nacidos en partos gemelares
cero

16
Dispersión en distribuciones ‘normales’ Coeficiente de variación
S
0.05

0.05
También se llama variabilidad relativa. CV 
x
0.04

0.04

Es la razón o proporción entre la desviación estándar y la media.


0.03

0.03

Desviación estándar expresada como un porcentaje de su media.


0.02

0.02

• Mide la desviación estándar en forma de “qué tamaño tiene con respecto a


la media”
0.01

0.01

xs x  2s
68.5 % 95 %
• Generalmente se expresa en porcentaje
0.00

0.00

Si la media es 80 y la desviación estándar 20 entonces CV=20/80=0,25=25%


150 160 170 180 190 150 160 170 180 190 (variabilidad relativa)

• Es una cantidad adimensional. Interesante para comparar la variabilidad de


• Centrado en la media y a una desviación estándar de distancia diferentes variables.
– Si el peso tiene CV=30% y la altura tiene CV=10%, los individuos presentan más
hay aproximadamente el 68% de las observaciones. dispersión en peso que en altura.

• No debe usarse cuando la variable presenta valores negativos o donde el valor


• A dos desviaciones estándar tenemos el 95% cero ( 0 ) es una cantidad fijada arbitrariamente
(aproximadamente.)
– Por ejemplo 0ºC ≠ 0ºF

65 66

NOTAS: Estadísticos de forma


1. s2 es un estimador insesgado de  2
Estadísticos que miden la naturaleza y la
2. s es un estimador sesgado de y por lo tanto  magnitud de desviaciones (deformaciones)
para muestras pequeñas (<30) su cálculo o de la normal.
estimación se debe corregir multiplicándolo por
n ( X  X )
s = s  Cn
3
Cn:
c 1
ASIMETRÍA g1 
 n  1
Cn  
2
(n  1)(n  2) s 3
donde 
 2 
3.  s 
cv     100 es estimador sesgado del parámetro “CV”
(n  1)n ( X  X )
X 4
3( n  1) 2
KURTOSIS g2  
(n  1)(n  2)(n  3) s 4
(n  2)(n  3)
4.

cv  1  1 n  cv
4
 es estimador insesgado del parámetro “CV”
68

17
Formas para detectar asimetría
Estadísticos de forma • Basado en diferencia entre estadísticos de tendencia central.
• Basado en la diferencia entre el 1º y 2º y entre 2º y 3º cuartiles
Asimetría g1 • Basados en desviaciones con signo al cubo con respecto a la
n ( X  X )
3
media.
g1 
• Una distribución es simétrica si la (n  1)(n  2) s 3
mitad izquierda es la imagen
especular de su mitad derecha. En función del signo de g1 la asimetría es positiva o negativa

• En las distribuciones simétricas


media y mediana coinciden
coinciden. Si sólo
hay una moda también coincide

0.20
• La asimetría es positiva o negativa

0.5
0.20
en función de a qué lado se

0.4
encuentra la cola de la distribución.

0.15
0.15

0.3
• La media tiende a desplazarse

0.10
0.10
hacia las valores extremos (colas).

0.2

0.05
0.05

0.1
xs
• Las discrepancias entre las medidas xs xs
66 % 78 %
de centralización son indicación de
78 %

0.00

0.00
0.0
asimetría.
69 8 10 12 14 16 18 20 -2 -1 0 1 2 3 0 2 4 6 8 10 12 14
70
x x x

Distribución simétrica  asimetría nula.

72
71

18
ASIMETRIA g1 Kurtosis g2

Grado de “aplanamiento” de la
distribución de frecuencias.
Mesokúrtica: Igual número de datos en la parte
central y en la cola de una distribución normal. Es
Media, mediana y moda no coinciden l normal.
la l

Derecha: La cola de la distribución está hacia la derecha

Izquierda: La cola de la distribución está hacia la izquierda

g1 negativo(-), asimetría hacia la izquierda


g1 positivo (+) asimetría hacia la derecha 74

Kurtosis g2 Kurtosis g2

La kurtosis nos indica el grado de apuntamiento (“aplastamiento”) de una distribución con


Platikurtica: Menos datos cerca de la media y colas que
respecto a la distribución normal o gaussiana. Es adimensional. en intermedias.
Platicúrtica (aplanada): curtosis < 0 (negativa) Leptokurtica: Más datos cerca de la media y en colas
Son de especial que en las partes intermedias de la distribución de
Mesocúrtica (como la normal): curtosis = 0
interés las frecuencias.
Leptocúrtica (apuntada): curtosis > 0 (positiva) distribuciones
mesocúritcas
(parecidas a la
Aplanada
normal
Apuntada como la normal
2.0

Apuntada
0.8
1.5

0.3

0.6
1.0

0.2

0.4
0.5

0.1

0.2

x s
x s x s
57 %
68 % 82 %
0.0

0.0
0.0

0.0 0.2 0.4 0.6 0.8 1.0


-3 -2 -1 0 1 2 3
-2 -1 0 1 2
g1 y g2 se llaman “momentos estadísticos”
75 76

19
En resumen: En resumen:
g1 y g2 = 0 = Normal g1= 0 y g2= 0 -2<g1 y g2 < 2

g1 - asimetría hacia la izquierda


g1 + asimetría hacia la derecha
g
g1< 0, negativo
g2 - platikurtica g1> 0, positivo

g2 + leptokurtica

g2< 0, negativo g2> 0, positivo

77 78

Estadísticos muestrales
y parámetros poblacionales? DISTRIBUCIONES DE FRECUENCIAS
EMPIRICAS

Tener en cuenta que los estadísticos son Una distribución de frecuencias es una sucesión
ordenada de los valores obtenidos en una muestra
indicadores de los valores de población o con la frecuencia o número de veces con la q
que
parámetros aparecen cada uno de ellos.

Se pueden representar en forma de tablas o en forma


gráfica
Estadística paramétrica
Vs
Estadística no
79 paramétrica 80

20
Tablas de frecuencia
Presentación ordenada de datos
Exponen la información recogida en la muestra, de forma que se pierda poco o nada de información
Las tablas de frecuencias y las representaciones gráficas son
dos maneras equivalentes de presentar la información. Las Frecuencias absolutas: Cuenta del número de DATOS en cada categoría o clase
Frecuencias relativas (porcentajes): cuenta del número de datos dividido por el total
dos exponen ordenadamente la información recogida en una
muestra. Frecuencias acumuladas: Sólo tienen sentido para variables ordinales y numéricas
Muy útiles para calcular cuantiles
¿Qué porcentaje de individuos tiene menos de 3 hijos?
¿Entre 4 y 6 hijos?

6
Género Frecuencia. 5 Sexo del encuestado
Número de hijos

Hombre 4 4
Frecuencia Porcentaje
Porcentaje
válido
Frecuencia Porcentaje
Porcentaje
válido
Porcentaje
acumulado
3 Válidos Hombre 636 41,9 41,9
Válidos 0 419 27,6 27,8 27,8
Mujer 881 58,1 58,1
1 255 16,8 16,9 44,7
2 Total 1517 100,0 100,0
2 375 24,7 24,9 69,5
Mujer 6 1 3 215 14,2 14,2 83,8
Nivel de felicidad
4 127 8,4 8,4 92,2
0 Porcentaje Porcentaje 5 54 3,6 3,6 95,8
Hombre Mujer Frecuencia Porcentaje válido acumulado 6 24 1,6 1,6 97,3
Válidos Muy feliz 467 30,8 31,1 31,1
7 23 1,5 1,5 98,9
Bastante feliz 872 57,5 58,0 89,0
Ocho o más 17 1,1 1,1 100,0
No demasiado fel 165 10,9 11,0 100,0
Total 1509 99,5 100,0
Total 1504 99,1 100,0
Perdidos No contesta
Perdidos No contesta 8 ,5
13 ,9
Total 1517 100,0 Total 1517 100,0

81
82

Tablas de frecuencia
Datos desordenados y ordenados en tablas
Exponen la información recogida en la muestra, de forma que se pierda poco o nada de información
Género Frec. Frec. relat.
Frecuencias absolutas: Contabilizan el número de individuos de cada modalidad • Variable: Género porcentaje
Frecuencias relativas (porcentajes): Idem, pero dividido por el total
– Modalidades: Hombre 4 4/10=0,4=40%
• H = Hombre
Frecuencias acumuladas: Sólo tienen sentido para variables ordinales y numéricas
Muy útiles para calcular cuantiles • M = Mujer Mujer 6 6/10=0,6=60%
¿Qué porcentaje de individuos tiene menos de 3 hijos? Sol: 83,8
¿Entre 4 y 6 hijos? Soluc 1ª: 8,4%+3,6%+1,6%= 13,6%. Soluc 2ª: 97,3% - 83,8% = 13,5%
10=tamaño
muestral
Sexo del encuestado
Número de hijos

Frecuencia Porcentaje
Porcentaje
válido
Frecuencia Porcentaje
Porcentaje
válido
Porcentaje
acumulado
• Muestra:
Válidos Hombre 636 41,9 41,9
Válidos 0 419 27,6 27,8 27,8
Mujer 881 58,1 58,1
1 255 16,8 16,9 44,7
Total 1517 100,0 100,0
2 375 24,7 24,9 69,5

Nivel de felicidad
3
4
215
127
14,2
8,4
14,2
8,4
83,8
92,2
MHHMMHMMMH
Porcentaje Porcentaje 5 54 3,6 3,6 95,8
Frecuencia Porcentaje válido acumulado 6 24 1,6 1,6 97,3
Válidos Muy feliz 467 30,8 31,1 31,1
Bastante feliz
No demasiado fel
872
165
57,5
10,9
58,0
11,0
89,0
100,0
7
Ocho o más
23
17
1,5
1,1
1,5
1,1
98,9
100,0 – equivale a
Total
Perdidos No contesta
1504
13
99,1
,9
100,0
Perdidos
Total
No contesta
1509
8
99,5
,5
100,0
HHHH MMMMMM
Total 1517 100,0 Total 1517 100,0

83 84

21
1. De variables atributos o nominales: las clases se
clasifican de acuerdo con un orden, lógico o arbitrario. 2. De variable discretas
Variable (X) Frecuencia (f)
Genotipo Frecuencia (f)
9 1
A- 86
Frecuencia de una característica 8 1
Aa 32
7 4
6 3

Especies Frecuencia (f)


5 1
4 1
Carollia perspicillata 9

Carollia castanea 6
Listas de especies
Carollia brevicauda 27

86

3. De variable continua
Tabla de frecuencias de la variable
Frecuencia Frecuencia
Limite Límite Marca de Frecuencia Frecuencia
Frecuencia Clase absoluta relativa
Número de Plantas por Parcela Inferior Superior clase Absoluta Relativa
observada acumulada acumulada
1 3,20 3,46 3,33 1,00 0,04 1,00 0,04
2 3,46 3,73 3,60 5,00 0,20 6,00 0,24
3 3,73 4,00 3,86 7,00 0,28 13,00 0,52
4 4,00 4,26 4,13 3,00 0,12 16,00 0,64
5 4,26 4,53 4,40 8,00 0,32 24,00 0,96
0 2 6 4 53
4,53 4 80
4,80 4 66
4,66 1 00
1,00 0 04
0,04 25 00
25,00 1 00
1,00
1 1
2 4 Media = 4,004 Desviación estándar = 0,365

3 1 The StatAdvisor (Consejero)


4 7 ----------------------------
This option performs a frequency tabulation by dividing the range of variable
5 2 into equal width intervals and counting the number of data values in each
6 3 interval. The frequencies show the number of data values in each interval, while
the relative frequencies show the proportions in each interval.
Número de plantas de una especie en 20 parcelas (Poisson):
87

22
Histograma de frecuencias
Histograma de frecuencias
8
8
6

freccuencia
6
frecueencia

4
4
2
2
0
0 3,2 3,6 4 4,4 4,8
3,2 3,5 3,8 4,1 4,4 4,7 5 valor de la variable
variable

89 90

Histograma de frecuencias
4

3
freecuencia

0
3,2 3,6 4 4,4 4,8
valor de la variable

91 92

23
94
93

95 96

24
Ejemplo
Aplicaciones • ¿Cuántos individuos tienen Número de hijos
menos de 2 hijos?
– frec. indiv. sin hijos Porcent. Porcent.
Se pueden estudiar patrones estructurales +
frec. indiv. con 1 hijo 0
Frec.
419
(válido)
27,8
acum.
27,8
de la muestra. = 419 + 255
= 674 individuos
1 255 16,9 44,7
2 375 24,9 69,5 ≥50%
3 215 14,2 83,8
• ¿Qué porcentaje de 4 127 8,4 92,2
i di id
individuos titiene 6 hij
hijos o
5 54 3,6 95,8
menos?
– 97,3% 6 24 1,6 97,3
7 23 1,5 98,9
• ¿Qué cantidad de hijos es Ocho+ 17 1,1 100,0
tal que al menos el 50% de Total 1509 100,0
la población tiene una
cantidad inferior o igual?
– 2 hijos

97 98

Aplicaciones Si es al azar se pueden hacer predicciones sobre la población basados


en la distribución de frecuencias de la muestra.

Por ejemplo…

1. Aproximadamente un determinado porcentaje de los valores pueden


Pero si se quieren hacer predicciones sobre estar entre un valor determinado y otro.

la población de la cual proviene esa 2. La probabilidad de que un fenómeno (evento, hecho) tenga un
determinado valor (alto, medio o bajo).
muestra esta debe ser
muestra,
3. Si los datos se mezclan y se saca uno al azar, la probabilidad de que
“REPRESENTATIVA” salga un valor dado es...

de la población. 4. Es más probable incluir en la muestra valores que estén en mayor


cantidad.

5. Si muestreamos de una población desconocida y encontramos que se


Para esto se debe hacer esquemas de muestreo al azar obtiene un dato que es de muy baja frecuencia, probablemente
rechazaríamos la hipótesis de que la población desconocida es la
misma que la que está representada por los datos.
99 100

25
Otros gráficos Gráficos diferenciales para
• Diagramas de barras variables numéricas 400
419
375

– Alturas proporcionales a las frecuencias


(absolutas o relativas.) 300

255

Recuento
– Se pueden aplicar también a variables • Son diferentes en función de que las 215

discretas 200

variables sean discretas o continuas. 127

• Diagramas de sectores (tortas o polares) Valen con frecuencias absolutas o


100

54
24 23
– No usarlo con variables ordinales.
17

relativas.
– El área de cada sector es proporcional a su
0 1 2 3 4 5 6 7 Ocho o más

Número de hijos
frecuencia ((absoluta o relativa)) – Diagramas
g barras para
p variables
discretas
• Pictogramas • Se deja un hueco entre barras para indicar
250

– Fáciles de entender. los valores que no son posibles 200

– El área de cada modalidad debe ser

Recuento
proporcional a la frecuencia. ¿De los dos, 150

cuál es incorrecto?. – Histogramas para variables continuas 100

• El área que hay bajo el histograma entre


dos puntos cualesquiera indica la cantidad
50

(porcentaje o frecuencia) de individuos en el 20 40 60 80

intervalo. Edad del encuestado

101 102

Diagramas integrales En conclusión:


• Cada uno de los anteriores diagramas tiene su correspondiente diagrama integral. Se Usamos las distribuciones de frecuencia para:
realizan a partir de las frecuencias acumuladas. Indican, para cada valor de la variable,
la cantidad (frecuencia) de individuos que poseen un valor inferior o igual al mismo. No
los construiremos en clase. Se pasan de los diferenciales a los integrales por
integración y a la inversa por derivación.

• Hacer predicciones: p.e. con cuánta


frecuencia (probabilidad) ocurrirá un hecho
o fenómeno?
fenómeno?.

• Hacer juicios o tomar decisiones: p.e.


podemos asumir con un nivel de
probabilidad que un evento determinado
pertenezca a una población?.
103 104

26
PERO:

NO queremos hacer predicciones • Así, podríamos asumir que nuestros datos se


distribuyen de cierta manera debido a supuestos
(inferencias) sobre las básicos acerca de la naturaleza de las fuerzas que
distribuciones de frecuencia actúan y que causan los fenómenos reales.

empíricas,
íi • De tal manera que, si nuestros datos (observados)
no se ajustan lo suficientemente bien a los valores
esperados sobre la base de supuestos teóricos,
podríamos dudar acerca de los supuestos.
SINO sobre la base de
consideraciones teóricas que se
consideran pertinentes105 106
(modelos teóricos o distribuciones de frecuencia teóricas)

La consideración de los supuestos conduce a


distribuciones de frecuencia teóricas o
distribuciones de probabilidad teóricas.

Distribuciones de
IMPORTANTE:
frecuencia o de
Si encontramos que los datos observados (muestra) no se ajustan
a lo esperado sobre la base de la teoría, podríamos llegar a
probabilidad
descubrir que algunos mecanismos (fuerzas, factores) biológicos
causan esta desviación de lo esperado. (teóricas)

Distribuciones teóricas
107 /32 108

27
1.- DISTRIBUCION BINOMIAL
Distribuciones de frecuencia de Distribución de probabilidad de fenómenos, eventos o sucesos que se cuantifican

variables discretas u observan por medio de variables que presentan DOS estados opuestos
Por definición
p + q = 1, por tanto q = 1 - p.

(p+q)k Si n = k = 1 (p+q)1 = p + q
Si n = k = 2 (p+q)2 = p2 + 2 pq + q2
Si n = k = 3 (p+q)3 = p3 + 3p2q + 3pq2 + q3

Binomial Poisson
Notar que: los exponentes de p aumentan de uno en
uno y los de q disminuyen de uno en uno.

donde k es el tamaño de la muestra (n).


(n)
p = probabilidad (frecuencia) de un evento o un
hecho.
Hipergeométrica Expansión del binomio
q = probabilidad (frecuencia) del evento, suceso o
hecho opuesto.
Asignación de Coeficientes
Logarítmica Triángulo de Pascal

Se comparan (estadísticamente) las frecuencias esperadas con las

Binomial Negativa
observadas (pruebas de bondad de ajuste de chi-cuadrado o de
Kolmogorov-Smirnov)
Entonces se puede usar el modelo (binomial, normal, otro) para hacer
predicciones.
109 /32 110 /32

2.- DISTRIBUCION DE POISSON OTRAS DISTRIBUCIONES DISCRETAS

Distribución de frecuencias de una variable discreta. Hipergeométrica, Binomial Negativa, Logarítmica.

Da la probabilidad de que un evento o fenómeno raro ocurra y que la probabilidad 3. HIPERGEOMETRICA:


de que no ocurra es grande. En otras palabras p es pequeño y q es grande.
Además k es grande (tamaño de muestra grande). Poblaciones finitas que se muestrean sin reemplazamiento.
 
K
  p0 qk (0.001+ 0.999)k Expresión que da la probabilidad de
   pN  qN 
0    muestrear r ítems del tipo representado por
 r  k  r  la probabilidad p a partir de una muestra de
k ítems de una población de tamaño N.
K N
  p1 qk-1  
  k La media es: kp
1 La varianza es: kpq (N-k)/(N-1)
K
  p2 qk-2 Se utiliza en C.M.R.
 
2
K Fenómenos raros y aleatorios generan datos que se distribuyen

  p3 qk-3 de acuerdo a una distribución de probabilidades de Poisson.

 
/32 111 /32 112
3

28
OTRAS DISTRIBUCIONES DE PROBABILIDAD
DE VARIABLE DISCRETA
DISTRIBUCIONES DE
•BERNOULLI
VARIABLES CONTINUAS
•DISCRETA UNIFORME
•GEOMETRICA
•BINOMIAL NEGATIVA

1. Existen muchos factores simples o compuestos.

2. Son independientes.

3. Producen efectos independientes - son aditivos.

4. Si todos los factores contribuyen igual a la varianza.

/32 113

Beta
Uniforme
Gamma
Weibull
Erlang
Exponencial Normal
Pareto t-Student
Triangular
Laplace
Chi-Cuadrado
Valores extremos F
Cauchy
Logística
LogNormal

29
DISTRIBUCIÓN NORMAL
Normal Distribution
0,4 Mean,Std. dev.
1
0,1
1  Y    /  2
0,3
Z e 2
density

0,2
 2
0,1

0
-5 -3 -1 1 3 5
Constantes:
x
= 3.14159
Parámetros: e = 2.71828
µ = Media
Normal Distribution s = Desviación estándar
0,4 Mean,Std. dev.
0,1
0,3
density

0,2

0,1

0
-5 -3 -1 1 3 5
x

30
Características de la Distribución Normal Características de la Distribución Normal

El cambio de los parámetros de la distribución


normal afecta su forma y posición. A.   4,   1.
B.   8,   1.. C.   8,   0.5.

• Existen infinitas curvas normales.


• Son simétricas con respecto a µ: coinciden, media, mediana y moda.
• Áreas bajo la curva normal -tabulados. Áreas bajo la función de densidad de probabilidad
normal y la función de distribución acumulativa
normal.

Áreas bajo la curva Normal


Aplicaciones:
1. Muestra: Distribución normal - test.
ƒ(E)(µ-): Pruebas de bondad de ajuste: X2, o K-S

2. Normal: Evidencia para aceptar o rechazar hipótesis


sobre factores qque afectan el fenómeno. Existen factores:
aditivos, independientes y de igual varianza. Desviaciones
de la normal?: Evidencia sobre fuerzas que afectan los
fenómenos

3. Existe Normalidad: Predicciones y test de hipótesis,


0.475 x 2 =0.95
basados en suposiciones de normalidad.

31

ASIMETRIA Y KURTOSIS
Ajuste de datos observados a normal g1 y g2 se llaman momentos estadísticos.
Estadísticos que miden la naturaleza y la magnitud de desviaciones de la
normal.
• Calcular las frecuencias esperadas [ƒ(E)] para una distribución
Asimetría (g1): Media, mediana y moda no coinciden
teórica normal con media µ y desviación estándar δ iguales a la
media X y desviación estándar de la muestra (s). -Derecha: La cola de la distribución está hacia la derecha
-Izquierda: La cola de la distribución está hacia la izquierda.
• Realizar una prueba de bondad de ajuste X2 , oK
K-S
S
g1 si es negativa(-), asimetría hacia la izquierda
• Analizar la distribución de frecuencias por medio de métodos g1 si es positiva (+) asimetría hacia la derecha
gráficos Kurtosis: (g2): Grado de aplanamiento de la distribución de frecuencias.
Leptokurtica: Más datos cerca de y en colas que en las partes intermedias
• Adicionalmente se puede analizar el comportamiento de algunos de la distribución de frecuencias.
estadísticos: media, mediana, moda, asimetría, kurtosis Platikurtica: Menos datos cerca de y colas que en intermedias.

g2 - platikurtica
g2 + leptokurtica

DISTRIBUCIÓN CHI-CUADRADO DE Existe una distribución para cada valor de grados de libertad.

PEARSON (X2)
Curvas de frecuencias de la
distribución X2 para 1, 2, 3 y 6
Distribución de frecuencias de probabilidad, grados de libertad

cuyos valores varían entre cero y el infinito


positivo.

A diferencia de la distribución Normal o de


Student, la X2 se aproxima asintóticamente
solo en la cola derecha y no en ambas colas. Las curvas son marcadamente asimétricas hacia la derecha. Al principio en
forma de J invertida, pero se aproximan a la simetría a medida que aumentan
los grados de libertad.

32
LA DISTRIBUCIÓN t-STUDENT
La distribución t-Student tiene las siguientes propiedades:
La distribución de  Al igual que la normal es simétrica y se extiende
asintóticamente hacia el infinito positivo y negativo.
Xi 
s Xi
La distribución esperada del anterior cociente se denomina la  Pero a diferencia de la normal puede tomar diferentes formas
distribución t-Student. dependiendo del número de grados de libertad (n-1), donde
n es el tamaño de la muestra de la que se ha tomado la
es más ancha y plana que la normal.
normal varianza
varianza.

 Para una distribución t-Student, los grados de libertad son


los mismos que los grados de libertad de la desviación
estándar de medias (error estándar) en el cociente:

Xi 
sXi

• Los grados de libertad pueden variar desde 1 hasta 


• Cuando g.l. = 1, se desvía mucho de la normal.
• g.l.= , es la misma normal.
Cuando g.l.

En otras palabras la distribución normal es un caso especial de la


distribución t–Student cuando g.l. = 

33

También podría gustarte