Precurso Estadistica-1 PDF

Instituto de Ciencias Naturales Instituto de Ciencias Naturales
Universidad Nacional de Colombia Universidad Nacional de Colombia

TÓPICOS AVANZADOS DE INVESTIGACIÓN TÓPICOS AVANZADOS DE INVESTIGACIÓN
2018845 - Grupo 1 2018845 - Grupo 1
“Diversidad funcional y servicios ecosistémicos en el manejo y la “Diversidad funcional y servicios ecosistémicos en el manejo y la
conservación de los bosques tropicales” conservación de los bosques tropicales”
Poblaciones,variables, datos, muestras,

descriptiva, distribuciones de frecuencias
Profesor Profesor
PEDRO SANCHEZ PALOMINO PEDRO SANCHEZ PALOMINO
Departamento de Biología Departamento de Biología
23 mayo al 05 de Junio de 2012 23 mayo al 05 de Junio de 2012
1 2
REPASO DE ALGUNOS CONCEPTOS Y TEMAS

IMPORTANTES EN LOS ANALISIS ESTADISTICOS
Miércoles 23
Repaso y prueba de hipótesis. 1. Introducción
ANOVA 2. Datos y variables. Población. Muestra
3. Estadística descriptiva.
4. Distribuciones de frecuencia
Jueves 24 5. Intervalos de confianza. Pruebas de
Regresión lineal simple y múltiple. hipótesis
6. Introducción al análisis de varianza
simple y complejo
Análisis multivariados 7. Regresión y correlación
3 4
1
¿Para qué sirve la estadística? Una definición
 POR QUÉ SON IMPORTANTES Y NECESARIOS LOS MÉTODOS La Estadística es la Ciencia de la:
ESTADISTICOS EN LOS CAMPOS DE LA BIOLOGIA?
 La Ciencia se ocupa en general de fenómenos observables

• Sistematización, recogida, ordenación y
presentación de los datos referentes a un
 La Ciencia se desarrolla observando hechos, formulando leyes que los fenómeno que presenta variabilidad o
explican
li y realizando
li d experimentos
i t para validar
lid o rechazar
h di
dichas
h lleyes incertidumbre para su estudio metódico
metódico, con
objeto de…
 Los modelos que crea la ciencia son de tipo determinista o aleatorio
(estocástico)
• deducir las leyes que rigen esos fenómenos,
 La Estadística se utiliza como tecnología al servicio de las ciencias
donde la variabilidad y la incertidumbre forman parte de su naturaleza
• y poder de esa forma hacer previsiones sobre
 “La Bioestadística [...] enseña y ayuda a investigar en todas las áreas de
las Ciencias de la Vida donde la variablidad no es la excepción sino la los mismos, tomar decisiones u obtener
regla” (Carrasco de la Peña 1982) conclusiones.
6
5
Por qué el incremento en el uso de la

estadística en biología?
En biología, a diferencia de la física de finales del siglo
XIX, la acción entre causas vs. efectos no obedece a
"leyes clásicas".
ADEMÁS:
Existen muchos factores causales,
variantes o no controlables (aleatorios) y
difíciles o imposibles de identificar.
7 8
2
1. Con la estadística medimos la variabilidad de Cómo se aborda un problema biológico, a través
los fenómenos, con un error predecible.
del uso de la estadística ?
2. Sin embargo, hay resultados que pueden ser
obvios o muy evidentes, valiosos por si solo
sin justificación de la estadística.
Definir la naturaleza del problema. Hacer los
3 El trabajo descriptivo también es muy valioso.
3. valioso cálculos adecuados.
Enseñar problemas reales en biología, con datos
4. El estudio estadístico: descriptivo, analítico y reales ojalá -pero no necesariamente-
experimental. numerosos.
5. La estadística en biología: investigación -

interpretación de los fenómenos bajo estudio.
9 10
Los métodos estadísticos en Etapas en un estudio… con estadística?

el método científico • Plantear hipótesis sobre una población
• Decidir qué datos recoger (diseño de experimentos)

Plantear Diseñar – Qué individuos pertenecerán al estudio (muestras)
hipótesis experimento – Qué datos recoger de los mismos (variables)
• Recoger los datos (muestreo)

– Aleatorio? ¿Estratificado? ¿Sistemáticamente?
• Describir (resumir) los datos obtenidos

Descriptiva
Obtener Recoger datos • Realizar una inferencia sobre la población
conclusiones y analizarlos Inferencial
• Cuantificar la confianza en la inferencia
– Nivel de confianza del 95%
– Significancia de contrastes: p=2%?
11 12
3
13
El estudio estadístico tiene componentes

Explicaciones
descriptivo, analítico y experimental
OBSERVACIONES, PREGUNTAS CONJETURAS tentativas
DUDAS (Hipótesis)
OBJETIVOS
VARIABLES
DATOS
CONCLUSIONES ANALISIS
(Muestra) 14
Krebs, C.J. 1989 Definición

Biometría, estadística biológica o
bioestadística
El progreso científico depende (en buena parte) de Aplicación de los métodos estadísticos a la
buenos métodos y existen dos componentes
para el progreso en la metodología ecológica:
solución o explicación de problemas
biológicos
biológicos.
1. Biológico y tecnológico: Ej. observación,
capturas, registro, marcas. La estadística en biología: investigación, lo
cual implica interpretación de los
2. Análisis numérico y uso de estadística o fenómenos bajo estudio.
biometría - general a todas las disciplinas.
15 16
4
Definición Moderna
Bioestadística o Biometría
Estudio científico de datos numéricos Numéricos
basados en fenómenos naturales Las observaciones se cuantifican de alguna
manera: variables
Estudio científico: Validez de evidencia científica,,
objetividad y ética al presentar y evaluar los datos a la luz de
hipótesis o preguntas de investigación.
Fenómenos naturales
Datos: Las poblaciones o grupos de individuos generan todos los fenómenos que ocurren en la
grupos o conjuntos de información. naturaleza fuera del control humano más
No se aplica a analizar un solo dato. los que controla el hombre.
17 18
Población y muestra
Numéricos Población (‘Universo) es el conjunto total o completo sobre el
que estamos interesados en obtener conclusiones (hacer
Las observaciones se cuantifican de alguna inferencia).
manera: variables
Normalmente es demasiado g
grande p
para p
poder
abarcarlo.
Fenómenos naturales Muestra es un subconjunto de la población al que tenemos
acceso y sobre el que realmente hacemos las observaciones
(mediciones)
☺ Debería ser “representativo”
Cuáles serían fenómenos no naturales? ☺ Estar formado por miembros “seleccionados” de la
población (individuos, unidades experimentales).
19 20
5
Parámetros y estadísticos Población biológica y población estadística
• Parámetro: Es una cantidad numérica calculada sobre una población
• El peso medio de los venados de una especie en un sitio. Población Biológica

• La altura de los árboles de una especie que crece en bosques secos de …
La idea es resumir toda la información que hay en la población (parámetros) en unos pocos números
(estadísticos) Conjunto de individuos de la misma especie y composición
• Estadístico: Es una cantidad numérica calculada sobre una muestra genética, ubicados en un espacio y en un tiempo determinados y
que se encuentran aislados reproductivamente (e.d. entre ellos
 La altura media de las personas que estamos en este salón de clases. compartes información
i f ió genética,
éi pero no con otros).
)
• Somos una muestra (¿representativa?) de la población.
Población estadística
Si un estadístico se usa para aproximar un parámetro también se le llama
estimador.
Totalidad de las observaciones individuales acerca de la cual se
Normalmente nos interesa conocer un parámetro, pero por la dificultad que conlleva hacen inferencias, que existen en cualquier lugar o al menos
estudiar a *TODA* la población, calculamos un estimador sobre una muestra y
“confiamos” en que sean próximos. La teoría del muestreo estudia cómo elegir dentro de un área específica de muestreo limitada en tiempo y
muestras para que el error sea “confiablemente” pequeño. espacio.
Población biológica UNIVERSO
Población estadística 22
21
Dato o Variante
Parámetros vs estadísticos
Es la unidad mínima de información.
Parámetro Se basa en observaciones individuales, que
Cantidad propia de la población, cuyo valor son observaciones o medidas tomadas de
no se puede o no se necesita conocer, sino la más pequeña unidad muestral.
que se estima con base en los estadísticos
q
La unidad muestral pueden ser individuos,
Estadísticos pero existen otros niveles de unidades
muestrales.
Cantidades computadas, calculadas o
estimadas (… a partir de la muestra). Cómo obtenemos datos?
Qué es medir?
23
6
Muestra
El conjunto de observaciones individuales
Conjunto de observaciones individuales
constituyen la muestra.
(datos), seleccionados de la población
Determinan la estructura
mediante un procedimiento específico.
Variable o carácter
Característica medida por las observaciones
individuales.
Determina la naturaleza
25 26
Variables
LAS VARIABLES Una variable es una característica observable (medible) que varía
entre los diferentes individuos de una población.
La información que disponemos de cada individuo o unidad muestral

Variable biológica es resumida en variables.
• En los individuos de la p
población del curso, de uno a
Propiedad
P i d d o caracter medida
did por las
l otro es variable:
observaciones individuales con respecto a – El grupo sanguíneo
la cual los individuos de una población • {A, B, AB, O}  Algunos la llaman “Cualitativa”
(muestra) se diferencian en algo verificable. – Su nivel de felicidad “declarado”
• {Deprimido, Ni fu ni fa, Muy Feliz}  Algunos la llaman Ordinal
– El número de hijos…?
• {0,1,2,3,...}  Variable discreta
– La altura
• {1’62 ; 1’74; ...}  Variable continua
27 28
7
Tipos de variables biológicas Tipos de variables biológicas
cuántos hay?. Cuáles son? cuántos hay?. Cuáles son?
Cualitativas
Si sus valores (modalidades) no se pueden asociar naturalmente a un número (no se
pueden hacer operaciones algebraicas con ellos).
– Nominales: Si sus valores no se pueden ordenar (atributo)

1. Continuas
2. Discontinuas, discretas o merísticas
• Sexo (género), Grupo Sanguíneo, Religión, Nacionalidad…
– Ordinales: Si sus valores se pueden ordenar
• Mejoría a un tratamiento, Grado de satisfacción, Intensidad del dolor…
Cuantitativas o Numéricas 3. Ordinales

Si sus valores son numéricos 4. Atributo o nominales
(tiene sentido hacer operaciones algebraicas con ellos).
– Discretas: Si toma valores enteros (son precisas)

5. Variables derivadas o computables
• Número crías, número huevos, edad años cumplidos, número de flores o frutos, granos de polen…
razones, proporciones, porcentajes, índices, tasas
– Continuas: Si entre dos valores, son posibles infinitos valores intermedios (son imprecisas)
• Altura, Presión intraocular, Dosis de medicamento administrado, edad
29 30
Tipos de variables biológicas…2 Tipos de variables biológicas…3

(V.derivadas o computables) (V.derivadas o computables)
Proporciones: Cantidades que se expresan mediante un Índices: expresiones que muestran una relación
solo valor que resulta de la relación entre dos variables. (existente o no?) entre variables; p.e. Número
Se pueden expresar como proporción 64:24 ó 2.666, de excrementos de jaguar vistos por kilómetro
como fracción 1.2/1.8 ó 0.666, o como cocientes. No de trayecto de observación recorrido.
tienen unidades.
Porcentajes: Son un tipo especial de proporciones.

O la relación peso vs. tamaño del ala en
murciélagos o en aves.
Tasas: Se parecen a los índices en el sentido que
relacionan dos variables. p.e. cantidad de una sustancia
liberada por unidad de peso o de volumen; peso ganado
por unidad de tiempo o de alimento, tasas reproductivas
Otros índices
por unidad de población, tamaño o tiempo, etc.
31 32
8
Desventajas en el uso de las variables
Concepto importante
derivadas o computables
Exactitud y precisión de los datos
1. Imprecisión Exactitud o Seguridad:

2. Inexactitud relativa Es la cercanía de un dato medido o
3. Distribuciones raras que no se ajusten a computado a su verdadero valor.
valor
la normal (p.e. broken stick)
4. No dicen nada acerca de la relación Precisión
existente entre las dos o más variables Es la cercanía entre medidas repetidas del
implicadas mismo objeto o entidad
33 34
muestra
Fuentes de las figuras: Krebs

real
1989, Rabinovich 1978, Fuentes de las figuras: Krebs
Bookhout 1994, Brower et al. 1989, Rabinovich 1978,
1990 Bookhout 1994, Brower et al.
1990
9
CAMPOS EN QUE SE DIVIDE
LA BIOMETRIA o BIOESTADISTICA
¿Para el uso de la biometría o Estadística Descriptiva Vs. Estadística Inferencial

bioestadística qué es más
Estadística paramétrica Vs. Estadística no paramétrica o
importante la precisión o la de distribuciones libres
libres.
exactitud ? Estadística univariada Vs. Estadística multivariada
OTROS?
Estadística Bayesiana
Por qué? Enfoque no frecuentista, o de probabilidades
condicionales
37
Este resumen se obtiene por medio de:

ESTADÍSTICA DESCRIPTIVA 1.Cálculo de estadísticos descriptivos.
Conjunto de formas y procedimientos 2. Construcción de distribuciones de frecuencias

numéricos y gráficos que permiten
presentar los resultados en forma de un
Estadísticos descriptivos
resumen corto,
corto preciso
preciso, claro
claro, formal y
comparable. Son valores (numéricos) que resumen (describen) de forma concisa y
exacta la estructura de los datos.
Distribuciones de frecuencias
empíricas -de los datos-
Es decir de los datos que provienen de las observaciones de campo o
de lo experimentos.
Tablas que ordenan y resumen información de la muestra
39
10
estadísticos estadísticos
Los estadísticos descriptivos Los estadísticos descriptivos
CUALES SON? • Posición
– Dividen un conjunto ordenado de datos en grupos con la misma
cantidad de datos
• Tendencia central, de centralización o de localización

Posición – Valores con respecto a los cuales los datos parecen agruparse.
Tendencia central, de Cantidades o valores que indican la posición espacial de
centralización o de localización una muestra.
• Dispersión o variabilidad
– Indican la mayor o menor concentración de los datos con
respecto a las medidas de centralización.
Dispersión o variabilidad • Forma

Forma
 Son medidas de la apariencia o forma que tienen las distribuciones de
frecuencia
41 42
estadísticos
Los estadísticos descriptivos Estadísticos de posición
• Posición  Se define el cuantil de orden  como un valor de la variable por
– Dividen un conjunto ordenado de datos en grupos con la misma debajo del cual se encuentra una frecuencia acumulada 
cantidad de individuos.
• Cuantiles, percentiles, cuartiles, deciles,...  Casos particulares son los percentiles, cuartiles, deciles, quintiles,...
• Tendencia central, de centralización o de localización
– Indican valores con respecto a los que los datos parecen agruparse.
• Media, mediana y moda
• Dispersión o variabilidad
– Indican la mayor o menor concentración de los datos con respecto a
las medidas de centralización. Expresan la variación o variabilidad de
una distribución de frecuencias.
• Desviación estándar (típica), coeficiente de variación, rango, varianza
• Forma
• Asimetría
• Kurtosis o curtosis
43
11
Cuantiles
Estadísticos de posición
Cuantil de orden α
• Percentil de orden k = cuantil de orden k/100 • i es el menor intervalo que tiene
☺La mediana es el percentil 50 frecuencia acumulada superior a α ·n
☺El percentil de orden 15 deja por debajo al 15% de las • α=0,5 es mediana
observaciones. Por encima queda el 85%
• Cuartiles: Dividen a la muestra en 4 grupos con   n  Ni1

C  Li 1  (Li  Li 1 )
frecuencias similares. ni
☺Primer cuartil = Percentil 25 = Cuantil 0,25
☺Segundo cuartil = Percentil 50 = Cuantil 0,5 = mediana
☺Tercer cuartil = Percentil 75 = cuantil 0,75
45 46
Estadísticos de posición… ejemplos Estadísticos de posición… ejemplos
• El 5% de los recién nacidos tiene un peso demasiado bajo. ¿Qué peso es superado sólo por el 25% de los individuos?
¿Qué peso se considera “demasiado bajo”?
• Percentil 75 o tercer cuartil
• Percentil 5 o cuantil 0,05
Percentil 75 del peso
Percentil 5 del peso
30
25
25
20
20
frecuencia
15
frecuencia
15
10
10
5
5
0
0
50 55 60 65 70 75 80 85
1 2 3 4 5 Peso (Kg) de 100 deportistas

47 48
Peso al nacer (Kg) de 100 niños
12
Estadísticos de posición… ejemplos Estadísticos de posición… ejemplos
– El colesterol se distribuye simétricamente en la población. Supongamos que
se consideran patológicos los valores extremos. El 90% de los individuos
son normales ¿Entre qué valores se encuentran los individuos normales? – ¿Entre qué valores se encuentran la mitad de los individuos “más
normales” de una población?
• Entre el cuartil 1º y 3º
Percentiles 5 y 95 Percentiles 25 y 75
20
20
15
1
15
frecuencia
frecuencia
10
10
5
5
0
0
180 200 220 240 260 150 160 170 180 190
Colesterol en 100 personas Altura (cm) en 100 varones

49 50
Diagrama de cajas de Tukey: Resumen en 5 números
Diagramas de Tukey Estadísticos de tendencia central …1

0.08
0.06
• Resumen con 5 números:

densidad
– Mínimo, cuartiles y
0.04
máximo.
Mín. P25 P50 P75 Máx.
Medidas o valores que indican posiciones con respecto a los
– Dan una “buena idea” de
0.02
la distribución. cuales los datos muestran tendencia a agruparse.

0.00
40 45 50 55 60 65
• La zona central, ‘caja’, Velocidad (Km/h) de 200 vehículos en ciudad • Media (‘mean’) Es la media aritmética (promedio “average”) de
contiene al 50% central de
las observaciones. los valores de una variable. Suma de los valores dividido por el
– Su tamaño se llama t
tamañoñ muestral.
t l
‘rango intercuartílico’ Diagrama de cajas de Tukey: Resumen en 5 números
(R.I.) – Media de 2,2,3,7 es (2+2+3+7)/4=3,5
– Conveniente cuando los datos se concentran
0.04
• Los “bigotes”, no llegan hasta

los extremos, sino hasta las simétricamente con respecto a ese valor. Muy sensible a
0.03
densidad
observaciones que se valores extremos.

separan de la caja en no más
0.02
de 1,5 R.I. Mín. P25 P50 P75 Máx – Centro de gravedad de la distribución de frecuencias.
0.01
– Más allá de esa distancia

se consideran anómalas,
0.00
y así se marcan. 80 90 100 110 120
Velocidad (Km/h) de 200 vehículos en autovía

130 140
51
Existen otras medias? 52
13
Otras medias o promedios Estadísticos de tendencia central …2
Mediana (‘median’)
Aritmética X 
X i
Es un estadístico (valor) que divide al conjunto de
n
observaciones (muestra, datos) en dos grupos con
el mismo número de datos (percentil 50). Si el
1
Geométrica MG X  anti log
n
 log X i número de datos es par, se elige la media de los
dos datos centrales.
• Mediana de 1,2,4,5,6,6,8 es 5
• Mediana de 1,2,4,5,6,6,8,9 es (5+6)/2=5,5
Media armónica
1 1
 
1 • Es conveniente cuando los datos son asimétricos. No es sensible a
valores extremos.
HX n X
• Mediana de 1,2,4,5,6,6,800 es 5. ¡La media es 117,7!
53 54
Estadísticos
Estadísticos dede tendencia central
tendencia central …3
Moda (‘mode’) Altura mediana

Es el/los valor/es donde la distribución de
frecuencia alcanza un máximo; es decir
aquellos valores más frecuente de la variable.
56
55
14
Una distribución de frecuencias puede ser unimodal,
bimodal o multimodal
Para calcular la media es necesario elegir un punto representante del

intervalo: La marca de clase.
La media se desplaza hacia los valores

58 extremos. No coincide con la
mediana. Es un punto donde el histograma “estaría en equilibrio” si tuviese
Ventajas de la media (aritmética) sobre otros Estadísticos de dispersión o variabilidad

estadísticos de tendencia central:
Los estudiantes de estadística obtienen diferentes calificaciones en la
asignatura (variabilidad). ¿A qué puede deberse?
Aunque la media se influye por las observaciones extremas
o marginales, mientras que la mediana y la moda no, Diferencias individuales en el conocimiento de la materia.
se prefiere la media porque:
¿Podría haber otras razones (fuentes de variabilidad)?
1. Posee un error medio menor Por ejemplo supongamos que todos los alumnos poseen el mismo nivel
de conocimiento. ¿Las notas serían las mismas en todos?
2. Tratamiento matemático más fácil Seguramente No.
3. Posee normalidad aunque los datos originales no
4. Es sensible a los cambios en la forma de la – Dormir poco el día del examen, el almuero estaba “pesado”…
• Diferencias individuales en la habilidad para hacer un examen.
distribución de frecuencias
– El examen no es una medida perfecta del conocimiento.
• Variabilidad por error de medida.
– En alguna pregunta difícil, se duda entre varias opciones, y al azar se
elige la mala
59
• Variabilidad por azar, aleatoriedad. 60
15
Estadísticos de dispersión o Varianza S2 (‘Variance’):
Estadísticos de dispersión o variabilidad
variabilidad 1
Miden el grado de dispersión (variabilidad) de los datos,
•
independientemente de su causa.
Amplitud o Rango (‘range’): Extensión de la

0.05
Mín. P25 P50 P75 Máx.
S2  
n i
(xi  x)2
distribución. Diferencia entre observaciónes
extremas.
0.04
– 2,1,4,3,8,4. El rango es 8-1=7

– Es muy sensible a los valores extremos. Mide la desviación promedio (al cuadrado) de las observaciones
con respecto
p a la media.
03
0.0
• Rango intercuartílico (‘interquartile range’): 25% 25% 25% 25%

– Es sensible a valores extremos (alejados de la media).
0.02
– Es la distancia entre primer y tercer cuartil.

• Rango intercuartílico = P75 - P25 Rango intercuartílico
– Parecida al rango, pero eliminando las – Sus unidades son el cuadrado de las unidades de la variable. Por
0.01
observaciones más extremas inferiores y esto puede ser de interpretación difícil.

superiores. Rango
0.00
– Con relación al anterior, es menos sensible a – La expresión es fea, pero de gran belleza ‘natural’ (físicamente).
valores extremos. Contiene la información geométrica relevante en muchas
150 160 170 180 190
situaciones donde la información (energía) interna de un sistema
depende de la posición de sus partículas (datos!).
61 62
Ejercicio Desviación típica o desviación estándar

(‘standard deviation’)
Calcule la varianza de los siguientes datos
datos datos
Es la raíz cuadrada de la varianza
datos desviaciones desviaciones2
S  S2
3,8 3,8 3,8 -0,16 0,0256 Desviación estándar (s): raíz cuadrada de
3,3 3,3 la suma de los cuadrados de las
3,3 -0,66 0,4356
3,9 3,9 desviaciones de cada valor a la media o
3,9 -0,06 0,0036 suma de cuadrados (SS) dividida por el
4,1 4,1
número de50 datos
4,0 4,0 4,1 0,14 0,0196 • Tiene las misma dimensionalidad (unidades)
que la variable. Versión ‘estética’ de la
40
4,0 40
4,0 40
4,0 0 04
0,04 0 0016
0,0016 varianza.
i 40
3,6 3,6 4,0 0,04 0,0016
4,4
• La distribución de frecuencias normal o
4,4
3,6 -0,36 0,1296 gaussiana que veremos más adelante 30
4,4 4,4 Suma de quedará completamente determinada por la

4,4 0,44 0,1936 cuadrados media y la desviación estándar.
4,1 4,1 20
Suma 39,6 4,4 0,44 0,1936 – A una distancia de una desviación estándar de
Suma 39,6
la media hay ‘más de la mitad’ de los datos.
4,1 0,14 0,0196 10
Media 3,96 Desv. típ. = 568,43
Media 3,96 – A una distancia de dos desviación estándar de Media = 2023
Suma 39,6 0 1,024 la media estarán “casi” todos. 0 N = 407,00
Media 3,96
50
90
1.
1.
2.
2.
2.
3.
30
70
10
50
90
30
0
La suma de las
desviaciones siempre será 64
Peso recién nacidos en partos gemelares
cero
16
Dispersión en distribuciones ‘normales’ Coeficiente de variación
S
0.05
0.05
También se llama variabilidad relativa. CV 
x
0.04
0.04
Es la razón o proporción entre la desviación estándar y la media.

0.03
0.03
Desviación estándar expresada como un porcentaje de su media.

0.02
0.02
• Mide la desviación estándar en forma de “qué tamaño tiene con respecto a

la media”
0.01
0.01
xs x  2s
68.5 % 95 %
• Generalmente se expresa en porcentaje
0.00
0.00
Si la media es 80 y la desviación estándar 20 entonces CV=20/80=0,25=25%

150 160 170 180 190 150 160 170 180 190 (variabilidad relativa)
• Es una cantidad adimensional. Interesante para comparar la variabilidad de

• Centrado en la media y a una desviación estándar de distancia diferentes variables.
– Si el peso tiene CV=30% y la altura tiene CV=10%, los individuos presentan más
hay aproximadamente el 68% de las observaciones. dispersión en peso que en altura.
• No debe usarse cuando la variable presenta valores negativos o donde el valor

• A dos desviaciones estándar tenemos el 95% cero ( 0 ) es una cantidad fijada arbitrariamente
(aproximadamente.)
– Por ejemplo 0ºC ≠ 0ºF
65 66
NOTAS: Estadísticos de forma

1. s2 es un estimador insesgado de  2
Estadísticos que miden la naturaleza y la
2. s es un estimador sesgado de y por lo tanto  magnitud de desviaciones (deformaciones)
para muestras pequeñas (<30) su cálculo o de la normal.
estimación se debe corregir multiplicándolo por
n ( X  X )
s = s  Cn
3
Cn:
c 1
ASIMETRÍA g1 
 n  1
Cn  
2
(n  1)(n  2) s 3
donde 
 2 
3.  s 
cv     100 es estimador sesgado del parámetro “CV”
(n  1)n ( X  X )
X 4
3( n  1) 2
KURTOSIS g2  
(n  1)(n  2)(n  3) s 4
(n  2)(n  3)
4.

cv  1  1 n  cv
4
 es estimador insesgado del parámetro “CV”
68
17
Formas para detectar asimetría
Estadísticos de forma • Basado en diferencia entre estadísticos de tendencia central.
• Basado en la diferencia entre el 1º y 2º y entre 2º y 3º cuartiles
Asimetría g1 • Basados en desviaciones con signo al cubo con respecto a la
n ( X  X )
3
media.
g1 
• Una distribución es simétrica si la (n  1)(n  2) s 3
mitad izquierda es la imagen
especular de su mitad derecha. En función del signo de g1 la asimetría es positiva o negativa
• En las distribuciones simétricas

media y mediana coinciden
coinciden. Si sólo
hay una moda también coincide
0.20
• La asimetría es positiva o negativa
0.5
0.20
en función de a qué lado se
0.4
encuentra la cola de la distribución.
0.15
0.15
0.3
• La media tiende a desplazarse
0.10
0.10
hacia las valores extremos (colas).
0.2
0.05
0.05
0.1
xs
• Las discrepancias entre las medidas xs xs
66 % 78 %
de centralización son indicación de
78 %
0.00
0.00
0.0
asimetría.
69 8 10 12 14 16 18 20 -2 -1 0 1 2 3 0 2 4 6 8 10 12 14
70
x x x
Distribución simétrica  asimetría nula.
72
71
18
ASIMETRIA g1 Kurtosis g2
Grado de “aplanamiento” de la
distribución de frecuencias.
Mesokúrtica: Igual número de datos en la parte
central y en la cola de una distribución normal. Es
Media, mediana y moda no coinciden l normal.
la l
Derecha: La cola de la distribución está hacia la derecha
Izquierda: La cola de la distribución está hacia la izquierda
g1 negativo(-), asimetría hacia la izquierda

g1 positivo (+) asimetría hacia la derecha 74
Kurtosis g2 Kurtosis g2
La kurtosis nos indica el grado de apuntamiento (“aplastamiento”) de una distribución con

Platikurtica: Menos datos cerca de la media y colas que
respecto a la distribución normal o gaussiana. Es adimensional. en intermedias.
Platicúrtica (aplanada): curtosis < 0 (negativa) Leptokurtica: Más datos cerca de la media y en colas
Son de especial que en las partes intermedias de la distribución de
Mesocúrtica (como la normal): curtosis = 0
interés las frecuencias.
Leptocúrtica (apuntada): curtosis > 0 (positiva) distribuciones
mesocúritcas
(parecidas a la
Aplanada
normal
Apuntada como la normal
2.0
Apuntada
0.8
1.5
0.3
0.6
1.0
0.2
0.4
0.5
0.1
0.2
x s
x s x s
57 %
68 % 82 %
0.0
0.0
0.0
0.0 0.2 0.4 0.6 0.8 1.0

-3 -2 -1 0 1 2 3
-2 -1 0 1 2
g1 y g2 se llaman “momentos estadísticos”
75 76
19
En resumen: En resumen:
g1 y g2 = 0 = Normal g1= 0 y g2= 0 -2<g1 y g2 < 2
g1 - asimetría hacia la izquierda

g1 + asimetría hacia la derecha
g
g1< 0, negativo
g2 - platikurtica g1> 0, positivo
g2 + leptokurtica
g2< 0, negativo g2> 0, positivo
77 78
Estadísticos muestrales
y parámetros poblacionales? DISTRIBUCIONES DE FRECUENCIAS
EMPIRICAS
Tener en cuenta que los estadísticos son Una distribución de frecuencias es una sucesión
ordenada de los valores obtenidos en una muestra
indicadores de los valores de población o con la frecuencia o número de veces con la q
que
parámetros aparecen cada uno de ellos.
Se pueden representar en forma de tablas o en forma

gráfica
Estadística paramétrica
Vs
Estadística no
79 paramétrica 80
20
Tablas de frecuencia
Presentación ordenada de datos
Exponen la información recogida en la muestra, de forma que se pierda poco o nada de información
Las tablas de frecuencias y las representaciones gráficas son
dos maneras equivalentes de presentar la información. Las Frecuencias absolutas: Cuenta del número de DATOS en cada categoría o clase
Frecuencias relativas (porcentajes): cuenta del número de datos dividido por el total
dos exponen ordenadamente la información recogida en una
muestra. Frecuencias acumuladas: Sólo tienen sentido para variables ordinales y numéricas
Muy útiles para calcular cuantiles
¿Qué porcentaje de individuos tiene menos de 3 hijos?
¿Entre 4 y 6 hijos?
6
Género Frecuencia. 5 Sexo del encuestado
Número de hijos
Hombre 4 4
Frecuencia Porcentaje
Porcentaje
válido
Porcentaje
válido
Porcentaje
acumulado
3 Válidos Hombre 636 41,9 41,9
Válidos 0 419 27,6 27,8 27,8
Mujer 881 58,1 58,1
1 255 16,8 16,9 44,7
2 Total 1517 100,0 100,0
2 375 24,7 24,9 69,5
Mujer 6 1 3 215 14,2 14,2 83,8
Nivel de felicidad
4 127 8,4 8,4 92,2
0 Porcentaje Porcentaje 5 54 3,6 3,6 95,8
Hombre Mujer Frecuencia Porcentaje válido acumulado 6 24 1,6 1,6 97,3
Válidos Muy feliz 467 30,8 31,1 31,1
7 23 1,5 1,5 98,9
Bastante feliz 872 57,5 58,0 89,0
Ocho o más 17 1,1 1,1 100,0
No demasiado fel 165 10,9 11,0 100,0
Total 1509 99,5 100,0
Total 1504 99,1 100,0
Perdidos No contesta
Perdidos No contesta 8 ,5
13 ,9
Total 1517 100,0 Total 1517 100,0
81
82
Tablas de frecuencia
Datos desordenados y ordenados en tablas
Exponen la información recogida en la muestra, de forma que se pierda poco o nada de información
Género Frec. Frec. relat.
Frecuencias absolutas: Contabilizan el número de individuos de cada modalidad • Variable: Género porcentaje
Frecuencias relativas (porcentajes): Idem, pero dividido por el total
– Modalidades: Hombre 4 4/10=0,4=40%
• H = Hombre
Frecuencias acumuladas: Sólo tienen sentido para variables ordinales y numéricas
Muy útiles para calcular cuantiles • M = Mujer Mujer 6 6/10=0,6=60%
¿Qué porcentaje de individuos tiene menos de 3 hijos? Sol: 83,8
¿Entre 4 y 6 hijos? Soluc 1ª: 8,4%+3,6%+1,6%= 13,6%. Soluc 2ª: 97,3% - 83,8% = 13,5%
10=tamaño
muestral
Sexo del encuestado
Número de hijos
Porcentaje
válido
Porcentaje
válido
Porcentaje
acumulado
• Muestra:
Válidos Hombre 636 41,9 41,9
Válidos 0 419 27,6 27,8 27,8
Mujer 881 58,1 58,1
1 255 16,8 16,9 44,7
Total 1517 100,0 100,0
2 375 24,7 24,9 69,5
Nivel de felicidad
3
4
215
127
14,2
8,4
14,2
8,4
83,8
92,2
MHHMMHMMMH
Porcentaje Porcentaje 5 54 3,6 3,6 95,8
Frecuencia Porcentaje válido acumulado 6 24 1,6 1,6 97,3
Válidos Muy feliz 467 30,8 31,1 31,1
Bastante feliz
No demasiado fel
872
165
57,5
10,9
58,0
11,0
89,0
100,0
7
Ocho o más
23
17
1,5
1,1
1,5
1,1
98,9
100,0 – equivale a
Total
Perdidos No contesta
1504
13
99,1
,9
100,0
Perdidos
Total
No contesta
1509
8
99,5
,5
100,0
HHHH MMMMMM
Total 1517 100,0 Total 1517 100,0
83 84
21
1. De variables atributos o nominales: las clases se
clasifican de acuerdo con un orden, lógico o arbitrario. 2. De variable discretas
Variable (X) Frecuencia (f)
Genotipo Frecuencia (f)
9 1
A- 86
Frecuencia de una característica 8 1
Aa 32
7 4
6 3
Especies Frecuencia (f)

5 1
4 1
Carollia perspicillata 9
Carollia castanea 6
Listas de especies
Carollia brevicauda 27
86
3. De variable continua
Tabla de frecuencias de la variable
Frecuencia Frecuencia
Limite Límite Marca de Frecuencia Frecuencia
Frecuencia Clase absoluta relativa
Número de Plantas por Parcela Inferior Superior clase Absoluta Relativa
observada acumulada acumulada
1 3,20 3,46 3,33 1,00 0,04 1,00 0,04
2 3,46 3,73 3,60 5,00 0,20 6,00 0,24
3 3,73 4,00 3,86 7,00 0,28 13,00 0,52
4 4,00 4,26 4,13 3,00 0,12 16,00 0,64
5 4,26 4,53 4,40 8,00 0,32 24,00 0,96
0 2 6 4 53
4,53 4 80
4,80 4 66
4,66 1 00
1,00 0 04
0,04 25 00
25,00 1 00
1,00
1 1
2 4 Media = 4,004 Desviación estándar = 0,365
3 1 The StatAdvisor (Consejero)

4 7 ----------------------------
This option performs a frequency tabulation by dividing the range of variable
5 2 into equal width intervals and counting the number of data values in each
6 3 interval. The frequencies show the number of data values in each interval, while
the relative frequencies show the proportions in each interval.
Número de plantas de una especie en 20 parcelas (Poisson):
87
22
Histograma de frecuencias
8
8
6
freccuencia
6
frecueencia
4
4
2
2
0
0 3,2 3,6 4 4,4 4,8
3,2 3,5 3,8 4,1 4,4 4,7 5 valor de la variable
variable
89 90
4
3
freecuencia
0
3,2 3,6 4 4,4 4,8
valor de la variable
91 92
23
94
93
95 96
24
Ejemplo
Aplicaciones • ¿Cuántos individuos tienen Número de hijos
menos de 2 hijos?
– frec. indiv. sin hijos Porcent. Porcent.
Se pueden estudiar patrones estructurales +
frec. indiv. con 1 hijo 0
Frec.
419
(válido)
27,8
acum.
27,8
de la muestra. = 419 + 255
= 674 individuos
1 255 16,9 44,7
2 375 24,9 69,5 ≥50%
3 215 14,2 83,8
• ¿Qué porcentaje de 4 127 8,4 92,2
i di id
individuos titiene 6 hij
hijos o
5 54 3,6 95,8
menos?
– 97,3% 6 24 1,6 97,3
7 23 1,5 98,9
• ¿Qué cantidad de hijos es Ocho+ 17 1,1 100,0
tal que al menos el 50% de Total 1509 100,0
la población tiene una
cantidad inferior o igual?
– 2 hijos
97 98
Aplicaciones Si es al azar se pueden hacer predicciones sobre la población basados

en la distribución de frecuencias de la muestra.
Por ejemplo…
1. Aproximadamente un determinado porcentaje de los valores pueden

Pero si se quieren hacer predicciones sobre estar entre un valor determinado y otro.
la población de la cual proviene esa 2. La probabilidad de que un fenómeno (evento, hecho) tenga un
determinado valor (alto, medio o bajo).
muestra esta debe ser
muestra,
3. Si los datos se mezclan y se saca uno al azar, la probabilidad de que
“REPRESENTATIVA” salga un valor dado es...
de la población. 4. Es más probable incluir en la muestra valores que estén en mayor

cantidad.
5. Si muestreamos de una población desconocida y encontramos que se

Para esto se debe hacer esquemas de muestreo al azar obtiene un dato que es de muy baja frecuencia, probablemente
rechazaríamos la hipótesis de que la población desconocida es la
misma que la que está representada por los datos.
99 100
25
Otros gráficos Gráficos diferenciales para
• Diagramas de barras variables numéricas 400
419
375
– Alturas proporcionales a las frecuencias

(absolutas o relativas.) 300
255
Recuento
– Se pueden aplicar también a variables • Son diferentes en función de que las 215
discretas 200
variables sean discretas o continuas. 127
• Diagramas de sectores (tortas o polares) Valen con frecuencias absolutas o

100
54
24 23
– No usarlo con variables ordinales.
17
relativas.
– El área de cada sector es proporcional a su
0 1 2 3 4 5 6 7 Ocho o más
Número de hijos
frecuencia ((absoluta o relativa)) – Diagramas
g barras para
p variables
discretas
• Pictogramas • Se deja un hueco entre barras para indicar
250
– Fáciles de entender. los valores que no son posibles 200
– El área de cada modalidad debe ser
Recuento
proporcional a la frecuencia. ¿De los dos, 150
cuál es incorrecto?. – Histogramas para variables continuas 100
• El área que hay bajo el histograma entre

dos puntos cualesquiera indica la cantidad
50
(porcentaje o frecuencia) de individuos en el 20 40 60 80
intervalo. Edad del encuestado
101 102
Diagramas integrales En conclusión:

• Cada uno de los anteriores diagramas tiene su correspondiente diagrama integral. Se Usamos las distribuciones de frecuencia para:
realizan a partir de las frecuencias acumuladas. Indican, para cada valor de la variable,
la cantidad (frecuencia) de individuos que poseen un valor inferior o igual al mismo. No
los construiremos en clase. Se pasan de los diferenciales a los integrales por
integración y a la inversa por derivación.
• Hacer predicciones: p.e. con cuánta

frecuencia (probabilidad) ocurrirá un hecho
o fenómeno?
fenómeno?.
• Hacer juicios o tomar decisiones: p.e.

podemos asumir con un nivel de
probabilidad que un evento determinado
pertenezca a una población?.
103 104
26
PERO:
NO queremos hacer predicciones • Así, podríamos asumir que nuestros datos se

distribuyen de cierta manera debido a supuestos
(inferencias) sobre las básicos acerca de la naturaleza de las fuerzas que
distribuciones de frecuencia actúan y que causan los fenómenos reales.
empíricas,
íi • De tal manera que, si nuestros datos (observados)
no se ajustan lo suficientemente bien a los valores
esperados sobre la base de supuestos teóricos,
podríamos dudar acerca de los supuestos.
SINO sobre la base de
consideraciones teóricas que se
consideran pertinentes105 106
(modelos teóricos o distribuciones de frecuencia teóricas)
La consideración de los supuestos conduce a

distribuciones de frecuencia teóricas o
distribuciones de probabilidad teóricas.
Distribuciones de
IMPORTANTE:
frecuencia o de
Si encontramos que los datos observados (muestra) no se ajustan
a lo esperado sobre la base de la teoría, podríamos llegar a
probabilidad
descubrir que algunos mecanismos (fuerzas, factores) biológicos
causan esta desviación de lo esperado. (teóricas)
Distribuciones teóricas
107 /32 108
27
1.- DISTRIBUCION BINOMIAL
Distribuciones de frecuencia de Distribución de probabilidad de fenómenos, eventos o sucesos que se cuantifican
variables discretas u observan por medio de variables que presentan DOS estados opuestos
Por definición
p + q = 1, por tanto q = 1 - p.
(p+q)k Si n = k = 1 (p+q)1 = p + q
Si n = k = 2 (p+q)2 = p2 + 2 pq + q2
Si n = k = 3 (p+q)3 = p3 + 3p2q + 3pq2 + q3
Binomial Poisson
Notar que: los exponentes de p aumentan de uno en
uno y los de q disminuyen de uno en uno.
donde k es el tamaño de la muestra (n).

(n)
p = probabilidad (frecuencia) de un evento o un
hecho.
Hipergeométrica Expansión del binomio
q = probabilidad (frecuencia) del evento, suceso o
hecho opuesto.
Asignación de Coeficientes
Logarítmica Triángulo de Pascal
Se comparan (estadísticamente) las frecuencias esperadas con las
Binomial Negativa
observadas (pruebas de bondad de ajuste de chi-cuadrado o de
Kolmogorov-Smirnov)
Entonces se puede usar el modelo (binomial, normal, otro) para hacer
predicciones.
109 /32 110 /32
2.- DISTRIBUCION DE POISSON OTRAS DISTRIBUCIONES DISCRETAS
Distribución de frecuencias de una variable discreta. Hipergeométrica, Binomial Negativa, Logarítmica.
Da la probabilidad de que un evento o fenómeno raro ocurra y que la probabilidad 3. HIPERGEOMETRICA:

de que no ocurra es grande. En otras palabras p es pequeño y q es grande.
Además k es grande (tamaño de muestra grande). Poblaciones finitas que se muestrean sin reemplazamiento.
 
K
  p0 qk (0.001+ 0.999)k Expresión que da la probabilidad de
   pN  qN 
0    muestrear r ítems del tipo representado por
 r  k  r  la probabilidad p a partir de una muestra de
k ítems de una población de tamaño N.
K N
  p1 qk-1  
  k La media es: kp
1 La varianza es: kpq (N-k)/(N-1)
K
  p2 qk-2 Se utiliza en C.M.R.
 
2
K Fenómenos raros y aleatorios generan datos que se distribuyen
  p3 qk-3 de acuerdo a una distribución de probabilidades de Poisson.
 
/32 111 /32 112
3
28
OTRAS DISTRIBUCIONES DE PROBABILIDAD
DE VARIABLE DISCRETA
DISTRIBUCIONES DE
•BERNOULLI
VARIABLES CONTINUAS
•DISCRETA UNIFORME
•GEOMETRICA
•BINOMIAL NEGATIVA
1. Existen muchos factores simples o compuestos.
2. Son independientes.
3. Producen efectos independientes - son aditivos.
4. Si todos los factores contribuyen igual a la varianza.
/32 113
Beta
Uniforme
Gamma
Weibull
Erlang
Exponencial Normal
Pareto t-Student
Triangular
Laplace
Chi-Cuadrado
Valores extremos F
Cauchy
Logística
LogNormal
29
DISTRIBUCIÓN NORMAL
Normal Distribution
0,4 Mean,Std. dev.
1
0,1
1  Y    /  2
0,3
Z e 2
density
0,2
 2
0,1
0
-5 -3 -1 1 3 5
Constantes:
x
= 3.14159
Parámetros: e = 2.71828
µ = Media
Normal Distribution s = Desviación estándar
0,4 Mean,Std. dev.
0,1
0,3
density
0,2
0,1
0
-5 -3 -1 1 3 5
x
30
Características de la Distribución Normal Características de la Distribución Normal
El cambio de los parámetros de la distribución

normal afecta su forma y posición. A.   4,   1.
B.   8,   1.. C.   8,   0.5.
• Existen infinitas curvas normales.

• Son simétricas con respecto a µ: coinciden, media, mediana y moda.
• Áreas bajo la curva normal -tabulados. Áreas bajo la función de densidad de probabilidad
normal y la función de distribución acumulativa
normal.
Áreas bajo la curva Normal

Aplicaciones:
1. Muestra: Distribución normal - test.
ƒ(E)(µ-): Pruebas de bondad de ajuste: X2, o K-S
2. Normal: Evidencia para aceptar o rechazar hipótesis

sobre factores qque afectan el fenómeno. Existen factores:
aditivos, independientes y de igual varianza. Desviaciones
de la normal?: Evidencia sobre fuerzas que afectan los
fenómenos
3. Existe Normalidad: Predicciones y test de hipótesis,

0.475 x 2 =0.95
basados en suposiciones de normalidad.
31

ASIMETRIA Y KURTOSIS
Ajuste de datos observados a normal g1 y g2 se llaman momentos estadísticos.
Estadísticos que miden la naturaleza y la magnitud de desviaciones de la
normal.
• Calcular las frecuencias esperadas [ƒ(E)] para una distribución
Asimetría (g1): Media, mediana y moda no coinciden
teórica normal con media µ y desviación estándar δ iguales a la
media X y desviación estándar de la muestra (s). -Derecha: La cola de la distribución está hacia la derecha
-Izquierda: La cola de la distribución está hacia la izquierda.
• Realizar una prueba de bondad de ajuste X2 , oK
K-S
S
g1 si es negativa(-), asimetría hacia la izquierda
• Analizar la distribución de frecuencias por medio de métodos g1 si es positiva (+) asimetría hacia la derecha
gráficos Kurtosis: (g2): Grado de aplanamiento de la distribución de frecuencias.
Leptokurtica: Más datos cerca de y en colas que en las partes intermedias
• Adicionalmente se puede analizar el comportamiento de algunos de la distribución de frecuencias.
estadísticos: media, mediana, moda, asimetría, kurtosis Platikurtica: Menos datos cerca de y colas que en intermedias.
g2 - platikurtica
g2 + leptokurtica
DISTRIBUCIÓN CHI-CUADRADO DE Existe una distribución para cada valor de grados de libertad.
PEARSON (X2)
Curvas de frecuencias de la
distribución X2 para 1, 2, 3 y 6
Distribución de frecuencias de probabilidad, grados de libertad
cuyos valores varían entre cero y el infinito

positivo.
A diferencia de la distribución Normal o de

Student, la X2 se aproxima asintóticamente
solo en la cola derecha y no en ambas colas. Las curvas son marcadamente asimétricas hacia la derecha. Al principio en
forma de J invertida, pero se aproximan a la simetría a medida que aumentan
los grados de libertad.
32
LA DISTRIBUCIÓN t-STUDENT
La distribución t-Student tiene las siguientes propiedades:
La distribución de  Al igual que la normal es simétrica y se extiende
asintóticamente hacia el infinito positivo y negativo.
Xi 
s Xi
La distribución esperada del anterior cociente se denomina la  Pero a diferencia de la normal puede tomar diferentes formas
distribución t-Student. dependiendo del número de grados de libertad (n-1), donde
n es el tamaño de la muestra de la que se ha tomado la
es más ancha y plana que la normal.
normal varianza
varianza.
 Para una distribución t-Student, los grados de libertad son

los mismos que los grados de libertad de la desviación
estándar de medias (error estándar) en el cociente:
Xi 
sXi
• Los grados de libertad pueden variar desde 1 hasta 

• Cuando g.l. = 1, se desvía mucho de la normal.
• g.l.= , es la misma normal.
Cuando g.l.
En otras palabras la distribución normal es un caso especial de la

distribución t–Student cuando g.l. = 
33

Precurso Estadistica-1 PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Precurso Estadistica-1 PDF

Cargado por

Copyright:

Formatos disponibles

Instituto de Ciencias Naturales Instituto de Ciencias Naturales

Universidad Nacional de Colombia Universidad Nacional de Colombia

Poblaciones,variables, datos, muestras,

REPASO DE ALGUNOS CONCEPTOS Y TEMAS

 La Ciencia se ocupa en general de fenómenos observables

Por qué el incremento en el uso de la

5. La estadística en biología: investigación -

Los métodos estadísticos en Etapas en un estudio… con estadística?

• Decidir qué datos recoger (diseño de experimentos)

• Recoger los datos (muestreo)

• Describir (resumir) los datos obtenidos

El estudio estadístico tiene componentes

Krebs, C.J. 1989 Definición

• El peso medio de los venados de una especie en un sitio. Población Biológica

La información que disponemos de cada individuo o unidad muestral

– Nominales: Si sus valores no se pueden ordenar (atributo)

Cuantitativas o Numéricas 3. Ordinales

– Discretas: Si toma valores enteros (son precisas)

Tipos de variables biológicas…2 Tipos de variables biológicas…3

Porcentajes: Son un tipo especial de proporciones.

1. Imprecisión Exactitud o Seguridad:

Fuentes de las figuras: Krebs

¿Para el uso de la biometría o Estadística Descriptiva Vs. Estadística Inferencial

Este resumen se obtiene por medio de:

Conjunto de formas y procedimientos 2. Construcción de distribuciones de frecuencias

• Tendencia central, de centralización o de localización

Dispersión o variabilidad • Forma

• Cuartiles: Dividen a la muestra en 4 grupos con   n  Ni1

Estadísticos de posición… ejemplos Estadísticos de posición… ejemplos

1 2 3 4 5 Peso (Kg) de 100 deportistas

Colesterol en 100 personas Altura (cm) en 100 varones

Diagrama de cajas de Tukey: Resumen en 5 números

Diagramas de Tukey Estadísticos de tendencia central …1

• Resumen con 5 números:

la distribución. cuales los datos muestran tendencia a agruparse.

• Los “bigotes”, no llegan hasta

observaciones que se valores extremos.

– Más allá de esa distancia

y así se marcan. 80 90 100 110 120

Velocidad (Km/h) de 200 vehículos en autovía

Moda (‘mode’) Altura mediana

Para calcular la media es necesario elegir un punto representante del

La media se desplaza hacia los valores

Ventajas de la media (aritmética) sobre otros Estadísticos de dispersión o variabilidad

Amplitud o Rango (‘range’): Extensión de la

– 2,1,4,3,8,4. El rango es 8-1=7

• Rango intercuartílico (‘interquartile range’): 25% 25% 25% 25%

– Es la distancia entre primer y tercer cuartil.

observaciones más extremas inferiores y esto puede ser de interpretación difícil.

Ejercicio Desviación típica o desviación estándar

4,4 4,4 Suma de quedará completamente determinada por la

Es la razón o proporción entre la desviación estándar y la media.

Desviación estándar expresada como un porcentaje de su media.

• Mide la desviación estándar en forma de “qué tamaño tiene con respecto a

Si la media es 80 y la desviación estándar 20 entonces CV=20/80=0,25=25%

• Es una cantidad adimensional. Interesante para comparar la variabilidad de

• No debe usarse cuando la variable presenta valores negativos o donde el valor

NOTAS: Estadísticos de forma

• En las distribuciones simétricas

Distribución simétrica  asimetría nula.

Derecha: La cola de la distribución está hacia la derecha

Izquierda: La cola de la distribución está hacia la izquierda

g1 negativo(-), asimetría hacia la izquierda