Está en la página 1de 102

Requisitos matemáticos:

Estadística

Presentación de Stephen Taylor (


http://www.slideshare.net/gurustip/statist
ical-analysis-presentation
)
Traducido y adaptado con permiso por
Aureliano Fernández

Image: 'Hummingbird Checks Out Flower'


http://www.flickr.com/photos/25659032@N07/7200193254 Found on flickrcc .net
Todos los alumnos de Biología del Programa
Requisitos matemáticos: del Diploma deberán ser capaces de:

Requisitos matemáticos:
Realizar las operaciones aritméticas básicas: suma, resta,

multiplicación y división.

Realizar cálculos con medias, decimales, fracciones, porcentajes y



proporciones.

Representar e interpretar datos de frecuencias en forma de gráficos


✓ de barras, gráficos e histogramas, proporciones directas e inversas
incluidas.
Dibujar gráficos (con escalas y ejes adecuados) con dos variables

que muestren relaciones lineales o no lineales.

Dibujar e interpretar diagramas de dispersión para identificar una


✓ correlación entre dos variables y comprender que la existencia de
una correlación no implica por sí misma una relación causal.

Determinar la moda y la mediana de un conjunto de datos, y calcular



y analizar la desviación estándar.
Seleccionar pruebas estadísticas apropiadas para el análisis de

datos particulares e interpretar los resultados.

Guía de Biología, 2014


En esta presentación veremos los siguientes elementos:
Requisitos matemáticos: Estadística descriptiva y representación gráfica

Determinar la media, la moda y la mediana de un conjunto de datos, y


1.
calcular y analizar la desviación estándar.

Indicar que el término desviación típica se usa para resumir la dispersión


2. de valores con respecto a la media y que el 68% de los valores difieren de
la media ±1 vez el valor de la desviación estándar o típica.

Explicar cómo la desviación típica es útil para comparar las medias y la


3.
dispersión de datos de dos o más muestras.

Indicar que las barras de error son una representación gráfica de la


4.
variabilidad de los datos.

Dibujar gráficos (con escalas y ejes adecuados) con dos variables que
5.
muestren relaciones lineales o no lineales.

Dibujar e interpretar diagramas de dispersión para identificar una


6. correlación entre dos variables y comprender que la existencia de una
correlación no implica por sí misma una relación causal.

Seleccionar pruebas estadísticas apropiadas para el análisis de datos


7.
particulares e interpretar los resultados.

A mano Con hoja de cálculo Con calculadora gráfica


¿Cómo puedo hacer cálculos estadísticos con mi calculadora
gráfica?

Video tutorial en inglés sobre cómo calcular la media


y la desviación estándar con TI-84plus
TCI-84-plus:
Guía del usuario
http://i-biology.net/ict-in-ib-biology/spreadsheets-graphing/statexcel/
El libro de Bioestadística en Excel de
Stephen Taylor constituye una
excelente guía con ejemplos
interactivos de tablas, gráficos y tests
estadísticos.

Traducción al español
La investigación biológica se basa en la observación y en la realización
de experimentos con el objetivo de poner a prueba las hipótesis
científicas que intentan explicar las propiedades o el funcionamiento
de los seres vivos.

http://www.bafrenz.com/birds/RTHuWeigh.htm

La observación científica requiere siempre la


medición cuidadosa de variables y el registro
http://www.flickr.com/photos/ciat/4526589942/
sistemático de datos.

La estadística es clave en todas las etapas de la investigación


biológica: diseño de la investigación, obtención y procesamiento
de datos y elaboración de conclusiones.
Variables cuantitativas y cualitativas
En estadística, se emplea el término variable para indicar cada una de las
características de un ser vivo o de un sistema que se pueda medir o contar.
• Variables cuantitativas: tienen valores numéricos. Pueden ser:
• Discretas: sólo números enteros. Ej.: número de hijos 0, 1, 2, 3, …
• Continuas: con números fraccionarios. Ej.: altura 1,5 m (recuerda que
tanto la coma como el punto se pueden utilizar como separador
decimal; cada vez se utiliza más el punto).
• Variables cualitativas: con valores categóricos o atributos. Por ejemplo:
sexo masculino/sexo femenino.
Ánade real o azulón (Anas platyrhynchos)
• Puesta: 3-12 huevos Var. discreta
• Color del plumaje de las crías: amarillo o
marrón a manchas Var. cualitativa

• Peso del adulto: 0.72-1.58 kg


Var. continua
http://www.flickr.com/photos/79471640@N00/485201047 En las investigaciones debemos procurar trabajar,
siempre que sea posible, variables cuantitativas.
Tipos de investigaciones
▪ En Biología los organismos presentan una extraordinaria variabilidad en
sus características a todos los niveles. Y es que hay muchos factores, ya
sean propios o del medio en el que viven, que son cambiantes y que
influyen sobre los seres vivos.
▪ Las investigaciones biológicas suelen ser fundamentalmente de dos
tipos: experimentos o correlaciones.
▪ En cualquier caso, para estudiar los seres vivos, los científicos toman
muestras representativas de una población, y luego aplican:
• estadística descriptiva, para caracterizar las muestras, y después
• estadística inferencial, para obtener conclusiones sobre la
población original.

Fuente: Life Stats Primer (


http://life9e.sinauer.com/life9e/content/pdfs/Life_Stats_Primer.pdf)
1) Experimentos
▪ Un experimento es cuando modificamos intencionadamente un factor (variable
X) y buscamos el efecto que tiene sobre otro (variable Y). En los experimentos
podemos identificar cuatro tipos de variables:
• La variable independiente (que es la variable X).
• La variable dependiente (que es la variable Y).
• Otras variables que podemos controlar.
• Otras variables que no podemos controlar.
▪ En todo experimento hay siempre una pregunta de
investigación: Elodea canadienses, una planta acuática

¿Cuál es el efecto de X sobre Y? muy utilizada en acuarios.


http://www.flickr.com/photos/40964293@N07/3920527577

Por ejemplo: ¿Cuál es el efecto de la temperatura


sobre la velocidad del movimiento de los
cloroplastos en Elodea?
La variable independiente es X (la temperatura) y
la variable dependiente es Y (la velocidad del
movimiento)
• La variable independiente es la que se supone que causa
Ciclosis en células de Elodea. Observa el
vídeo: el fenómeno estudiado.
http://www.microscopy-uk.org.uk/mag/imgnov00/cycl
oa3i.avi
• La variable dependiente es el efecto que se observa y
que podría estar causada por la variable independiente.
¿Cuál es el efecto de X sobre Y?
Ejemplo de experimento: ¿Cuál es el efecto de la temperatura (VI) sobre la
velocidad del movimiento de los cloroplastos en Elodea (VD)?
Se busca una posible relación causa-
efecto. Para ello ambas variables han
de ser medidas muy cuidadosamente.
• ¿Cómo medirías la temperatura
(VI)?
• ¿Cómo podemos medir la
velocidad de los cloroplastos (VD)?

¿Cuántas temperaturas diferentes


(o rango) vas a probar? ¿Cómo ¿Cómo medimos Y además ¿cuántas veces
medir la temperatura? ¿En qué la velocidad de los debemos repetir el
unidades? ¿Con cuánta precisión? cloroplastos y en experimento para que los
¿Cómo conseguirlo? qué unidades? datos sean fiables?

5
Pero en un experimento intervienen muchas otras variables, que deberían
permanecer constantes para no influir en los resultados: se denominan
variables controladas (en el caso de Elodea, por ejemplo, la intensidad de
la luz). Las que no hay modo de controlar son otras posibles variables no
controladas que, en cualquier caso, se deben al menos identificar.
Trata de identificar las variables que representan
las imágenes y si se pueden controlar o no.

¿Qué otras variables se podrían investigar en un


experimento posterior?

Todo esto forma parte del diseño del experimento


2) Correlaciones
▪ Las investigaciones biológicas también pueden ser correlaciones entre
conjuntos de datos. Una correlación es cuando tenemos series de datos de
dos o más variables y las comparamos para ver si hay semejanzas o
diferencias importantes entre ellas. No se busca una relación causa-efecto,
sino únicamente si hay alguna relación o correlación entre ellas.
▪ Por ejemplo: ¿Existen diferencias significativas entre el tamaño de las
hojas de un árbol cuando crece en zonas con poca intensidad de luz que
cuando crece en zonas con mucha intensidad de luz? Elegimos dos zonas
con distinta intensidades de luz (por ejemplo, una solana y una umbría) y
medimos la longitud de las hojas en una muestra de árboles en ambos
sitios. ▪ Otro ejemplo: ¿Existen diferencias
significativas en el tamaño del pico
o la masa del cuerpo de dos
especies de colibríes?

Haya (Fagus sylvatica)


y detalle de sus hojas
y frutos
http://es.wikipedia.org/wiki/ http://es.wikipedia.org/wiki/
Archivo:Rubythroathummer65.j Archivo:BroadbilledHummingbird.jpg
pg
Presentación de los datos brutos
Los datos se presentan siempre en tablas. Y a continuación, si son muchos y si se
puede, se agrupan en intervalos y se muestra la frecuencia (nº de elementos que
hay en cada intervalo).
Tabla 1. Longitud de las hojas de haya en zona de umbría.

105 93 122 98 103 112 114 127 103 107 121 99


Longitud hoja/
mm±0.5
91 115 102 106 115 124 108 97 11 113 118 107

Longitud hoja / Número de


mm ± 0.5 hojas

90 - 94 2
95 - 99 3
intervalos 100 - 104 3 frecuencias
105 - 109 5
110 - 114 4
115 - 119 3
120 - 124 3
125 - 129 1
Procesamiento de los datos brutos: datos calculados
Los datos brutos se procesan ya sea de forma numérica o gráfica.
A lo largo de la presentación veremos ejemplos y cómo se
calculan los estadísticos más frecuente:
- Media: es el valor característico de una serie de datos
cuantitativos y se obtiene a partir de la suma de todos sus
valores dividida entre el número de sumandos.
- Mediana: el valor central en un conjunto de datos ordenados.
- Moda: es el valor que se repite con una mayor frecuencia en
una serie de datos.
- Diferencias en %: Comparar datos expresando su diferencia
en tanto por ciento.
Sin embargo, en una distribución normal de datos, tan frecuente
en Biología, la media, la moda y la mediana tienen el mismo
valor.

El procesamiento estadístico se completa con:


- Desviación estándar
- Coeficiente de correlación
- Distribución normal
- Pruebas estadísticas: Test-t, Prueba chi-cuadrado
Representación gráfica de los datos
Según el tipo de valores de las variables se utilizan más unas gráficas que otras:

Gráfico de barras Se suele utilizar cuando no hay relación directa entre las
barras consecutivas. Se deja un espacio entre las barras.

Un estudiante había leído acerca de experimentos


sobre abejas y quería investigar las preferencias
de color de la abeja. Colocó platos de cristal
transparentes que contenían agua y azúcar pero
con diferentes fondos de color y contó el número
de abejas que visitan cada color durante un
período de 2 horas al mediodía.

Gráfico 1. Número de abejas que


visitan cada color en un periodo
de dos horas
Ejemplos extraidos de IB Biology Student Guide for Internal Assessment. OSC, 2008.
Representación gráfica de los datos

Histograma Se suele utilizar cuando hay relación entre barras


consecutivas. No se deja espacio entre las barras.
Tabla. Transmisión de la luz de
extractos de pigmentos de hojas de sol Un estudiante notó que varias especies de
y sombra de tres especies diferentes plantas que crecen en un bosque sombreado
tenían un tono diferente de verde que los
miembros de la misma especie que crecen en
un prado. Extrae con acetona los pigmentos
del cloroplasto y mide el % de transmisión de
la luz utilizando un colorímetro.

Ejemplos extraidos de IB Biology Student Guide for Internal Assessment. OSC, 2008.
Histograma
Un estudiante midió la longitud de 24 hojas de
Tabla. Frecuencia de las dos arbustos de laurel, uno que crece en un
longitudes de las hojas de ambiente soleado y el otro en la sombra, y
laurel al sol y a la sombra organizó los datos en intervalos como se
muestra en la siguiente tabla.

Ejemplos extraidos de IB Biology Student Guide for Internal Assessment. OSC, 2008.
Representación gráfica de los datos
Gráfico lineal Se suele utilizar para visualizar los datos de un experimento
con una variable independiente (VI) y otra dependiente (VD).
Por ejemplo para ver cómo cambia una variable a lo largo del
tiempo.
En un ensayo clínico (experimento) se estudia el
efecto de un medicamento (VI) sobre la evolución
de la enfermedad de un paciente. Para ello
medimos dos variables dependientes, su masa y
sus pulsaciones durante un periodo de 26 días.

Ejemplos extraidos de IB Biology Student Guide for Internal Assessment. OSC, 2008.
Representación gráfica de los datos
Gráfico lineal En el siguiente experimento se ha medido el efecto que
distintas concentraciones de agua oxigenada tiene sobre
el volumen de gas oxígeno producido por una levadura.
Representación gráfica de los datos
Se suelen utilizar para ver si hay alguna correlación
Gráfico de dispersión entre dos series de datos que deseamos comparar.
A los puntos se les suele agregar una línea de
tendencia o de ajuste que facilita la comprensión.

Ejemplos extraidos de IB Biology Student Guide for


Internal Assessment. OSC, 2008.
Gráfico de sectores o circular Este tipo de gráfico es útil para mostrar
distintas proporciones sobre un total.
Tabla. Número de personas con
diferentes grupos sanguíneos en
Inglaterra y en Noruega
https://coltmonday.wordpress.com/2010/05/11/how-animals-spend-their-time/
Los colibríes (hummingbirds)son nectarívoros
(herbívoros que se alimentan del néctar de las
flores de algunas especies de plantas).
Al regresar para alimentarse, polinizan la flor.
Es un ejemplo de mutualismo –
beneficioso para ambos.

Como resultado de la selección


natural,
El pico de los colibríes ha
evolucionado.
Las aves con un pico mejor
adaptado a su fuente de
alimento preferida tienen
mayor oportunidad para
sobrevivir.
Photo: Archilochus colubris, from wikimedia commons, by Dick Daniels.
Los investigadores que estudian
anatomía comparada recogen
datos de la longitud del pico de dos
especies de colibríes: colibrí de
garganta rubí (Archilochus colubris)
y colibrí de pico ancho (Cynanthus
latirostris).

Para hacer esto, necesitan recoger


suficientes datos , relevantes y
fiables, para poder poner a prueba
lo que en estadística se denomina
la Hipótesis nula (H0) que dice:

“No hay diferencia significativa en


la longitud del pico entre las dos
especies.”
Photo: Archilochus colubris (male), wikimedia commons, by Joe Schneid
El tamaño de la muestra
debe ser lo bastante grande
para proporcionar suficientes
datos y que sean fiables, que
nos permitan aplicar un test
estadísticamente significativo
y relevante.

Debemos ser conscientes de


la incertidumbre de nuestros
instrumentos de medida y
del posible error en nuestros
resultados.

Photo: Broadbilled hummingbird (wikimedia commons).


Aprenderemos cómo se hace un análisis estadístico completo con un ejemplo de
una investigación práctica sobre dos especies de colibríes (o colibrís)
Los colibríes (Hummingbirds) son las aves
más pequeñas del mundo (parientes de los
vencejos) y son nectarívoros: herbívoros
que se alimentan del néctar de algunas
especies de flores.
Al regresar por alimento, polinizan las flores.
El pico de los colibríes ha evolucionado
hasta adaptarse a su fuente preferida de http://www.thelensflare.com/gallery/p_speed-of-a-hummingbird_61740.php

alimento.
Los investigadores de la evolución de los
colibríes han tomado medidas de la longitud de
sus picos y del tamaño de sus cuerpos, para
poder compararlos mediante análisis estadísticos
y ver si hay diferencias significativas entre ellos.

http://www.flickr.com/photos/7927684@N03/5715947244
Colibrí con polen en el pico. http://www.flickr.com/photos/49028945@N00/5590780116
http://www.thelensflare.com/gallery/p_hummingbirdpollenbeak_25599.php
http://www.flickr.com/photos/29401025@N06/6093016983
Comparemos dos especies de colibrís:
Macho (♂) Hembra (♀)

Colibrí de garganta rubí


(Archilochus colubris )

http://es.wikipedia.org/wiki/Archivo:07-09-13RTHummingbird.jpg
http://es.wikipedia.org/wiki/Archivo:Rubythroathummer65.jpg

Macho (♂) Hembra (♀)

Colibrí de pico ancho


(Cynanthus latirostris)

http://es.wikipedia.org/wiki/Archivo:BroadbilledHummingbird.jpg
http://fireflyforest.net/firefly/2006/03/02/broad-billed-hummingbird/
La pregunta de la investigación es si existen diferencias significativas entre las
dos especies, en cuanto a:
a) Longitud del pico b) Masa del cuerpo

http://es.wikipedia.org/wiki/Archivo:Rubythroathummer65.jpg http://es.wikipedia.org/wiki/Archivo:BroadbilledHummingbird.jpg

Colibrí de garganta rubí Colibrí de pico ancho


(Archilochus colubris) (Cynanthus latirostris)
Ruby-throated Hummingbird Broad-billed Hummingbird

Dos cosas importantes que, de entrada, debemos tener en cuenta:


1. El tamaño de la muestra (n) debe ser 2. La incertidumbre del instrumento
lo suficientemente grande (≥ 10-15) de medida hay que conocerlo
para que los datos sean fiables. siempre (<10% de la medida).
Mediciones e incertidumbre
Incertidumbre: es el margen de error de una medición
(siempre debemos conocerlo e indicarlo)
p.ej., este colibrí pesa
para dispositivos
de medida digital

± división más pequeña

Las reglas tienen incertidumbre en


ambos extremos:
En instrumentos analógicos se suele utilizar como margen
de error ± la mitad de la división más pequeña que se
pueda medir. El último punto decimal es una estimación
Por ejemplo,
esta escala lee:

medido
estimado
(± 0.5 mm en ambos extremos) mitad
y la incertidumbre
es (±0.5g)
Debemos elegir siempre el instrumento de medida más adecuado en cada caso
y cuya incertidumbre, además, sea la menor posible (no superior a un 10%).

SEO. Manual del anillador.


Organización de los datos en tablas Tabla vertical:

Los datos brutos que se obtienen de cada medición Título de la tabla


se registran siempre en tablas, siguiendo unas n Variable / unidad ± incertidumbre
normas:
• Si se hace a mano las líneas se dibujan con regla. 1 13,2
• La tabla no se corta de una página a otra. 2 14,7
• Centrar y alinear las columnas de datos (utilizar 3 12,4
tabulador decimal en números fraccionarios). 4 13,9
• No poner más de un valor por celda.
5 13,3
• La mayoría de las tablas se organizan
6 10,5
verticalmente, pero también se puede hacer
horizontalmente. 7 12,0
• Los valores de una variable deben mantener 8 14,6
siempre el mismo número de decimales, en 9 14,3
consonancia con la incertidumbre de la medida. 10 10,8
Variable que se Unidad de
Título de la tabla
ha medido medida
Tabla horizontal: Longitud de la hoja/ mm ± 0,1
Incertidumbre
n 1 2 3 4 5 6 7 8 9 10
de la medida
Población A 1,1 1,2 1,3 1,4 1,5 1,6 1,7 1,8 1,9 1,1

Población B 2,3 2,3 2,4 2,0 2,3 4,3 2,2 2,2 2,0 3,1
Datos brutos tabulados del estudio sobre los colibríes

Tabla 1. Comparación de la longitud Tabla 2. Comparación del tamaño de la


del pico de en A. colubris y C. masa del cuerpo en A. colubris y C.
latirostris latirostris
Longitud del pico / mm ± 0.1 Masa del cuerpo / g ± 0,05
n A. colubris C. latirostris n A. colubris C. latirostris
1 13,0 17,0 1 2,7 3,1
2 14,0 18,0 2 2,8 3,4
3 15,0 18,0 3 2,8 3,5
4 15,0 18,0 4 2,9 3,7
5 15,0 19,0 5 2,9 3,8
6 16,0 19,0 6 2,9 3,9
7 16,0 19,0 7 3,0 3,9
8 18,0 20,0 8 3,1 4,0
9 18,0 20,0 9 3,4 4,1
10 19,0 20,0 10 3,6 4,1
Procesamiento de los datos mediante estadísticas descriptivas
La media es una medida de la tendencia central de
una serie de datos. Calcular la media utilizando:

Comparación de la longitud del • Una fórmula


pico de en A. colubris y C.
latirostris • Tu calculadora (suma de valores/n)
Longitud del pico / mm ± 0.1 • Una hoja de cálculo de Excel, OpenCalc o Google
n A. colubris C. latirostris Drive (función PROMEDIO O AVERAGE)
1 13,0 17,0
2 14,0 18,0 n = tamaño de la muestra. Mientras más
3 15,0 18,0 grande mejor. En este caso n=10 para cada
4 15,0 18,0 grupo.
5 15,0 19,0
6 16,0 19,0 Todos los valores deben estar centrados en la
7 16,0 19,0 celda, con decimales consistentes con la
8 18,0 20,0 incertidumbre del instrumento de medida.
9 18,0 20,0
10 19,0 20,0
Media 15,9 18,8 =PROMEDIO ó AVERAGE (distinguir de los datos
en bruto empleando cursiva o negrita).
La media tiene siempre el mismo número de
decimales que los datos brutos.
La desviación estándar es una medida de la
dispersión de la mayoría de los datos.
Comparación de la longitud del
pico de en A. colubris y C. Calcular la media utilizando:
latirostris
Longitud del pico / mm ± 0.1
• Una fórmula
n A. colubris C. latirostris
1 13,0 17,0 • Tu calculadora
2 14,0 18,0
3 15,0 18,0 • Una hoja de cálculo de Excel, OpenCalc o Google
4 15,0 18,0 Drive (función DESVEST)
5 15,0 19,0
6 16,0 19,0
7 16,0 19,0
8 18,0 20,0
9 18,0 20,0
10 19,0 20,0
Media 15,9 18,8
Desviació 1,91 1,03 =DESVEST (al calcular, escoger sólo datos brutos sin la media)
n estándar
La desviación estándar puede tener un decimal más que
los datos brutos y la media.
La desviación estándar es una medida de la
dispersión de la mayoría de los datos.
Comparación de la longitud del
pico de en A. colubris y C. Análisis comparativo de los datos:
latirostris
¿Cuál de las dos series de datos tiene:
Longitud del pico / mm ± 0.1
n A. colubris C. latirostris a. La media de la longitud del pico mayor?
1 13,0 17,0
2 14,0 18,0
3 15,0 18,0 b. La mayor variabilidad en los datos?
4 15,0 18,0
5 15,0 19,0 c. Calcular en porcentaje la diferencia de la
6 16,0 19,0
7 16,0 19,0
longitud del pico entre ambas especies.
8 18,0 20,0
9 18,0 20,0
10 19,0 20,0
Media 15,9 18,8
Desviació 1,91 1,03
n estándar
La desviación estándar es una medida de la
dispersión de la mayoría de los datos.
Comparación de la longitud del
pico de en A. colubris y C. Análisis comparativo de los datos:
latirostris
¿Cuál de las dos series de datos tiene:
Longitud del pico / mm ± 0.1
n A. colubris C. latirostris a. La media de la longitud del pico mayor?
1 13,0 17,0
2 14,0 18,0
C. latirostris
3 15,0 18,0 b. La mayor variabilidad en los datos?
4 15,0 18,0 A. colubris
5 15,0 19,0 c. Calcular en porcentaje la diferencia de la
6 16,0 19,0
7 16,0 19,0
longitud del pico entre ambas especies.
8 18,0 20,0
9 18,0 20,0
10 19,0 20,0
Media 15,9 18,8
Desviació 1,91 1,03
n estándar
Comparar medias: Aprende a expresar la diferencia en tanto por ciento.
Diferencia en
porcentaje
En el caso de los colibríes:
A = 0,50 Comparar la longitud del pico de A. colubris con la
Considere estos dos datos.
B = 0,75
de C. latirostris
Diferencia en %: Comparación simple Diferencia en porcentaje
A. colubris = 15,9
Diferencia entre A y B Longitud media del pico.
Diferencia en % = AoB
x 100 C. lastirostris = 18,8

Sin valores negativos - sólo se considera la magnitud de la


diferencia.
Diferencia en %: Comparación simple
Además hay dos respuestas aceptables.
diferencia
Diferencia en % = x 100
0.75 - 0.50 AoB
0,50
x 100 = 50 %
B es un 50% mayor que A Sin valores negativos - sólo se considera la magnitud de la diferencia.
Ó Además hay dos respuestas aceptables.
0.75 - 0.50
0,75
x 100 = 33 % 15,9 – 18,8
A es un 33% menor que B 15,9
x 100 = 18 %
El pico de C. latirostris es un 18% mayor que el
de A. colubris
Realizado sobre la hoja de cálculo del Ó
libro de Estadística en Excel de Stephen 15,9 – 18,8
x 100 = 15 %
18,8
Taylor: El pico de A. colubris es un 15% menor
https://app.box.com/s/ay633gmn6vv1uub2t7k6 que el de C. latirostris
La desviación estándar es una medida de la
dispersion de la mayoría de los datos.
Comparación de la longitud del
pico de en A. colubris y C. Análisis comparativo de los datos:
latirostris ¿Cuál de las dos series de datos tiene:
Longitud del pico / mm ± 0.1mm
n A. colubris C. latirostris a. La media de la longitud del pico
1 13,0 17,0 mayor?
2
3
14,0
15,0
18,0
18,0
C. latirostris
4 15,0 18,0 b. La mayor variabilidad en los datos?
5 15,0 19,0 A. colubris
6 16,0 19,0 c. Calcular en porcentaje la diferencia
7 16,0 19,0
de la longitud del pico entre ambas
8 18,0 20,0
9 18,0 20,0 especies.
10 19,0 20,0
Media 15,9 18,8 La longitud del pico de C. latirostris es un 18%
Desviació 1,91 1,03 mayor que el de A. colubris.
n estándar

Diferencia en % = (15,9-18,8/15,9)x100 = 18%


Cómo hacer un gráfico comparativo de los datos con una hoja de
cálculo (Excel)
DELETE
X

DELETE
X
Comparación de medias: Representación gráfica.
Título descriptivo, con el
número de gráfica.

Puntos etiquetados

Eje-Y claramente etiquetado,


con la incertidumbre.

Asegúrate que el eje Y empieza


en cero.

Eje-x etiquetado
De las medias podrías
concluir únicamente
que C. latirostris tiene
el pico más largo que A.
colubris.

Pero la media sólo


cuenta una parte de la
historia.
También podemos
comparar los datos con un
gráfico de barras
C. latirostris tiene el pico más largo que A. colubris.
… pero esto es solo parte de la historia.

La media es una medida de la tendencia central de los


datos, pero no nos dice nada de la dispersión de los
datos.
Nuestros datos podrán estar agrupados alrededor de la
media, o tener mayor variabilidad

media media

rango rango
La media aquí sería la misma, pero hay una mayor
En este caso , el rango (valor máx-
mín) es pequeño; la mayoría están dispersión de los datos: hay mayor variabilidad.
cerca de la media. Esto se conoce También hay una DISTRIBUCIÓN NORMAL
como DISTRIBUCIÓN NORMAL (con La media sólo tiene sentido si los datos siguen una
forma de campana). distribución normal. En Biología la mayor parte de las
variables biológicas siguen una distribución normal.
La desviación estándar o típica (s) de una muestra es una medida de la dispersión
de la mayoría de los datos. Significa exactamente que el 68% de todos los datos se
encuentran en ± 1 desviación típica (± s) de la media. Esto nos proporciona una
visión más fiable de la “verdadera” dispersión de los datos y no se altera por uno o
dos valores anómalos.
El 68% de los valores se encuentran a
1s de la media, a uno y otro lado
-1s +1s

Sólo unos pocos valores están


más alejados de 2s la media

-3s -2s -1s X 1s 2s 3s


- +2s
2s
El 95% de los valores se encuentran a
2s de la media, a uno y otro lado
¿Cuál es el rango de estos datos?
68, 56, 65, 75, 68, 74, 21, 67, 72, 69, 71, 67
Valores max – min = - =
¿Cuál es el rango de estos datos?
68, 56, 65, 75, 68, 74, 21, 67, 72, 69, 71, 67
Valores max – min = 75 - 21 = 54
¿Cuál es el rango de estos datos?
68, 56, 65, 75, 68, 74, 21, 67, 72, 69, 71, 67
Valores max – min = 75 - 21 = 54
Esto sugiere una gran variabilidad, pero veámoslo más detenidamente:

Este valor está lejos de los demás La gran mayoría de los valores se agrupan en este extremo
datos, haciendo que la media y el de la distribución. La media no está en el centro de esta
rango estén sesgados agrupación ya que ha sido desviada por el valor 21

El rango es grande, pero la media no está en el centro.


Esto sugiere que algunos valores están más lejos que la
mayoría de los demás y ha sesgado la distribución de los media
datos. Esto suele ocurrir cuando la muestra estudiada no
es lo suficientemente grande.

Distribución sesgada rango

En una distribución sesgada la media no es tan representativa de la centralidad de los datos


Cuestión práctica
Hemos realizado una serie de medidas de longitud obteniendo una media de 2,5 cm
y una desviación típica de 0,5 cm. ¿Cuál de las siguientes afirmaciones es la
correcta?

A. El 68% de los datos se encuentran entre 2,5 cm y 3,5 cm


B. El 68% de los datos se encuentran entre 1,5 cm y 3,5 cm
C. El 95% de los datos se encuentran entre 1,5 cm y 3,5 cm
D. El 95% de los datos se encuentran entre 2,0 cm y 3,0 cm
Cuestión práctica
Hemos realizado una serie de medidas de longitud obteniendo una media de 2,5 cm
y una desviación típica de 0,5 cm. ¿Cuál de las siguientes afirmaciones es la
correcta?

A. El 68% de los datos se encuentran entre 2,5 cm y 3,5 cm


B. El 68% de los datos se encuentran entre 1,5 cm y 3,5 cm
C. El 95% de los datos se encuentran entre 1,5 cm y 3,5 cm
D. El 95% de los datos se encuentran entre 2,0 cm y 3,0 cm

Desv. típica (s) = 0,5 cm


68% de los datos están en ± 1s
Así que el 68% de los datos están entre 2,0 y 3,0 cm

95% de los datos están en ± 2s


Así que el 95% de los datos están entre 1,5 y 3,5 cm
Cuestión práctica
Un conjunto de datos como éste: 4, 5, 5, 5, 6, 6, 6, 7, 7, 9 con una media de 6.

¿Cuál de las siguientes es la mejor estimación de la desviación típica?


A) 0 B) 1 C) 6 D) 5
Cuestión práctica
Un conjunto de datos como éste: 4, 5, 5, 5, 6, 6, 6, 7, 7, 9 con una media de 6.

La mayoría de los datos son iguales a la media ± 1


La desviación típica es una medida de dónde se encuentran la
mayoría de los datos (68% ± 1s)
¿Cuál de las siguientes es la mejor estimación de la desviación típica?
A) 0 B) 1 C) 6 D) 5
Uso de Excel para calcular la desviación estándar:

DESVEST (no DESVESTA)

Señalar sólo los


datos brutos
La desviación estándar es una medida de la
dispersión de la mayoría de los datos. Las barras de
error son una representación gráfica de la
variabilidad de los datos.
Las barras de error pueden representar la desviación estándar, el rango o los
intervalos de confianza.
Cuál de las dos series de datos tiene:
a. La media más alta?

b. La mayor variabilidad en los datos?


La desviación estándar es una medida de la
dispersion de la mayoría de los datos. Las barras de
error son una representación gráfica de la
variabilidad de los datos.
Las barras de error pueden representar la desviación estándar, el rango o los
intervalos de confianza.
Cuál de las dos series de datos tiene:
a. La media más alta?
A
b. La mayor variabilidad en los datos?
B
▪ En el título del gráfico
hay que especificar
siempre qué es lo que
representan las barras
de error.

▪ Las barras de error no


siempre representan la
desviación estándar,
pueden representar
otros parámetros
estadísticos como el
error estándar o el
intervalo de confianza.
Ponemos las barras de error para la desviación estándar en
nuestro gráfico.
Put the error bars for standard deviation on our graph.
Delete the horizontal error bars

Put the error bars for standard deviation on our graph.


El título se ha ajustado
para mostrar la fuente
de las barras de error.
Esto es muy
importante.

Puedes apreciar la
diferencia clara en el
tamaño de las barras
de error.

La variabilidad se
visualiza.

Las barras de error se


solapan de alguna
manera.

¿Qué significa esto?


El solapamiento de las barras de error da una pista sobre la
significancia de la diferencia entre dos series de datos.

Solapamiento grande Sin solapamiento

Muchos de los puntos de datos Ninguno (o muy pocos) puntos de


están compartidos entre ambas datos están compartidos entre
series de datos. ambas series de datos.
Los resultados probablemente no Los resultados probablemente son
son significativamente diferentes significativamente diferentes unos
unos de otros. de otros.

Cualquier diferencia La diferencia es más probable que


probablemente se debe al azar. sea ‘real’.
También podemos ver claramente el solapamiento si dibujamos los datos como
curvas de frecuencia:

Solapamiento grande Solapamiento pequeño


Muchos datos compartidos Pocos datos compartidos

Los resultados probablemente no son Los resultados probablemente sí son


significativamente diferentes significativamente diferentes

(la diferencia entre medias se debe (la diferencia entre medias es más
probablemente al azar) probable que sea real)
¿Qué serie de datos tiene:
a. Un mayor rango (alta variabilidad)?
b. Una desviación estándar mayor?
c. Resultados más precisos?
d. Una media más alta?
e. Una mayor frecuencia alrededor de la media?
¿Qué serie de datos tiene:
a. Un mayor rango (alta variabilidad)? Serie B Serie B
b. Una desviación estándar mayor? Serie B Serie B
c. Resultados más precisos? Serie A (puede
Serie Asugerirse)
(puede
sugerirse) Serie B
d. Una media más alta? Serie A Serie B

e. Una mayor frecuencia alrededor de la media? Serie A


Nuestros resultados muestran un
solapamiento muy pequeño entre
las dos series de datos.

Así que ¿cómo podemos saber si la


diferencia es significativa o no?

Necesitamos utilizar un test


estadístico.

El test-t es un test o
prueba estadística que
nos ayuda a determinar
la significancia de la
diferencia entre las
Pruebas o test estadísticos
▪ Son necesarias para poder extrapolar los resultados de la muestra de
estudio a los de la población general (estadística inferencial).
▪ Según que las variables sean cuantitativas o cualitativas, del número de
datos que tengamos y si los datos siguen una distribución normal o no, se
aplican una pruebas u otras. En BI veremos dos tipos de pruebas
estadísticas: el test-t y la prueba chi-cuadrado.
▪ En el test-t
necesitamos verificar
previamente que los
datos siguen una
distribución normal:
es suficiente
visualizando las
frecuencias
agrupadas de los
datos en un
histograma
aproximado
El test-t o prueba t de Student
▪ Sólo es válido si los datos siguen una distribución normal.
▪ Con el test-t comparamos dos series de datos y empezamos
siempre estableciendo lo que se denomina la “Hipótesis nula”
(H0). Es una hipótesis estadística.
H0 = “No hay diferencia significativa”
Esto siempre es así.

➢Si el t-test dice que hay que aceptar H0 , concluimos que las medias
de las dos poblaciones no son significativamente diferentes.
➢Si nuestro t-test dice que hay que rechazar H0 , concluimos que las
medias de las dos poblaciones sí son significativamente diferentes.

Para calcular el valor de t lo hacemos con una hoja de cálculo (en Excel: PRUEBA.T),
pero en el examen del BI el valor de t se da en el enunciado y únicamente tendremos
que compararlo con un valor crítico que tenemos que encontrar en una tabla, que
también se facilita.
Podemos calcular el valor de ‘t’ para una serie de datos y compararlo
con una tabla de valores críticos que depende del tamaño de nuestra
muestra y el nivel de confianza que necesitemos.
Ejemplo tabla-t de dos colas.
“Grados de Libertad (Degrees of Valor P = 0.1 0.05 0.02 0.01
freedom=df)” es el tamaño confianza 90% 95% 98% 99%
total de la muestra menos dos. 1 6.31 12.71 31.82 63.66
Gr 2 2.92 4.30 6.96 9.92
ad 3 2.35 3.18 4.54 5.84
¿Qué sucede con el valor de P a 4 2.13 2.78 3.75 4.60
medida que el nivel de os
5 2.02 2.57 3.37 4.03
de
confianza en los resultados 6 1.94 2.45 3.14 3.71
lib 7 1.89 2.36 3.00 3.50
aumenta?
ert 8 1.86 2.31 2.90 3.36
ad 9 1.83 2.26 2.82 3.25
¿Qué sucede con el valor crítico
10 1.81 2.23 2.76 3.17
a media que el nivel de
confianza aumenta?
“valores críticos de t”

Así es cómo se hace en un examen: te dan el valor de t en el enunciado


y tienes que compararlo con una tabla que también se da en el examen.
disminuye p = más confianza
¿Por rechazamos H0 si t>vc? para rechazar H0
Si el valor calculado para t es
mayor que el valor crítico,
rechazamos H0 .
Esto se debe a que cuando t
aumenta, tenemos más confianza
en que los resultados son “reales”
y no se deben al azar.
Fíjate que cuando los valores de t
aumentan, los valores de p
disminuyen; y eso significa más
confianza.
Si es menor que el valor crítico,
estaremos menos seguros de que
la diferencia entre medias sea
significativa. Se corresponde con
un incremento en los valores de p. aumenta t = más confianza
para rechazar H0
Podemos calcular el valor de ‘t’ para una serie de datos y compararlo
con una tabla de valores críticos que depende del tamaño de muestra
muestra y el nivel de confianza que necesitemos.
Ejemplo tabla-t de dos colas.
“Grados de Libertad (Degrees of Valor P = 0.1 0.05 0.02 0.01
freedom=df)” es el tamaño confianza 90% 95% 98% 99%
total de la muestra menos dos. 1 6.31 12.71 31.82 63.66
Gr 2 2.92 4.30 6.96 9.92
ad 3 2.35 3.18 4.54 5.84
Generalmente utilizamos 4 2.13 2.78 3.75 4.60
P<0.05 (95% confianza) en os
5 2.02 2.57 3.37 4.03
de
Biología, ya que nuestros datos 6 1.94 2.45 3.14 3.71
lib 7 1.89 2.36 3.00 3.50
pueden ser altamente variables.
ert 8 1.86 2.31 2.90 3.36
ad 9 1.83 2.26 2.82 3.25
10 1.81 2.23 2.76 3.17

“valores críticos”
Ejemplo resuelto:
Un investigador midió la longitud de las alas de 12
Archilochus colubris y 13 Cynanthus latirostris.
H0 = “No hay diferencia significativa”

grados de libertad =

P=

valor crítico =

Fuente de la tabla-t de 2 colas: http://www.medcalc.org/manual/t-distribution.php


Ejemplo resuelto:
Un investigador midió la longitud de las alas de 12
Archilochus colubris y 13 Cynanthus latirostris.
H0 = “No hay diferencia significativa”

grados de libertad = n-2 = (12 + 13) -2 = 23

P = 0,05

valor crítico = 2,069


Hemos calculado la t de las series de datos con una
hoja de cálculo y t = 2,15 (este valor se suministra siempre
en los exámenes)
t vc
2,15 > 2,069
Si t < vc, aceptamos H0 (no hay diferencia significativa)
Si t > vc, rechazamos H0 (sí hay diferencia significativa)

Fuente de la tabla-t de 2 colas: http://www.medcalc.org/manual/t-distribution.php


Ejemplo resuelto:
Un investigador midió la longitud de las alas de 12
Archilochus colubris y 13 Cynanthus latirostris.
H0 = “No hay diferencia significativa”

grados de libertad = n-2 = (12 + 13) -2 = 23

P = 0,05

valor crítico = 2,069


Hemos calculado la t de las series de datos con una
hoja de cálculo y t = 2,15 (este valor se suministra siempre
en los exámenes)
t vc
2,15 > 2,069
Si t < vc, aceptamos H0 (no hay diferencia significativa)
Si t > vc, rechazamos H0 (sí hay diferencia significativa)
Conclusión:
“Hay una diferencia significativa en la longitud de las
alas de las dos poblaciones de aves.”
Fuente de la tabla-t de 2 colas: http://www.medcalc.org/manual/t-distribution.php
En el examen del BI, te dan un valor de t y se pide determinar
si las dos series de datos son significativamente diferentes.
Ejemplo 1: Una estudiante mide 16 conchas de caracoles del lado
sur de una isla y 15 del lado norte. Calcula que t = 1,61 y elige un
límite de confianza del 95% (0,05). ¿Son resultados
significativamente diferentes?

H0 = “No hay diferencia significativa”

grados de libertad = n-2 =

p=

valor crítico =

Fuente de la tabla-t de 2 colas: http://www.medcalc.org/manual/t-distribution.php


En el examen del BI, te dan un valor de t y se pide determinar
si las dos series de datos son significativamente diferentes.
Ejemplo 1: Una estudiante mide 16 conchas de caracoles del lado
sur de una isla y 15 del lado norte. Calcula que t = 1,61 y elige un
límite de confianza del 95% (0,05). ¿Son resultados
significativamente diferentes?

H0 = “No hay diferencia significativa”

grados de libertad = n-2 = (16 + 15) -2 = 29

p = 0,05

valor crítico = 2,045

t vc
1,61 < 2,045 Aceptamos H0

Conclusión: No hay diferencia significativa en el tamaño de


las conchas de las poblaciones del norte y del sur
Fuente de la tabla-t de 2 colas: http://www.medcalc.org/manual/t-distribution.php
En el examen del BI, te dan un valor de t y se pide determinar
si las dos series de datos son significativamente diferentes.
Ejemplo 2: Un estudiante mide la frecuencia cardíaca en
reposo de 10 nadadores y 12 no nadadores. Calcula que
t = 3,65 y elige un límite de confianza del 95% (0,05).
¿Son resultados significativamente diferentes?
H0 = “No hay diferencia significativa”

Grados de libertad = n-2 =

p=

valor crítico =

Fuente de la tabla-t de 2 colas: http://www.medcalc.org/manual/t-distribution.php


En el examen del BI, te dan un valor de t y se pide determinar
si las dos series de datos son significativamente diferentes.
Ejemplo 2: Un estudiante mide la frecuencia cardíaca en
reposo de 10 nadadores y 12 no nadadores. Calcula que
t = 3,65 y elige un límite de confianza del 95% (0,05).
¿Son resultados significativamente diferentes?
H0 = “No hay diferencia significativa”

Grados de libertad = n-2 = (10 + 12) -2 = 20

p = 0,05

valor crítico = 2,086


t vc
3,65 > 2,086 Rechazamos H0

Conclusión : Sí hay diferencia significativa en la


frecuencia cardíaca de nadadores y no nadadores
Fuente de la tabla-t de 2 colas: http://www.medcalc.org/manual/t-distribution.php
La hoja de cálculo pueden suministrarnos directamente un
valor de P para nuestros resultados, simplificando el trabajo.
La función de Excel (=PRUEBA.T) compara ambas series de datos.
Como calculamos P directamente (la
probabilidad de que las diferencias se
deban al azar), podemos determinar la
significancia directamente.

En este caso, P=0.00051

Es mucho más pequeña que 0.05, por lo


que tenemos confianza en decir:
Se rechaza H0.

Las diferencias es improbable que se


deban al azar. La probabilidad de que se
deban al azar es de 0,00051.

Conclusión:
Hay una diferencia significativa en la
longitud del pico entre A. colubris and C.
(=PRUEBA.T)
latirostris.
El Intervalo de Confianza del 95% es otro parámetro estadístico que representa
también la variabilidad de los datos e incluso es más exacto que la desviación
estándar. También se pueden utilizar en las barras de error. Es difícil de calcular a
mano pero muy fácil con una hoja de cálculo.
INTERVALO.CONFIANZA.NORM(0.05,C15,10)

no hay solapamiento

=INTERVALO.CONFIANZA.NORM(0.05,DESVEST,tamaño)
=INTERVALO.CONFIANZA.NORM(0.05,C15,10)
Interesante estudio: ¿Con los “mejores” profesores se aprende más?
Unos estudiantes observaron un video de un minuto de profesor explicando un tema. En un
vídeo, el profesor explicaba de forma fluida y atractiva. En el otro vídeo, el profesor era
menos fluido y explicaba de forma vacilante leyendo unas notas.
Predijeron cuánto debían aprender sobre
el tema (trataba sobre gatos calicó y genética) y lo compararon con su
puntuación actual.
(Barras de error = desviación estándar).
Previsto
Real
Rendimiento medio

Profesor fluido Profesor vacilante


Para saber más: http://priceonomics.com/is-this-why-ted-talks-seem-so-convincing/
Interesante estudio: ¿Con los “mejores” profesores se aprende más?
Unos estudiantes observaron un video de un minuto de profesor explicando un tema. En un
vídeo, el profesor explicaba de forma fluida y atractiva. En el otro vídeo, el profesor era
menos fluido y explicaba de forma vacilante leyendo unas notas.
Predijeron cuánto debían aprender sobre
el tema (trataba sobre gatos calicó y genética) y lo compararon con su
puntuación actual.
(Barras de error = desviación estándar).
Previsto
Real
Rendimiento medio

¿Hay diferencia significativa en el aprendizaje real?

Profesor fluido Profesor vacilante


Para saber más: http://priceonomics.com/is-this-why-ted-talks-seem-so-convincing/
Aplicar el test-t con Excel: (Esto será útil para los trabajos prácticos)

(=PRUEBA.T)

Excel puede calcular P


directamente
Aplicar el test-t con Excel: (Esto será útil para los trabajos prácticos)

Serie de datos A

Serie de datos B

Usa 2 colas y tipo 2 para un test básico de


comparación de dos series de datos
Aplicar el test-t con Excel: (Esto será útil para los trabajos prácticos)
Interpretando los resultados:
Recuerda: mientras más pequeño sea
el valor de P, mayor será la confianza
de que la diferencia entre las medias
sea significativa.

Así que si calculamos directamente el


valor de P, aplicaremos esta regla:
Si P<0,05, rechazamos H0
(tenemos más del 95% de confianza
de que la diferencia no se debe al
azar)

P es mucho más pequeño que 0,05


Valor P = 0.1 0.05 0.02 0.01 0.005
confianza 90% 95% 98% 99% 99.50%
1 6.31 12.71 31.82 63.66 127.34
2 2.92 4.30 6.96 9.92 14.09
Gr 3 2.35 3.18 4.54 5.84 7.45
ado 4 2.13 2.78 3.75 4.60 5.60
s 5 2.02 2.57 3.37 4.03 4.77
de
6 1.94 2.45 3.14 3.71 4.32
libe
rta 7 1.89 2.36 3.00 3.50 4.03
d 8 1.86 2.31 2.90 3.36 3.83
9 1.83 2.26 2.82 3.25 3.69
10 1.81 2.23 2.76 3.17 3.58
11 1.80 2.20 2.72 3.11 3.50
12 1.78 2.18 2.68 3.05 3.43
Gr 13 1.77 2.16 2.65 3.01 3.37
ado 14 1.76 2.14 2.62 2.98 3.33
s 15 1.75 2.13 2.60 2.95 3.29
de
16 1.75 2.12 2.58 2.92 3.25
libe
rta 17 1.74 2.11 2.57 2.90 3.22
d 18 1.73 2.10 2.55 2.88 3.20
19 1.73 2.09 2.54 2.86 3.17
20 1.72 2.09 2.53 2.85 3.15
21 1.72 2.08 2.52 2.83 3.14
22 1.72 2.07 2.51 2.82 3.12
Gr 23 1.71 2.07 2.50 2.81 3.10
ado 24 1.71 2.06 2.49 2.80 3.09
s 25 1.71 2.06 2.49 2.79 3.08
de
26 1.71 2.06 2.48 2.78 3.07
libe
rta 27 1.70 2.05 2.47 2.77 3.06
d 28 1.70 2.05 2.47 2.76 3.05
29 1.70 2.05 2.46 2.76 3.04
30 1.70 2.04 2.46 2.75 3.03
31 1.70 2.04 2.45 2.74 3.02
32 1.69 2.04 2.45 2.74 3.02
Gr 33 1.69 2.03 2.44 2.73 3.01
ado 34 1.69 2.03 2.44 2.73 3.00
s 35 1.69 2.03 2.44 2.72 3.00
de
36 1.69 2.03 2.43 2.72 2.99
libe
rta 37 1.69 2.03 2.43 2.72 2.99
d 38 1.69 2.02 2.43 2.71 2.98
39 1.68 2.02 2.43 2.71 2.98
40 1.68 2.02 2.42 2.70 2.97
Las pulgas de

http://www.youtube.com/watch?v=fJEZg4QN760
los perros
saltan más alto
que las de los
gatos, ganador
del Premio
IgNobel de
Biología, 2008.
Título: “Estudio comparativo de la masa del cuerpo en A. colubris y C. latirostris”

Tabla. Comparación del tamaño de la


A partir de los datos de la
“Análisis estadístico con hoja de cálculo”

masa del cuerpo en A. colubris y C.


latirostris tabla realice, sobre una
Masa del cuerpo / g ± 0,05 hoja de cálculo, un
n A. colubris C. latirostris
estudio comparativo de la
masa del cuerpo de
1 2,7 3,1
ambas especies.
2 2,8 3,4
3 2,8 3,5
Elabore en google drive
Actividad:

4 2,9 3,7
un informe con el
5 2,9 3,8 procedimiento seguido y
6 2,9 3,9 los resultados obtenidos,
7 3,0 3,9 que incluya capturas de
8 3,1 4,0 pantalla de la hoja de
9 3,4 4,1 cálculo y de los gráficos
10 3,6 4,1 realizados.
El coeficiente de correlación
La correlación (r) puede sugerir relaciones entre series de datos. Se calcula fácilmente con
la hoja de cálculo. Veamos si hay correlación entre la longitud del pico y el peso del colibrí.
Primero representamos los datos en un gráfico de dispersión, le agregamos una línea de
ajuste y vemos el valor de r.

En esta serie de datos hay una


fuerte correlación positiva entre la
longitud del pico y el peso del
cuerpo
Los datos se ajustan estrechamente
r = 0,92 a la línea de tendencia o ajuste
(recta de regresión)
La correlación (r) tiene un rango
desde:
• +1 (ajuste perfecto a la línea,
correlación positiva).
• -1 (ajuste perfecto a la línea,
También se puede calcular con la función = COEF.DE.CORREL correlación negativa).
Devuelve el coeficiente de correlación (r) entre dos series de Mientras más cercano a cero, más
datos débil será la correlación.
Ejemplos de correlaciones: ¿Cómo las describirías?
Ejemplos de correlaciones: ¿Cómo las describirías?

Correlación positiva Correlación negativa Sin correlación Correlación positiva


fuerte fuerte débil

El valor de la correlación puede ser calculado con Excel:


La fuerza de una correlación se puede calcular con Excel:

Pruébalo aquí:
Raw data points: 1 2 3 4 5 6 7 8 9 10media des est
Variable A (unidades, ±) #¡DIV/0! #¡DIV/0!
Variable B (unidades, ±) #¡DIV/0! #¡DIV/0!
¡Recuerda, las variables A y B tienen que alinearse! Media y desviación estándar sólo tienen valor descriptivo aquí.

Inserta columnas delante de la media para extra de datos. Correlación = #¡DIV/0!

From MrT’s Excel Statbook.


La diabetes y la obesidad son “factores de riesgo” ¿uno de
otro?
Hay una fuerte correlación entre ellos, pero
eso no significa que uno sea la causa del otro?

http://diabetes-obesity.findthedata.org/b/240/Correlations-between-diabetes-obesity-and-physical-activity
Correlación no implica causalidad.

Pirates vs global warming, from http://en.wikipedia.org/wiki/Flying_Spaghetti_Monster#Pirates_and_global_warming


Correlaciones:

http://www.ciencia-explicada.com/2013/06/correlacion-causalidad-y-grafos-lo-mas.html
(Fuente: XKCD-es)

Correlación no implica causa, pero nos sugiere que indaguemos


por si acaso.
Correlación no implica causalidad.
Experimentos
Cuando hay correlaciones, entonces debemos diseñar sólidos experimentos científicos para
determinar la causa de la relación. A veces existe una correlación porque las variables son
confusas – son condiciones que tienen en común las variables correlacionadas pero que no se
afectan directamente una sobre otra.

Para ser capaces de determinar causalidad mediante la experimentación necesitamos:


• Una variable independiente claramente identificada.
• Medir cuidadosamente su efecto sobre la variable(s) dependiente, para que pueda ser
atribuido el cambio a la variable independiente. ¿Cuál es el efecto de X (VI) sobre Y (VD)?
• Estricto control de todas las demás variables que pudieran tener un impacto medible sobre
la variable dependiente.

Necesitamos: datos suficientes, relevantes, repetibles y estadísticamente significativos.

Algunas relaciones causales conocidas:


• Concentración de CO2 atmosférico y calentamiento global.
• Concentración de CO2 atmosférico y velocidad de la fotosíntesis.
• Temperatura y actividad enzimática.
Trabajo práctico:
“Investigación del tiempo de reacción”

http://goo.gl/SoczQo
Flamenco Dancer, by Steve Corey
http://www.flickr.com/photos/22016744@N06/7952552148
i-Biology.net

@IBiologyStephen Please consider a donation to charity via Biology4Good.


Click here for more information about Biology4Good charity donations.
This is a Creative Commons presentation. It may be linked and embedded but not sold or re-hosted.

También podría gustarte