Está en la página 1de 82

Anlisis estadstico

Biologa Diploma BI Stephen Taylor


Traducido y adaptado con permiso por Aureliano Fernndez

Image: 'Hummingbird Checks Out Flower' http://www.flickr.com/photos/25659032@N07/7200193254

Found on flickrcc .net

Enunciados de evaluacin 1.1.1 1.1.2 Indique que las barras de error son una representacin grfica de la variabilidad de los datos. Calcule la media y la desviacin tpica o estndar de un conjunto de valores. Con una hoja de clculo (Excel, OpenCalc) Con tu calculadora grfica Indique que el trmino desviacin tpica se usa para resumir la dispersin de valores con respecto a la media y que el 68% de los valores difieren de la media 1 vez el valor de la desviacin estndar o tpica. Explique cmo la desviacin tpica es til para comparar las medias y la dispersin de datos de dos o ms muestras. Deduzca la significacin de la diferencia entre dos conjuntos de datos empleando valores calculados para t y las tablas apropiadas. Lo haremos tambin con valores P utilizando una hoja de clculo en informes de prcticas. Explique que la existencia de una correlacin no supone que haya una relacin causal entre dos variables .

Obj. 1 2

1.1.3 1.1.4

1 3

1.1.5

1.1.6

Trminos de examen: http://i-biology.net/ibdpbio/command-terms/ (Traduccin al espaol) Enunciados de evaluacin BI de: Gua de Biologa online del BI

http://i-biology.net/ict-in-ib-biology/spreadsheets-graphing/statexcel/

El libro de Bioestadstica en Excel de Stephen Taylor constituye una excelente gua con ejemplos interactivos de tablas, grficos y tests estadsticos.

Traduccin al espaol

Los colibrs (hummingbirds)son nectarvoros (herbvoros que se alimentan del nctar de las flores de algunas especies de plantas). Al regresar para alimentarse, polinizan la flor. Es un ejemplo de mutualismo beneficioso para ambos. Como resultado de la seleccin natural, El pico de los colibrs ha evolucionado. Las aves con un pico mejor adaptado a su fuente de alimento preferida tienen mayor oportunidad para sobrevivir.
Photo: Archilochus colubris, from wikimedia commons, by Dick Daniels.

Los investigadores que estudian anatoma comparada recogen datos de la longitud del pico de dos especies de colibrs: colibr de garganta rub (Archilochus colubris) y colibr de pico ancho (Cynanthus latirostris). Para hacer esto, necesitan recoger datos suficientes, relevantes y fiables, para poder poner a prueba la Hiptesis nula (H0) que es: no hay diferencia significativa en la longitud del pico entre las dos especies.
Photo: Archilochus colubris (male), wikimedia commons, by Joe Schneid

El tamao de la muestra debe ser bastante grande para proporcionar datos suficientes y fiables que nos permitan aplicar un test estadsticamente significativo y relevante. Debemos ser conscientes de la incertidumbre de nuestros instrumentos de medida y del posible error en nuestros resultados.
Photo: Broadbilled hummingbird (wikimedia commons).

Mediciones e incertidumbre
Incertidumbre: es el margen de error de una medicin (siempre debemos conocerlo y reflejarlo) p.ej., este colibr pesa para dispositivos de medida digital divisin ms pequea Las reglas tienen incertidumbre en ambos extremos:

En instrumentos analgicos se suele utilizar como margen de error la mitad de la divisin ms pequea que se pueda medir. El ltimo punto decimal es una estimacin

Por ejemplo, esta escala lee: medido


( 0.5 mm en ambos extremos)

mitad

estimado

y la incertidumbre es (0.5g)

SEO. Manual del anillador.

La media es una medida de la tendencia central de una serie de datos.


Tabla 1: Medidas en bruto de la longitud del pico en A. colubris yC. latirostris. Longitud del pico (0.1mm) n A. colubris C. latirostris 1 2 3 4 5 6 7 8 9 10 Media s 13.0 14.0 15.0 15.0 15.0 16.0 16.0 18.0 18.0 19.0 17.0 18.0 18.0 18.0 19.0 19.0 19.0 20.0 20.0 20.0

Calcular la media utilizando: Tu calculadora (suma de valores / n) Excel o Calc

n = tamao de la muestra. Mientras ms grande mejor. En este caso n=10 para cada grupo. Todos los valores deben estar centrados en la celda, con decimales consistentes con la incertidumbre del instrumento de medida. =PROMEDIO AVERAGE (distinguirlo de los datos en bruto)

La media es una medida de la tendencia central de una serie de datos.


Tabla 1: Medidas en bruto de la longitud del Tabla con ttulo descriptivo y numerada. pico en A. colubris yC. latirostris. Las incertidumbres deben incluirse. Bill length (0.1mm) n A. colubris C. latirostris 1 2 3 4 5 6 7 8 9 10 Media s 13.0 14.0 15.0 15.0 15.0 16.0 16.0 18.0 18.0 19.0 17.0 18.0 18.0 18.0 19.0 19.0 19.0 20.0 20.0 20.0

Los datos brutos y la media deben tener decimales consistentes (en consonancia con la incertidumbre del instrumento de medida)

15.9

18.8

DELETE

DELETE

Grfico 1: Comparacin de la media de las longitudes de los picos en dos especies de colibrs, A. colubris y C. latirostris.
20,0

Ttulo descriptivo, con el nmero de grfica. Puntos etiquetados

18,0

C. latirostris, 18.8mm A. colubris, 15.9mm

Longitud media del pico (0.1mm)

16,0

14,0

12,0

Eje-Y claramente etiquetado, con la incertidumbre. Asegrate que el eje-Y empieza en cero.

10,0

8,0

6,0

4,0

2,0

0,0

Especies de colibrs

Eje-x etiquetado

Grfico 1: Comparacin de la media de las longitudes de los picos en dos especies de colibrs, A. colubris y C. latirostris.
20,0

18,0

C. latirostris, 18.8mm A. colubris, 15.9mm

Longitud media del pico (0.1mm)

16,0

14,0

12,0

De las medias podras concluir nicamente que C. latirostris tiene el pico ms largo que A. colubris. Pero la media solo cuenta una parte de la historia.

10,0

8,0

6,0

4,0

2,0

0,0

Especies de colibrs

C. latirostris tiene el pico ms largo que A. colubris.


pero esto es solo parte de la historia. La media es una medida de la tendencia central de los datos, pero no nos dice nada de la dispersion de los datos. Nuestros datos podrn estar agrupados alrededor de la media, o tener mayor variabilidad

media

media

rango
En este caso , el rango (valor mx-mn) es pequeo; la mayora estn cerca de la media. Esto se conoce como DISTRIBUCIN NORMAL

rango
La media aqu sera la misma, pero hay una mayor dispersin de los datos: hay mayor variabilidad. Tambin hay una DISTRIBUCIN NORMAL

Cul es el rango de estos datos? 68, 56, 65, 75, 68, 74, 21, 67, 72, 69, 71, 67 Valores max min = =

Cul es el rango de estos datos? 68, 56, 65, 75, 68, 74, 21, 67, 72, 69, 71, 67 Valores max min = 75 - 21 = 54

Cul es el rango de estos datos? 68, 56, 65, 75, 68, 74, 21, 67, 72, 69, 71, 67 Valores max min = 75 - 21 = 54
Esto sugiere una gran variabilidad, pero vemoslo ms detenidamente:

Este valor est lejos de los dems datos, haciendo que la media y el rango estn sesgados

La gran mayora de los valores se agrupan en este extremo de la distribucin. La media no est en el centro de esta agrupacin ya que ha sido desviada por el valor 21

El rango es grande, pero la media no est en el centro. Esto sugiere que algunos valores estn ms lejos que la mayora de los dems y ha sesgado la distribucin de los datos

media

rango

La desviacin tpica o estndar (s) de una muestra es una medida de la dispersin de la mayora de los datos. Significa exactamente que el 68% de todos los datos se encuentran en 1 desviacin tpica ( s) de la media. Esto nos proporciona una visin ms fiable de la verdadera dispersin de los datos y no se altera por uno o dos valores anmalos. El 68% de los valores se encuentran a 1s de la media, a uno y otro lado +1s 1s

Slo unos pocos valores estn ms alejados de 2s la media

-3s

-2s

-1s

1s

2s

3s

+2s 2s El 95% de los valores se encuentran a 2s de la media, a uno y otro lado

Cuestin prctica
Hemos realizado una serie de medidas de longitud obteniendo una media de 2,5 cm y una desviacin tpica de 0,5 cm. Cul de las siguientes afirmaciones es la correcta? A. B. C. D. El 68% de los datos El 68% de los datos El 95% de los datos El 95% de los datos se encuentran entre se encuentran entre se encuentran entre se encuentran entre 2,5 cm y 3,5 cm 1,5 cm y 3,5 cm 1,5 cm y 3,5 cm 2,0 cm y 3,0 cm

Cuestin prctica
Hemos realizado una serie de medidas de longitud obteniendo una media de 2,5 cm y una desviacin tpica de 0,5 cm. Cul de las siguientes afirmaciones es la correcta? A. B. C. D. El 68% de los datos El 68% de los datos El 95% de los datos El 95% de los datos se encuentran entre se encuentran entre se encuentran entre se encuentran entre 2,5 cm y 3,5 cm 1,5 cm y 3,5 cm 1,5 cm y 3,5 cm 2,0 cm y 3,0 cm

Desv. tpica (s) = 0,5 cm 68% de los datos estn en 1s As que el 68% de los datos estn entre 2,0 y 3,0 cm 95% de los datos estn en 2s As que el 95% de los datos estn entre 1,5 y 3,5 cm

Cuestin prctica
Un conjunto de datos como ste: 4, 5, 5, 5, 6, 6, 6, 7, 7, 9 con una media de 6.

Cul de las siguientes es la mejor estimacin de la desviacin tpica? A) 0 B) 1 C) 6 D) 5

Cuestin prctica
Un conjunto de datos como ste: 4, 5, 5, 5, 6, 6, 6, 7, 7, 9 con una media de 6. La mayora de los datos son iguales a la media 1 La desviacin tpica es una medida de dnde se encuentran la mayora de los datos (68% 1s) Cul de las siguientes es la mejor estimacin de la desviacin tpica? A) 0 B) 1 C) 6 D) 5

Cmo puedo calcular la media y la desviacin estndar con mi calculadora grfica?

Video tutorial en ingls sobre cmo calcular la media y la desviacin estndar con TI-84plus TCI-84-plus: Gua del usuario

Uso de Excel para calcular la desviacin estndar:

DESVEST (no DESVESTA)

Sealar slo los datos brutos

La desviacin estndar es una medida de la dispersion de la mayora de los datos.


Tabla 1: Medidas en bruto de la longitud del pico en A. colubris yC. latirostris. Longitud del pico (0.1mm) n A. colubris C. latirostris 1 2 3 4 5 6 7 8 9 10 Media s 13.0 14.0 15.0 15.0 15.0 16.0 16.0 18.0 18.0 19.0 17.0 18.0 18.0 18.0 19.0 19.0 19.0 20.0 20.0 20.0

Cul de las dos series de datos tiene: a. La media de la longitud del pico mayor? a. La mayor variabilidad en los datos?

15.9

18.8

1.91 1.03 La desviacin estndar puede tener un =DESVEST (escoger slo datos decimal ms. brutos).

La desviacin estndar es una medida de la dispersion de la mayora de los datos.


Tabla 1: Medidas en bruto de la longitud del pico en A. colubris yC. latirostris. Longitud del pico (0.1mm) n A. colubris C. latirostris 1 2 3 4 5 6 7 8 9 10 Media s 13.0 14.0 15.0 15.0 15.0 16.0 16.0 18.0 18.0 19.0 17.0 18.0 18.0 18.0 19.0 19.0 19.0 20.0 20.0 20.0

Cul de las dos series de datos tiene: a. La media de la longitud del pico mayor?

C. latirostris
a. La mayor variabilidad en los datos?

A. colubris

15.9

18.8

1.91 1.03 La desviacin estndar puede tener un =DESVEST (escoger slo datos decimal ms. brutos).

La desviacin estndar es una medida de la dispersin de la mayora de los datos. Las barras de error son una representacin grfica de la variabilidad de los datos.
Las barras de error pueden representar la desviacin estndar, el rango o los intervalos de confianza. Cul de las dos series de datos tiene: a. La media ms alta? a. La mayor variabilidad en los datos?

La desviacin estndar es una medida de la dispersion de la mayora de los datos. Las barras de error son una representacin grfica de la variabilidad de los datos.
Las barras de error pueden representar la desviacin estndar, el rango o los intervalos de confianza. Cul de las dos series de datos tiene: a. La media ms alta?

A B

a. La mayor variabilidad en los datos?

Ponemos las barras de error para la desviacin estndar en nuestro grfico.

Put the error bars for standard deviation on our graph.

Delete the horizontal error bars

Put the error bars for standard deviation on our graph.

Grfico 1: Comparacin de la media de las longitudes de los picos en dos especies de colibrs, A. colubris y C. latirostris. (barras de error = desviacin estndar)
20,0

C. latirostris, 18.8mm A. colubris, 15.9mm

El ttulo se ha ajustado para mostrar la fuente de las barras de error. Esto es muy importante. Puedes apreciar la diferencia clara en el tamao de las barras de error. La variabilidad se visualiza. Las barras de error se solapan de alguna manera.

Longitud media del pico (0.1mm)

15,0

10,0

5,0

0,0

Especies de colibrs

Qu significa esto?

El solapamiento de una serie de barras de error da una pista sobre la significancia de la diferencia entre dos series de datos.

Solapamiento grande

Sin solapamiento

Muchos de los puntos de datos estn compartidos entre ambas series de datos. Los resultados probablemente no son significativamente diferentes unos de otros. Cualquier diferencia probablemente se debe al azar.

Ninguno (o muy pocos) puntos de datos estn compartidos entre ambas series de datos. Los resultados probablemente son significativamente diferentes unos de otros. La diferencia es ms probable que sea real.

Tambin podemos ver claramente el solapamiento si dibujamos los datos como curvas de frecuencia:

Solapamiento grande

Solapamiento pequeo

Muchos datos compartidos Los resultados probablemente no son significativamente diferentes (la diferencia entre medias se debe probablemente al azar)

Pocos datos compartidos Los resultados probablemente s son significativamente diferentes (la diferencia entre medias es ms probable que sea real)

Qu serie de datos tiene:


b. Una desviacin estndar mayor? c. Resultados ms precisos? d. Una media ms alta?

a. Un mayor rango (alta variabilidad)?

e. Una mayor frecuencia alrededor de la media?

Qu serie de datos tiene:


b. Una desviacin estndar mayor? c. Resultados ms precisos? d. Una media ms alta?

a. Un mayor rango (alta variabilidad)?

Serie BSerie B Serie B Serie B Serie B Serie A Serie A (puede sugerirse)

Serie A (puede sugerirse) Serie B

e. Una mayor frecuencia alrededor de la media? Serie A

Grfico 1: Comparacin de la media de las longitudes de los picos en dos especies de colibrs, A. colubris y C. latirostris. (barras de error = desviacin estndar)
22,0

Nuestros resultados muestran un solapamiento muy pequeo entre las dos series de datos. As que cmo podemos saber si la diferencia es significativa o no? Necesitamos utilizar un test estadstico.

17,0

Longitud media del pico (0.1mm)

A. colubris, 15.9mm (n=10)

C. latirostris, 18.8mm (n=10)

12,0

7,0

2,0

-3,0

Especies de colibrs

El test-t es un test estadstico que nos ayuda a determinar la significancia de la diferencia entre las medias de las dos series de datos.

El test-t nos permite conocer la probabilidad (p) de que las dos series de datos sean similares y, por tanto que las diferencias entre sus datos se deben al azar.
Si P = 1, las dos series de datos son exactamente iguales Si P = 0, las dos series de datos son diferentes
A mayor valor de p, mayor solapamiento de los datos:

P=1 (los datos son idnticos)

P=0,5 (la mitad son comunes)

P=0 (los datos no se comparten)

A menor valor de p, menor solapamiento, menor probabilidad de que se deba al azar, y ms significativas son las diferencias.

Punto de partida del test-t Con el test-t comparamos dos series de datos y empezamos siempre estableciendo lo que se denomina la Hiptesis nula (H0) H0 = No hay diferencia significativa
Esto siempre es as.

Si el t-test dice que hay que aceptar H0 , concluimos que las medias de las dos poblaciones no son significativamente diferentes. Si nuestro t-test dice que hay que rechazar H0 , concluimos que las medias de las dos poblaciones s son significativamente diferentes.
Para calcular el valor de t lo hacemos con una hoja de clculo (en Excel: PRUEBA.T), pero en el examen del BI el valor de t se da en el enunciado y nicamente tendremos que compararlo con un valor crtico que tenemos que encontrar en una tabla, que tambin se facilita.

Podemos calcular el valor de t para una serie de datos y compararlo con una tabla de valores crticos que depende del tamao de nuestra muestra y el nivel de confianza que necesitemos.
Ejemplo tabla-t de dos colas.

Grados de Libertad (Degrees of freedom=df) es el tamao toal de la muestra menos dos. Qu sucede con el valor de P a medida que el nivel de confianza en los resultados aumenta? Qu sucede con el valor crtico a media que el nivel de confianza aumenta?

Valor P = confianza 1 2 3 4 5 6 7 8 9 10

0.1

0.05

0.02

0.01

90%
6.31 2.92 2.35 2.13 2.02 1.94 1.89 1.86 1.83 1.81

95%
12.71 4.30 3.18 2.78 2.57 2.45 2.36 2.31 2.26 2.23

98%
31.82 6.96 4.54 3.75 3.37 3.14 3.00 2.90 2.82 2.76

99%
63.66 9.92 5.84 4.60 4.03 3.71 3.50 3.36 3.25 3.17

Grados de libertad

valores crticos

Podemos calcular el valor de t para una serie de datos y compararlo con una table de valores crticos que depende del tamao de muestra muestra y el nivel de confianza que necesitemos.
Ejemplo tabla-t de dos colas.

Grados de Libertad (Degrees of freedom=df) es el tamao toal de la muestra menos dos. Generalmente utilizamos P<0.05 (95% confianza) en Biologa, ya que nuestros datos pueden ser altamente variables.

Valor P = confianza 1 2 3 4 5 6 7 8 9 10

0.1

0.05

0.02

0.01

90%
6.31 2.92 2.35 2.13 2.02 1.94 1.89 1.86 1.83 1.81

95%
12.71 4.30 3.18 2.78 2.57 2.45 2.36 2.31 2.26 2.23

98%
31.82 6.96 4.54 3.75 3.37 3.14 3.00 2.90 2.82 2.76

99%
63.66 9.92 5.84 4.60 4.03 3.71 3.50 3.36 3.25 3.17

Grados de libertad

valores crticos

Ejemplo resuelto:

Un investigador midi la longitud de las alas de 12 Archilochus colubris y 13 Cynanthus latirostris.

H0 = No hay diferencia significativa grados de libertad = P= valor crtico =

Fuente de la tabla-t de 2 colas: http://www.medcalc.org/manual/t-distribution.php

Ejemplo resuelto:

Un investigador midi la longitud de las alas de 12 Archilochus colubris y 13 Cynanthus latirostris.

H0 = No hay diferencia significativa grados de libertad = n-2 = (12 + 13) -2 = 23 P= valor crtico =
Hemos calculado la t de las series de datos con una hoja de clculo y t = 2,15 (este valor se suministra
siempre en los exmenes)

Si t < vc, aceptamos H0 (no hay diferencia significativa) Si t > vc, rechazamos H0 (s hay diferencia significativa)

t 2,15

vc

Fuente de la tabla-t de 2 colas: http://www.medcalc.org/manual/t-distribution.php

Ejemplo resuelto:

Un investigador midi la longitud de las alas de 12 Archilochus colubris y 13 Cynanthus latirostris.

H0 = No hay diferencia significativa grados de libertad = n-2 = (12 + 13) -2 = 23 P = 0,05 valor crtico = 2,069

Hemos calculado la t de las series de datos con una hoja de clculo y t = 2,15 (este valor se suministra siempre
en los exmenes)

t vc 2,15 > 2,069

Si t < vc, aceptamos H0 (no hay diferencia significativa) Si t > vc, rechazamos H0 (s hay diferencia significativa)

Fuente de la tabla-t de 2 colas: http://www.medcalc.org/manual/t-distribution.php

Ejemplo resuelto:

Un investigador midi la longitud de las alas de 12 Archilochus colubris y 13 Cynanthus latirostris.

H0 = No hay diferencia significativa grados de libertad = n-2 = (12 + 13) -2 = 23 P = 0,05 valor crtico = 2,069

Hemos calculado la t de las series de datos con una hoja de clculo y t = 2,15 (este valor se suministra siempre
en los exmenes)

t vc 2,15 > 2,069

Si t < vc, aceptamos H0 (no hay diferencia significativa) Si t > vc, rechazamos H0 (s hay diferencia significativa) Conclusin: Hay una diferencia significativa en la longitud de las alas de las dos poblaciones de aves.
Fuente de la tabla-t de 2 colas: http://www.medcalc.org/manual/t-distribution.php

Por rechazamos H0 si t>vc?


Si el valor calculado para t es mayor que el valor crtico, rechazamos H0 . Esto se debe a que cuando t aumenta, tenemos ms confianza en que los resultados son reales y no se deben al azar. Fjate que cuando los valores de t aumentan, los valores de p disminuyen; y eso significa ms confianza. Si es menor que el valor crtico, estaremos menos seguros de que la diferencia entre medias sea significativa. Se corresponde con un incremento en los valores de p.

disminuye p = ms confianza para rechazar H0

aumenta t = ms confianza para rechazar H0

En el examen del BI, te dan un valor de t y se pide determinar si las dos series de datos son significativamente diferentes.
Ejemplo 1: Una estudiante mide 16 conchas de caracoles del lado sur de una isla y 15 del lado norte. Calcula que t = 1,61 y elige un lmite de confianza del 95% (0,05). Son resultados significativamente diferentes? H0 = No hay diferencia significativa grados de libertad = n-2 = p= valor crtico =

Fuente de la tabla-t de 2 colas: http://www.medcalc.org/manual/t-distribution.php

En el examen del BI, te dan un valor de t y se pide determinar si las dos series de datos son significativamente diferentes.
Ejemplo 1: Una estudiante mide 16 conchas de caracoles del lado sur de una isla y 15 del lado norte. Calcula que t = 1,61 y elige un lmite de confianza del 95% (0,05). Son resultados significativamente diferentes? H0 = No hay diferencia significativa grados de libertad = n-2 = (16 + 15) -2 = 29 p = 0,05 valor crtico = 2,045

t vc 1,61 < 2,045

Aceptamos H0

Conclusin: No hay diferencia significativa en el tamao de las conchas de las poblaciones del norte y del sur
Fuente de la tabla-t de 2 colas: http://www.medcalc.org/manual/t-distribution.php

En el examen del BI, te dan un valor de t y se pide determinar si las dos series de datos son significativamente diferentes.
Ejemplo 2: Un estudiante mide la frecuencia cardaca en reposo de 10 nadadores y 12 no nadadores. Calcula que t = 3,65 y elige un lmite de confianza del 95% (0,05). Son resultados significativamente diferentes?
H0 = No hay diferencia significativa Grados de libertad = n-2 = p= valor crtico =

Fuente de la tabla-t de 2 colas: http://www.medcalc.org/manual/t-distribution.php

En el examen del BI, te dan un valor de t y se pide determinar si las dos series de datos son significativamente diferentes.
Ejemplo 2: Un estudiante mide la frecuencia cardaca en reposo de 10 nadadores y 12 no nadadores. Calcula que t = 3,65 y elige un lmite de confianza del 95% (0,05). Son resultados significativamente diferentes?
H0 = No hay diferencia significativa Grados de libertad = n-2 = (10 + 12) -2 = 20 p = 0,05 valor crtico = 2,086

t vc 3,65 > 2,086

Rechazamos H0

Conclusin : S hay diferencia significativa en la frecuencia cardaca de nadadores y no nadadores


Fuente de la tabla-t de 2 colas: http://www.medcalc.org/manual/t-distribution.php

Observaciones BI: Para que se pueda aplicar el test t, los datos deben presentar una distribucin normal y la muestra debe contar con al menos 10 valores. El test t puede utilizarse para comparar dos conjuntos de datos y para medir el grado de solapamiento entre ellos. No se espera que los alumnos calculen los valores de t. Slo se requiere realizar un test t con dos colas y datos no apareados. Objetivo general 7 (uso de las TIC): aunque no se espera que los alumnos calculen un valor para el test t, se les puede ensear a calcular dichos valores usando un programa de hojas de clculo o una calculadora de pantalla grfica. TdC: la comunidad cientfica define un estndar objetivo por el cual se pueden realizar afirmaciones acerca de los datos.

La funcin de Excel (=PRUEBA.T) compara ambas series de datos.

Excel o Calc pueden suministrarnos directamente un valor de P para nuestros resultados.


Como calculamos P directamente (la probabilidad de que las diferencias se deban al azar), podemos determinar la significancia directamente. En este caso, P=0.00051 Es mucho ms pequea que 0.005, por lo que tenemos confianza en decir: Se rechaza H0. La diferencia es improbable que se deba al azar. Conclusin: Hay una diferencia significativa en la longitud del pico entre A. colubris and C. latirostris.

(=PRUEBA.T)

Los Intervalos de Confianza del 95% tambin pueden ser representados en barras de error.

no hay solapamiento

=INTERVALO.CONFIANZA.NORM(0.05,DESVEST,tamao) e.g =INTERVALO.CONFIANZA.NORM(0.05,C15,10) Esto proporciona una indicacin ms clara de la significancia de un resultado: Si hay solapamiento, no hay diferencia significativa. Si no hay solapamiento, hay diferencia significativa. Si el solapamiento (o la diferencia) es pequeo, tenemos que aplicar una test-t.

Interesante estudio: Con los mejores profesores se aprende ms?


Unos estudiantes observaron un video de un minuto de profesor explicando un tema. En un vdeo, el profesor explicaba de forma fluida y atractiva. En el otro vdeo, el profesor era menos fluido y explicaba de forma vacilante leyendo unas notas. Predijeron cunto deban aprender sobre el tema (gatos calic y gentica) y lo compararon con su puntuacin actual. (Barras de error = desviacin estndar).

Rendimiento medio

Profesor fluido

Profesor vacilante

Para saber ms: http://priceonomics.com/is-this-why-ted-talks-seem-so-convincing/

Interesante estudio: Con los mejores profesores se aprende ms?


Unos estudiantes observaron un video de un minuto de profesor explicando un tema. En un vdeo, el profesor explicaba de forma fluida y atractiva. En el otro vdeo, el profesor era menos fluido y explicaba de forma vacilante leyendo unas notas. Predijeron cunto deban aprender sobre el tema (gatos calic y gentica) y lo compararon con su puntuacin actual. (Barras de error = desviacin estndar).

Rendimiento medio Rendimiento medio

Hay diferencia significativa en el aprendizaje actual?

Profesor fluido Profesor fluido

Profesordifluente vacilante Profesor

Para saber ms: http://priceonomics.com/is-this-why-ted-talks-seem-so-convincing/

Aplicar el test-t con Excel:

(Esto ser til para los trabajos prcticos)

Excel puede calcular P directamente

(=PRUEBA.T)

Aplicar el test-t con Excel:

(Esto ser til para los trabajos prcticos)

Serie de datos A Serie de datos B

Usa 2 colas y tipo 2 para un test bsico de comparacin de dos series de datos

Aplicar el test-t con Excel: Interpretando los resultados:

(Esto ser til para los trabajos prcticos) Recuerda: mientras ms pequeo sea el valor de P, mayor ser la confianza de que la diferencia entre las medias sea significativa. As que si calculamos directamente el valor de P, aplicaremos esta regla:

Si P<0,05, rechazamos H0
(tenemos ms del 95% de confianza de que la diferencia no se debe al azar)

P es mucho ms pequeo que 0,05

Valor P = confianza 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40

0.1 90% 6.31 2.92 2.35 2.13 2.02 1.94 1.89 1.86 1.83 1.81 1.80 1.78 1.77 1.76 1.75 1.75 1.74 1.73 1.73 1.72 1.72 1.72 1.71 1.71 1.71 1.71 1.70 1.70 1.70 1.70 1.70 1.69 1.69 1.69 1.69 1.69 1.69 1.69 1.68 1.68

0.05 95% 12.71 4.30 3.18 2.78 2.57 2.45 2.36 2.31 2.26 2.23 2.20 2.18 2.16 2.14 2.13 2.12 2.11 2.10 2.09 2.09 2.08 2.07 2.07 2.06 2.06 2.06 2.05 2.05 2.05 2.04 2.04 2.04 2.03 2.03 2.03 2.03 2.03 2.02 2.02 2.02

0.02 98% 31.82 6.96 4.54 3.75 3.37 3.14 3.00 2.90 2.82 2.76 2.72 2.68 2.65 2.62 2.60 2.58 2.57 2.55 2.54 2.53 2.52 2.51 2.50 2.49 2.49 2.48 2.47 2.47 2.46 2.46 2.45 2.45 2.44 2.44 2.44 2.43 2.43 2.43 2.43 2.42

0.01 99% 63.66 9.92 5.84 4.60 4.03 3.71 3.50 3.36 3.25 3.17 3.11 3.05 3.01 2.98 2.95 2.92 2.90 2.88 2.86 2.85 2.83 2.82 2.81 2.80 2.79 2.78 2.77 2.76 2.76 2.75 2.74 2.74 2.73 2.73 2.72 2.72 2.72 2.71 2.71 2.70

0.005 99.50% 127.34 14.09 7.45 5.60 4.77 4.32 4.03 3.83 3.69 3.58 3.50 3.43 3.37 3.33 3.29 3.25 3.22 3.20 3.17 3.15 3.14 3.12 3.10 3.09 3.08 3.07 3.06 3.05 3.04 3.03 3.02 3.02 3.01 3.00 3.00 2.99 2.99 2.98 2.98 2.97

Grados de libertad

Grados de libertad

Grados de libertad

Grados de libertad

del Premio IgNobel de Biologa, 2008.

Las pulgas de los perros saltan ms alto que las de los gatos, ganador

http://www.youtube.com/watch?v=fJEZg4QN760

(Fuente: XKCD-es)

Correlacin no implica causa, pero nos sugiere que indaguemos por si acaso.

Correlaciones
Las investigaciones biolgicas son, en su mayor parte, descriptivas. Se identifica una variable, se mide y se compara en distintas especies o sistemas biolgicos. Otras veces lo que se hace es comparar dos variables distintas entre s y ver cmo se comportan. Ver si existe algn tipo de relacin entre ambas. Este tipo de estudios se denominan correlaciones. Ejemplos: Qu relacin hay entre el peso del colibr de garganta rub y la longitud de su pico? Cmo afectan las distintas intensidades de luz al grosor de la hoja del haya?

http://www.flickr.com/photos/63195142@N00/3103420784

http://www.flickr.com/photos/70417829@N00/85764057

La correlacin pueden sugerir relaciones entre series de datos:


Veamos si hay correlacin entre la longitud del pico y el peso del colibr:

En esta serie de datos hay una fuerte correlacin positiva entre la longitud del pico y el peso del cuerpo Los datos se ajustan estrechamente a la lnea de tendencia (recta de regresin) La correlacin (r) tiene un rango desde: +1 (ajuste perfecto a la lnea, correlacin positiva) a -1 (ajuste perfecto a la lnea, correlacin negativa) Mientras ms cercano a cero, ms dbil ser la tendencia

=COEF.DE.CORREL

Devuelve el coeficiente de correlacin (r) entre dos series de datos

Ejemplos de correlaciones:

Cmo las describiras?

Ejemplos de correlaciones:

Cmo las describiras?

Correlacin positiva fuerte

Correlacin negativa fuerte

Sin correlacin

Correlacin positiva dbil

El valor de la correlacin puede ser calculado con Excel:

La correlacin pueden sugerir relaciones entre series de datos:


La correlacin es un parmetro estadstico que nos informa, nicamente, de la relacin existente entre dos variables, sin que influya la dispersin que pueda haber entre los valores de cada una de ellas. Su valor vara desde +1 (correlacin positiva perfecta), 0 (sin correlacin) y -1 (correlacin negativa perfecta). La correlacin se puede vislumbrar si dibujamos en un mismo grfico los datos de dos variables. En cules de los siguientes grficos hay correlacin?

http://upload.wikimedia.org/wikipedia/commons/3/3d/Correlation_types.jpg

La correlacin pueden sugerir relaciones entre series de datos:


La correlacin es un parmetro estadstico que nos informa, nicamente, de la relacin existente entre dos variables, sin que influya la dispersin que pueda haber entre los valores de cada una de ellas. Su valor vara desde +1 (correlacin positiva perfecta), 0 (sin correlacin) y -1 (correlacin negativa perfecta). La correlacin se puede vislumbrar si dibujamos en un mismo grfico los datos de dos variables. En cules de los siguientes grficos hay correlacin?

http://upload.wikimedia.org/wikipedia/commons/3/3d/Correlation_types.jpg

La fuerza de una correlacin se puede calcular con Excel:

=COEF.DE.CORREL

From MrTs Excel Statbook.

La diabetes y la obesidad son factores de riesgo uno de otro?

Hay una fuerte correlacin entre ellos, pero eso no significa que uno sea la causa del otro?

http://diabetes-obesity.findthedata.org/b/240/Correlations-between-diabetes-obesity-and-physical-activity

Correlacin no implica causalidad.

Pirates vs global warming, from http://en.wikipedia.org/wiki/Flying_Spaghetti_Monster#Pirates_and_global_warming

Correlaciones:

http://www.ciencia-explicada.com/2013/06/correlacion-causalidad-y-grafos-lo-mas.html

Cuando hay correlaciones, entonces debemos disear slidos experimentos cientficos para determinar la causa de la relacin. A veces existe una correlacin porque las variables son confusas son condiciones que tienen en comn las variables correlacionadas pero que no se afectan directamente una sobre otra. Para ser capaces de determinar causalidad mediante la experimentacin necesitamos: Una variable independiente claramente identificada. Medir cuidadosamente su efecto sobre la variable(s) dependiente, para que pueda ser atribuido el cambio a la variable independiente. Cul es el efecto de X (VI) sobre Y (VD)? Estricto control de todas las dems variables que pudieran tener un impacto medible sobre la variable dependiente. Necesitamos: datos suficientes, relevantes, repetibles y estadsticamente significativos. Algunas relaciones causales conocidas: Concentracin de CO2 atmosfrico y calentamiento global. Concentracin de CO2 atmosfrico y velocidad de la fotosntesis. Temperatura y actividad enzimtica.

Correlacin no implica causalidad. Experimentos

Flamenco Dancer, by Steve Corey http://www.flickr.com/photos/22016744@N06/7952552148

i-Biology.net

@IBiologyStephen

Please consider a donation to charity via Biology4Good. Click here for more information about Biology4Good charity donations.
This is a Creative Commons presentation. It may be linked and embedded but not sold or re-hosted.

También podría gustarte