Está en la página 1de 14

Taller 4

Esperanza matemática y medidas de resumen

Cuando se trabaja con una variable aleatoria, muchas veces queremos


predecir el valor que la variable adoptará en cualquier momento. Puesto que el
comportamiento de una variable aleatoria está gobernado por el azar, las
predicciones deberán hacerse siempre considerando la incertidumbre (incerteza).
Lo más conveniente es describir el comportamiento de la variable en términos de
probabilidades. Para ello se utilizan dos funciones, la función de densidad y la
función de distribución acumulada:
- La función de densidad nos da la probabilidad de que la variable aleatoria X
adopte un valor numérico x (minúscula) determinado.
- La función de distribución acumulada proporciona la probabilidad de que X
tome un valor por menor o igual a x (minúscula).

Es importante considerar que, cualquier función que no es negativa y que tome el


valor igual a 1 cuando se suma sobre un conjunto de valores posibles (x
minúsculas), puede considerarse como la densidad para una variable aleatoria
discreta.

Objetivo: Encontrar la función de densidad de probabilidad y la función de


probabilidad acumulada de una variable aleatoria y calcular diferentes
medidas de resumen.

Función densidad y esperanza matemática

a) Cálculo de función de densidad.

a.1) Diagrama de árbol.


Un diagrama de árbol es una representación gráfica de los posibles resultados de
un experimento, en la cual cada paso del experimento se representa como una
ramificación del árbol. En este ejemplo la variable aleatoria estudiada sigue una
distribución binomial, que se relaciona con experimentos en los cuales se
presentan dos resultados posibles, éxito y fracaso (Ensayos de Bernoulli):

Ejercicio 1: Mimetismo batesiano

El mimetismo batesiano fue descrito por H. W. Bates, en 1862 y consiste en que


dos o más especies son similares en apariencia, pero sólo una de ellas está
armada con mecanismos reales de defensa frente a los depredadores (espinas,
aguijones, químicos tóxicos o, incluso, sabor desagradable), mientras que su
doble aparente sólo “simula” tener estas misma defensas, pero los depredadores
no la atacan, pues asocian ese parecido con cierta mala experiencia previa que
pudieron haber tenido con la especie que tiene las defensas reales. De esta
manera, la especie que simula las defensas está protegida contra depredadores,
sin tener gastar energía en realmente producir dichas defensas. En un
experimento sobre mimetismo se obtiene un modelo artificial bañando a gusanos
de la harina en una solución de quinina para darles un sabor amargo y marcando
los gusanos con una banda verde de pintura celulosa para darles un aspecto
anormal, y se les da como alimento a dos estorninos (aves) enjaulados (que
normalmente come vorazmente los gusanos de harina). Los estorninos aprenden
a asociar el marcaje especial con el sabor amargo. A continuación, a cada
estornino se le presenta un gusano de harina que no ha sido sumergido en
quinina, pero que ha sido pintado para que se parezca al modelo. La probabilidad
de que el gusano imitador no sea comido por el estornino es 0.8. En este caso,
nuestra variable aleatoria es:

X = “número de gusanos que escapan de ser depredados”

Dado que X sólo puede tomar los valores 0, 1 o 2 (ej: gusanos que se escapan),
entonces X es una variable discreta (solo toma valores enteros).

Para responder a cuestiones de probabilidad relativas a X (ej., ¿cuál es la


probabilidad de que 0, 1 o 2 gusanos escapen?), debemos encontrar su función de
densidad, f(x). Para ello, primero vamos a realizar un diagrama de árbol. Para
esto primero hay que identificar cuántas etapas están implicadas para ir
completando el diagrama. Considere que en cada etapa las ramas del árbol
representan las posibilidades en ese punto determinado. Una vez completado el
árbol, pueden leerse las secuencias de sucesos siguiendo lo que se denominan
«trayectorias» a lo largo del árbol. En este ejemplo estamos trabajando con
ensayos de Bernoulli, ya que nuestra variable solo tiene dos posibles resultados
(que el gusano no sea depredado o que el gusano sea depredado), por lo tanto
tendremos que definir éxito (p) y fracaso (q). Dado que nuestro interés se centra
en que el gusano NO SEA depredado, consideraremos este resultado como éxito,
y, ya que el comportamiento de un estornino no tiene influencia en el
comportamiento de los demás (son eventos independientes), la probabilidad de
que los gusanos sean o no sean depredados siguen siendo igual durante todo el
experimento, es decir:

éxito = p = 0,8
fracaso = 1 - p = q = 0,2

Segundofigura tiene 2 ramificaciones, representando el


El diagrama de árbol de la siguiente
ensayo
experimento y sus 2 ensayos, es decir cada uno de los 2 estorninos.
Primer Valor Probabilidad
ensayo de X de la
(éxitos) trayectoria

❑ ❑
() ∗( )

❑ ❑
() ∗( )

❑ ❑
() ∗( )

❑ ❑
() ∗( )

La probabilidad de cada trayectoria queda reflejada en el diagrama del árbol, lo


cual nos permitirá calcular posteriormente sus probabilidades. Por ejemplo, para
determinar la probabilidad de conseguir una secuencia de sucesos pp es decir,
que los dos gusanos no sean depredados, multiplicamos las probabilidades a lo
largo de la trayectoria 1. De esta manera obtenemos _______. Del mismo modo,
se pueden encontrar las probabilidades de cada una de las trayectorias. Para
hallar la probabilidad de que X tome un valor concreto, consideraremos las
probabilidades de las trayectorias correspondientes a ese valor y cuantas veces se
repite ese resultado. Por lo tanto, la densidad puede ser leída directamente del
árbol y la distribución acumulada inferida a partir de esta densidad y ser resumida
en la siguiente tabla.

X 0 1 2
❑ ❑ ❑ ❑
f(x) = P[X=x] (Función de densidad) () =¿ ¿() ∗( ) =¿ () =¿
F(X) (Función de distribución acumulada)
En la siguiente tabla escriba el resultado del árbol para cada valor posible de X y calcule sus
funciones de densidad y distribución acumulada, considerando sólo 3 decimales:

a.2.) Fórmula de probabilidades en la distribución binomial


Una segunda manera de calcular la función de densidad de X es mediante la
fórmula de probabilidades en la distribución binomial. Esto, porque nuestra
variable X sigue una distribución binomial. Entonces, la probabilidad de los
eventos de éxito (NO SER DEPREDADO) también pueden ser estimados
mediante la fórmula:

k n−k
P( x )=nCk p q

Donde n es el número de ensayos realizados en el experimento; k es el valor de x,


p la probabilidad de éxito y q la probabilidad de fracaso (1-p).

Ejemplo: ¿Cuál es la probabilidad de tener 0 éxito (X que tome el valor de x = 0)?


Tenemos que n = 2, y que k = x = 0, entonces nuestra fórmula queda de la
siguiente manera:

2! 0 2
Para X = 0 éxito, P(x = 0) = ∗( 0.8 ) ∗( 0.2 ) =¿ ¿
( 2−0 ) !∗0 !

Ahora, calcule usted los restantes valores de X éxitos (no ser depredado):

!
Para X=1 éxitos, P(x=1) =
¿¿

!
Para X=2 éxitos, P(x=2) =
¿¿

De esta manera, hemos calculado la función de densidad, es decir, la


probabilidad de que la variable aleatoria X adopte un valor numérico x
determinado (0, 1 o 2 en nuestro caso).

a.3.) Cálculo de la función de densidad y distribución acumulada en R.


En R también podemos calcular la función de densidad utilizando el comando “d” y
la función de densidad cumulada utilizando el comando “p”. En ambos casos es
necesario acompañar esta función del tipo de distribución de interés. Por ejemplo,
para la distribución binomial el comando sería dbinom(k,n,e) donde, k es el
valor de x, n es el número de ensayos realizados en el experimento; e la
probabilidad de éxito. Por lo tanto, si quisiéramos calcular la función de densidad
y distribución acumulada para X en x=0 nuestros comandos serán los siguientes:

dbinom(0,2,0.8)## Función de densidad= 0.04


pbinom(0,2,0.8)## Función de distribución acumulada= 0.04
Calcule mediante el comando de R, el valor de probabilidad y probabilidad
acumulada para x=1 y x=2
______________________
______________________
______________________
______________________

A su vez, el siguiente gráfico representa la función de densidad para el caso


planteado:

barplot(c(dbinom(0,2,.8),dbinom(1,2,.8),dbinom(2,2,.8)),
xlab="Gusanos que escapan (Valores de X. Éxitos)",
ylab="Probabilidad",names.arg=c("0","1","2")) ##names.arg
indica los nombres de cada barra, en orden secuencial.

En el gráfico vemos cómo son las probabilidades para todos los casos posibles:
por ejemplo, vemos que es muy probable que los gusanos no sean depredados en
ninguno de los dos ensayos (x=2), mientras que es muy poco probable que los
gusanos sean depredados en los dos ensayos (x=0). Y eso es porque la
probabilidad de p es mucho mayor (0,8) que la probabilidad de q (0,2).

b) Parámetros y estimadores
La función densidad de una variable aleatoria describe totalmente el
comportamiento de una variable de una población ideal. Una población puede ser
descrita en función de ≪parámetros≫, los cuales describen el comportamiento de
cualquier variable aleatoria de dicha población. El conocer estos parámetros
proporciona al investigador una rápida visión de la naturaleza de las variables. Si
conocemos la densidad exacta de la variable, entonces, es posible estimar el valor
de cada parámetro. Sin embargo, si el investigador no dispone de todos los datos
de la población, sino de sólo algunos datos de la variable aleatoria, entonces, los
parámetros no pueden ser estimados con exactitud. Por lo tanto, se utilizan
aproximaciones llamados estimadores, que provienen de muestras tomadas
desde la población.

b.1) Cálculo de la Esperanza matemática


Necesitamos familiarizarnos con la idea de esperanza matemática o valor
esperado (parámetro), para entender el razonamiento seguido en la mayoría de
los métodos estadísticos. Sea X, una variable aleatoria, la esperanza de X,
representada por E(X) o μ, es el promedio teórico de X a largo plazo.

Consideremos un experimento en el cual un único dado de 6 caras es lanzado


repetidas veces y cada vez se anota el número obtenido, es decir x (minúscula) en
X. Una secuencia de observaciones y sus media aritméticas podría ser:

N° lanzamiento 1 2 3 4 5 6 7 8 9

Valor del lanzamiento 2 1 6 4 2 5 1 6 3

Media de los lanzamientos 2 1.5 3 3.25 3 3.33 3 3.38 3.33

Estas medias no son obviamente constantes. Varían durante el experimento, pero


la magnitud de los cambios disminuye a medida que se realizan más
lanzamientos. En realidad, cuanto más aumenta el número de lanzamientos del
dado, la secuencia de medias tenderá a concentrarse en torno a un mismo valor
numérico. Este valor es la esperanza ó ≪media teórica a largo plazo≫ para X.

así, la esperanza matemática se calcula en base a la siguiente fórmula:

E(X) = Σ(xi * p(xi))

Donde xi corresponde a los valores de la variable aleatoria X, p(xi) corresponde a


las probabilidades asociadas a los valores de X en xi. Para el experimento del
dado, la variable está distribuida uniformemente con una densidad de la siguiente
forma:

X 1 2 3 4 5 6
p(x) 1/6 1/6 1/6 1/6 1/6 1/6
Entonces el cálculo de la esperanza E(X) para los valores del lanzamiento de un
dado es el siguiente:

( 6) ( 6)( 6)( 6) ( 6) ( 6)
(
E(x) = 1∗
1
) + 2∗( ) + 3∗( ) + 4∗( ) + 5∗( ) + 6∗( ) =3.5
1 1 1 1 1

… entonces, volvamos al experimento del mimetismo batesiano.


Ahora, calcule la esperanza E(X) para el experimento del mimetismo batesiano.

( ( )) ( ( )) ( ( ))
E(x) = ¿ ❑

+ ¿ ❑ + ¿ ❑ = ❑ = ❑ =¿ ¿
❑ ❑ ❑ ❑

Este resultado muestra que después de varios ensayos con el mismo


experimento, esperaríamos que la media de los gusanos que escapan a la
depredación sea de ______.

Ejercicio 2. Depredación en áfidos

b.2) Cálculo de la Esperanza matemática en R


En R, podremos calcular la esperanza con el comando dbinom(). En este
ejemplo analizaremos la capacidad de captura de pulgones (Aphidae) por parte de
las chinitas (Coccinellidae). Un estudio previo registró que los individuos en el
último estado larval de una determinada especie de chinitas pueden consumir en
promedio 58 pulgones cada 24 horas, con una probabilidad de éxito por captura
de 0,67. Esto quiere decir que, en promedio, una larva de chinita intenta capturar
pulgones unas 86 veces por día (86 * 0,67 = 58). ¿Cuántas presas se espera que
atrape una chinita al día? O dicho de otra manera ¿Cuál es la esperanza
matemática de captura diaria de las chinitas? Entonces, comenzaremos
generando la función de densidad de probabilidad binomial para los 86 intentos. Para
esto crearemos un objeto “capturas” que contendrá los valores de X.

capturas <- c(0:86)

Luego, mediante el comando dbinom(), obtendremos la función de densidad


para cada uno de estos intentos. En este caso, indicaremos nuestro vector,
seguido del número de ensayos (intentos de captura), y posteriormente la
probabilidad de éxito

Probs <- dbinom(capturas,86,0.67) ##utilizamos el vector


capturas, ya que queremos calcular a la probabilidad para
cada número de presas
Probs ##llamamos al objeto generado

Los resultados de dbinom() representan la probabilidad de cada evento, es


decir, el primer valor (3.910199e-42) es la probabilidad de que la larva de chinita
no capture ningún pulgón (0 éxito); el segundo valor (6.827444e-40) es la
probabilidad que sólo capture un pulgón (1 éxito); y así sucesivamente.
Ahora, grafiquemos nuestra función de distribución binomial de los intentos de
captura por parte de la larva mediante un gráfico de dispersión:
plot(Probs, col="red", pch=16, ylab="Probabilidad",
xlab="Número de Presas Capturadas", main="Efectividad de
Captura de Pulgones")
##pch se utiliza para cambiar el tipo de punto en el grafico

Este gráfico se conoce como gráfico de dispersión y posiciona cada


observación, como un punto en un espacio formado por las variables de interés.
En este gráfico encontramos en el eje x el número de presas capturadas (Posibles
valores de X), y en el eje y la probabilidad (para cada valor respectivo de X en x
(minúscula)). Podemos observar que es muy poco probable que una chinita
capture menos de 40 presas (probabilidad cercana a 0). Pero a medida que
consideramos una mayor cantidad de presas capturadas las probabilidades
comienzan a ser mayor que cero. Esa probabilidad se hace máxima cercana a las
60 presas capturadas y luego disminuye, probablemente porque otros factores
entran juego (por ejemplo, después de varios intentos de captura exitosos, la larva
puede saciar su apetito o puede cansarse, afectando su eficiencia en la captura).

Ahora calcularemos la esperanza, como la suma del producto entre las capturas y
sus respectivas probabilidades:
Esperanza <- sum(capturas*Probs) ## 57.62

Se espera que chinita capture 57,62 pulgones por día.

b.3) Cálculo de la Varianza de la Esperanza


Otra pregunta asociada a este tipo de experimento es, ¿cuál sería entonces la
variación de esta estimación? Una medida de variabilidad de la población es la
varianza poblacional. Si disponemos de la densidad real para X, podemos
calcular la varianza de la siguiente manera:

V(X) = Σ(p(xi)*(xi - µ)2)

Donde xi corresponde a los valores de la variable aleatoria X, p(xi) corresponde a


las probabilidades asociadas a los valores de X en xi, y µ es la esperanza de X.

El cálculo de la varianza para el ejemplo del mimetismo batesiano sería:

V(X)= ¿

b.4) Cálculo de la Varianza de la Esperanza en R


Calcularemos ahora la varianza para el experimento de los pulgones en R.

Supongamos que un día observamos 10 larvas de chinita específicas, observamos


que capturan 58, 48, 61, 59, 69, 55, 63, 57, 53 y 71 presas al día. Entonces, la
pregunta es: ¿cuál es la varianza en la captura de pulgones de las chinitas de esta
población?
Para responder esta pregunta, primero generamos un vector que contendrá las
capturas registradas:

capturas=c(58, 48, 61, 59, 69, 55, 63, 57, 53,71)

Ya teniendo este vector, además de la esperanza previamente calculada, ahora


podemos calcular la varianza de la siguiente manera:

var_chinita <- sum(((capturas-Esperanza)^2)*1/10)


## donde 1/10 corresponde a la probabilidad del evento, en
este caso los 10 individuos, por lo tanto esta es la
probabilidad de observar un individuo al azar.

var_chinita ## 47.2
Ejercicio 3. Desarrollo de Rhinella

c) Medidas de resumen para datos experimentales

A continuación, cargaremos la base de datos Rhinella.csv, que muestra el


tiempo de desarrollo (en días) en el laboratorio, para dos poblaciones de la
especie Rhinella spinulosa (sapo espinoso), una población que habita en pozas de
corta duración (Farellones) y una población que habita en pozas con agua
permanente (El Tatio).

En esta ocasión, cargaremos el archivo modificando el directorio de trabajo, que


es la carpeta que está usando R. Para saber cuál es la carpeta actual utilizaremos
el comando:

getwd()

Posteriormente podremos modificar esta dirección utilizando el siguiente comando:

setwd(“RUTA A CARPETA”)
## Cambiaremos “ruta a carpeta” (en inglés se dice PATH) por
la dirección donde tendremos almacenados nuestros archivos.
Es necesario que los slash tengan el siguiente sentido: /
## Ej: la ruta C:/Dropbox/Metodos/Taller4 indica que se
trabajara con los archivos de la carpeta o directorio
Taller4, que se encuentra dentro de Metodos, dentro de
Dropbox y en la unidad C del PC.

Podremos comprobar el cambio de dirección utilizando nuevamente el comando


getwd()

Con el comando list.files(), podremos observar todos los archivos en nuestro


directorio de trabajo. De esta forma, podemos corroborar que esté la base de
datos con la que vamos a trabajar (Rhinella.csv) y procederemos a cargarla,
colocando directamente el nombre del archivo de la siguiente manera:

data <- read.csv("Rhinella.csv", header=TRUE, sep=";",


stringsAsFactors=T)
Ahora que tenemos la base de datos cargada, buscamos responder lo siguiente:
¿existe alguna diferencia en la variable “tiempo de desarrollo” entre ambas
poblaciones?, ¿existen diferentes niveles de variación entre ambas poblaciones?

Para responder esta pregunta utilizaremos las medidas de resumen, que nos
permiten observar el comportamiento de una variable en una muestra. Las
medidas de posición o medidas de tendencia central nos informan acerca de la
posición central de la distribución (siendo las más utilizadas el promedio o media
aritmética, la moda y la mediana), mientras que las medidas de dispersión nos
muestran la variabilidad (dispersión) de los datos respecto a la media o esperanza
(siendo las más utilizadas la varianza y la desviación estándar).

1. El promedio (o valor medio), que corresponde a:

∑ xi
X = i =1
n

donde xi representan los valores de la variable X, y n el número total de datos. En


R, podremos calcular el promedio de toda la variable mediante el comando
mean()de la siguiente manera:
mean(data$Tiempo) ## 52.8

Adicionalmente, el comando tapply() nos permite para calcular cada una de las
medidas de resumen para múltiples grupos, indicando primero la variable de
respuesta (el tiempo de desarrollo) y luego la variable predictora (en este caso, las
poblaciones), seguido por la función a aplicar.

tapply(data$Tiempo,data$Localidad, mean)

2. La mediana, que corresponde al valor que divide la distribución de datos en


mitades iguales (percentil 50). En R, podremos calcular la mediana mediante el
siguiente comando:

median(data$Tiempo) ##para todos los datos o,


tapply(data$Tiempo,data$Localidad, median)## para cada grupo
3. La varianza (S2) de una muestra está dada por:
n

∑ (xi −X )2
S2= i=1
n−1
donde xi es el valor de cada observación, X es el promedio y n es el número de
observaciones en la muestra. En R podremos calcularla mediante los siguientes
comandos:
var(data$Tiempo) ##para todos los datos o
tapply(data$Tiempo,data$Localidad,var) ## para cada grupo

4. La desviación estándar (S) corresponde a la raíz cuadrada de la varianza


(S2) y puede ser calculada de la siguiente manera.

S= √ S2

En R, podremos calcularla con los siguientes comandos:

sd(data$Tiempo) ##para todos los datos O


tapply(data$Tiempo,data$Localidad,sd)##para cada grupo

5. El coeficiente de variación expresa la desviación estándar como


proporción de la media aritmética, mostrando una interpretación “relativa” del
grado de variabilidad. A diferencia de la desviación estándar, es independiente de
la escala (adimensional) de la variable, y se puede calcular de la siguiente
manera:

S
cv =
X

En R no existe una función para calcular el coeficiente de variación de manera


directa, por lo que se debe aplicar la formula. Por lo que los comandos deben
domificarse de la siguiente manera:

sd(data$Tiempo)/mean(data$Tiempo) ##para todos los datos O


tapply(data$Tiempo, data$Localidad, function(x) sd(x)/mean(x))##
para cada grupo

Como podemos observar en los resultados de tapply(),la población de Farellones


presenta en promedio un tiempo de desarrollo más corto (o más rápido) que la
población de El Tatio. Por su parte, el nivel de variación de la variable en la
población de Farellones es menor que en la población del Tatio. Posiblemente
esto es producto de procesos de selección natural que a través de generaciones
han causado una respuesta mucho menos variable en esta población, dada las
condiciones de desecación que experimenta en época estival.

Bibliografía revisada

Milton, J. S. 2007. Estadística para biología y ciencias de la salud. McGraw-Hill


Interamericana de España.

Ejercicios Adicionales:

OBS: El nombre de cada variable para las bases de datos se entrega entre
paréntesis (para los ejercicios 3 y 4) . Recuerde modificar tanto el rotulo de los
ejes como el nombre principal de sus gráficos.

1. Un estudio que determino la eficiencia de captura de larvas de mosquito (Culex


pipiens) por parte del camarón fantasma (Palaemonetes argentinus) en
condiciones de laboratorio, medido en intervalos de 24 horas, varía entre
ejemplares juveniles y adultos, siendo en promedio un total de 18 larvas
capturadas por individuo, lo que equivale a un 73% de eficacia para los individuos
juveniles y un 44% de eficacia para individuos adultos, de un total de 25 y 40
intentos respectivamente.

En base a estos datos:


a) ¿Cuál es la esperanza de larvas capturadas durante un lapso de 24 hrs, por
un individuo juvenil?
b) ¿Cuál es la esperanza de larvas capturadas durante un lapso de 24 hrs, por
un individuo adulto?
c) Grafique una distribución binomial de la eficiencia en la captura de presas
para cada estado (juveniles y adultos).

2. Si al hacer seguimiento a 20 ejemplares juveniles representantes de una


población, durante un día, usted registra las siguientes cantidades de presas
capturadas por día:
12,15,18,18,15,16, 25, 20, 38, 15, 20, 23, 17, 10, 13, 20, 18, 13, 32, 10.

a) Determine la esperanza y la varianza de las capturas considerando su


probabilidad.

3. La base de datos Malawi.csv, contiene 157 especies de peces de la familia


Cichlidae que habitan el lago Malawi en África. Las variables que fueron medidas
de las especies son la longitud máxima (ML), y el estilo de vida (LS) en términos
de si estos viven expuestos o protegidos en roqueríos. Determine, si el estilo de
vida (expuestos o protegidos) puede resultar en un predictor del tamaño corporal
del pez en las distintas condiciones ambientales del lago.

Para ello desarrolle calcule el promedio, la desviación estándar y la mediana para


cada estilo de vida utilizando el comando tapply()

4. La base de datos VAR_AMB.csv, contiene los valores medidos en varios puntos


de la costa de Chile (EST,Norte y Sur) de las siguientes variables ambientales:
- Temperatura Superficial del Mar (TSM,°C),
- Concentración de Oxígeno Disuelto en el agua (DOSM; mg/L)
- Salinidad (SSM,PSU)

Con base en esta información:

a) Calcule la media, la mediana, la desviación estándar, varianza y coeficiente


de variación para cada zona de Chile (Norte y Sur) (calcule el coeficiente de
variación aplicando la fórmula matemática)
b) ¿En qué zona de Chile (Norte o Sur) cada variable ambiental varia más en
función de su medida central?
c) ¿Qué medida de dispersión utilizaría usted para responder la pregunta b) y
por qué?

También podría gustarte