Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Objetivos generales:
1. Conocer y trabajar conceptos básicos de la estadística descriptiva.
2. Generar, analizar e interpretar datos representados en una tabla de frecuencia, en
una tabla de contingencia, y en gráficos (histogramas y gráficos de barras).
3. Relacionar la información contenida en la tabla y gráficos con el tipo de variable
que se está describiendo.
Las tablas de distribución de frecuencias son utilizadas para ordenar y describir un set
de n datos u observaciones numéricas. Básicamente, el conjunto de valores de una
variable y sus respectivas frecuencias (absoluta y relativa) se ordenan en columnas, lo
que finalmente nos permite apreciar cómo se distribuyen los valores de una variable
determinada.
data=read.csv(file.choose(),header=T,sep=";",stringsAsFactors=T)
El comando read.csv() nos permite cargar un archivo de esta extensión (csv: comma-
separated values). El comando file.choose(), permite buscar el archivo deseado
usando una ventana interactiva. El argumento header es utilizado para indicar si el
archivo tiene “encabezado” (nombre de columna) , especificando TRUE cuando las
columnas tienen nombre y FALSE en caso de que no lo tuviesen. Y el argumento sep nos
permite indicar qué símbolo que separa los valores de nuestra base de datos, en este
caso “ ; ”. El argumento stringsAsFactors permite reconocer cuando los textos de la
base de datos corresponden a factores o grupos distintos (TRUE), o a otro tipo de datos
FALSE (por ejemplo, sólo caracteres).
summary(data)
dim(data)
Número de llamados
Experimental Control
135 139 130 123 112 112
137 151 151 109 105 121
148 143 139 118 106 100
152 154 151 116 115 115
144 146 137 96 120 112
138 145 156 88 112 122
142 136 138 102 123 128
145 150 144 117 110 124
147 151 142 119 98 109
147 138 155 101 111 90
Debido a que los datos son numéricos y discretos, podemos agruparlos en intervalos
equivalentes para así obtener las frecuencias dentro de cada intervalo. Para determinar el
número de intervalos a considerar en la tabla recurriremos a la regla de Sturges. La regla
de Sturges nos permite obtener el número de intervalos (o número de clases) que
deberíamos utilizar para representar adecuadamente nuestros datos. Se expresa de la
siguiente manera:
Luego, calculamos el número de intervalos, recordemos que en este caso N = 30, como
se evidencia en los resultados del comando summary() realizado anteriormente, por lo
que en nuestro caso el cálculo sería:
Ahora, para determinar la amplitud de los intervalos tomaremos el rango total (valor
máximo – valor mínimo) y lo dividiremos en el número de intervalos obtenidos.
Observaremos los valores máximos y mínimos con los siguientes comandos:
max(Experimento) #permite obtener el valor máximo de una serie de datos
min(Experimento) #permite obtener el valor mínimo de una serie de datos
Frecuencia Frecuencia
Marca de Frecuencia Frecuencia
Intervalo acumulada acumulada
Clase absoluta relativa
absoluta relativa
[130-134,34] 132.17 1 1 0.033 0.033
Recuerde que:
- la frecuencia absoluta (ni) representa el número de datos que existen en un intervalo
dado
- la frecuencia acumulada (Ni) representa el número de datos que se acumulan hasta un
intervalo dado
- la frecuencia relativa (fi=ni/N) representa la proporción de datos en un intervalo dado
respecto al total de datos (N)
- la frecuencia relativa acumulada (Fi) es la suma de las frecuencias relativas hasta un
intervalo dado.
Nos quedaría estimar cómo se distribuyen los datos del grupo “control”, pero esta vez
realizaremos nuestra tabla de frecuencia en R, siguiendo la misma secuencia de pasos,
es decir, primero calcularemos el número de intervalos de acuerdo con la regla de
Sturges.
Primero crearemos el vector con los datos del número de llamados para la condición
“Control”, de igual manera que hicimos con los datos de experimento.
CON=data$Condicion=="Control"
Con=data$Llamados[CON]
Control=sort(Con,decreasing=F)
Luego, calcularemos la amplitud de cada intervalo, para esto, utilizaremos los comandos
diff() y range(), los que se utilizan para obtener la diferencia entre valores
consecutivos y obtener los valores máximo y mínimo de un vector numérico
respectivamente. Adicionalmente, debemos dividir la amplitud total en el número de
intervalos calculados para obtener la amplitud de cada intervalo.
A<-diff(range(Control))/K
marcas<-(L[0:K]+L[1:K+1])/2
##similar al caso anterior, aplicamos la fórmula de la semisuma a
los límites de cada intervalo.
Un paso adicional que debemos realizar en R, es discretizar nuestros datos, para obtener
la frecuencia absoluta posteriormente. Para esto generamos en primera instancia un
vector de caracteres llamado “etiq” (por “etiquetas”), el cual tendrá una extensión igual al
número de intervalos (K)
etiq <- c("A","B","C","D","E","F")
Ahora, debemos asignar a cada uno de nuestros datos originales una estas etiquetas, que
representa el intervalo al que pertenece, con el siguiente comando:
Llamados <- cut(Control,breaks=L,labels=etiq,right=TRUE)
##Este comando divide nuestro vector original, según los limites
calculados, y le asigna la misma etiqueta a cada valor dentro del
intervalo.
Al llamar al objeto Llamados, podemos observar que se asignó una letra a cada valor.
Ahora calcularemos la frecuencia absoluta para cada intervalo:
f_abs <- as.vector(table(Llamados))
##el comando table, genera una tabla para el recuento de cada
etiqueta, mientras que el comando as.vector(), organiza estos
datos como vector
control=data.frame(etiq,marcas,f_abs,f_abs_acum,f_rel,f_rel_acum)
hist(Experimento,col="red",xlab="Numero de Llamados",
ylab="Frecuencia",main="Histograma Numero de LLamados",
xlim=c(80,160),ylim=c(0,9),breaks=seq(from=min(Experimento),to=max
(Experimento)+0.04,by= 4.34))
hist(Control,col="blue",add=T,xlim=c(80,160),breaks=seq(min(Control),max(
Experimento),by= 6.67))
4
2
0
Número de Llamados
Figura 1. Histograma con las dos distribuciones de frecuencias (datos control en color
azul; datos experimentales en color rojo).
Como se puede apreciar, en el histograma para los datos control existe una mayor
frecuencia de datos hacia los valores mayores de esta distribución. Sin embargo,
podemos observar que la distribución de la variable “número de llamados” en el
tratamiento experimental se centró en valores mayores que en el tratamiento control, lo
que evidencia un efecto del aislamiento sobre los jerbos de Mongolia jóvenes. Esto se
ilustra de buena manera en el siguiente histograma que muestra las distribuciones de los
datos de número de llamados en ambos tratamientos.
Tablas de contingencia y gráficos de barra
Las tablas de contingencia son utilizadas para evaluar la relación de dos variables de
naturaleza cualitativa. En este caso queremos explorar la preferencia de las abejas por
flores con ciertos colores. Para ello construiremos una tabla de contingencia (o tabla de
doble entrada) que resuma los datos obtenidos en terreno de un experimento en el cual
se contó el número de flores de diferentes colores con presencia/ausencia de abejas (en
un momento determinado). En el momento del muestreo el panorama era el siguiente:
abejas=read.csv(file.choose(),header=T,sep=”;”,stringsAsFactors=T)
Ahora debemos aplicar el comando table() a nuestra base de datos, para transformarla
en una tabla de contingencia y observaremos el resultado
tabla_abejas=table(abejas)
Ausente
Presente
8
6
Frecuencia
4
2
0
Amarilla Rojo
Color de la flor
Figura 2. Barplot para la presencia/ausencia de abejas según el color de la flor. Naranjo:
presencia de abejas; Azul: ausencia de abejas.
Como podemos observar, las abejas están presentes en mayor frecuencia en las flores
amarillas respecto a las rojas, lo que muestra una preferencia por el primer tipo de color.
A continuación, se muestra.
Ejercicios de práctica
*Recuerde modificar tanto título como rótulos de los ejes en cada uno de los
gráficos que realice*
1) El lago Malawi es uno de los lagos africanos más grande, en este lago existe una gran
variedad de peces, siendo la mayor cantidad de especies de la familia Cichlidae. El lago
se caracteriza por presentar grandes roquerios, así como también extensas zonas libres
de roquerios.
La base de dato Malawi.csv, contiene el tamaño máximo de los peces (variable ML), así
como también el estilo de vida de estos (variable LS), clasificándose como expuestos en
caso de peces que utilizan mayor mente zonas libres de roquerios, o protegidos para
aquellas especies que suelen permanecer cercanas a los roquerios . A partir de esta
realice y responda lo siguiente:
a) Construya una tabla de frecuencia con intervalos para cada grupo (estilo de vida).
Incluya marcas de clase, frecuencia absoluta, frecuencia absoluta acumulada,
frecuencia relativa y frecuencia relativa acumulada.
b) Construya un histograma que presente represente a ambos grupos.
c) ¿Existe diferencia en el tamaño corporal entre las especies según su estilo de
vida? De ser así describa esta diferencia.