Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Agronomía UNLPam
2. ESTADÍSTICA DESCRIPTIVA
Introducción
En la vida nos enfrentamos a gran cantidad de datos o información que debemos
procesar con el fin de obtener conclusiones. La Estadística es la ciencia que tiene como
objetivo la recopilación, clasificación e interpretación de datos. Esta ciencia se divide en dos
ramas:
La estadística Descriptiva: cuyos objetivos son: recopilar información, clasificarla
y presentarla de manera simplificada.
La estadística Inferencial: es la rama que se dedica a interpretar la información
brindada por la estadística descriptiva, con el objetivo de realizar inferencias posteriores.
Se necesitan datos para poder aplicar las técnicas estadísticas y para conseguirlos
el investigador debe realizar una serie de pasos o procedimientos organizados que en su
conjunto se denominan Experimento.
Ejemplo 1:
Imaginemos que estamos interesados en estudiar ciertas características de los
bovinos en una determinada región como: la raza, la cantidad de animales por raza y el peso
de los mismos. Como es imposible acceder a todos los animales de la zona, se recolecta al
azar una muestra de 50 animales. Por lo tanto, se tiene que la población en estudio está
formada por todos los animales de la región, La muestra por los 50 animales seleccionados.
Las variables de interés son: “Raza” (cualitativa); “Cantidad de animales por raza”
(cuantitativa discreta) y “Peso de los animales” (cuantitativa continua).
Para Recordar: los “valores” que toman las variables cuantitativas (continuas y
discretas) son números, mientras que los que toma la variable cualitativa o categórica son
atributos o cualidades.
Distribuciones de frecuencias
Introducción
Para entender desde un punto de vista práctico, desarrollaremos la idea por medio
de un ejemplo:
Ejemplo 2:
Desde hace unos años, en el área de horticultura del INTA Salta se evalúa el
comportamiento y adaptabilidad de híbridos de zapallo. En este caso se trabajó con el tipo
japonés, utilizando distintos semilleros en busca de alternativas. Estas nuevas plantaciones,
evaluadas en Cerrillos, van demostrando que dichos cultivares son una excelente opción para
la región NOA y principalmente para los Valles de Lerma y Sianca. El zapallo Tetsukabuto
está caracterizado por frutos semi redondos de cáscara de color verde oscuro con carne
amarilla y gruesa, de sabor muy dulce y ahuesado. A diferencia del Plomo (el Zapallo
convencional en el mercado), el japonés puede cosecharse a los 90 días de siembra, mientras
que para el plomo se requieren 120 días. En un estudio en particular, los investigadores
estaban interesados en evaluar el número de frutos por planta. Se consideró solo las plantas
de una parcela. Para cada planta se contó la cantidad de frutos que tenían. Los datos se
presentan en forma aleatoria a continuación:
5-4-1-2-5-4-6-2-7-5-7-6-3-2-5-4-3-6-6-3-4-4-1-4-3-5-4-4
Donde, identificamos: la variable en estudio como X: “El número de frutos por planta”, esta
variable es de tipo cuantitativa discreta, pues solo toma números naturales o el cero. (No
vamos a encontrar una planta que de 3.5 zapallos). La muestra está determinada por las 28
plantas de la parcela y cada planta es nuestra unidad experimental.
Para nuestro ejemplo la variable número de frutos por planta toma los valores: 1,2
3, 4, 5,6 y 7.
Antes de comenzar a ordenar la información, definiremos frecuencia absoluta
como el número de veces que el valor de la variable aparece y la representaremos con fi.
Una tabla de distribución absoluta posee una columna de contiene los valores que
toma las variables y otra columna que tiene la frecuencia absoluta, como se muestra a
continuación:
xi fi
1 2
2 3
3 4
4 8
5 5
6 4
7 2
n=28
Para Recordar: No debemos confundir el “valor” que toma variable con la frecuencia
absoluta. Este es un error frecuente que se comete cuando empezamos a estudiar estadística.
Por ejemplo, en esta muestra hemos encontrado que hay “4” plantas (frecuencia absoluta)
que tienen “6” frutos (valor de la variable).
La frecuencia relativa asociada con un valor dado puede ser considerada como una
estimación de la probabilidad de ocurrencia (como veremos los capítulos siguientes).
Si multiplicamos cada valor de la frecuencia relativa por 100 obtenemos la
frecuencia relativa porcentual (fr%).
𝑓
𝑓𝑟𝑖 . % = 𝑛𝑖 × 100 para todo i=1,..., m
Las frecuencias absolutas acumuladas (Fi ) se definen como el valor que surge de
la acumulación por fila de las correspondientes frecuencias absolutas. Estas se obtienen de la
siguiente manera:
𝐹1 = 𝑓1 , la primera frecuencia acumulada es la primera frecuencia absoluta.
𝐹2 = 𝑓1 + 𝑓2 , la segunda frecuencia acumulada es la suma de la primera frecuencia
absoluta con la segunda.
𝐹𝑚 = 𝑓1 + 𝑓2 + 𝑓3 +. . . +𝑓𝑚 , de manera similar la frecuencia acumulada Fm es la
suma de la primera frecuencia absoluta hasta la frecuencia absoluta m (𝑓𝑚 ).
La última frecuencia acumulada será igual a tamaño de la muestra.
Las frecuencias relativas acumuladas (Fr) se obtienen sumando las frecuencias
relativas; de la misma manera que se sumaron las frecuencias absolutas para obtener las
frecuencias acumuladas. Las frecuencias relativas acumuladas serán denotadas como y
𝐹𝑖
calculadas como: 𝐹𝑟𝑖 = para todo i=1,..., m
𝑛
Gráficos
Cuando la variable en estudio es cuantitativa discreta un gráfico adecuado es el
gráfico de barras. En dicho gráfico, en el eje de las 𝑥 se colocan los valores de la variable y
en el eje de las 𝑦 la frecuencia absoluta que toma cada valor de variable. La Figura 1.1
representa la cantidad de plantas que tienen un número determinado de frutos (zapallos).
cantidad de plantas
0
1 2 3 4 5 6 7
cantidad de zapallos
Fuente: Datos brindados por la cátedra
LI+LS
tendrá la misma amplitud y en cada una de ellos determinaremos el punto medio ( ),
2
que denominaremos marca de clase (xi). Este punto será el que represente a toda la clase.
La frecuencia absoluta para cada intervalo se determinará contando la cantidad de
UE que pertenecen a dicho intervalo. Las frecuencias relativas, frecuencias acumuladas,
frecuencias acumuladas relativas, frecuencias relativas porcentuales y frecuencias
acumuladas relativas porcentuales, respectivamente, que se obtendrán de la misma manera
que para datos sin agrupar.
Ejemplo 3:
Siguiendo con el estudio del zapallo japonés se toma una muestra de 30
zapallos siendo ahora el interés de la investigación el X= “peso de los zapallos”. El registro
de los pesos de las unidades experimentales se muestra a continuación:
1.20 1.20 1.20 1.30 1.30 1.30 1.40 1.50 1.50 1.50 1.50 1.50 1.60 1.60 1.60
1.60 1.60 1.60 1.60 1.70 1.70 1.70 1.70 1.80 1.80 1.80 1.80 1.90 1.90 2.00
Representaciones Gráficas
✓ Observar relaciones.
✓ Identificar rápidamente la distribución de los datos.
✓ Comparar distribuciones.
✓ Visualizar, obtener y comparar medidas estadísticas.
➢ Título: que exprese con claridad y en forma breve aquello que se propone mostrar.
➢ Nombre de los ejes: indicando qué se quiere indicar en cada caso y, si corresponde,
las unidades de medida.
➢ Fuente: sirve para informar el origen de los datos, indicando autor, título, volumen,
página, editor y fecha.
➢ Leyendas: son inscripciones que sirven para identificar las variables, cuando éstas
son dos o más. Pueden ubicarse a un costado o en el margen inferior del cuadro.
➢ Escala: es la relación que hay entre la unidad de dibujo y la unidad de la variable
que se quiere representar.
Luego de identificar los elementos básicos que componen a cualquier tipo de gráfico
comencemos la descripción de representaciones particulares.
Gráficos de barras
Los gráficos de barras son muy utilizados en la vida diaria para representar
información sobre ejes cartesianos. Para su confección debemos saber que en uno los ejes
(generalmente el de las abscisas) se posicionan las distintas categorías de la variable
cualitativa o los valores de la variable discreta, sobre éstos se dibujan barras o rectángulos,
de igual base, cuya altura representa la frecuencia. También puede suceder que en otros
casos no se utiliza la frecuencia sino un valor numérico (que está representado a otra variable
cuantitativa) las características de estas presentaciones se pueden detallar como:
Ejemplo 4:
2000 3500
1800
3000
Producción (en toneladas)
1600
a) b)
Figura 1: Gráfico de barras a) sin el total, b) Incluyendo el total
Ejemplo 5:
Consideremos nuevamente la producción de hortalizas, pero ahora para ambos períodos
el diagrama de barras compuesta queda determinado como:
3500
2000 3000
Producción (en toneladas)
Producción(en toneladas)
2500
1500
2000
1982/83 1982/83
1000 1500
1992/93 1992/93
1000
500 500
0
0 Papa Tomate Zapallo Poroto Zanahoria Pimiento Total
Papa Tomate Zapallo Poroto Zanahoria Pimiento
a) b)
Figura 2: Gráfico de barras compuestas a) sin el total, b) Incluyendo el total
Gráficos circulares
En este tipo de gráfico, la comparación de los datos se efectúa cotejando sectores de un
círculo en lugar de medir longitudes de rectángulos. El ángulo central del círculo (360°)
corresponde al total de los datos. El círculo se divide en tantos sectores como clases o
categorías tenga la variable a representar, cuyo ángulo central es proporcional a la frecuencia
de clases. En general se expresa en porcentaje y conviene cuando las clases no son
numerosas. Los gráficos circulares tienen sentido cuando se quiere mostrar que porcentaje
del total de la información corresponde a cada categoría.
Ejemplo 6:
Un gráfico circular para la información del cuadro 1 para el período 1982/83, será el
siguiente:
Pimiento
11% Zanahoria
Poroto
Zapallo
55%
Tomate
Papa
18%
Pictogramas
Los pictogramas son un tipo particular de gráficos de barras donde la frecuencia se
representa mediante “símbolos o dibujos (todos deben ser del mismo tamaño)” apilados.
Ejemplo 7:
El siguiente gráfico compara la cantidad de libros en las distintas bibliotecas, pero
utilizando dibujos.
Figura 6: Pictograma
Cartogramas
Son representaciones de tipo geográfico. Se trata de situar en un mapa la distribución
de una variable estadística utilizando distintos colores para mostrar las distintas categorías
de la variable.
Ejemplo 8:
En el siguiente gráfico se representa la densidad de la población de la Argentina por
provincia.
Figura 7: Cartograma
Gráfico de líneas
Los gráficos de líneas generalmente se utilizan para mostrar el comportamiento de
una variable a lo largo del tiempo. Sobre el eje de las abscisas se representa la variable tiempo
y sobre el de las ordenadas el valor que asume esa variable en el tiempo.
Ejemplo 9:
El cuadro Nº2 registra las lluvias mensuales registradas en Casa de Piedra en el año 1980.
Tabla 2. 1 : Registro de lluvias mensuales en Casa de Piedra para el año 1980
Enero Febrero Marzo Abril Mayo Junio Julio Agosto Septiembre Octubre noviembre Diciembre
Precipitaciones mensuales
en Casa de Piedra; Año 1980
60
50
40
30
20
10
0
enero marzo mayo julio set nov.
Fuente: Policía Provincial, Casa de Piedra
toneladas
16000
1000
14000
800 12000
10000
600
8000
400 6000
4000
200
2000
0 0
Nº de animales
1994 1995 1996 1997 1998 1999 2000
peso
Fuente: Dirección de Industria Alimentaria
Histograma
la variable, ordenados por intervalos o clases, formando la base del rectángulo; en el eje de
las ordenadas (y) se muestran las frecuencias, determinando la altura de los mismos
Ejemplo 10:
En el capítulo anterior trabajamos con los pesos de los zapallos, construyendo una
tabla de distribución de frecuencias, esta información se puede presentar también en un
histograma como se muestra el a figura 11.
9
8
7
6
5
4
3
2
1
0
1.03 1.18 1.33 1.48 1.63 1.78
peso de los zapallos (kgs.)
Polígono de Frecuencias
Es un gráfico construido al unir los puntos medios de los extremos superiores de las
barras de un histograma (que no son otra cosa que la frecuencia) por segmentos de recta,
(Figura 2.3).
Pasos para su construcción
1) Sobre el sistema de ejes se marcan todos los puntos formados por la marca
de clase y su correspondiente frecuencia absoluta (o frecuencia relativa,
según lo que se quiera graficar), es decir los puntos con coordenadas(𝑥𝑖 , 𝑓𝑖 ).
2) Se unen los puntos por medio de segmentos.
Importante: Debemos a agregar dos puntos extras con marca de clase anterior a la
menor, con frecuencia cero y otro con marca de clase posterior a la última también con
frecuencia cero. Al agregar los puntos extras el polígono de frecuencia queda cerrado sobre
el eje 𝒙.
12
11
10
cantidad de zapallos
9
8
7
6
5
4
3
2
1
0
1.03 1.18 1.33 1.48 1.63 1.78 1.93 2.08
peso de los zapallos
Introducción
Después que recopilamos los valores o datos estadísticos de una variable
provenientes de una muestra y los presentamos ordenadamente, por medio de una tabla o un
gráfico, nuestro interés se centra en encontrar unas pocas medidas numéricas que resuman la
información de la variable, conservando la mayor información posible y nos permitan inferir
sobre los verdaderos valores que tiene sobre en la población en estudio.
Las medidas que representarán al conjunto de datos se pueden clasificar en: medidas
de posición y medidas de dispersión.
Medidas de Posición
Son valores que sirven para describir la localización de un dato específico en
relación con el resto de la muestra. Dentro de las medidas de posición podemos determinar
valores muy importantes denominados Medidas de Centralización. Son valores que buscan
caracterizar el centro de la muestra.
Para poder definir los estimadores de estas medidas consideremos un conjunto de n
datos de una variable que los identificaremos con: 𝑥 1 , 𝑥2 , … , 𝑥𝑛 .
La media
Definimos la media del conjunto de datos como:
𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛 ∑𝑛𝑖=1 𝑥𝑖
𝑥=
̅ =
𝑛 𝑛
donde el símbolo 𝑥
̅ se lee como la media de la variable en la muestra.
Si existen datos de nuestro conjunto que se repiten podemos representarlos por medio
frecuencias fi: es decir cada dato con su frecuencia: 𝑥1 con frecuencia 𝑓1 ; 𝑥2 con frecuencia
𝑓2 ; ...; 𝑥𝑘 con frecuencia 𝑓𝑘 (donde: 𝑓1 + 𝑓2 +. . . +𝑓𝑘 = 𝑛) y la media queda definida como:
𝑥1 × 𝑓1 + 𝑥2 × 𝑓2 + ⋯ + 𝑥𝑘 × 𝑓𝑘 ∑𝑘𝑖=1 𝑥𝑖 × 𝑓𝑖
̅=
𝑥 =
𝑛 𝑛
Propiedades:
✓ Si se le suma una constante a cada elemento de la muestra, su media aumenta
en dicha constante.
✓ Si se multiplican cada elemento de la muestra por una constante, la media
queda multiplicada por dicha constante.
Ejemplo 11:
Consideremos el conjunto 6, 3, 9, 4 y 3, la media será:
6+3+9+4+3
𝑥̅ = =5
5
Ejemplo 12:
La tabla siguiente muestra la variable discreta X= “Número de hermanos” que
tienen 25 personas, debemos interpretar que 𝑥𝑖 = 0 indica que la cantidad de hermanos es 0
y en esta muestra hay dos personas que no tienen hermanos.
𝒙𝒊 0 1 2 3 4
𝒇𝒊 2 5 8 4 1
La Mediana:
La mediana muestral es un valor que divide a la muestra ordenada (de menor a mayor o de
mayor a menor) en dos partes iguales. Se simboliza con 𝑥̃ (la variable 𝑥 con ~ sobre ella).
A diferencia de la media, esta medida de centralización no es afectada por valores muy bajos
o muy altos.
Ejemplo 13:
a) Sea 8; 1; 2, 1; 5; 3; 4 un conjunto de datos
Pasos para encontrar la mediana
1) los ordenamos
1; 1; 2; 3; 4; 5; 8
Tenemos un total de 𝑛 = 7 datos. Como es un número impar la mediana será
un número del conjunto de datos.
2) Determinamos la posición de la mediana. Como son siete datos, la posición de la
7+1
mediana es =4, por lo tanto, la mediana queda determinada como el dato que
2
𝑥̃=3
b) Dado otro conjunto de datos desordenados: 1; 6; 2; 12; 9; 4
Pasos para calcular la mediana
1) los ordenamos
1; 2; 4; 6; 9; 12
Tenemos un total de 𝑛 = 6 datos. Como es un número par puede ser que la mediana
no sea un número del conjunto de datos.
6+1
2) Calculamos la posición de la mediana, que para este caso es: = 3.5 . De esta
2
Posición 3 Posición 4
1 2 4 6 9 12
𝑥̃=5
La mediana es el promedio entre los valores que ocupan la posición 3 y 4, para
4+6
nuestro caso ( 2
= 5). Observamos que el número 5, aunque no esté presente en el conjunto
1 5
2 8
3 4
4 1
Posición 10 Posición 11
0 0 1 1 1 1 1 2 2 2 2 2 2 2 2 3 3 3 3 4
𝑥̃=2
La mediana es el promedio entre los valores que ocupan la posición 10 y 11, para
2 +2
nuestro caso es el mismo por la tanto la mediana es 2
= 2.
La Moda
La moda es la única de las medidas de tendencia central que se puede determinar para datos
cualitativos o categóricos.
Ejemplo 14:
Para el ejemplo 12 la moda es el 2 pues tiene la mayor frecuencia, en otras palabras,
la moda 2 nos dice que la mayoría de los encuestados tienen 2 hermanos.
Cuartiles
Los cuartiles son 3 números (Q1, Q2, Q3) que dividen a la muestra ordenada en 4
partes iguales
DATOS ORDENADOS
MIN Q1 Q2 Q3 MAX
~
x
Lamentablemente en la bibliografía, como así también en los diferentes programas
estadísticos existen fórmulas para determinarlos que nos llevan a resultados diferentes. Aquí
adoptaremos el siguiente método. Determinaremos la mediana (que no es otra que el cuartil
2). Como la mediana separó en dos partes iguales la muestra, calcularemos en cada una de
ella nuevamente la mediana. La mediana de los datos que están debajo de la mediana el cuartil
1 (Q1). La mediana del conjunto de los datos más grandes es el cuartil 3 (Q3). Veámoslo a
partir del siguiente ejemplo:
Ejemplo 15:
Consideremos los datos (ya ordenados de menor a mayor)
8; 8; 12; 15; 15; 15; 15; 21; 32; 43; 43
En total tenemos 11 datos. Determinamos la mediana por medio de su posición pos
𝑛+1 11+1
x = 2 =
~
2
=6
Q1=12
Tomamos los datos que están sobe la mediana y determinamos la mediana de éstos,
que será el cuartil 3
15; 21; 32; 43; 43
Q3
Deciles
Centiles (O Percentiles)
obtenerlas.
Medidas De Centralización
Media
∑𝑛𝑖=1(𝑥𝑖 × 𝑓𝑖 )
𝑥=
̅
𝑛
En este caso los 𝑥𝑖 son las marcas de clase y 𝑓𝑖 su correspondiente frecuencia. Cabe
destacar que la interpretación y propiedades son iguales a los datos a sin agrupar.
Mediana
Moda
➢ 2 =fmodal-fsiguiente
➢ C = amplitud de la clase
Cuartiles
Para calcular el i-ésimo cuartil, se establece la clase donde encuentran los (𝑛 × 𝑖 ⁄4)
datos y se determina el Qi la mediana según la fórmula:
𝑛×𝑖
( 4 − 𝐹𝑎𝑛𝑡 )
𝑄𝑖 = 𝐿𝑖 + ×𝐶
𝑓𝑄𝑖
Donde
➢ Li es el límite inferior de la clase del cuartil Qi
➢ n el tamaño de la muestra
➢ Fant : frecuencia acumulada de la clase anterior a la del cuartil
➢ 𝑓𝑄𝑖 frecuencia absoluta de la clase del cuartil
➢ C: amplitud de la clase
Ejemplo 16:
Calculemos las medidas de centralización para los 30 datos del peso de los zapallos
Media:𝑥̅ = 1.57
Mediana:
Centiles o percentiles
donde
➢ Li es el límite inferior de la clase del percentil
➢ n el tamaño de la muestra
➢ Fant: frecuencia acumulada de la clase anterior a la del percentil
➢ fp: frecuencia absoluta de la clase del percentil
➢ C: amplitud de la clase
Medidas De Dispersión
En general el conjunto de datos estadísticos de una muestra, posee valores diferentes y su
variación es de suma importancia en la estadística. Las medidas de dispersión cuantifican
esta variabilidad y nos informan cuán separados están los datos de las medidas de tendencia
central. En este apartado se presentarán sin discriminar entre datos sin agrupar o agrupados.
Para introducirnos en el tema consideremos dos muestras M1 y M2 conformadas con los
siguientes valores:
M1 20 100 0 60 70
M2 60 20 80 60 30
* * * * *
º º º º
0 10 20 30 40 50 60 70 80 90 100
Pero si se puede observar en el diagrama que los datos de la M1 están más dispersos
(separados) que los de la M2. Para terminar de distinguir estos conjuntos de datos teniendo
en cuenta esta variación usaremos las medidas de dispersión. A continuación, definiremos
algunas de las más utilizadas
Rango o Amplitud
Ejemplo 17:
Determinación del rango para la muestra M1yM2
Máximo Mínimo Rango
M1 100 0 100
M2 80 20 60
El rango sólo trabaja con valores extremos sin considerar los demás datos,
consideremos los datos de muestra M3 y M4 como se muestra continuación:
Datos X ~
X Rango
M3 0 5 5 5 10 5 5 10
M4 0 1 5 9 10 5 5 10
Para poder diferenciar las muestras, podríamos considerar como se aleja cada valor
de la media, encontrando la diferencia entre cada valor xi de la muestra con la media:
Si queremos trabajar con todos los datos podríamos sumar todas las
desviaciones:∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ ), pero esta suma es siempre nula para todo conjunto de datos,
pues:
∑𝑛
𝑖=1(𝑥𝑖 )
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ ) = ∑𝑛𝑖=1(𝑥𝑖 ) − ∑𝑛𝑖=1(𝑥̅ ) = ∑𝑛𝑖=1(𝑥𝑖 ) − 𝑛 × 𝑥̅ = ∑𝑛𝑖=1(𝑥𝑖 ) − 𝑛 × =
𝑛
= ∑𝑛𝑖=1(𝑥𝑖 ) − ∑𝑛𝑖=1(𝑥𝑖 ) = 0-
Para salvar esta dificultad podemos considerar la desviación absoluta para cada dato,
es decir, considerar la expresión |𝑥𝑖 − 𝑥̅ |, que toma todas las distancias positivas
Desviación absoluta
Se define como deviación absoluta a las sumas de las diferencias en valores
absolutos de cada dato con su media muestral:
∑|𝑥𝑖 − 𝑥̅ |.
La Varianza Muestral
La varianza muestral mide cuanto se alejan los datos de su media. Y se define como
la suma de las distancias al cuadrado de cada dato a la media, dividida por la cantidad de
datos menos uno
Definimos la varianza muestral:
∑𝑛 2
𝑖=1 (𝑥𝑖 −𝑥̅ ) ×𝑓𝑖
2
s=
𝑛−1
Desvío Muestral
El desvío muestral, la medida de dispersión más utilizada pues sus unidades son
las mismas que de los elementos de la muestra y que la media.
Propiedades
➢ Si a los valores de la muestra de les suma la misma constante, la varianza y
la desviación no varían.
➢ Si los valores de la variable se los multiplica por una misma constante la
Siguiendo con las definiciones, diremos que un estimador es una función que sirve
para encontrar estimaciones de parámetros desconocidos. Esto es, cuando a un estimador lo
remplazamos con valores puntuales obtenidos de una muestra tenemos una estimación.
En este capítulo las fórmulas que hemos presentado son los estimadores. Si los reemplazamos
por valores muestrales obtendremos la estimación correspondiente. Si lo reemplazamos por
todos los valores de la población logramos el parámetro. Éste es único; mientras que si
reemplazamos por los valores de una muestra obtendremos una estimación. Las estimaciones
para una medida de posición o dispersión irán cambiando de muestra en muestra.
Ejemplo 19:
La Varianza desvío y coeficiente de variación para el ejemplo del peso del zapallo
son respectivamente: 𝑠 2 = 0.0459, 𝑠 = 0.214, 𝐶𝑉% = 13.65.
Como hemos introducido medidas que sirven para caracterizar una muestra estamos
en condiciones de introducir un nuevo gráfico
Los gráficos caja y brazo tienen como objetivo mostrar las siguientes características
de la información:
✓ Centro de muestra
✓ La dispersión
✓ La naturaleza y magnitud de cualquier desvío
En otras palabras este tipo de gráfico presenta al mismo tiempo, información sobre
la tendencia central, dispersión y simetría de los datos de estudio. Además, permite
identificar con claridad y de forma individual, observaciones que se alejan de manera poco
usual del resto de los datos. A estas observaciones se les conoce como valores atípicos.
Por su facilidad de construcción e interpretación, permite también comparar a la vez
varios grupos de datos sin perder información ni saturarse de ella. El nombre original del
gráfico introducido por J. Tukey en 1977 es Box and whiskerplot, es decir, diagrama de caja
y bigote. El gráfico consiste en un rectángulo (caja) de cuyos lados se derivan
respectivamente, dos segmentos (brazos). Cabe destacar que solo necesitamos el
conocimiento de 5 medidas para su construcción: los cuartiles, el máximo y mínimo.
Para lograr su representación los pasos a seguir son los siguientes:
1) Ordenar los datos de menor a mayor, determinando el valor mínimo y el máximo
2) Determinar la mediana, el Q1, Q3 y el rango intercuartílico (el rango intecuartílico
se define como RI=Q3-Q1).
3) Dibujar el eje horizontal (puede ser vertical).
4) Dibujar (sobre el eje horizontal, o sobre él) una un rectángulo cuyos laterales estén
determinados por Q1 y Q3 (por lo tanto el largo de la caja es el RI)
5) determinar 1.5 x RI.
6) Prolongar rectas desde casa extremo de la caja hasta las observaciones más lejanas
que estén todavía a menos de 1.5xRI.
7) Se dibuja con un círculo todos los puntos que se encuentran por fuera de 1.5xRI.
Estos puntos se denominan. Puntos anómalos.
Observación: dentro del gráfico de caja y brazo se puede incluir la media de los
datos
Ejemplo 20:
Realizar un gráfico box-plot para el siguiente conjunto de datos que representan el
aumento de peso de ratones luego de la aplicación de una determinada dieta, los valores
(están expresados en gr.):
2.68 3.06 4.31 4.71 5.71 5.99 6.06 7.04 7.17 7.46 7.50
8.27 8.42 8.73 8.84 9.14 9.19 9.21 9.39 11.28 15.19 21.06
21.98
16.92
gramos
11.87
6.82
5 10 15 20
1.76
gramos
(a) (b)
Figura 2. 4: Gráfico de Box-Plot, para los datos del ejemplo 20 a).Gráfico del programa R. b) Gráfico
del programa Infostat
.
INTRO