Está en la página 1de 39

Cátedra de Estadística. Fac.

Agronomía UNLPam

2. ESTADÍSTICA DESCRIPTIVA

Introducción
En la vida nos enfrentamos a gran cantidad de datos o información que debemos
procesar con el fin de obtener conclusiones. La Estadística es la ciencia que tiene como
objetivo la recopilación, clasificación e interpretación de datos. Esta ciencia se divide en dos
ramas:
La estadística Descriptiva: cuyos objetivos son: recopilar información, clasificarla
y presentarla de manera simplificada.
La estadística Inferencial: es la rama que se dedica a interpretar la información
brindada por la estadística descriptiva, con el objetivo de realizar inferencias posteriores.

Introducción a los términos básicos

Para comenzar a estudiar el conjunto de técnicas que conforman la estadística


descriptiva, debemos conocer y familiarizarnos con sus términos básicos.
La Población, es el conjunto de individuos u objetos cuyas características
queremos estudiar. Cada individuo u objeto de la población se lo denomina unidad
estadística o unidad experimental que la abreviaremos como UE. Muchas veces trabajar
con toda la población se torna imposible, sobre todo por los costos (en dinero y tiempo) que
esto genera. Por esta razón se trabaja con un grupo más pequeño de unidades experimentales,
pero teniendo precaución que sea representativa de la población. A este subconjunto de la
población se lo denomina Muestra.
Una Variable Estadística es una característica (propiedad o atributo) con
respecto a la cual las unidades experimentales cambian de algún modo. El objetivo del
investigador se centra en estudiar el comportamiento de cada una de estas variables
estadísticas y si es posible encontrar un patrón que las explique.
Por ejemplo si nuestros individuos son los estudiantes que ingresan a la Faculta de
Agronomía, y trabajáramos con grupo 30 de estudiantes, podríamos estar interesados en
estudiar su “edad”, “lugar de nacimiento”, “número de hermanos”. Cada estudiante

Mgter. Valeria Belmonte 1


Cátedra de Estadística. Fac. Agronomía UNLPam

conformaría una Unidad Experimental; los 30 estudiantes la muestra; que proviene de la


población de interés compuesta por todos los ingresantes.
Si consideramos a un estudiante en particular registrando que su edad es 18 años
y 3 meses, Santa Rosa su lugar de nacimiento, y que tiene 3 hermanos, hemos trabajado con
tres variables y para cada una de ellas hemos registrado un dato.
Aquí introduciremos un nuevo concepto: El dato estadístico es el “valor” de la
variable asociado a cada unidad experimental de la población o muestra. Como nuestra
muestra está compuesta de 30 estudiantes, tendríamos 30 datos para la edad, 30 para el lugar
de nacimiento y 30 para la cantidad de hermanos.
Las variables estadísticas pueden tomar valores numéricos como así también
categorías o atributos, de esta manera hay dos tipos básicos de variables:
Cualitativas O Categóricas: son aquellas variables que describen una cualidad
categoría o atributo de la unidad experimental.
Cuantitativas: son aquellas variables que describen una característica contable o
medible de la unidad experimental. A su vez, las variables cuantitativas se clasifican en:
Discreta: si la variable se puede contar. Es decir, el dato estadístico en un número
natural.
Continua: si la variable se puede medir. El dato estadístico es un número real.

Para nuestro ejemplo “lugar de nacimiento” es una variable cualitativa o


categórica, “edad” cuantitativa continua y “número de hermanos” cuantitativa discreta.
Debemos tener sumo cuidado al identificar el tipo de variable, pues las técnicas
estadísticas que se aplicarán dependen de esta elección. Si la selección es incorrecta
correremos el riesgo de invalidar todo el análisis.

Se necesitan datos para poder aplicar las técnicas estadísticas y para conseguirlos
el investigador debe realizar una serie de pasos o procedimientos organizados que en su
conjunto se denominan Experimento.

Mgter. Valeria Belmonte 2


Cátedra de Estadística. Fac. Agronomía UNLPam

Ejemplo 1:
Imaginemos que estamos interesados en estudiar ciertas características de los
bovinos en una determinada región como: la raza, la cantidad de animales por raza y el peso
de los mismos. Como es imposible acceder a todos los animales de la zona, se recolecta al
azar una muestra de 50 animales. Por lo tanto, se tiene que la población en estudio está
formada por todos los animales de la región, La muestra por los 50 animales seleccionados.
Las variables de interés son: “Raza” (cualitativa); “Cantidad de animales por raza”
(cuantitativa discreta) y “Peso de los animales” (cuantitativa continua).

Para Recordar: los “valores” que toman las variables cuantitativas (continuas y
discretas) son números, mientras que los que toma la variable cualitativa o categórica son
atributos o cualidades.

Distribuciones de frecuencias

Introducción

Luego de realizar el experimento el investigador se encuentra con un conjunto de


datos estadísticos que debe organizar para su posterior análisis. Éstos se pueden disponer por
medio de tablas y/o de gráficos. En este apartado desarrollaremos lo primero.
Las distribuciones de frecuencias son tablas que permiten presentar de manera
ordenada de tablas los datos estadísticos de una variable obtenidos de una muestra (o de toda
la población). Por medio de las mismas podemos saber rápidamente cuantas UE toman el
mismo valor para la variable en estudio.
Existen dos tipos de tablas de frecuencias: para datos sin agrupar y para datos
agrupados. En la primera cada dato estadístico aparece individualmente; y en la segunda los
éstos se presentan agrupados en intervalos. Las tablas de frecuencias para datos sin agrupar
se usan solo para variables categóricas y cuantitativas discretas. Mientras que las tablas para
datos agrupados sirven para variables cuantitativas continuas; eventualmente para las
discretas, sí éstas toman muchos valores. Pero nunca podemos usar tablas para datos sin
agrupar si la variable es cuantitativa continua.

Mgter. Valeria Belmonte 3


Cátedra de Estadística. Fac. Agronomía UNLPam

Tabla de distribución de frecuencias (datos sin agrupar)

Para entender desde un punto de vista práctico, desarrollaremos la idea por medio
de un ejemplo:

Ejemplo 2:
Desde hace unos años, en el área de horticultura del INTA Salta se evalúa el
comportamiento y adaptabilidad de híbridos de zapallo. En este caso se trabajó con el tipo
japonés, utilizando distintos semilleros en busca de alternativas. Estas nuevas plantaciones,
evaluadas en Cerrillos, van demostrando que dichos cultivares son una excelente opción para
la región NOA y principalmente para los Valles de Lerma y Sianca. El zapallo Tetsukabuto
está caracterizado por frutos semi redondos de cáscara de color verde oscuro con carne
amarilla y gruesa, de sabor muy dulce y ahuesado. A diferencia del Plomo (el Zapallo
convencional en el mercado), el japonés puede cosecharse a los 90 días de siembra, mientras
que para el plomo se requieren 120 días. En un estudio en particular, los investigadores
estaban interesados en evaluar el número de frutos por planta. Se consideró solo las plantas
de una parcela. Para cada planta se contó la cantidad de frutos que tenían. Los datos se
presentan en forma aleatoria a continuación:
5-4-1-2-5-4-6-2-7-5-7-6-3-2-5-4-3-6-6-3-4-4-1-4-3-5-4-4
Donde, identificamos: la variable en estudio como X: “El número de frutos por planta”, esta
variable es de tipo cuantitativa discreta, pues solo toma números naturales o el cero. (No
vamos a encontrar una planta que de 3.5 zapallos). La muestra está determinada por las 28
plantas de la parcela y cada planta es nuestra unidad experimental.
Para nuestro ejemplo la variable número de frutos por planta toma los valores: 1,2
3, 4, 5,6 y 7.
Antes de comenzar a ordenar la información, definiremos frecuencia absoluta
como el número de veces que el valor de la variable aparece y la representaremos con fi.

Mgter. Valeria Belmonte 4


Cátedra de Estadística. Fac. Agronomía UNLPam

Una tabla de distribución absoluta posee una columna de contiene los valores que
toma las variables y otra columna que tiene la frecuencia absoluta, como se muestra a
continuación:

xi fi
1 2
2 3
3 4
4 8
5 5
6 4
7 2
n=28

Para Recordar: No debemos confundir el “valor” que toma variable con la frecuencia
absoluta. Este es un error frecuente que se comete cuando empezamos a estudiar estadística.
Por ejemplo, en esta muestra hemos encontrado que hay “4” plantas (frecuencia absoluta)
que tienen “6” frutos (valor de la variable).

Generalmente en esta tabla no solo se muestran las frecuencias absolutas, sino


además las frecuencias relativas y las acumuladas (absolutas y relativas), que iremos
definiendo a continuación.
La frecuencia relativa, denotada por fri. y se obtienen de dividir la frecuencia
absoluta 𝑓𝑖 por el total de la muestra (n):
𝑓
𝑓𝑟𝑖 . = 𝑛𝑖 para todo i=1,..., m.

La frecuencia relativa asociada con un valor dado puede ser considerada como una
estimación de la probabilidad de ocurrencia (como veremos los capítulos siguientes).
Si multiplicamos cada valor de la frecuencia relativa por 100 obtenemos la
frecuencia relativa porcentual (fr%).
𝑓
𝑓𝑟𝑖 . % = 𝑛𝑖 × 100 para todo i=1,..., m

Mgter. Valeria Belmonte 5


Cátedra de Estadística. Fac. Agronomía UNLPam

Las frecuencias absolutas acumuladas (Fi ) se definen como el valor que surge de
la acumulación por fila de las correspondientes frecuencias absolutas. Estas se obtienen de la
siguiente manera:
𝐹1 = 𝑓1 , la primera frecuencia acumulada es la primera frecuencia absoluta.
𝐹2 = 𝑓1 + 𝑓2 , la segunda frecuencia acumulada es la suma de la primera frecuencia
absoluta con la segunda.
𝐹𝑚 = 𝑓1 + 𝑓2 + 𝑓3 +. . . +𝑓𝑚 , de manera similar la frecuencia acumulada Fm es la
suma de la primera frecuencia absoluta hasta la frecuencia absoluta m (𝑓𝑚 ).
La última frecuencia acumulada será igual a tamaño de la muestra.
Las frecuencias relativas acumuladas (Fr) se obtienen sumando las frecuencias
relativas; de la misma manera que se sumaron las frecuencias absolutas para obtener las
frecuencias acumuladas. Las frecuencias relativas acumuladas serán denotadas como y
𝐹𝑖
calculadas como: 𝐹𝑟𝑖 = para todo i=1,..., m
𝑛

De la misma manera que las 𝑓%, se obtiene la frecuencia relativa acumulada


porcentual (Fr%)
La tabla de frecuencias completa para los datos de nuestro problema queda
determinada como:
xi 𝒇𝒊 𝒇𝒓 𝒇𝒓% 𝑭 𝑭𝒓 𝑭𝒓%
1 2 2/28 7,14 2 2/28 7,14
2 3 3/28 10,71 5 5/28 17,86
3 4 4/28 14,29 9 9/28 32,14
4 8 8/28 28,57 17 17/28 60,71
5 5 5/28 17,86 22 22/28 78,57
6 4 4/28 14,29 26 26/28 92,86
7 2 2/28 7,14 28 1 100
n=28 1 100

En general las frecuencias relativas y relativas acumuladas no tienen una


interpretación directa, pero están asociadas con los conceptos de probabilidad que veremos
en la unidad siguiente.
Una vez que tenemos volcada la información de la muestra en la tabla podemos
realizar una interpretación rápida de la misma como sigue:

Mgter. Valeria Belmonte 6


Cátedra de Estadística. Fac. Agronomía UNLPam

Interpretación de la frecuencia absoluta

Por ejemplo, el valor 𝑓𝑖 = 8, que se encuentra en la tercera fila de la tabla, se


interpreta como: existen 8 plantas de zapallos tienen 4 frutos (𝑥𝑖= 4).

Interpretación de la frecuencia relativa porcentual

El valor 𝑓𝑟 % = 28,57 (que se encuentra en la tercera fila de la tabla en la columna


de frecuencias relativas porcentuales) se lee como: el 28,57% de las plantas de zapallo tienen
4 frutos o zapallos (𝑥𝑖= 3).

Interpretación de la frecuencia acumulada

Por ejemplo, el valor 𝐹𝑖 = 22 , describe que existen 22 plantas de la muestra que


tienen 5 o menos zapallos.

Interpretación de la frecuencia acumulada porcentual

Por ejemplo, el valor 𝐹𝑟 % = 60.71, dice que el 60.71 % de la muestra tiene 4 o


menos frutos.

En general las frecuencias relativas y relativas acumuladas no tienen una


interpretación directa, pero están asociadas con los conceptos de probabilidad que veremos
en la unidad siguiente.

Gráficos
Cuando la variable en estudio es cuantitativa discreta un gráfico adecuado es el
gráfico de barras. En dicho gráfico, en el eje de las 𝑥 se colocan los valores de la variable y
en el eje de las 𝑦 la frecuencia absoluta que toma cada valor de variable. La Figura 1.1
representa la cantidad de plantas que tienen un número determinado de frutos (zapallos).

Mgter. Valeria Belmonte 7


Cátedra de Estadística. Fac. Agronomía UNLPam

Cantidad de plantas según número de zapallos


8

cantidad de plantas

0
1 2 3 4 5 6 7
cantidad de zapallos
Fuente: Datos brindados por la cátedra

Figura 1. 1: Gráfico de barras

Distribución de Frecuencias (datos agrupados)


Para describir la distribución de frecuencias correspondiente a una variable continua
es indispensable agrupar los valores registrados mediante un conjunto de intervalos o clases.
La determinación de la cantidad y amplitud de los intervalos es arbitraria. Pero se recomienda
que la distribución de frecuencias debiera tener entre 5 y 15 intervalos. Existen algunas
fórmulas para determinar la cantidad de intervalos. En la actualidad los programas
estadísticos han resuelto el problema de determinar los intervalos. Nuestro trabajo, como
usuarios de la información estadística, es su interpretación, Para ello debemos definir cuáles
son los elementos que la componen.
Se define una clase o intervalo semi-abierto como al conjunto de números reales
que se encuentran entre dos valores denominados: límite inferior (LI) y límite superior (LS).
Esto es [LI; LS) o (LI; LS]. El corchete indica que el valor pertenece al intervalo (o clase), y
el paréntesis nos indica que el valor no pertenece al intervalo. La amplitud de un intervalo
se define como la diferencia del LS y LI (LS-LI). Por ejemplo: [3; 5) está compuesto por
todos los reales entre el 3 y 5 y se incluye el 3 pero no el 5; cuya amplitud es 2 (5-3=2).
La tabla de distribución de frecuencias para datos agrupados está determinada por
un número finito de clases o intervalos semia-abiertos consecutivos y no superpuestos.
Asegurando que todos los datos estadísticos estén en solo un intervalo o clase. Cada intervalo

Mgter. Valeria Belmonte 8


Cátedra de Estadística. Fac. Agronomía UNLPam

LI+LS
tendrá la misma amplitud y en cada una de ellos determinaremos el punto medio ( ),
2

que denominaremos marca de clase (xi). Este punto será el que represente a toda la clase.
La frecuencia absoluta para cada intervalo se determinará contando la cantidad de
UE que pertenecen a dicho intervalo. Las frecuencias relativas, frecuencias acumuladas,
frecuencias acumuladas relativas, frecuencias relativas porcentuales y frecuencias
acumuladas relativas porcentuales, respectivamente, que se obtendrán de la misma manera
que para datos sin agrupar.

Ejemplo 3:
Siguiendo con el estudio del zapallo japonés se toma una muestra de 30
zapallos siendo ahora el interés de la investigación el X= “peso de los zapallos”. El registro
de los pesos de las unidades experimentales se muestra a continuación:
1.20 1.20 1.20 1.30 1.30 1.30 1.40 1.50 1.50 1.50 1.50 1.50 1.60 1.60 1.60
1.60 1.60 1.60 1.60 1.70 1.70 1.70 1.70 1.80 1.80 1.80 1.80 1.90 1.90 2.00

Con la información determinamos la siguiente tabla de datos agrupados


clase clase 𝒙𝒊 𝒇𝒊 𝒇𝒓 𝑭𝒊 𝑭𝒓 𝒇𝒓 % 𝑭𝒓 %
1 (1.10-1.25] 1.18 3 0.10 3 0.10 10 10
2 (1.25-1.40] 1.33 4 0.13 7 0.23 13 23
3 (1.40-1.55] 1.48 5 0.17 12 0.40 17 40
4 (1.55-1.70] 1.63 11 0.37 23 0.77 37 77
5 (1.70-1.85] 1.78 4 0.13 27 0.90 13 90
6 (1.85-2.00] 1.93 3 0.10 30 1.00 10 100

Una vez que tenemos volcada la información de la muestra en la tabla podemos


realizar una interpretación rápida de la misma como sigue:

Interpretación de la frecuencia absoluta

Por ejemplo, el valor 𝑓𝑖 = 4 correspondiente a la clase 2, se interpreta como que


existen 4 plantas de zapallos que pesan entre 1.25 y 1.40 kilogramos.

Mgter. Valeria Belmonte 9


Cátedra de Estadística. Fac. Agronomía UNLPam

Interpretación de la frecuencia relativa porcentual

El valor 𝑓𝑟 % = 37 correspondiente a la clase 4, se interpreta como: del total de la


muestra el 37% de los zapallos pesan entre 1.55 y 1.70 kilogramos.

Interpretación de la frecuencia acumulada

Por ejemplo, el valor 𝐹𝑖 = 12 correspondiente a la clase 3, explica que existen 12


zapallos que pesan entre 1.10 y 1.55 kilogramos. O también se puede expresar como que 12
zapallos pesan 1.55 kilogramos o menos.

Interpretación de la frecuencia acumulada porcentual

Por ejemplo, el valor 𝐹𝑟 % = 90 correspondiente a la clase 5, dice que el 90 % de la


muestra tiene un peso de 1.85 kilogramos o menor.

En general las frecuencias relativas y relativas acumuladas no tienen una


interpretación directa, pero están asociadas con los conceptos de probabilidad que veremos
en la unidad siguiente.

Representaciones Gráficas

Como hemos expresado anteriormente, luego de obtener nuestros datos estadísticos,


debemos presentarlos de manera ordenada y amena. Esto se puede lograr por medio de
representaciones gráficas o simplemente gráficos.
Se designa por métodos gráficos a los sistemas de representaciones donde las
observaciones están simbolizadas por superficies o figuras geométricas suministrando una
imagen rápida que permita al lector con un solo golpe de vista evidenciar ciertos hechos
fundamentales (tamaño, variaciones con el tiempo, etc.).
Podemos escribir los objetivos de estas representaciones como:

✓ Presentar de forma amena y organizada los datos.


✓ Observar agrupamientos.

Mgter. Valeria Belmonte 10


Cátedra de Estadística. Fac. Agronomía UNLPam

✓ Observar relaciones.
✓ Identificar rápidamente la distribución de los datos.
✓ Comparar distribuciones.
✓ Visualizar, obtener y comparar medidas estadísticas.

En esta sección presentaremos algunas formas de representaciones gráficas, para los


cuales se discutirán sus propósitos, casos típicos de aplicación y eventualmente algunas
variaciones del esquema básico. Más allá de la elección del tipo de gráfico convenimos tener
en cuenta que todos deben tener los siguientes componentes:

➢ Título: que exprese con claridad y en forma breve aquello que se propone mostrar.
➢ Nombre de los ejes: indicando qué se quiere indicar en cada caso y, si corresponde,
las unidades de medida.
➢ Fuente: sirve para informar el origen de los datos, indicando autor, título, volumen,
página, editor y fecha.
➢ Leyendas: son inscripciones que sirven para identificar las variables, cuando éstas
son dos o más. Pueden ubicarse a un costado o en el margen inferior del cuadro.
➢ Escala: es la relación que hay entre la unidad de dibujo y la unidad de la variable
que se quiere representar.

Luego de identificar los elementos básicos que componen a cualquier tipo de gráfico
comencemos la descripción de representaciones particulares.

Gráficos de barras
Los gráficos de barras son muy utilizados en la vida diaria para representar
información sobre ejes cartesianos. Para su confección debemos saber que en uno los ejes
(generalmente el de las abscisas) se posicionan las distintas categorías de la variable
cualitativa o los valores de la variable discreta, sobre éstos se dibujan barras o rectángulos,
de igual base, cuya altura representa la frecuencia. También puede suceder que en otros

Mgter. Valeria Belmonte 11


Cátedra de Estadística. Fac. Agronomía UNLPam

casos no se utiliza la frecuencia sino un valor numérico (que está representado a otra variable
cuantitativa) las características de estas presentaciones se pueden detallar como:

✓ Cada barra representa una de las categorías de la variable a representar.


✓ En el gráfico de barras los datos cualitativos suelen representarse en el eje horizontal
y en el eje vertical la frecuencia, proporción o porcentaje. Pero pueden graficarse
al revés (barras horizontales).
✓ El origen de la escala debe coincidir con el cero de la misma, pues de lo contrario
puede resultar una falsa impresión.
✓ Las columnas o barras deben estar separadas entre sí para destacar el carácter neto
de las clases o categorías.
✓ Las columnas deben tener el mismo ancho entre sí y la separación entre éstas
también debe ser constante, pero más angosta.
✓ Para facilitar la visualización de la información las barras pueden ser ordenadas en
forma ascendente o descendente. El “total” u “otros” (si se quiere agregar) se
colocará al final, sin respetar el orden.

Ejemplo 4:

Consideremos la siguiente información que muestra la producción de hortalizas en


la Argentina para dos períodos.
. PRODUCCIÓN (en toneladas)
Período Papa Tomate Zapallo Poroto Zanahoria Pimiento Total
1982/83 1817 572 366 295 144 86 3280
1992/93 2210 700 314 146 215 90 3675

Fuente: Secretaria de Agricultura y Pesca

Grafiquemos la información para el período 1982/1983

Mgter. Valeria Belmonte 12


Cátedra de Estadística. Fac. Agronomía UNLPam

Producción de hortalizas Producción de hortalizas


período 1982/83 período 1982/83

2000 3500
1800
3000
Producción (en toneladas)
1600

Producción (en toneladas)


1400 2500
1200
2000
1000
800 1500
600
1000
400
200 500
0
0
Papa Tomate Zapallo Poroto Zanahoria Pimiento
Papa Tomate Zapallo Poroto Zanahoria Pimiento Total

Fuente: Secretaria de Agricultura y Pesca Fuente: Secretaria de Agricultura y Pesca

a) b)
Figura 1: Gráfico de barras a) sin el total, b) Incluyendo el total

Observación: Los gráficos representados en la Figura 1, sirven de ejemplo, de casos


en los cuales en el eje de abscisas representamos una variable categórica (tipo de hortaliza)
y en el eje de las ordenadas una variable cuantitativa continua (producción)

Gráficos de barras compuestas


Son básicamente similares a los anteriores, pero se utilizan cuando se desea comparar dos
o más variables o una variable en dos períodos o muestras diferentes

Ejemplo 5:
Consideremos nuevamente la producción de hortalizas, pero ahora para ambos períodos
el diagrama de barras compuesta queda determinado como:

Producción de hortalizas Producción de hortalizas


segun períodos según períodos
2500 4000

3500
2000 3000
Producción (en toneladas)
Producción(en toneladas)

2500
1500
2000
1982/83 1982/83
1000 1500
1992/93 1992/93
1000
500 500

0
0 Papa Tomate Zapallo Poroto Zanahoria Pimiento Total
Papa Tomate Zapallo Poroto Zanahoria Pimiento

Fuente: Secretaria de Agricultura y Pesca Fuente: Secretaria de Agricultura y Pesca

a) b)
Figura 2: Gráfico de barras compuestas a) sin el total, b) Incluyendo el total

Mgter. Valeria Belmonte 13


Cátedra de Estadística. Fac. Agronomía UNLPam

Gráficos de barras apiladas


Los diagramas de barras apiladas son gráficos comparativos. Cuando se trabaja con
una variable que tiene varios niveles o categorías y se quiere comparar dos o más series,
períodos o muestras, y la suma de los mismos aporta información relevante, ésta es una
representación adecuada. Los valores de frecuencia pueden expresarse en porcentaje o en
valor real. En el ejemplo siguiente la variable a graficar es “producción de hortalizas” que
toma las categorías: pimiento, zanahorias, poroto, etc. Y las series graficadas son dos
períodos: 1982/83 y 1992/93.

Producción de hortalizas Producción de hortalizas


segun períodos segun períodos
4500 100%
4000
Producción (en toneladas)

Producción (en toneladas)


3500 80%
3000
2500 60%
2000
40%
1500 1992/93 1992/93
1000 20%
1982/83 1982/83
500
0 0%
Papa Tomate Zapallo Poroto Zanahoria Pimiento Papa Tomate Zapallo Poroto Zanahoria Pimiento

Fuente: Secretaria de Agricultura y Pesca, Sobre un total de 3281.tn (período82/83) y


Fuente: Secretaria de Agricultura y Pesca, 3675.54tn (92/93) , totlales: Papra:4027; tomtar1272; zaapallo680, poroto 441; zanahoria359
pimiento 176

Figura 4: Gráficos de barras apiladas

Observación: Cuando el gráfico se exprese en porcentajes, debe especificarse en la


fuente el total de los datos.

Gráficos circulares
En este tipo de gráfico, la comparación de los datos se efectúa cotejando sectores de un
círculo en lugar de medir longitudes de rectángulos. El ángulo central del círculo (360°)
corresponde al total de los datos. El círculo se divide en tantos sectores como clases o
categorías tenga la variable a representar, cuyo ángulo central es proporcional a la frecuencia
de clases. En general se expresa en porcentaje y conviene cuando las clases no son
numerosas. Los gráficos circulares tienen sentido cuando se quiere mostrar que porcentaje
del total de la información corresponde a cada categoría.

Mgter. Valeria Belmonte 14


Cátedra de Estadística. Fac. Agronomía UNLPam

Ejemplo 6:
Un gráfico circular para la información del cuadro 1 para el período 1982/83, será el
siguiente:

Producción de Hortalizas en la Argentina,


período 1982/83
3% 4%
9%

Pimiento
11% Zanahoria
Poroto
Zapallo
55%
Tomate
Papa

18%

Fuente: Secretaria de Agricultura y Pesca, sobre un total de 3281.8 tn.

Figura 5: Gráfico circular o de tortas

Observación: Cuando el gráfico se exprese en porcentajes, debe especificarse en la


fuente el total de los datos.

Pictogramas
Los pictogramas son un tipo particular de gráficos de barras donde la frecuencia se
representa mediante “símbolos o dibujos (todos deben ser del mismo tamaño)” apilados.

Ejemplo 7:
El siguiente gráfico compara la cantidad de libros en las distintas bibliotecas, pero
utilizando dibujos.

Figura 6: Pictograma

Mgter. Valeria Belmonte 15


Cátedra de Estadística. Fac. Agronomía UNLPam

Cartogramas
Son representaciones de tipo geográfico. Se trata de situar en un mapa la distribución
de una variable estadística utilizando distintos colores para mostrar las distintas categorías
de la variable.

Ejemplo 8:
En el siguiente gráfico se representa la densidad de la población de la Argentina por
provincia.

Figura 7: Cartograma

Gráfico de líneas
Los gráficos de líneas generalmente se utilizan para mostrar el comportamiento de
una variable a lo largo del tiempo. Sobre el eje de las abscisas se representa la variable tiempo
y sobre el de las ordenadas el valor que asume esa variable en el tiempo.

Ejemplo 9:

El cuadro Nº2 registra las lluvias mensuales registradas en Casa de Piedra en el año 1980.
Tabla 2. 1 : Registro de lluvias mensuales en Casa de Piedra para el año 1980
Enero Febrero Marzo Abril Mayo Junio Julio Agosto Septiembre Octubre noviembre Diciembre

Mgter. Valeria Belmonte 16


Cátedra de Estadística. Fac. Agronomía UNLPam

1980 2.3 5.2 2.2 36.5 14 4 15 0 8 4 51.5 0


Fuente: Policía Provincial, Casa de Piedra Las precipitaciones están expresadas en mm.

Precipitaciones mensuales
en Casa de Piedra; Año 1980
60

50

40

30

20

10

0
enero marzo mayo julio set nov.
Fuente: Policía Provincial, Casa de Piedra

Figura 8: Gráfico de líneas

Los gráficos presentados anteriormente son representaciones sencillas, éstos a su vez se


pueden combinar, formando gráficos compuestos, con el objetivo de brindar más
información. Representando tres variables por medio de tres ejes, siempre teniendo la
precaución de colocar adecuadamente las escalas correspondientes para facilitar la lectura
del mismo.
Producción Argentina de Ovinos
períodos 1994 a 2000
1200 18000
miles de cabezas

toneladas

16000
1000
14000
800 12000
10000
600
8000
400 6000
4000
200
2000
0 0
Nº de animales
1994 1995 1996 1997 1998 1999 2000
peso
Fuente: Dirección de Industria Alimentaria

Figura 9: Gráfico compuesto

Histograma

Un histograma es una representación gráfica de una variable cuantitativa, que consta


de rectángulos no separados. En el eje de las abscisas (x) se representan los valores que toma

Mgter. Valeria Belmonte 17


Cátedra de Estadística. Fac. Agronomía UNLPam

la variable, ordenados por intervalos o clases, formando la base del rectángulo; en el eje de
las ordenadas (y) se muestran las frecuencias, determinando la altura de los mismos

Pasos para su construcción:


1) Sobre el eje de las abscisas se marcan las clases o intervalos (que van a
determinar la base del rectángulo).
2) Para cada clase se marca la altura del rectángulo por medio de la frecuencia
(absoluta o relativa) que le corresponde.
3) Para cada clase o intervalo se determina el rectángulo.

Ejemplo 10:

En el capítulo anterior trabajamos con los pesos de los zapallos, construyendo una
tabla de distribución de frecuencias, esta información se puede presentar también en un
histograma como se muestra el a figura 11.

Cantidad de zapallos según el peso


12
11
10
número de zapallos

9
8
7
6
5
4
3
2
1
0
1.03 1.18 1.33 1.48 1.63 1.78
peso de los zapallos (kgs.)

Fuente: datos brindados por la cátedra

Figura 10: Histograma correspondiente a los pesos de los zapallos

Mgter. Valeria Belmonte 18


Cátedra de Estadística. Fac. Agronomía UNLPam

Polígono de Frecuencias

Es un gráfico construido al unir los puntos medios de los extremos superiores de las
barras de un histograma (que no son otra cosa que la frecuencia) por segmentos de recta,
(Figura 2.3).
Pasos para su construcción
1) Sobre el sistema de ejes se marcan todos los puntos formados por la marca
de clase y su correspondiente frecuencia absoluta (o frecuencia relativa,
según lo que se quiera graficar), es decir los puntos con coordenadas(𝑥𝑖 , 𝑓𝑖 ).
2) Se unen los puntos por medio de segmentos.

Importante: Debemos a agregar dos puntos extras con marca de clase anterior a la
menor, con frecuencia cero y otro con marca de clase posterior a la última también con
frecuencia cero. Al agregar los puntos extras el polígono de frecuencia queda cerrado sobre
el eje 𝒙.

Cantidad de zapallos según peso

12
11
10
cantidad de zapallos

9
8
7
6
5
4
3
2
1
0
1.03 1.18 1.33 1.48 1.63 1.78 1.93 2.08
peso de los zapallos

Fuente: datos brindados por la cátedra

Figura 1.2: Polígono de Frecuencias para los datos de zapallo

Mgter. Valeria Belmonte 19


Cátedra de Estadística. Fac. Agronomía UNLPam

Cálculo de estadísticas descriptivas

Introducción
Después que recopilamos los valores o datos estadísticos de una variable
provenientes de una muestra y los presentamos ordenadamente, por medio de una tabla o un
gráfico, nuestro interés se centra en encontrar unas pocas medidas numéricas que resuman la
información de la variable, conservando la mayor información posible y nos permitan inferir
sobre los verdaderos valores que tiene sobre en la población en estudio.
Las medidas que representarán al conjunto de datos se pueden clasificar en: medidas
de posición y medidas de dispersión.

Medidas de Posición
Son valores que sirven para describir la localización de un dato específico en
relación con el resto de la muestra. Dentro de las medidas de posición podemos determinar
valores muy importantes denominados Medidas de Centralización. Son valores que buscan
caracterizar el centro de la muestra.
Para poder definir los estimadores de estas medidas consideremos un conjunto de n
datos de una variable que los identificaremos con: 𝑥 1 , 𝑥2 , … , 𝑥𝑛 .

Medidas de posición Para datos sin agrupar

Medidas de centralización (media, mediana, moda)

Las medidas de centralización más usadas son: la media, mediana, moda.

La media
Definimos la media del conjunto de datos como:
𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛 ∑𝑛𝑖=1 𝑥𝑖
𝑥=
̅ =
𝑛 𝑛
donde el símbolo 𝑥
̅ se lee como la media de la variable en la muestra.
Si existen datos de nuestro conjunto que se repiten podemos representarlos por medio

Mgter. Valeria Belmonte 20


Cátedra de Estadística. Fac. Agronomía UNLPam

frecuencias fi: es decir cada dato con su frecuencia: 𝑥1 con frecuencia 𝑓1 ; 𝑥2 con frecuencia
𝑓2 ; ...; 𝑥𝑘 con frecuencia 𝑓𝑘 (donde: 𝑓1 + 𝑓2 +. . . +𝑓𝑘 = 𝑛) y la media queda definida como:

𝑥1 × 𝑓1 + 𝑥2 × 𝑓2 + ⋯ + 𝑥𝑘 × 𝑓𝑘 ∑𝑘𝑖=1 𝑥𝑖 × 𝑓𝑖
̅=
𝑥 =
𝑛 𝑛

La media es la medida de centralización más usada, también conocida con el nombre de


promedio, punto medio o centro. Su popularidad se debe a que siempre se puede obtener de
manera sencilla. Es el centro de gravedad del conjunto de datos y es única. Pero tiene una
característica poco favorable, pues está afectada por valores extremos, esto es, si hay un valor
muy alejado del resto (un valor más grande o más pequeño que los demás) la media será
afectada para ese sentido.

Propiedades:
✓ Si se le suma una constante a cada elemento de la muestra, su media aumenta
en dicha constante.
✓ Si se multiplican cada elemento de la muestra por una constante, la media
queda multiplicada por dicha constante.

Ejemplo 11:
Consideremos el conjunto 6, 3, 9, 4 y 3, la media será:

6+3+9+4+3
𝑥̅ = =5
5

Ejemplo 12:
La tabla siguiente muestra la variable discreta X= “Número de hermanos” que
tienen 25 personas, debemos interpretar que 𝑥𝑖 = 0 indica que la cantidad de hermanos es 0
y en esta muestra hay dos personas que no tienen hermanos.
𝒙𝒊 0 1 2 3 4
𝒇𝒊 2 5 8 4 1

Mgter. Valeria Belmonte 21


Cátedra de Estadística. Fac. Agronomía UNLPam

la media queda determinada como:


∑𝑛𝑖=1 𝑥𝑖 × 𝑓𝑖 0×2+1×5+2×8+3×4+4×1
̅=
𝑥 = = 1.85
𝑛 20

La Mediana:

La mediana muestral es un valor que divide a la muestra ordenada (de menor a mayor o de
mayor a menor) en dos partes iguales. Se simboliza con 𝑥̃ (la variable 𝑥 con ~ sobre ella).
A diferencia de la media, esta medida de centralización no es afectada por valores muy bajos
o muy altos.

Para determinar la mediana se deben seguir los siguientes pasos:


1) Se ordenan los datos de menor a mayor (o de mayor a menor)
2) Se determina la posición de la mediana por medio de la fórmula:
𝑛+1
pos(𝑥̃) = , donde n es la cantidad de datos.
2

3) Se cuentan tantos datos como posiciones indica la fórmula. En esa posición


se encuentra la mediana.

Observación: Si el tamaño de la muestra es un número impar la mediana será un valor


de la muestra. Si el tamaño de la muestra es un número par, la mediana será un valor promedio
de dos elementos de la misma.

Ejemplo 13:
a) Sea 8; 1; 2, 1; 5; 3; 4 un conjunto de datos
Pasos para encontrar la mediana
1) los ordenamos
1; 1; 2; 3; 4; 5; 8
Tenemos un total de 𝑛 = 7 datos. Como es un número impar la mediana será
un número del conjunto de datos.
2) Determinamos la posición de la mediana. Como son siete datos, la posición de la
7+1
mediana es =4, por lo tanto, la mediana queda determinada como el dato que
2

Mgter. Valeria Belmonte 22


Cátedra de Estadística. Fac. Agronomía UNLPam

ocupa la cuarta posición.


3) Contamos tantas posiciones como dice la fórmula (cada es una posición):
1 1 2 3 4 5 8

𝑥̃=3
b) Dado otro conjunto de datos desordenados: 1; 6; 2; 12; 9; 4
Pasos para calcular la mediana
1) los ordenamos
1; 2; 4; 6; 9; 12
Tenemos un total de 𝑛 = 6 datos. Como es un número par puede ser que la mediana
no sea un número del conjunto de datos.
6+1
2) Calculamos la posición de la mediana, que para este caso es: = 3.5 . De esta
2

manera la mediana estará entre la posición 3 y 4 de los datos ordenados.


3) Contamos tantas posiciones como determinamos en el paso anterior, en este caso
3 y 4 (cada es una posición):

Posición 3 Posición 4

1 2 4 6 9 12

𝑥̃=5
La mediana es el promedio entre los valores que ocupan la posición 3 y 4, para
4+6
nuestro caso ( 2
= 5). Observamos que el número 5, aunque no esté presente en el conjunto

de datos, deja por debajo y por encima de él la misma cantidad de datos.


Calculemos la mediana del conjunto de datos del ejemplo 2, cuya variable es X:
“Número de hermanos”
xi fi
0 2

Mgter. Valeria Belmonte 23


Cátedra de Estadística. Fac. Agronomía UNLPam

1 5
2 8
3 4
4 1

1) Ordenamos los datos considerando su frecuencia correspondiente


0 0 1 1 1 1 1 2 2 2 2 2 2 2 2 3 3 3 3 4
Tenemos un total de 𝑛 = 20 datos. Como es un número par puede ocurrir que la mediana
no sea un número del conjunto de datos.
20+1
2) Calculamos la posición de la mediana, que para este caso es: = 10.5 . De
2

esta manera la mediana estará entre la posición 10 y 11 de los datos ordenados.


3) Contamos tantas posiciones como determinamos anteriormente, en este caso 10
y 11 (cada es una posición):

Posición 10 Posición 11

0 0 1 1 1 1 1 2 2 2 2 2 2 2 2 3 3 3 3 4

𝑥̃=2
La mediana es el promedio entre los valores que ocupan la posición 10 y 11, para
2 +2
nuestro caso es el mismo por la tanto la mediana es 2
= 2.

La Moda

La moda de un conjunto de datos se define como el valor para variables cuantitativas


o categoría para las variables categóricas que tiene mayor frecuencia. Se simboliza con, x̂
(la variable 𝑥 con ^ sobre ella). Sí dos valores tienen la frecuencia mayor igual decimos que
la muestra es bimodal o hay dos modas. Si son tres o más valores o categorías que tienen la
mayor frecuencia decimos que la muestra no tiene moda.

La moda es la única de las medidas de tendencia central que se puede determinar para datos

Mgter. Valeria Belmonte 24


Cátedra de Estadística. Fac. Agronomía UNLPam

cualitativos o categóricos.

Ejemplo 14:
Para el ejemplo 12 la moda es el 2 pues tiene la mayor frecuencia, en otras palabras,
la moda 2 nos dice que la mayoría de los encuestados tienen 2 hermanos.

La posición relativa de la media, mediana y moda, nos da una idea de la simetría de la


distribución. En el caso en que las tres coincidan, o que estén muy próximas una con otra, la
distribución es aproximadamente simétrica. En cambio, cuando estos tres valores no son iguales
y la mediana siempre se ubica entre las otras dos pueden darse dos casos:
a) Moda < Mediana < Media: se dice que los datos están sesgados a derecha.
b) Moda > Mediana > Media: se dice que los datos están sesgados a izquierda.

Otras medidas de posición

Cuartiles

Los cuartiles son 3 números (Q1, Q2, Q3) que dividen a la muestra ordenada en 4
partes iguales
DATOS ORDENADOS

25% 25% 25% 25%

MIN Q1 Q2 Q3 MAX

~
x
Lamentablemente en la bibliografía, como así también en los diferentes programas
estadísticos existen fórmulas para determinarlos que nos llevan a resultados diferentes. Aquí
adoptaremos el siguiente método. Determinaremos la mediana (que no es otra que el cuartil
2). Como la mediana separó en dos partes iguales la muestra, calcularemos en cada una de
ella nuevamente la mediana. La mediana de los datos que están debajo de la mediana el cuartil
1 (Q1). La mediana del conjunto de los datos más grandes es el cuartil 3 (Q3). Veámoslo a
partir del siguiente ejemplo:

Mgter. Valeria Belmonte 25


Cátedra de Estadística. Fac. Agronomía UNLPam

Ejemplo 15:
Consideremos los datos (ya ordenados de menor a mayor)
8; 8; 12; 15; 15; 15; 15; 21; 32; 43; 43
En total tenemos 11 datos. Determinamos la mediana por medio de su posición pos
𝑛+1 11+1
x = 2 =
~
2
=6

8; 8; 12; 15; 15; 15; 15; 21; 32; 43; 43


mediana
Tomamos los datos que están bajo la mediana y determinamos la mediana de éstos,
que será el cuartil 1
8; 8; 12; 15; 15

Q1=12
Tomamos los datos que están sobe la mediana y determinamos la mediana de éstos,
que será el cuartil 3
15; 21; 32; 43; 43

Q3

Deciles

Los deciles son 9 valores que dividen a la muestra en 10 parte iguales.

Centiles (O Percentiles)

Son valores que dividen en cien partes iguales al a muestra

Medidas De Posición para datos agrupados


Las definiciones y propiedades que poseen las medidas de centralización y posición
para datos agrupados son iguales a la de los datos sin agrupar, solo varía la manera de

Mgter. Valeria Belmonte 26


Cátedra de Estadística. Fac. Agronomía UNLPam

obtenerlas.

Medidas De Centralización

Media

∑𝑛𝑖=1(𝑥𝑖 × 𝑓𝑖 )
𝑥=
̅
𝑛
En este caso los 𝑥𝑖 son las marcas de clase y 𝑓𝑖 su correspondiente frecuencia. Cabe
destacar que la interpretación y propiedades son iguales a los datos a sin agrupar.

Mediana

Pasos para su determinación


1) Se determina la clase mediana que es intervalo (Li-LS] donde se encuentra la
mitad de los datos (n/2) utilizando la frecuencia acumulada F (en ese
intervalo de encuentra la mediana)
1) se determina la mediana según la fórmula:
𝑛
(2 − 𝐹𝑎𝑛𝑡 )
𝑥̃ = 𝐿𝑖 + ×𝐶
𝑓𝑚𝑒𝑑
donde
➢ Li es el límite inferior de la clase mediana
➢ n el tamaño de la muestra
➢ Fant: frecuencia acumulada de la clase anterior a la mediana
➢ Fed.: frecuencia absoluta de la clase mediana
➢ C: amplitud de la clase.
➢ La mediana se puede determinar gráficamente utilizando el gráfico de ojiva (ver
ejemplo)

Moda

Para su determinación el primer paso consiste en ubicar la clase modal que es la


clase que mayor frecuencia absoluta f tiene y se determina su valor por medio de la fórmula:
∆1
𝑥̂ = 𝐿𝑖 + ×𝐶
∆1 + ∆2

Mgter. Valeria Belmonte 27


Cátedra de Estadística. Fac. Agronomía UNLPam

➢ Li es el límite inferior de la clase modal


➢  1 =fmodal-fanterior

➢  2 =fmodal-fsiguiente
➢ C = amplitud de la clase

Observación: La moda se puede determinar gráficamente utilizando el histograma.

Otras Medidas De Posición

Cuartiles

Para calcular el i-ésimo cuartil, se establece la clase donde encuentran los (𝑛 × 𝑖 ⁄4)
datos y se determina el Qi la mediana según la fórmula:
𝑛×𝑖
( 4 − 𝐹𝑎𝑛𝑡 )
𝑄𝑖 = 𝐿𝑖 + ×𝐶
𝑓𝑄𝑖

Donde
➢ Li es el límite inferior de la clase del cuartil Qi
➢ n el tamaño de la muestra
➢ Fant : frecuencia acumulada de la clase anterior a la del cuartil
➢ 𝑓𝑄𝑖 frecuencia absoluta de la clase del cuartil
➢ C: amplitud de la clase

Ejemplo 16:
Calculemos las medidas de centralización para los 30 datos del peso de los zapallos
Media:𝑥̅ = 1.57
Mediana:

La mediana se encuentra en el intervalo (1.55; 1.70] y su valor es 𝑥̃ = 1.59


Moda:
La moda se encuentra en el intervalo (1.55; 1.70] y su valor es 𝑥̂ = 1.62

Mgter. Valeria Belmonte 28


Cátedra de Estadística. Fac. Agronomía UNLPam

Centiles o percentiles

Para calcular el i-ésimo percentil, se ubica la clase donde encuentran


los (𝑛 × 𝑖 ⁄100)datos, se determina el pi según la fórmula:
𝑛×𝑖
( 100 − 𝐹𝑎𝑛𝑡 )
𝑝𝑖 = 𝐿𝑖 + ×𝐶
𝑓𝑝𝑖

donde
➢ Li es el límite inferior de la clase del percentil
➢ n el tamaño de la muestra
➢ Fant: frecuencia acumulada de la clase anterior a la del percentil
➢ fp: frecuencia absoluta de la clase del percentil
➢ C: amplitud de la clase

Medidas De Dispersión
En general el conjunto de datos estadísticos de una muestra, posee valores diferentes y su
variación es de suma importancia en la estadística. Las medidas de dispersión cuantifican
esta variabilidad y nos informan cuán separados están los datos de las medidas de tendencia
central. En este apartado se presentarán sin discriminar entre datos sin agrupar o agrupados.
Para introducirnos en el tema consideremos dos muestras M1 y M2 conformadas con los
siguientes valores:

M1 20 100 0 60 70
M2 60 20 80 60 30

A través del diagrama observamos la distribución de los elementos del conjunto M1


(representadas por *) y M2 (representadas por º).

* * * * *
º º º º

Mgter. Valeria Belmonte 29


Cátedra de Estadística. Fac. Agronomía UNLPam

0 10 20 30 40 50 60 70 80 90 100

Si determinemos la media y la mediana de ambos conjuntos no observamos diferencias entre


las dos muestras:
𝑥̅ 𝑥̃
M1 50 60
M2 50 60

Pero si se puede observar en el diagrama que los datos de la M1 están más dispersos
(separados) que los de la M2. Para terminar de distinguir estos conjuntos de datos teniendo
en cuenta esta variación usaremos las medidas de dispersión. A continuación, definiremos
algunas de las más utilizadas

Rango o Amplitud

Se denomina Rango o Amplitud a la diferencia entre el valor máximo y mínimo del


conjunto de los datos.

Ejemplo 17:
Determinación del rango para la muestra M1yM2
Máximo Mínimo Rango
M1 100 0 100
M2 80 20 60

El rango sólo trabaja con valores extremos sin considerar los demás datos,
consideremos los datos de muestra M3 y M4 como se muestra continuación:

Datos X ~
X Rango

M3 0 5 5 5 10 5 5 10
M4 0 1 5 9 10 5 5 10

Mgter. Valeria Belmonte 30


Cátedra de Estadística. Fac. Agronomía UNLPam

La media, mediana y rango no logran diferenciar las muestras.

Para poder diferenciar las muestras, podríamos considerar como se aleja cada valor
de la media, encontrando la diferencia entre cada valor xi de la muestra con la media:

Esta diferencia es negativa si𝑥𝑖 < 𝑥̅


(𝑥𝑖 − 𝑥̅ )
Esta diferencia es positiva si 𝑥𝑖 > 𝑥̅

Si queremos trabajar con todos los datos podríamos sumar todas las
desviaciones:∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ ), pero esta suma es siempre nula para todo conjunto de datos,
pues:
∑𝑛
𝑖=1(𝑥𝑖 )
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ ) = ∑𝑛𝑖=1(𝑥𝑖 ) − ∑𝑛𝑖=1(𝑥̅ ) = ∑𝑛𝑖=1(𝑥𝑖 ) − 𝑛 × 𝑥̅ = ∑𝑛𝑖=1(𝑥𝑖 ) − 𝑛 × =
𝑛

= ∑𝑛𝑖=1(𝑥𝑖 ) − ∑𝑛𝑖=1(𝑥𝑖 ) = 0-

Para salvar esta dificultad podemos considerar la desviación absoluta para cada dato,
es decir, considerar la expresión |𝑥𝑖 − 𝑥̅ |, que toma todas las distancias positivas

Desviación absoluta
Se define como deviación absoluta a las sumas de las diferencias en valores
absolutos de cada dato con su media muestral:

∑|𝑥𝑖 − 𝑥̅ |.

Esta ecuación, lleva una multitud de dificultades teóricas, por lo tanto,


sustituiremos|𝑥𝑖 − 𝑥̅ | por (𝑥𝑖 − 𝑥̅ )2 , definiendo una nueva medida de dispersión
denominada varianza muestral

La Varianza Muestral

Mgter. Valeria Belmonte 31


Cátedra de Estadística. Fac. Agronomía UNLPam

La varianza muestral mide cuanto se alejan los datos de su media. Y se define como
la suma de las distancias al cuadrado de cada dato a la media, dividida por la cantidad de
datos menos uno
Definimos la varianza muestral:

∑𝑛 2
𝑖=1 (𝑥𝑖 −𝑥̅ ) ×𝑓𝑖
2
s=
𝑛−1

Para datos agrupados simplemente debemos tener en cuenta que 𝑥𝑖 es la marca de


clase y 𝑓𝑖 es la frecuencia absoluta

➢ Al tomar el cuadrado de las desviaciones tiene la desventaja de que las


desviaciones grandes afectan más al resultado.
➢ Las unidades de la varianza s2 no son las mismas que las de los datos
originales, pues están elevadas al cuadrado.
➢ La varianza es siempre positiva. Es nula cuando todos los valores son iguales.

Desvío Muestral

Para que la medida de dispersión tenga la misma unidad que la variable, a la


varianza se le obtiene la raíz cuadrada, consiguiendo una nueva medida de dispersión
∑𝑛 2
𝑖=1 (𝑥𝑖 −𝑥̅ ) ×𝑓𝑖
denominada Desvío estándar. Cuya fórmula es la siguiente.𝑠 = √ 𝑛−1

El desvío muestral, la medida de dispersión más utilizada pues sus unidades son
las mismas que de los elementos de la muestra y que la media.
Propiedades
➢ Si a los valores de la muestra de les suma la misma constante, la varianza y
la desviación no varían.
➢ Si los valores de la variable se los multiplica por una misma constante la

Mgter. Valeria Belmonte 32


Cátedra de Estadística. Fac. Agronomía UNLPam

varianza queda multiplicada por el cuadrado de dicha constante y la


desviación queda multiplicada por dicha constante.

Luego de introducir las medidas de centralización y dispersión agregaremos dos


nuevos conceptos muy importantes en la estadística y que utilizaremos a lo largo del libro:
Un Parámetro es una característica numérica o un valor que caracteriza a la variable
en la población (se representa con letras griegas).
Una Estimación a una característica numérica o valor que caracteriza a la variable
en la muestra (se representan con letras latinas).
Los parámetros en general no se conocen, por eso desde la estadística, tomando
muestras y calculando estimaciones logramos a tener un conocimiento de los parámetros en
la población.
Como ejemplo, podemos decir que 𝑥̅ y s representan la media y desvío estándar de la
muestra; Por otro lado, la letra griega  (mu) representa la media de la población y la letra
griega  (sigma) presenta el desvío estándar. ¡No se preocupen! ya definiremos que es la
media y el desvío.

Población ( parámetros: ;)

Muestra (estimaciones:𝑥̅ ,s)

Siguiendo con las definiciones, diremos que un estimador es una función que sirve
para encontrar estimaciones de parámetros desconocidos. Esto es, cuando a un estimador lo
remplazamos con valores puntuales obtenidos de una muestra tenemos una estimación.
En este capítulo las fórmulas que hemos presentado son los estimadores. Si los reemplazamos
por valores muestrales obtendremos la estimación correspondiente. Si lo reemplazamos por
todos los valores de la población logramos el parámetro. Éste es único; mientras que si
reemplazamos por los valores de una muestra obtendremos una estimación. Las estimaciones
para una medida de posición o dispersión irán cambiando de muestra en muestra.

Mgter. Valeria Belmonte 33


Cátedra de Estadística. Fac. Agronomía UNLPam

Coeficiente De Variación De Pearson

Un problema que plantea tanto la varianza como la desviación típica es la


dependencia de las unidades de medida de la variable. Para evitar este problema existe otro
coeficiente de dispersión, denominado coeficiente de Variación de Pearson y que se define
como:
𝑠
CV% = × 100
𝑥
̅
En caso que la media sea muy próxima a cero no debe usarse ya que el denominador
es muy pequeño y puede dar un grado erróneo de la dispersión. Este coeficiente es un
coeficiente de dispersión relativa pues no depende de las unidades en las que fueron medidos
los datos. Otorgándole la ventaja que sirve para comparar muestras donde la variable en
estudio, tiene distintas unidades. Por otro lado, cuando menor sea el coeficiente de variación,
menor será la de dispersión de los datos, por tanto, la media será más representativa. Es una
medida muy útil cuando se desea comparar dos muestras.

Ejemplo 19:
La Varianza desvío y coeficiente de variación para el ejemplo del peso del zapallo
son respectivamente: 𝑠 2 = 0.0459, 𝑠 = 0.214, 𝐶𝑉% = 13.65.

Como hemos introducido medidas que sirven para caracterizar una muestra estamos
en condiciones de introducir un nuevo gráfico

Gráfico caja y brazo (BOX AND PLOT)

Los gráficos caja y brazo tienen como objetivo mostrar las siguientes características
de la información:
✓ Centro de muestra
✓ La dispersión
✓ La naturaleza y magnitud de cualquier desvío

Mgter. Valeria Belmonte 34


Cátedra de Estadística. Fac. Agronomía UNLPam

En otras palabras este tipo de gráfico presenta al mismo tiempo, información sobre
la tendencia central, dispersión y simetría de los datos de estudio. Además, permite
identificar con claridad y de forma individual, observaciones que se alejan de manera poco
usual del resto de los datos. A estas observaciones se les conoce como valores atípicos.
Por su facilidad de construcción e interpretación, permite también comparar a la vez
varios grupos de datos sin perder información ni saturarse de ella. El nombre original del
gráfico introducido por J. Tukey en 1977 es Box and whiskerplot, es decir, diagrama de caja
y bigote. El gráfico consiste en un rectángulo (caja) de cuyos lados se derivan
respectivamente, dos segmentos (brazos). Cabe destacar que solo necesitamos el
conocimiento de 5 medidas para su construcción: los cuartiles, el máximo y mínimo.
Para lograr su representación los pasos a seguir son los siguientes:
1) Ordenar los datos de menor a mayor, determinando el valor mínimo y el máximo
2) Determinar la mediana, el Q1, Q3 y el rango intercuartílico (el rango intecuartílico
se define como RI=Q3-Q1).
3) Dibujar el eje horizontal (puede ser vertical).
4) Dibujar (sobre el eje horizontal, o sobre él) una un rectángulo cuyos laterales estén
determinados por Q1 y Q3 (por lo tanto el largo de la caja es el RI)
5) determinar 1.5 x RI.
6) Prolongar rectas desde casa extremo de la caja hasta las observaciones más lejanas
que estén todavía a menos de 1.5xRI.
7) Se dibuja con un círculo todos los puntos que se encuentran por fuera de 1.5xRI.
Estos puntos se denominan. Puntos anómalos.

Mgter. Valeria Belmonte 35


Cátedra de Estadística. Fac. Agronomía UNLPam

Figura 2. 3: Gráfico de Box-Plot

Observación: dentro del gráfico de caja y brazo se puede incluir la media de los
datos

Para interpretar un Box-Plot se debemos tener en cuenta:

Tamaño de la caja y brazos


Mientras más larga es la caja o los brazos, más dispersa es la distribución de datos.

Datos Dispersos Datos Pocos Dispersos


La distancia entre las cinco medidas explicadas en el box-Plot puede variar, sin
embargo, la cantidad de elementos entre una y otra es aproximadamente la misma. Entre el
límite inferior y Q1 hay igual cantidad de datos que de Q1 a la mediana, de ésta a Q3 y de Q3
al límite superior. Se considera aproximado porque pudiera haber valores atípicos, en cuyo
caso la cantidad de elementos se ve levemente modificada.
La ubicación de la caja
La ubicación de la caja indicará la simetría o asimetría del conjunto de datos de la
muestra como sigue:
Simétrica: en este tipo de distribuciones la media, la moda y la mediana coinciden los
datos se distribuyen de igual forma a ambos lados de estas medidas. Por lo tanto, la caja
estará centrada entre los brazos

Mgter. Valeria Belmonte 36


Cátedra de Estadística. Fac. Agronomía UNLPam

Asimétrica positiva o sesgada a la derecha: los datos tienden a concentrarse hacia la


parte inferior de la distribución y se extienden más hacia la derecha. La media suele ser mayor
que la mediana en estos casos. En el contexto, la caja estará en la parte izquierda del gráfico
y el brazo inferior será más corto que el superior

Asimétrica negativa o sesgada a la izquierda: los datos tienden a concentrarse hacia la


parte superior de la distribución y se extienden más hacia la izquierda. La media suele ser
menor que la mediana en estos casos. Por lo tanto, caja estará ubicada a la derecha del gráfico
y el brazo inferior será más largo que el inferior

Ejemplo 20:
Realizar un gráfico box-plot para el siguiente conjunto de datos que representan el
aumento de peso de ratones luego de la aplicación de una determinada dieta, los valores
(están expresados en gr.):
2.68 3.06 4.31 4.71 5.71 5.99 6.06 7.04 7.17 7.46 7.50
8.27 8.42 8.73 8.84 9.14 9.19 9.21 9.39 11.28 15.19 21.06

Mín=2.68 Rango intercuartilico =R1 =Q3-Q1=9.19-5.99= 3.2


Máx=21.06 1.5*RI= 4.8
Mediana: 7.885 Q3=9.19
Q1 =5.99

Mgter. Valeria Belmonte 37


Cátedra de Estadística. Fac. Agronomía UNLPam

Aumento de peso de ratones Aumento de peso de ratones

21.98

16.92

gramos
11.87

6.82

5 10 15 20
1.76
gramos

(a) (b)
Figura 2. 4: Gráfico de Box-Plot, para los datos del ejemplo 20 a).Gráfico del programa R. b) Gráfico
del programa Infostat
.

Mgter. Valeria Belmonte 38


Cátedra de Estadística. Fac. Agronomía UNLPam

INTRO

Mgter. Valeria Belmonte 39

También podría gustarte