Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Contenidos:
▪ ¿Qué es la estadística?
▪ Las dos grandes ramas de la estadística
▪ Estadística descriptiva
▪ Estadística inferencial
▪ Etapas de la tarea estadística
▪ Formulación del problema
▪ Recolección de datos
▪ Presentación de datos
▪ Análisis de datos
▪ Interpretación
▪ Presentación de datos
▪ Tablas
▪ Gráficos
1
Definiciones y conceptos fundamentales generales
¿Qué es la estadística?
Por ejemplo, supongamos que quisiera hacer un estudio respecto de las alturas de los
alumnos de un curso. En este caso se le preguntaría a cada uno de los alumnos cuánto
mide, se organizaría la información recogida y se haría el estudio deseado. Estaríamos
trabajando en el área de la estadística descriptiva.
Si ahora el estudio se quisiera hacer sobre las alturas de los alumnos de toda una
universidad, se podría generalizar la información obtenida anteriormente. Claramente
esta generalización podría ser errónea. Es necesario tener algunos recaudos para que
la generalización resulte lo más precisa posible. Este proceso no forma parte de este
curso.
2
5. Interpretación.
¿Qué? Variable
¿De quién? Población
3
Veremos algunos ejemplos de distintos tipos de variables.
Este ejemplo nos muestra que no hay que confundir que la variable pueda o no tomar
valores enteros con el hecho de que sea o no discreta.
Por ejemplo, si se quisiera realizar un estudio acerca de los ingresos mensuales de los
habitantes de entre 18 y 65 años de la Ciudad Autónoma de Buenos Aires, la población
bajo estudio es el conjunto de todos los habitantes de entre 18 y 65 años de la Ciudad
Autónoma de Buenos Aires.
Una característica que debe tener la población es que debe estar bien definida, esto
significa que debe poder precisarse con certeza si un individuo pertenece o no al grupo
de estudio. Por ejemplo, una población bien definida puede ser “alumnos del curso
1254 que tienen más de 18 años”. Con preguntarle a una persona cualquiera si es un
alumno del curso 1254 y si es mayor a 18 años, se puede asegurar sin posibilidad de
error si esa persona pertenece o no a la población. Una población mal definida puede
ser “alumnos del curso 1254 que son altos”. La característica de ser “alto” es subjetiva
4
y, por lo tanto, una persona puede considerar que un individuo pertenece a la
población y otra puede considerar que no pertenece.
2. Recolección de datos
Entre las herramientas que se pueden utilizar para la recolección, se pueden citar:
observación, encuestas, censos, cuestionarios, etc. Para recolectar buenos datos es
necesario trabajar sobre una muestra representativa, lo que no siempre es fácil de
determinar.
Cuando se trabaja con una población muy grande o infinita, no se puede tomar
información de cada uno de sus individuos, ya que el trabajo sería muy costoso y
demandaría demasiado tiempo. Por ese motivo, se trabaja sobre un subgrupo de la
población que es el que se denomina muestra. Una muestra debe ser:
◼ Homogénea (debe ser extraída de la misma población).
◼ Independiente, es decir, cada observación no debe estar condicionada por
otra.
◼ Representativa de la población, esto significa que debe tener las mismas
características y en las mismas proporciones. Por ejemplo, si se quisiera
realizar un estudio acerca de los ingresos mensuales de los habitantes de entre
18 y 65 años de la Ciudad Autónoma de Buenos Aires, no le preguntaremos a
cada uno de los individuos de la población cuáles son sus ingresos, pues
después de terminar la tarea habremos invertido mucho dinero y habrá
pasado tanto tiempo que las conclusiones que obtengamos no nos servirán.
Tendremos que extraer una muestra, pero si tomáramos solo individuos de un
barrio de clase media alta para hacer el trabajo, los resultados obtenidos no
servirían para saber cuáles son las características de toda la población.
5
◼ Muestra aleatoria simple. Se asigna un número a cada elemento de la
población y, con un generador de números aleatorios, se elige a los
integrantes de la muestra.
◼ Muestra sistemática: se elige un elemento inicial de manera aleatoria, y
a partir de él cada k-esimo elemento. Donde k es N/n.
◼ Muestra aleatoria estratificada: se divide a la población en grupos
(estratos, por ejemplo, estado civil, lugar de residencia). Dentro de cada
estrato se obtienen muestras de tamaño fijo en forma aleatoria.
◼ Por conglomerados: se divide a la población por conglomerados (área
geográfica, departamentos universitarios, etc.). Se elige un
conglomerado y se utilizan todos sus elementos.
◼ No probabilístico. No asegura que todos los individuos tengan la misma
probabilidad de ser elegidos.
◼ Muestra de juicio: los miembros de la muestra se eligen solo sobre la
base del conocimiento y el juicio del investigador.
◼ Bola de nieve: se localiza a ciertos individuos que conducen a otros, y así
sucesivamente hasta alcanzar el tamaño de la muestra.
◼ Discrecional: a criterio del investigador.
4. Análisis de datos
5. Interpretación
Esta etapa de la tarea es la que nos permitirá sacar conclusiones a partir del análisis
realizado. La interpretación se desarrollará con detalle en las UVA 2 y 3.
Tablas
Las tablas se utilizan para hacer una presentación ordenada de los datos obtenidos.
Toda tabla debe tener los siguientes elementos:
◼ Título: debe ser lo suficientemente claro como para que se entienda la
información resumida en dicha tabla.
◼ Cuerpo propiamente dicho.
◼ Fuente: Indica la procedencia de los datos.
6
También puede tener notas al pie que contienen aclaraciones respecto de los datos.
Por ejemplo, si se sabe que de 500 personas encuestada 180 son mujeres que trabajan
fuera del hogar, 250 son hombres que trabajan fuera del hogar, 50 hombres que no
trabajan fuera del hogar y 20 mujeres que no trabajan fuera del hogar, podemos
observar que las variables de estudio son: el sexo y el hecho de trabajar o no en el
hogar. En este caso, podríamos armar una tabla que resuma esta información de la
siguiente manera:
Hombre Mujer
Trabaja fuera del hogar 250 180
No trabaja fuera del hogar 50 20
Fuente: Encuesta de hogares
Queda claro de esta forma que, de las 500 personas encuestadas, 300 resultaron
hombres y 200 mujeres, 430 trabajan fuera del hogar y 70 no lo hacen.
El casillero inferior derecho, 500, deberá resultar una vez completada la tabla. Este es
el número total de elementos de la muestra o población de la que se extrajeron los
datos.
7
◼ Distribuciones de frecuencia
◼ Variable cualitativa
LUGAR DE VACACIONES f
Pinamar 12
Mar del Plata 43
Cariló 15
San Bernardo 17
Miramar 13
𝑛 100
Esta es una distribución básica, pero se pueden agregar algunas columnas que nos
servirán para tener más información.
𝑓
La frecuencia relativa es 𝑓𝑟 = 𝑛
Resulta:
LUGAR DE VACACIONES f fr
Pinamar 12 0,12
Mar del Plata 43 0,43
Cariló 15 0,15
San Bernardo 17 0,17
Miramar 13 0,13
𝑛 100 1
8
El 17 % de los encuestados prefiere vacacionar en San Bernardo.
13% 12%
17%
43%
15%
Del mismo gráfico se desprende, por ejemplo, que el 13% de las personas encuestadas
elige Miramar como lugar de vacaciones.
Gráfico de barras
Los datos del mismo ejemplo anterior se grafican mediante un gráfico de barras de la
siguiente manera:
9
◼ Variable cuantitativa
2 3 6 1 2 4 3 5 2 4
2 2 4 3 4 4 7 6 5 6
3 3 4 7 6 5 3 1 2 1
4 2 4 3 2 4 4 3 5 3
4 2 3 2 1 3 1 1 3 5
Como primer paso observamos cuáles son los valores que puede asumir la variable y
los disponemos en una primera columna.
2 3 6 1 2 4 3 5 2 4
2 2 4 3 4 4 7 6 5 6
3 3 4 7 6 5 3 1 2 1
4 2 4 3 2 4 4 3 5 3
4 2 3 2 1 3 1 1 3 5
10
𝑥: cantidad de personas 𝑓
que viven en una casa
1 6
2 10
3 12
4 11
5 5
6 4
7 2
50
𝑥: cantidad de personas 𝑓 𝑓𝑟
que viven en una casa
1 6 0,12
2 10 0,2
3 12 0,24
4 11 0,22
5 5 0,1
6 4 0,08
7 2 0,04
50 1
Como la variable es cuantitativa, podemos agregar una nueva columna con lo que se
conoce como frecuencia acumulada. Para calcular el valor de la frecuencia acumulada
de cada renglón, se deberá ir sumando a cada valor la frecuencia siguiente.
𝑥: cantidad de personas 𝑓 𝑓𝑟 𝐹
que viven en una casa
1 6 0,12 6
2 10 0,2 6+10=16
3 12 0,24 16+12=28
4 11 0,22 39
5 5 0,1 44
6 4 0,08 48
7 2 0,04 50
50 1
11
¿Para qué sirve la frecuencia acumulada?
𝑥: cantidad de personas 𝑓 𝑓𝑟 𝐹
que viven en una casa
1 6 0,12 6
2 10 0,2 16
3 12 0,24 28
4 11 0,22 39
5 5 0,1 44
6 4 0,08 48
7 2 0,04 50
50 1
Gráfico de bastones
Para realizar un gráfico de bastones debemos dibujar dos ejes: uno horizontal en el
que representaremos los posibles valores que toma la variable, y otro vertical en el
que representaremos la frecuencia asociada a cada valor de la variable.
Una vez marcados los posibles valores de la variable en el eje horizontal, trazaremos
bastones que tengan por altura la frecuencia correspondiente a cada valor.
Supongamos ahora que trabajáramos con una variable cuantitativa continua o con una
variable cuantitativa discreta que asume “muchos” valores diferentes.
12
Por ejemplo, supongamos que se realizó una encuesta en una muestra de 60 personas,
en la que se preguntó cuál era su altura en metros, y que las respuestas fueran:
1,51 1,68 1,84 1,67 1,65 1,71 1,70 1,69 1,70 1,63
1,50 1,58 1,64 1,63 1,82 1,88 1,65 1,72 1,64 1,55
1,66 1,68 1,69 1,76 1,74 1,73 1,82 1,83 1,64 1,73
1,68 1,56 1,52 1,60 1,57 1,76 1,63 1,68 1,82 1,69
1,67 1,56 1,84 1,89 1,84 1,68 1,63 1,64 1,69 1,58
1,53 1,69 1,58 1,69 1,55 1,54 1,86 1,87 1,76 1,68
Como se observa, los datos no solo corresponden a una variable cuantitativa continua,
sino que, además, asume muchos diferentes valores. En estos casos es necesario
agruparlos en intervalos.
Para determinar cuántas clases armar, se suelen observar los siguientes criterios:
• No hacer menos de 4 clases ni más de 20.
• La cantidad de clases debe ser un valor cercano a √𝑛 o √𝑁 según se trabaje con
una muestra o con la población de estudio. En adelante, salvo que se aclare,
supondremos que trabajamos sobre una muestra.
• La amplitud de cada intervalo o clase debe ser un valor aproximado a
𝑥𝑚á𝑥𝑖𝑚𝑜 −𝑥𝑚í𝑛𝑖𝑚𝑜
donde 𝑥𝑚á𝑥𝑖𝑚𝑜 es el mayor valor observado en el conjunto de
𝑛
√
datos y xmínimo es el menor valor observado en el conjunto de datos.
𝑥𝑚á𝑥𝑖𝑚𝑜 −𝑥𝑚í𝑛𝑖𝑚𝑜
Resultando 0,049 m
√𝑛
podríamos considerar 8 clases con una amplitud de 0,05 m cada una:
El menor valor de cada intervalo se denomina límite inferior del intervalo y el mayor
valor de cada intervalo se denomina límite superior del intervalo.
Así, en la primera clase, el límite inferior es 1,50 m y el límite superior es 1,55 m.
En nuestro ejemplo, el valor 1,55 lo contamos como uno de los elementos del intervalo
1,55 a 1,60.
13
La tabla completa quedaría de la siguiente forma:
Clase 𝑓 𝐹
1,50 a 1,55 5 5
1,55 a 1,60 8 13
1,60 a 1,65 9 21
1,65 a 1,70 17 39
1,70 a 1,75 7 46
1,75 a 1,80 3 49
1,80 a 1,85 7 56
1,85 a 1,90 4 60
n = 60
Histograma
Consiste en graficar barras del ancho de cada intervalo que tengan, en cada caso, por
altura, la frecuencia del intervalo.
Polígono de Frecuencias
Consiste en unir puntos que tienen, por primera coordenada, a cada punto medio de
los intervalos y, por segunda coordenada, la frecuencia del intervalo. Dichos puntos se
unen con una poligonal, y se cierra el polígono sobre el eje horizontal al punto medio
de un hipotético intervalo anterior al primero y posterior al último.
14
Ojiva
Se utiliza para graficar las frecuencias acumuladas a través de una poligonal que
comienza sobre el eje horizontal a la altura que comienza la primera clase y, en cada
intervalo, asciende tanto como su correspondiente frecuencia.
15
SÍNTESIS - RED CONCEPTUAL
16