Está en la página 1de 16

Definiciones y conceptos fundamentales generales

Autoras: Díaz, Elsa Eugenia; Patrignani, Analía Martha

Contenidos:
▪ ¿Qué es la estadística?
▪ Las dos grandes ramas de la estadística
▪ Estadística descriptiva
▪ Estadística inferencial
▪ Etapas de la tarea estadística
▪ Formulación del problema
▪ Recolección de datos
▪ Presentación de datos
▪ Análisis de datos
▪ Interpretación
▪ Presentación de datos
▪ Tablas
▪ Gráficos

1
Definiciones y conceptos fundamentales generales

¿Qué es la estadística?

Para comenzar, vamos a definir lo que es la estadística. Existen diferentes definiciones,


entre las que podemos incluir:

◼ La estadística es la ciencia que se ocupa de la recolección, presentación y


análisis de datos que llevan a la generalización de las conclusiones obtenidas y
a la toma de decisiones.

◼ La estadística es la ciencia que se ocupa de estudiar los fenómenos aleatorios,


es decir, aquellos de los cuales no se puede predecir el resultado.

Incluye procesos de resolución de problemas, recopilación de datos, descripción de


dichos datos y su análisis a partir de resultados numéricos.

Las dos grandes ramas de la estadística

La Estadística se divide en dos ramas:

◼ Estadística descriptiva: es la rama que comprende la recolección de datos, su


presentación a través de tablas o gráficos y el análisis de dichos datos.

◼ Estadística inferencial: comprende la generalización con base en los resultados


obtenidos de información parcial.

Por ejemplo, supongamos que quisiera hacer un estudio respecto de las alturas de los
alumnos de un curso. En este caso se le preguntaría a cada uno de los alumnos cuánto
mide, se organizaría la información recogida y se haría el estudio deseado. Estaríamos
trabajando en el área de la estadística descriptiva.
Si ahora el estudio se quisiera hacer sobre las alturas de los alumnos de toda una
universidad, se podría generalizar la información obtenida anteriormente. Claramente
esta generalización podría ser errónea. Es necesario tener algunos recaudos para que
la generalización resulte lo más precisa posible. Este proceso no forma parte de este
curso.

Etapas de la tarea estadística

La tarea de un trabajo estadístico comprende las siguientes etapas:

1. Formulación del problema.


2. Recolección de datos.
3. Presentación de dichos datos.
4. Análisis de datos.

2
5. Interpretación.

1. Formulación del problema

Nos preguntamos ¿qué queremos saber y de qué o quién?

Por ejemplo, si queremos hacer un estudio sobre la altura de los alumnos de la


universidad:
¿Qué queremos conocer? La altura.
¿De quién lo queremos conocer? De los alumnos de la universidad.
Estas dos preguntas nos llevan a definir dos conceptos fundamentales que vamos a
utilizar.

¿Qué? Variable
¿De quién? Población

Variable: llamaremos variable a cualquier característica observable de una entidad


dada. Es cualquier atributo, propiedad u opinión.

En general, a las variables las llamaremos 𝑥, 𝑦, 𝑧, etc.

Hay distintos tipos de variables:

◼ Variable cualitativa: es aquella que no es medible, dado que es un


atributo. Por ejemplo: el sexo, la etnia, la marca de jabón en polvo que consume
una persona, la nacionalidad, entre otros.
◼ Variable cualitativa nominal: no es posible asignar un orden a las
categorías. Por ejemplo: color de los lápices, nacionalidad, etc.
◼ Variable cualitativa ordinal: posee una posición o clasificación
ordenada. Por ejemplo: nivel de satisfacción con un producto, puesto
dentro de una empresa, etc.

◼ Variable cuantitativa: es aquella que se puede medir. Puede haber de


dos tipos:

◼ Variable cuantitativa discreta: es aquella para la cual, entre dos valores


cualesquiera que puede tomar la variable, existe una cantidad finita de
posibles valores intermedio. Intuitivamente toma valores aislados a lo
largo de un intervalo de recta. Ejemplo: cantidad de hijos, cantidad de
diarios repartidos, etc.
◼ Variable cuantitativa continua: es aquella para la cual, entre dos
valores cualesquiera que puede tomar la variable existe una cantidad
infinita de posibles valores intermedios. Intuitivamente puede tomar
cualquier valor a lo largo de un intervalo de la recta. Por ejemplo: peso
de un objeto, altura, distancia, etc.

3
Veremos algunos ejemplos de distintos tipos de variables.

1. Supongamos la variable 𝑥: cantidad de hijos de las parejas de la ciudad de Córdoba;


sabemos que es cuantitativa. Para determinar si es discreta o continua pensamos
en dos posibles valores que pueda tomar la variable, por ejemplo, 2 y 6. Entre estos
dos valores la variable solo puede tomar los valores 3, 4 y 5. Quiere decir que hay
tres posibles valores intermedios, no infinitos. Por lo tanto, la variable es
cuantitativa discreta.
2. Supongamos la variable 𝑥: nacionalidad. Es una variable no numérica, por lo tanto,
es cualitativa y, en este caso, nominal.
3. Supongamos la variable 𝑥: altura de las personas que asisten a una universidad.
Sabemos que es cuantitativa. Para determinar si es discreta o continua pensamos
en dos posibles valores que pueda tomar la variable, por ejemplo, 1,67 y 1,84.
Entre estos dos valores, la variable puede tomar infinitos valores intermedios (aun
cuando no los podamos medir). Por lo tanto, la variable es cuantitativa continua.
4. Supongamos la variable 𝑥: cargos de los empleados de una compañía. Es una
variable no numérica, por lo tanto, es cualitativa y, en este caso, ordinal.
5. Supongamos la variable 𝑥: costo diario en un estacionamiento de una ciudad de
Estados Unidos, que cobra $2 por hora y fracción de $0,25 cada 10 minutos.
Sabemos que es cuantitativa. Para determinar si es discreta o continua pensamos
en dos posibles valores que pueda tomar la variable, por ejemplo, $2,25 y $3,75.
Entre estos dos valores, la variable solo puede tomar los valores $2,5; $2,75; $3;
$3,25 y $3,5. Quiere decir que hay cinco posibles valores intermedios. Por lo tanto,
la variable es cuantitativa discreta.

Este ejemplo nos muestra que no hay que confundir que la variable pueda o no tomar
valores enteros con el hecho de que sea o no discreta.

Población: es el conjunto de todos los sujetos bajo estudio.

Por ejemplo, si se quisiera realizar un estudio acerca de los ingresos mensuales de los
habitantes de entre 18 y 65 años de la Ciudad Autónoma de Buenos Aires, la población
bajo estudio es el conjunto de todos los habitantes de entre 18 y 65 años de la Ciudad
Autónoma de Buenos Aires.

Una característica que debe tener la población es que debe estar bien definida, esto
significa que debe poder precisarse con certeza si un individuo pertenece o no al grupo
de estudio. Por ejemplo, una población bien definida puede ser “alumnos del curso
1254 que tienen más de 18 años”. Con preguntarle a una persona cualquiera si es un
alumno del curso 1254 y si es mayor a 18 años, se puede asegurar sin posibilidad de
error si esa persona pertenece o no a la población. Una población mal definida puede
ser “alumnos del curso 1254 que son altos”. La característica de ser “alto” es subjetiva

4
y, por lo tanto, una persona puede considerar que un individuo pertenece a la
población y otra puede considerar que no pertenece.

Vale la pena aclarar que al referirnos al término “población” no nos referimos


necesariamente a un conjunto de personas con una determinada característica. Una
población puede ser un conjunto de clavos defectuosos que se producen en una
determinada fábrica, o el conjunto de perros que viven en casas de familia.
Notaremos con “N” a la cantidad de elementos de una población.

2. Recolección de datos

La recolección de datos consiste en su obtención a través de diferentes herramientas.


Abarca el conteo de, por ejemplo, la cantidad de personas que tienen tres hijos, la
cantidad de fallas de un artefacto, la cantidad de alumnos aprobados, etc.
Para recopilar datos es fundamental haber definido bien el problema de estudio, para
tener en claro cuál es la información que se desea obtener.

Entre las herramientas que se pueden utilizar para la recolección, se pueden citar:
observación, encuestas, censos, cuestionarios, etc. Para recolectar buenos datos es
necesario trabajar sobre una muestra representativa, lo que no siempre es fácil de
determinar.

Muestra: es un subconjunto de la población.

Cuando se trabaja con una población muy grande o infinita, no se puede tomar
información de cada uno de sus individuos, ya que el trabajo sería muy costoso y
demandaría demasiado tiempo. Por ese motivo, se trabaja sobre un subgrupo de la
población que es el que se denomina muestra. Una muestra debe ser:
◼ Homogénea (debe ser extraída de la misma población).
◼ Independiente, es decir, cada observación no debe estar condicionada por
otra.
◼ Representativa de la población, esto significa que debe tener las mismas
características y en las mismas proporciones. Por ejemplo, si se quisiera
realizar un estudio acerca de los ingresos mensuales de los habitantes de entre
18 y 65 años de la Ciudad Autónoma de Buenos Aires, no le preguntaremos a
cada uno de los individuos de la población cuáles son sus ingresos, pues
después de terminar la tarea habremos invertido mucho dinero y habrá
pasado tanto tiempo que las conclusiones que obtengamos no nos servirán.
Tendremos que extraer una muestra, pero si tomáramos solo individuos de un
barrio de clase media alta para hacer el trabajo, los resultados obtenidos no
servirían para saber cuáles son las características de toda la población.

Notaremos con “n” a la cantidad de elementos de una muestra.

Existen diferentes métodos para seleccionar una muestra:


◼ Probabilísticos: son los que se basan en el principio de que todos los individuos
tienen la misma probabilidad de ser seleccionados.

5
◼ Muestra aleatoria simple. Se asigna un número a cada elemento de la
población y, con un generador de números aleatorios, se elige a los
integrantes de la muestra.
◼ Muestra sistemática: se elige un elemento inicial de manera aleatoria, y
a partir de él cada k-esimo elemento. Donde k es N/n.
◼ Muestra aleatoria estratificada: se divide a la población en grupos
(estratos, por ejemplo, estado civil, lugar de residencia). Dentro de cada
estrato se obtienen muestras de tamaño fijo en forma aleatoria.
◼ Por conglomerados: se divide a la población por conglomerados (área
geográfica, departamentos universitarios, etc.). Se elige un
conglomerado y se utilizan todos sus elementos.
◼ No probabilístico. No asegura que todos los individuos tengan la misma
probabilidad de ser elegidos.
◼ Muestra de juicio: los miembros de la muestra se eligen solo sobre la
base del conocimiento y el juicio del investigador.
◼ Bola de nieve: se localiza a ciertos individuos que conducen a otros, y así
sucesivamente hasta alcanzar el tamaño de la muestra.
◼ Discrecional: a criterio del investigador.

3. Presentación de dichos datos

La presentación de datos tiene por objeto la síntesis de toda la información de forma


clara y de manera tal que simplifique la totalidad de datos obtenidos. Las herramientas
que se utilizan para presentar los datos son las tablas o cuadros y los gráficos.

4. Análisis de datos

El análisis de los datos es el proceso a través del cual se obtendrá información


numérica acerca de los datos obtenidos. Esta etapa se desarrollará con detalle en las
UVA 2 y 3.

5. Interpretación

Esta etapa de la tarea es la que nos permitirá sacar conclusiones a partir del análisis
realizado. La interpretación se desarrollará con detalle en las UVA 2 y 3.

Presentación de datos: tablas y gráficos

Tablas

Las tablas se utilizan para hacer una presentación ordenada de los datos obtenidos.
Toda tabla debe tener los siguientes elementos:
◼ Título: debe ser lo suficientemente claro como para que se entienda la
información resumida en dicha tabla.
◼ Cuerpo propiamente dicho.
◼ Fuente: Indica la procedencia de los datos.

6
También puede tener notas al pie que contienen aclaraciones respecto de los datos.

Básicamente, las tablas, pueden ser de dos tipos:

• Tablas de doble entrada: este tipo de tablas se utiliza cuando la información


obtenida se refiere a dos variables.

Por ejemplo, si se sabe que de 500 personas encuestada 180 son mujeres que trabajan
fuera del hogar, 250 son hombres que trabajan fuera del hogar, 50 hombres que no
trabajan fuera del hogar y 20 mujeres que no trabajan fuera del hogar, podemos
observar que las variables de estudio son: el sexo y el hecho de trabajar o no en el
hogar. En este caso, podríamos armar una tabla que resuma esta información de la
siguiente manera:

Cantidad de hombres y mujeres que


trabajan o no fuera del hogar

Hombre Mujer
Trabaja fuera del hogar 250 180
No trabaja fuera del hogar 50 20
Fuente: Encuesta de hogares

Generalmente resulta útil disponer de más información que, aunque no se presente de


manera explícita, se puede obtener a partir de los datos obtenidos. Por ejemplo,
podría resultar útil saber cuál es el número total de encuestados que resultaron ser
hombres o cuál es el número total de encuestados que trabaja fuera del hogar. Por
este motivo, la tabla se puede completar de la siguiente manera.

Cantidad de hombres y mujeres que


trabajan o no fuera del hogar

Hombre Mujer Total


Trabaja fuera del hogar 250 180 430
No trabaja fuera del hogar 50 20 70
Total 300 200 500

Queda claro de esta forma que, de las 500 personas encuestadas, 300 resultaron
hombres y 200 mujeres, 430 trabajan fuera del hogar y 70 no lo hacen.

El casillero inferior derecho, 500, deberá resultar una vez completada la tabla. Este es
el número total de elementos de la muestra o población de la que se extrajeron los
datos.

7
◼ Distribuciones de frecuencia

Llamaremos frecuencia de un determinado valor de variable a la cantidad de veces


que se observó dicho valor de variable en la muestra o población con la que se esté
trabajando.

Veremos cómo se construye una distribución de frecuencias para diferentes tipos de


variables. En principio, a cada respuesta obtenida se le asigna su frecuencia, es decir, la
cantidad de veces que se dio esa respuesta u observación. Una vez que tengamos
dichas distribuciones propondremos algunas opciones para graficar en cada uno de
esos casos.

◼ Variable cualitativa

Supongamos el siguiente ejemplo: se realizó una encuesta en la que se preguntó a un


grupo de 100 personas cuál era su lugar preferido para tomar vacaciones. Las
respuestas se muestran en la siguiente tabla:

LUGAR DE VACACIONES f
Pinamar 12
Mar del Plata 43
Cariló 15
San Bernardo 17
Miramar 13
𝑛 100

Esta es una distribución básica, pero se pueden agregar algunas columnas que nos
servirán para tener más información.

En este caso, podemos calcular las frecuencias relativas.

𝑓
La frecuencia relativa es 𝑓𝑟 = 𝑛

Resulta:
LUGAR DE VACACIONES f fr
Pinamar 12 0,12
Mar del Plata 43 0,43
Cariló 15 0,15
San Bernardo 17 0,17
Miramar 13 0,13
𝑛 100 1

¿Para qué sirve la frecuencia relativa?


Se puede utilizar para calcular porcentajes, por ejemplo:

El 43 % de los encuestados prefiere vacacionar en Mar del Plata.

8
El 17 % de los encuestados prefiere vacacionar en San Bernardo.

Gráfico de sectores circulares

La ventaja de este tipo de gráfico es que permite visualizar la parte porcentual de


datos que pertenezcan a una cierta categoría como una parte proporcional del todo.
El gráfico de sectores circulares correspondiente es:

13% 12%
17%

43%
15%

Pinamar Mar del Plata Cariló San Bernardo Miramar

Del mismo gráfico se desprende, por ejemplo, que el 13% de las personas encuestadas
elige Miramar como lugar de vacaciones.

Gráfico de barras

En un gráfico de barras, se observa la cantidad de datos de cada categoría a partir de


rectángulos de igual base y altura proporcional.

Los datos del mismo ejemplo anterior se grafican mediante un gráfico de barras de la
siguiente manera:

Lugar preferido para vacacionar


50
40
30
20
10
0
1

Pinamar Mar del Plata Cariló San Bernardo Miramar

9
◼ Variable cuantitativa

• Datos no agrupados (variable cuantitativa discreta)

Supongamos que se realizó una encuesta en la que se preguntó a un grupo de 50


personas cuántas de ellas vivía en su hogar. Las respuestas fueron las siguientes:

2 3 6 1 2 4 3 5 2 4
2 2 4 3 4 4 7 6 5 6
3 3 4 7 6 5 3 1 2 1
4 2 4 3 2 4 4 3 5 3
4 2 3 2 1 3 1 1 3 5

La variable observada es 𝑥: cantidad de personas que viven en la casa. Se trata de una


variable cuantitativa discreta. Como se puede observar, hay valores de la variable que
se repiten muchas veces, por lo que los datos se pueden organizar a través de una
tabla:

Como primer paso observamos cuáles son los valores que puede asumir la variable y
los disponemos en una primera columna.

𝑥: cantidad de personas 𝑓: frecuencia.


que viven en una casa
1
2
3
4
5
6
7

Contamos la cantidad de veces que aparece el valor “1” de la variable.

2 3 6 1 2 4 3 5 2 4
2 2 4 3 4 4 7 6 5 6
3 3 4 7 6 5 3 1 2 1
4 2 4 3 2 4 4 3 5 3
4 2 3 2 1 3 1 1 3 5

De igual modo procedemos con los otros valores de la variable, resultando:

10
𝑥: cantidad de personas 𝑓
que viven en una casa
1 6
2 10
3 12
4 11
5 5
6 4
7 2
50

Por supuesto, si sumamos todos los valores de frecuencia, el resultado es el total de


individuos observados.

𝑥: cantidad de personas 𝑓 𝑓𝑟
que viven en una casa
1 6 0,12
2 10 0,2
3 12 0,24
4 11 0,22
5 5 0,1
6 4 0,08
7 2 0,04
50 1

Como la variable es cuantitativa, podemos agregar una nueva columna con lo que se
conoce como frecuencia acumulada. Para calcular el valor de la frecuencia acumulada
de cada renglón, se deberá ir sumando a cada valor la frecuencia siguiente.

𝑥: cantidad de personas 𝑓 𝑓𝑟 𝐹
que viven en una casa
1 6 0,12 6
2 10 0,2 6+10=16
3 12 0,24 16+12=28
4 11 0,22 39
5 5 0,1 44
6 4 0,08 48
7 2 0,04 50
50 1

11
¿Para qué sirve la frecuencia acumulada?

𝑥: cantidad de personas 𝑓 𝑓𝑟 𝐹
que viven en una casa
1 6 0,12 6
2 10 0,2 16
3 12 0,24 28
4 11 0,22 39
5 5 0,1 44
6 4 0,08 48
7 2 0,04 50
50 1

28 encuestados manifestaron que en su casa viven 3 personas o menos.


48 encuestados manifestaron que en su casa viven 6 personas o menos.

Gráfico de bastones

Para realizar un gráfico de bastones debemos dibujar dos ejes: uno horizontal en el
que representaremos los posibles valores que toma la variable, y otro vertical en el
que representaremos la frecuencia asociada a cada valor de la variable.

Una vez marcados los posibles valores de la variable en el eje horizontal, trazaremos
bastones que tengan por altura la frecuencia correspondiente a cada valor.

• Datos agrupados (variable cuantitativa continua)

Supongamos ahora que trabajáramos con una variable cuantitativa continua o con una
variable cuantitativa discreta que asume “muchos” valores diferentes.

12
Por ejemplo, supongamos que se realizó una encuesta en una muestra de 60 personas,
en la que se preguntó cuál era su altura en metros, y que las respuestas fueran:
1,51 1,68 1,84 1,67 1,65 1,71 1,70 1,69 1,70 1,63
1,50 1,58 1,64 1,63 1,82 1,88 1,65 1,72 1,64 1,55
1,66 1,68 1,69 1,76 1,74 1,73 1,82 1,83 1,64 1,73
1,68 1,56 1,52 1,60 1,57 1,76 1,63 1,68 1,82 1,69
1,67 1,56 1,84 1,89 1,84 1,68 1,63 1,64 1,69 1,58
1,53 1,69 1,58 1,69 1,55 1,54 1,86 1,87 1,76 1,68

Como se observa, los datos no solo corresponden a una variable cuantitativa continua,
sino que, además, asume muchos diferentes valores. En estos casos es necesario
agruparlos en intervalos.

De esta forma, en la primera columna de la tabla no pondremos valores puntuales de


la variable, sino intervalos que llamaremos clases.

Para determinar cuántas clases armar, se suelen observar los siguientes criterios:
• No hacer menos de 4 clases ni más de 20.
• La cantidad de clases debe ser un valor cercano a √𝑛 o √𝑁 según se trabaje con
una muestra o con la población de estudio. En adelante, salvo que se aclare,
supondremos que trabajamos sobre una muestra.
• La amplitud de cada intervalo o clase debe ser un valor aproximado a
𝑥𝑚á𝑥𝑖𝑚𝑜 −𝑥𝑚í𝑛𝑖𝑚𝑜
donde 𝑥𝑚á𝑥𝑖𝑚𝑜 es el mayor valor observado en el conjunto de
𝑛

datos y xmínimo es el menor valor observado en el conjunto de datos.

En este ejemplo, √𝑛 = √60 7,75; 𝑥𝑚á𝑥𝑖𝑚𝑜 = 1,88 mts., 𝑥𝑚í𝑛𝑖𝑚𝑜 = 1,50 m

Por lo tanto𝑥𝑚á𝑥𝑖𝑚𝑜 − 𝑥𝑚í𝑛𝑖𝑚𝑜 = 1,88 𝑚 – 1,50 𝑚 = 0,38 𝑚

𝑥𝑚á𝑥𝑖𝑚𝑜 −𝑥𝑚í𝑛𝑖𝑚𝑜
Resultando  0,049 m
√𝑛
podríamos considerar 8 clases con una amplitud de 0,05 m cada una:

El menor valor de cada intervalo se denomina límite inferior del intervalo y el mayor
valor de cada intervalo se denomina límite superior del intervalo.
Así, en la primera clase, el límite inferior es 1,50 m y el límite superior es 1,55 m.

Cabría preguntarnos en qué intervalo contamos el dato que tenemos correspondiente


al valor 1,55 m de la variable. Daremos por sobreentendido que el límite inferior de
cada intervalo es un valor perteneciente a él, mientras que el valor del límite superior
pertenece al intervalo siguiente.

En nuestro ejemplo, el valor 1,55 lo contamos como uno de los elementos del intervalo
1,55 a 1,60.

13
La tabla completa quedaría de la siguiente forma:

Clase 𝑓 𝐹
1,50 a 1,55 5 5
1,55 a 1,60 8 13
1,60 a 1,65 9 21
1,65 a 1,70 17 39
1,70 a 1,75 7 46
1,75 a 1,80 3 49
1,80 a 1,85 7 56
1,85 a 1,90 4 60
n = 60

Histograma
Consiste en graficar barras del ancho de cada intervalo que tengan, en cada caso, por
altura, la frecuencia del intervalo.

Polígono de Frecuencias

Consiste en unir puntos que tienen, por primera coordenada, a cada punto medio de
los intervalos y, por segunda coordenada, la frecuencia del intervalo. Dichos puntos se
unen con una poligonal, y se cierra el polígono sobre el eje horizontal al punto medio
de un hipotético intervalo anterior al primero y posterior al último.

14
Ojiva
Se utiliza para graficar las frecuencias acumuladas a través de una poligonal que
comienza sobre el eje horizontal a la altura que comienza la primera clase y, en cada
intervalo, asciende tanto como su correspondiente frecuencia.

Nota: aunque la forma habitual de agrupar los datos es la que se detalló


anteriormente, en algunos casos, los intervalos pueden tener diferente amplitud.

15
SÍNTESIS - RED CONCEPTUAL

16

También podría gustarte