Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Estadística
Teoría
Elementos de la Estadística
En una institución se quiere analizar la cantidad de novelas que tienen sus miembros en sus
casas. Realizan una encuesta, se aplica a un grupo representativo de todas las partes de la
institución y se obtienen estos resultados, donde cada número es el total de novelas que posee
cada encuestado y como vemos se encuestaron 36 personas.
Sumando la segunda fila de la tabla observamos que se encuestaron 36 personas del total que
trabajan en la empresa. La muestra es 36 personas.
Lo que estamos analizando es la cantidad de novelas que poseen esas personas por lo que la
variable estadística es la cantidad de novelas por persona.
Vemos que hay 3 personas que poseen 1 novela, 5 que poseen 2 novelas, 7 que poseen 3
novelas, etc. La frecuencia o frecuencia absoluta ( f ) con la que aparece 1 novela es 3, la
frecuencia con la que aparece 2 novelas es 5, , la frecuencia con la que aparece 3 novelas es 7,
… , la frecuencia con la que aparece 9 novelas es 1.
1
En una escuela hay un total de 450 alumnos y el Ministerio solo tomó información de 78 de ellos con un
proceso de elección aleatorio y se les preguntó por la nota de matemática obtenida en el último trimestre. La
nube de datos obtenidos es la siguiente.
4 2 9 10 4 4 10 5 7 8 4 7 3 3 10 5
7 9 5 10 7 9 6 10 8 4 4 2 9 5 7 5
6 3 6 9 8 5 5 9 7 5 6 2 6 6 3 8
8 10 8 8 5 3 9 6 9 6 10 7 10 7 8 7
4 9 10 3 8 5 10 9 4 2 5 7 5 9
a) ¿Cuántos alumnos obtuvieron un 7 en Matemática?¿Cuántos 3?
b) ¿Qué parte del total obtuvo un 10? ¿y qué parte obtuvo un 4?
c) ¿Cuántos alumnos se sacaron menos de 6?
d) Realiza un gráfico que muestre la distribución de notas de este grupo de alumnos en Matemática.
e) ¿Cuál fue la nota que más veces se repitió?
La variable ( x ) a estudiar es la nota que obtuvieron los alumnos en Matemática, es una variable
que se puede expresar por un número, es por eso que decimos que es una variable cuantitativa
pero discreta ya que solo toma valores aislados que pueden nombrarse uno por uno.
Para ir contestando a las preguntas del problema nos conviene organizar la información, por
ejemplo armar una tabla contando cuántos alumnos obtuvieron cada nota.
La distribución de frecuencias ( f ) es:
“x” Nota 1 2 3 4 5 6 7 8 9 10
“f” Cantidad de alumnos 0 4 6 8 12 8 10 9 11 10
De la misma manera para los que obtuvieron 4, la parte del total que se obtuvo es:
= ≅ 0,103 10,3 100 10,3%
“x” Nota 1 2 3 4 5 6 7 8 9 10
“f” Cantidad de
0 4 6 8 12 8 10 9 11 10
4 6 8 12 8 10 9 11 10
alumnos
≅ ≅ ≅ ≅ ≅ ≅ ≅ ≅ ≅
0 78 78 78 78 78 78 78 78 78
frecuencia relativa
2
El cociente entre la frecuencia de un valor y la cantidad de elementos de la muestra se llama
frecuencia relativa
=
!
c) Esta pregunta se refiere a la frecuencia absoluta acumulada que se abrevia " # "$ y es la
suma de las frecuencias absolutas hasta cada uno de los valores de la variable.
También se podría calcular la frecuencia relativa acumulada " y sería la suma de las
frecuencias relativas hasta cada uno de los valores de la variable.
Nota f % %& %
1 0 0 0 0 0
2 4 0,051282 5,128205 4 0,051282
3 6 0,076923 7,692308 10 0,128205
4 8 0,102564 10,25641 18 0,230769
5 12 0,153846 15,38462 30 0,384615
6 8 0,102564 10,25641 38 0,487179
7 10 0,128205 12,82051 48 0,615385
8 9 0,115385 11,53846 57 0,730769
9 11 0,141026 14,10256 68 0,871795
10 10 0,128205 12,82051 78 1
suma 78 1 100
d) Otra forma para organizar la información es a través de gráficos estadísticos. Para la variable
discreta conviene realizar el gráfico de barras. Cada barra tiene por altura la cantidad de alumnos
que obtuvieron la nota que se indica en el eje x.
14
12
Cantidad de alumnos
10
0
0 1 2 3 4 5 6 7 8 9 10
Notas
e) La nota que más veces se repitió fue 5 puntos. A este dato se lo llama “moda” y es un
parámetro que permite caracterizar a la distribución de frecuencias.
3
Variable cuantitativa continua:
Veamos la siguiente situación problemática:
La profesora de educación física de un club quiere conocer la altura de sus alumnos. Los mide
cuidadosamente y registra estas alturas.
1,45 1,49 1,56 1,55 1,65 1,62
1,53 1,60 1,57 1,47 1,66 1,57
1,46 1,54 1,75 1,51 1,68 1,44
1,46 1,57 1,55 1,67 1,49 1,48
1,66 1,73 1,57 1,48 1,65 1,41
1,70 1,57 1,71 1,79 1,69 1,73
1,55 1,75 1,77 1,72 1,68 1,59
1,45 1,57 1,68 1,46 1,60 1,60
1,58 1,76 1,62 1,44 1,63 1,70
1,73 1,60 1,50 1,56 1,61 1,77
La variable que se estudia es la altura de los alumnos. Se dice que es una variable
cuantitativa continua.
Recordemos que una variable se llama cuantitativa cuando se puede expresar por un
número y se llama continua si sus resultados pueden ser números reales cualesquiera. En
este caso se pueden agrupar los datos. Cada uno de esos grupos es un intervalo de
números reales, llamado intervalo de clase. En nuestro caso los datos fueron agrupados en
4 intervalos de igual longitud (intervalos semiabiertos de 10 cm de longitud).
Marca de clase:
La marca clase de una tabla para datos agrupados en intervalos corresponde al promedio
de los extremos de cada intervalo.
En el intervalo '1,40; 1,50*
1
IMPORTANTE: [1,40; 1,50) es un intervalo: son lodos los valores que están entre 1,40 m, incluyendo ese valor
por que el intervalo comienza con un corchete, y 1,50 no incluyendo este valor ya que termina con un
paréntesis.
4
, + ,
= 1,45
,
Marca de clase =
18
16 F
r
14
e
12
c
10
u
8 e
6 n
4 c
2 i
0 a
[1,40;1,50)[1,50;1,60)[1,60;1,70)[1,70;1,80]
Altura (m)
5
Se realiza el siguiente Diagrama circular o gráfico circular, o gráfico de torta o diagrama de
sectores:
Observemos que la variable no es una variable cuantitativa ya que no se expresa con un número.
A estas variables se las llama cualitativas y es discreta ya que solo toma valores aislados que
pueden nombrarse uno por uno.
El diagrama circular sirve para representar variables cualitativas discretas. Se utiliza para
representar la proporción en que aparece una determinada característica respecto del total.
Consiste en partir el círculo en porciones proporcionales a la frecuencia relativa.
Cálculo de los sectores:
Un círculo completo son 360º. El ángulo de cada porción debe ser proporcional a la frecuencia de
cada valor. Por ejemplo, si un valor representa un 50% del total de elementos, su sector
del círculo tendrá un ángulo de 180º.
La fórmula para calcular el ángulo de cada sector es la siguiente:
∝= 360° .
Ejemplo:
Los continentes suponen el 29,1% de superficie de la Tierra, el resto es agua. Supongamos que
se pretende representar mediante un diagrama circular la proporción de superficie de cada
continente respecto a la superficie de todos los continentes.
Para dibujar el diagrama, calcula el ángulo de cada uno de los sectores (que serán Europa, África,
América, Asia, Oceanía, la Antártida). Se obtiene la siguiente tabla:
6
Una vez calculados los ángulos, puede representarlos gráficamente. El diagrama circular será el
siguiente:
7
Medidas de tendencia central: Media, Mediana y Moda
Cuando se tiene un conjunto de datos, resulta útil buscar un número que sea representativo de
todos ellos en el contexto de la situación que se analiza. A este valor se lo llama Medidas de
tendencia central.
Para un mismo conjunto de datos pueden distinguirse tres: Media, Mediana y Moda.
8
En la siguiente tabla se presenta información sobre el número de hermanos que tienen los
alumnos de un curso
X (Hermanos) 0 1 2 3 4 5
f (frecuencia absoluta) 5 8 9 1 1 1
¿Cómo harías para determinar el número medio de hermanos de este curso (promedio)?¿Cuál es
ese promedio?¿Qué significado tiene este parámetro en el contexto del problema?
Para calcular en número medio de hermanos de este grupo debemos sumar todos los números de
hermanos y dividirlos por el número de alumnos a los que le hicimos la pregunta. Como nuestros
datos están agrupados en una tabla de distribución de frecuencias, calcularíamos la media así:
40 + 0 + 0 + 0 + 0* + 41 + 1 + 1 + 1 + 1 + 1 + 1 + 1* + ⋯ + ⋯ + ⋯
x3 =
45 + 8 + 9 + 1 + 1 + 1*
El resultado de cada paréntesis del numerador es igual al producto de cada nº de hermanos por
su frecuencia; el denominador es el total de datos (suma de las frecuencias = N)
Podemos ampliar la tabla de la distribución de frecuencia para obtener los datos que necesitamos
y luego calcular la media.
78 8 78 . 8
0 5 0
1 8 8
2 9 18
3 1 3
4 1 4
5 1 5
25 38
Quiere decir que si todos los alumnos tuvieran el mismo número de hermanos éste sería de
1,52 hermanos.
9
Nota: Es sabido que la variable “número de hermanos” toma valores enteros y 1,52 no lo es, pero
en el caso del cálculo de parámetros estadísticos se toma ese valor, aunque la variable sea
entera, para tener una mejor idea de la significación de esta medida calculada.
∑ 0@ . @
En general, para una distribución de frecuencias la media es: 1=
0 ∑ @
MODA AB
¿Cuál es el número de hermanos que más se repite en el curso?
El número de hermanos que más veces se repitió fue 2 hermanos.
<C = 2 ℎ ;< =
A este dato se lo llama “moda” y es un parámetro de posición que también se puede tomar como
medida central para caracterizar a la distribución de frecuencias trabajada.
En general: La moda es el valor de la variable que tiene mayor frecuencia absoluta.
Existen distribuciones de frecuencias que pueden tener más de una moda (multimoda).
Si todas las distribuciones de frecuencias tienen el mismo valor no hay moda.
MEDIANA AD
Ordenados todos los datos obtenidos de menor a mayor, ¿cuál es el valor que deja a la mitad del
curso con un número de hermanos menor o igual a él y a la otra mitad con un número de
hermanos mayor o igual a él?
0,0,0,0,0,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,2,3,4,5
Tenemos 25 datos ordenados de menor a mayor; buscamos el 50% de 25 datos y nos da 12,5
luego debemos tomar el dato que ocupa la 13º posición en esta secuencia ordenada.
0,0,0,0,0,1,1,1,1,1,1,1, 1 ,2,2,2,2,2,2,2,2,2,3,4,5
El 50% de este curso tiene un hermano o menos y el otro 50% tiene un hermano o más.
A esta medida de tendencia central de la distribución de frecuencias se la llama mediana.
AD = E FD AGHB
En general la mediana es el valor de la variable que deja al 50% de los datos por debajo o igual a
ese valor y al otro 50% por encima o igual a ese valor.
Atención:
• Nota 1: Para calcular la mediana no necesitamos escribir ordenados los datos uno por
uno, ya que podemos utilizar la tabla de datos agrupados. Anexamos a nuestra
distribución la columna de frecuencias absolutas acumuladas
10
X (nº de hermanos) f F
0 5 5
1 8 13 La mediana está en la posición 13º de nuestra secuencia luego vale 1 hermano
2 9 22
3 1 23
4 1 24
5 1 25
0,50 . 26 = 13
Con lo cual habría que tomar los datos que ocupan las posiciones centrales 13º y 14º de la
secuencia ordenada de datos y hacer un promedio entre dichos valores para arribar a la mediana
de la distribución de frecuencia.
El primer cuartil ( J *deja el 25% de los datos por debajo de él y el 75% restante por encima.
El tercer cuartil ( J *deja el 75% de los datos por debajo de él y el 25% restante por encima.
Su cálculo es similar al hecho para la mediana pero cambiando el porcentaje. Para J se calcula
el 25% del total de datos; en cambio para J se calcula el 75% de N.
varianza
Se presentan dos tablas de frecuencias que dan la distribución de pesos para dos tipos de
animales: vacas y perros
Vacas Perros
X kg [125;175) [175;225) [225;275) X kg '2,5; 7,5* '7,5; 12,5* '12,5; 17,5*
f 2 7 1 f 5 1 4
11
Calculemos la media de cada distribución3.
Vacas
X kg fi xi fi.xi
[125;175) 2 150 300
[175;225) 7 200 1400
[225;275) 1 250 250
10 1950
∑ 0@ . @ EKLM
1=
0 = = EKL NO
∑ @ EM
vacas
10
0
[125;175) [175;225) [225;275)
Perros
X kg fi xi fi.xi
[2,5 – 7,5) 5 5 25
[7,5 – 12,5) 1 10 10
[12,5 –
4 15 60
17,5)
10 95
∑ 0@ . @ KL
1=
0 = = K, L NO
∑ @ EM
Perros
10
0
[2,5;7,5) [7,5;12,5) [12,5;17,5)
Podemos preguntarnos: ¿Cuál de los grupos es más parejo con respecto a su peso medio? ¿Por
qué?
Si analizamos los histogramas de cada distribución de pesos vemos que las vacas parecen más
parejas en peso con respecto a su peso medio de 195 kg. Visualmente se observan rectángulos
3
IMPORTANTE: Cuando la variable es continua, o sea los datos se encuentran dentro de un intervalo, para
calcular la media tomaremos como valor xi el punto medio del intervalo.
12
de mayor superficie cerca de ese valor de la variable y los rectángulos de los extremos con menor
superficie.
En el histograma de los perros es al revés, existen intervalos de poca superficie cerca de la media
de 9,5 kg e intervalos de mayor superficie en los extremos.
La pregunta es:
¿Cómo se mide la dispersión de los datos, con relación a la media, en una distribución
estadística?
Dos de los parámetros que miden la dispersión en una distribución de frecuencias son la
varianza y la desviación típica o estándar.
Calculémoslas para la distribución de pesos de las vacas.
5, = 25
[125;175) 2 150 150 - 195 = -45 2025 . 2 = 4050
55, = 3025
[175;225) 7 200 200 – 195 = 5 25 . 7 = 175
[225;275) 1 250 250 – 195 = 55 3025 . 1 = 3025
10 7250
La varianza es un valor que viene de sumar todos los desvíos cuadrados y dividirlos por el nº total
de datos.
RQLM
= RQLNOQ
EM
Varianza=
griega sigma S
7250
T=U = √725 = 26,92582404 … XY
10
∑ 8 . 478 − 7̅ *,
T=U
∑ 8
0@ 0@ − 01 1*Q 1*Q
Desvío Cada Desvío cuadrado Todos los Desvíos cuadrados
@ 40@ − 0 @ . 40@ − 0
4−4,5* = 20,25
X ( kg)
,
0,5, = 0,25
[2,5;7,5) 5 5 5 – 9,5 = -4,5 20,25 . 25= 101,25
5,5, = 30,25
[7,5;12,5) 1 10 10 – 9,5 = 0,5 0,25 . 1 = 0,25
[12,5;17,5) 4 15 15 – 9,5 = 5,5 30,25 . 4 = 121
10 222,5
4 IMPORTANTE: Observen que al elevar al cuadrado todas las cantidades serán positivas y sus sumas no
corren el peligro de dar 0
13
QQQ,L
= QQ, QLNOQ
EM
Su varianza=
S=[
QQQ,L
= \QQ, QL = ], RE^KK … … . NO
EM
Su desviación típica es
En resumen las vacas tienen un peso medio de 195 kg con una desviación típica de
26,92582404……kg
Y los perros un peso medio de 9,5kg con una desviación típica de 4,71699…..kg
• Nota importante (Corrección de Bessel):
Cuando se toma una muestra y esta es muy pequeña con respecto al universo, se utilizan las
siguientes fórmulas para calcular la varianza y la desviación típica (se resta 1 a la sumatoria
de las frecuencias en el denominador): 5
∑ _` .4a` ba̅ *c
∑ _` b
Varianza=
∑ 8 . 478 − 7̅ *,
T=U
∑ 8−1
Se utiliza esta fórmula siempre que los datos se obtengan por medio de una muestra
Coeficiente de Variación CV
Si comparamos las desviaciones típicas de las vacas y de los perros vemos que la 1º es mayor
que la 2º , sin embargo esos 26,925824….kg representan un menor desvío con respecto a su
media de 195 kg de lo que representan los 4,5kg de los perros con respecto a su media de 9,5 kg.
Para poder comparar la dispersión de dos poblaciones muy distintas no es bueno quedarnos solo
con el dato de sus desviaciones típicas. Por eso se define una nueva medida de dispersión que es
el coeficiente de variación.
S
CV= 1
d
5
Se ha comprobado que con esta corrección se obtienen resultados más exactos
14
Vacas Perros
26,925824. . … . XY 4,71699 … . XY
ef = ≅ 0,138081 … ef = ≅ 0,496525 …
195XY 9,5XY
15