Está en la página 1de 16

Unidad 4

Estadística

Teoría
Elementos de la Estadística

La Estadística es la ciencia que proporciona técnicas precisas para obtener información, y


analizarla.
A veces es costoso consultar a toda la población, en esos casos se elige una parte de la misma,
es decir, una muestra.
Para que la muestra sea representativa, debe contener las características de la población total.
Se llama variable estadística al conjunto de valores que se quieren analizar. Las respuestas
obtenidas se denominan datos.
La frecuencia o frecuencia absoluta de un dato es la cantidad de veces que ese dato se repite.

Analicemos el siguiente ejemplo:

En una institución se quiere analizar la cantidad de novelas que tienen sus miembros en sus
casas. Realizan una encuesta, se aplica a un grupo representativo de todas las partes de la
institución y se obtienen estos resultados, donde cada número es el total de novelas que posee
cada encuestado y como vemos se encuestaron 36 personas.

Organizándolos en una tabla:


Cantidad de novelas 1 2 3 4 5 6 7 8 9
Cantidad de personas 3 5 7 8 4 6 0 2 1

Sumando la segunda fila de la tabla observamos que se encuestaron 36 personas del total que
trabajan en la empresa. La muestra es 36 personas.
Lo que estamos analizando es la cantidad de novelas que poseen esas personas por lo que la
variable estadística es la cantidad de novelas por persona.
Vemos que hay 3 personas que poseen 1 novela, 5 que poseen 2 novelas, 7 que poseen 3
novelas, etc. La frecuencia o frecuencia absoluta ( f ) con la que aparece 1 novela es 3, la
frecuencia con la que aparece 2 novelas es 5, , la frecuencia con la que aparece 3 novelas es 7,
… , la frecuencia con la que aparece 9 novelas es 1.

Variable cuantitativa discreta


Veamos la siguiente situación problemática:

1
En una escuela hay un total de 450 alumnos y el Ministerio solo tomó información de 78 de ellos con un
proceso de elección aleatorio y se les preguntó por la nota de matemática obtenida en el último trimestre. La
nube de datos obtenidos es la siguiente.
4 2 9 10 4 4 10 5 7 8 4 7 3 3 10 5
7 9 5 10 7 9 6 10 8 4 4 2 9 5 7 5
6 3 6 9 8 5 5 9 7 5 6 2 6 6 3 8
8 10 8 8 5 3 9 6 9 6 10 7 10 7 8 7
4 9 10 3 8 5 10 9 4 2 5 7 5 9
a) ¿Cuántos alumnos obtuvieron un 7 en Matemática?¿Cuántos 3?
b) ¿Qué parte del total obtuvo un 10? ¿y qué parte obtuvo un 4?
c) ¿Cuántos alumnos se sacaron menos de 6?
d) Realiza un gráfico que muestre la distribución de notas de este grupo de alumnos en Matemática.
e) ¿Cuál fue la nota que más veces se repitió?

La variable ( x ) a estudiar es la nota que obtuvieron los alumnos en Matemática, es una variable
que se puede expresar por un número, es por eso que decimos que es una variable cuantitativa
pero discreta ya que solo toma valores aislados que pueden nombrarse uno por uno.
Para ir contestando a las preguntas del problema nos conviene organizar la información, por
ejemplo armar una tabla contando cuántos alumnos obtuvieron cada nota.
La distribución de frecuencias ( f ) es:
“x” Nota 1 2 3 4 5 6 7 8 9 10
“f” Cantidad de alumnos 0 4 6 8 12 8 10 9 11 10

a) En la tabla observamos que 10 alumnos obtuvieron 7 puntos y 6 alumnos se sacaron 3.


b) Para saber qué parte del grupo obtuvo 10 puntos debemos utilizar que 10 alumnos de los 78
encuestados se sacaron esa nota (N=78 total de datos obtenidos).
Debemos hacer la razón entre la frecuencia de la nota 10 y el total de individuos de la muestra.
= ≅ 0,128 12,8 100 12,8%

De la misma manera para los que obtuvieron 4, la parte del total que se obtuvo es:
= ≅ 0,103 10,3 100 10,3%

Podemos completar la tabla anterior:

“x” Nota 1 2 3 4 5 6 7 8 9 10
“f” Cantidad de
0 4 6 8 12 8 10 9 11 10
4 6 8 12 8 10 9 11 10
alumnos
≅ ≅ ≅ ≅ ≅ ≅ ≅ ≅ ≅
0 78 78 78 78 78 78 78 78 78
frecuencia relativa

0,051 0,077 0,103 0,154 0,103 0,128 0,115 0,14151 0,128

2
El cociente entre la frecuencia de un valor y la cantidad de elementos de la muestra se llama
frecuencia relativa

=
!
c) Esta pregunta se refiere a la frecuencia absoluta acumulada que se abrevia " # "$ y es la
suma de las frecuencias absolutas hasta cada uno de los valores de la variable.
También se podría calcular la frecuencia relativa acumulada " y sería la suma de las
frecuencias relativas hasta cada uno de los valores de la variable.
Nota f % %& %
1 0 0 0 0 0
2 4 0,051282 5,128205 4 0,051282
3 6 0,076923 7,692308 10 0,128205
4 8 0,102564 10,25641 18 0,230769
5 12 0,153846 15,38462 30 0,384615
6 8 0,102564 10,25641 38 0,487179
7 10 0,128205 12,82051 48 0,615385
8 9 0,115385 11,53846 57 0,730769
9 11 0,141026 14,10256 68 0,871795
10 10 0,128205 12,82051 78 1
suma 78 1 100

d) Otra forma para organizar la información es a través de gráficos estadísticos. Para la variable
discreta conviene realizar el gráfico de barras. Cada barra tiene por altura la cantidad de alumnos
que obtuvieron la nota que se indica en el eje x.

14

12
Cantidad de alumnos

10

0
0 1 2 3 4 5 6 7 8 9 10
Notas

e) La nota que más veces se repitió fue 5 puntos. A este dato se lo llama “moda” y es un
parámetro que permite caracterizar a la distribución de frecuencias.

3
Variable cuantitativa continua:
Veamos la siguiente situación problemática:
La profesora de educación física de un club quiere conocer la altura de sus alumnos. Los mide
cuidadosamente y registra estas alturas.
1,45 1,49 1,56 1,55 1,65 1,62
1,53 1,60 1,57 1,47 1,66 1,57
1,46 1,54 1,75 1,51 1,68 1,44
1,46 1,57 1,55 1,67 1,49 1,48
1,66 1,73 1,57 1,48 1,65 1,41
1,70 1,57 1,71 1,79 1,69 1,73
1,55 1,75 1,77 1,72 1,68 1,59
1,45 1,57 1,68 1,46 1,60 1,60
1,58 1,76 1,62 1,44 1,63 1,70
1,73 1,60 1,50 1,56 1,61 1,77

Completamos con los datos la tabla 1:


Altura f F
'1,40; 1,50* 13 13
'1,50; 1,60* 17 30
'1,60; 1,70* 17 47
'1,70; 1,80* 13 60

La variable que se estudia es la altura de los alumnos. Se dice que es una variable
cuantitativa continua.
Recordemos que una variable se llama cuantitativa cuando se puede expresar por un
número y se llama continua si sus resultados pueden ser números reales cualesquiera. En
este caso se pueden agrupar los datos. Cada uno de esos grupos es un intervalo de
números reales, llamado intervalo de clase. En nuestro caso los datos fueron agrupados en
4 intervalos de igual longitud (intervalos semiabiertos de 10 cm de longitud).
Marca de clase:
La marca clase de una tabla para datos agrupados en intervalos corresponde al promedio
de los extremos de cada intervalo.
En el intervalo '1,40; 1,50*

1
IMPORTANTE: [1,40; 1,50) es un intervalo: son lodos los valores que están entre 1,40 m, incluyendo ese valor
por que el intervalo comienza con un corchete, y 1,50 no incluyendo este valor ya que termina con un
paréntesis.
4
, + ,
= 1,45
,
Marca de clase =

En la tabla, calculando las marcas de clase:


Altura Marca de clase f F
'1,40; 1,50* 1,45 13 13
'1,50; 1,60* 1,55 17 30
'1,60; 1,70* 1,65 17 47
'1,70; 1,80* 1,75 13 60

Los datos pueden ser representados en un gráfico como el siguiente

18
16 F
r
14
e
12
c
10
u
8 e
6 n
4 c
2 i
0 a
[1,40;1,50)[1,50;1,60)[1,60;1,70)[1,70;1,80]

Altura (m)

En el eje de las x (horizontal) representamos las alturas de los alumnos agrupadas en


intervalos y en el eje de las y (vertical) las frecuencias (cantidad de alumnos cuya altura se
encuentra en cada intervalo).
Podemos observar que entre 1,40 m y 1,50 m hay 13 alumnos, entre 1,50 m y 1,60 m hay
17 alumnos, etc.
Es de uso frecuente, no colocar el 0 en el eje cuando los datos se alejan de él, como pasa
en el eje x.

Variables cualitativas discretas


Se realiza una encuesta a 200 personas. Se obtienen los siguientes resultados:
x f % fr
Insatisfecho 70 35 0,35
Satisfecho 84 42 0,42
Indiferente 46 23 0,23
200 100 1

5
Se realiza el siguiente Diagrama circular o gráfico circular, o gráfico de torta o diagrama de
sectores:

Observemos que la variable no es una variable cuantitativa ya que no se expresa con un número.
A estas variables se las llama cualitativas y es discreta ya que solo toma valores aislados que
pueden nombrarse uno por uno.

El diagrama circular sirve para representar variables cualitativas discretas. Se utiliza para
representar la proporción en que aparece una determinada característica respecto del total.
Consiste en partir el círculo en porciones proporcionales a la frecuencia relativa.
Cálculo de los sectores:
Un círculo completo son 360º. El ángulo de cada porción debe ser proporcional a la frecuencia de
cada valor. Por ejemplo, si un valor representa un 50% del total de elementos, su sector
del círculo tendrá un ángulo de 180º.
La fórmula para calcular el ángulo de cada sector es la siguiente:
∝= 360° .
Ejemplo:
Los continentes suponen el 29,1% de superficie de la Tierra, el resto es agua. Supongamos que
se pretende representar mediante un diagrama circular la proporción de superficie de cada
continente respecto a la superficie de todos los continentes.
Para dibujar el diagrama, calcula el ángulo de cada uno de los sectores (que serán Europa, África,
América, Asia, Oceanía, la Antártida). Se obtiene la siguiente tabla:

6
Una vez calculados los ángulos, puede representarlos gráficamente. El diagrama circular será el
siguiente:

7
Medidas de tendencia central: Media, Mediana y Moda

Cuando se tiene un conjunto de datos, resulta útil buscar un número que sea representativo de
todos ellos en el contexto de la situación que se analiza. A este valor se lo llama Medidas de
tendencia central.
Para un mismo conjunto de datos pueden distinguirse tres: Media, Mediana y Moda.

Analicemos la siguiente situación problemática:

8
En la siguiente tabla se presenta información sobre el número de hermanos que tienen los
alumnos de un curso

X (Hermanos) 0 1 2 3 4 5
f (frecuencia absoluta) 5 8 9 1 1 1

MEDIA o Media aritmética 1


0

¿Cómo harías para determinar el número medio de hermanos de este curso (promedio)?¿Cuál es
ese promedio?¿Qué significado tiene este parámetro en el contexto del problema?

Para calcular en número medio de hermanos de este grupo debemos sumar todos los números de
hermanos y dividirlos por el número de alumnos a los que le hicimos la pregunta. Como nuestros
datos están agrupados en una tabla de distribución de frecuencias, calcularíamos la media así:
40 + 0 + 0 + 0 + 0* + 41 + 1 + 1 + 1 + 1 + 1 + 1 + 1* + ⋯ + ⋯ + ⋯
x3 =
45 + 8 + 9 + 1 + 1 + 1*
El resultado de cada paréntesis del numerador es igual al producto de cada nº de hermanos por
su frecuencia; el denominador es el total de datos (suma de las frecuencias = N)
Podemos ampliar la tabla de la distribución de frecuencia para obtener los datos que necesitamos
y luego calcular la media.
78 8 78 . 8
0 5 0
1 8 8
2 9 18
3 1 3
4 1 4
5 1 5
25 38

La suma de todos los hermanos es ∑ 78 . 8 = 38 ℎ ;< = 2

El número total de alumnos es ∑ 8 = 25 = >


La media del número de hermanos es 7̿ = = 1,52 ℎ ;< =
,

Quiere decir que si todos los alumnos tuvieran el mismo número de hermanos éste sería de
1,52 hermanos.

IMPORTANTE: El símbolo ∑ significa Sumatoria, ∑ 0@ . @ es la suma de todos los productos de cada nº de


hermanos por su frecuencia y ∑ @ la suma de todas las frecuencias
2

9
Nota: Es sabido que la variable “número de hermanos” toma valores enteros y 1,52 no lo es, pero
en el caso del cálculo de parámetros estadísticos se toma ese valor, aunque la variable sea
entera, para tener una mejor idea de la significación de esta medida calculada.

∑ 0@ . @
En general, para una distribución de frecuencias la media es: 1=
0 ∑ @

MODA AB
¿Cuál es el número de hermanos que más se repite en el curso?
El número de hermanos que más veces se repitió fue 2 hermanos.
<C = 2 ℎ ;< =
A este dato se lo llama “moda” y es un parámetro de posición que también se puede tomar como
medida central para caracterizar a la distribución de frecuencias trabajada.
En general: La moda es el valor de la variable que tiene mayor frecuencia absoluta.
Existen distribuciones de frecuencias que pueden tener más de una moda (multimoda).
Si todas las distribuciones de frecuencias tienen el mismo valor no hay moda.

MEDIANA AD

Ordenados todos los datos obtenidos de menor a mayor, ¿cuál es el valor que deja a la mitad del
curso con un número de hermanos menor o igual a él y a la otra mitad con un número de
hermanos mayor o igual a él?
0,0,0,0,0,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,2,3,4,5
Tenemos 25 datos ordenados de menor a mayor; buscamos el 50% de 25 datos y nos da 12,5
luego debemos tomar el dato que ocupa la 13º posición en esta secuencia ordenada.
0,0,0,0,0,1,1,1,1,1,1,1, 1 ,2,2,2,2,2,2,2,2,2,3,4,5
El 50% de este curso tiene un hermano o menos y el otro 50% tiene un hermano o más.
A esta medida de tendencia central de la distribución de frecuencias se la llama mediana.
AD = E FD AGHB
En general la mediana es el valor de la variable que deja al 50% de los datos por debajo o igual a
ese valor y al otro 50% por encima o igual a ese valor.

Atención:
• Nota 1: Para calcular la mediana no necesitamos escribir ordenados los datos uno por
uno, ya que podemos utilizar la tabla de datos agrupados. Anexamos a nuestra
distribución la columna de frecuencias absolutas acumuladas

10
X (nº de hermanos) f F
0 5 5
1 8 13 La mediana está en la posición 13º de nuestra secuencia luego vale 1 hermano

2 9 22
3 1 23
4 1 24
5 1 25

• Nota 2: Si el número de datos fuera 26 y no 25, al calcular el 50% de ellos daría

0,50 . 26 = 13

Con lo cual habría que tomar los datos que ocupan las posiciones centrales 13º y 14º de la
secuencia ordenada de datos y hacer un promedio entre dichos valores para arribar a la mediana
de la distribución de frecuencia.

• Nota 3: Muchas veces se suelen calcular parámetros de posición de la distribución de


frecuencias como son los cuartiles. Ellos señalan la situación de algunos valores
importantes en la distribución. Los cuartiles son los valores que dejan a cada lado el 25% y
el 75% de los demás.

El primer cuartil ( J *deja el 25% de los datos por debajo de él y el 75% restante por encima.
El tercer cuartil ( J *deja el 75% de los datos por debajo de él y el 25% restante por encima.
Su cálculo es similar al hecho para la mediana pero cambiando el porcentaje. Para J se calcula
el 25% del total de datos; en cambio para J se calcula el 75% de N.

Parámetros de dispersión: desviación típica o estándar σ y coeficiente de variación o

varianza

Se presentan dos tablas de frecuencias que dan la distribución de pesos para dos tipos de
animales: vacas y perros
Vacas Perros
X kg [125;175) [175;225) [225;275) X kg '2,5; 7,5* '7,5; 12,5* '12,5; 17,5*
f 2 7 1 f 5 1 4

Vamos a dar el peso medio de cada grupo de animales.

11
Calculemos la media de cada distribución3.
Vacas
X kg fi xi fi.xi
[125;175) 2 150 300
[175;225) 7 200 1400
[225;275) 1 250 250
10 1950

∑ 0@ . @ EKLM
1=
0 = = EKL NO
∑ @ EM

vacas
10

0
[125;175) [175;225) [225;275)

Perros
X kg fi xi fi.xi
[2,5 – 7,5) 5 5 25
[7,5 – 12,5) 1 10 10
[12,5 –
4 15 60
17,5)
10 95

∑ 0@ . @ KL
1=
0 = = K, L NO
∑ @ EM

Perros
10

0
[2,5;7,5) [7,5;12,5) [12,5;17,5)

Podemos preguntarnos: ¿Cuál de los grupos es más parejo con respecto a su peso medio? ¿Por
qué?
Si analizamos los histogramas de cada distribución de pesos vemos que las vacas parecen más
parejas en peso con respecto a su peso medio de 195 kg. Visualmente se observan rectángulos

3
IMPORTANTE: Cuando la variable es continua, o sea los datos se encuentran dentro de un intervalo, para
calcular la media tomaremos como valor xi el punto medio del intervalo.
12
de mayor superficie cerca de ese valor de la variable y los rectángulos de los extremos con menor
superficie.
En el histograma de los perros es al revés, existen intervalos de poca superficie cerca de la media
de 9,5 kg e intervalos de mayor superficie en los extremos.
La pregunta es:
¿Cómo se mide la dispersión de los datos, con relación a la media, en una distribución
estadística?
Dos de los parámetros que miden la dispersión en una distribución de frecuencias son la
varianza y la desviación típica o estándar.
Calculémoslas para la distribución de pesos de las vacas.

Cada Desvío cuadrado 4


0@ 1
0@ − 0
Desvío Todos los Desvíos cuadrados
@ 1*Q
40@ − 0 1*Q
@ . 40@ − 0
4−45* = 2025
X ( kg)
,

5, = 25
[125;175) 2 150 150 - 195 = -45 2025 . 2 = 4050

55, = 3025
[175;225) 7 200 200 – 195 = 5 25 . 7 = 175
[225;275) 1 250 250 – 195 = 55 3025 . 1 = 3025
10 7250

La varianza es un valor que viene de sumar todos los desvíos cuadrados y dividirlos por el nº total
de datos.
RQLM
= RQLNOQ
EM
Varianza=

La desviación típica o estándar es la raíz cuadrada de la varianza y se designa con la letra

griega sigma S

7250
T=U = √725 = 26,92582404 … XY
10

En general, para distribuciones agrupadas, la desviación típica o estándar se calcula con la


fórmula:

∑ 8 . 478 − 7̅ *,
T=U
∑ 8

Ahora para los perros:

0@ 0@ − 01 1*Q 1*Q
Desvío Cada Desvío cuadrado Todos los Desvíos cuadrados
@ 40@ − 0 @ . 40@ − 0
4−4,5* = 20,25
X ( kg)
,

0,5, = 0,25
[2,5;7,5) 5 5 5 – 9,5 = -4,5 20,25 . 25= 101,25

5,5, = 30,25
[7,5;12,5) 1 10 10 – 9,5 = 0,5 0,25 . 1 = 0,25
[12,5;17,5) 4 15 15 – 9,5 = 5,5 30,25 . 4 = 121
10 222,5

4 IMPORTANTE: Observen que al elevar al cuadrado todas las cantidades serán positivas y sus sumas no
corren el peligro de dar 0
13
QQQ,L
= QQ, QLNOQ
EM
Su varianza=

S=[
QQQ,L
= \QQ, QL = ], RE^KK … … . NO
EM
Su desviación típica es

En resumen las vacas tienen un peso medio de 195 kg con una desviación típica de
26,92582404……kg
Y los perros un peso medio de 9,5kg con una desviación típica de 4,71699…..kg
• Nota importante (Corrección de Bessel):
Cuando se toma una muestra y esta es muy pequeña con respecto al universo, se utilizan las
siguientes fórmulas para calcular la varianza y la desviación típica (se resta 1 a la sumatoria
de las frecuencias en el denominador): 5
∑ _` .4a` ba̅ *c
∑ _` b
Varianza=

∑ 8 . 478 − 7̅ *,
T=U
∑ 8−1

Se utiliza esta fórmula siempre que los datos se obtengan por medio de una muestra

Coeficiente de Variación CV
Si comparamos las desviaciones típicas de las vacas y de los perros vemos que la 1º es mayor
que la 2º , sin embargo esos 26,925824….kg representan un menor desvío con respecto a su
media de 195 kg de lo que representan los 4,5kg de los perros con respecto a su media de 9,5 kg.

Para poder comparar la dispersión de dos poblaciones muy distintas no es bueno quedarnos solo
con el dato de sus desviaciones típicas. Por eso se define una nueva medida de dispersión que es
el coeficiente de variación.

S
CV= 1
d

Al dividir la desviación típica entre su media, se está relativizando la variación.


En nuestro problema tenemos:

5
Se ha comprobado que con esta corrección se obtienen resultados más exactos

14
Vacas Perros
26,925824. . … . XY 4,71699 … . XY
ef = ≅ 0,138081 … ef = ≅ 0,496525 …
195XY 9,5XY

Cuánto menor es el coeficiente de variación más pareja es la distribución de frecuencia; al revés


cuánto mayor es este coeficiente, entonces más dispersa es la distribución.
En este caso el CV de la distribución de pesos de las vacas es mucho menor que el CV de la de
los perros, eso muestra que esta población de vacas es mucho más pareja con respecto a su
peso medio que la población de perros estudiada.

• Nota 1: El valor de la media en una distribución de frecuencias es útil que esté


acompañado por el valor de su desviación típica.
• Nota 2: Para que una distribución de frecuencias empiece a ser considerada como pareja
con respecto a su media, se suele pedir que su coeficiente de variación sea inferior a 0,1.

15

También podría gustarte