Está en la página 1de 20

UNIVERSIDAD NACIONAL DE INGENIERIA

Trabajo de Estadística
Nombre : Erwing Olivares 2016-
0113J
Docente: Ing. Lester Emilio Marin
Fecha de entrega : 20 jun,2020
UNIVERSIDAD NACIONAL DE INGENIERIA
Resumen 43-53 ahora, paso por paso, cómo se elabora una tabla de frecuencias para la
variable continua. Antes te presento la simbología que se utiliza en la elaboración de
estas tablas, muchas de las cuales coinciden con las utilizadas en la elaboración de las
tablas para la variable discreta, tal como lo viste precedentemente.

N: tamaño poblacional

n: tamaño de la muestra

xi : característica cuantitativa, discreta o continua, observada en


cada unidad investigada. También se utiliza para indicar la marca de clase cuando
trabajamos con intervalos de clase.

ri : frecuencia absoluta. Número de veces que se repite el valor de la variable.

fri : frecuencia relativa. Se obtiene dividiendo cada frecuencia absoluta por el


tamaño de la muestra o el tamaño de la población.

Ri : frecuencia absoluta acumulada, se hace por medio de sumas sucesivas de


manera que la última frecuencia absoluta acumulada será igual a n.

Fri : frecuencia relativa acumulada, para calcularla se procede igual que en la


frecuencia anterior.

m: número de intervalos o número de valores que toma la variable.

L.I. - L.S.: los intervalos en los que se divide la variable continua. Siendo L.I. el
límite inferior y L.S. el límite superior del intervalo.

c: amplitud del intervalo entre L.I. - L.S.

rango: diferencia que hay entre el valor máximo y el valor mínimo de la serie
estadística.
UNIVERSIDAD NACIONAL DE INGENIERIA

Se desarrolla a continuación un ejemplo para la construcción de una tabla de


frecuencia para la variable continua. Consideremos nuevamente la población de 300
cajas (N= 300) y seleccionemos aleatoriamente una muestra de 30 cajas (n= 30), o
sea el 10% a fin de investigar el peso en kg. de cada caja. La información sobre el peso
de cada caja se da en números enteros con el fin de simplicar el trabajo, sin olvidar
que la medida utilizada admite valores fraccionarios, por tal motivo se la clasifica como
variable continua.
UNIVERSIDAD NACIONAL DE INGENIERIA

x1= 48 x2= 56 x3= 60 x4= 67 x5= 47 x6= 70


x7= 70 x8= 63 x9= 72 x10= 76 x11= 74 x12= 67
x13= 92 x14= 70 x15= 69 x16= 61 x17= 71 x18= 79
x19= 85 x20= 68 x21= 82 x22= 55 x23= 65 x24= 88
x25= 52 x26= 58 x27= 76 x28= 57 x29= 72 x30= 67

En la elaboración de la tabla de frecuencias se deben observar los siguientes


pasos:

1. se determina el valor máximo y el valor mínimo que toma la variable xi, en este
caso xmin= 47 y xmax= 92;

2. se calcula el rango, es decir, 92 - 47 = 45.

3. se hace necesario determinar el número de intervalos (m) que se utilizará para


agrupar los datos, aplicando la regla de Sturges con la cual se obtiene una
aproximación aceptable sobre el número de intervalos necesarios; m= 1 + 3,3 log
30, lo que arroja un resultado de 5,87. El número de intervalos estará entre 5 y 6,
utilizaremos en nuestro ejercicio seis intervalos (m=6).

4. se debe decidir sobre la amplitud de cada intervalo (c). Al determinar el valor de c


no es necesario que sean todos los intervalos iguales; sin embargo, con fines de
simplicidad y funcionalidad se puede considerar el valor de c constante para todos
los intervalos. Dicho valor constante se obtiene aplicando la fórmula siguiente: c=
rango/m, entonces, 45/6= 7,5. Para facilitar los cálculos se aproxima c a 8; por lo
tanto se altera el valor del rango, si recordamos que m fue fijado y no se debe
cambiar, se tendrá: 8=rango/6, entonces 8=48/6. En este caso el rango se
incrementa en tres unidades, de 45 pasó a 48, el incremento debe ser distribuido
proporcionalmente, sumando unas unidades al límite superior y restándole otras
al límite inferior.
UNIVERSIDAD NACIONAL DE INGENIERIA

l. C. xi ri fri Ri Fri
46 - 54 50 3 0,10 3 0,10
54 - 62 58 6 0,20 9 0,30
62 - 70 66 10 0,33 19 0,63
70 - 78 74 6 0,20 25 0,83
78 - 86 82 3 0,10 28 0,93
86 - 94 90 2 0,07 30 1,00
-- 30 1,00 -- --

Propiedades de las frecuencias: estas son:

1. las frecuencias absolutas son números enteros;

2. la suma de las frecuencias absolutas es igual a tamaño de la muestra (n) o al de la


población (N);

3. las frecuencias relativas son números fraccionarios, esto es “0<fri<1”;

4. la suma de las frecuencias relativas es igual a 1;

5. el último término de las frecuencias absolutas acumuladas es igual a n;

6. el último término de las frecuencias relativas acumuladas es igual a 1.


UNIVERSIDAD NACIONAL DE INGENIERIA

Tipos de gráficos

Hay numerosos tipos de gráficas pero vamos a ver detenidamente aquellas


que son consideradas como las mas usuales:

diagrama de puntos: se marcan simplemente los puntos de coordenadas de


todos los pares de valores (x;y). Son importantes ya que dan una primera
UNIVERSIDAD NACIONAL DE INGENIERIA

interpretación de un fenómeno en el cual se hipotetiza sobre la


asociación de dos variables. Son usados en series de tiempo, correlación y
regresión y en gráficos de control.

20
15
10
5
0
1989 1990 1991 1992 1993 1994 1995 1996 1997

diagrama de frecuencia: se utiliza para la representación de la variable discreta.


En el eje horizontal se colocan los valores que toma la variable xi y en el eje vertical
las frecuencias absolutas o relativas. Para cada valor de xi le corresponderá una
frecuencia ri o fri, indicándolo en el plano cartesiano mediante un punto; luego,
partiendo de ese punto tomado como referencia, trazamos una perpendicular al eje
horizontal y se obtendrán las barras con las cuales representamos la variable.
También se puede hacer la representación de la variable utilizando las frecuencias
absolutas o relativas acumuladas; por tal razón se denominan diagramas de
frecuencias acumuladas. En este caso se observará que las líneas que representan
la variable van en sentido horizontal, a diferencia del caso anterior cuyas barras son
verticales. Las gráficas elaboradas con frecuencias absolutas son exactamente
iguales a aquellas elaboradas con frecuencias relativas, diferenciándose
únicamente en los valores de las escalas
correspondientes a las frecuencias.

25
20
15
10
5
0
1 2 3 4 5 6 7 8 9
UNIVERSIDAD NACIONAL DE INGENIERIA

histogramas: está formado por un conjunto de rectángulos, cada


uno de ellos levantado en cada intervalo, de tal manera que la base será igual a la
amplitud del intervalo (c) y la altura estará dada ya sea por la frecuencia absoluta
o relativa. Se utiliza para la representación de la variable continua. Si elaboramos
el histograma teniendo en cuenta las frecuencias relativas, será un gráfico de gran
utilidad al comparar dos distribuciones.

45
40
35
30
25
20
15
10
5
0
10-20

30-40

40-50

50-60

60-70

70-80

80-90

90-100
20-30

polígonos de frecuencia: con la misma información utilizada para la elaboración


del histograma, se puede dibujar el polígono de frecuencia. En primer lugar se
establecen los puntos medios en la parte superior de cada rectángulo, luego se
unen dichos puntos mediante una línea, prolongándose en el primer y último
intervalo hasta el eje de abscisas y al punto medio del intervalo anterior y
posterior a los de la variable en estudio. Esto se hace a efectos de que el área
encerrada bajo la curva sea exacta en función del valor de los ángulos opuestos
por el vértice. Se utiliza para representar la variable continua dado que se basa en
el histograma.

45
40
35
30
25
20
15
10
5
0
15 25 35 45 55 65 75 85 95
UNIVERSIDAD NACIONAL DE INGENIERIA

ojivas: para el trazado de esta gráfica, en primer lugar, se ubican


los puntos en el plano cartesiano. Dichos puntos se determinan teniendo en
cuenta el límite superior de cada intervalo y las respectivas frecuencias absolutas
o relativas acumuladas; luego se unen esos puntos, partiendo desde el límite inferior
del primer intervalo ubicado en el eje horizontal. Se utiliza para la
representación de la variable continua.

20
0
18
0
16
0
14
0
12 50-60

60-70

70-80

80-90

90-100
0
10
0
80
60
40
20
0
0-10

10-20

30-40

40-50
20-30

pictogramas: es una forma de representar las cantidades estadísticas por medio


de dibujos, utilizando para ello objetos y figuras; las figuras deben explicarse por
si mismas. Se acostumbra que el tamaño sea uniforme, indicándose aparte de las
figuras el valor de una de ellas. Por otro lado, el tamaño puede variar y la altura
de cada objeto estará dada por la frecuencia absoluta o relativa; pero una
inmensa mayoría considera que dicha representación puede conducir a errores en
su interpretación, especialmente cuando los tamaños de las figuras no son
proporcionales a la cantidad que se representa. Si los tamaños de las figuras no
son uniformes pero sí proporcionales, se tendrá una representación exacta pero
poco expresiva.

30
25
UNIVERSIDAD NACIONAL DE INGENIERIA

20
15
10
5
0
1990 1991 1992 1993 1994 1995 1996
UNIVERSIDAD NACIONAL DE INGENIERIA

cartogramas: es la representación de una información estadística por medio de


mapas, dentro de los cuales se ubican símbolos y, en algunos casos, gráficas;
para indicar tanto la localización geográfica así como la importancia del valor de la
variable observada en relación con el conjunto.

diagramas de barras: es uno de los gráficos mas utilizados por su sencillez y por
la facilidad que ofrece para representar las características cuantitativas y
cualitativas. Pueden ser:
Verticales

30
25
20
15
10
5
0
1990 1991 1992 1993 1994 1995 1996

Horizontales

1996
1995
1994
1993
1992
1991
1990

0 5 10 15 20 25 30
UNIVERSIDAD NACIONAL DE INGENIERIA

Simples

25
20
15
10
5
0
1990 1991 1992 1993 1994 1995 1996

Subdivididas

60
50
40
30
20
10
0
1990 1991 1992 1993 1994 1995 1996

Valor 1 Valor 2

Absolutas

30
25
20
15
10
5
0
1990 1991 1992 1993 1994 1995 1996
UNIVERSIDAD NACIONAL DE INGENIERIA

Relativas

20,00%

15,00%

10,00%

5,00%
0,00
% 1990 1991 1992 1993 1994 1995 1996

Bidireccionales

-30 -20 -10 0 10 20 30


Export. Importac.

Apareadas

30
25
20
15
10
5
0
1990 1991 1992 1993 1994 1995 1996
Valor 1 Valor 2
UNIVERSIDAD NACIONAL DE INGENIERIA

diagramas circulares: se utiliza con mucha frecuencia para


representar características cualitativas, y sirve para hacer notar las diferencias en
las proporciones o porcentajes en que está dada la distribución. Este tipo de
comparación es relativamente efectivo, siempre que los segmentos sean lo
suficientemente grandes para permitir comparaciones. El proceso que se sigue en
la confección de la gráfica circular o pastel, consiste en subdividir los 360º de la
circunferencia, proporcionalmente al porcentaje de cada una de las clases que ha
tomado la característica.

1996 1990
18% 11%

199
1
16
%

1995
14%

199
2
12
%
1994
16% 1993
UNIVERSIDAD NACIONAL DE INGENIERIA

diagramas de líneas: es otra de las gráficas muy utilizadas pero,


al mismo tiempo, la que presenta mayores dificultades en la
visualización de los datos, dando lugar, algunas veces, a imágenes
o conclusiones erróneas debido a la mala confección de las escalas
de los ejes. También se los denomina curvas de sucesión porque
generalmente se refieren a variables observadas durante un periodo.
Dichas variables se denominan series de tiempo o series cronológicas:
la variable tiempo se coloca en el eje horizontal y los valores que toma
la variable en
el eje vertical

Las medidas de tendencia central son medidas estadísticas que pretenden resumir
en un solo valor a un conjunto de valores. Representan un centro en torno al cual
se encuentra ubicado el conjunto de los datos. Las medidas de tendencia central
más utilizadas son: media, mediana y moda. Las medidas de dispersión en cambio
miden el grado de dispersión de los valores de la variable. Dicho en otros términos
las medidas de dispersión pretenden evaluar en qué medida los datos difieren entre
sí. De esta forma, ambos tipos de medidas usadas en conjunto permiten describir
un conjunto de datos entregando información acerca de su posición y su dispersión.

Los procedimientos para obtener las medidas estadísticas difieren levemente


dependiendo de la forma en que se encuentren los datos. Si los datos se encuentran
ordenados en una tabla estadística diremos que se encuentran “agrupados” y si los
datos no están en una tabla hablaremos de datos “no agrupados”.

Según este criterio, haremos primero el estudio de las medidas estadísticas para
datos no agrupados y luego para datos agrupados.

• Medidas estadísticas en datos no agrupado


• Medidas de tendencia central

Promedio o media
La medida de tendencia central más conocida y utilizada es la media aritmética o
promedio aritmético. Se representa por la letra griega µ cuando se trata del
UNIVERSIDAD NACIONAL DE INGENIERIA

promedio del universo o población y por Ȳ (léase Y barra) cuando se trata del
promedio de la muestra. Es importante destacar que µ es una cantidad fija mientras
que el promedio de la muestra es variable puesto que diferentes muestras extraídas
de la misma población tienden a tener diferentes medias. La media se expresa en
la misma unidad que los datos originales: centímetros, horas, gramos, etc.

Si una muestra tiene cuatro observaciones: 3, 5, 2 y 2, por definición el estadígrafo


será:

Estos cálculos se pueden simbolizar:

Donde Y1 es el valor de la variable en la primera observación, Y2 es el valor de la


segunda observación y así sucesivamente. En general, con “n” observaciones, Yi
representa el valor de la i-ésima observación. En este caso el promedio está dado
por

De aquí se desprende la fórmula definitiva del promedio:

Desviaciones: Se define como la desviación de un dato a la diferencia entre el valor


del dato y la media:

Ejemplo de desviaciones:

Una propiedad interesante de la media aritmética es que la suma de las


desviaciones es cero.

Mediana
Otra medida de tendencia central es la mediana. La mediana es el valor de la
variable que ocupa la posición central, cuando los datos se disponen en orden de
magnitud. Es decir, el 50% de las observaciones tiene valores iguales o inferiores a
la mediana y el otro 50% tiene valores iguales o superiores a la mediana.

Si el número de observaciones es par, la mediana corresponde al promedio de los


dos valores centrales. Por ejemplo, en la muestra 3, 9, 11, 15, la mediana es
(9+11)/2=10.

Moda
La moda de una distribución se define como el valor de la variable que más se repite.
En un polígono de frecuencia la moda corresponde al valor de la variable que está
bajo el punto más alto del gráfico. Una muestra puede tener más de una moda.

• Medidas de dispersión

Las medidas de dispersión entregan información sobre la variación de la variable.


Pretenden resumir en un solo valor la dispersión que tiene un conjunto de datos.
Las medidas de dispersión más utilizadas son: Rango de variación, Varianza,
Desviación estándar, Coeficiente de variación.
UNIVERSIDAD NACIONAL DE INGENIERIA

Rango de variación
Se define como la diferencia entre el mayor valor de la variable y el menor valor de
la variable.

La mejor medida de dispersión, y la más generalizada es la varianza, o su raíz


cuadrada, la desviación estándar. La varianza se representa con el símbolo σ²
(sigma cuadrado) para el universo o población y con el símbolo s2 (s cuadrado),
cuando se trata de la muestra. La desviación estándar, que es la raíz cuadrada de
la varianza, se representa por σ (sigma) cuando pertenece al universo o población
y por “s”, cuando pertenece a la muestra. σ² y σ son parámetros, constantes para
una población particular; s2 y s son estadígrafos, valores que cambian de muestra
en muestra dentro de una misma población. La varianza se expresa en unidades de
variable al cuadrado y la desviación estándar simplemente en unidades de variable.

Fórmulas
Donde µ es el promedio de la población.

Donde Ȳ es el promedio de la muestra.

Consideremos a modo de ejemplo una muestra de 4 observaciones

Según la fórmula el promedio calculado es 7, veamos ahora el cálculo de las


medidas de dispersión:

s2 = 34 / 3 = 11,33 Varianza de la muestra

La desviación estándar de la muestra (s) será la raíz cuadrada de 11,33 = 3,4.

Interpretación de la varianza (válida también para la desviación estándar): un alto


valor de la varianza indica que los datos están alejados del promedio. Es difícil hacer
una interpretación de la varianza teniendo un solo valor de ella. La situación es más
clara si se comparan las varianzas de dos muestras, por ejemplo varianza de la
muestra igual 18 y varianza de la muestra b igual 25. En este caso diremos que los
datos de la muestra b tienen mayor dispersión que los datos de la muestra a. esto
significa que en la muestra a los datos están más cerca del promedio y en cambio
en la muestra b los datos están más alejados del promedio.

Coeficiente de variación
Es una medida de la dispersión relativa de los datos. Se define como la desviación
estándar de la muestra expresada como porcentaje de la media muestral.

Es de particular utilidad para comparar la dispersión entre variables con distintas


unidades de medida. Esto porque el coeficiente de variación, a diferencia de la
desviación estándar, es independiente de la unidad de medida de la variable de
estudio.
UNIVERSIDAD NACIONAL DE INGENIERIA

• Medidas de tendencia central y de dispersión en datos agrupados

Se identifica como datos agrupados a los datos dispuestos en una distribución de


frecuencia. En tal caso las fórmulas para el cálculo de promedio, mediana, modo,
varianza y desviación estándar deben incluir una leve modificación. A continuación
se entregan los detalles para cada una de las medidas.

Promedio en datos agrupados


La fórmula es la siguiente:

Donde ni representa cada una de las frecuencias correspondientes a los diferentes


valores de Yi.

Consideremos como ejemplo una distribución de frecuencia de madres que asisten


a un programa de lactancia materna, clasificadas según el número de partos. Por
tratarse de una variable en escala discreta, las clases o categorías asumen sólo
ciertos valores: 1, 2, 3, 4, 5.

Entonces las 42 madres han tenido, en promedio, 2,78 partos.

Si la variable de interés es de tipo continuo será necesario determinar, para cada


intervalo, un valor medio que lo represente. Este valor se llama marca de clase (Yc)
y se calcula dividiendo por 2 la suma de los límites reales del intervalo de clase. De
ahí en adelante se procede del mismo modo que en el ejercicio anterior,
reemplazando, en la formula de promedio, Yi por Yc.

Mediana en datos agrupados


Si la variable es de tipo discreto la mediana será el valor de la variable que
corresponda a la frecuencia acumulada que supere inmediatamente a n/2. En los
datos de la tabla 1 Me=3, ya que 42/2 es igual a 21 y la frecuencia acumulada que
supera inmediatamente a 21 es 33, que corresponde a un valor de variable (Yi) igual
a 3.

Si la variable es de tipo continuo es necesario, primero, identificar la frecuencia


acumulada que supere en forma inmediata a n/2, y luego aplicar la siguiente
fórmula:

Donde:

Moda en datos agrupados


Si la variable es de tipo discreto la moda o modo será al valor de la variable (Yi) que
tenga la mayor frecuencia absoluta ( ). En los datos de la tabla 1 el valor de la moda
es 3 ya que este valor de variable corresponde a la mayor frecuencia absoluta =16.

Más adelante se presenta un ejemplo integrado para promedio, mediana, varianza


y desviación estándar en datos agrupados con intervalos.
UNIVERSIDAD NACIONAL DE INGENIERIA

Varianza en datos agrupados


Para el cálculo de varianza en datos agrupados se utiliza la fórmula

Con los datos del ejemplo y recordando que el promedio (Y) resultó ser 2,78 partos
por madre,

Cuando los datos están agrupados en intervalos de clase, se trabaja con la marca
de clase (Yc), de tal modo que la fórmula queda:

Donde Yc es el punto medio del intervalo y se llama marca de clase del intervalo

Yc= (Límite inferior del intervalo + limite superior del intervalo)/2.

• Percentiles

Los percentiles son valores de la variable que dividen la distribución en 100 partes
iguales. De este modo si el percentil 80 (P80) es igual a 35 años de edad, significa
que el 80% de los casos tiene edad igual o inferior a 35 años.

Su procedimiento de cálculo es relativamente simple en datos agrupados sin


intervalos.

Retomemos el ejemplo de la variable número de partos:

El percentil j (Pj) corresponde al valor de la variable (Yi ) cuya frecuencia acumulada


supera inmediatamente al “j” % de los casos (jxn/100).

El percentil 80, en los datos de la tabla, será el valor de la variable cuyo Ni sea
inmediatamente superior a 33,6 ((80x42) /100).

El primer Ni que supera a 33,6 es 39. Por lo tanto al percentil 80 le corresponde el


valor 4. Se dice entonces que el percentil 80 es 4 partos (P80=4). Este resultado
significa que un 80% de las madres estudiadas han tenido 4 partos o menos.

Si los datos están agrupados en una tabla con intervalos, el procedimiento es


levemente más complejo ya que se hace necesaria la aplicación de una fórmula.

Se aplica a los datos del intervalo cuya frecuencia acumulada ( Ni ) sea


inmediatamente superior al “j” % de los casos (jxn/100).

En la siguiente tabla se muestra la distribución de 40 familias según su ingreso


mensual en miles de pesos. Nótese que para calcular el centro de clase se usaron
los límites reales de cada intervalo.

1. El ingreso mensual promedio será:


UNIVERSIDAD NACIONAL DE INGENIERIA

2. La mediana será:

Esto significa que un 50% de las familias tiene ingreso mensual igual o inferior a
$127.270.

3. El percentil 78 será:

Por lo tanto se puede decir que 78% de las familias tienen ingreso igual o inferior a
$174.660.

4. Los percentiles 10 y 90 serán:

A base de los valores de los percentiles 10 y 90 se pueden hacer tres afirmaciones:

• El 10% de las familias tiene ingreso igual o inferior a $90.000.


• El 90% de las familias tiene ingreso igual o inferior a $210.000.
• El 80% central, de las familias, tiene ingreso entre $90.000 y $210.000

5. - La varianza será:

6. La desviación estándar es la raíz cuadrada de esta cifra, es decir: 43,76.

También podría gustarte