Está en la página 1de 20

ESTADÍSTICA

INTRODUCCION

La Estadística en su acepción más general, puede considerarse como la ciencia que estudia las
“regularidades” que se observan en una serie de fenómenos que pueden expresarse a través de
la información numérica.

En una segunda acepción la Estadística es un conjunto de métodos científicos que nos


permiten interpretar la información numérica, elegir muestras representativas para hacer
inferencias, contrastar hipótesis, estimar relaciones causa-efecto y hacer predicciones.

La estadística se divide en tres ramas claramente diferenciadas :


1. La Estadística Descriptiva
2. El Cálculo de Probabilidades, y,
3. La Inferencia Estadística

La Estadística Descriptiva está constituida por un conjunto de técnicas y métodos que


permiten recoger, organizar y analizar los datos, para luego ir extrayendo conclusiones
particulares de las mismas. Se puede decir que la estadística descriptiva va de lo general a lo
particular, que es la esencia del “Método Deductivo”.

El Cálculo de Probabilidades también emplea el método deductivo ya que en esencia es


un razonamiento puramente matemático. Esta parte no constituye en sí una rama de la
estadística, si no las herramientas matemáticas y modelizadoras en las que se apoyará la
Inferencia estadística para su formulación y desarrollo.

La Inferencia Estadística emplea el método inductivo basándose en el conjunto


instrumental matemático-deductivo que le proporciona el Cálculo de probabilidades. La
inferencia estadística es considerada como la estadística moderna, ya que se ha desarrollado a
lo largo del siglo XX con unión y confluencia de la descriptiva y el cálculo de probabilidades.

1
ORGANIZACIÓN DE DATOS

CONCEPTOS FUNDAMENTALES :

Vamos a exponer de forma sencilla una serie de definiciones que constantemente las estaremos
empleando en estadística.
1. Población : Se entiende por población, universo o colectivo a un conjunto de elementos que
tienen una característica común.
Las poblaciones deben estar definidas con absoluta precisión de forma que se pueda definir
si un elemento pertenece o no pertenece a la misma.
Se clasifican en infinitos y finitos según el número de elementos que tengan. En el mundo
económico y social estaremos casi siempre ante poblaciones finitas : habitantes de una
región, empresas de un sector, demandantes potenciales o reales de un producto, etc. A
toda característica de la población se la conoce como parámetro.
2. Muestra : Es todo subconjunto representativo de la población, de forma que las
conclusiones
sacadas en ella se generalizan a la población. A toda característica de la muestra se conoce
como estadígrafo.

Las poblaciones se pueden estudiar bien realizando una investigación exhaustiva de


todos sus elementos y entonces decimos que estamos realizando un Censo, o bien,
investigamos una parte o subconjunto de las mismas y entonces decimos que estamos
realizando un estudio muestral.
3 Atributo : Es toda característica poblacional no susceptible de ser medida numéricamente,
por ejemplo
- El sexo de una población humana cuyas modalidades son : varón y mujer.
- Los colores de un semáforo cuyas modalidades son : rojo, verde y amarillo.
- La profesión de un conjunto de personas activas.
4 Variables: Son las características poblacionales susceptibles de tomar valores numéricos.

Las variables pueden clasificarse en discretas y continuas.

Variables discretas son aquellas que asumen valores específicos o determinados,


generalmente enteros y sirven para contar.
2
Variables continuas son aquellas que asumen valores en un rango específico o
determinado, pueden ser enteras o fraccionarias y sirven para contar.

DISTRIBUCIONES DE FRECUENCIAS UNIDIMENSIONALES :

En estadística descriptiva conocemos como distribuciones de frecuencias


unidimensionales a aquellas en las cuales solo observamos una característica en los elementos
de una población o de una muestra.
Existen dos tipos fundamentales de distribuciones de frecuencias :
las de datos no agrupados y las de datos agrupados en intervalos de clases.

DISTRIBUCIONES DE FRECUENCIAS UNIDIMENSIONALES CON LOS DATOS NO AGRUPADOS.

Designemos con X la característica ( puede ser una variable o un atributo) que


deseamos observar en los elementos de una población o de una muestra.
Observamos los distintos valores o modalidades de la característica; si es una variable
que admite ordenación, se ordena de menor a mayor y como puede haber valores que se repiten
, se agrupan todos ellos. Si un valor o dato Xi se repite fi veces, a este se le denomina
frecuencia absoluta de dicho valor. Al proceso que hemos descrito se le denomina tabulación
de datos y cuando se culmina se obtiene un conjunto formado por valores ordenados de menor
a mayor, que tienen asociados el número de veces que han aparecido, y lo llamamos
distribución de frecuencias unidimensional de datos o valores no agrupados.

EJERCICIO 1:

En un sector de la ciudad de Ambato se ha preguntado a 20 familias que lo integran, el


número de personas que trabajan en cada una. Las respuestas han sido representadas en la
siguiente tabla :

1 0 2 4 1 3 2 0 1 1
1 1 1 0 0 1 1 1 2 2

3
A partir de esta información construir la tabla de la distribución de frecuencias.

Xi fi fì ’ ( F  )' ( F  )'
Fi  i Fi i

0 4 4/20 = 0.20 4 4/20=0.2 16 16/20=0.8


1 10 10/20 = 0.50 14 14/20=0.7 6 6/20=0.3
2 4 4/20 = 0.20 18 18/20=0.9 2 2/20=0.1
3 1 1/20 = 0.05 19 19/20=0.95 1 1/20=0.05
4 1 1/20 = 0.05 20 20/20=1 0 0/20=0

SUMATORIA 20 1.00

.fi : frecuencia absoluta : nos indica el número de veces que el valor de una variable se repite
en la serie numérica. La suma de las frecuencias absolutas es igual al número de datos ( n )

f n

.fi’ : frecuencia relativa : Es la proporción que corresponde a la variable con relación a la


totalidad de los datos de la población o de la muestra, si a este valor lo multiplicamos por
100 obtendremos porcentajes, se la determina dividiendo la frecuencia absoluta para el
número de datos.

fi
f'
i
n

La suma de las frecuencias relativas se igual a la unidad, si se halla expresada en porcentaje


será igual al cien por cien.

 fi ' 1.00

4
F :
i Frecuencia acumulada ascendente : Nos determina el número de datos que se han
acumulado hasta un determinado valor de la variable, se la determina mediante la suma
progresiva de las frecuencias absolutas.

Fi   f 1
FF f
2 1 2
 
F F  f
3 2 3

FF  f
i i1 i

 F i  n

F:
i Frecuencia acumulada descendente: Nos determina el número de datos que restan, luego
de quitar la frecuencia absoluta correspondiente a la variable, se la obtiene restando al
número de datos el valor de la frecuencia acumulada de la variable.
n  n  f
1 1
 
n n  f
2 1 2
 
n n  f
3 2 3

ni  n  fi
=0

Las frecuencias relativas acumuladas tanto ascendentes como descendentes se las obtiene
dividiendo las frecuencias acumuladas respectivas para el número de datos.

Todo lo dicho anteriormente está referido a observaciones de naturaleza cuantitativa. Si la


variable es cualitativa, o sea, nos referimos a un atributo que toma distintas modalidades,
no tiene ningún sentido el calcular frecuencias acumuladas. La tabla de frecuencias en esos
casos se construye de la forma siguiente: en la primera columna se describen las distintas
modalidades, en la segunda se registran las frecuencias absolutas y en la tercera las
relativas.

5
EJERCICIO 2 :

En 100 personas mayores de edad se ha observado que 50 son casados, 25 solteros, 15


viudos y 10 divorciados. Con los datos anteriores construir la tabla de frecuencias de la
variable cualitativa o atributo denominado estado civil.

Xi fi f ' x100
fi' i

Casado 50 50/100 = 0.50 50


Viudo 15 15/100 = 0.15 15
Soltero 25 25/100 = 0.25 25
Divorciado 10 10/100 = 0.10 10
.n = 100 1.00 100

REPRESENTACIONES GRAFICAS PARA DISTRIBUCIONES DE FRECUENCIA DE DATOS


CUALITATIVOS.

Las representaciones gráficas que nos proporciona la Estadística Descriptiva, nos


permiten visualizar inmediatamente que contienen los datos observados, pero esto no quiere
decir que el estudio analítico sea innecesario, ya que el proceso analítico es aquel que nos
proporciona las conclusiones definitivas del fenómeno objeto del estudio.

Las representaciones gráficas son simplemente una forma complementaria, nunca


sustitutiva de describir la realidad que nos interesa y se pueden construir los gráficos: De
rectángulos, de sectores o pastel entre los más importantes.

El gráfico de rectángulos es aquel que tiene todos sus rectángulos con la misma base,
pero su área está determina por la frecuencia absoluta.

6
Gráfico de rectángulos para el ejercicio Nº 2

60
50
40
30
20
10
0

GRAFICO DE SECTORES:

El gráfico de sectores o de pastel es aquel en el cual el área de cada sector es


proporcional a la frecuencia de cada modalidad : casados 50, viudos 15, solteros 25 y
divorciados 10

El gráfico de sectores se construye en el interior de un círculo, para poder realizar esto se


relaciona la totalidad de datos con el total de grados que puede girar un punto para formar una
circunferencia, es decir 360 grados, luego se forma una regla de tres, para transformar a grados
la frecuencia absoluta de cada valor de la variable en grados.

DIVOR
CIADO
10%
SOLTE CASAD
RO O
25% 50%
VIUD
O
15% 7
GRÁFICOS EN EXCEL

HISTOGRAMA
60

50

40

30

20

10

0
Casado Viudo Soltero Divorciado

POLÍGONO DE FRECUENCIAS
60

50

40

30

20

10

0
Casado Viudo Soltero Divorciado

SECTORES

Casado Viudo Soltero Divorciado

8
REPRESENTACIONES GRAFICAS PARA DISTRIBUCIONES DE FRECUENCIAS DE DATOS
CUANTITATIVOS.

Para establecer las representaciones gráficas con datos cuantitativos, debemos


identificar, el tipo de variable con la que se está trabajando, cuando se trabaja con una variable
discreta, se pueden elaborar las siguientes representaciones gráficas: de barras y pastel o
sectores. Cuando se trabaja con una variable continua se pueden laborar los siguientes gráficos:
de columna o histograma, polígono de frecuencias absolutas, polígono de frecuencias
acumuladas u ojiva y el grafico de sectores o pastel, entre otros.

El gráfico de barras se lo representa en un sistema de ejes coordenados, graficando en el eje


de abscisas a los valores que asume la variable discreta, mientras en el eje de ordenadas se
representa los valores de la frecuencia absoluta o relativa.

DISTRIBUCIONES DE FRECUENCIAS UNIDIMENSIONALES CON LOS DATOS AGRUPADOS EN


INTERVALOS DE CLASES
Este tipo de distribuciones se elabora cuando el número de valores que puede tomar la
característica de interés es muy elevado con lo que es necesario agruparlos en intervalos de
clase. Estos intervalos sólo tienen sentido en el caso de variables cuantitativas en las que se
puede aplicar las escalas que llevan este nombre o las de razón.

La agrupación de los valores de la característica que se esté analizando en intervalos de


clase tiene el inconveniente de producir una pérdida de información, ya que si sabemos que si
un dato se encuentra dentro de un determinado intervalo, no podemos conocer su valor exacto
sino sólo que se sitúa dentro de unos límites determinados. Esta pérdida de información se
compensa con una mayor manejabilidad de la distribución.

Se establece que una distribución de frecuencias debe tener como mínimo cinco
intervalos de clase y como máximo 20. Tener menos de cinco significa que los datos están muy
agrupados y eso desfigura la distribución, en cambio sí tiene más de veinte significa que los
datos están muy repartidos, pudiendo inclusive existir intervalos que carezcan de elementos.

Existen diferentes maneras para calcular el número de intervalos de clase que debe
tener una distribución de frecuencias, nosotros consideraremos una de las siguientes:
9
Nº de Intervalos de Clase ( I de C) = n o también

Nº de Intervalos de Clase ( I de C) = 2c> n en donde c se determina por tanteo.

Luego es necesario determinar la amplitud o recorrido de los intervalos de clase, lo


cual lo obtenemos de la siguiente manera :

.k = amplitud o recorrido del intervalo de clase

Ls  Li
kNºI
deC en donde : Ls = Límite superior de los datos
Li = Límite inferior de los datos

o a su vez se puede calcular k = Rango/ N. de intervalo de clase

Luego se debe determinar el límite inferior del primer intervalo de clase y límite
superior del último, lo cual se obtiene de la siguiente forma:

Nº I de C x k = R1
Ls - Li = R2

Si R1 es igual a R2 o si R1< R2 debemos incrementar en un valor, el Nº de I de C o el valor de


k, con el que se obtenga el menor valor ,para que la diferencia entre los dos rangos obtenidos
sea siempre mayor que cero.

R1 – R2 = D

La diferencia obtenida dividimos para dos, por cuanto tenemos dos límites, superior e inferior
en los datos, este cociente lo restamos al límite inferior de los datos y a la vez lo sumamos al
límite superior, obteniendo de esta manera los límites inicial y final de la distribución de
frecuencias.
D/2 = K
Li(calculado) = Li(real) – K

10
Ls(calculado) = Ls(real) + K

11
A efectos operativos, es necesario también conocer la marca de clase o punto medio del

intervalo de clase, al cual se lo representa por xi , y se constituye en el valor representativo del


intervalo ya que se lo calcula sumando los límites del intervalo de clase y dividiendo para dos.

EJERCICIO 3 :

El almacén La Moda ha abierto sus puertas al público durante 45 días y han obtenido
las siguientes recaudaciones:

165,00 100,50 123,20 100,00 225,40


73,25 138,00 183,00 146,00 250,00
170,85 190,00 119,00 137,60 150,75
202,10 72,80 212,00 230,90 245,00
158,00 50,00 130,50 216,00 177,00
263,90 198.67 65,87 315,60 109,90
200,00 197,50 113,89 204,45 296,40
98,00 245,78 256,60 164,70 85,90
255,60 237,40 116,40 59,30 173,60

Construir una distribución de frecuencia para datos agrupados en intervalos de clases.

1.- Determinamos el número de intervalos de clase

Nº I de C = 45 Nº I de C = 26> 45
= 6.71 = 64 > 45
= 7.00 =6

Nosotros decidimos adoptar siete intervalos de

clase. 2.- Calculamos la amplitud del intervalo de

clase:

Ls  Li 31550
kNºI k
7 k  37
deC
12
3.- Determinamos el límite inferior del primer intervalo de clase y el límite superior del último
intervalo de clase:

7 x 37 = 259
315 – 50 = 265

259 - 265 = - 6 como R1< R2 incrementamos en una unidad la amplitud del intervalo de
clase.

7 x 38 = 266
315 – 50 = 265

266 - 265 = 1 este valor dividimos para dos

1 / 2 = 0,5 este valor sumamos al límite inferior y sumamos al superior de los datos.

Li(calculado) = 50 - 0,5 Ls(calculado) = 315 + 0,5


= 49.50 = 315,50
Nº I de C Xi f ' (F  )' (F  )'
f Fi  Fi  i i

49.5 < Xi < 87.5 68.5 6 0.13 6 39 0.13 0.87


87.5 < Xi < 125.5 106.5 8 0.17 14 31 0.30 0.69
125.5 < Xi < 163.5 144.5 6 0.13 20 25 0.43 0.56
163.5 < Xi < 201.5 182.5 10 0.23 30 15 0.66 0.33
201.5 < Xi < 239.5 220.5 7 0.16 37 8 0.82 0.18
239.5 < Xi < 277.5 258.5 6 0.13 43 2 0.95 0.04
277.5 < Xi < 315.5 296.5 2 0.05 45 0 1.00 0.00
45 1.00

REPRESENTACIONES GRÁFICAS:
Cuando los datos se encuentran agrupados en distribuciones de frecuencias, se los puede
representar gráficamente empleando los gráficos conocidos como: Histograma o gráfico de
columna, Polígono de frecuencias absolutas, polígono de frecuencias acumuladas u Ojiva y el
grafico de sectores entre los más importantes.

13
HISTOGRAMA:

POLIGONO DE FRECUENCIAS

POLIGONO DE FRECUENCIAS

12

10

0
RECAUDACIONES

14
POLIGONO DE FRECUENCIAS ACUMULADAS - OJIVA

OJIVA

50
45
40
35
TOTAL DE DI

30
25
20
15
10
5
0
RECAUDACIONES

GRAFICO DE SECTORES:

GRAFICO DE SECTORES

4% 13%
13%

18%

16%

13%
23%

15
MEDIDAS DE TENDENCIA CENTRAL

Se conoce con este nombre a ciertos valores o medidas que tienden a indicarnos los
valores promedios o representativos de un conjunto de datos. Entre estas medidas tenemos:

1. La media aritmética
2. La media ponderada

MEDIA ARITMETICA
Es una medida que nos indica el valor promedio de un conjunto de datos, se la conoce
generalmente con el nombre de media y se la puede calcular para datos no agrupados como
para datos agrupados.

MEDIA PARA DATOS NO AGRUPADOS: La media aritmética con datos no agrupados se

define como la sumatoria de los datos dividida para el número de datos y se representa por X .

Consideremos la serie : X1, X2, X3...........................................Xn

X1  X 2  X3 ................ X n
X n
Entonces:

X
X i

Aplicando el operador sumatoria: n

EJERCICIO:
Calcular el promedio de las edades de 10 personas, cuyos valores en años son:

20 21 19 19 19 20 21 20 18 23

20  2119 19 19  20  21 20 18  23


X 10
200
X  10
X  20

16
MEDIA ARITMETICA PARA DATOS AGRUPADOS: Se dice que los datos están agrupados
cuando se ha resumido la información mediante una tabla de distribución de frecuencias, y, en
ese caso, el valor promedio o media aritmética se define como la suma de las marcas de clase
por su frecuencia absoluta divida para el número de datos. Matemáticamente se expresa como:

En
donde:
Xi fi
X n Xi : marca de clase o punto medio del I. de Clase
fi : frecuencia absoluta del Intervalo de Clase
n : número de datos

EJERCICIOS:

Calcular la media aritmética de las ventas realizadas durante 45 días del almacén La Moda

Nº I de C Xi f Xi*fi
49.5 < Xi < 87.5 68.5 6 411
87.5 < Xi < 125.5 106.5 8 852
125.5 < Xi < 163.5 144.5 6 867
163.5 < Xi < 201.5 182.5 10 1825
201.5 < Xi < 239.5 220.5 7 1543.5
239.5 < Xi < 277.5 258.5 6 1551
277.5 < Xi < 315.5 296.5 2 593
45 7642.5

X i fi
X n

X 169.83

17
LA MEDIA PONDERADA

Es una medida que nos determina el valor promedio de una serie numérica cuando los valores
se repiten distintos números de veces, a estas repeticiones o variaciones se las conoce con el
nombre de ponderaciones, pesos o grados de importancia.

Si tenemos X1, X2, X3................................................Xn

Con pesos W1, W2, W3........................................Wn

Entonces la media ponderada sería:

X 1 *W1  X 2 *W2 ............X n *Wn


Xw 
W1 W2 ...........Wn

 X i Wi
X w Wi
EJERCICIOS
Un laboratorio de control de calidad de una empresa quiere lanzar al mercado un nuevo
ambientador spray; selecciona 50 apartamentos de una urbanización para determinar el
tiempo de permanencia del aroma; los resultados fueron observados cada hora, habiéndose
obtenido los siguientes resultados: 10 horas, 5 apartamentos; 3 horas, 3 apartamentos; 5
horas, 10 apartamentos; 4 horas, 7 apartamentos; 6 horas, 16 apartamentos y 8 horas, 9
apartamentos.
a) Cuál es la población?
b) Cuál es la muestra?
c) Cuál es la variable?
d) De que tipo es la variable?
e) Cuál es el promedio de permanencia del aroma?

La media aritmética de los salarios pagados en un mes a los empleados de una empresa
ascendió a 36.000,00 USD. La media aritmética de los salarios pagados a los hombres y a las
mujeres fue respectivamente de 38.000,00 y 35.000,00 USD. Determinar los porcentajes de
hombres y mujeres empleados en dicha compañía.

18
MEDIDAS DE DISPERSIÓN

Si bien es cierto las medidas de tendencia central son importantes características estadísticas de
una muestra, pero también es importante conocer cómo se reparten o se dispersan los datos a
uno u otro lado del centro, ésta última característica de una distribución se conoce como
dispersión o variación.

Esta dispersión nos permite valorar el grado de uniformidad de una distribución:


1.- Una gran dispersión nos indica poca uniformidad de los datos en la distribución
2.- Una pequeña dispersión nos indica gran uniformidad de los datos en la
distribución. 3.- La ausencia de dispersión nos indica uniformidad absoluta de los
datos.

Puede acontecer que varias distribuciones tengan iguales promedios, pero diferencias de
variabilidad sustanciales. Por ej. Supongamos que en una empresa se trabaja en dos turnos de
trabajadores. La relación obrero – producción por hora de cada uno de los turnos la
presentamos a continuación
PRIMER TURNO SEGUNDO TURNO
Nº de trabajad. Art. prod./ hora Nº de trabajad. Art. prod./ hora
1 7 1 3
2 9 1 4
4 11 1 5
2 10 1 6
1 8 2 9
1 12
1 13
1 14
1 15

PRIMER TURNO SEGUNDO TURNO

45 81
X 5 X9

X 9
X 9
19
En el ejemplo anterior al observar que los promedios de producción por hora
son iguales, podemos caer en el error de manifestar que las distribuciones
también son iguales, más podemos observar que existe una marcada
diferencia en el grado de dispersión de sus datos.

1.- Los trabajadores del primer turno muestran relativamente poca variación
en sus producciones por hora.
2.- Los trabajadores del segundo turno tienen mucha mayor variación en sus
producciones por hora.

En consecuencia al existir grados de variabilidad diferente concluimos


indicando que las distribuciones no son idénticas.

ESTADÍGRAFOS DE TENDENCIA CENTRAL

Se utilizan para encontrar un valor que represente a todos los datos. Las más
importantes son: la media aritmética, la moda y la mediana.

La media aritmética o promedio: Es el promedio aritmético de los elementos o


valores de la variable

La moda : Es el valor con más frecuencia en un conjunto de datos . Puede


suceder que haya más de una moda o ninguna (si todos los valores tienen
igual frecuencia).

La mediana : Es el valor que deja a lo más la mitad de los valores observados


a la izquierda y a lo más la mitad de los valores observados a la derecha (es
el valor que ocupa el lugar central) al ordenar los datos de menor a mayor. Si
la cantidad de datos es par, la mediana es el promedio entre los dos valores
centrales.

20

También podría gustarte