f0947104 1 Estadistica Descriptiva

Estadística Descriptiva
Conceptos Previos
Estadística: Disciplina que estudia los métodos para extraer información y obtener conclusiones
razonables, cuando hay incertidumbre. Para ello, se nutre de herramientas matemáticas, lógicas y
subjetivas. La estadística hace referencia a la información disponible y a la utilización que le
damos.
Población o Universo: Es el conjunto del cual se extraen las observaciones y sobre el cual
deseamos realizar afirmaciones, tanto pasadas o presentes (descriptivas) como futuras
(inferencias). Habitualmente el universo es demasiado grande como para realizar el análisis sobre
él, por lo que se toma una muestra representativa para ese propósito.
Muestra: Es un subconjunto de la población que se escoge de manera representativa para realizar

un análisis estadístico.
Observación: Es el resultado que arroja un experimento. Es importante familiarizarse con este

término para poder realizar un correcto análisis de la información.
Subíndices (xi): Sirven para identificar y ordenar los distintos resultados de un experimento. Cada
resultado de ese experimento va a estar dentro de un espacio muestral, pero no necesariamente
es el mismo en cada repetición. De ahí que al resultado se lo llama variable (habitualmente se
representa con la “x”, y se utiliza el subíndice “i” para identificar a cuál de todos los resultados se
hace referencia.
Operadores con subíndice: Los operadores con subíndice resumen la reiteración de la operación
matemática que representan. La cantidad de reiteraciones está marcada por los subíndices.
Ejemplo: Sumatoria.
= + +. . . + +
4 = 4 + 4 + 4+. . . +4 + 4 = +1 .4 = − + 1 .4
+ = + + + +. . . + + + + = + = + +1 .
Análisis de la información:
Una vez que tomamos la decisión de realizar un análisis de la información disponible (ya sea a
través de una muestra o del total de la población) nos encontramos con que tenemos datos u
observaciones, que son los resultados de llevar a cabo el experimento de muestreo. Lo primero
que debemos hacer es identificar frente a qué tipos de datos nos estamos enfrentando, en caso de
estar frente a “Hechos Individualizados” podemos optar por trabajar con ellos como se presentan
o agruparlos para simplificar su exposición. Para agruparlos se utilizan las frecuencias, que se
detallarán en el glosario.
Tanto en el caso en que trabajemos con datos agrupados o que los agrupemos nosotros por
simplicidad, debemos calcular las medidas de tendencia central y de variabilidad. Dichas medidas
son de mucha importancia ya que nos van a permitir, con unos pocos valores, darnos una idea de
cómo está compuesta la población y además nos va a permitir compararla con otras poblaciones
para sacar conclusiones.
También podemos calcular las medidas de proporción para comprender un poco más a la
población y en caso de considerarlo necesario realizar una subselección de la muestra/población
para concentrar el análisis.
Por último, es importante tener en claro que la información se la debemos presentar a personas
que no necesariamente tengan conocimientos estadísticos, por lo que al realizar el informe final
debemos dejar de lado los términos técnicos y conceptuales y presentar la información de una
manera que sea fácil de leer y obtener conclusiones. Una herramienta muy útil para simplificar la
visualización de la información son los gráficos, pero su confección no es objeto del presente
resumen. Podemos resumir lo anterior en el siguiente diagrama:
Fase Previa
Hechos Individualizados Cadena de Datos
Hechos Agrupados por Se agrupan los datos Se utilizan las

Tipos de Datos Valor que se repiten frecuencias
Se agrupan los datos

Hechos Agrupados por Se utilizan las
que pertenecen a un
Intervalo frecuencias
mismo intervalo
Frecuencia Absoluta
Frecuencias Frecuencia Relativa
Frecuencia
Acumulada (Absoluta)
Media
Medidas de
Modo
Tendencia Central
Mediana
Medidas
Resumen de Información
Varianza
Medidas de
Desvío típico
Variablidad
Coeficiente de
Variabilidad
Percentiles
Medidas de
Decil Intervalo Interdecil
Proporción
Confección de
Cuartil Intervalo Intercuaril
informe
Presentación
Representación
gráfica de los datos
Glosario:
Hecho: Es cada dato u observación obtenido de la muestra. Habitualmente se ordenan de menor a
mayor para una mejor comprensión y manipulación de la información.
Amplitud muestral: Es la diferencia entre la mayor observación y la menor.
Clase: Son los grupos en los que se agrupa la información. En los casos en que las observaciones
pertenezcan al dominio discreto, los datos se agruparan por valor. En los casos en que las
observaciones pertenezcan al dominio discreto, los datos se agruparan por intervalos; los
intervalos deben ser contiguos y ocupar al menos toda la amplitud muestral, de manera que
contengan a todos los hechos.
Marca de Clase : Es el punto representativo de cada clase. Por considerarse representativo de

la clase es el que se utiliza para calcular las medidas de tendencia, dispersión y proporción.
En los casos en que los datos estén agrupados por valor es redundante, ya que la coincidiría con el
valor de la clase. Para el caso en que se agrupa por intervalos se utiliza el punto medio:
! +
=
2
Con:
! = #$ % $ &'%
= #$ ( % $ &'%
Frecuencia Absoluta : Es la cantidad de veces que se repite un dato por sí mismo o

perteneciente a una cierta clase dependiendo del escenario en el que estemos trabajando. Para
denotarla se utiliza una (minúscula) y un subíndice para especificar a qué clase hace referencia.
Frecuencia Relativa ) : La frecuencia relativa, como dice su nombre, relativiza la incidencia de la

frecuencia absoluta de acuerdo a la cantidad de observaciones tomadas . Así como un
porcentaje hace referencia al “tanto por ciento”, la frecuencia relativa tiene el mismo
razonamiento implícito representando al “tanto por 1” donde 0 es lo mínimo y 1 lo máximo.
) =
Con:
=* ' ' + % $' % '$ #' ' %'+ ' %' '% % '% %'# + %' )
= ,' $ ' '$ +
La cantidad de datos puede ser obtenida contando la cantidad de Hechos (observaciones) si se

trata de Datos Individualizados, o sumando todas las si se trata de Datos Agrupados.
Frecuencia Acumulada * : Es la suma de la frecuencia absoluta de cada clase con la frecuencia
acumulada anterior, teniendo en cuenta que la frecuencia acumulada anterior al primer dato es 0
y que la frecuencia acumulada final tiene que ser igual a la cantidad de datos . Se simboliza con
una * (mayúscula) y con el subíndice para especificar a qué dato/clase hace referencia. Su
cálculo es:
* = +*
Con:
= ' ' + % $' %' %'+ ' %' - % '% %'# + %' '' # %' '.
* =* '. # %' ' ' $ .
Medidas de tendencia central: Son “características” de la población que se encuentran implícitas

en los datos sobre los que trabajamos. Son medidas de posición que nos sirven para darnos una
idea de entre que valores se encuentran las observaciones sin necesidad de entrar en demasiado
detalle.
Media : Es el valor alrededor del cual oscilan los datos. Se la conoce como Media o Media
Aritmética, ya que se trata del valor promedio.
En el caso de que estemos trabajando con hechos individualizados, su cálculo no es más que el
promedio simple (como cualquier estudiante calcula su nota final):
Con:
= /'% %' + &' ó − + #'.
= ,' $ ' '$ +
En el caso en que estemos trabajando con Datos agrupados, su cálculo es a través de un promedio
ponderado:
.
=
Con:
= /'% %' %'+ − + #' /'% %' 1' ' ,%'+ % '+
= ' ' + % $'
= ,' $ ' '$ +

Modo 1 : El modo o moda es el valor que más se repite (si son 2 hechos distintos se dice que es
“bimodal”, si son más de dos se dice que es “amodal”). Lo que significa que en el caso de trabajar
con Datos Agrupados por valor es el de mayor . Para el caso en que los Datos se encuentren
agrupados por Intervalos, el de mayor es el intervalo modal y luego se debe realizar un cálculo
para encontrar el valor del modo:
2
1 = + . '
+ 2
Con:
= #$ ( % $ &'% # '%
=* ' ' + % $' % $ &'% # '%
=* ' ' + % $' % $ &'% ' $ '% $ &'% # '%
2 =* ' ' + % $' % $ &'% +$ '% $ &'% # '%
' = .# % $ % $ &'% # '%
Mediana 1 : Es el valor que deja la misma cantidad de datos por debajo que por encima
(ordenados de menor a mayor).
2
Para el caso en que sea impar, la mediana va a ocupar el lugar , por lo que para el caso de
3
hechos individualizados buscamos el valor que se encuentra en ese orden, y para el caso de datos
2
agrupados por valor buscamos el primer valor en que su * ≥ .
3
Para el caso en que sea par, la mediana va a ser el promedio de los dos valores centrales. Para el
caso de hechos individualizados van a ser los del lugar y + 1. Para el caso de hechos agrupados
3 3
por valor va a ser el promedio del primer valor que acumule 3 y el primer valor que acumule 3 + 1.
Por último, en el caso de Hechos Agrupados por Intervalos, sin importar si es par o impar, se
determina el intervalo que contiene a la mediana viendo cual es el primer intervalo en que * ≥ 3
y luego se realiza el siguiente calculo:
−*
1 = +2 .'
Con:
= #$ ( % $ &'%
=* ' ' + % $' % $ &'%
* =* '. # %' ' % $ &'% ' $

' = .# % $ % $ &'% # '%
= ,' $ ' '$ +
Medidas de variabilidad: Al igual que las medidas de tendencia central, son “características” de la
población que se encuentran implícitas en los datos sobre los que trabajamos. Son medidas de
dispersión que nos sirven para darnos una idea de qué tan “juntos” o “separados” se encuentran
los datos.
Desvío Absoluto Medio (d.m), Varianza (5 3 ) y desvío Estándar (d.e): Parece intuitivo que para
encontrar una medida de dispersión lo mejor sería sumar en cuanto se desvía cada observación de
la media, pero lamentablemente lo que obtendríamos sería 0, ya que por la definición de media,
los datos que se encuentran por encima de la media (sumandos positivos) se compensan con los
datos que se encuentran por debajo (sumandos negativos). Para evitar este problema podemos
adicionar el módulo, con lo que obtendríamos el “Desvío Absoluto Medio”, y ganaríamos unos
cuantos problemas a la hora de operar matemáticamente, o elevar al cuadrado cada sumando con
lo que obtendríamos a la “Varianza”. Por simplicidad a la hora de operar la segunda es más
utilizada que la primer opción.
La Varianza así calculada nos sirve para comparar contra la varianza de otras muestras y
determinar cuál tiene mayor o menor dispersión, pero al elevar al cuadrado todos los sumandos lo
que tenemos es un resultado con la magnitud original elevada al cuadrado (Ejemplo: si trabajamos
con distancias en metros, lo que obtenemos en la varianza es metros al cuadrado, por lo que
estaríamos midiendo la dispersión en área de una variable en distancia, algo que no suena
coherente), por lo que la varianza por sí sola no nos permite suponer mucho sobre la muestra.
Entonces resulta “cómodo” realizarle la raíz cuadrada a la varianza para obtener lo que se conoce
como desvío estándar, que nos va a brindar un resultado en la misma magnitud en la que estamos
trabajando.
En el caso de trabajar con hechos individualizados, la varianza se calcula:
/ = 5 3 son distintas formas de decir lo mismo.
2
−
/ =
=1
Con:
= /'% %' + &' ó − + #'.
= ,' $ ' '$ +
=1 ' '% %' '
En el caso de trabajar con hechos agrupados se calcula:

2
− .
/ =
=1
Con:
= /'% %' %'+ − + #' /'% %' 1' ' ,%'+ % '+
= ' ' + % $' %' %'+
= ,' $ ' '$ +
=1 ' '% %' '
Cabe mencionar que hay un teorema, conocido como el teorema fundamental de la varianza el
cual demuestra que la varianza puede ser calculada de la siguiente manera:
Para datos individualizados:
3. − 3
/ =
= /'% %' + &' ó − + #'.
= ,' $ ' '$ +
=1 ' '% %' '
Para datos agrupados:
3. 3
/ = −
Con:
= /'% %' %'+ − + #' /'% %' 1' ' ,%'+ % '+
= ' ' + % $' %' %'+
= ,' $ ' '$ +
=1 ' '% %' '
Coeficiente de variabilidad ,/ : El desvío estándar nos da un valor absoluto de desvío. Lo que

hace el CV es relativizarlo respecto a la media calculada y así tener una idea de proporción de
variación. El resultado que nos brinda es al “tanto por uno” por lo que si se busca expresarlo en
porcentaje, simplemente hay que multiplicarlo por 100.
6/
,/ =
| |
Algunos autores hablan de población homogénea si el ,/ < 0,1 y medianamente homogénea si
,/ < 0,3
Percentil <= : Los percentiles son los que nos dicen qué parte de la muestra se encuentra por
debajo de un valor, al “tanto por uno”.
Para hechos individualizados el cálculo realizamos la cuenta auxiliar para encontrar la clase:
. =>
100
Y posteriormente buscamos en los datos ordenados el que ocupa la posición K-ésima.

?
Para hechos agrupados por valor se busca la primer clase que su * ≥ > *≥ .
Para el caso de hechos agrupados por intervalos se debe buscar el intervalo con el criterio para
hechos agrupados por valor. Luego se utiliza la siguiente fórmula para saber el valor exacto:
A.B
EFGC
@? = + CDD H .'
F
Con:
= #$ ( % $ &'%
=* ' ' + % $' % $ &'%
* =* '. # %' ' % $ &'% ' $
' = .# % $ % $ &'% # '%
=I % $%
= ,' $ ' '$ +
Decil (J : Es un caso particular de percentil, donde = . 10 para el primer decil, y sube a razón
de 10 según el orden del decil. Ejemplo: cuarto decil JK: = 4 . 10 = 40 ∶ K .
Cuartil (N : Es un caso particular de percentil, donde = . 25 para el primer decil, y sube a

razón de 25 según el orden del decil. Ejemplo: Tercer Cuartil NP : = 3 . 25 = 75 ∶ RS
Intervalo Interdecil: Es el intervalo que va entre el primer decil y el último, es decir entre el y
el T . Al trabajar sobre el intervalo interdecil estamos dejando afuera del análisis el 10% de la
muestra de menor valor y el 10% de mayor valor, para concentrarnos en el 80% centrado.
Intervalo Intercuartil: Es el intervalo que va entre el primer cuartil y el último, es decir el 3S y el

RS - De Igual manera, se deja afuera el 25% de menor valor y el 25% de mayor valor y se trabaja
con el 50% central.
Resumen de fórmulas.
Hechos Hechos Agrupados Conjuntos de Hechos

Individualizados Agrupados
Media: “m”; “p
q”: . .
= = =
Modo: “Mo”: Es el Hecho que más Es el Hecho de MAX . 2

veces se repite. 1 = + . '
+ 2
Mediana: “Me” ; Ordenados zzzzz{

.y : −*
“Percentil 50”: Si es impar: el dato Es el primer que su 1 = +2 .'
del medio. * acumula
3
Si es par: el promedio
de los 2 datos centrales.
Percentil “k”. * ≥> .

. => −*
100 @? = + 100 .'
Posición K-ésima *≥ .
100
Varianza: “‚ƒ ” ; V(x) ( − )

2
( − ) .
2
( − ) .
2
/( ) = /( ) = /( ) =
=1 =1 =1
Desvío Típico:
“‚" ; "‰" Raíz cuadrada de Raíz cuadrada de V(x) Raíz cuadrada de V(x)
V(x)
Coeficiente de 6/( ) 6/( ) 6/( )

Variabilidad: “CV” ,/ = ,/ = ,/ =
| | | | | |

f0947104 1 Estadistica Descriptiva

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

f0947104 1 Estadistica Descriptiva

Cargado por

Copyright:

Formatos disponibles

Estadística Descriptiva

Muestra: Es un subconjunto de la población que se escoge de manera representativa para realizar

Observación: Es el resultado que arroja un experimento. Es importante familiarizarse con este

Hechos Individualizados Cadena de Datos

Hechos Agrupados por Se agrupan los datos Se utilizan las

Se agrupan los datos

Frecuencias Frecuencia Relativa

Amplitud muestral: Es la diferencia entre la mayor observación y la menor.

Marca de Clase : Es el punto representativo de cada clase. Por considerarse representativo de

Frecuencia Absoluta : Es la cantidad de veces que se repite un dato por sí mismo o

Frecuencia Relativa ) : La frecuencia relativa, como dice su nombre, relativiza la incidencia de la

= ,' $ ' '$ +

La cantidad de datos puede ser obtenida contando la cantidad de Hechos (observaciones) si se

* =* '. # %' ' ' $ .

Medidas de tendencia central: Son “características” de la población que se encuentran implícitas

= /'% %' + &' ó − + #'.

= ,' $ ' '$ +

= ,' $ ' '$ +

=* ' ' + % $' % $ &'% # '%

=* ' ' + % $' % $ &'% ' $ '% $ &'% # '%

2 =* ' ' + % $' % $ &'% +$ '% $ &'% # '%

' = .# % $ % $ &'% # '%

=* ' ' + % $' % $ &'%

* =* '. # %' ' % $ &'% ' $

= ,' $ ' '$ +

En el caso de trabajar con hechos individualizados, la varianza se calcula:

/ = 5 3 son distintas formas de decir lo mismo.

= /'% %' + &' ó − + #'.

= ,' $ ' '$ +

=1 ' '% %' '

En el caso de trabajar con hechos agrupados se calcula:

= ' ' + % $' %' %'+

= ,' $ ' '$ +

=1 ' '% %' '

Para datos individualizados:

= /'% %' + &' ó − + #'.

= ,' $ ' '$ +

=1 ' '% %' '

Para datos agrupados:

= ' ' + % $' %' %'+

= ,' $ ' '$ +

=1 ' '% %' '

Coeficiente de variabilidad ,/ : El desvío estándar nos da un valor absoluto de desvío. Lo que

Y posteriormente buscamos en los datos ordenados el que ocupa la posición K-ésima.

=* ' ' + % $' % $ &'%

* =* '. # %' ' % $ &'% ' $

' = .# % $ % $ &'% # '%

= ,' $ ' '$ +

Cuartil (N : Es un caso particular de percentil, donde = . 25 para el primer decil, y sube a

Intervalo Intercuartil: Es el intervalo que va entre el primer cuartil y el último, es decir el 3S y el

Hechos Hechos Agrupados Conjuntos de Hechos

Modo: “Mo”: Es el Hecho que más Es el Hecho de MAX . 2

Mediana: “Me” ; Ordenados zzzzz{

Percentil “k”. * ≥> .

Varianza: “‚ƒ ” ; V(x) ( − )

Coeficiente de 6/( ) 6/( ) 6/( )

También podría gustarte