Está en la página 1de 19

MODULO: ESTADISTICA DESCRIPTIVA (NOTAS DE CLASE)

CURSO DE ESTADSTICA
ESCUELA AMBIENTAL
JAIRO A. TORRES VELSQUEZ

SOCIALIZACIN DEL ENFOQUE ESTADSTICO DESCRIPTIVO

El objetivo de un anlisis estadstico descriptivo es concluir acerca del comportamiento de una


poblacin o una muestra en unos aspectos variables que pueden ser de carcter cualitativo o
cuantitativo. Para lograrlo es necesario determinar un mtodo que permita recolectar la
informacin datos, los cuales sern tabulados y clasificados para elaborar algunas grficos,
diagramas, tablas resumen y estadsticas, que permitan conocer de forma global sobre los
aspectos evaluados, los que a la vez servirn de insumo para la toma de decisiones.

REVISIN DE ALGUNOS CONCEPTOS:


LA POBLACIN es el conjunto de todas las unidades de estudio sobre las cuales se desea analizar
una o varias caractersticas en particular (variables). Las unidades de estudio pueden estar
representadas por ejemplo por un conjunto de individuos, familias, productos de cierta marca,
colegios de una ciudad, etc. El tamao de la poblacin se representa por N y se define por el
investigador de acuerdo al objetivo buscado.
LA MUESTRA es un subconjunto de la poblacin. Si se utiliza para sacar conclusiones acerca de la
poblacin se est hablando de la estadstica inferencial, para lo cual debern ser representativa de
la poblacin. El tamao de la muestra se denota por n.
Los aspectos a analizar de la poblacin o la muestra se denomina VARIABLES, las cuales se clasifican
como sigue:
CUALITATIVAS: Representan cualidad o atributo. Se definen de dos tipos:
Nominales. No tienen una jerarqua preestablecida. Ejm: estado civil (soltero, casado, viudo);
genero (fem, mas).
Ordinales. Su naturaleza es de orden jerrquico. Ejm: rendimiento acadmico (bueno, regular malo)
CUANTITATIVAS: Representan cantidad. Se definen de dos tipos:
Discretas. Asumen valores enteros (no hay datos intermedios). Sus datos provienen del proceso de
conteo.
Ejemplos:
X: nmero de hermanos,
X: nmeros de clientes que llegan a una estacin de servicios por hora.
Continuas. Puede tomar cualquier valor entero o decimal, de forma que entre dos valores posibles
siempre se puede encontrar un nmero infinito de otros valores. Generalmente sus valores
provienen del proceso de medicin. Ejemplo: X: Peso (kg, gs,mg), X:tiempo (seg, min, hr)
Para resumir la informacin de tal manera que se conozcas aspectos de forma global acerca de la
muestra (n) o poblacin (N) se utilizan grficos y tablas de frecuencia. A continuacin se muestra
algunos:
GRFICOS RESUMEN PARA LAS VARIABLES:
Los grficos comnmente utilizados en la estadstica descriptiva para resumir la informacin (datos)
con respectos a las variables son: diagramas de barras, histogramas de frecuencia, polgonos de
frecuencia, grficos de tendencias, entre otros.

Algunos ejemplos se presentan a continuacin:


EJEMPLO: grficos para resumir informacin de la variable cualitativa
Se tiene informacin de un grupo de estudiantes de la facultad de ingeniera de la U de A. Los datos
tabulados permitieron obtener las siguientes tablas y grficos:

Tabla de frecuencias

Diagrama circular

Diagrama de barras

Una interpretacin conjunta de la tabla y los grficos concuerda en que el mayor porcentaje de estudiantes
en su orden es de Ing. Mecnica, seguido Ing. Elctrnica y Elctrica.

EJEMPLO: grfico para resumir informacin de la variable cuantitativa-discreta


Se quiere investigar sobre el nmero de hijos de unas familias en un determinado barrio de una
ciudad intermedia. Para esto se seleccion aleatoriamente una muestra de n=50 familias y se
registr el nmero de hijos en el ncleo familiar, con los siguientes resultados:
4 familias no tiene hijos ( 0 hijos), 9 familias (1 hijo), 12 familias (2 hijos), 10 familias (3 hijos), 8
familias (4 hijos), 4 familias (5 hijos), 2 familias (6 hijos), 1 familia (7 hijos).

Los resultados tabulados se presentan de la siguiente manera:

Tabla de frecuencias

Diagrama de barras

Polgono de frecuencias

De la tabla de frecuencias se puede observar que el 20% de las familias tienen 3 hijos, tambin que el 50% de las
familias tienen menos de 3 hijos.
Del diagrama de barras y polgono de frecuencias se observa que sobresale el nmero de familias con 2 hijos.

EJEMPLO: grfico para resumir informacin de la variable cuantitativa- continua


Se tiene informacin acerca de las edades de los estudiantes de la Facultad de Ingeniera que
pertenecen a semilleros de investigacin. Los resultados son los siguientes:
16, 21, 16, 16, 17,17, 22, 18, 18, 19, 19, 25, 18, 18, 18, 18, 18, 22, 18, 18, 19, 19, 17, 17, 19, 20,
19, 19, 20, 17, 20, 20, 19, 20, 20, 21, 21, 21, 22, 21, 21 23, 23, 24, 18, 18, 24

Variable de inters. X: edad (aos)

Tabla de frecuencias

Histograma de frecuencias

Se observa de la tabla de frecuencias que el 60% de los estudiantes tiene menos de 20 aos. Tambin se
observa que el 34% de ellos tiene edades entre 20 y 24 aos.
Del histograma de frecuencias se observa que el rango de edades que se presenta con mayor frecuencia
est entre 18 y 20 aos.

Nota: para la tabla de frecuencias (con variable discreta y continua) las columnas se explican as:
.f : frecuencia absoluta
F: frecuencia acumulada (acumulado de valores de f)
.h: frecuencia relativa (hi=fi/# total de datos)
H: frecuencia relativa acumulada (acumulados de los valores de h)
Tablas de contingencia:
En algunas ocasiones los elementos de una muestra o los de la poblacin pueden clasificarse con
dos o ms criterios diferentes (cruce de variables). Generalmente dicha relacin se da con variables
de tipo cualitativa, pero tambin se pueden hacer relaciones con variables cuantitativas.
EJEMPLO: Tabla de contingencia para cruzar dos aspectos cualitativos (atributos)
Se tiene informacin acerca del estado civil de un grupo de personas que laboran en una unidad de
servicios. Se quiere clasificar dicha informacin por gnero para lo cual se tabul la informacin
como sigue:

Tablas de porcentajes con clasificacin por gnero (perfil fila):


Aqu se totaliza porcentualmente el gnero repartido en cada modalidad de respuesta del estado
civil:

Se puede observar de la tabla anterior que el 38.9 % de las mujeres estn


Casadas.
Grficamente:

El clculo se realiz de la siguiente manera:


Entre el grupo de mujeres se calcula el % de las casadas as:
74
#

%(
)=
100% =
100% 38.9%
#

190
Tablas de porcentajes con clasificacin por estado civil (perfil columna):
Aqu se totaliza porcentualmente el estado civil repartido en cada modalidad de respuesta segn
gnero:

Se puede observar de la tabla anterior que el 47.4 % de las personas casadas son mujeres.

Grficamente:

El clculo se realiz de la siguiente manera:


Entre el grupo de personas casadas se calcula el % de mujeres as:
%(

)=

100% =

74
100% 47.4 %
156

Nota: se debe hacer diferenciacin entre ambos tipos de tablas.

OTROS GRFICOS COMUNMENTE UTILIZADOS:


Grfico de dispersin o correlacin. Muestran la relacin que existe entre dos variables.
A continuacin se muestran algunas de las posibles correlaciones que se pueden presentar en un
conjunto de datos:

Tipo de correlacin

Los valores de las dos variables Cuando una de las variables


aumentan al tiempo. Existe una aumenta la otra disminuye.
fuerte correlacin positiva.
Existe una fuerte correlacin
negativa

Los valores de las dos variables Se


presenta
una
aumentan al tiempo, pero hay una correlacin negativa.
correlacin positiva dbil.

No existe correlacin de los datos

dbil

Se presenta una correlacin


compleja

Nota: El ndice utilizado para medir dichas relaciones es el coeficiente de correlacin y se denota
como r. los valores de r se encuentran entre -1 y 1. Una alta correlacin negativa tiende a que r se
aproxime a -1 y una alta correlacin positiva el valor de r se acercar a 1. Cuando no hay correlacin
el valor de r tiende a cero.
Grfico de Pareto (tambin llamado diagrama 80-20).
El principio de Pareto afirma que en todo grupo de elementos o factores que contribuyen a un
mismo efecto, unos pocos son responsables de la mayor parte de dicho efecto. Para su anlisis se
elabora una tabla de frecuencias y un grfico. Obsrvese el siguiente ejemplo:
EJEMPLO: aplicacin del diagrama- grfico de Pareto
En el proceso de elaboracin de baldosines se quiere identificar los defectos que se presentan con
mayor frecuencia para toma acciones correctivas. Para dicho fin se tom una muestra del producto
y se clasifico el nmero de defectos por tipo como sigue:

Tipo de defecto
Poros
Rayones
Averas
Bordes despicados
Otros
Total defectos

# Defectos
200
50
300
80
30
660

Nota: queda claro que un baldosn puede tener uno o ms defectos del mismo o diferente tipo.
Elaboracin del grfico:

Se observa en el grfico que el 75.76% de los defectos presentados en los baldosines se dan por
los tipos de defectos averas y poros. Es decir slo dos causas de 5 (40%) son las responsables del
75.76 % de los defectos.

ALGUNAS ESTADSTICAS BSICAS

MEDIDAS TENDENCIA CENTRAL


Una forma de resumir los datos numricos es buscar el centro de ellos. A las medidas que tiene
dicho objetivo se les conoce como medidas de tendencia central. Algunas de ellas se muestran a
continuacin.
Media aritmtica (promedio aritmtico). Es el valor que resulta de dividir la sumatoria de los datos
por el nmero de estos.
La media aritmtica para los datos de la muestra se define como:
$
!" = % ; n: Tamao muestral
&

La media aritmtica para los datos de la poblacin se define como:


'=

$%
(

N: Tamao poblacional.

* ): Es el dato ubicado en el centro despus de organizarlos de menor a mayor valor.


Mediana ()
* = ,Ejemplo 1: 21 22 23 24 25 )

* = ,-, /
Ejemplo 2: 21 22 23 24 25 26 )
Nota: Si n es par, la mediana corresponder al promedio de los dos datos ms centrales.

La mediana se calcula de la siguiente manera:


$2 4$2

3
3
, 89
7
!0 = 1
!256 , 89 9
56

, Nota

&
7

&

: + 1 8
7

9 9

Ejemplo 3: Calcular la mediana de los ejemplos anteriores.

Para el ejemplo 1, como n=5 (o sea un nmero impar), entonces la mediana es:
!0 = !&4> = !?4> = 23
7

Para el ejemplo 1, como n=6 o sea un nmero par, entonces la mediana es:

!& + !&4>

!0 =

! @ + !@
7

4>

!A + !B 23 + 24
=
= 23,5
2
2

Nota: Una propiedad importante de La mediana !0 es que no est afectada por valores
extremos (ni altos ni bajos)
Ejemplo 4: Sea X la estatura (mts) de un grupo de personas de la tercera edad:
!0 = 1,72
1,70 1,71 1,72 1,73 1,80
Moda (CD): Es el dato que se presenta con mayor frecuencia. Puede haber una moda (Unimodal),
dos modas (Bimodal), etc.

MEDIDAS DE VARIABILIDAD
Determinan que tan variable o disperso est un grupo de datos. Las medidas ms usuales son las
siguientes:
Desviacin estndar. Mide el alejamiento de los datos con respecto de su media !". Se
representa de la siguiente manera:
Muestral:
8=E

(!F !")7

1

=H

Poblacional:
J=E

(!F ')7

K

,K = H

Observacin: Al elevar la desviacin estndar al cuadrado queda representada la varianza:


S2: Varianza muestral
J2: Varianza poblacional

Nota: La desviacin estndar es el alejamiento de los datos tomando como referencia la media
(muestral o poblacional). tambin se define como la variacin promedio de los datos con
respecto de la media
Ejemplo 5: Halle la desviacin promedio de las estaturas del ejercicio 4.
>,M>4>,M74>,MA4>,NO
Primero se halla !": !" =
= 1,732
?

Luego se halla la desviacin estndar (Variacin promedio) S:


(1,71 1,732)7 + (1,72 1,732)7 + + (1,80 1,732)7
= 0,039
51
Las estaturas se alejan de la media !" en promedio 0,039 mts. (Algunas se alejan ms, otros menos,
8=E

pero en promedio se alejan ese valor).

El Rango (R): El rango es la diferencia entre el mayor valor y el menor valor.


Q = !RST !RF&
Nota: El rango est afectado por valores extremos; es decir, un dato atpico elevar el valor del
rango.
Ejemplo 6: Halle el rango del Ejemplo 4.
Q = 1,80 1,70 = 0,1

= 10

Lo que significa que entre el dato mayor y menor hay una distancia de 0,1 mts.

El rango intercuartil (RI): Es la diferencia que existe entre los cuartiles 3 y 1.


QU = VA V>
El rango intercuartil muestra el rango de valores en el cual se encuentra el 50% de los datos ms
centrales. Los cuartiles Q1 y Q3 son medidas de localizacin as como la mediana.
Para entender mejor este concepto, primero se explica la mediana como una mediad de
localizacin.
Ejemplo 7: Se tiene un grupo de personas a los cuales se le registr sus pesos y se
organizaron de menor a mayor valor sus pesos (en kg), como sigue:

La mediana (el peso mediano) es !0 =


70WX, es interpretado como la persona,
dentro del grupo, que tiene el mayor peso
entre el grupo del 50% de los menos
pesados y el de menor peso entre el
restante 50% (Los ms pesados).

Nota: Quiere decir que la mediana divide la poblacin o la muestra en dos grupos de igual
tamao, por eso representa tambin una medida de localizacin.
Otra medida de localizacin son los cuartiles, dividen los datos en 4 partes de igual tamao.
Supngase que los datos de los pesos de las personas que se ubican en los caurtiles son los
siguientes:
Interpretacin: Del grfico se observa que
la persona que pesa 65Kg representa el de
mayor peso del grupo del 25% con menor
peso, al mismo tiempo es el de menor
peso del grupo del 75% del grupo de
mayor peso. (V> = 65WX).

De acuerdo a lo anterior, el rango intercuartil (QU = VA V> ), representa el rango (


distancia) que hay entre el 50% de los datos ms centrales.
De esta manera solo hay que calcular V> y
VA para obtener el RI.
Es importante calcular el RI ya que da una
idea de cuan alejados est el 50% de los
datos ms centrales (ms cercanos a la
media y la mediana).
Nota: El cuartil 2 (Q2) es la misma mediana
!0.

Se puede generalizar estas medidas de localizacin no solo para distribuir el conjunto de datos
en 4 partes (Cuartiles), sino tambin en cualquier nmero de datos. Se habla entonces de
percentiles P, de tal manera que el nmero de datos queda repartido en 100 partes
proporcionales:

Interpretacin: El percentil 50 (Y?O ) es el mismo V7 : !0. El percentil 60 (Y@O )


representa el mayor valor del grupo en el 60% de los datos con menor valor y
al mismo tiempo representa el valor menor del restante 40% (valores ms
altos).

DIAGRAMA CAJA Y BIGOTE (BOX-PLOT):


Un grfico muy utilizado que hace referencia a los cuartiles es el diagrama de caja y bigotes (BoxPlot). Es de gran utilidad para describir las caractersticas importantes en un conjunto de datos
como lo son: centro, simetra y asimetra, valores atpicos, entre otros. Este grfico presenta una
descripcin clara de la informacin ya que emplea medidas descriptivas que son poco sensibles a
datos extremos. El esquema est compuesto por una caja que delimitada entre el cuartil 1 y cuartil
3, la cual encierra el 50% de los datos ms centrales y unos bigotes que representan el otro 50% de
los datos. A continuacin se muestra el diagrama:
Recordar que:
El rango intercuartil es la distancia entre
el Q1 y Q3.
El Q2=!0 ; el cuartil dos es la mediana).
Cuando la media se aleja de la
mediana(Q2) puede haber distribucin
asimtrica de los datos.
El rango de valores entre Q1 y Q3 es ms
pequeo que la longitud total de los
bigotes, y representa el 50% del total de
datos ms centrales.

1. El coeficiente de variacin (CV).


El coeficiente de variacin es una medida de variabilidad:
Puede utilizarse para comparar la variabilidad entre dos grupos de datos referidos o
distintos sistemas de unidades de medida. Ejemplo: Kgs y cms.
Puede utilizarse para comparar la variabilidad entre dos grupos de datos obtenidos por
dos o ms personas distintas.
La frmula se define como:

Z[R\]^_`Sa =

8
100%
!"

El Coeficiente de variacin (CV) mide la variacin porcentual promedio de los datos con
respecto a la media (!" ).
Ejemplo 8: Con un micrmetro, se realizan mediciones del dimetro de un balero, que tienen
una media de 4,03mm y una desviacin estndar de 0,012 mm, con otro micrmetro se toman
mediciones de la longitud de un tornillo que tiene una media de 1,76 pulgadas y una desviacin
estndar de 0,0075 pulgadas. Cul de los dos micrmetros presenta una variabilidad
relativamente menor?
Solucin
Datos del balero:
!" = 4,03

8 = 0,012

Z[bSa]`c^ =

0,012
100% = 0,3%
""""""
4,03

Datos del tornillo


!" = 1,76 X
8 = 0,0075 X
Z[dc`&Faac^ =

0,0075
100% = 0,4%
1,76

Interpretacin: Las mediciones hechas por el micrmetro que midi los dimetros de
los baleros tienen variabilidad relativamente menor. El Valor de CV=0.3% significa que
los datos tienen un alejamiento de la media de un 0.3%.

ALGUNAS MEDIDAS DE FORMA


Determina la forma de la distribucin de un grupo de datos. Las medidas ms usuales son el
coeficiente de asimetra y la curtosis.

Asimetra: Nos permite identificar si los


datos se distribuyen de forma uniforme
alrededor del punto central (Media
aritmtica !"). Coeficiente de asimetra Ze se
define grficamente as:

Ze > 0, Sesgo derecho


!"

!"

Ze 0,

Ze < 0, Sesgo izquierdo


!"

Curtosis: Permite determinar el grado de


concentracin que presentan los valores en
la regin central de la distribucin. El
coeficiente de curtosis X se define
grficamente as:

X < 0, Platocrtica

No hay sesgo

X 0, mesocrtica
Mesocrtica

X > 0, Leptocrtica

RELACIN ENTRE LA CURVA NORMAL (CAMPANA DE GAUSS) Y EL DIAGRAMA BOXPLOT:

Se puede observar en el grfico que la base de la campana (curva normal) mide 6 desviaciones
estndar, adems la curva se presenta totalmente asimtrica con una media alineada con la
mediana.
Tambin se visualiza el 50% de los datos ms centrales con un rango menor que el restante que
est fuera la campana.

ALGUNAS ESTADSTICAS DESCRIPTIVAS Y GRFICOS DE TIPO MULTIVARIADO:


Es muy comn encontrar el anlisis de varias caractersticas (variables) en cada uno de los individuos
que se tienen en la muestra (n) o en la poblacin (N). La forma como se tabula dicha informacin
se puede representar de la siguiente manera:

Donde Xjk es el valor que toma la k-sima variable sobre el j-simo objeto (o individuo o unidad
experimental).

Dicha informacin se puede tambin representar de forma matricial de la siguiente manera:

Con la cual se puede obtener algunos grficos y estadsticas de forma conjunta tales como por
ejemplo:

Correlacin entre las variables con histogramas de frecuencias en la diagonal

Correlacin entre las variables diagrama Box-Plot en la diagonal

También podría gustarte