Está en la página 1de 24

TRABAJO DE ESTADSTICA Y PROBABILIDADES

ESTADSTICA DESCRIPTIVA, GRFICOS, PROBABILIDADES Y ANLISIS DE


DATOS

INTEGRANTES:
Carolina Ramrez Gaviria

CC. 1152462421

Daniela Franco Vanegas

CC. 1018376321

Profesor(a): Luz Marcela Restrepo


Asignatura: Estadstica y Probabilidades

UNIVERSIDAD DE MEDELLN
FACULTAD DE INGENIERA
INGENIERA AMBIENTAL
MEDELLN 2015-2

Objetivos:
1. Identificar tipos de variables aleatorias y su tratamiento estadstico.
2. Analizar descriptivamente la base de datos entregada.
3. Afianzar el uso del software estadstico R.
Adjunto a este archivo, encontrar una base de datos asociada a 5 marcas
diferentes de bebidas energticas. Seleccione 2 marcas de las 5 y desarrolle cada
uno de los siguientes puntos:

1. Enuncie e identifique el tipo de variables que tiene la base de datos.


La base de datos est dada en un archivo en Excel, bajo la extensin xlsx. Para
cargarla al rea de trabajo de R se ha optado por guardarla bajo una extensin
csv, de manera que se puedan usar funciones para lectura de tablas, tales como
read.csv(), sin necesidad de cargar paquetes adicionales para ello. De las 5
marcas posibles, se seleccionan la 2 y la 5.
Aunque el archivo posee 6 columnas (entre A y F), solamente 5 de ellas son
variables de inters. La primera columna slo nos indica el orden de las muestras.
La variable Marca representa una variable cualitativa, ya que asocia las bebidas
como una categora. As, por ejemplo, en vez de llamar una bebida Marca 1 o
Marca 3, se pueden haber llamado Marca A y Marca C; por lo tanto es una
caracterstica que no proviene de una medicin como tal. Las dems variables se
pueden considerar cuantitativas, donde el contenido de taurina y cafena
provienen de una medicin continua, mientras que el precio y el rango de tiempo
faltante para vencimiento se toman como mediciones discretas.
Por facilidad, la variable rango de tiempo faltante para vencimiento (RTFV) se
trabaja de manera discreta en 6 niveles, correspondientes a la siguiente tabla.
Entre 0 y 1 mes
Entre 1 y 2 meses
Entre 2 y 3 meses
Entre 3 y 4 meses
Entre 4 y 5 meses
Ms de 5 meses

1
2
3
4
5
6

El procedimiento siguiente es calcular cada vector de medidas (media, mediana,


desviacin estndar) para la base de datos truncada (es decir, tomando en

cuenta slo las dos marcas seleccionadas). De igual manera se calculan los
estadsticos considerando los conjuntos de datos de cada marca por separado.

2. Calcule medidas de tendencia central: media, mediana, moda.


Con la ayuda del programa R se obtiene un vector de medias y medianas. Para la
moda, es necesario instalar el paquete modeest, ya que dentro de las funciones
con las que viene el programa no aparece una forma compacta de calcularla.
Estas medidas determinan la posicin que toma la muestra, y en general la mayor
concentracin de los datos. Algunas de ellas analizan la tendencia hacia la
posicin central, mientras que los cuantiles por ejemplo, determinan posiciones no
centrales. Se definen las siguientes:
Moda
Representada como representa el dato (o datos) con mayor frecuencia
absoluta. Para datos agrupados, de manera similar, representa el intervalo (o
intervalos) que presentan la mayor frecuencia. No tiene que ser nica, y se calcula
para variables cualitativas y cuantitativas.

Mediana
Denotada por es el valor que tiene la propiedad de dejar a su izquierda el 50%
de las observaciones y a su derecha el 50% restante, siempre y cuando los datos
sean ordenados. Tiene como propiedad que no es tan sensible a los datos
atpicos.
Si la cantidad de datos es impar, la mediana se obtiene de manera fcil, pero
cuando los datos son pares, sta se determina como
=

+
2

Donde y son los dos valores centrales. Para datos agrupados, el intervalo
mediano o que contiene la mediana con frecuencia , es el primer intervalo cuya
frecuencia absoluta acumulada es igual o mayor que 2

1
(+1 )
= + 2

Para las dems medidas de tendencia central (medias), conviene conocer lo que
es la media generalizada (tambin conocida como Medias de Hlder) las cuales se
agrupan como

1
() = ( )

=1

Desafortunadamente las medias, dado que consideran todos los datos de la


muestra, son vulnerables a errores por parte de los datos atpicos o anmalos.
Media aritmtica
Cuando = 1 se tiene la media aritmtica (tambin conocida como promedio).
Se define como

1
=

=1

Como propiedades se tiene que el promedio representa el centro de gravedad de


los datos, de modo que si = , entonces = 0. Tambin aplica que para
transformaciones lineales, si = + entonces = + .
Para el anlisis multivariado, sean 1 , 2 , las diferentes variables en estudio,
y el nmero de variables. La matriz de datos tendr dimensiones ,
representndose como
11
21
=[
1

12
22

1
2

]=[ 1

Se define el vector de medias aritmticas como

1
1
= [ ] =

Con la ayuda del programa R se obtienen las medidas de tendencia central.

3. Calcule medidas de dispersin: rango, varianza, desviacin.


Las medidas de dispersin se utilizan para describir la variabilidad o esparcimiento
de los datos de la muestra respecto a la posicin central. Entre ellos se
encuentran:

Recorrido o rango
Denotada por es una medida de dispersin global definida como la diferencia
entre el mayor y el menor valor
=
Es una medida bastante susceptible a los datos atpicos. Si el recorrido es
pequeo entonces los datos estn poco dispersos.
Cuasivarianza
Tambin conocida como varianza insesgada o varianza corregida, se define como
2 =

=1( )2 (=1 2 ) 2
=
1
1

La varianza y la cuasivarianza se relacionan como


( 1)2 = 2
Cuasidesviacin tpica
Es la raz cuadrada de la cuasivarianza
=1( )2
(=1 2 ) 2

=
=
1
1

Las medidas de dispersin calculadas con R para las marcas seleccionadas se


muestran a continuacin.

4. Calcule cuartiles y deciles.


Se define el cuantil como el nmero que deja a su izquierda una frecuencia
relativa . Esto es equivalente a decir que la frecuencia relativa acumulada hasta
es . Cuando los datos estn ordenados y agrupados por clases, el cuantil ( )
se calcula como
= +

1
(+1 )

Como casos particulares de los cuantiles estn los cuartiles (cuartiles de orden
0.25, 0.5, 0.75), los deciles (cuartiles de orden 01 0.9) y los percentiles (cuartiles
de orden 0.01, 0.02, 0.03 0.99)
A continuacin se muestran los cuartiles y deciles para la base de datos truncada,
as como para marca de manera independiente. Cabe resaltar que 2 = 5 y este
valor corresponde a la mediana.

5. Calcule medidas de forma: asimetra y curtosis.


Las medidas de forma tratan de medir el grado de simetra y apuntamiento de los
datos. Cuando la distribucin presenta una asimetra positiva o por la derecha, los
valores en su polgono de frecuencias tienden a ser menores a cero, de igual
manera si se presenta asimetra negativa, la mayora de los valores tienden a ser
mayores a cero. Tambin se da el caso que la distribucin se asemeje a una
distribucin Normal o Gaussiana, es decir, que sea simtrica. La siguiente figura
ilustra la situacin.

Figura 1. Asimetras de las distribuciones

Coeficiente de asimetra
Para distribuciones unimodales, se suele establecer el coeficiente de simetra de
Pearson, el cual se define como
=

Se distinguen los siguientes casos

Si = 0 la distribucin es simtrica
Si < 0 la distribucin es asimtrica por la izquierda
Si > 0 la distribucin es asimtrica por la derecha

Tambin se suele emplear el coeficiente de asimetra de Fisher (cuando la


distribucin no es unimodal), el cual se define como
1 =

3 =1( )3
=
3
3

A 3 se le conoce como el tercer momento estadstico respecto a la media. De


manera similar se establecen los casos

Si 1 = 0 la distribucin es simtrica
Si 1 < 0 la distribucin es asimtrica por la izquierda
Si 1 > 0 la distribucin es asimtrica por la derecha

Apuntamiento o Coeficiente de curtosis


Mide el grado de concentracin de una variable respecto a su medida de
centralizacin usual (generalmente el promedio). Si el polgono de frecuencias es
anlogo a la curva Normal, se dice que la distribucin es mesocrtica. Si es ms

elevado y estrecho que la curva normal, se le llama distribucin leptocrtica. Y si


es menos elevado y ms ancho que la curva normal, se le denomina platicrtica.
La siguiente grfica ilustra stos casos.

Figura 2. Apuntamiento de las distribuciones

Como medida de apuntamiento se define el coeficiente de curtosis, dado por:


=1( )4
4
2 = 4 3 =

4
Se conoce a 4 como el cuarto momento estadstico respecto a la media. Como el
apuntamiento de la distribucin Normal es 3, se toma ste como valor de
referencia. Aqu los casos que se presentan son

Si 2 = 0 distribucin mesocrtica
Si 2 < 0 distribucin platicrtica
Si 2 > 0 distribucin leptocrtica

Las medidas de forma obtenidas en R para la base de datos truncada y las


respectivas marcas se muestran a continuacin.

6. Analice la variable Rango de tiempo faltante para vencimiento;


realice todas las grficas respectivas. Interprete.
Se define el tamao de muestra como el nmero de elementos o individuos de la
muestra. Para la elaboracin de histogramas y tablas de frecuencias es necesario
agrupar los datos en clases, de modo que faciliten su comprensin sin tener una
perdida excesiva de la informacin que aporta la muestra. Para ello se debe
establecer el nmero de intervalos de clase en los cuales se sitan los diferentes
datos. Para el anlisis univariado y dado que el nmero de elementos en cada
variable es el mismo, podemos manejar el mismo nmero de intervalos.
Para determinar la cantidad de intervalos existen dos frmulas sugeridas (en
muchos casos depende de la naturaleza de los datos, y no es absolutamente
necesario seguir dichas frmulas): Una siguiendo la parte entera del raz cuadrada
de la cantidad de datos, esto es
=
La otra frmula es la conocida regla de Sturges, propuesta por Herber Sturges en
1926, indica que el nmero de intervalos est dado por
= 1 + 3,322 log10
Por lo general ambos valores coinciden, y son tiles para muestras con ms de 20
datos; con una cantidad menor a ste valor se sugiere un diagrama de puntos.

Ahora es necesario conocer la amplitud de cada intervalo, y definir la marca de


clase que no es ms que un valor que representa el intervalo.
La amplitud del intervalo de clase ( , +1 ) se calcula como
= +1
Y la marca de clase del intervalo
=

+ +1
2

Si los intervalos han de tener la misma amplitud, se considera el recorrido de las


observaciones
=
De modo que la amplitud de cada intervalo ser la relacin entre el recorrido y el
nmero de intervalos
=

Por lo general dicha amplitud es necesario ajustarla, de modo que la diferencia se


reparte en el intervalo inferior, el superior, o en ambos
= =
De modo que las observaciones mnima y mxima sern

=
2
2

Con base en lo anterior, se calculan las tablas de frecuencias tanto absolutas


como acumuladas, as como la relativa, de la variable RTFV, mostrndose en la
siguiente figura.

Para el caso de esta variable se realiza un grfico de barras, para facilidad de


visualizacin al ser una variable cuantitativa discreta. El diagrama de barras y el
diagrama de cajas y bigotes se muestran en la siguiente figura.

Algo que se nota desde el diagrama de barras, es que la mayora de las bebidas
expiran en un perodo de tiempo mayor a 5 meses, y en los dems, el tiempo
faltante antes de vencer se distribuye casi equitativamente para los dems
perodos de meses. Segn el diagrama de cajas y bigotes no se presentan datos
atpicos, y la media, al igual que el rango intercuartlico es el mismo para cada
marca, al igual que para la base de datos truncada.

7. Para la variable Contenido de Taurina, elabore una tabla de


distribucin de frecuencias, un histograma de frecuencias absolutas y
un histograma de frecuencias absolutas acumuladas. Interprete.

Al determinar el nmero de intervalos por la regla de Sturges, se obtienen 12


intervalos, de modo que las tablas de frecuencias (absolutas y relativas) se
muestran a continuacin.

En dichas tablas se observa que prcticamente todas las muestras pertenecientes


a la marca A (2) se encuentran a partir del cuarto intervalo, y de hecho, hasta ese
mismo intervalo estn las correspondientes a la marca B. Esto inmediatamente
hace pensar que la concentracin de taurina en la marca A es ms elevada que en
la marca B, y se corrobora con los valores para las medias, calculadas
anteriormente.
En la figura siguiente se muestran los diferentes histogramas para la variable
Taurina, y en el primero de ellos se muestra una comparacin de la densidad de la
distribucin (marcada en rojo) para compararla con una distribucin normal
(marcada en azul).

8. Para la variable Contenido de Cafena, elabore una tabla de


distribucin de frecuencias, un histograma de frecuencias absolutas y
un histograma de frecuencias absolutas acumuladas. Interprete.
Similar al numera anterior, por medio de la regla de Sturges se calculan 12
intervalos. En ellos se observa, a diferencia de la concentracin de taurina, que
existen algunos intervalos donde ambas muestras se solapan, pero en general, los
valores de cantidad de cafena en la marca A tienden a ser ms bajos que los de
la marca B. y de hecho en la marca B, no se encuentran valores de cafena por
debajo de 66.2 mg. En la figura siguiente se observan tales tablas.

En la figura siguiente se muestran los diferentes histogramas para la variable


Cafena, y en el primero de ellos se muestra una comparacin de la densidad de la
distribucin (marcada en rojo) para compararla con una distribucin normal
(marcada en azul).

9. Realice un estudio de dispersin de los precios de las bebidas de las


dos marcas. Analice curtosis y elabore diagramas de cajas y bigotes
para comparar.
Para realizar un estudio de la dispersin de los precios en ambas marcas, nos
remitimos a los valores obtenidos por las medidas de dispersin. Si se comparan
inicialmente los rangos, no se nota una variacin significativa de precios entre las
marcas, ya que es la misma para ambas. Pero en las cuasi-desviaciones estndar
se observa que respecto a la base de datos truncada, la marca A (2) presenta
precios ms elevados que la marca B (5), y segn la cuasi-desviacin estndar,
stos ltimos varan mucho ms que los de la marca A (una variacin de alrededor
de $590 en la marca B comparado con $561 de la marca A).
De hecho, esto es algo que se puede observar en el diagrama de cajas y bigotes,
donde se relaciona la mediana y el rango intercuartlico, ya que la variacin en A
es menor que en B. En la grfica siguiente se observa el diagrama de cajas y
bigotes para la variable Precio.

En la tabla siguiente se muestran los coeficientes de curtosis comparativos para


ambas marcas. Se observa que todos ellos son negativos, lo que indica que
presentan un apuntalamiento platicrtica respecto a una curva normal. Ello indica
que la distribucin es ms achatada si se le compara con una curva con
distribucin normal.
Curtosis de la BD
Curtosis de la marca A (2)
Curtosis de la marca B (5)

-1.218
-1.161
-1.257

10. Determine si la distribucin del precio de las bebidas de aproxima a


una curva simtrica.
Sabemos que uno de los criterios para verificar si hay simetra en la distribucin es
determinar qu tan prximos se encuentran la media, la mediana y la moda. De
los datos antes obtenidos, slo la media y la mediana presentan valores algo
similares, pero la moda es significativamente distinta para sta variable. Sin

embargo entre los descriptores obtenidos, el que determina mejor el nivel de


simetra de la distribucin respecto a una curva normal es el coeficiente de
simetra.
Para este caso, los valores obtenidos son los siguientes.
Asimetra de la BD
Asimetra de la marca A (2)
Asimetra de la marca B (5)

-0-037
-0.03
0.03

Efectivamente, estos valores son muy cercanos a 0, lo que indica que el precio
presenta cierta simetra. De hecho las dos primeras (la base de datos truncada y
la marca A) presentan asimetra por la izquierda, y la marca B, por la derecha.

11. Realice un estudio de dispersin del contenido de cafena de las


bebidas de las dos marcas. Analice curtosis y elabore diagramas de
cajas y bigotes para comparar.
Para el estudio de la dispersin de la cafena en ambas marcas, nos remitimos a
los valores obtenidos por las medidas de dispersin. El rango en ambas se
mantiene igual, aunque vara un poco cuando se toma en cuenta la base de datos
truncada. Incluso en las cuasi-desviaciones estndar, la concentracin de valores
de cafena en ambos es muy similar.
De hecho, en el diagrama de cajas y bigotes que se muestra a continuacin, se
observa que la mediana de la marca A est ms prxima a la de la base de datos
truncada que la de la marca B (y se ratifica tambin en los valores de la media). Y
adems se puede apreciar que el rango intercuartlico para ambas marcas es muy
similar.
La tabla siguiente muestra los coeficientes de apuntalamiento, y en todos ellos se
obtienen valores negativos, lo que indica que las distribuciones son ms
aplanadas que las de una distribucin normal. Adems, la marca B tiene una
distribucin ms aplanada que la marca A.

Curtosis de la BD
Curtosis de la marca A (2)
Curtosis de la marca B (5)

-0.826
-1.236
-1.174

12. Determine si la distribucin del contenido de cafena de las bebidas se


aproxima a una curva simtrica.

Para este caso, los valores obtenidos del coeficiente de asimetra para la variable
Cafena son los siguientes.

Asimetra de la BD
Asimetra de la marca A (2)
Asimetra de la marca B (5)

0.0027
0.073
-0.046

Esto muestra que las distribuciones tienden a presentar cierta simetra cuando se
comparan con una curva normal. Solo la marca B presenta cierta asimetra por la
izquierda, las otras dos distribuciones (la de la base de datos truncada y la de la
marca A) presentan asimetra por la derecha.

13. Realice un estudio de dispersin del contenido de taurina de las


bebidas de las dos marcas. Analice curtosis y elabore diagramas de
cajas y bigotes para comparar.
Para el estudio de la dispersin de la taurina en ambas marcas, nos remitimos a
los valores obtenidos por las medidas de dispersin. Es notoria la variacin en el
rango de ambas marcas (para la marca A es el doble que para la marca B), y de
hecho difieren respecto a la base de datos truncada. Adems, en las cuasidesviaciones estndar, la concentracin de valores de taurina es mucho mayor en
la marca B (5), ya que ste estadstico es mucho menor que el presentado en la
marca A (2). Por lo tanto, la variacin de concentracin de cafena para la marca
B, que es de alrededor de 59.5 mg, frente a los 118.9 mg de la marca A, indica
una tendencia mayor a mantener un valor de taurina ms estable.
De hecho, en el diagrama de cajas y bigotes que se muestra a continuacin, se
observa que la mediana de la marca A est ms prxima a la de la base de datos
truncada que la de la marca B (y se ratifica tambin en los valores de la media).
Adems se puede apreciar que el rango intercuartlico en la marca B es menor
que en A.

La tabla siguiente muestra los valores obtenidos para el coeficiente de curtosis. En


ella se ve que todos los valores son negativos, es decir, las distribuciones son ms
aplanadas que la de una normal. Sin embargo, se observa que para sta variable,
Taurina, ambas marcas tienden a ser igual de achatadas, ya que tienen valores
de apuntalamiento muy cercanos.

Curtosis de la BD
Curtosis de la marca A (2)
Curtosis de la marca B (5)

-1.122
-1.247
-1.275

14. Determine si la distribucin del contenido de taurina de las bebidas se


aproxima a una curva simtrica.
Para este caso, los valores del coeficiente de asimetra en la Taurina son los
siguientes
Asimetra de la BD
Asimetra de la marca A (2)
Asimetra de la marca B (5)

0.412
-0.036
0.058

Esto muestra que las distribuciones tienden a presentar cierta simetra cuando se
comparan con una curva normal. Solo la marca B presenta cierta asimetra por la
izquierda, las otras dos distribuciones (la de la base de datos truncada y la de la
marca A) presentan asimetra por la derecha.

15. Cul es la probabilidad de que una bebida tenga menos de 68 mg de


cafena?
Para calcular este valor, nos remitimos a la grfica de frecuencias absolutas
relativas, donde la probabilidad equivale al rea bajo su curva. Esto es lo mismo
que tomar la grfica de frecuencias relativas acumuladas y ubicar el valor de 68
all. Como valor tentativo aparece que es cercano a 0.5 (se encuentra casi en la
mitad del rango de la distribucin). Como se est tomando la variable agrupada, el
clculo se realizar tomando los valores medios de los intervalos, a fin de
aproximar el ms cercano al valor pedido.
Para el intervalo 7, se tiene que ste se define por los lmites (67.5, 68.8], lo que
da un valor medio de intervalo para la cantidad de cafena de 68,15 (muy cercano

al valor pedido). Basndonos en ello y usando el programa R se obtiene lo


siguiente.

De manera que tomando el sptimo intervalo, la probabilidad pedida es de 0.585,


o lo que es lo mismo, del 58,5%.
16. Cul es la probabilidad de que una bebida tenga menos de 70 mg de
cafena dado que es de la primera marca seleccionada?
El procedimiento es similar al numeral anterior, slo que sta vez hay que
considerar solamente la marca A. Hay dos intervalos tentativos para tomar el valor
medio de intervalo (dado que se trabaja con valores agrupados). stos intervalos
son el 8 (68.8, 70.1] y el 9 (70.1, 71.4]. Sin embargo al comparar ambos, es ms
conveniente tomar el intervalo 8 (la distancia al valor pedido con el punto medio
del intervalo 8 es ms cercana, 69,5 frente a 70,75 del intervalo 9).

De nuevo, usando el programa R se obtiene que la probabilidad de que una


bebida tenga menos de 70mg de cafena dado que es de la marca A, es de
0.50270, o lo que es lo mismo, del 50,27%.

17. Redacte las conclusiones que puede tomar a partir del anlisis general
de las dos marcas de bebidas energizantes que ha estudiado. Para
qu le puede servir esta informacin?
Realizando un anlisis general de ambas marcas, la marca A (2) es mucho ms
econmica que la marca B (5), posiblemente debido a una menor cantidad de
taurina y poco control sobre la cafena. En ambas muestras se presenta una cierta
simetra respecto a una curva normal, algo que es importante cuando se habla de
control de calidad de un producto (ya que se habla de que una variable sea
consecuente a un valor esperado para cierto producto).
Este tipo de informacin y de anlisis ayuda a determinar aspectos importantes al
comparar productos por ejemplo. Si los valores son representativamente cercanos

al valor esperado (medidas de dispersin), comparacin de caractersticas


(medidas de tendencia central), y su respectiva observacin grfica, la cual
muestra informacin que se puede analizar de manera ms simple y de fcil
abstraccin.
Todo ello se enfoca en tomar la mayor informacin posible que describa una
muestra, la cual se espera sea representativa de una poblacin. A partir de all, es
posible tomar decisiones a partir de las caractersticas observadas, como por
ejemplo en ste caso, cual puede ser ms daina para la salud en trminos de
cafena, cual marca es ms barata, que se puede esperar de los productos
ofrecidos en el mercado, entre otros aspectos.

También podría gustarte