Está en la página 1de 12

Facultad de Ciencias Agronmicas Universidad de Chile

Grficos

Hacer diagramas de los datos muestrales es una excelente forma de evaluar de manera rpida la distribucin de los datos. Sin embargo se debe poner especial cuidado en que se haga de manera correcta. CONSEJOS PARA CONSEGUIR UN BUEN GRFICO - Evitar grficos en 3D - Pensar siempre en blanco y negro, evitar los colores. Incorporar grises, tramas, etc. - Evitar usar reas para hacer comparaciones, el cerebro humano no maneja bien este tipo de informacin. Por ejemplo, dos cuadrados con distintas reas no representarn bien las magnitudes. - Usar grficos cuadrados o rectangulares, evitar otras formas como grficos redondos o de otras formas. - Sealar correctamente leyenda, titulo, ejes y otros datos relevantes. Agregar la informacin suficiente para que resulte fcil de leer. GRAFICOS PARA VARIABLES CATEGORICAS Para representar correctamente variables categricas se pueden usar bsicamente 2 tipos de grficos. GRAFICO DE TORTA. Es una forma de graficar una variable categrica, de factor, nivel, dicotmica o nominal. Se debe evitar en general hacer este tipo de grficos debido a en general resulta difcil tener una idea de las verdaderas proporciones de las categoras, en su lugar recomiendo usar un grfico de barras.
Grfico de torta

D A

C B

Prof. Oliver Rojas

11

Facultad de Ciencias Agronmicas Universidad de Chile GRAFICO DE BARRAS. En este tipo de grficos tambin se usa la frecuencia absoluta, relativa o porcentaje de las categoras que componen una tabla de frecuencias.
Grfico de barras
40 0 10 OBSERVACIONES 20 30

GRAFICOS DE BARRAS PARA 2 VARIABLES. Es muy usual tener que incluir ms de una variable categrica en un grfico de barras. En estos casos se debe decidir cmo se va apilar la informacin para que exprese de mejor forma la informacin.
Grfico de barras
40 0 10 OBSERVACIONES 20 30

AZUL

ROJO

VERDE

Como en estos dos grficos en dnde el de arriba tiene la variable de 3 categoras abajo y el grafico siguiente debajo de la otra de dos niveles. En general no se necesitarn ms grficos que los de barras cuando se exponen variables categricas o tablas de frecuencias.

Prof. Oliver Rojas

12

Facultad de Ciencias Agronmicas Universidad de Chile

Grfico de barras
40 0
AZUL

10

OBSERVACIONES 20 30

ROJO

VERDE

AZUL

ROJO

VERDE

GRAFICOS PARA VARIABLES CONTINUAS Los grficos de variables continuas no agrupadas se pueden resumir en 3 y nos sirven para obtener una vista grfica de la distribucin de las variables. HISTOGRAMAS. Los histogramas son una representacin en barras de intervalos de una variable continua, la cantidad de barras se determinan para que se observe bien la distribucin y es arbitraria, pueden ser 5 o 15 solo se debe evitar demasiadas barras.
Histograma
.1 0 .02 .04 Density .06 .08

10

20 Mileage (mpg)

30

40

Se suele indicar en el eje Y la proporcin (frecuencia relativa) de cada barra, adems se debe notar que las barras estn unidas a diferencia de un grfico de barras para variables categricas.

Prof. Oliver Rojas

13

Facultad de Ciencias Agronmicas Universidad de Chile DOTPLOT. Este grafico es similar al histograma y permite ver la distribucin de los datos en el eje de medicin. Como en este caso podemos ver la cantidad relativa de observaciones y su distribucin en el eje de medicin.
Dot plot
Para autos locales o extranjeros
40 10 Millas por galn 20 30

Domestic Tipo de auto


Para autos en USA

Foreign

BOXPLOT. Este tipo de grafico tambin se denomina grfico de cajas nos permite tener una idea de varias cosas. Lo primero es que el tamao de la caja corresponde al rango intercuartilico, los bigotes o lneas que salen de la caja representan hasta el percentil 95 y los valores muy extremos con puntos sobre o bajo los bigotes. La lnea de la caja representa la mediana.
Grfico de cajas
40 10 Millas por galn 20 30

Domestic

Foreign

Podemos ver que la caja de la derecha agrupa una masa de datos que tiene valores ms altos que la otra.

Prof. Oliver Rojas

14

Facultad de Ciencias Agronmicas Universidad de Chile GRAFICOS PARA 2 VARIABLES CONTINUAS. Cuanto se tienen 2 variables continuas resulta necesario evaluar cmo se distribuye una en funcin de la otra, para esto usualmente se usan los grficos de dispersin o scatterplot en ingls. En este caso se representa las millas por galn en funcin del peso del auto, como es lgico mientras ms liviano el auto ms millas va a rendir, estableciendo de esta forma una relacin inversa. A menos peso ms rendimiento.
Grfico de dispersin

2,000
10

Peso en lbs 3,000 4,000

5,000

20 Millas por galn

30

40

Medidas de resumen de la informacin muestral

Las tablas de frecuencia son la herramienta a utilizar cuando existen variables categricas que agrupen los datos, sin embargo en el caso de las variables continuas, discretas o de escala es necesaria otra aproximacin. MEDIDAS DE POSICIN Las medidas de posicin son funciones de los datos de una muestra que miden diferentes criterios. En el caso de describir el centro de una tabla de frecuencias se denominan medidas de tendencia central. Veamos las medidas de posicin ms usadas en el anlisis exploratorio. 1. MINIMO Y MXIMO. Representa el valor ms pequeo y ms grande de alguna variable muestral. Su utilidad es descriptiva y nos ayuda a evaluar si los valores se encuentran dentro de lmites aceptables.

Prof. Oliver Rojas

15

Facultad de Ciencias Agronmicas Universidad de Chile 2. MEDIA MUESTRAL O PROMEDIO. Si x1 , x2 , x3 , , xn constituyen una muestra aleatoria de tamao n el promedio o media muestral se define como:
n xi 1 n = xi n ni1 = i 1=

= x

Cabe mencionar que el promedio o media es muy sensible a valores extremos, es decir, basta con aadir un valor muy pequeo o grande para que el promedio ya no represente el centro de la distribucin. Esto es muy importante en la exploracin de datos y puede alterar mucho nuestras conclusiones si existen outlier que alteren el promedio. El clculo directo es muy sencillo y requiere conocer el total de elementos y la sumatoria de estos, por ejemplo del siguiente grupo de datos.

58475 = x

= n
i =1

xi

5 + 8 + 4 + 7 + 5 29 = = 5.8 5 5

La interpretacin resulta en un solo valor que representa a todos los valores, en nuestro caso implicara que 5.8 es el valor promedio del grupo de datos, es como si cada uno de los 5 valores fuera 5.8. El clculo cuando hay datos agrupados es el siguiente ejemplo.
EDAD 00-19 20-39 40-59 60-79 80-100 PERSONAS 9 18 26 7 4 MARCA DE CLASE 9.5 29.5 49.5 69.5 89.5

= 64

Como vemos para el primer intervalo entre 0 y 19 aos hay 9 personas, y la marca de clase es el valor medio del intervalo y que en fondo representa a todo el intervalo. Entonces el promedio ser. n x k x = i i n i =1 Resulta muy til contar con esta frmula ya que en ocasiones todo lo que se tiene es una tabla para sacar el promedio. Para el ejemplo, se realizan los clculos en la tabla de ejemplo el resultado es el siguiente.

Prof. Oliver Rojas

16

Facultad de Ciencias Agronmicas Universidad de Chile xi ki


90 540 1300 490 360

EDAD 00-20 20-40 40-60 60-80 80-100

PERSONAS 9 18 26 7 4

= 64

MARCA DE CLASE 10 30 50 70 90

= 2780

PROMEDIO = x

2780 = 43.4 64

3. PROMEDIO PONDERADO. No siempre los valores que componen una muestra tienen el mismo peso a la hora de calcular un promedio. De forma tan simple como se calculan el puntaje ponderado de una postulacin universitaria se calcula el promedio ponderado, slo que no se divide por nada ya que la suma de las ponderaciones suma 1. Si x1 , x2 , x3 , , xn constituyen una muestra aleatoria de tamao n y w1 , w2 , w3 , , wn los pesos o ponderaciones de los valores de la muestra, entonces el promedio ponderado se calcula de la siguiente forma. x=

x w
i =1 i

w
i =1

Por ejemplo si tenemos los datos y ponderaciones, el clculo sera el siguiente:

X = (10, 7, 6.4 ) = x W = ( 5, 3, 2 )

10 5 ) + ( 7 3) + ( 6.4 2 ) (= 5+3+ 2

8.38

4. PROMEDIO ACOTADO. Muchas veces es necesario contar con una medida promedio, pero existen valores extremos o outliers que alteran al promedio, por esto nace el concepto de medidas robustas de tendencia central. Robustas porque no se ven alteradas por los valores extremos. El promedio acotado es un promedio robusto y consiste en calcular un promedio con la frmula habitual pero descartando un porcentaje de la muestra de datos, tanto por los valores menores como por los mximos. Generalmente se usa un 10% es decir recortando por la cola superior e inferior de la distribucin un 5%, se tiene una medida robusta de posicin. Prof. Oliver Rojas 17

Facultad de Ciencias Agronmicas Universidad de Chile 5. CUANTIL MUESTRAL. El cuantil de orden p de una distribucin (con 0 < p < 1 ) es el valor de la variable x p que marca un corte, de modo que una proporcin de p valores de la muestra (o poblacin) es menor o igual a x p . Por ejemplo. un cuantil de orden 0.36 dejara un 36% de valores por debajo. Dicho de otro modo, si x1 , x2 , x3 , , xn constituyen una muestra aleatoria de tamao n y ordenamos de menor a mayor los valores, podremos hacer un paralelo entre la escala en la que se tomaron los datos y 0 1 Referirse a cuantiles y percentiles resulta igual, la nica diferencia es que los cuantiles se miden entre 0 1 y los percentiles en %. Los percentiles ms usados son: Cuartiles. 3 valores que dividen la muestra en 4, generando puntos de corte a 25%, 50%, 75%. Usualmente se representan por Q1 Q2 Q3 respectivamente. Quintiles. 4 valores que dividen la muestra n 5 grupos, generando puntos de corte a 20%, 40%, 60%, 80%. Deciles. 9 valores que dividen la muestra en 10 grupos, cada uno de los cuales representa un 10% de la muestra. Percentiles. 99 Valores que dividen la muestra en 100 grupos, cada grupo representa un 1% de la muestra. CALCULO DE PERCENTILES USANDO TABLAS DE FRECUENCIAS. Usando la misma tabla anterior calcularemos el percentil 25 ( P25 ), que equivale al primer cuartil Q1 y al cuantil 0.25.
EDAD 0-20 20-40 40-60 60-80 80-100 PERSONAS 9 18 26 7 4 FAA 9 27 53 60 64

El procedimiento de clculo es el siguiente. Primero es necesario buscar la clase (intervalo o fila) en dnde se encuentra el valor que buscamos. En dnde k = 1, 2,3, ,99 es el percentil que buscamos.
= i k N 25 64 = = 16 100 100

Prof. Oliver Rojas

18

Facultad de Ciencias Agronmicas Universidad de Chile Como el primer intervalo 0 19 solo contiene 9 personas, el segundo entre 10 y 27, por lo tanto este es la clase que corresponde. (Fila 2 o segundo intervalo) Segundo. Seleccionado el intervalo usamos la siguiente formula, usando el segundo intervalo tenemos, i = 2 kN Fi 1 Pk = Li + 100 ai fi En donde Li = Limite inferior del intervalo i Fi 1 = Frecuencia absoluta acumulada (FAA) del intervalo anterior fi = Frecuencia absoluta (FA) del intervalo i N = Total de observaciones ai = Amplitud del intervalo Para el ejemplo, marquemos esos valores en la tabla y hagamos los clculos.
EDAD 00-20 PERSONAS 9

( Fi 1 ) 9
27 53 60 64

FAA

( Li ) 20-40
40-60 60-80 80-100

fi 18
26 7 4

kN Fi 1 Pk = Li + 100 ai fi A. Sabemos que se debe usar la segunda fila o intervalo i = 2 B. Sabemos que N = 64 , k = 25 , Fi 1 = 9 , fi = 18 C. Para el caso del lmite del intervalo es Li = 20 y la amplitud del intervalo es ai = 40 20 = 20 D. El clculo es el siguiente. 25 64 9 P25 = 20 + 100 20 = 27.78 18

Prof. Oliver Rojas

19

Facultad de Ciencias Agronmicas Universidad de Chile Calculo de percentiles con datos no agrupados. En el caso de tener los datos en bruto, sin tablas, la formula se simplifica mucho. Lo primero es obtener el lugar o posicin en dnde est el percentil buscado dentro de los datos ordenados.
x= kN 100

Este resultado se puede descomponer en una parte entera y otra decimal. La parte entera se denomina elemento E y representa una observacin. No olvidar que los datos se deben ordenar de menor a mayor. Entonces el percentil se calcula segn.

elemento ( E + 1) Pk = elemento ( E ) + elemento ( E + 1) 2

si D > 0 si D = 0

Ejemplo. Si tenemos 10 observaciones siguientes, las ordenamos de menor a mayor y anotamos su posicin
ORDEN 1 2 3 4 5 6 7 8 9 10 VALOR 67 78 79 95 113 116 130 141 153 158

Calculemos el percentil 25 y 50 k N 25 10 = P25 = = 2.5 Como vemos el resultado tiene decimales, por lo que usamos la 100 100 primera regla Pk = elemento ( E + 1) , tenemos que la parte entera es E = 2 por lo que elegimos

E + 1 = 2 + 1 = 3 la observacin de la posicin nmero 3. P25 = 79


Para el percentil 50 (Mediana o Cuartil 2). k N 50 10 = P25 = = 5 , el resultado no tiene decimales 100 100 elemento ( E ) + elemento ( E + 1) Por lo que usamos la segunda regla Pk = 2 Prof. Oliver Rojas 20

Facultad de Ciencias Agronmicas Universidad de Chile E ( 5 ) + E ( 6 ) 113 + 116 = = 114.5 2 2

En este caso sera elemento 5 + 6 y dividido 2 Pk =

6. MEDIANA MUESTRAL. La mediana tambin es una medida de tendencia central y marca el centro de la distribucin de datos. Corresponde al percentil 25 o segundo cuartil. Es una medida robusta de tendencia central porque no se ve afectada por valores extremos. 7. MODA. Cuando se trabaja con escalas o valores discretos, puede ser til representar al grupo de datos con el valor que ms se repite y representa lo ms observado.

Medidas de dispersin

Una vez que se tiene una medida de posicin central que representa a la muestra (y poblacin) es necesario complementar con una medida de dispersin que nos da una idea de la amplitud o ancho de la distribucin de frecuencias. 1. RANGO MUESTRAL. Con los valores mximos y mnimos se puede construir el rango, el cual nos indica cual es la amplitud de la muestra.

= r max min
2. RANGO INTERCUARTILICO. Es un tipo especial de rango, que en este caso usa los cuartiles 1 y 3 para estimar un rango. Como se usa en un grfico de cajas.
r = Q3 Q1 q

3. VARIANZA Y DESVIACION ESTANDAR. Antes de revisar las frmulas de estas medidas de dispersin veamos de dnde nacen. Cuando hablamos de desviacin hacemos referencia a una cantidad numrica que est a x unidades de otro nmero. Por ejemplo cual es la desviacin que tiene 5 del nmero 7, la respuesta sera 5 7 = 2. Entonces 5 se desva del nmero 7 en 2 unidades. Si trabajamos con los siguientes datos (5, 8, 4, 7, 5) podemos establecer un valor de referencia y ver cunto se desvan estos. Usemos el promedio como referencia.

Prof. Oliver Rojas

21

Facultad de Ciencias Agronmicas Universidad de Chile Sea (5, 8, 4, 7, 5) una muestra aleatoria con media 5.8
VALOR 5 8 4 7 5 5.8 DESVIACION -0.8 2.2 -1.8 1.2 -0.8

Resultara interesante calcular un promedio a esas desviaciones para obtener una suerte de desviacin promedio, sin embargo la suma de las desviaciones respecto del promedio en una muestra siempre sumarn cero. VARIANZA. La forma de solventar este problema es elevar al cuadrado y luego sumar para obtener un promedio. A esto se le llama varianza. Note que la divisin se hace por (n 1) el motivo de esto se explicar ms adelante.

s =
2 i =1

( xi x )
n 1

DESVIACIN ESTNDAR. De esta forma tenemos un promedio al cuadrado de las deviaciones, lo cual no nos da una idea dispersin de la muestra, la manera de solventarlo es extrayendo la raz para obtener un valor expresado en la escala de medicin.

= s

= s
2

i =1

( xi x )
n 1

4. COEFICIENTE DE VARIACION. Otra forma til de medir la dispersin de un grupo de datos es el coeficiente de variacin, el cual tiene como mayor caracterstica que nos permite comprarar grupos de datos que tienen distintas unidades de medicin. El clculo es el siguiente:
CV= s 100 x

El CV representa el porcentaje que representa la desviacin estndar en el promedio.

Prof. Oliver Rojas

22

También podría gustarte