Está en la página 1de 14

Estadstica:

Ciencia que proporciona tcnicas para tratar gran volumen de datos para extraer y
mostrar la informacin que subyace en ellos. Permite obtener informacin de un
colectivo muy amplio de datos a partir de un conjunto relativamente pequeo de datos
procedentes de l, gracias a ello se formulan modelos matemticos que representen la
repuesta obtenida en alguna caracterstica de inters al ser influenciada por diferentes
factores. Con esta informacin en la mano se puede tomar decisiones cuando exista un
marco de incertidumbre.
En Estadstica se estudian fenmenos aleatorios, que son aquellos cuyo resultado no es
previsible aunque se repitan en idnticas condiciones.
Colectivo o Poblacin: es el conjunto todos los individuos a los que va dirigido el
estudio estadstico.
Muestra: es el subconjunto de datos elegidos del colectivo que realmente se analizan.
Variable estadstica: es cada una de las caractersticas que se miden de cada uno de los
individuos que forman la muestra.
Las variables estadsticas pueden ser cualitativas y cuantitativas.
Se dice que una variable estadstica es cualitativa cuando los valores que puede tomar
son atributos. Variables cuantitativas son aquellas que pueden tomar valores numricos.
Las variables cualitativas pueden ser:
Nominales o categricas: los valores no admiten ordenacin, por ejemplo, el color, o la
marca de bebida preferida, o el partido poltico elegido, o el lugar de procedencia, etc.
Ordinales: los valores de este tipo de variables admiten ordenacin, aunque sean
cualitativas, por ejemplo, el estado de salud de pacientes de un hospital: Muy grave,
Grave, Leve. Tambin son ordinales las variables que miden el grado de satisfaccin
conseguido por algn servicio: Muy mal, Mal, Regular, Bien, Muy bien.
Las variables cuantitativas pueden ser:
Discretas: aquellas que solo pueden tomar valores aislados, y dados dos consecutivos
no puede haber valores intermedios, frecuentemente van asociadas a procesos de
conteo: N de ramas de un rbol, N de puestas en nidos, N de miembros por familia,
etc.
Continuas: aquellas variables numricas que, si se poseyesen instrumentos con infinita
precisin, su valor podra ser expresado con infinitas cifras decimales, dados dos
valores, por prximos que estn, siempre sera posible encontrar valores intermedios
entre ambos. La mayora de las variables que implican una medicin son de este tipo: la
temperatura de la atmsfera, la velocidad del vuelo de un ave, la altura que alcanza un
rbol, son ejemplos de variables cuantitativas Continuas.
A veces, cuando las variables son numricas, es necesario conocer su escala de medida:
Decimos que una variable numrica est medida en escala por intervalos cuando no
hay un cero absoluto origen de las medidas, por ejemplo: la hora de llegada de un tren a
una estacin, si se toma como cero las 24 horas del da anterior y ha llegado un tren a
las 0h 10 min. y otro a las 0h 20 min., sabemos que el segundo lleg 10 minutos
despus que el primero, pero no podemos decir que el segundo haya tardado el doble
que el primero en llegar, pues no se ha adoptado un cero absoluto comn a todos los
recorridos. Un ejemplo clsico de este tipo de variable es la temperatura: si el aire hoy
est a 10C y ayer estaba a 20C, no podemos decir que la temperatura hoy sea el doble
de la de ayer, pues el cero en la escala de medida se ha tomado de modo arbitrario, para
comprobarlo, basta con expresar ambas temperaturas en grados Fahrenheit.
Una variable estadstica est medida en escala por ratios cuando existe un cero
absoluto, entonces podemos considerar diferencias entre las medidas y tambin
proporciones. La mayora de los fenmenos fsicos que consideremos estn medidos en

este tipo de escala, por ejemplo, la temperatura absoluta, en grados Kelvin es una
variable medida en escala por ratios, tambin el peso, la longitud, o la masa lo son.
Estadstica descriptiva:
Es la parte de la estadstica que proporciona tcnicas para extraer y mostrar la
informacin que subyace en conjuntos de muy numerosos datos.
Cuando se acomete un estudio cientfico, es habitual medir gran cantidad de parmetros
sobre cada uno de los individuos elegidos, la estadstica descriptiva univariante
permite estudiar los datos correspondientes a cada caracterstica sin considerar la
influencia de las dems.
Tablas de frecuencias
Como resultado del estudio estadstico se posee una serie de estadillos o cuestionarios,
uno por cada individuo considerado en el que se recogen todas las medidas realizadas a
cada individuo. La tabla siguiente es un ejemplo de uno de estos estadillos , en l se han
anotado seis caractersticas de rboles de un vivero despus de un ao de haber sido
plantadas, la tabla recoge las medidas correspondientes a los diez primeros.
rbol n

Replantado

Grado de
afeccin

N de
ramas
primarias

Dimetro
(cm)

Altura (cm)

1
2
3
4
5
6
7
8
9
10
Cdigos:

N
S
N
N
N
S
N
N
S
S

MG
NA
M
G
M
NA
L
L
MG
M
NA: No Afectado
L: Leve
M: Medio
G: Grave
MG: Muy Grave

1
0
2
1
3
4
2
1
0
2

3,9
4,3
3,9
2,5
3,9
4,2
4,5
5,3
2,5
2,9

160,4
203,7
160,5
146,3
123,0
184,4
153,0
186,0
169,8
168,8

S: Si
N: No

el primer paso para sintetizar la informacin es tabular los datos. Consideraremos


distintos tipos de agrupaciones de datos:
Tablas de frecuencias de datos en agrupamiento discreto:
Realizamos este tipo de agrupamiento cuando el nmero de posibles respuestas a la
variable en estudio es reducido. Las variables cualitativas se prestan muy bien a este
sistema de agrupamiento
Para construir una tabla de frecuencias de agrupamiento discreto se anotan en una
columna cada uno de los distintos valores que tome la variable y en la columna
siguiente su frecuencia o nmero de veces que se repite.
La tabla de frecuencia de la variable Replantado es:
Replantado frecuencia
S
4
N
6
Total:
10

La tabla de frecuencia de la variable X = Grado de afeccin es:


Grado de
afeccin
xi
NA
L
M
G
MG
Total

frecuencia
ni
2
2
3
1
2
10

frecuencia
relativa
fi
0.2
0.2
0.3
0.1
0.2
1.0

La frecuencia relativa es la frecuencia absoluta dividida entre el nmero de


observaciones, indica la proporcin de datos que muestran un determinado valor de la
variable. Se puede expresar tambin en %.
La tabla de frecuencia de la variable X=Nmero de ramas primarias es.
N ramas
primarias

frecuencia

frecuencia
relativa

Frecuencia
acumulada

xi
0
1
2
3
4
Total

ni
2
3
3
1
1
10

fi
0.2
0.3
0.3
0.1
0.1
1.0

Ni
2
5
8
9
10

Frecuencia
acumulada
relativa
Fi
0.2
0.5
0.8
0.9
1.0

La frecuencia acumulada es el nmero de datos que presentan un valor menor o igual


que uno dado de la variable. La frecuencia acumulada relativa es la proporcin de datos
menores o iguales a uno dado.
Tablas de frecuencias de datos agrupados en clases:
Cuando tenemos una variable continua, o cuando, siendo discreta, el nmero de valores
diferentes es muy grande, se agrupan los datos en clases o intervalos.
El nmero de intervalos o clases I a considerar es una cuestin importante y no hay un
criterio fijo para establecerlo. La frmula de Sturges es una de las que se pueden utilizar
para determinarlo, segn ella, I es el exponente de la primera potencia de dos cuyo
resultado supera al nmero de datos, con un mnimo de 4 clases.
Para el ejemplo que estamos comentando, con 10 datos, como 24>10, se toma I=4.
Para determinar la amplitud de cada clase se divide el rango o diferencia entre el mayor
y el menor de los valores observados entre el nmero de clases I.
Para la variable dimetro, la amplitud es:
a

R 5.3 2.5 2.8

0.7
I
4
4

Si el cociente no es exacto se puede redondear por exceso, aunque eso har que la
ltima clase termine en un valor superior al mximo observado.
Para evitar dudas, se consideran todos los intervalos cerrados por la derecha y abiertos
por la izquierda, salvo el primero que se considera cerrado por ambos extremos.

Cada clase o intervalo se identifica con una cifra llamada marca de clase, que es la
media entre ambos extremos.
La tabla de frecuencias de la variable dimetro es:
Clases
Marcas
frecuencia
frecuencia
frecuencia
frecuencia
de clase
relativa
acumulada
acumulada
relativa
xi
ni
fi
Ni
Fi
[2.5 ; 3.2]
2.85
3
0.3
3
0.3
(3.2 ; 3.9]
3.55
3
0.3
6
0.6
(3.9 ; 4.6]
4.25
3
0.3
9
0.9
(4.6 ; 5.3]
4.95
1
0.1
10
1.0
Representaciones grficas:
Diagramas de sectores o de tarta:
Son aplicables a cualquier tipo de variables, pero se utilizan sobre todo para las
categricas. Se construyen dividiendo un crculo en tantos sectores como categoras se
vayan a representar. Cada sector abarca un ngulo proporcional a la frecuencia que se
desea representar. El diagrama de sectores de la variable Replantado es:
Diagrama de sectores

S
40%
N
60%

Diagramas de barras:
Son representaciones aplicables a tablas de frecuencias de datos en agrupamiento
discreto, se pueden aplicar tanto a datos cualitativos como cuantitativos discretos.
Consisten en un sistema de ejes cartesianos sobre cuyo eje de abcisas se llevan los
valores de la variable y sobre el de ordenadas la frecuencia absoluta o relativa,
acumulada o no. Por cada valor de la variable se levantar una lnea o barra (aunque
puede ser un rectngulo) de altura equivalente a la frecuencia que se desea representar.
Se muestran diagramas de barras de la variable Grado de afeccin y de la variable N
de ramas:

Diagrama de barras

3.5
3
2.5
2
1.5
1
0.5
0

Frecuencia acumulada
relativa

frecuencia absoluta

diagrama de barras

NA

1.2
1
0.8
0.6
0.4
0.2
0

MG

Grado de afeccin

N de ramas primarias

Los diagramas de barras, al representar sobre el eje de abcisas los valores de la variable,
y ser el eje numrico, tienen mejor aplicacin en variables como mnimo ordinales, pues
en las variables nominales no hay una ordenacin de los valores y se pueden representar
en cualquier orden.
Histograma
Aplicables a tablas de frecuencias de datos agrupados en clases. Consiste en llevar sobre
un eje horizontal segmentos consecutivos que representen las amplitudes de cada clase,
posteriormente se traza sobre cada clase un rectngulo cuyo rea sea proporcional a la
frecuencia que se desea representar. Si todas las clases tienen igual amplitud, los
rectngulos tienen no solo el rea proporcional a la frecuencia, su altura tambin lo es.
Las alturas de los rectngulos representan frecuencia por cada unidad de amplitud, que
tambin se llama densidad de frecuencia. Si se traza un eje vertical, la escala sobre este
es la frecuencia por unidad de amplitud.
A continuacin se muestran histogramas de la variable Dimetro.
Histograma de frecuencias acumuladas
relativas

3
Frecuencia relativa
acumulada por unidad de
amplitud

Frecuencia por unidad de


amplitud

Histograma de frecuencias

2.5
2
1.5
1
0.5
0
2.85

3.55

4.25

4.95

1
0.8
0.6
0.4
0.2
0
2.85

Marcas de clase

3.55

4.25

4.95

Marcas de clase

En estos dos histogramas se ha tomado la unidad de longitud igual a la amplitud y,


como todas las amplitudes son iguales, la cifra que indica el rea de cada rectngulo
coincide con la que indica la altura y ambas con la frecuencia que se representa.
Polgonos de frecuencias:
Aplicables a variables numricas, aunque tambin se pueden trazar sobre cualitativas
ordinales, se construyen uniendo los extremos de los diagramas de barras o los centros
de las bases superiores de los rectngulos del histograma mediante lneas rectas. Si se
desea cerrar la lnea poligonal por sus dos extremos, se podra inventar un valor o
intervalo por delante del primero y otro mayor que el ltimo, cuyas frecuencias sern

cero. En el caso de datos agrupados tambin es frecuente unir el origen de la primera


clase con el centro de su base superior y el centro de la base superior del ltimo
rectngulo con el extremo de su base inferior.

frecuencia absoluta

Polgono de frecuencias
3
2.5
2
1.5
1
0.5
0
0

N de ramas primarias

Existen otros tipos de grficos, como los pictogramas que utilizan smbolos grficos
para representar las frecuencias, ya sea repitiendo un mismo smbolo varias veces para
indicar las mayores o menores frecuencias, o aumentando o disminuyendo el tamao del
smbolo segn la frecuencia que se represente.
Medidas de posicin:
Otra va de resumir la informacin es expresar algunas cifras que de algn modo
resuman lo ms caracterstico de los datos, podemos calcular medidas de posicin y de
dispersin. Entre las primeras se vern:
Moda: es la categora, valor o marca de clase que ms se repite. Cuando tengamos
datos de tipo contnuo solo tendr sentido la moda despus de haber sido agrupados en
clases.
La moda de la variable Replantado es N, pues su frecuencia es la mayor entre las dos
categoras posibles. La moda de la variable Grado de afeccin es M, en tanto que para la
variable N de ramas primarias hay dos valores con mxima frecuencia, son 1 y 2
ramas.
La moda puede no ser nica, y hablamos de distribuciones de frecuencias bimodales,
trimodales, etc.
Mediana: es aplicable a datos como mnimo ordinales, y se define como aqul valor de
la variable que ocupa la posicin central del conjunto de datos ordenados, tambin se
puede definir como aqul valor de la variable que resulta ser mayor o igual que la mitad
de los datos y menor que la otra mitad.
Cuando se considera los N datos sin agrupar, la mediana es el dato que ocupa la
posicin (N+1)/2, de los datos ordenados.
Si el nmero de datos N es impar la mediana se calcula de modo inmediato, si el
nmero de datos es par, la mediana es la media aritmtica de los datos que ocupan las
posiciones N/2 y N/2 + 1.

Para el conjunto de datos que se estn considerando, la mediana es el dato que ocupa la
posicin 11/2=5.5, por tanto es la media entre los datos que ocupen las posiciones 5 y
6 .
1

4 5 6 7 8 9 10
Datos ordenados
Mediana
Grado de afeccin
NA NA L
L M M M G MG MG
M
N de ramas primarias 0
0
1
1
1
2
2
2
3
4
1.5
Dimetro
2.5 2.5 2.9 3.9 3.9 3.9 4.2 4.3 4.5 5.3
3.9
En realidad, si los datos son cualitativos no tiene sentido calcular la mediana, en este
caso se puede calcular la mediana del grado de afeccin porque los datos 5 y 6 son
ambos M.
Cuando los datos son de tipo contnuo y no se posee la lista original de valores, sino
solo los intervalos, sus marcas y frecuencias, el modo de proceder es diferente:
En este caso buscaremos el intervalo mediano, que es aqul cuya frecuencia acumulada
es N/2 o su frecuencia acumulada relativa es 0.5. Si estas cifras no aparecen entre las
frecuencias, el intervalo mediano es aqul que primero supera dicha cantidad.
Una vez localizado el intervalo mediano, un modo de proceder ser decir que la
mediana es la marca de la clase de ese intervalo.
Procediendo de este modo, la mediana para la variable Dimetro, calculada a partir de
los datos de la tabla de frecuencias es:
Para 10 datos, N/2=5
Intervalo mediano: el 2, pues es el primero en que se supera la cantidad 5 en la
columna Frecuencia acumulada (0.5 si se mira la acumulada relativa). La mediana es la
marca de este intervalo:
me = 3.55
Este modo de proceder se basa en suponer que todos los datos de cada intervalo son
iguales entre s e iguales a la marca de clase.
Hay otro modo de proceder, consiste en suponer que los datos dentro de cada intervalo
se reparten uniformemente con valores crecientes de la variable, bajo esta suposicin, y
suponiendo que el intervalo mediano es el j-simo, cuyos extremos son xj, xj+1, con una
frecuencia absoluta nj y siendo Nj y Nj-1 las frecuencias acumuladas correspondientes al
intervalo mediano y al inmediato anterior, la mediana se calcula como:
me x j

x j 1 x j N
x j 1 x j N

N j 1 x j
N j 1

N j N j 1 2
nj
2

me 3.29

para el caso actual:

3.9 3.2
5 3 3.757
3

Este valor no coincide con el calculado con la marca de clase ni con el que se obtuvo a
partir de los datos originales, por ello siempre que se disponga de los datos originales,
se calcular la mediana como si se tratase de datos discretos.
La expresin anterior para la mediana se puede formular en funcin de las frecuencias
relativas:
me x j

x j 1 x j
fj

0.5 F j 1

Media: solo es aplicable a datos de tipo numrico, es la media aritmtica de los datos
observados, o sea, la suma de todos ellos dividido por el nmero de observaciones:

xi
x1 x2 K xN i 1
x

N
N

para datos sin tabular, si estn tabulados en tablas de

frecuencias:
k

xi ni ,
i 1

siendo k el nmero de valores distintos y ni la frecuencia absoluta

correspondiente al valor xi de la variable.


En caso que tengamos una variable tabulada en clases, en la formula anterior, k es el
nmero de clases y xi cada marca de clase. Como siempre, si se puede, es preferible
realizar los clculos sobre los datos originales.
La media de la variable N de ramas primarias es:
x

0 0 1 1 1 2 2 2 3 4 0 * 2 1*3 2 *3 3*1 4 *1 16

1.6
10
10
10

y la de la variable dimetro:
x

3.9 4.3 3.9 2.5 3.9 4.2 4.5 5.3 2.5 2.9 37.9

3.79 cm
10
10

esta ltima calculada a partir de la tabla de frecuencias es:


x

2.85*3 3.55*3 4.25*3 4.95*1 8.55 10.65 12.75 4.95 36.9

3.69 cm
10
10
10

y no coincide con el valor calculado para los datos originales, por lo que se vuelve a
poner de manifiesto que siempre que se pueda, se debe operar con ellos.
Otras medidas de posicin:
La media, mediana y moda son medidas que indican el centro de la distribucin, vamos
a ver algunas ms, que no indican el centro:
Cuartiles:
Si se localiza en el conjunto de datos ordenados aquellos que lo dividen en cuatro
intervalos con el mismo nmero de observaciones, habremos encontrado los cuartiles
primero, segundo y tercero.
Primer cuartil Q1: Es aqul valor de la variable que resulta ser mayor o igual que el
25% de los datos y menor que el 75% restante.
Para calcular Q1 se procede de diferente modo si los datos estn agrupados en clases o
no. Para datos sin agrupar o con agrupamiento discreto, consideraremos el conjunto
original de datos ordenados, si de este conjunto eliminamos la mediana, quedan dos
subconjuntos, la mediana del primero de ellos es Q1.
Si se divide la lista de datos ordenados correspondiente a la variable N de ramas
primarias por el punto que corresponde a la mediana , quedan dos grupos de datos,
ambos con cinco datos :
N de ramas primarias

mediana

La mediana de la primera mitad es el dato (5+1)/2 = 3, por tanto


Q1 = 1 :

N de ramas primarias

Q1
1

Si los datos estn agrupados en clases y no se dispone de los datos originales, se


procede de modo similar a lo hecho para la mediana en estos casos, y se puede aplicar la
8

frmula vista, sustituyendo la frecuencia acumulada por N/4 o la acumulada relativa por
0.25:
Q1 x j

x j 1 x j
fj

0.25 F j 1

aqu se considera que el intervalo que contiene al primer cuartil es el j-simo.


Para la variable dimetro, el intervalo que contiene el primer cuartil es el primero, cuyos
lmites son 2.5 y 3.2 , la frecuencia relativa es 0.3 y la acumulada relativa, 0.3 tambin,
por ser el 1 por ello la frecuencia acumulada relativa correspondiente al intervalo
anterior es 0.
Q1 2.5

3.2 2.5
0.7
0.25 0 2.5 0.25 3.0833
0.3
0.3

Para esta variable, procediendo como datos discretos, Q1 = 2.9, siempre que se pueda se
debe trabajar sobre los datos originales, sin agrupar.
Segundo cuartil: Q2 es la mediana.
Tercer cuartil: Q3 , es aqul valor de la variable que resulta ser mayor o igual que el
75% de los datos y menor que el 25% restante.
Para datos sin agrupar, se calcula como la mediana de la segunda mitad de los datos
ordenados que se obtiene al dividir la lista original eliminando el dato mediano.
Respecto de la variable N de ramas primarias, la mediana de la segunda mitad es el
dato 5+(5+1)/2 = 8, por tanto
Q3
N de ramas primarias 0
0
1
1
1 mediana 2
2
2
3
4
Q3 = 2
Para datos agrupados en clases, se localiza primero el intervalo que contiene el tercer
cuartil, que es aqul cuya frecuencia relativa acumulada es mayor o igual a 0.75, sea
este intervalo el j-simo, entonces:
Q3 x j

x j 1 x j
fj

0.75 F j

El tercer cuartil de la variable Dimetro est en el tercer intervalo (frecuencia


acumulada relativa = 0.9), su valor se puede calcular como:
Q3 3.9

4.6 3.9
0.75 0.6 4.25
0.3

mientras que de los datos originales como si fuesen discretos, Q3=4.3


Percentiles: Como extensin, si el primer cuartil es el valor de la variable que resulta ser
mayor o igual que el 25% de los datos y menor que el 75%, se define Percentil como el
valor de la variable que resulta ser mayor o igual que un porcentaje dado de los datos,
as se habla del percentil 10, del percentil 20, etc., se fcil comprobar que:
p25 = Q1; p50 = Q2 = me ; p75 = Q3
Si se desea calcular el percentil py el primer intervalo cuya frecuencia acumulada
relativa es igual o mayor que /100 es el j-simo:
p x j

x j 1 x j

F j 1

fj
100

En general, definimos el cuantil ( en tanto por 1) como aqul valor de la variable que
resulta ser menor que el 100% de los datos y mayor o igual que el 100(1- )%
restante, es evidente que cuantil = p100(1-) .
Medidas de dispersin:
Para mejorar la informacin sobre el conjunto de datos no basta saber en torno a qu
valores est la mayora de los datos, tambin es conveniente saber si el conjunto de
medidas son todas muy parecidas entre s o si son muy diferentes, esto se consigue con
las medidas de dispersin o variabilidad.
Rango: es la medida de variabilidad ms simple, es el mayor valor menos el ms
pequeo, conforme ms prximos sean los valores observados, menor ser el rango.
R= max(xi) min(xi)
Rango intercuartlico: El rango est influenciado por la presencia de algn error de
medida, que suele traducirse en valores excesivamente grandes o pequeos, por eso se
prefiere como medida de variabilidad, la diferencia entre los cuartiles tercero y primero,
tambin llamado Rango intercuartlico:
RI = Q3-Q1
Desviacin media es la media de las diferencias o desviaciones de cada dato hasta la
media, tomadas en valor absoluto, pues de lo contrario la suma se anula:
N

dm

i 1

xi x

si los datos estn agrupados:

dm

xi x ni
i 1

Varianza: es la media de los cuadrados de las diferencias o desviaciones de cada dato


hasta la media:
N

s2

xi x xi2
i 1

i 1

x2
k

si los datos estn agrupados en clases, la frmula es:

s2

xi x ni xi2 ni
i 1

i 1

x2

Para la variable N de ramas primarias, el clculo de la varianza es:


s2

0 1.6 2 0 1.6 2 1 1.6 2 K 4 1.6 2


10

14.4
1.44
10

Tratndolos como datos y frecuencias:


s2

0 1.6 2 2 1 1.6 2 3 2 1.6 2 3 3 1.6 2 1 4 1.6 2 1 1.44


10

y por la frmula reducida:


s2

0 2 2 1 2 3 2 2 3 3 2 1 4 2 1
10

1.6 2

40
2.56 4 2.56 1.44
10

La varianza se expresa en unidades al cuadrado y no es comparable con los datos, por


eso se define
Desviacin tpica, es la raz cuadrada positiva de la varianza,
s s2

La desviacin tpica de la variable N de ramas primarias es : s 1.44 1.2

10

La varianza mide la dispersin de los datos respecto de la media de los propios datos. Si
lo que tenemos es una muestra, y se desea estimar la varianza de toda la poblacin
con los datos de la muestra, se utiliza la
N

Cuasivarianza:

s2

xi x
i 1

N 1

N s2
N 1
k

para datos agrupados en clases, la frmula es:

s2

xi x ni
i 1

N 1

N s2
N 1

De modo similar a la desviacin tpica, se define:


Cuasi desviacin tpica: s s 2
Para estimar la varianza de toda la poblacin respecto a la variable N de ramas
primarias, se usa la cuasivarianza de esa variable calculada con los datos de la muestra:
s2

10 1.44 14.4

1.6
9
9

y la cuasidesviacin tpica: s s 2 1.6 1.265


Para comparar variabilidad entre magnitudes diferentes o entre diferentes muestras, se
utiliza el coeficiente de variacin, que es la desviacin tpica expresada en medias:
CV

s
x

El coeficiente de variacin de la variable N ramas primarias es: CV

1.4
0.875
1.6

En ocasiones, al tomar las medidas de un experimento, o cuando se transcriben los datos


para procesarlos, se comenten errores y aparecen datos mucho ms grandes o mucho
menores que el resto, son los denominados Outliers, y es importante poder detectarlos y
comprobar si se trata o no de un error. Tanto la media como la varianza son muy
sensibles a la presencia de Outliers y por eso interesa detectarlos. La deteccin de
Outliers se puede hacer a partir de la media y desviacin tpica ya calculadas, se puede
demostrar que datos cuya desviacin respecto de la media sea superior en valor absoluto
a tres desviaciones tpicas son raros, por eso se suelen considerar outliers aquellos datos
que cumplan:
xi x 3s

No obstante, la presencia de los posibles outliers ha intervenido en el clculo de la


media y de la desviacin tpica, por lo que sera recomendable utilizar otras medidas de
posicin y dispersin para localizarlos, por eso se consideran outliers aquellas medidas
que sean menores que el primer cuartil menos 1.5 veces el rango intercuartlico, o
mayores que el tercer cuartil ms 1.5 veces RI:
xi es un outlier por defecto, si: Q1 xi 1.5 RI
xi es un outlier por exceso, si: xi Q3 1.5 RI
Si la distancia llega a superar las 3 veces RI, entonces el outlier se considera grave, en
caso contrario, lo consideraremos leve.
Medidas de asimetra y de forma:
Adems de dar informacin sobre la tendencia central de los datos y sobre cmo se
reparten respecto del centro, en ocasiones interesa conocer si los datos se reparten de un
modo simtrico a ambos lados de la media o no.

11

El coeficiente de asimetra mide esta propiedad, y se calcula como:


N

xi x

xi x

s3

i 1

N
s3

g1

xi x

i 1

ni

N
s3

g1

i 1

, o , si los datos estn agrupados:

xi x
i 1

s3

ni

Si g<0, existe asimetra hacia la izquierda. Si g>0, la asimetra es hacia la derecha. Si


g=0, la distribucin de datos es simtrica.
El coeficiente de curtosis o apuntamiento mide si las frecuencias de los datos
centrales son mucho mayores que las de los datos extremos, o si, por el contrario, todos
los datos se repiten un nmero ms o menos igual de veces. Se calcula como:
N

xi x

i 1

N
s4

1
s

xi x

i 1

, y , si los datos estn agrupados:

1
s4

xi x
i 1

ni

Cuando los datos proceden de una distribucin Normal, tomando la frmula de la


densidad de una distribucin normal se puede demostrar que el anterior coeficiente k
toma el valor 3. Por este motivo, el coeficiente de apuntamiento que se usa
habitualmente es:
k

g2 k 3

1
s4

xi x
i 1

ni
3

y compara el apuntamiento de los datos con el que

tendra una distribucin normal terica con igual media y varianza que la de nuestros
datos.
Si g2<0 decimos que los datos son poco apuntados (distribucin platicrtica,
apuntamiento menor que el de una normal), si g2 0 diremos que los datos tienen un
apuntamiento semejante al de una normal (distribucin mesocrtica), si g2>0 diremos
que nuestros datos tienen una distribucin leptocrtica o ms apuntados que la normal.
Anlisis exploratorio de datos:
Se conoce con este nombre a un conjunto de tcnicas que mezclan grficos y medidas
numricas, y facilitan mucho la visin rpida de la distribucin de los datos.
Diagrama de tallo y hojas:
Se construye considerando, por una parte la cifra de menor valor significativo de todos
los datos. Habitualmente esta cifra es la de las unidades, pero puede ser las decenas, si
todas las cifras terminan en cero, o las dcimas o centsimas, etc., si los datos poseen
decimales. Con estas cifras se forman lo que se denomina hojas. Por otra parte se
considera el resto de dgitos que forma la cifra de los datos, es lo que se denomina
tallo.
Para construir el diagrama se tabulan los datos en varias filas. Cada fila est encabezada
por un tallo, y detrs de l se escriben ordenados e igualmente espaciados los dgitos
que forman las hojas correspondientes a cada tallo. Para la variable Dimetro:
12

Dimetro, datos ordenados 2.5 2.5 2.9 3.9 3.9 3.9 4.2 4.3 4.5 5.3
De cada dato, Tallo 2
2
2
3
3
3
4
4
4
5
Hoja
5
5
9
9
9
9
2
3
5
3
Diagrama de tallo y hojas:
Tallo
2
3
4
5

Hojas
5
9
9
9
3
5

5
9
2
3

Si lo vemos como en sentido horizontal, se muestra como un diagrama de barras y se


aprecia la forma de la distribucin de frecuencias, y la simetra.
Para completar la informacin se suele aadir una columna delante del tallo en la que se
cuentan las frecuencias de cada tallo acumulndolas de arriba hacia abajo y viceversa,
en el tallo donde se encuentre el dato mediano se escribe solamente la frecuencia de ese
tallo, encerrada entre parntesis. Si se desea se pueden marcar las filas donde estn los
cuartiles colocando un asterisco a continuacin de la frecuencia. Para los datos
anteriores:
frecuencias
3*
(3)
4*
1

Tallo
2
3
4
5

Hojas
5
5
9
9
9
9
2
3
5
3

Diagrama de cajn y pata:


Es un grfico en el que se incide ms en la simetra y en la presencia de outliers,
consiste en dibujar un eje horizontal (tambin se podra hacer vertical) en el que se lleva
una escala correspondiente a los datos, ms arriba se dibuja un segmento vertical sobre
la mediana y dos ms, uno sobre cada cuartil posteriormente se cierran ambos
segmentos por segmentos horizontales, con esto se forma la caja. La posicin relativa
del segmento mediano respecto de los lados de la caja ya nos informa sobre la simetra
de los datos.
A continuacin y desde el centro de cada uno de los lados de la caja se lleva un
segmento horizontal que termina en el los valores observados menor y mayor que no
son outliers, si los hay, o en los valores menor y mayor de los observados. Si hay
outliers se marcan con smbolos especiales, por ejemplo, * para los leves y # para los
graves.
El diagrama de cajn y pata para la variable dimetro es:
Diagrama de caja
Q1

me Q3

13

En este caso no hay outliers, y por eso la pata empieza con el menor dato y termina con
el mayor. Se puede ver que los datos se extienden desde algo ms de 2 hasta algo ms
de 5, que la distribucin presenta una cola o asimetra hacia la derecha y que no hay
outliers; adems se aprecia la ubicacin y valor de la mediana y cuartiles. Respecto del
50% de los datos centrales, como puede verse en la caja, la asimetra es hacia la
izquierda.

14

También podría gustarte