Documentos de Académico
Documentos de Profesional
Documentos de Cultura
INDICE
1. Usos de la Estadstica y conceptos bsicos............................................................ 1
2. Estadstica Descriptiva y Estadstica Inferencial..................................................... 3
3. Mtodos bsicos de la Estadstica Descriptiva. ...................................................... 4
3.1. Recogida de datos ............................................................................................. 4
3.2. Ordenacin y tabulacin de datos...................................................................... 5
3.3. Representacin de datos ................................................................................... 7
3.4. Parmetros estadsticos................................................................................... 14
3.4.1. Medidas de posicin o centralizacin.................................................... 14
3.4.2. Medidas de dispersin .......................................................................... 20
3.4.3. Medidas de forma.................................................................................. 23
4. Mtodos bsicos de la Estadstica Inferencial....................................................... 25
4.1. Muestreo .......................................................................................................... 25
4.2. Estimacin estadstica ..................................................................................... 32
4.3. Contrastes de hiptesis.................................................................................... 33
5. Aplicaciones de la estadstica ................................................................................ 35
6. Series estadsticas bidimensionales. ..................................................................... 40
6.1. Variables estadsticas bidimensionales: tablas estadsticas. ........................... 40
6.2. Representaciones grficas............................................................................... 42
6.3. Distribuciones marginales y condicionadas ..................................................... 44
6.3.1. Distribuciones marginales ..................................................................... 44
6.3.2. Distribuciones condicionadas ................................................................ 44
6.3.3. Independencia y dependencia funcional ............................................... 45
6.3.4. Caractersticas marginales y condicionadas ......................................... 47
6.4. Covarianza....................................................................................................... 48
7. Regresin y correlacin lineal................................................................................. 49
7.1. El problema del ajuste...................................................................................... 49
7.2. Regresin lineal ............................................................................................... 50
8. Coeficiente de correlacin ....................................................................................... 53
8.1. Correlacin lineal ............................................................................................. 53
8.2. Coeficiente de correlacin lineal: propiedades................................................. 54
9. Significado de la regresin y aplicaciones............................................................. 58
Estadstica unidimensional
Estadstica unidimensional
hace por criterios personales no aleatorios, estamos ante un muestreo no probabilstico que
nos da una muestra no representativa.
Las propiedades o cualidades que poseen los elementos de una poblacin se denominan
caracteres. Los caracteres de los elementos que componen una poblacin los dividiremos en:
- Cuantitativos o variables.
- Cualitativos o atributos.
Los caracteres cualitativos o atributos son los que se describen mediante palabras, tal como
el sexo, estado civil, nacionalidad, etc. Un atributo adopta diversas modalidades. Por ejemplo
el sexo: hombre o mujer.
Los caracteres cuantitativos o variables son los que se describen mediante nmeros, es
decir, son medibles; tales como la estatura, la edad,... Las variables se expresan con smbolos
(x, y, z...) que pueden tomar un valor numrico de entre un conjunto de valores posibles que se
denomina dominio de la variable.
Distinguimos dos tipos de variables:
- Variable discreta: cuando sus posibles valores son finitos o numerables
- Variable continua: cuando sus posibles valores son infinitos no numerables.
La representacin de un carcter mediante un nmero no es un indicador infalible de que se
trate de una variable, pues a unos atributos se les asigna un nmero para indicar la modalidad.
Por ejemplo para sexo: 1 para indicar hombre, 2 para indicar mujer. La verdadera diferencia
entre un carcter cuantitativo y otro cualitativo es que si se trata de un atributo carece de
sentido realizar operaciones algebraicas con los nmeros que representan las modalidades.
Adems, los atributos se pueden ordenar por modalidades pero no jerarquizar.
Los resultados que se obtienen tras la observacin de atributos y variables se denominan
datos u observaciones. En el caso de las variables tambin se les suele llamar valores.
Los mtodos de observacin de los caracteres de los elementos se denominan:
- Observacin exhaustiva: cuando observamos todos los elementos de la poblacin.
- Observacin parcial: cuando slo observamos los elementos de una muestra.
- Observacin mixta: en este tipo de observacin se combinan la observacin exhaustiva
y la observacin parcial, de tal manera que los caracteres que se consideran bsicos para
la investigacin se observan exhaustivamente, y los restantes, mediante muestras.
Estadstica unidimensional
Estadstica unidimensional
Recogida de datos.
Ordenacin y tabulacin datos.
Representacin de los datos.
Calculo de los parmetros estadsticos.
Estadstica unidimensional
Estadstica unidimensional
Frecuencia relativa
Es la frecuencia absoluta dividida por el nmero total de datos, que denominamos
tamao de la muestra y representaremos por N. Se suele expresar en tanto por uno,
siendo el valor correspondiente al dato i -simo, fi, es decir:
n
fi = i
N
La suma de todas las frecuencias relativas es igual a la unidad.
Una tabla estadstica contiene los datos observados y las distintas frecuencias absolutas y
relativas de stos. Una vez los datos estn tabulados, la tabla obtenida ofrece una visin de
conjunto de los caracteres que se estudian. Un ejemplo de una tabla estadstica para una
variable discreta es:
Datos
xi
Frecuencia
absoluta
ni
x1
n1
Frecuencia
absoluta
acumulada
Ni
N1
f1
Frecuencia
relativa
acumulada
Fi
F1
x2
n2
N2
f2
F2
xn
nn
Nn = N
fn
Fn = 1
Frecuencia
relativa
fi
=N
=1
Cuando queremos realizar una tabla de frecuencias para una distribucin con un nmero
elevado de variables o con una distribucin cuyas variables son continuas, stas se suelen
Estadstica unidimensional
agrupar en intervalos [Li-1, Li) para facilitar la elaboracin de la tabla y la comprensin de los
datos.
Antes de ver como se ordenan las frecuencias en una tabla para una variable continua
veamos brevemente algunas definiciones propias de la tabla de frecuencia para variables
continuas:
Denominaremos recorrido a la resta entre el valor mayor de los datos y el valor menor
y lo representaremos por Re.
Si los intervalos no son de la misma amplitud para trabajar con ellos obtendremos la
densidad de frecuencia del intervalo i-simo, como el cociente entre el nmero total
de observaciones de un intervalo, esto es , la frecuencia absoluta, y la amplitud del
mismo:
n
di = i
a
Teniendo en cuenta esto, la ordenacin de la tabla ser la siguiente:
Intervalo:
[Li-1, Li)
Marca de clase:
xi
ni
Ni
fi
Fi
Estadstica unidimensional
deben considerar las representaciones grficas como medios tiles de presentacin de los datos
que, junto con otras medidas numricas, permitirn un estudio correcto de la masa de datos
inicial y, por tanto, de los caracteres de la poblacin que nos interesan.
En general, las representaciones grficas ms utilizadas se basan en un sistema de ejes
cartesianos, de forma que en el eje horizontal (o de abscisas) se toman los distintos valores de
la variable, y en el eje vertical (o de ordenadas) las frecuencias. As, el plano queda
determinado por cuatro cuadrantes, si bien en estadstica la mayor parte de los grficos
pertenecen al primer cuadrante. Debe advertirse tambin que la graduacin de los ejes puede
obtenerse aplicando la escala aritmtica o de nmeros reales o la escala logartmica. En el
ltimo caso, si se aplica a un solo eje, se dice escala semilogartmica, y si se aplica a las dos,
escala doblemente logartmica.
Una posible clasificacin de los distintos grficos es respecto al tipo de variable que
representa. Esta es la clasificacin por la que optamos aunque los grficos que veremos no
tienen que ser exclusivos de un tipo variable concreta, como indicaremos en cada caso. En
principio distinguimos dos tipos de grficos independientemente se trate de una variable
discreta o continua, estos grficos dependen de que queramos representar las frecuencias
(absolutas o relativas) o las frecuencias acumuladas.
Se denominan diagramas diferenciales a aquellos grficos en los que se representan
frecuencias absolutas o relativas y se denominan diagramas integrales a aquellos que se
realizan a partir de las frecuencias acumuladas, lo que da lugar a grficos crecientes, y es obvio
que este tipo de grficos no tiene sentido para variables cualitativas.
a) Diagramas de barras.
Se realizan representando en el eje de ordenadas las variables y en el eje abscisas las
frecuencias absolutas relativas.
Solteros
Casados
Viudos
Divorciados
Si, mediante el grfico, se intenta comparar varias poblaciones entre s, existen otras
modalidades del diagrama de barras como por ejemplo:
Estadstica unidimensional
Muestra 1
Muestra 2
Solteros
Casados
Viudos
Divorciados
Cuando los tamaos de las dos poblaciones son diferentes, es conveniente utilizar las
frecuencias relativas, ya que en otro caso podran resultar engaosas.
b) Diagrama de sectores
Para realizar estos diagramas, tambin llamados coloquialmente tartas, se divide un crculo
en tantos sectores circulares como clases existan, de modo que el rea de cada sector sea
proporcional a la frecuencia que se quiera representar.Para calcularlo podemos decir que el
rea depende del ngulo central, mediante la siguiente proporcin:
ni
=
N 360
As, siguiendo el ejemplo anterior:
Estadstica unidimensional
d) Cartogramas
Para las distribuciones de tipo geogrfico se suelen usar mapas, que se colorean con
diferentes tonalidades, cuyas frecuencias equivalentes se explican al margen, o bien se colocan
dibujos alusivos si se estn estudiando los lugares en que se producen o se encuentran los
bienes correspondientes. Estos grficos se denominan cartogramas y la forma de construirlos
se basa en la proporcionalidad con las frecuencias de la misma forma que los pictogramas.
a) Diagrama de barras
Para representar las frecuencias absolutas o relativas, acumuladas o no, de una variable
cuantitativa discreta se utiliza principalmente el diagrama de barras, aunque se utiliza
tambin para representar otros tipos de variables, como indicaremos en el apartado
correspondiente.
En este caso, las barras deben ser estrechas para representar que los valores que toma la
variable son discretos. En el eje de abcisas, situaremos los diferentes valores de la variable. En
el eje de ordenadas la frecuencia que queramos representar. Levantaremos barras o columnas
de altura correspondiente a la frecuencia adecuada.
As, un ejemplo de diagrama diferencial de barras es:
10
Variables
Frecuencia
absoluta
X1
X2
X3
X4
X5
5
4
6
2
4
Frecuencia
absoluta
acumulada
5
9
15
17
21
Estadstica unidimensional
b) Diagrama integral o acumulado
El diagrama integral o acumulado tiene, por la naturaleza de la variable, forma de
escalera.
11
[0-2]
[2-4]
[4-6]
[6-8]
[8-10]
Estadstica unidimensional
b) Polgono de frecuencias
El polgono de frecuencias se construye fcilmente si tenemos representado previamente
el histograma, ya que consiste en unir mediante lneas rectas los puntos del histograma que
corresponden a las marcas de clase. Para representar el polgono de frecuencias en el primer y
ltimo intervalo, suponemos que adyacentes a ellos existen otros intervalos de la misma
amplitud y frecuencia nula, y se unen por una lnea recta los puntos del histograma que
corresponden a sus marcas de clase
12
Estadstica unidimensional
Los errores ms comunes y no significativos (por errores no significativos nos referimos a
los errores no muestrales) podemos hablar de los siguientes tipos:
1. Errores de planteamiento, que se deben a una investigacin mal estructurada o
planificada, a definiciones ambiguas o incompletas que no permiten localizar perfectamente
los elementos que han de ser observados.
2. Errores de respuesta, originados por un cuestionario poco pensado, por un mtodo de
recogida de datos inapropiado, por unos agentes mal instruidos O por no haber previsto el
control y depuracin de respuestas. Dentro de los errores de respuesta se incluye el no
consta, es decir, el cuestionario no contestado.
3. Errores de manipulacin, provocados fundamentalmente por los defectos de
organizacin, pudiendo suceder, incluso, que se pierdan cuestionarios antes de llegar al
centro de tabulacin.
4. Errores de tabulacin y de clculo, debidos, lgicamente, a la inexistencia de controles
de operaciones.
5. Errores en la expresin de los datos, debidos principalmente a la forma como se realiza
las grficas. Es por ejemplo cuando la presentacin de la grfica no es legible.
6. Tendenciosidad, intencionada o no, es probablemente el principal problema que se puede
presentar en un estudio estadstico. Consiste en presentar la informacin, informacin
verdadera, de forma que pueda ser malinterpretada e inducir a error. Un ejemplo es el
producido al no tener una escala predeterminada:
Aunque las dos tablas estn realizadas con los mismos datos, el crecimiento de la
primera parece mucho mayor que el de la segunda. Esto se ha debido, simplemente, al
haber utilizado distintas escalas.
Otro ejemplo comn es presentar un diagrama de barras con el eje de ordenadas no
completo (en vez de comenzar en 0 comenzar en otro valor) mostrando un resultado
tendencioso ya que da la impresin de que la diferencia entre las barras es diferente a la
real.
Otro ejemplo tendencioso es el de agrupar los datos segn interese o mostrar
nicamente los datos que se quieran; por ejemplo, si tras es estudio de los habitantes de una
determinada ciudad se obtiene que el 86% de los menores de 30 aos consumen una marca
A y que el 92% de los mayores de 30 aos no la consumen, se puede omitir este segundo
dato e indicar nicamente que el 86% de los menores de 30 aos la consumen, dando a
entender que el consumo es elevado.
13
Estadstica unidimensional
x = xi f i
i =1
En el caso de que tuviramos una distribucin con datos agrupados, los valores individuales de
la variable seran desconocidos y por tanto no se podra utilizar la expresin anterior. En este
14
Estadstica unidimensional
supuesto se formulan las hiptesis de que el punto medio del intervalo de clase (marca de clase)
representa adecuadamente el valor medio de dicha clase, y se aplicara la frmula original de la
media simple para dichos valores.
Ventajas e inconvenientes
Ventajas:
se utilizan en el clculo todos los valores de que se dispone en la distribucin
est perfectamente determinada de forma objetiva y es nica
es calculable
es el centro de gravedad de la distribucin
Inconvenientes:
los valores extremos muy dispares influyen de manera notable en su valor, por este motivo
puede perder valor representativo
xp =
x w
i
i =1
w
i =1
Notar que los pesos wi pueden ser nmeros reales positivos cualesquiera.
15
Estadstica unidimensional
En estas circunstancias, la medida de posicin central ms utilizada es la media geomtrica.
Entonces, dada una distribucin de frecuencias (xi, ni), se define la Media Geomtrica y se
representa por G a la raz n-sima del producto de los N valores de la distribucin:
k
Notar que
n
i =1
1
N
n log x
i =1
Ventajas e inconvenientes
Ventajas:
- est definida de forma objetiva y es nica.
- considera en su clculo todos los valores de la distribucin.
- los valores extremos tiene menos influencia que en la media aritmtica.
Inconvenientes:
clculo complicado
slo deba aplicarse cuando los valores de la distribucin sean todos positivos, ya que si
alguno fuese cero anulara la media geomtrica y si hubiese valores negativos, se obtendran
valores imaginarios.
Ventajas:
en su clculo intervienen todos los valores de la distribucin.
clculo sencillo.
est definida de forma objetiva y es nica.
Inconvenientes:
- no debe usarse con valores prximos a cero pues sus inversos pueden crecer en demasa
haciendo despreciables frente a ellos la informacin aportada por valores mayores.
- no es posible su determinacin en distribuciones con algunos valores iguales a cero.
16
Estadstica unidimensional
5.- Mediana
La Mediana es el valor de la distribucin, supuesta sta ordenada de menor a mayor, que deja a
su izquierda y a su derecha el mismo nmero de frecuencias. Es decir, divide a la serie estadstica
ordenada en dos partes iguales, habiendo tantos valores por encima como por debajo de ella.
Tambin se puede definir como el valor de la distribucin cuya frecuencia acumulada es N/2 (o su
frecuencia relativa acumulada es ).
Si los datos no estn agrupados y estn numerados de 1 a N, es el valor que ocupa el lugar que
N +1
ocupa el lugar
si N es impar. Cuando N es par, la mediana no queda definida y se toma la
2
N
N
media de los valores
y
+1.
2
2
Representando el polgono de frecuencias acumuladas, bastar con trazar la recta paralela al eje
X de ordenadas N/2 y determinar la abcisa del punto en que lo corta. Puede suceder que la recta
N
y=
tenga un segmento de puntos comunes, entonces se toma como mediana el punto medio del
2
segmento.
N/2
N/2
x1
x2
x3
x5
x6
x7
x1
x2
x3
x4
x5
x6
x7
N/2
A
C
C
m
Ni-1
ci
ai-1
17
ai
Ni
Estadstica unidimensional
Vemos que M = ai 1 + m . Determinamos m en base a la hiptesis fijada, que nos permite
AC
BC
escribir
=
, ya que los tringulos ABC y ABC son semejantes. Por tanto AC = m ,
AC ' BC '
AC ' = ci , BC = ( N / 2) N i 1 y B ' C ' = N i N i 1 = ni .
m ( N / 2) N i 1
Sustituyendo en la relacin anterior se tiene que:
=
,
ci
ni
( N / 2) N i 1
ci ,
y por tanto despejando tenemos m =
ni
( N / 2) N i 1
de modo que: M = ai 1 +
ci
ni
Ventajas e inconvenientes
Ventajas:
es sencilla de calcular
no influyen en ella ms que los datos centrales de la distribucin.
se puede calcular an desconociendo los valores extremos de la distribucin siempre que
contemos con suficiente informacin respecto de sus frecuencias.
Inconvenientes:
no puede expresarse mediante una frmula matemtica sencilla a efectos de realizar con ella
grandes desarrollos matemticos.
A pesar de la frmula vista para el caso de distribuciones en escala por intervalos, la mediana
tiene un mayor sentido en casos de distribuciones en escala ordinal (susceptibles de ser ordenados),
de la cual es la medida ms representativa por describir la tendencia central de la misma.
6.- Moda
Se llama Moda de una distribucin de frecuencias al valor (o valores) de la variable al que
corresponde mayor frecuencia. Una distribucin de frecuencias puede tener una o varias modas. Si
tiene una se llama unimodal, si tiene dos, bimodal, etc.
El clculo de la Moda resulta sencillo en el caso de datos simples y datos agrupados, pero
cuando los datos estn agrupados en intervalos no obtendremos el valor exacto de la Moda, sino una
aproximacin que depender de las hiptesis que realicemos sobre las observaciones de cada
intervalo considerado. Las hiptesis de partida son:
Hay una moda en cada intervalo cuya densidad de frecuencia no es superada por ningn otro.
Dentro de los intervalos, la moda es aquel punto que equilibra las densidades de frecuencia de
los intervalos adyacentes, suponiendo que los valores se reparten en el interior de los mismos de
manera uniforme.
Sea pues [ai 1 , ai ) un intervalo cuya densidad de frecuencia no es superada por ningn otro.
Estre intervalo recibe el nombre de intervalo modal o clase modal. La densidad de frecuencia hi de
n
un intervalo i-simo es el cociente entre la frecuencia absoluta asociada ni y su amplitud ei: hi = i .
ei
18
Estadstica unidimensional
hi
hi+1
a
ei
hi-1
b
ai-2
ai-1
M0
ai
ai+1
e b
a
hi +1 = i
hi +1 .
hi 1
hi 1
a hi +1
=
b hi 1
hi +1
ei . Por tanto la expresin de M0 es
hi +1 + hi 1
hi +1
M 0 = ai 1 +
ei
hi +1 + hi 1
Si las amplitudes de los intervalos fuesen constantes, la expresin de la moda ser
ni +1
M 0 = ai 1 +
ei
ni +1 + ni 1
Despejando b hi 1 = ei hi +1 b hi +1 , y as b =
Ventajas e inconvenientes
Ventajas:
- fcil interpretacin
- clculo sencillo
Inconvenientes:
- no tiene una expresin matemtica sencilla para el clculo algebraico.
- no intervienen en su determinacin todos los valores de la distribucin.
- los cambios en la distribucin que se produzcan ajenos al valor modal no son detectados.
La obtencin de las modas de una distribucin tienen una importancia propia derivada del
hecho de que sirve para detectar posibles fusiones de distintas poblaciones unidimensionales en la
masa de datos. A veces avisa de la necesidad de dividir dicha masa de datos en partes distintas para
que el fenmeno que estamos tratando se estudie mejor.
19
Estadstica unidimensional
Cuartiles: son tres valores de la distribucin que la dividen en cuatro partes iguales, es decir, en
cuatro intervalos dentro de los cuales estn el 25% de los valores de la distr5ibucin. Se
representan por Ci con i=1,2,3.
Deciles: son los nueve valores de la distribucin que la dividen en 10 partes iguales. Cada parte
contendr el 10% de la distribucin. Se representan por Di, con i=1,2,,9.
Percentiles: son los 99 valores que dividen a la distribucin en 100 partes iguales. Se
representan por Pi, con i=1,2,,99.
Notar que P25=C1; P50=C2=M; P75=C3; P10=D1; P20=D2; ; P90=D9. Su clculo es anlogo
al de la mediana y en general se aplica la expresin
r
N N i 1
k
Qr / k = ai 1 +
ci donde
ni
1) para k = 4 y r = 1,2,3 obtenemos los cuarteles
2) para k = 10 y r = 1,2,,9 obtenemos los deciles
3) para k = 100 y r = 1,2,,99 obtenemos los percentiles
2 - Desviaciones
Consideremos un valor central C y un valor de la variable xi. Al valor xi - C se llama
desviacin de xi respecto de C. Al valor xi C , desviacin absoluta.
Se define la desviacin media, D, de una distribucin de frecuencias con respecto al valor
central C a
20
Estadstica unidimensional
1 k
xi C ni (en caso de datos agrupados).
N i =1
Las desviaciones medias ms utilizadas son respecto a la media y a la mediana, que se obtienen
sustituyendo C por x y M, respectivamente.
D=
Las desviaciones medias tienen un significado preciso como promedio de las desviaciones,
aunque tienen el inconveniente de no ser adecuadas para el clculo algebraico.
1
N
( x x )
i
i =1
ni
1
N
xi2 ni + x 2 2 x 2 =
i =1
1
N
x
i =1
2
i
xi2 ni +
i =1
ni x 2
ni
ni xi
ni xi2
x1
n1
n1 x1
n1 x12
xi
ni
ni xi
xk
nk
nk xk
ni xi2
nk xk2
N = xi
n x
1
=
N
2
1
ni x
i =1
N
k
2
i
21
n x
xi ni
i =1
2
i
x2
N
ni
i =1
2x
N
x n
i =1
Estadstica unidimensional
La varianza medir la mayor o menor dispersin de los valores respecto a la media aritmtica.
Si la dispersin es muy grande, la media no ser representativa.
Propiedades de la desviacin tpica
No tiene un sentido muy concreto en s misma y tiene significado para comparar dos
distribuciones. Dividiendo las desviaciones tpicas de ambas se puede obtener cuntas veces una
distribucin es ms dispersa que otra.
Es ms sensible que la media a los valores errneos, puesto que intervienen al cuadrado. Su
clculo puede resultar pesado, por lo que a veces se prefiere el recorrido.
Es la menor de todas las desviaciones cuadrticas respecto a un promedio.
Para distribuciones simtricas o moderadamente asimtricas se cumple de forma aproximada
que:
1. Entre x y x + estn aproximadamente el 68% de las observaciones.
2. Entre x 2 y x + 2 estn aproximadamente el 95% de las observaciones.
3. Entre x 3 y x + 3 estn aproximadamente el 98% de las observaciones.
Coeficiente de apertura
Es la relacin por cociente entre el mayor y el menor valor de una distribucin: A =
x1
. Es
xn
Recorrido relativo.
Es el cociente entre el recorrido y la media aritmtica Rr =
22
R
. Nos indica el nmero de veces
x
Estadstica unidimensional
Recorrido semiintercuartlico
Es el cociente entre el recorrido intercuartlico y la suma del primer y tercer cuartil:
C C1
Rs = 3
C3 + C1
1 - Medidas de asimetra
Las medidas de asimetra se dirigen a elaborar un indicador que permita establecer el grado de
simetra (o asimetra) que presenta una distribucin sin necesidad de llevar a cabo su representacin
grfica. Diremos que una distribucin es simtrica si al representarla grficamente y trazada una
vertical que pase por la media aritmtica, deja a ambos lados el mismo nmero de valores.
Pearson define su ndice de simetra como f1 =
x Mo
23
Estadstica unidimensional
Otro ndice de simetra ms general es el de Fisher, que vale
1 k
3
( xi x ) ni
N i =1
g1 =
2
1
f ( x) =
e 2
2
Se trata de ver la deformacin existente entre una distribucin, en sentido vertical y la normal.
As diremos que una distribucin puede ser ms apuntada que la normal si es ms alta, y recibe el
nombre de Leptocrtica. En caso contrario se la llama Platocrtica. La propia distribucin normal
recibe el nombre de Mesocrtica.
1 k
4
( xi x ) ni
N i =1
Se define el coeficiente de apuntamiento o curtosis como g 2 =
3.
4
g2 = 0
g2 > 0
24
g2 < 0
Estadstica unidimensional
Muestreo.
Estimacin estadstica.
Contraste de hiptesis.
4.1. Muestreo
Como ya se ha indicado, en estadstica se llama Poblacin o Universo, a cualquier conjunto o
coleccin de individuos o elementos que tienen una caracterstica comn. As son ejemplos de
Poblacin los habitantes de una provincia, los rboles de un bosque o los establecimientos
comerciales de una ciudad. Lo que interesa en la Poblacin es medir o contar uno o varios
caracteres cuantitativos. Por tanto se hace necesario que la Poblacin est definida para saber qu
elementos la componen.
Cuando se pueden observar todos los elementos de la Poblacin, diremos que se est realizando
un censo. En este caso la tarea a realizar es describir las caractersticas y regularidades de la
Poblacin con los mtodos de la Estadstica Descriptiva y construir el modelo de Distribucin de
Probabilidad para que pueda ser utilizado en posteriores investigaciones
Pero no siempre es posible analizar cada elemento de la Poblacin debido a diferentes razones
como:
- que sea inviable econmicamente estudiar la poblacin,
- que el estudio implique la destruccin del elemento (ensayos destructivos)
- que la poblacin sea muy difcil de controlar
- que se desea conocer rpidamente ciertos datos de la Poblacin (p.e. encuestas de intencin de
voto)
por lo que las caractersticas de la Poblacin deben ser estudiadas a partir de un subconjunto de esta.
Hemos definido muestra de una Poblacin como un subconjunto de elementos de dicha
Poblacin. El nmero de elementos que la componen se llama tamao de la muestra y el proceso
de escoger una muestra de una poblacin, muestreo. Como ya se ha indicado, si la investigacin se
dirige a toda la poblacin se estar haciendo un censo u observacin exhaustiva. Si lo que se
recoge es la informacin de una muestra, una encuesta.
Al efectuar una observacin exhaustiva se conoce el valor que toma una caracterstica X en
cada uno de los individuos de la Poblacin, por lo que se conoce la distribucin de la variable
hacindose innecesarios los mtodos de Inferencia estadstica. Si la caracterstica X se observa en
una muestra de la Poblacin, para poder utilizar adecuadamente la Inferencia estadstica hay que
prescindir de las muestras seleccionadas segn un criterio u opinin personal. De este modo surge
de forma natural la necesidad de cuantificar los errores de muestreo y de conocer los aspectos
fundamentales para que una muestra sea representativa de la Poblacin.
25
Estadstica unidimensional
Para obtener conclusiones razonables a partir de una muestra, esta debe estar bien elegida, debe
ser representativa de la Poblacin. Esta cualidad depende de dos aspectos fundamentales: el tamao
de la muestra y de cmo se realiza la seleccin de los individuos que la componen.
Por lo que respecta al tamao, si la muestra es demasiado pequea, no se obtendran
conclusiones relevantes y precisas salvo en el caso de poblaciones homogneas, en las que
cualquier subconjunto tiene caractersticas anlogas al conjunto (p.e. una muestra de sangre). Por
otra parte, un aumento del tamao de la muestra no supone un aumento significativo de la
representatividad.
Considerando la seleccin de los elementos, al sustituir el estudio de la poblacin por el estudio
de una muestra se comenten errores. Si la muestra est seleccionada al azar stos se pueden
controlar, pero si est mal elegida, no es representativa y aparecen errores imprevistos e
incontrolados. Un ejemplo de estos errores se pueden ver en los estudios de intencin de voto en las
elecciones a la presidencia de los EEUU en 1936: una revista realiz la encuesta a ms de 4
millones de sus lectores obteniendo el resultado de fracaso electoral de Roosevelt. Por otro lado,
otra encuesta a 4500 personas adelant el xito del Roosevelt con bastante exactitud. La explicacin
es que el segundo estudio contaba con una muestra ms homognea de la sociedad americana de
entonces.
Los integrantes de una muestra han de ser elegidos al azar, eliminando criterios personales. En
este caso estamos ante un muestreo probabilstico al que se pueden aplicar mtodos de inferencia
estadstica. Obtenemos as muestras representativas. En caso contrario estamos ante el muestreo
opintico o no probabilstico (p.e. encuestas de Internet).
Hay dos tipos de errores en la seleccin de la muestra.
1. Errores muestrales, que se encuentran latentes en toda muestra representativa pues no
proporciona una medida exacta de las caractersticas de la poblacin, aun siendo
representativa.
2. Sesgos, ocasionados por la falta de representatividad de la muestra, o a errores de
observacin debidos a definiciones defectuosas, medidas mal efectuadas, etc.
Por este motivo es importante conocer los tipos de muestreo as como la garanta de su
representatividad. Para aumentar la representatividad sin necesidad de aumentar el tamao de la
muestra se recurre al muestreo o tcnicas de muestreo. En la prctica resuelven el problema de la
representatividad. Pero antes de pasar a estudiar los diferentes tipos de muestreo, se presentarn
algunos conceptos bsicos en el muestreo.
Distribucin poblacional
Supongamos que en una Poblacin dada nos interesa estudiar la caracterstica numrica x, y
tenemos para cada uno de sus elementos los valores x1, x2,, xN. Su distribucin queda definida
principalmente por los parmetros poblacionales que son:
N : tamao de la Poblacin;
N
Media poblacional: =
26
x
i =1
Estadstica unidimensional
N
Varianza poblacional: =
( xi )2
i =1
i =1
2 ;
Media muestral: x =
x
i =1
Varianza muestral: S =
2
( xi x )2
i =1
x
i =1
x2;
,
n
con = n de individuos de la muestra con la caracterstica A. Destacar que ahora estos parmetros
son funciones, pues dependen de la muestra escogida.
Nuestro objetivo es obtener informacin sobre la Ley de Probabilidad que rige la caracterstica
x de la Poblacin a partir de las observaciones de la misma elegidas para formar la muestra, es
decir, queremos estimar los parmetros poblacionales a partir de los datos muestrales. As, se define
como estadstico a cualquier funcin que depende slo de los valores de la muestra x1, x2,, xn, y
estimador a aquel estadstico que se utiliza para estimar el valor de un parmetro desconocido de la
Poblacin.
Como para cada muestra considerada el estimador toma un valor, este es una variable aleatoria,
y por tanto, cada estimador tendr una distribucin que llamaremos Distribucin muestral del
estimador considerado. Los estadsticos ms utilizados son x , S 2 , S y un parmetro muestral que se
llama Cuasivarianza muestral, definido como:
n
(x x )
n 1 2
n 2
SC , y SC2 =
S )
n 1
n
n 1
El muestreo probabilstico se caracteriza porque puede calcularse de antemano la probabilidad
de obtener cada una de las posibles muestras, para lo cual es necesario que la seleccin de la
muestra pueda considerarse como un experimento aleatorio. As cada observacin xi es una variable
aleatoria que tiene la distribucin de probabilidad de la Poblacin: E[xi]=, V[xi]=2, para todo i =
1,2,0.
SC2 =
i =1
. (Notar que S 2 =
27
Estadstica unidimensional
Este tipo de muestreo es el nico que tiene rigor cientfico y el nico que puede darnos el error
que cometemos en la inferencia. Dentro del muestreo aleatorio hay varios tipos que se vern a
continuacin.
Varianza: V [ x ] = E ( x E [ x ]) =
, donde
se llama factor de correccin
N 1
N 1 n
para poblaciones finitas.
I.2 - MAS con reemplazamiento
Cuando las sucesivas extracciones de elementos se realiza con reemplazamiento, entonces
tenemos un n-upla x1, x2,, xn de variables aleatorias independientes e idnticamente distribuidas
segn la distribucin de la poblacin.
Como tenemos Nn muestras posibles, la probabilidad de seleccionar una de ellas es por tanto
1/Nn. En este caso la distribucin de la media muestral es:
1
1 n 1 n
E[ x ] = E xi = E[ xi ] = n =
n
n i =1 n i =1
1 n
1
2
1 n 1 n
V [ x ] = V xi = 2 V [ xi ] = 2 2 = 2 n 2 =
, (notar que xi son v.a.i.)
n i =1
n
n
n i =1 n i =1
La distribucin de la varianza muestral es:
28
Estadstica unidimensional
1 n
n 1 2
E S 2 = E ( xi x ) 2 =
n
n i =1
V [ x ] =
N 1 n
n
2
N (n 1)
(n 1) 2
n
E[ S 2 ] =
E[ S 2 ] =
N 1 n
n
V[x ] =
Como regla prctica se suele adoptar que si la fraccin de muestreo n/N es menor que 5/100,
entonces se hace el muestreo aleatorio simple con reemplazamiento, que es el que se utiliza con
mayor frecuencia, y al ser variables aleatorias e independientes e idnticamente distribuidas, el
estudio de las distribuciones de x y S2 queda mucho ms sencillo.
En el estudio de la distribucin de la proporcin muestral, definimos en la Poblacin la
variable aleatoria Y de Bernouilli: Y B(1, pA). Sabemos que E[Y] = pA, V[Y] = pAqA, donde
qA=1-pA. Si tomamos una muestra aleatoria simple de tamao n, Y1,Y2,,Yn, la proporcin
1 n
p
=
Yi . Entonces su esperanza y varianza sern:
muestral de A es:
n i =1
1
1 n 1 n
E[ p ] = E Yi = E[Yi ] = n p A = p A
n
n i =1 n i =1
1 n 1
V [ p ] = V Yi = 2
n i =1 n
V [Y ] = n
i =1
n pA qA =
pA qA
, por ser v.a.i.
n
x
2) Si es desconocido,
tn 1
Sc / n
3)
n S2
2n 1
(n 1) Sc2
2n 1 , y adems es independiente de x .
29
Estadstica unidimensional
Sc
Si es conocida, x N ,
, y si es desconocida, x N ,
n
n
pA qA
p N p A ,
30
Estadstica unidimensional
consiste en elegir la muestra realizando un muestreo aleatorio de conglomerados. Cuando se elige
un conglomerado, todos los elementos del mismo pasan a formar parte de la muestra.
La representatividad de una muestra por reas viene garantizada por el hecho de haber elegido
los conglomerados por un mtodo aleatorio.
Tamao de la muestra
Hasta ahora se ha respondido a la pregunta cmo se debe seleccionar una muestra para que sea
representativa? Queda por contestar la otra cuestin planteada qu tamao debe de tener la
muestra?
En el diseo del estudio estadstico, antes de realizar el muestreo, se ha de fijar el tamao de la
muestra con el fin de que los gastos econmicos para su realizacin estn dentro del presupuesto
fijado, que el tiempo necesario para realizar el muestreo sea corto y que los resultados sean fiables.
En primer lugar se establecer el tamao de la muestra dependiendo del grado de precisin que
se quiera alcanzar, pues en funcin del tamao de la muestra se obtienen los gastos que requiere y el
tiempo necesario. Destacar que el coste y el tiempo hace que muchos estudios no se realicen con la
precisin determinada inicialmente.
Se partir, por tanto, de un determinado error e y de un nivel de confianza para obtener el
tamao adecuado. Se define el nivel de confianza como la probabilidad de que la diferencia entre
el estimador y el parmetro que se quiere estimar sea menor que la cota de error. Podemos
enunciarlo como P ( x < e ) = 1 , y para que esta probabilidad sea elevada, tiene que ser
muy pequeo. Si se considera adems el error de la forma e = k
31
, queda
Estadstica unidimensional
P x < k
= 1 .
n
Suponiendo una Poblacin normal con desconocida, pero conocida , tipificando queda
x
z=
P ( z < k ) = 1 , y por tanto k = z / 2 , por lo que el error vendr dado por
/ n
e = z / 2
z
. A partir de aqu se despeja n, resultando n = / 2 .
n
e
, es decir aadindole
reemplazamiento. Para las poblaciones finitas se tomar eN = z / 2
N 1 n
el factor de correccin.
n
z
Despejando queda nN =
, con n = / 2 .
n 1
e
1+
N
2
Tomando g ( x) = ( x )
2
2
> 0 E [ g ( x ) ] = E ( x ) = V [ x ] =
, y fijando = > 0 ,
n
2
2
P ( x ) > 2
P x >
2
n
n 2
lo que permite determinar el tamao de la muestra necesario para asegurar con determinada
probabilidad que la media muestral no se alejar ms de una determinada cantidad de la media
poblacional.
2
Estimacin puntual
En la que se aproxima el valor del parmetro a partir de un estadstico calculado en
la muestra. No hay un nico criterio para determinar el mejor estimador puntual pero
32
Estadstica unidimensional
para ser un buen estimador se desea que sea insesgado (cuando su distribucin est
centrada en el parmetro a estimar), consistente (si la probabilidad de que la estimacin
y el parmetro estn prximos aumenta y tiende a 1 al aumentar el tamao de la
muestra) y eficiente (un parmetro es ms eficiente que otro si tiene menor varianza).
Estadstica unidimensional
pq
0,5 0,5
= N 0,5;
= N (0,5;0,05)
N p,
n
100
34
Estadstica unidimensional
5 - APLICACIONES DE LA ESTADSTICA.
La estadstica es una ciencia de aplicacin prctica casi universal en todos los campos
cientficos. En este apartado vamos a ver algunas aplicaciones en campos concretos tanto de la
Estadstica Descriptiva como de la Estadstica Inferencial
Estadstica unidimensional
comunidad rural ya estudiada anteriormente). Tambin las comparaciones se podrn
realizar a partir de teoras conocidas. Un ejemplo sera el siguiente: la teora de la transicin
demogrfica de las sociedades que pasan del estado preindustrial al industrial predice un
cambio en las tasas de natalidad y mortalidad, de forma que los valores altos de tales tasas
se reducen significativamente.
Investigaciones de mercado
El sondeo o medicin de la opinin pblica, tradicionalmente importante por su relacin
con objetivos no slo sociales, sino tambin econmicos o polticos, ha adquirido
actualmente una gran relevancia. Investigadores del mercado, trabajadores sociales,
doxlogos, pseflogos y analizadores de la opinin pblica constituyen parte de un nuevo
colectivo que utiliza el muestreo de opinin pblica como herramienta de trabajo. Es
36
Estadstica unidimensional
interesante, as mismo, el empleo del material recogido en las encuestas para el anlisis y
simulacin de votaciones y otras reacciones polticas y sociales.
Ciertos investigadores (Stephan y McCarthy) incluyen entre los estudios de la opinin
pblica los relacionados con votaciones, matrimonio y vida familiar, lectura y uso de
bibliotecas, empleo del telfono, radio y televisin, moral y comportamiento de los
militares en campaa y en tiempo de paz, reacciones de un pas ante una calamidad pblica,
propaganda y rumores e influencia personal de ciertos individuos. Se han efectuado
muestreos, igualmente, para medir preferencias y evaluar el prestigio de personalidades,
partidos, profesionales, etc. y las relaciones entre diferentes razas y pases.
En los sondeos de opinin pblica aparecen como problemas principales la negativa a
proporcionar informacin o a facilitarla de forma incompleta y no verdica por parte de los
individuos seleccionados en la muestra. Sern varias las tcnicas para paliar estos efectos
negativos: asignacin de agentes de recogida de datos de las mismas caractersticas que los
individuos de la muestra (raza, clase social), explicacin clara de los fines del sondeo,
fijacin de entrevistas en lugar y hora preferentes para los entrevistados, etc.
37
Estadstica unidimensional
Estadstica Inferencial. Son dos las tcnicas principales que la Teora de la Decisin pone a
disposicin de las Ciencias Sociales.
Decisiones estadsticas
Despus de sacar una muestra de cierta poblacin, y obtener los datos referentes a la
muestra, podemos usarlos para ayudarnos a tomar una decisin sobre la poblacin. Un
ejemplo sera analizar las necesidades de vivienda en una muestra particular para tomar una
decisin en cuanto a la construccin de un nmero determinado de viviendas en una
ciudad.
Es importante observar que estas decisiones estn tomadas sobre una base
probabilstica. Esto es, hay siempre una probabilidad calculada de que una decisin
particular sea mala. El acierto de la decisin estadstica es que el grado de riesgo
correspondiente a cualquier decisin particular se mide objetivamente en trminos de
probabilidades.
Hiptesis estadstica
El procedimiento a seguir para llegar a una decisin ser primero suponer la hiptesis
que se quiere decidir, despus estudiar los resultados del experimento para ver si son
consecuentes o no con la hiptesis y, finalmente, rechazar o aceptar dependiendo de si son
consecuentes o no.
Un ejemplo sera la determinacin del nivel de delincuencia de una ciudad especfica.
Una de las hiptesis podra ser que el nivel de delincuencia es mayor en la mitad norte que
en la mitad sur. Para ello se procede al anlisis mediante el estudio de una muestra concreta
aleatoria sobre la que se contrasta la hiptesis, siguindose la veracidad o falsedad de la
misma.
38
Estadstica unidimensional
de enlaces necesarios para la no saturacin de las lneas telefnicas. Algo muy parecido sucede
en las Ingenieras tanto Electrnicas, de Telecomunicaciones, Industriales o Informtica.
Otras aplicaciones
Tras todo 1o comentado se puede observar la dificultad de encontrar algn mbito, tanto a
nivel empresarial como tecnolgico o cientfico que no utilicen la estadstica como valor
aadido a su actividad. Algunos mbitos que no se han nombrado directamente, pero dnde
tambin deben tenerse en cuenta las aplicaciones de la estadstica, podran ser, entre otros
muchos, la Publicidad, ayudando a prever o a entender la influencia de una campaa sobre un
sector de la poblacin, la Lingstica, ayudando a analizar dos obras literarias muy semejantes,
las Matemticas, dnde se utilizan numerosos modelos estadsticos, las Compaas de
Seguros, utilizando las tablas de mortalidad para calcular las tarifas de sus clientes, o la
Informtica, tanto en algoritmos complejos como en distribuciones de trficos por las redes de
ordenadores.
39
Primer tipo
Se origina cuando el nmero de datos bidimensionales N es pequeo. En este caso, los datos
se disponen en dos columnas sobre las que se emparejan los correspondientes valores
unidimensionales de una misma realizacin de la variable bidimensional, como puede verse en la
siguiente tabla:
Variable X
x1
x2
xn
Variable Y
y1
y2
yn
Segundo tipo
Se utiliza cuando el nmero de datos N es grande pero, sin embargo, existe un nmero
pequeo (k) de parejas de valores distintos. Es decir, cuando entre los N datos existan k
realizaciones (x1,y1), (x2, y2), .... (xk, yk) distintas que se repiten n1, n2, , nk, veces,
respectivamente, siendo
n1 + n2 + ... + nk = N.
En este caso la tabulacin se realiza en tres columnas, enfrentando los valores xi, yi y ni en
cada fila, es decir, valores unidimensionales de cada realizacin con su frecuencia absoluta
correspondiente, segn se expresa en la siguiente tabla:
40
Variable X
x1
x2
xk
Variable Y
y1
y2
yk
Frecuencia
n1
n2
nk
N
Hay que hacer notar que las tablas del primer tipo pueden considerarse como de segundo
tipo, en donde las frecuencias valen 1 para la totalidad de los pares de los valores observados.
Tercer tipo
Se utiliza este tipo de tabulacin cuando el nmero de observaciones es elevado y el nmero
de distintas parejas de valores observadas tambin. En este caso se utiliza una tabla de doble
entrada, que recibe el nombre de tabla de correlacin, y que tiene la forma que puede verse:
Intervalos
de clase Y
Intervalos
de clase X
Marcas de
de clase
(b0, bl)
y1
n11
n21
....
ni1
....
nkl
n1
(b1, b2)
y2
n12
n22
....
ni2
....
nk2
n2
....
....
....
....
....
....
....
....
....
(bj-l, bj)
yj
n1j
n2j
....
nij
....
nkj
nj
....
....
....
....
....
....
....
....
....
(bp-1, bp)
yp
n1p
n2p
....
nip
....
nkp
np
n1
n2
....
ni
....
nk
n = N
Totales verticales
(a0, a1)
(al, a2)
....
(ai-1, ai)
....
(ak-l, ak)
xl
x2
....
xi
....
xk
Totales
horizontales
Como se ve, la tabla es de doble entrada, figurando en las columnas las modalidades o
valores de X y en las filas los de Y. En la interseccin de la columna del valor xi, y la fila
correspondiente al valor yj se encuentra la frecuencia absoluta del par (xi, yj), que designamos por
nij. En la ltima fila aparecen los totales de las frecuencias de las columnas; ni es la suma de
frecuencias de todos los pares cuyo primer elemento es x1. En general:
p
ni = nij
j =1
En la ltima columna aparecen los totales de las frecuencias de las filas; n1 es la suma de
frecuencias de todos los pares cuyo segundo elemento es y1. En general:
k
n j = nij
i =1
Por ltimo:
k
i =1
j =1
n = nij = ni = n j = N
i =1 j =1
Se define la frecuencia relativa del par (xi, yj) como el cociente entre su frecuencia absoluta
y el nmero total de pares. Se designa por fij
41
f ij =
nij
N
fi es la frecuencia (relativa) de los pares cuyo primer elemento es xi, independientemente de cual
sea el segundo valor. Se define por:
p
ni
f i =
= f ij
N
j =1
Del mismo modo fj es la frecuencia relativa de los pares cuya segunda componente es yj
siendo la primera cualquier valor de X, se define por:
k
n j
f j =
= f ij
N
i =1
Es evidente que:
k
i =1
f i = f j = f ij = 1
j =1
i =1 j =1
Nota:
Si las variables no estn agrupadas en clases, se pueden suprimir la primera fila y la primera
columna de la tabla. Una representacin grfica se puede obtener asignando a cada par (xi, yj) un
punto del plano.
42
18 - 26
26 - 34
34 - 42
22
30
38
20-26
23
26-32
29
32-38
35
Observemos que en este caso todos los rectngulos de cruce tienen la misma rea 6 8 =
= 48, luego bastar tomar como referencia de altura sus frecuencias, con lo cual el estereograma
que obtenemos es el siguiente:
43
Es evidente que:
i =1
f i = f j = 1
j =1
Frec. absolutas
Frec. relativas
x1
n1j
f1 j
xi
nij
fi j
xk
nkj
f kj
Total
nj
44
Frec. absolutas
Frec. relativas
Y1
ni1
f 1i
yi
nij
f ji
yk
nip
f pi
Total
ni
ni
de donde f i j = f i
n j n1 + n2 + + n j + + n p n
Las frecuencias condicionadas son iguales a las frecuencias marginales y las distribuciones
condicionadas iguales a la distribucin marginal.
=
ni nij n j nij
o bien f ij = f i f ji = f j f i j
N ni
N N
f ji = f j , que nos indican que las frecuencias de Y condicionadas por xi, no dependen de i. Por
tanto, cuando X es independiente de Y tambin Y es independiente de X, y se dice que la
independencia es recproca.
A continuacin damos un ejemplo de dos variables independientes:
45
y1
y2
y3
y4
TOTAL
x2
6
10
4
8
28
x3
12
20
8
16
56
TOTAL
21
35
14
28
98
Veamos que las frecuencias condicionadas son iguales a las frecuencias marginales y las
distribuciones condicionadas iguales a la distribucin marginal. Las distribuciones marginales de
X e Y son:
X
x1
x2
x3
TOTAL
F.Abs
ni
14
28
56
98
F.Rel
fi
14/98 = 1/7
28/98 = 2/7
56/98 = 4/7
1
y1
y2
y3
y4
TOTAL
F.Abs
nj
21
35
14
28
98
F.Rel
fi
21/98 = 3/14
35/98 = 5/14
14/98 = 2/14
28/98 = 4/14
1
F.Abs
nj
F.Rel
Y
y1
y2
y3
y4
TOTAL
21
35
14
28
98
21/98 = 3/14
35/98 = 5/14
14/98 = 2/14
28/98 = 4/14
1
F.Abs
ni
F.Rel
f ji
x1
x2
x3
TOTAL
14
28
56
98
14/98 = 1/7
28/98 = 2/7
56/98 = 4/7
1
f ji
x2
x3
TOTAL
y1
y2
y3
y4
y5
TOTAL
11
28
46
Media
1
N
x=
i =1
i =1
i =1 j =1
Varianza
V ( X ) = x2 =
ni xi = f i xi = f ij xi
1
N
Desviacin tpica: x
n (x
i
i =1
x ) = f i (xi x )
2
i =1
Media
y=
1
N
j =1
j =1
i =1 j =1
Varianza
1
V (Y ) = =
N
2
y
n j y j = f j y j = f ij y j
n (y
p
j =1
y ) = f (y
p
j =1
y)
Desviacin tpica: y
Frec. Absoluta
Frec. Relativa
xl
n1j
xi
nij
xk
nkj
f1 j
fi j
f kj
TOTAL
nj
Media: x j =
1
n j
i =1
i =1
nij xi = f i j xi
47
Varianza: V j ( X ) =
1
n j
i =1
i =1
y
=
f ji y j
ij
j
ni j =1
j =1
Varianza: Vi (Y ) =
1
ni
nij (y j yi ) = f ji (y j yi )
p
j =1
j =1
6.4. Covarianza
Hemos visto anteriormente como asociadas a una variable estadstica bidimensional que hay
una serie de distribuciones unidimensionales (marginales y condicionadas). Evidentemente, la
descripcin numrica de una variable bidimensional pasa por una descripcin numrica de
dichas variables unidimensionales, aspecto este que ya sabemos manejar en base a temas
anteriores. Para cada distribucin puede estudiarse, por ejemplo, posicin, dispersin, simetra y
curtosis como ya vimos.
Ahora bien, existe sin embargo una medida general para la distribucin bidimensional, que es
de gran utilidad y est ligada a la independencia de las variables. Dicha medida se conoce con el
nombre de covarianza y suele representarse por xy. Viene dada por la siguiente frmula:
p
n (x
xy =
ij
i =1 j =1
x ) (y j y )
donde (xi, yj) es una observacin conjunta y x e y las medias aritmticas de las distribuciones
marginales de X e Y, respectivamente.
Puede comprobarse, adems, sin dificultad, que la covarianza se puede poner en la forma:
p
n
xy =
i =1 j =1
ij
xi y j
xy
n i n j
, i,j
N
N N
Calculemos, segn esta condicin, el valor de la covarianza:
k
xy = xi y j
i =1 j =1
nij
N
x y = xi y j
i =1 j =1
k
n i n j
n
x y = xi i
N
N N
i =1
48
n j
y
j =1
xy = xyxy =0
49
e
i =1
2
i
desviaciones sea mnima. Tiene la ventaja de que los valores que asigna a los parmetros
corresponden a la frmula ms probable en el sentido de que los valores de y que se deduzcan
de ella son los valores ms probables de las observaciones, supuesto que stas cumplen la ley de
Gauss de los errores. El desarrollo del mtodo requiere conocimientos sobre la determinacin de
mnimos de funciones de varias variables. Se trata, pues, de hacer que la funcin
n
E = ei2
i =1
sea mmima
El mtodo de los mnimos cuadrados nos proporciona las condiciones que nos permiten,
eligiendo una familia de funciones, determinar cul de ellas ajusta mejor nuestra nube de puntos.
Dada una nube de puntos y considerando la familia de todas las funciones lineales, vamos a
aplicar el mtodo de los mnimos cuadrados para determinar cul de todas ellas ajusta mejor
nuestro diagrama de dispersin. Esta recta se denomina recta de regresin y su estudio lo
desarrollamos en el siguiente apartado.
Para cada punto P(xi, yj) su desviacin respecto a la recta y = ax + b es la cantidad que
denotaremos dij y que se calcula: dij = yj - y = yj - (axi + b).
Segn el mtodo de los mnimos cuadrados para que:
D = f ij d ij2 = f ij ( y j axi b )
k
i =1 j =1
i =1 j =1
50
Desarrollando obtenemos:
p
k
D
= 2 f ij ( y j axi b ) =
b
i =1 j =1
p
p
k
k
k p
= 2 f ij y i a f ij xi b f ij = 2( y ax b )
i =1 j =1
i =1 j =1
i =1 j =1
D = f ij ( y j axi y + ax ) = f ij y j y a ( xi x )
k
i =1 j =1
i =1 j =1
D
= 2 f ij ( xi x ) y j y a ( xi x ) = 0 , por lo que
a
i =1 j =1
k
[
k
i =1 j =1
f ij y j y a ( xi x ) = 0 f ij ( y j y ) a f ij ( xi x ) = 0
k
i =1 j =1
i =1 j =1
Despejando:
f (y
a=
y)
x)
ij
i =1 j =1
p
f (x
ij
i =1 j =1
f (x
a=
i =1 j =1
k
ij
x )( y j y )
f (x
ij
i =1 j =1
x)
i =1
i =1 j =1
f (x
a=
i =1 j =1
ij
x )( y j y )
x2
51
xy
x2
xy
, y pasa por el punto ( x, y ) se obtiene:
x2
xy
(x x )
x2
Cambiando x por y, y tomando las desviaciones paralelas al eje OX, se obtiene la recta de
regresin de X sobre Y, cuya ecuacin es:
xx =
xy
(y y)
y2
52
8. COEFICIENTE DE CORRELACIN
Se llama correlacin al grado de dependencia que hay entre las variables. Mediante la
correlacin se determina en qu medida una recta o curva de regresin describe la relacin que
existe entre las variables. Cuando todos los valores de las variables satisfacen exactamente una
ecuacin se dice que entre ellas hay una correlacin perfecta. Todos los puntos de la nube estn,
en este caso, sobre la curva de regresin.
En general, la correlacin, no ser perfecta, como estudiaremos a lo largo del tema,
pudindose presentar distintos grados de correlacin. Si se trata de estudiar la correlacin entre
dos variables, se habla de correlacin simple; si son ms de dos, se llama mltiple. En este tema,
nos limitaremos a estudiar la correlacin entre dos variables cuando la lnea de regresin es una
recta, llamndola correlacin lineal.
53
r=
f ( x x )( y y )
i =1 j =1
ij
f ( x x )
i =1 j =1
ij
f ( y
k
ij
i =1 j =1
y)
xy = f ij ( xi x )( yi y )
i =1 j =1
k
= f ij ( xi x )
2
x
i =1 j =1
y2 = f ij ( y j y )
k
i =1 j =1
Sustituyendo en r se obtiene
r=
xy
x y
xy
Propiedades
54
Si r=1 entonces la correlacin es total o funcional, pues todos los puntos estn sobre la
recta de regresin. La suma de los cuadrados de las desviaciones es nula, luego todos los
puntos estn sobre la recta de regresin. Las ecuaciones de las rectas de regresin de Y sobre
X y de X sobre Y son, respectivamente:
y
(x x)
x
1
r2 y y = y ( x x )
r x
r1 y y = r
y
(x x)
x
Se dice en este caso que entre las dos variables existe una dependencia funcional.
b) Si r = -1, las rectas tambin coinciden y su ecuacin es: y y =
y
(x x)
x
Anlogamente, en este caso, entre las dos variables tambin existe una dependencia
funcional.
55
Si -1 < r < 1, se dice que entre las dos variables existe dependencia aleatoria:
a. Cuando r est prximo a 1 o -1 la dependencia se aproxima a la funcional. El ngulo
que forman las rectas de regresin se aproxima a cero.
b. Si r se aproxima a 0, la dependencia aleatoria es muy pequea y el ngulo que forman
las rectas de regresin es prximo a 90.
Si r > 0, se dice que la correlacin es directa o positiva. Las pendientes de las rectas de
regresin son:
1y
de r2
m = r y de r1 y m =
x
r x
Ambas son del mismo signo y positivas por ser r > 0. Adems m' > m, pues r< 1. Las dos
rectas se cortan en el centro de gravedad ( x , y ) y la recta de regresin de X sobre Y se
aproxima ms a la vertical que la de Y sobre X.
Si 0 < r < 1, las dos variables estn tanto ms correladas a medida que r se aproxima a 1. Por
tanto, es un caso de dependencia aleatoria.
Si r < 0, la correlacin se llama inversa o negativa. Las pendientes m y m' son negativas por
ser r < 0, y m > m' pues r< 1. Las dos rectas son decrecientes y su posicin relativa viene
dada por la figura.
Si -1 < r < 0, las dos variables estn tanto ms correladas a medida que r se aproxima a -1.
Por tanto, es un caso de dependencia aleatoria.
56
xy2
r = 2 2
x y
2
57
9. SIGNIFICADO Y APLICACIONES
9.1. Uso y abuso de la regresin
La aplicacin de los mtodos expuestos de regresin y correlacin exige un anlisis terico
previo de las posibles relaciones entre las variables. Puede ocurrir que se seleccionen dos
variables cualesquiera al azar y que d la casualidad de que, estadsticamente, la correlacin es
perfecta cuando no existe relacin posible entre ellas. Por ejemplo, el hecho que, casualmente, la
correlacin lineal entre la tasa de natalidad en Nueva Zelanda y la produccin de cereales en
Espaa a lo largo de un determinado perodo fuera perfecta no nos debera llevar a suponer que
existe algn tipo de relacin lineal entre estas variables.
Se deben seleccionar entre las que la fundamentacin terica avale algn tipo de relacin,
evitando, en lo posible, relaciones a travs de otra variable principal. Por ejemplo, el consumo de
bebidas puede variar en la misma direccin que el consumo de gasolina, pero no porque una
variable dependa directamente de la otra, sino porque ambas van en el mismo sentido que las
variaciones de la renta, que ser la principal variable explicativa.
9.2. Prediccin
El objetivo ltimo de la regresin es la prediccin o pronstico sobre el comportamiento de
una variable para un valor determinado de la otra. As, dada la recta de regresin de Y sobre X,
para un valor X = x0 de la variable, obtenemos y0.
Es claro que la fiabilidad de esta prediccin ser tanto mayor, en principio, cuanto mejor sea
la correlacin entre las variables. Por tanto, una medida aproximada de la bondad de la
prediccin podra venir dada por r.
59
Ejercicios
EJERCICIOS DE ESTADISTICA UNIDIMENSIONAL
1.- La puntuacin de un test, de valores entre cero y diez, realizado a 20 personas es la siguiente:
2
1
5
8
6
3
9
4
7
2
8
7
9
5
6
8
3
5
4
5
2.- El color favorito de 10 personas elegido entre azul, amarillo y rojo es:
azul
rojo
amarillo
rojo
amarillo
azul
rojo
amarillo amarillo
azul
3.- En las elecciones al Parlamento de Catalua del ao 2006 en la ciudad de Reus se obtuvieron
los siguientes resultados:
Censo electoral: 71.361
Votantes: 36.501
Abstencin: 34.860
Resultado:
Partido poltico
Votos
CiU
11.645
PSC
9.079
ERC
5.844
PP
4.562
ICV
2.549
Otros
2.106
a)
b)
c)
d)
4.- Las edades de los 12 jugadores de la plantilla de baloncesto del equipo CB Tarragona en la
temporada 2006-2007 son:
29
a)
b)
c)
d)
36
19
28
28
20
60
24
21
24
30
23
27
Ejercicios
5.- Las calificaciones del examen de matemticas Aplicadas a las Ciencias Sociales de 25
alumnos de 1 de Bachillerato son:
1
2
7
a)
b)
c)
d)
e)
f)
g)
2
4
5
3
5
9
4
8
2
5
4
6
6
1
9
3
6
4
3
7
4
4
ni
14
7
11
5
4
9
50
Ni
fi
Fi
ni
[50-100)
[100-150)
[150-200)
[200-250)
8
16
4
2
Total
30
a)
b)
c)
d)
e)
Marca de
clase (xi)
Ni
xini
xi x
61
xi x ni
( xi x ) 2
( xi x ) 2 ni
Ejercicios
8.- Las alturas de 40 pasajeros de un avin son las siguientes expresadas en cm:
140
164
175
193
a)
b)
c)
d)
e)
f)
192
182
185
190
126
178
124
181
177
167
164
163
150
170
180
190
179
173
158
162
175
182
186
162
174
172
175
161
171
189
172
167
169
173
176
155
Calcula el recorrido
Distribuye los datos en diez intervalos de siete unidades de amplitud
Elabora una tabla como la del ejercicio anterior
Calcula la media aritmtica y la desviacin estndar
Calcula la desviacin media
Cul es el porcentaje de pasajeros que son ms altos de 166 cm?Y ms bajos de 152?
35
40
45
45
42
41
42
39
44
40
41
43
43
39
38
37
36
38
35
40
37
39
42
40
41
39
41
10.- Las ganancias de una empresa durante los diez ltimos aos han sido las siguientes:
Aos
1997
1998
1999
2000
2001
2002
2003
2004
2005
2006
2007
Beneficios
(millones de euros)
1.248
1.125
972
1.208
1.110
1.005
1.102
1.170
1.250
1.375
1.382
62
Ejercicios
11.- El nmero de goles que un jugador ha marcado durante la primera ronda de la liga son:
1
0
10
0
Jornada
Goles
Jornada
Goles
2
2
11
1
3
3
12
2
4
1
13
2
5
1
14
1
6
2
15
0
7
2
16
0
8
3
17
0
9
0
18
1
12.- Un jugador de baloncesto ha conseguido los siguientes puntos en los primeros diez partidos
de Liga:
Partidos
Puntos
1
12
2
20
3
15
4
8
5
10
6
11
7
15
8
7
9
9
10
17
a) Elabora un diagrama de barras en que el eje de abcisas sea el nmero del partido, y el de
ordenadas, el nmero de puntos.
b) Calcula la media y la varianza del nmero de puntos.
63
Ejercicios
EJERCICIOS DE ESTADISTICA BIDIMENSIONAL
1.- Dados los valores siguientes de las variables bidimensionales X(peso) e Y(altura):
Peso (kg): X
Altura (cm): Y
a)
b)
c)
d)
52
160
60
163
70
181
73
185
54
170
80
170
65
172
60
164
90
192
85
178
2.- Con los datos de la siguiente tabla de doble entrada calcula los parmetros siguientes:
Y/X
10
11
12
13
Total
Total
a)
b)
c)
d)
Media aritmtica de X e Y
Desviacin tpica de X e Y.
Covarianza.
Coeficiente de correlacin
64
Ejercicios
5.- Dada la siguiente tabla de doble entrada, donde X son las horas diarias que cada alumno
dedica a los videojuegos e Y es el nmero de suspensos del ltimo trimestre:
Y/X
Total
Total
a) completa la tabla de doble entrada
b) Representa la nube de puntos
c) Elabora la tabla siguiente:
xi
yi
ni
nixi
nixi2
niyi
niyi2
nixiyi
7.- Dada la siguiente tabla, donde X es el rea de un bosque (ha) e Y es la madera que se extrae
al ao (kg):
yi
ni
nixi
nixi2
niyi
niyi2
nixiyi
xi
100
29
1
150
38
2
200
47
0
250
63
3
300
74
1
350
82
1
400
90
2
450
111
1
500
129
2
550
136
1
600
150
1
15
Total
65
Ejercicios
a) Completa la tabla anterior
b) Calcula las medias y las desviaciones
c) Calcula la covarianza y el coeficiente de correlacin.
8.- Se mide la altura y el nmero del calzado de diez personas adultas, y los resultados son:
Pie: X
Altura (cm): Y
a)
b)
c)
d)
e)
39
163
46
194
45
185
41
172
38
170
44
180
42
177
39
160
41
165
45
183
9.- Se mide la concentracin de calcio en diferentes aguas comerciales mediante un aparato que
mide el rea de la figura registrada. Por este motivo se realiza una recta de regresin:
Concentracin
(mg/ml): X
Area: Y
10
15
20
25
30
35
40
25
46
78
102
121
149
173
205
10.- En una clase de 20 alumnos de 4 de ESO, las notas del curso de ciencias naturales y
matemticas son las siguientes:
Nota ciencias
naturales (X)
Nota
matemticas (Y)
Nota ciencias
naturales (X)
Nota
matemticas (Y)
10
66
Ejercicios
11.- A partir de las siguientes nubes de puntos identifica los coeficientes de correlacin ms
apropiados para cada una de ellas: r = 0,85; r = -1; r = 0,99; r = 0,017.
12.- Identifica las siguientes rectas de regresin con la nube de puntos de la actividad anterior:
13.- En un experimento para estudiar la relacin que existe entre la dosis de un medicamento y el
tiempo de reaccin de una persona estimulada ante una seal acstica, se han recogido los datos
siguientes:
Dosis (mg)
Tiempo (s)
1
3,5
3
2,4
4
2,1
7
1,3
9
1,2
12
2,2
13
2,6
14
4,2
a) Haz una nube de puntos en el plano de coordenadas poniendo en las abcisas la dosis, y en
las ordenadas, el tiempo. Crees que el tiempo depende de la dosis?
b) Se puede ajustar la nube mediante una recta? Tiene sentido calcular el coeficiente de
correlacin en este caso? Qu mide el coeficiente de correlacin?
67