Está en la página 1de 69

NOCIONES DE ESTADSTICA

INDICE
1. Usos de la Estadstica y conceptos bsicos............................................................ 1
2. Estadstica Descriptiva y Estadstica Inferencial..................................................... 3
3. Mtodos bsicos de la Estadstica Descriptiva. ...................................................... 4
3.1. Recogida de datos ............................................................................................. 4
3.2. Ordenacin y tabulacin de datos...................................................................... 5
3.3. Representacin de datos ................................................................................... 7
3.4. Parmetros estadsticos................................................................................... 14
3.4.1. Medidas de posicin o centralizacin.................................................... 14
3.4.2. Medidas de dispersin .......................................................................... 20
3.4.3. Medidas de forma.................................................................................. 23
4. Mtodos bsicos de la Estadstica Inferencial....................................................... 25
4.1. Muestreo .......................................................................................................... 25
4.2. Estimacin estadstica ..................................................................................... 32
4.3. Contrastes de hiptesis.................................................................................... 33
5. Aplicaciones de la estadstica ................................................................................ 35
6. Series estadsticas bidimensionales. ..................................................................... 40
6.1. Variables estadsticas bidimensionales: tablas estadsticas. ........................... 40
6.2. Representaciones grficas............................................................................... 42
6.3. Distribuciones marginales y condicionadas ..................................................... 44
6.3.1. Distribuciones marginales ..................................................................... 44
6.3.2. Distribuciones condicionadas ................................................................ 44
6.3.3. Independencia y dependencia funcional ............................................... 45
6.3.4. Caractersticas marginales y condicionadas ......................................... 47
6.4. Covarianza....................................................................................................... 48
7. Regresin y correlacin lineal................................................................................. 49
7.1. El problema del ajuste...................................................................................... 49
7.2. Regresin lineal ............................................................................................... 50
8. Coeficiente de correlacin ....................................................................................... 53
8.1. Correlacin lineal ............................................................................................. 53
8.2. Coeficiente de correlacin lineal: propiedades................................................. 54
9. Significado de la regresin y aplicaciones............................................................. 58

Estadstica unidimensional

1 - USOS DE LA ESTADSTICA Y CONCEPTOS BSICOS


A pesar de los distintos usos de la Estadstica, histricamente se la conoca con el nico
objetivo de recopilar datos, y as fue hasta el siglo XVII, momento en que los matemticos
comenzaron a abordar los problemas relacionados con el recuento de datos analizando las
tendencias que se pueden presentar en los sucesivos resultados.
El hecho de entender y usar la Estadstica nicamente como coleccin de datos se deba a
que tradicionalmente la Estadstica la usaban los gobiernos para establecer registros de
nacimientos, defunciones, impuestos,... De hecho, la palabra Estadstica tiene el mismo origen
que la palabra estado y como puede verse en multitud de documentos histricos, los estados ya
saban como recoger y organizar los datos mucho antes que los mtodos cientficos les
permitiesen un estudio de ellos.
Es a los matemticos del s. XIX a los que les debemos el uso de la palabra Estadstica en
todo su sentido tcnico ya que fueron ellos los que posibilitaron el paso de la estadstica
deductiva a la estadstica inductiva o inferencial, que es la que actualmente tiene mayor
influencia en todos los campos de la ciencia.
La ciencia de la Estadstica se divide en dos partes: Estadstica descriptiva y Estadstica
inferencial.
- La estadstica descriptiva se encarga de la recogida, ordenacin y tabulacin de los datos
obtenidos en las diferentes observaciones.
- La estadstica inferencial cuya funcin es la de establecer conclusiones y tomar decisiones
basadas en ese anlisis descriptivo.

Conceptos bsicos en un proceso estadstico


Es obvio que toda investigacin estadstica debe estar necesariamente referida a un
conjunto o coleccin de personas o cosas (realmente existentes o posibles) que verifiquen una
definicin bien determinada.
Recibe el nombre de poblacin el conjunto de individuos o elementos que tienen unas
caractersticas comunes. Las personas o cosas que componen una poblacin reciben el nombre
de elementos y pueden tener existencia real: un coche, una casa, , o bien referirse a algo
mucho ms abstracto: un intervalo de tiempo, un voto, etc..
El tamao de una poblacin viene dado por el nmero de elementos que componen dicha
poblacin. Puede ser finito o infinito. No siempre es posible analizar cada elemento de una
poblacin, ya sea por razones econmicas, de tiempo, de personal disponible, por destruccin
de los elementos tras el anlisis... Por eso, en muchos estudios estadsticos se estudia solo una
parte de la poblacin, que denominamos muestra. La operacin de tomar una muestra de la
poblacin se denomina muestreo.
Es necesario que seleccionemos adecuadamente los elementos que integran la muestra,
eliminando criterios personales. Es decir, los elementos de una muestra han de ser elegidos al
azar. Si operamos as estamos haciendo un muestreo probabilstico a partir del cual
obtenemos muestras representativas. Cuando la seleccin de los elementos de la muestra se
1

Estadstica unidimensional
hace por criterios personales no aleatorios, estamos ante un muestreo no probabilstico que
nos da una muestra no representativa.
Las propiedades o cualidades que poseen los elementos de una poblacin se denominan
caracteres. Los caracteres de los elementos que componen una poblacin los dividiremos en:
- Cuantitativos o variables.
- Cualitativos o atributos.
Los caracteres cualitativos o atributos son los que se describen mediante palabras, tal como
el sexo, estado civil, nacionalidad, etc. Un atributo adopta diversas modalidades. Por ejemplo
el sexo: hombre o mujer.
Los caracteres cuantitativos o variables son los que se describen mediante nmeros, es
decir, son medibles; tales como la estatura, la edad,... Las variables se expresan con smbolos
(x, y, z...) que pueden tomar un valor numrico de entre un conjunto de valores posibles que se
denomina dominio de la variable.
Distinguimos dos tipos de variables:
- Variable discreta: cuando sus posibles valores son finitos o numerables
- Variable continua: cuando sus posibles valores son infinitos no numerables.
La representacin de un carcter mediante un nmero no es un indicador infalible de que se
trate de una variable, pues a unos atributos se les asigna un nmero para indicar la modalidad.
Por ejemplo para sexo: 1 para indicar hombre, 2 para indicar mujer. La verdadera diferencia
entre un carcter cuantitativo y otro cualitativo es que si se trata de un atributo carece de
sentido realizar operaciones algebraicas con los nmeros que representan las modalidades.
Adems, los atributos se pueden ordenar por modalidades pero no jerarquizar.
Los resultados que se obtienen tras la observacin de atributos y variables se denominan
datos u observaciones. En el caso de las variables tambin se les suele llamar valores.
Los mtodos de observacin de los caracteres de los elementos se denominan:
- Observacin exhaustiva: cuando observamos todos los elementos de la poblacin.
- Observacin parcial: cuando slo observamos los elementos de una muestra.
- Observacin mixta: en este tipo de observacin se combinan la observacin exhaustiva
y la observacin parcial, de tal manera que los caracteres que se consideran bsicos para
la investigacin se observan exhaustivamente, y los restantes, mediante muestras.

Estadstica unidimensional

2 - ESTADSTICA DESCRIPTIVA Y ESTADSTICA INFERENCIAL


Cuando se observan exhaustivamente todos los elementos de la poblacin (se supone que la
observacin se efecta sin errores), entonces se dispone de todos los datos posibles para aquel
estudio. Con tales datos, es posible describir exactamente las regularidades, el comportamiento
o las caractersticas de la poblacin.
Estadstica descriptiva
La Estadstica descriptiva no es otra cosa, pues, que la ciencia dedicada a descubrir las
regularidades o caractersticas existentes en un conjunto de datos. Pero si la observacin no
es exhaustiva, sino que se parte de una muestra con la finalidad de conocer, mediante ella,
las caractersticas de la poblacin, entonces nos enfrentamos con un proceso de induccin,
en virtud del cual se aprovecha la informacin suministrada por la muestra para conocer,
aunque sea aproximadamente, aquellas caractersticas.
Estadstica inferencial
La Estadstica Inductiva, tambin llamada Inferencia Estadstica, tiene, por tanto, como
funcin, generalizar los resultados de la muestra para estimar las caractersticas de la
poblacin. No obstante, el conjunto de datos muestrales puede describirse o analizarse de la
misma forma que una poblacin. Por tanto, el conjunto de observaciones o datos de una
muestra puede manejarse en un doble sentido. Primero, para describir el propio conjunto de
observaciones, y segundo, para inferir lo que ocurre en la poblacin.
En consecuencia, la fase descriptiva es comn a cualquier conjunto de observaciones o
datos, ya se refieran stos a toda la poblacin, a una muestra o incluso a una subpoblacin. La
Estadstica descriptiva, por otro lado, es la parte ms clsica y elemental de la ciencia
estadstica.
Como ya hemos mencionado, una poblacin est constituida por todos los elementos que
poseen unos caracteres por cuyo estudio estamos interesados. Una muestra, en cambio, es una
parte de los elementos de la poblacin, que, lgicamente, ser representativa del total.
Cuando el estadstico puede observar todos los elementos de la poblacin (observacin
exhaustiva), entonces su tarea se reduce a describir las caractersticas y regularidades de la
poblacin. Pero si la observacin no puede ser exhaustiva, entonces aquellas caractersticas hay
que estudiarlas a travs de una muestra representativa. La informacin suministrada por la
muestra sirve para inducir o inferir, con mayor o menor exactitud, las caractersticas de la
poblacin.
Conviene que subrayemos, y esto es muy importante, que los conceptos de poblacin y
muestra estn subordinados al uso que se piensa hacer del conjunto de observaciones
disponibles. Si lo nico que se pretende es describir las caractersticas de dicho conjunto,
entonces ste constituye, ciertamente, una poblacin, aun cuando sea una parte de un total ms
general. Pero si se desea extender la informacin obtenida de l a otro conjunto mayor para
inferir sus caractersticas, entonces, evidentemente, el conjunto de observaciones constituye
una muestra (se supone que con todas las garantas).
La fase de descripcin es (o puede ser) comn a cualquier conjunto de observaciones,
mientras que la de inferencia slo tiene efectividad cuando se trabaja con muestras.

Estadstica unidimensional

3 - MTODOS BSICOS DE LA ESTADSTICA DESCRIPTIVA


Como hemos indicado, la estadstica descriptiva es la que estudia los datos resultantes de
una experiencia. En este caso con el trmino "estudia" nos referimos a recoger los datos,
clasificarlos, representarlos y resumirlos en informaciones que ayuden a los interesados en su
anlisis para poder sacar conclusiones que ayuden a comprender algo o a la toma de
decisiones. Por tanto, los mtodos bsicos que utiliza la Estadstica descriptiva para describir e
interpretar numricamente la informacin obtenida de una gran cantidad de datos son:
-

Recogida de datos.
Ordenacin y tabulacin datos.
Representacin de los datos.
Calculo de los parmetros estadsticos.

Es importante tener en cuenta que en la estadstica descriptiva no nos preguntamos si los


datos provienen de una muestra de la poblacin o de toda la poblacin.
Con los datos obtenidos tras la observacin y suponiendo ausencia de errores, tanto de
medicin como de manipulacin, trascripcin y clculo, podemos describir perfectamente
cuanto acontece en la poblacin o muestra objeto de estudio. La estadstica descriptiva es una
fase necesaria para luego realizar inferencia.

3.1 - Recogida de datos


Por tcnicas de obtencin de datos entendemos el conjunto de mtodos empleados para
recoger una informacin determinada de una poblacin o muestra. La obtencin de datos se
realizar de forma que facilite guardar la informacin con un orden lgico para su posterior
estudio y minimizando los errores entre la informacin inicial dada y el dato final que se
analizar. Son justamente el coste de estas tcnicas de recogidas de datos, el tiempo necesario
para ejecutarlas y el personal disponible, algunos de los motivos que inducen a realizar un
muestreo en lugar de analizar cada elemento de la poblacin. Una vez definidas, exactamente,
la poblacin, el tipo de muestreo y la muestra se elaborar un documento que permita recoger
las respuestas a las preguntas de una manera sencilla y precisa.
Por las razones econmicas, de tiempo y de personal antes comentadas, lo primero que se
realiza para obtener los datos es buscar si la informacin que necesitamos ya ha sido trabajada,
es decir, si existe alguna fuente que ya la haya estudiado. Una fuente importante son los
registros administrativos en donde la informacin se recoge a nivel de gestin pero que luego
se depura de manera que sea una informacin vlida a distintos niveles. Estos trabajos se
recogen a nivel oficial en el inventario de operaciones estadsticas del Estado.
En el supuesto de que no exista documentacin estadstica apropiada y suficiente para el
estudio que pretendemos realizar es cuando se lleva a cabo los distintos mtodos de recogida,
siendo los ms usuales:
Por correo
Es el que suele utilizarse cuando se dispone de la lista y direcciones de los elementos de
la poblacin. Una buena prctica consiste en adjuntar, junto con el cuestionario a rellenar e
instrucciones para su cumplimentacin, el sobre con la direccin de retomo ya impresa y
convenientemente franqueado; as las molestias son menores.
4

Estadstica unidimensional

Por agentes distribuidores


Se encarece notablemente el mtodo anterior si hay que investigar a una gran masa de
poblacin. Este mtodo se realiza mediante agentes debidamente acreditados que recogen
el cuestionario una vez efectuado. En esencia, es el mismo mtodo que el anterior.
Por encuestadores
Son ahora personas especializadas las que formulan las preguntas que aparecen en el
cuestionario y anotan las respuestas. Lgicamente, este sistema es el ms apropiado,
aunque no elimina totalmente los errores, pues pueden darse algunas influencias en las
respuestas. Su inconveniente es que puede resultar ms caro que los dos primeros mtodos.
Por telfono
Evidentemente mucho ms barato que por encuestadores aunque menos fiable.
Por Internet
Mtodo cada vez ms generalizado ya que permite minimizar costes, tiempo y
personal necesario.
Hoy en da, los estadsticos siguen estudiando formas de mejorar algunos problemas
relacionados con las tcnicas de recogidas de datos. Estos problemas se centran en conseguir
que los elementos de la poblacin o muestra cumplimenten las encuestas necesarias y
conseguir que las realicen de un modo que resulte ms fiable.
El primero de los problemas, la "participacin", se est consiguiendo de dos maneras:
compensando de alguna forma al encuestado (regalos, vales descuentos ... ) o haciendo que las
encuestas sean de obligado cumplimiento (como son algunas encuestas que el Estado realiza a
distintas empresas).
El segundo de los problemas, la fiabilidad, se intenta mejorar implicando al encuestado en
la propia encuesta, por ejemplo, enviando los estudios y resultados que se obtienen tras el
anlisis de los datos de la encuesta que ha realizado o de otras encuestas que lleve la misma
empresa y que puedan ser interesantes para el encuestado.
Una de las formas de clasificar los datos para depurarlos y prepararlos para la realizacin
de tablas es organizarlos en montones segn una caracterstica determinada aunque
actualmente se suelen organizar y representar geogrficamente (si los elementos estudiados
pertenecen a una provincia, por pueblos; si pertenecen a una ciudad, por barrios ... ) Esta forma
de organizar y representar los datos se denomina S.I.G. (Sistema de Informacin
Georeferenciada).

3.2 - Ordenacin y tabulacin de datos


Todos los datos obtenidos mediante las distintas tcnicas de recogida de datos se resumen
en tablas, las cuales constituyen una parte fundamental de una investigacin estadstica. Toda
tabla debe ir acompaada de una ficha tcnica en donde se especifica el tipo y mbito de la
encuesta, el tipo de muestreo y tamao de la muestra, el periodo de la referencia de la
informacin, el mtodo de obtencin de datos utilizado y los fines de la investigacin.
En las tablas estadsticas se introducen las siguientes magnitudes:
Frecuencia absoluta
Denominamos frecuencia absoluta al nmero de repeticiones que presenta dato.
Representaremos por ni a la frecuencia absoluta referente al dato i.

Estadstica unidimensional

Frecuencia relativa
Es la frecuencia absoluta dividida por el nmero total de datos, que denominamos
tamao de la muestra y representaremos por N. Se suele expresar en tanto por uno,
siendo el valor correspondiente al dato i -simo, fi, es decir:
n
fi = i
N
La suma de todas las frecuencias relativas es igual a la unidad.

Frecuencia absoluta acumulada


Es la suma de los distintos valores de la frecuencia absoluta tomando como
referencia un individuo dado. La ltima frecuencia absoluta acumulada es el tamao de
la muestra. Si representamos su valor i-simo por Ni tenemos:
N1= n1
N2 = n1+n2
...................
Ni = n1 + n2 + ... + ni

Frecuencia relativa acumulada


Se obtiene al dividir cada frecuencia absoluta acumulada por el tamao de la
muestra, la representaremos por F, y tambin se puede definir, al igual que la frecuencia
absoluta acumulada, como la suma de los distintos valores de la frecuencia relativa,
tomando como referencia un individuo dado.
F1= f1
F2 = f1+f2
...................
Fi = f1 + f2 + ... + fi
La ltima frecuencia relativa acumulada es igual a la unidad.

Una tabla estadstica contiene los datos observados y las distintas frecuencias absolutas y
relativas de stos. Una vez los datos estn tabulados, la tabla obtenida ofrece una visin de
conjunto de los caracteres que se estudian. Un ejemplo de una tabla estadstica para una
variable discreta es:

Datos
xi

Frecuencia
absoluta
ni

x1

n1

Frecuencia
absoluta
acumulada
Ni
N1

f1

Frecuencia
relativa
acumulada
Fi
F1

x2

n2

N2

f2

F2

xn

nn

Nn = N

fn

Fn = 1

Frecuencia
relativa
fi

=N

=1

Cuando queremos realizar una tabla de frecuencias para una distribucin con un nmero
elevado de variables o con una distribucin cuyas variables son continuas, stas se suelen

Estadstica unidimensional
agrupar en intervalos [Li-1, Li) para facilitar la elaboracin de la tabla y la comprensin de los
datos.
Antes de ver como se ordenan las frecuencias en una tabla para una variable continua
veamos brevemente algunas definiciones propias de la tabla de frecuencia para variables
continuas:

Denominaremos recorrido a la resta entre el valor mayor de los datos y el valor menor
y lo representaremos por Re.

Para operar utilizaremos la marca de clase, el punto medio de un intervalo. La marca


de clase se define como la semisuma de los valores extremos del intervalo, esto es, si la
marca de clase del intervalo [Li-1, Li) la representamos por xi, entonces:
L + Li
xi = i 1
2
Denominaremos amplitud del intervalo a la diferencia entre el extremo superior del
intervalo y el extremo inferior, es decir, a la longitud del intervalo, y se representa por:
ai = Li Li-1

El nmero de intervalos que formarn la tabla se obtendr a partir de la raz cuadrada


del nmero de datos.
Nmero de intervalos = el nmero de datos

Si los intervalos no son de la misma amplitud para trabajar con ellos obtendremos la
densidad de frecuencia del intervalo i-simo, como el cociente entre el nmero total
de observaciones de un intervalo, esto es , la frecuencia absoluta, y la amplitud del
mismo:
n
di = i
a
Teniendo en cuenta esto, la ordenacin de la tabla ser la siguiente:
Intervalo:
[Li-1, Li)

Marca de clase:
xi

ni

Ni

fi

Fi

3.3 - Representacin de datos


Una vez que la masa inicial de datos est tabulada, la tabla obtenida ofrece una visin de
conjunto de los caracteres que se estn estudiando. Un modo de poner de relieve dicha visin
de conjunto consiste en utilizar representaciones grficas de la tabla obtenida, lo que permite
que el impacto visual proporcione una visin global del reparto de las observaciones.
No obstante, las representaciones grficas no deben considerarse como un medio definitivo
para extraer conclusiones, sino como un medio auxiliar de la investigacin estadstica, que ser
fundamentalmente numrica, y esto siempre que el impacto visual provocado por la grfica
corresponda a la realidad, por lo que se debe recurrir a sistemas geomtricos capaces de
describir los datos de manera correcta para no inducir a conclusiones errneas. Por lo tanto, se
7

Estadstica unidimensional
deben considerar las representaciones grficas como medios tiles de presentacin de los datos
que, junto con otras medidas numricas, permitirn un estudio correcto de la masa de datos
inicial y, por tanto, de los caracteres de la poblacin que nos interesan.
En general, las representaciones grficas ms utilizadas se basan en un sistema de ejes
cartesianos, de forma que en el eje horizontal (o de abscisas) se toman los distintos valores de
la variable, y en el eje vertical (o de ordenadas) las frecuencias. As, el plano queda
determinado por cuatro cuadrantes, si bien en estadstica la mayor parte de los grficos
pertenecen al primer cuadrante. Debe advertirse tambin que la graduacin de los ejes puede
obtenerse aplicando la escala aritmtica o de nmeros reales o la escala logartmica. En el
ltimo caso, si se aplica a un solo eje, se dice escala semilogartmica, y si se aplica a las dos,
escala doblemente logartmica.
Una posible clasificacin de los distintos grficos es respecto al tipo de variable que
representa. Esta es la clasificacin por la que optamos aunque los grficos que veremos no
tienen que ser exclusivos de un tipo variable concreta, como indicaremos en cada caso. En
principio distinguimos dos tipos de grficos independientemente se trate de una variable
discreta o continua, estos grficos dependen de que queramos representar las frecuencias
(absolutas o relativas) o las frecuencias acumuladas.
Se denominan diagramas diferenciales a aquellos grficos en los que se representan
frecuencias absolutas o relativas y se denominan diagramas integrales a aquellos que se
realizan a partir de las frecuencias acumuladas, lo que da lugar a grficos crecientes, y es obvio
que este tipo de grficos no tiene sentido para variables cualitativas.

Grficos para variables cualitativas:


Los grficos ms usuales para representar este tipo de variable son los siguientes:

a) Diagramas de barras.
Se realizan representando en el eje de ordenadas las variables y en el eje abscisas las
frecuencias absolutas relativas.

Solteros

Casados

Viudos

Divorciados

Si, mediante el grfico, se intenta comparar varias poblaciones entre s, existen otras
modalidades del diagrama de barras como por ejemplo:

Estadstica unidimensional

Muestra 1

Muestra 2

Solteros

Casados

Viudos

Divorciados

Cuando los tamaos de las dos poblaciones son diferentes, es conveniente utilizar las
frecuencias relativas, ya que en otro caso podran resultar engaosas.
b) Diagrama de sectores
Para realizar estos diagramas, tambin llamados coloquialmente tartas, se divide un crculo
en tantos sectores circulares como clases existan, de modo que el rea de cada sector sea
proporcional a la frecuencia que se quiera representar.Para calcularlo podemos decir que el
rea depende del ngulo central, mediante la siguiente proporcin:
ni

=
N 360
As, siguiendo el ejemplo anterior:

Este diagrama se utiliza para cualquier tipo de variable.


c) Pictogramas
Expresan con dibujos relativos al tema que se quiera representar las frecuencias de las
variables. Se realizan representado a diferentes escalas un mismo dibujo. Las escalas de los
dibujos se realizan de forma que el rea de cada uno sea proporcional a la frecuencia que
representan. Este tipo de grficos suele usarse en los medios de comunicacin, para que sean
comprendidos por el pblico no especializado, sin que sea necesaria una explicacin compleja.

Estadstica unidimensional

d) Cartogramas
Para las distribuciones de tipo geogrfico se suelen usar mapas, que se colorean con
diferentes tonalidades, cuyas frecuencias equivalentes se explican al margen, o bien se colocan
dibujos alusivos si se estn estudiando los lugares en que se producen o se encuentran los
bienes correspondientes. Estos grficos se denominan cartogramas y la forma de construirlos
se basa en la proporcionalidad con las frecuencias de la misma forma que los pictogramas.

Grficos para variables cuantitativas discretas:

a) Diagrama de barras
Para representar las frecuencias absolutas o relativas, acumuladas o no, de una variable
cuantitativa discreta se utiliza principalmente el diagrama de barras, aunque se utiliza
tambin para representar otros tipos de variables, como indicaremos en el apartado
correspondiente.
En este caso, las barras deben ser estrechas para representar que los valores que toma la
variable son discretos. En el eje de abcisas, situaremos los diferentes valores de la variable. En
el eje de ordenadas la frecuencia que queramos representar. Levantaremos barras o columnas
de altura correspondiente a la frecuencia adecuada.
As, un ejemplo de diagrama diferencial de barras es:

10

Variables

Frecuencia
absoluta

X1
X2
X3
X4
X5

5
4
6
2
4

Frecuencia
absoluta
acumulada
5
9
15
17
21

Estadstica unidimensional
b) Diagrama integral o acumulado
El diagrama integral o acumulado tiene, por la naturaleza de la variable, forma de
escalera.

Grficos para variables cuantitativas continuas:

Para variables cuantitativas continuas utilizaremos principalmente como diagramas


diferenciales los histogramas y los polgonos de frecuencias.
a) Histograma
Un histograma se construye a partir de la tabla estadstica, representando en el eje de
abcisas los intervalos y en el eje de ordenadas las frecuencia que queremos representar. Es
decir, es igual que el diagrama de barras para el caso discreto pero en este caso
representaremos un rectngulo que tiene como base la longitud del intervalo al que hace
referencia. El criterio para calcular la altura de cada rectngulo es el de mantener la
proporcionalidad entre las frecuencias absolutas o relativas de cada intervalo y el rea de los
mismos.
El histograma, por tanto, representa las frecuencias de los intervalos mediante reas y no
mediante alturas. Sin embargo, como nos es mucho ms fcil hacer representaciones grficas
teniendo en cuenta estas ltimas, si todos los intervalos tienen la misma amplitud no es
necesario diferenciar entre los conceptos de rea y altura. Por ejemplo:
Frecuencia absoluta

11

[0-2]

[2-4]

[4-6]

[6-8]

[8-10]

Estadstica unidimensional
b) Polgono de frecuencias
El polgono de frecuencias se construye fcilmente si tenemos representado previamente
el histograma, ya que consiste en unir mediante lneas rectas los puntos del histograma que
corresponden a las marcas de clase. Para representar el polgono de frecuencias en el primer y
ltimo intervalo, suponemos que adyacentes a ellos existen otros intervalos de la misma
amplitud y frecuencia nula, y se unen por una lnea recta los puntos del histograma que
corresponden a sus marcas de clase

c) Polgono de frecuencias acumulado


El diagrama integral para una variable continua se denomina tambin polgono de
frecuencias acumulado, y se obtiene como la poligonal definida en abcisas a partir de los
extremos de los intervalos en los que hemos organizado la tabla de la variable, y en ordenadas
por alturas que son proporcionales a las frecuencias acumuladas.

Tendenciosidad y errores ms comunes

Cuando se realiza una investigacin estadstica de cierta envergadura es casi imposible


obtener resultados sin error. El objetivo que debe marcarse un estadstico es el informe que se
haga del estudio exprese de forma clara y con precisin los resultados que se han obtenido en
el anlisis y de manera que no se puedan malinterpretar.

12

Estadstica unidimensional
Los errores ms comunes y no significativos (por errores no significativos nos referimos a
los errores no muestrales) podemos hablar de los siguientes tipos:
1. Errores de planteamiento, que se deben a una investigacin mal estructurada o
planificada, a definiciones ambiguas o incompletas que no permiten localizar perfectamente
los elementos que han de ser observados.
2. Errores de respuesta, originados por un cuestionario poco pensado, por un mtodo de
recogida de datos inapropiado, por unos agentes mal instruidos O por no haber previsto el
control y depuracin de respuestas. Dentro de los errores de respuesta se incluye el no
consta, es decir, el cuestionario no contestado.
3. Errores de manipulacin, provocados fundamentalmente por los defectos de
organizacin, pudiendo suceder, incluso, que se pierdan cuestionarios antes de llegar al
centro de tabulacin.
4. Errores de tabulacin y de clculo, debidos, lgicamente, a la inexistencia de controles
de operaciones.
5. Errores en la expresin de los datos, debidos principalmente a la forma como se realiza
las grficas. Es por ejemplo cuando la presentacin de la grfica no es legible.
6. Tendenciosidad, intencionada o no, es probablemente el principal problema que se puede
presentar en un estudio estadstico. Consiste en presentar la informacin, informacin
verdadera, de forma que pueda ser malinterpretada e inducir a error. Un ejemplo es el
producido al no tener una escala predeterminada:

Aunque las dos tablas estn realizadas con los mismos datos, el crecimiento de la
primera parece mucho mayor que el de la segunda. Esto se ha debido, simplemente, al
haber utilizado distintas escalas.
Otro ejemplo comn es presentar un diagrama de barras con el eje de ordenadas no
completo (en vez de comenzar en 0 comenzar en otro valor) mostrando un resultado
tendencioso ya que da la impresin de que la diferencia entre las barras es diferente a la
real.
Otro ejemplo tendencioso es el de agrupar los datos segn interese o mostrar
nicamente los datos que se quieran; por ejemplo, si tras es estudio de los habitantes de una
determinada ciudad se obtiene que el 86% de los menores de 30 aos consumen una marca
A y que el 92% de los mayores de 30 aos no la consumen, se puede omitir este segundo
dato e indicar nicamente que el 86% de los menores de 30 aos la consumen, dando a
entender que el consumo es elevado.

13

Estadstica unidimensional

3.4 - Parmetros estadsticos


Las tablas estadsticas y la representacin grfica nos dan una idea cualitativa de conjunto
de una distribucin de frecuencias que no es suficiente, por ejemplo, para comparar dos
distribuciones.
Con el fin de obtener un resumen cuantitativo se sustituye el conjunto de valores por
nmeros llamados parmetros estadsticos o medidas descriptivas de los datos, que son unos
nmeros que nos permitirn, con objetividad y precisin, tener una visin ms completa del
fenmeno estudiado, comparar distintas distribuciones de frecuencias y valorar con nmeros
sus distintas caractersticas. Los parmetros estadsticos se clasifican en diversos tipos:
- Medidas de posicin o centralizacin.
- Medidas de dispersin.
- Medidas de asimetra y curtosis.

3.4.1 - MEDIDAS DE POSICIN O CENTRALIZACIN.


Las medidas de centralizacin son valores que estn medidos en las mismas unidades que las
observaciones y que nos indican en torno a qu posicin se distribuyen las observaciones que
disponemos, es decir, cmo se agrupan los datos observados.
Se clasifican en medidas de posicin central (medias mediana y moda) y en medidas de
posicin no central (cuartiles, deciles , percentiles) dependiendo de que estos valores nos orienten
sobre el lugar central de la distribucin o sobre la posicin de una parte cualquiera previamente
determinada de la misma.
Todas ellas verifican que su valor est comprendido entre el menor y el mayor valor de los
datos disponibles.
1.- Media aritmtica de una variable.
Lo que se busca con este parmetro es determinar la posicin central de una distribucin
cualquiera, de modo que su valor represente su centro de gravedad en el sentido de compensar las
desviaciones con respecto a l de los valores de la variable en un sentido u otro.
Se define por tanto la media aritmtica como la suma de todos los valores de la distribucin
dividida por el nmero total de datos y se representa por x . As pues,
x + x + + xN 1 N
x= 1 2
= xi
N
N i =1
Si el valor xi de la variable Xi se repite ni veces, hay que considerar estas repeticiones en la
k
k
x n
suma, de modo que x = i i ; con ni = N .
N
i =1
i =1
n
La frecuencia relativa del valor xi queda determinada por f i = i , por lo que podemos poner
N
k

x = xi f i
i =1

En el caso de que tuviramos una distribucin con datos agrupados, los valores individuales de
la variable seran desconocidos y por tanto no se podra utilizar la expresin anterior. En este

14

Estadstica unidimensional
supuesto se formulan las hiptesis de que el punto medio del intervalo de clase (marca de clase)
representa adecuadamente el valor medio de dicha clase, y se aplicara la frmula original de la
media simple para dichos valores.
Ventajas e inconvenientes

Ventajas:
se utilizan en el clculo todos los valores de que se dispone en la distribucin
est perfectamente determinada de forma objetiva y es nica
es calculable
es el centro de gravedad de la distribucin
Inconvenientes:
los valores extremos muy dispares influyen de manera notable en su valor, por este motivo
puede perder valor representativo

No obstante, la media aritmtica, como medida de posicin es la forma ms adecuada para el


resuman estadstico en el caso de distribuciones en escala de intervalos o de proporcin, con los
cuales dicha medida alcanza su mximo sentido.

2.- Media ponderada.


Cuando es conocido que los valores de la variable no tienen todos la misma importancia con
respecto al tratamiento que deben drseles, suele ser bastante til utilizar una variable de la media
aritmtica denominada media ponderada.
Para calcularla se le asocia a cada valor de la variable xi un peso wi que mide su grado de
importancia en la distribucin. Dichos pesos wi son valores positivos y representan el nmero de
veces que sus correspondientes valores xi son ms representativos que un valor que tuviese peso
asociado a la unidad.
Se define la media aritmtica ponderada de una distribucin de valores x1 , x2 , , xk , de pesos
w1 , w2 , , wk a
k

xp =

x w
i

i =1

w
i =1

Notar que los pesos wi pueden ser nmeros reales positivos cualesquiera.

3.- Media geomtrica.


En muchas situaciones los valores de la distribucin no son de naturaleza propiamente aditiva,
como en el caso de precios o salarios. En estos casos la media aritmtica deja de ser fcilmente
interpretable. As, si tenemos una serie de ndices de precios durante un periodo de aos, el ndice
medio anual de precios debe ser aquel que mantenindose constante durante todos esos aos,
produzca la misma degradacin final de los precios en el ltimo ao con respecto del ao inicial que
los ndices originales.

15

Estadstica unidimensional
En estas circunstancias, la medida de posicin central ms utilizada es la media geomtrica.
Entonces, dada una distribucin de frecuencias (xi, ni), se define la Media Geomtrica y se
representa por G a la raz n-sima del producto de los N valores de la distribucin:
k

G = N x1n1 x2n2 xknk = N xini


i =1

Notar que

n
i =1

= N . El clculo de G se facilita empleando logaritmos:


log G =

1
N

n log x
i =1

Ventajas e inconvenientes
Ventajas:
- est definida de forma objetiva y es nica.
- considera en su clculo todos los valores de la distribucin.
- los valores extremos tiene menos influencia que en la media aritmtica.

Inconvenientes:
clculo complicado
slo deba aplicarse cuando los valores de la distribucin sean todos positivos, ya que si
alguno fuese cero anulara la media geomtrica y si hubiese valores negativos, se obtendran
valores imaginarios.

Su empleo ms frecuente es el de promediar datos de tipo multiplicativo tales como


porcentajes, tasas, nmeros ndices, etc., es decir, en los casos en que se supone que la variable
presenta variaciones acumulativas.

4.- Media Armnica.


Se define la media armnica de una distribucin de frecuencias (xi, ni) y se representa por H
como:
N
N
H=
= k
n
n1 n2
n
+ + + k i
x1 x2
xk
i =1 xi
Como puede verse, la inversa de la media armnica es la media aritmtica de los inversos de
los valores de la variable. Se suele utilizar para promediar velocidades, tiempos, rendimientos.
Ventajas e inconvenientes

Ventajas:
en su clculo intervienen todos los valores de la distribucin.
clculo sencillo.
est definida de forma objetiva y es nica.

Inconvenientes:
- no debe usarse con valores prximos a cero pues sus inversos pueden crecer en demasa
haciendo despreciables frente a ellos la informacin aportada por valores mayores.
- no es posible su determinacin en distribuciones con algunos valores iguales a cero.

16

Estadstica unidimensional
5.- Mediana
La Mediana es el valor de la distribucin, supuesta sta ordenada de menor a mayor, que deja a
su izquierda y a su derecha el mismo nmero de frecuencias. Es decir, divide a la serie estadstica
ordenada en dos partes iguales, habiendo tantos valores por encima como por debajo de ella.
Tambin se puede definir como el valor de la distribucin cuya frecuencia acumulada es N/2 (o su
frecuencia relativa acumulada es ).
Si los datos no estn agrupados y estn numerados de 1 a N, es el valor que ocupa el lugar que
N +1
ocupa el lugar
si N es impar. Cuando N es par, la mediana no queda definida y se toma la
2
N
N
media de los valores
y
+1.
2
2
Representando el polgono de frecuencias acumuladas, bastar con trazar la recta paralela al eje
X de ordenadas N/2 y determinar la abcisa del punto en que lo corta. Puede suceder que la recta
N
y=
tenga un segmento de puntos comunes, entonces se toma como mediana el punto medio del
2
segmento.

N/2

N/2

x1

x2

x3

x5

x6

x7

x1

x2

x3

x4

x5

x6

x7

En el caso de distribuciones agrupadas en intervalos no es necesario distinguir si los intervalos


tienen la misma amplitud. Aplicando el mtodo general de bsqueda del valor que ocupa el lugar
N/2, en este caso nos encontramos con un intervalo mediano, en lugar de un valor mediano. Como
queremos fijar la median en un valor, seleccionaremos un representante del intervalo mediano al
que llamaremos mediana.
Suponemos que todos los valores comprendidos dentro del intervalo mediano se encuentran
distribuidos uniformemente a lo largo de l. A continuacin se considera la poligonal de frecuencias
acumuladas correspondientes al intervalo mediano y a sus dos contiguos y determinamos
grficamente la mediana.
B
B

N/2
A

C
C
m

Ni-1

ci
ai-1

17

ai

Ni

Estadstica unidimensional
Vemos que M = ai 1 + m . Determinamos m en base a la hiptesis fijada, que nos permite
AC
BC
escribir
=
, ya que los tringulos ABC y ABC son semejantes. Por tanto AC = m ,
AC ' BC '
AC ' = ci , BC = ( N / 2) N i 1 y B ' C ' = N i N i 1 = ni .
m ( N / 2) N i 1
Sustituyendo en la relacin anterior se tiene que:
=
,
ci
ni
( N / 2) N i 1
ci ,
y por tanto despejando tenemos m =
ni
( N / 2) N i 1
de modo que: M = ai 1 +
ci
ni
Ventajas e inconvenientes

Ventajas:
es sencilla de calcular
no influyen en ella ms que los datos centrales de la distribucin.
se puede calcular an desconociendo los valores extremos de la distribucin siempre que
contemos con suficiente informacin respecto de sus frecuencias.

Inconvenientes:
no puede expresarse mediante una frmula matemtica sencilla a efectos de realizar con ella
grandes desarrollos matemticos.

A pesar de la frmula vista para el caso de distribuciones en escala por intervalos, la mediana
tiene un mayor sentido en casos de distribuciones en escala ordinal (susceptibles de ser ordenados),
de la cual es la medida ms representativa por describir la tendencia central de la misma.

6.- Moda
Se llama Moda de una distribucin de frecuencias al valor (o valores) de la variable al que
corresponde mayor frecuencia. Una distribucin de frecuencias puede tener una o varias modas. Si
tiene una se llama unimodal, si tiene dos, bimodal, etc.
El clculo de la Moda resulta sencillo en el caso de datos simples y datos agrupados, pero
cuando los datos estn agrupados en intervalos no obtendremos el valor exacto de la Moda, sino una
aproximacin que depender de las hiptesis que realicemos sobre las observaciones de cada
intervalo considerado. Las hiptesis de partida son:
Hay una moda en cada intervalo cuya densidad de frecuencia no es superada por ningn otro.
Dentro de los intervalos, la moda es aquel punto que equilibra las densidades de frecuencia de
los intervalos adyacentes, suponiendo que los valores se reparten en el interior de los mismos de
manera uniforme.
Sea pues [ai 1 , ai ) un intervalo cuya densidad de frecuencia no es superada por ningn otro.
Estre intervalo recibe el nombre de intervalo modal o clase modal. La densidad de frecuencia hi de
n
un intervalo i-simo es el cociente entre la frecuencia absoluta asociada ni y su amplitud ei: hi = i .
ei

18

Estadstica unidimensional

hi
hi+1

a
ei

hi-1
b

ai-2

ai-1

M0

ai

ai+1

En la representacin grfica el equilibrio debe darse en el sentido de ser


Como la moda M0 ser M 0 = ai 1 + b , tenemos b =

e b
a
hi +1 = i
hi +1 .
hi 1
hi 1

a hi +1
=
b hi 1

hi +1
ei . Por tanto la expresin de M0 es
hi +1 + hi 1
hi +1
M 0 = ai 1 +
ei
hi +1 + hi 1
Si las amplitudes de los intervalos fuesen constantes, la expresin de la moda ser
ni +1
M 0 = ai 1 +
ei
ni +1 + ni 1
Despejando b hi 1 = ei hi +1 b hi +1 , y as b =

Ventajas e inconvenientes

Ventajas:
- fcil interpretacin
- clculo sencillo

Inconvenientes:
- no tiene una expresin matemtica sencilla para el clculo algebraico.
- no intervienen en su determinacin todos los valores de la distribucin.
- los cambios en la distribucin que se produzcan ajenos al valor modal no son detectados.

La obtencin de las modas de una distribucin tienen una importancia propia derivada del
hecho de que sirve para detectar posibles fusiones de distintas poblaciones unidimensionales en la
masa de datos. A veces avisa de la necesidad de dividir dicha masa de datos en partes distintas para
que el fenmeno que estamos tratando se estudie mejor.

7. - Medidas de posicin no centrales.


Otros valores notables, pero que no reflejan ninguna tendencia central son los Cuantiles. Son
valores de la distribucin que la dividen en partes iguales, es decir, en intervalos que comprenden el
mismo nmero de valores. Entre los Cuantiles de uso ms frecuente estn los Cuartiles, los Deciles
y los Percentiles.

19

Estadstica unidimensional

Cuartiles: son tres valores de la distribucin que la dividen en cuatro partes iguales, es decir, en
cuatro intervalos dentro de los cuales estn el 25% de los valores de la distr5ibucin. Se
representan por Ci con i=1,2,3.

Deciles: son los nueve valores de la distribucin que la dividen en 10 partes iguales. Cada parte
contendr el 10% de la distribucin. Se representan por Di, con i=1,2,,9.

Percentiles: son los 99 valores que dividen a la distribucin en 100 partes iguales. Se
representan por Pi, con i=1,2,,99.

Notar que P25=C1; P50=C2=M; P75=C3; P10=D1; P20=D2; ; P90=D9. Su clculo es anlogo
al de la mediana y en general se aplica la expresin
r
N N i 1
k
Qr / k = ai 1 +
ci donde
ni
1) para k = 4 y r = 1,2,3 obtenemos los cuarteles
2) para k = 10 y r = 1,2,,9 obtenemos los deciles
3) para k = 100 y r = 1,2,,99 obtenemos los percentiles

3.4.2 - MEDIDAS DE DISPERSIN.


Las medidas de dispersin tienen por objeto dar una idea de la mayor o menor concentracin de
los valores de una distribucin alrededor de los valores centrales. Las medidas de tendencia central
tienen como objetivo sintetizar toda la informacin de la que se dispone. Por tanto, medir la
representatividad de estas medidas equivale a cuantificar la separacin de los valores de la
distribucin con respecto de dicha media. La mayor o menor separacin de los valores entre si se
llama Dispersin o Variabilidad. Por tanto las medidas de dispersin nos miden el grado de
dispersin de la distribucin de la variable.
1 - Recorrido
Se llama recorrido a la diferencia entre el mayor y el menor de los valores de la variable y se
representa por R: R = xn x1
Por su sencillez de clculo se utiliza sobre todo en el control de fabricacin industrial, aunque
es muy sensible a los valores errneos.
El recorrido intercuartlico es la diferencia entre los valores P75 y P25 y nos indica el intervalo
de longitud RI donde estn comprendidos el 50% central de los valores.

2 - Desviaciones
Consideremos un valor central C y un valor de la variable xi. Al valor xi - C se llama
desviacin de xi respecto de C. Al valor xi C , desviacin absoluta.
Se define la desviacin media, D, de una distribucin de frecuencias con respecto al valor
central C a

20

Estadstica unidimensional
1 k
xi C ni (en caso de datos agrupados).
N i =1
Las desviaciones medias ms utilizadas son respecto a la media y a la mediana, que se obtienen
sustituyendo C por x y M, respectivamente.
D=

Las desviaciones medias tienen un significado preciso como promedio de las desviaciones,
aunque tienen el inconveniente de no ser adecuadas para el clculo algebraico.

3 - Varianza y desviacin tpica


La varianza de una distribucin de frecuencias es la media aritmtica de los cuadrados de las
desviaciones respecto a la media. Es el ndice de dispersin ms usado y se designa por 2. Su
expresin viene dada por:
1 k
2
2 = ( xi x ) ni
N i =1
para datos agrupados y xi marcas de clase, siendo x la media aritmtica de la distribucin de
frecuencias (xi, ni).
A la raz cuadrada positiva de la varianza se llama desviacin tpica y se obtiene como

1
N

( x x )
i

i =1

ni

Clculo abreviado de la varianza y la desviacin tpica


Desarrollando la expresin anterior:
1 k
1 k
1
2
2 = ( xi x ) ni = ( xi2 + x 2 2 xi x ) ni =
N i =1
N i =1
N
=

1
N

xi2 ni + x 2 2 x 2 =
i =1

1
N

x
i =1

2
i

xi2 ni +
i =1

ni x 2

Disponiendo los clculos en forma de tabla:


xi

ni

ni xi

ni xi2

x1

n1

n1 x1

n1 x12

xi

ni

ni xi

xk

nk

nk xk

ni xi2

nk xk2

N = xi

n x

1
=
N
2

1
ni x

i =1
N
k

2
i

21

n x

xi ni

i =1

2
i

x2
N

ni
i =1

2x
N

x n
i =1

Estadstica unidimensional

La varianza medir la mayor o menor dispersin de los valores respecto a la media aritmtica.
Si la dispersin es muy grande, la media no ser representativa.
Propiedades de la desviacin tpica

No tiene un sentido muy concreto en s misma y tiene significado para comparar dos
distribuciones. Dividiendo las desviaciones tpicas de ambas se puede obtener cuntas veces una
distribucin es ms dispersa que otra.
Es ms sensible que la media a los valores errneos, puesto que intervienen al cuadrado. Su
clculo puede resultar pesado, por lo que a veces se prefiere el recorrido.
Es la menor de todas las desviaciones cuadrticas respecto a un promedio.
Para distribuciones simtricas o moderadamente asimtricas se cumple de forma aproximada
que:
1. Entre x y x + estn aproximadamente el 68% de las observaciones.
2. Entre x 2 y x + 2 estn aproximadamente el 95% de las observaciones.
3. Entre x 3 y x + 3 estn aproximadamente el 98% de las observaciones.

Tambin podemos utilizar como medida de dispersin respecto a la media la denominada


Cuasivarianza:
N
S *2 =
2
N 1

4 - Medidas de dispersin relativas.


Supongamos que se tienen dos distribuciones de frecuencias cuyos promedios son P1 y P2 y
queremos saber cul de los dos es ms representativa. Esta comparacin no la podemos efectuar por
sus respectivas medidas de dispersin ya que las distribuciones , en general, no vendrn dadas en las
mismas unidades de medida. Tampoco, aunque sus unidades de medida sean las mismas, si los
promedios son numricamente diferentes. Por tanto es necesario construir medidas adimensionales.
Estas medidas de dispersin, llamadas relativas, siempre vendrn dadas en forma de cociente. Entre
ellas destacan:

Coeficiente de apertura
Es la relacin por cociente entre el mayor y el menor valor de una distribucin: A =

x1
. Es
xn

muy fcil de calcular pero presenta inconvenientes:


Mide la dispersin de la distribucin, pero no hace referencia a ningn promedio por lo que no
resuelve el problema de comparacin entre estos.
Slo tiene en cuenta dos valores de la distribucin (los extremos), lo que dar gran dispersin en
el caso de que estn muy separados.

Recorrido relativo.
Es el cociente entre el recorrido y la media aritmtica Rr =

que el recorrido contiene a la media aritmtica.

22

R
. Nos indica el nmero de veces
x

Estadstica unidimensional

Recorrido semiintercuartlico
Es el cociente entre el recorrido intercuartlico y la suma del primer y tercer cuartil:
C C1
Rs = 3
C3 + C1

Coeficiente de variacin de Pearson


Con l podemos comparar las medias aritmticas de dos distribuciones que vengan dadas en
unidades diferentes. Se define como el cociente entre la desviacin tpica y la media aritmtica:
S
C.V . = =
x x
Es una medida adimensional y representa el nmero de veces que contiene a x . Cuanto
mayor sea C.V., ms veces contendr a x , por lo que a mayor C.V., menor representatividad de
x . El coeficiente se suele expresar en tanto por ciento.
Como tanto en como en x han intervenido todos los valores de la distribucin, C.V. presenta
la garanta de que utiliza toda la informacin.
La cota inferior de es cero (el menor valor que puede tomar ) y es el valor de C.V. que
indica la mxima representatividad de x .

3.4.3 - MEDIDAS DE FORMA


Se han visto hasta ahora las medidas de centralizacin o posicin y las medidas de dispersin,
de modo que tenemos una idea de las forma que tiene la distribucin objeto de nuestro estudio.
Pero es necesario definir otra serie de medidas que permitan cuantificar la forma de la distribucin
en dos sentidos: la mayor o menor simetra y la concentracin ms o menos acusada de los valores
centrales de la distribucin en torno a las medidas de posicin central que ya conocemos.
Las medidas de forma de una distribucin se pueden clasificar en dos grandes grupos: medidas
de asimetra y medidas de curtosis.

1 - Medidas de asimetra
Las medidas de asimetra se dirigen a elaborar un indicador que permita establecer el grado de
simetra (o asimetra) que presenta una distribucin sin necesidad de llevar a cabo su representacin
grfica. Diremos que una distribucin es simtrica si al representarla grficamente y trazada una
vertical que pase por la media aritmtica, deja a ambos lados el mismo nmero de valores.
Pearson define su ndice de simetra como f1 =

x Mo

. As si se verifica que f1 = 0, entonces

x = Mo = Me y la distribucin es simtrica. Si f1 > 0 se dice que es asimtrica a la derecha, pues


Mo < x , y si f1 < 0, asimtrica a la izquierda, pues Mo> x .

23

Estadstica unidimensional
Otro ndice de simetra ms general es el de Fisher, que vale
1 k
3
( xi x ) ni

N i =1
g1 =
2

Anlogamente como ocurra con el de Pearson, si g1 = 0 la distribucin es simtrica, si g1 > 0


presenta asimetra a la derecha y si g1 < 0, asimetra a la izquierda.

2 - Medidas de apuntamiento o Curtosis


Estas medidas se aplican a distribuciones acampanadas, es decir, unimodales, simtricas o con
ligera asimetra. Tratan de estudiar la distribucin de frecuencias alrededor de la media y en la zona
central de la distribucin dar lugar a una distribucin ms o menos apuntada.
Para estudiar la curtosis de una distribucin es necesario definir previamente una distribucin
tipo que se toma como modelo de referencia. Esta distribucin es la llamada distribucin normal,
que corresponde a fenmenos muy corrientes en la naturaleza y cuya representacin grfica es una
campana de Gauss dada por la frmula
1 ( x x )

1
f ( x) =
e 2
2

Se trata de ver la deformacin existente entre una distribucin, en sentido vertical y la normal.
As diremos que una distribucin puede ser ms apuntada que la normal si es ms alta, y recibe el
nombre de Leptocrtica. En caso contrario se la llama Platocrtica. La propia distribucin normal
recibe el nombre de Mesocrtica.
1 k
4
( xi x ) ni

N i =1
Se define el coeficiente de apuntamiento o curtosis como g 2 =
3.
4

Entonces si g2 = 0 tenemos una distribucin mesocrtica, o asimilable a la distribucin normal


de Gauss.
Si g2 > 0 tenemos una distribucin Leptocrtica, ms puntiaguda.
Y si g2 < 0, la distribucin se llama Platocrtica y es ms aplanada.

g2 = 0

g2 > 0

24

g2 < 0

Estadstica unidimensional

4 - MTODOS BSICOS DE LA ESTADSTICA INFERENCIAL


La estadstica inferencial establece previsiones y conclusiones sobre la poblacin a partir de
los datos obtenidos de una muestra, siguiendo un mtodo basado fundamentalmente en el
clculo de probabilidades. Dicho clculo busca crear modelos estadsticos tericos que se
ajusten lo ms posible a la realidad y cuya funcin es generalizar los resultados de la muestra
para estimar caractersticas de la poblacin. Los mtodos en los que se basa la Estadstica
inferencial para poder establecer sus conclusiones son:
-

Muestreo.
Estimacin estadstica.
Contraste de hiptesis.

4.1. Muestreo
Como ya se ha indicado, en estadstica se llama Poblacin o Universo, a cualquier conjunto o
coleccin de individuos o elementos que tienen una caracterstica comn. As son ejemplos de
Poblacin los habitantes de una provincia, los rboles de un bosque o los establecimientos
comerciales de una ciudad. Lo que interesa en la Poblacin es medir o contar uno o varios
caracteres cuantitativos. Por tanto se hace necesario que la Poblacin est definida para saber qu
elementos la componen.
Cuando se pueden observar todos los elementos de la Poblacin, diremos que se est realizando
un censo. En este caso la tarea a realizar es describir las caractersticas y regularidades de la
Poblacin con los mtodos de la Estadstica Descriptiva y construir el modelo de Distribucin de
Probabilidad para que pueda ser utilizado en posteriores investigaciones
Pero no siempre es posible analizar cada elemento de la Poblacin debido a diferentes razones
como:
- que sea inviable econmicamente estudiar la poblacin,
- que el estudio implique la destruccin del elemento (ensayos destructivos)
- que la poblacin sea muy difcil de controlar
- que se desea conocer rpidamente ciertos datos de la Poblacin (p.e. encuestas de intencin de
voto)
por lo que las caractersticas de la Poblacin deben ser estudiadas a partir de un subconjunto de esta.
Hemos definido muestra de una Poblacin como un subconjunto de elementos de dicha
Poblacin. El nmero de elementos que la componen se llama tamao de la muestra y el proceso
de escoger una muestra de una poblacin, muestreo. Como ya se ha indicado, si la investigacin se
dirige a toda la poblacin se estar haciendo un censo u observacin exhaustiva. Si lo que se
recoge es la informacin de una muestra, una encuesta.
Al efectuar una observacin exhaustiva se conoce el valor que toma una caracterstica X en
cada uno de los individuos de la Poblacin, por lo que se conoce la distribucin de la variable
hacindose innecesarios los mtodos de Inferencia estadstica. Si la caracterstica X se observa en
una muestra de la Poblacin, para poder utilizar adecuadamente la Inferencia estadstica hay que
prescindir de las muestras seleccionadas segn un criterio u opinin personal. De este modo surge
de forma natural la necesidad de cuantificar los errores de muestreo y de conocer los aspectos
fundamentales para que una muestra sea representativa de la Poblacin.

25

Estadstica unidimensional
Para obtener conclusiones razonables a partir de una muestra, esta debe estar bien elegida, debe
ser representativa de la Poblacin. Esta cualidad depende de dos aspectos fundamentales: el tamao
de la muestra y de cmo se realiza la seleccin de los individuos que la componen.
Por lo que respecta al tamao, si la muestra es demasiado pequea, no se obtendran
conclusiones relevantes y precisas salvo en el caso de poblaciones homogneas, en las que
cualquier subconjunto tiene caractersticas anlogas al conjunto (p.e. una muestra de sangre). Por
otra parte, un aumento del tamao de la muestra no supone un aumento significativo de la
representatividad.
Considerando la seleccin de los elementos, al sustituir el estudio de la poblacin por el estudio
de una muestra se comenten errores. Si la muestra est seleccionada al azar stos se pueden
controlar, pero si est mal elegida, no es representativa y aparecen errores imprevistos e
incontrolados. Un ejemplo de estos errores se pueden ver en los estudios de intencin de voto en las
elecciones a la presidencia de los EEUU en 1936: una revista realiz la encuesta a ms de 4
millones de sus lectores obteniendo el resultado de fracaso electoral de Roosevelt. Por otro lado,
otra encuesta a 4500 personas adelant el xito del Roosevelt con bastante exactitud. La explicacin
es que el segundo estudio contaba con una muestra ms homognea de la sociedad americana de
entonces.
Los integrantes de una muestra han de ser elegidos al azar, eliminando criterios personales. En
este caso estamos ante un muestreo probabilstico al que se pueden aplicar mtodos de inferencia
estadstica. Obtenemos as muestras representativas. En caso contrario estamos ante el muestreo
opintico o no probabilstico (p.e. encuestas de Internet).
Hay dos tipos de errores en la seleccin de la muestra.
1. Errores muestrales, que se encuentran latentes en toda muestra representativa pues no
proporciona una medida exacta de las caractersticas de la poblacin, aun siendo
representativa.
2. Sesgos, ocasionados por la falta de representatividad de la muestra, o a errores de
observacin debidos a definiciones defectuosas, medidas mal efectuadas, etc.
Por este motivo es importante conocer los tipos de muestreo as como la garanta de su
representatividad. Para aumentar la representatividad sin necesidad de aumentar el tamao de la
muestra se recurre al muestreo o tcnicas de muestreo. En la prctica resuelven el problema de la
representatividad. Pero antes de pasar a estudiar los diferentes tipos de muestreo, se presentarn
algunos conceptos bsicos en el muestreo.
Distribucin poblacional
Supongamos que en una Poblacin dada nos interesa estudiar la caracterstica numrica x, y
tenemos para cada uno de sus elementos los valores x1, x2,, xN. Su distribucin queda definida
principalmente por los parmetros poblacionales que son:
N : tamao de la Poblacin;
N

Media poblacional: =

26

x
i =1

Estadstica unidimensional
N

Varianza poblacional: =

( xi )2

i =1

i =1

2 ;

Desviacin tpica poblacional: = + 2


A
Proporcin poblacional: p A = ,
N
con A= n de elementos de la poblacin con la caracterstica A. Destacar que estos parmetros son
valores numricos
Distribucin de la muestra
Medimos en la muestra la caracterstica numrica x que nos interesa. Ahora x es una variable
estadstica, y se estudia la distribucin de sus frecuencias con los mtodos de la Estadstica
Descriptiva. Si x1, x2,, xn son los valores obtenidos, a partir de estos se calculan los parmetros
estadsticos o muestrales:
n : tamao de la muestra;
n

Media muestral: x =

x
i =1

Varianza muestral: S =
2

( xi x )2
i =1

x
i =1

x2;

Desviacin tpica muestral: S = + S 2 ;


Proporcin poblacional: p =

,
n
con = n de individuos de la muestra con la caracterstica A. Destacar que ahora estos parmetros
son funciones, pues dependen de la muestra escogida.
Nuestro objetivo es obtener informacin sobre la Ley de Probabilidad que rige la caracterstica
x de la Poblacin a partir de las observaciones de la misma elegidas para formar la muestra, es
decir, queremos estimar los parmetros poblacionales a partir de los datos muestrales. As, se define
como estadstico a cualquier funcin que depende slo de los valores de la muestra x1, x2,, xn, y
estimador a aquel estadstico que se utiliza para estimar el valor de un parmetro desconocido de la
Poblacin.
Como para cada muestra considerada el estimador toma un valor, este es una variable aleatoria,
y por tanto, cada estimador tendr una distribucin que llamaremos Distribucin muestral del
estimador considerado. Los estadsticos ms utilizados son x , S 2 , S y un parmetro muestral que se
llama Cuasivarianza muestral, definido como:
n

(x x )

n 1 2
n 2
SC , y SC2 =
S )
n 1
n
n 1
El muestreo probabilstico se caracteriza porque puede calcularse de antemano la probabilidad
de obtener cada una de las posibles muestras, para lo cual es necesario que la seleccin de la
muestra pueda considerarse como un experimento aleatorio. As cada observacin xi es una variable
aleatoria que tiene la distribucin de probabilidad de la Poblacin: E[xi]=, V[xi]=2, para todo i =
1,2,0.
SC2 =

i =1

. (Notar que S 2 =

27

Estadstica unidimensional
Este tipo de muestreo es el nico que tiene rigor cientfico y el nico que puede darnos el error
que cometemos en la inferencia. Dentro del muestreo aleatorio hay varios tipos que se vern a
continuacin.

I) Muestreo aleatorio simple


Se realiza en poblaciones en las que los datos son homogneos, es decir, no existen factores que
produzcan variabilidad sistemtica. En este tipo de muestreos los elementos de la poblacin
homognea se eligen al azar. La representatividad de una muestra obtenida por el muestreo
aleatorio simple (MAS) viene garantizada por tener cada elemento la misma probabilidad de ser
elegido. As, si un 40% de la poblacin tiene la caracterstica xi, se obtendr, por trmino medio, un
40% de elementos de la muestra con esa caracterstica.
Se distinguen a su vez dos casos de MAS, dependiendo de que los elementos de la poblacin se
selecciones con o sin reemplazamiento.
I.1 - MAS sin reemplazamiento
Cuando las sucesivas extracciones de elementos se realizan sin reemplazamiento tenemos un
nmero de muestras posibles dado por N combinaciones tomadas de n en n, por lo que la
N
probabilidad de seleccionar una de ellas es P( X i ) = 1/ , con Xi muestra cualquiera de n
n
N
elementos de las posibles. De este modo, la probabilidad de que la unidad ui pertenezca a la
n
N 1 N n
muestra es P(ui ) =
/ = .
n 1 n N
La distribucin que sigue la media muestral x , tiene por esperanza y varianza:
1
1 n 1 n
Esperanza: E[ x ] = E xi = E[ xi ] = n =
n
n i =1 n i =1
N n
2
N n 2

Varianza: V [ x ] = E ( x E [ x ]) =

, donde
se llama factor de correccin
N 1

N 1 n
para poblaciones finitas.
I.2 - MAS con reemplazamiento
Cuando las sucesivas extracciones de elementos se realiza con reemplazamiento, entonces
tenemos un n-upla x1, x2,, xn de variables aleatorias independientes e idnticamente distribuidas
segn la distribucin de la poblacin.
Como tenemos Nn muestras posibles, la probabilidad de seleccionar una de ellas es por tanto
1/Nn. En este caso la distribucin de la media muestral es:
1
1 n 1 n
E[ x ] = E xi = E[ xi ] = n =
n
n i =1 n i =1
1 n
1
2
1 n 1 n
V [ x ] = V xi = 2 V [ xi ] = 2 2 = 2 n 2 =
, (notar que xi son v.a.i.)
n i =1
n
n
n i =1 n i =1
La distribucin de la varianza muestral es:

28

Estadstica unidimensional
1 n
n 1 2
E S 2 = E ( xi x ) 2 =

n
n i =1

En consecuencia, el valor medio de S2 es menor que 2 , aunque la diferencia tiende a cero al


aumentar el tamao de la muestra. Por eso se define la Cuasivarianza muestral Sc2, que verifica
E[Sc2]=2, lo que se demuestra sencillamente.
Notar que en el caso de ser la poblacin infinita, o el tamao N muy grande, es prcticamente
igual hacer el muestreo con o sin reemplazamiento pues:
N n 2 n
2

V [ x ] =
N 1 n
n
2
N (n 1)
(n 1) 2
n
E[ S 2 ] =

E[ S 2 ] =

N 1 n
n
V[x ] =

Como regla prctica se suele adoptar que si la fraccin de muestreo n/N es menor que 5/100,
entonces se hace el muestreo aleatorio simple con reemplazamiento, que es el que se utiliza con
mayor frecuencia, y al ser variables aleatorias e independientes e idnticamente distribuidas, el
estudio de las distribuciones de x y S2 queda mucho ms sencillo.
En el estudio de la distribucin de la proporcin muestral, definimos en la Poblacin la
variable aleatoria Y de Bernouilli: Y B(1, pA). Sabemos que E[Y] = pA, V[Y] = pAqA, donde
qA=1-pA. Si tomamos una muestra aleatoria simple de tamao n, Y1,Y2,,Yn, la proporcin
1 n
p
=
Yi . Entonces su esperanza y varianza sern:
muestral de A es:
n i =1
1
1 n 1 n
E[ p ] = E Yi = E[Yi ] = n p A = p A
n
n i =1 n i =1
1 n 1
V [ p ] = V Yi = 2
n i =1 n

V [Y ] = n
i =1

n pA qA =

pA qA
, por ser v.a.i.
n

Distribuciones de probabilidad en el muestreo


Conocer las distribuciones de probabilidad en el muestreo de los estadsticos estudiados es clave
en la Inferencia Estadstica. A partir de estos resultados, suponiendo una muestra aleatoria simple
con reemplazamiento se tiene que:
A) Caso de poblaciones normales XN(,)

1) Si es conocido, x N ,

x
2) Si es desconocido,
tn 1
Sc / n
3)

n S2

2n 1

(n 1) Sc2

2n 1 , y adems es independiente de x .

B) Caso de poblaciones no normales


1) Cuando no se sabe la distribucin de la poblacin y n30, podemos aplicar el teorema
central del Lmite y tenemos que

29

Estadstica unidimensional

Sc
Si es conocida, x N ,
, y si es desconocida, x N ,

n
n

2) Si YB(1,p) y n30, tambin por el teorema central del Lmite,

pA qA
p N p A ,

II - Muestreo aleatorio estratificado


Si en la poblacin existe variabilidad, entonces se divide en grupos homogneos denominados
estratos y posteriormente se extrae una MAS de cada estrato. Se deben coger como estratos aquellos
factores que producen variabilidad de los datos. Si N es el tamao de la poblacin y denominamos
N1 ,N2,,Nk el tamao de cada estrato, tenemos que N=N1++Nk. El nmero de elementos de
cada estrato a seleccionar ser nj, proporcional al nmero de elementos de cada estrato, es decir
Nj
nj = n
, donde n es el nmero de elementos que queremos que tenga la muestra. Por ejemplo, si
N
se tiene una poblacin en el que el 60% son mujeres y el 40% hombres, para escoger una muestra
de 2.000 personas se divide la poblacin en dos estratos, hombres y mujeres, y se escoge al azar una
muestra proporcional de cada estrato, que en este caso son 1.200 mujeres y 800 hombres.
La representatividad de una muestra obtenida por muestreo aleatorio estratificado viene
garantizada por el hecho de que
el nmero de elementos de cada estrato es proporcional al tamao del estrato
el nmero de elementos seleccionados de cada estrato es proporcional a la variabilidad de
cada estrato.
Una vez determinado el nmero de individuos que deben pertenecer a cada estrato se procede a
la seleccin de individuos de cada estrato por MAS.

III - Muestreo aleatorio sistemtico


Se emplea cuando los elementos de la poblacin estn ordenados en listas. Si k es el entero ms
prximo a N/n, la muestra sistemtica se toma eligiendo al azar un elemento entre los k primeros.
Sea n1 el orden del elegido. A continuacin se toman los elementos n1+k, n1+2k,, a intervalos
fijos de k hasta completar la muestra.
Si el orden de los elementos de la lista es al azar, este procedimiento es equivalente al MAS,
aunque resulta ms fcil llevarlo a cabo sin errores. La representatividad de una muestra aleatoria
sistemtica es la misma que la de un MAS. Si el orden es tal que los individuos prximos tienden a
ser ms semejantes que los alejados, el muestreo sistemtico tiende a ser ms preciso que el MAS,
al cubrir ms homogneamente toda la Poblacin. El muestreo sistemtico puede utilizarse con el
muestreo estratificado para seleccionar la muestra dentro de cada estrato.

IV - Muestreo aleatorio polietpico, por reas o conglomerados


Si a Poblacin presenta heterogeneidad, se utiliza este tipo de muestreo. Para llevarlo a cabo de
divide a la Poblacin en diferentes secciones o conglomerados y se eligen al azar unas cuantas
secciones para formar la muestra. En un primer paso se descompone al a Poblacin en clases
llamadas conglomerados, de forma que dentro de cada conglomerado haya la misma dispersin o
heterogeneidad, de tal forma que todos los conglomerados se parezcan entre si. El segundo paso

30

Estadstica unidimensional
consiste en elegir la muestra realizando un muestreo aleatorio de conglomerados. Cuando se elige
un conglomerado, todos los elementos del mismo pasan a formar parte de la muestra.
La representatividad de una muestra por reas viene garantizada por el hecho de haber elegido
los conglomerados por un mtodo aleatorio.

V - Muestreo secuencial o muestreo sobre calidad


Este tipo de muestreo se utiliza sobre todo para realizar controles de calidad en los que debe
estudiar una caracterstica de una Poblacin cuyo estudio implica la destruccin del elemento que se
selecciona. Las unidades de muestreo son examinadas progresivamente hasta llegar al punto en que
se tiene suficiente informacin como para dar el resultado con las probabilidades de error
previamente establecidas. Por tanto, primeramente se establecen unas propiedades que debe de
cumplir el elemento que se seleccione y se toma la decisin de rechazarlo o aceptarlo y de continuar
o no la inspeccin.
Con este tipo de muestreo se requiere una muestra de menor tamao que en los muestreos
estudiados anteriormente, aunque puede haber una ligera prdida de representatividad respecto a
ellos.
VI - Mtodos indirectos de muestreo
Si podemos estimar una recta de regresin entre dos variables de una Poblacin con una
muestra de una variable (independiente,.que obtendremos por mtodos directos ya vistos), podemos
estimar los valores de otra variable (dependiente). La representatividad de la muestra depender del
coeficiente de correlacin entre las dos variables que se estudien y de la representatividad de la
muestra de la variable independiente.

Tamao de la muestra
Hasta ahora se ha respondido a la pregunta cmo se debe seleccionar una muestra para que sea
representativa? Queda por contestar la otra cuestin planteada qu tamao debe de tener la
muestra?
En el diseo del estudio estadstico, antes de realizar el muestreo, se ha de fijar el tamao de la
muestra con el fin de que los gastos econmicos para su realizacin estn dentro del presupuesto
fijado, que el tiempo necesario para realizar el muestreo sea corto y que los resultados sean fiables.
En primer lugar se establecer el tamao de la muestra dependiendo del grado de precisin que
se quiera alcanzar, pues en funcin del tamao de la muestra se obtienen los gastos que requiere y el
tiempo necesario. Destacar que el coste y el tiempo hace que muchos estudios no se realicen con la
precisin determinada inicialmente.
Se partir, por tanto, de un determinado error e y de un nivel de confianza para obtener el
tamao adecuado. Se define el nivel de confianza como la probabilidad de que la diferencia entre
el estimador y el parmetro que se quiere estimar sea menor que la cota de error. Podemos
enunciarlo como P ( x < e ) = 1 , y para que esta probabilidad sea elevada, tiene que ser
muy pequeo. Si se considera adems el error de la forma e = k

31

, queda

Estadstica unidimensional

P x < k
= 1 .
n

Suponiendo una Poblacin normal con desconocida, pero conocida , tipificando queda
x
z=
P ( z < k ) = 1 , y por tanto k = z / 2 , por lo que el error vendr dado por
/ n
e = z / 2

z
. A partir de aqu se despeja n, resultando n = / 2 .
n
e

Esta expresin se aplica directamente porque conocemos z / 2 y e lo fijamos. Observamos que el


tamao de la muestra ser mayor cuanto mayor sea z / 2 , es decir, mayor el nivel de confianza 1-,
y ser mayor tambin cuanto menor sea e2, pues la estimacin es ms precisa en el intervalo.
La frmula anterior slo sirve para muestreos sobre poblaciones infinitas o finitas con
N n

, es decir aadindole
reemplazamiento. Para las poblaciones finitas se tomar eN = z / 2
N 1 n
el factor de correccin.
n
z
Despejando queda nN =
, con n = / 2 .
n 1
e
1+
N
2

En el caso de no tener informacin sobre la poblacin se utilizar la desigualdad de Markov,


que dice que dad una funcin no negativa g de la variable aleatoria x, para todo >0 se verifica:
E [ g ( x) ]
P [ g ( x) > ]
.

Tomando g ( x) = ( x )

2
2
> 0 E [ g ( x ) ] = E ( x ) = V [ x ] =
, y fijando = > 0 ,

n
2

2
P ( x ) > 2
P x >
2

n
n 2
lo que permite determinar el tamao de la muestra necesario para asegurar con determinada
probabilidad que la media muestral no se alejar ms de una determinada cantidad de la media
poblacional.
2

4.2 - Estimacin estadstica


La estimacin estadstica, que se basa fundamentalmente en el clculo de probabilidades,
tiene por objeto inferir el valor de un parmetro desconocido de una distribucin en base a los
datos de una muestra.
La estimacin de parmetros se realiza mediante:

Estimacin puntual
En la que se aproxima el valor del parmetro a partir de un estadstico calculado en
la muestra. No hay un nico criterio para determinar el mejor estimador puntual pero

32

Estadstica unidimensional
para ser un buen estimador se desea que sea insesgado (cuando su distribucin est
centrada en el parmetro a estimar), consistente (si la probabilidad de que la estimacin
y el parmetro estn prximos aumenta y tiende a 1 al aumentar el tamao de la
muestra) y eficiente (un parmetro es ms eficiente que otro si tiene menor varianza).

Estimacin por intervalos de confianza


En la que en lugar de un solo punto se da un intervalo para estimar el valor de un
parmetro. Los extremos del intervalo se calculan en base a los datos de la muestra y la
probabilidad de que el verdadero valor del parmetro desconocido est en el intervalo
debe ser alta. Para ello, primeramente se debe fijar la probabilidad con la que se
pretende que el intervalo contenga al parmetro. Esta probabilidad, 1-a, se denomina
nivel de confianza y al valor a se le llama nivel de significacin.

4.3 - Contraste de hiptesis


El contraste de hiptesis, tambin llamado test de hiptesis, es un procedimiento que
permite verificar si un conjunto de afirmaciones sobre la poblacin son o no ciertas y si los
datos nos ofrecen evidencia estadstica para poder aceptar o rechazar una hiptesis que se
plantea.
El contraste de hiptesis es, por tanto, un mtodo numrico para comprobar una teora o
hiptesis sobre una poblacin. Dicho mtodo consta de los siguientes pasos:
1. Enunciar la hiptesis H0.
Consiste en darle un valor a un parmetro de cierta poblacin.
2. Construir la zona de aceptacin en funcin del nivel de significacin.
Si la hiptesis es cierta, el parmetro de la muestra se distribuir de forma conocida. En
primer lugar se considera un nivel de significacin siendo los ms comunes = 0,10; = 0,05;
= 0,01. A continuacin se construye la zona de aceptacin que es el intervalo fuera del cual
slo se encuentran el 100 % de los casos "ms raros".
3. Verificar la hiptesis
Obtener el correspondiente parmetro en una muestra cuyo tamao es el que se ha decidido
en el paso 2.
4. Decidir si se acepta la hiptesis
Se decide si se acepta la hiptesis con un nivel de significacin a dependiendo de que el
valor del parmetro est dentro de la zona de aceptacin. Si no lo est, se rechaza la hiptesis.
Veamos un ejemplo concreto:
Podemos suponer que es correcta una moneda que, al arrojarla 100 veces, da 25 caras?
1. Enunciamos la hiptesis: "la moneda es correcta"
1
H 0 : p = P[cara ] = = 0,5
2
2. Construimos la zona de aceptacin: si la hiptesis fuera cierta, entonces las
proporciones de caras en una muestra de tamao 100 seguiran una distribucin normal,
esto es:
33

Estadstica unidimensional

pq
0,5 0,5
= N 0,5;
= N (0,5;0,05)
N p,

n
100

3. Elegimos un nivel de significacin = 0,05; por tanto el 95% de las proporciones


muestrales de caras estaran en el intervalo caracterstico:
(0,5 - 1,96 . 0,05; 0,5 + 1,96 . 0,05) = (0,402; 0,598)

denominada zona de aceptacin.

4. Decidimos si aceptamos o no la hiptesis: puesto que la proporcin obtenida en la


muestra es 0,25 que no est en la zona de aceptacin se rechaza la hiptesis y
consideramos que la moneda no es correcta.

34

Estadstica unidimensional

5 - APLICACIONES DE LA ESTADSTICA.
La estadstica es una ciencia de aplicacin prctica casi universal en todos los campos
cientficos. En este apartado vamos a ver algunas aplicaciones en campos concretos tanto de la
Estadstica Descriptiva como de la Estadstica Inferencial

Aplicacin en las Ciencias Sociales


El papel de la estadstica en el proceso de investigacin sociolgica est claramente
determinado: las consideraciones estadsticas se introducen tan slo en la fase analtica del
proceso de investigacin, despus de haber obtenido los datos, frecuentemente a partir de una
muestra. La estadstica es, pues, un instrumento auxiliar en el proceso de investigacin.

1.- El anlisis comparativo en sociologa


El anlisis comparativo es una de las parcelas estudiadas por la Estadstica Descriptiva. La
Sociologa hace constantemente uso de las comparaciones para avanzar el pensamiento
sociolgico (ejemplo: comparacin sobre las actitudes de colectivos, comparacin de tasas
brutas de natalidad para analizar la tendencia general del censo, comparacin de la situacin
econmica de una zona determinada en diferentes aos).
Para una correcta comparacin es preciso formular e identificar claramente los objetos o
fenmenos que se van a medir, para que se puedan contrastar consistentemente grupos
comparables. Son tres los tipos de comparacin que se pueden realizar:

Comparacin entre grupos.


El modelo de comparacin ser el realizado entre un grupo experimental al que se le ha
sometido a un tratamiento conocido, como podra ser un grupo de alumnos al que se le
ensea un programa educativo especial, y un grupo de control no sometido a dicho
tratamiento (grupo de alumnos que contina con el programa tradicional). Se trata, pues, de
una comparacin entre un grupo experimental y un grupo de control en dos momentos en el
tiempo, es decir, antes y despus de someter al grupo experimental al tratamiento. Los
grupos que se comparan pueden estar constituidos por individuos o por cosas u objetos no
personales, tales como grupos de organizaciones o instituciones sociales.

Comparaciones entre un grupo y un caso individual de dicho grupo.


As, se pueden comparar los resultados escolares de un estudiante con los
correspondientes a la media de su clase. Lo importante ser siempre delimitar y definir las
caractersticas del grupo que se compara con las correspondientes al individuo.

Comparaciones entre los resultados de un estudio y unos resultados estandarizados


que bien han sido establecidos a partir de investigaciones previas o provienen de un
modelo terico formulado por el investigador.
Un ejemplo sera contrastar determinadas caractersticas demogrficas de un grupo
social objeto de estudio con las correspondientes tasas que ofrecen los resultados del censo
general de la poblacin. Otras veces el estndar es simplemente un estudio anterior que
sirve de referencia a una nueva investigacin (ejemplo: un antroplogo que estudia una
35

Estadstica unidimensional
comunidad rural ya estudiada anteriormente). Tambin las comparaciones se podrn
realizar a partir de teoras conocidas. Un ejemplo sera el siguiente: la teora de la transicin
demogrfica de las sociedades que pasan del estado preindustrial al industrial predice un
cambio en las tasas de natalidad y mortalidad, de forma que los valores altos de tales tasas
se reducen significativamente.

2.- Recogida de datos estadsticos


La descripcin estadstica de un fenmeno sociolgico se hace mediante datos numricos.
La recogida de datos puede realizarse utilizando fuentes internas (ejemplo: datos intrnsecos a
la propia actividad de la empresa y que son facilitados por ella misma) y externas (ejemplo:
informacin ajena a la propia empresa y que es facilitada por otros organismos o individuos).
Existen muchas entidades pblicas y privadas (ministerios, cmaras de comercio, entidades
bancarias, revistas especializadas, el Instituto Nacional de Estadstica, etc.) que publican
peridicamente datos e informes estadsticos de tipo general o especializados: finanzas, asuntos
sociales y econmicos, educacin, etc. Dichas publicaciones son importantes fuentes externas.
La recogida de datos es una tarea delicada pues un error en esta fase falsea todo el
tratamiento posterior, de ah que, una vez concluida, haya de hacerse un detenido escrutinio de
los nmeros conseguidos, a fin de revisar datos sospechosos o rechazar los claramente
inadmisibles.

3.- Aplicaciones en la estimacin del tamao o caractersticas de una poblacin


La estimacin del tamao o caractersticas de una poblacin se realiza en base a:
Censos y recuentos
Cuando tanto el tamao de la poblacin a estudiar y los recursos necesarios para el
estudio no sean excesivos se puede someter a anlisis la poblacin total dada la exactitud
que se obtendr. Los censos de poblacin tienen gran tradicin y fueron las primeras
manifestaciones estadsticas.
Estudios actuales que implican la utilizacin de censos y recuentos son: los estudios
sobre caractersticas demogrficas, los de fecundidad comparativa en diferentes grupos
socio-econmicos y tnicos, los de actitudes y opiniones, los del efecto de la movilidad
fsica y social, de la sanidad, del empleo y desempleo, analfabetismo y educacin.
Aplicaciones del muestreo
En muchos casos se recurre a la utilizacin de la inferencia estadstica para inferir a
toda una poblacin las conclusiones sacadas a travs del estudio de una muestra de la
misma. Ejemplos que actualmente han adquirido gran importancia son:

Investigaciones de mercado
El sondeo o medicin de la opinin pblica, tradicionalmente importante por su relacin
con objetivos no slo sociales, sino tambin econmicos o polticos, ha adquirido
actualmente una gran relevancia. Investigadores del mercado, trabajadores sociales,
doxlogos, pseflogos y analizadores de la opinin pblica constituyen parte de un nuevo
colectivo que utiliza el muestreo de opinin pblica como herramienta de trabajo. Es

36

Estadstica unidimensional
interesante, as mismo, el empleo del material recogido en las encuestas para el anlisis y
simulacin de votaciones y otras reacciones polticas y sociales.
Ciertos investigadores (Stephan y McCarthy) incluyen entre los estudios de la opinin
pblica los relacionados con votaciones, matrimonio y vida familiar, lectura y uso de
bibliotecas, empleo del telfono, radio y televisin, moral y comportamiento de los
militares en campaa y en tiempo de paz, reacciones de un pas ante una calamidad pblica,
propaganda y rumores e influencia personal de ciertos individuos. Se han efectuado
muestreos, igualmente, para medir preferencias y evaluar el prestigio de personalidades,
partidos, profesionales, etc. y las relaciones entre diferentes razas y pases.
En los sondeos de opinin pblica aparecen como problemas principales la negativa a
proporcionar informacin o a facilitarla de forma incompleta y no verdica por parte de los
individuos seleccionados en la muestra. Sern varias las tcnicas para paliar estos efectos
negativos: asignacin de agentes de recogida de datos de las mismas caractersticas que los
individuos de la muestra (raza, clase social), explicacin clara de los fines del sondeo,
fijacin de entrevistas en lugar y hora preferentes para los entrevistados, etc.

Distribuciones por estratos o clases


Se trata del problema de la determinacin de estratos o clases y la asignacin o
atribucin de individuos a tales clases, problema que se relaciona con cuestiones
taxonmicas y con el anlisis discriminante.

Nmero ptimo de las diferentes profesiones


En relacin con programas de desarrollo, nos encontramos con los problemas socioeconmicos de la determinacin del nmero ptimo de las diferentes profesiones o
actividades con relacin a los objetivos sealados. Tiene inters la clasificacin de las
ocupaciones por diversos criterios. Entre stos est el del tiempo discrecional, tiempo
mximo que puede trabajarse sin que la imperfeccin en la tarea desempeada llegue al
conocimiento de un superior. Se pueden establecer clasificaciones por prestigio y estratos a
los que corresponden las diferentes profesiones o actividades. Algunos problemas
sociolgicos de movilidad y otros con aplicacin particular a la permanencia en puestos de
trabajo han sido estudiados por Goodman (1961).

4.- La teora de la poblacin


Los demgrafos y socilogos utilizan las tcnicas de la Estadstica (tanto descriptiva como
inferencial) para realizar sus investigaciones. Para la Teora de la Poblacin han desarrollado
un esquema conceptual para describir los cambios demogrficos que se producen en los pases
al pasar por diversos estados de industrializacin y urbanizacin.
Tres son los tipos que se utilizan para describir pases: de alto crecimiento potencial, de
crecimiento transaccional y de decadencia incipiente. Tales tipos se definen en trminos de
tasas de natalidad, de mortalidad y de crecimiento negativo, respectivamente.

5.- Aplicaciones de la teora de la decisin estadstica


La Teora de la Decisin y la Teora de Muestras son los dos grandes temas que trata la

37

Estadstica unidimensional
Estadstica Inferencial. Son dos las tcnicas principales que la Teora de la Decisin pone a
disposicin de las Ciencias Sociales.

Decisiones estadsticas
Despus de sacar una muestra de cierta poblacin, y obtener los datos referentes a la
muestra, podemos usarlos para ayudarnos a tomar una decisin sobre la poblacin. Un
ejemplo sera analizar las necesidades de vivienda en una muestra particular para tomar una
decisin en cuanto a la construccin de un nmero determinado de viviendas en una
ciudad.
Es importante observar que estas decisiones estn tomadas sobre una base
probabilstica. Esto es, hay siempre una probabilidad calculada de que una decisin
particular sea mala. El acierto de la decisin estadstica es que el grado de riesgo
correspondiente a cualquier decisin particular se mide objetivamente en trminos de
probabilidades.

Hiptesis estadstica
El procedimiento a seguir para llegar a una decisin ser primero suponer la hiptesis
que se quiere decidir, despus estudiar los resultados del experimento para ver si son
consecuentes o no con la hiptesis y, finalmente, rechazar o aceptar dependiendo de si son
consecuentes o no.
Un ejemplo sera la determinacin del nivel de delincuencia de una ciudad especfica.
Una de las hiptesis podra ser que el nivel de delincuencia es mayor en la mitad norte que
en la mitad sur. Para ello se procede al anlisis mediante el estudio de una muestra concreta
aleatoria sobre la que se contrasta la hiptesis, siguindose la veracidad o falsedad de la
misma.

Aplicaciones en la biologa, las ciencias experimentales y las ciencias de la


salud
Como se ha ido viendo a lo largo del tema, la estadstica descriptiva es la que estudia los
datos resultantes de una experiencia. En este caso con el trmino "estudia" nos referimos a
recoger los datos, clasificarlos, representarlos y resumirlos en informaciones que ayuden a los
interesados en su anlisis para poder sacar conclusiones que ayuden a comprender algo o a la
toma de decisiones. Aplicaciones de la estadstica descriptiva se encuentran en numerosos
mbitos.
Un ejemplo podra ser la aplicacin de la estadstica descriptiva en la denominada Ciencias
de la Salud. La recogida de datos referentes a la poblacin, como pueden ser las enfermedades
de las personas, los tratamientos aplicados o los mtodos de diagnstico, clasificando esta
informacin teniendo en cuenta datos tan dispares como la situacin econmica, la edad o el
color de la piel, aportar numerosos indicadores al campo de la Medicina que mejorarn sin
duda el diagnstico ms rpido de enfermedades o ayudarn a encontrar nuevos antdotos en
las investigaciones. Los mismo sucede en campos como la Qumica, la Biologa o la
Veterinaria.
En lo referente a las Ciencias Experimentales la estadstica juega un papel fundamental.
Sobre todo a la hora de analizar las diferencias entre los datos obtenidos de los experimentos y
los datos esperados segn el sistema supuesto. En el campo de la Fsica existen multitud de
aplicaciones de la estadstica, que pueden ir desde control de errores de medida hasta el clculo

38

Estadstica unidimensional
de enlaces necesarios para la no saturacin de las lneas telefnicas. Algo muy parecido sucede
en las Ingenieras tanto Electrnicas, de Telecomunicaciones, Industriales o Informtica.

Otras aplicaciones
Tras todo 1o comentado se puede observar la dificultad de encontrar algn mbito, tanto a
nivel empresarial como tecnolgico o cientfico que no utilicen la estadstica como valor
aadido a su actividad. Algunos mbitos que no se han nombrado directamente, pero dnde
tambin deben tenerse en cuenta las aplicaciones de la estadstica, podran ser, entre otros
muchos, la Publicidad, ayudando a prever o a entender la influencia de una campaa sobre un
sector de la poblacin, la Lingstica, ayudando a analizar dos obras literarias muy semejantes,
las Matemticas, dnde se utilizan numerosos modelos estadsticos, las Compaas de
Seguros, utilizando las tablas de mortalidad para calcular las tarifas de sus clientes, o la
Informtica, tanto en algoritmos complejos como en distribuciones de trficos por las redes de
ordenadores.

39

Estadstica bidimensional. Regresin

6. SERIES ESTADSTICAS BIDIMENSIONALES


Una estadstica de una caracterstica de la poblacin pretende ofrecer informacin
cuantitativa de la misma, para poder ser analizada. Normalmente no se lleva a cabo el estudio de
una sola variable, sino que al analizar la poblacin se suelen estudiar numerosas variables
relacionadas entre s. Un ejemplo sera la edad, las calificaciones de diferentes materias, los das
de falta de asistencia y las horas de estudio de un alumno de cuarto de ESO. Hay que tener en
cuenta que, en ocasiones, la informacin no la proporcionan los datos, sino las relaciones entre
los datos que muchas veces son los objetivos reales de los estudios.
A lo largo del presente tema se estudia la forma de utilizar de forma conjunta las diferentes
variables y la forma de analizar las relaciones que se dan entre ellas. La regresin trata de dar los
medios necesarios para calcular aproximadamente el valor de una variable conocida otra. La
correlacin lineal nos indicar el grado de dependencia que hay entre las variables.

6.1. Variables estadsticas bidimensionales: tablas estadsticas


En mltiples problemas estadsticos, la observacin de un fenmeno da lugar a la obtencin
de medidas de dos caracteres. As, se pueden observar el peso y la talla de un conjunto de
personas o la velocidad y el recorrido de frenado de un automvil. Consideremos una poblacin
de N individuos descritos simultneamente por dos variables X e Y. Tendremos entonces una
variable estadstica bidimensional (X, Y).
En el caso de variables bidimensionales, podemos distinguir tres tipos principales de tablas.

Primer tipo
Se origina cuando el nmero de datos bidimensionales N es pequeo. En este caso, los datos
se disponen en dos columnas sobre las que se emparejan los correspondientes valores
unidimensionales de una misma realizacin de la variable bidimensional, como puede verse en la
siguiente tabla:
Variable X
x1
x2

xn

Variable Y
y1
y2

yn

Segundo tipo
Se utiliza cuando el nmero de datos N es grande pero, sin embargo, existe un nmero
pequeo (k) de parejas de valores distintos. Es decir, cuando entre los N datos existan k
realizaciones (x1,y1), (x2, y2), .... (xk, yk) distintas que se repiten n1, n2, , nk, veces,
respectivamente, siendo
n1 + n2 + ... + nk = N.
En este caso la tabulacin se realiza en tres columnas, enfrentando los valores xi, yi y ni en
cada fila, es decir, valores unidimensionales de cada realizacin con su frecuencia absoluta
correspondiente, segn se expresa en la siguiente tabla:

40

Estadstica bidimensional. Regresin

Variable X
x1
x2

xk

Variable Y
y1
y2

yk

Frecuencia
n1
n2

nk
N

Hay que hacer notar que las tablas del primer tipo pueden considerarse como de segundo
tipo, en donde las frecuencias valen 1 para la totalidad de los pares de los valores observados.

Tercer tipo
Se utiliza este tipo de tabulacin cuando el nmero de observaciones es elevado y el nmero
de distintas parejas de valores observadas tambin. En este caso se utiliza una tabla de doble
entrada, que recibe el nombre de tabla de correlacin, y que tiene la forma que puede verse:

Intervalos
de clase Y

Intervalos
de clase X
Marcas de
de clase

(b0, bl)

y1

n11

n21

....

ni1

....

nkl

n1

(b1, b2)

y2

n12

n22

....

ni2

....

nk2

n2

....

....

....

....

....

....

....

....

....

(bj-l, bj)

yj

n1j

n2j

....

nij

....

nkj

nj

....

....

....

....

....

....

....

....

....

(bp-1, bp)

yp

n1p

n2p

....

nip

....

nkp

np

n1

n2

....

ni

....

nk

n = N

Totales verticales

(a0, a1)

(al, a2)

....

(ai-1, ai)

....

(ak-l, ak)

xl

x2

....

xi

....

xk

Totales
horizontales

Como se ve, la tabla es de doble entrada, figurando en las columnas las modalidades o
valores de X y en las filas los de Y. En la interseccin de la columna del valor xi, y la fila
correspondiente al valor yj se encuentra la frecuencia absoluta del par (xi, yj), que designamos por
nij. En la ltima fila aparecen los totales de las frecuencias de las columnas; ni es la suma de
frecuencias de todos los pares cuyo primer elemento es x1. En general:
p

ni = nij
j =1

En la ltima columna aparecen los totales de las frecuencias de las filas; n1 es la suma de
frecuencias de todos los pares cuyo segundo elemento es y1. En general:
k

n j = nij
i =1

Por ltimo:
k

i =1

j =1

n = nij = ni = n j = N
i =1 j =1

Se define la frecuencia relativa del par (xi, yj) como el cociente entre su frecuencia absoluta
y el nmero total de pares. Se designa por fij
41

Estadstica bidimensional. Regresin

f ij =

nij

N
fi es la frecuencia (relativa) de los pares cuyo primer elemento es xi, independientemente de cual
sea el segundo valor. Se define por:
p
ni
f i =
= f ij
N
j =1
Del mismo modo fj es la frecuencia relativa de los pares cuya segunda componente es yj
siendo la primera cualquier valor de X, se define por:
k
n j
f j =
= f ij
N
i =1
Es evidente que:
k

i =1

f i = f j = f ij = 1
j =1

i =1 j =1

Nota:
Si las variables no estn agrupadas en clases, se pueden suprimir la primera fila y la primera
columna de la tabla. Una representacin grfica se puede obtener asignando a cada par (xi, yj) un
punto del plano.

6.2. Representaciones grficas


Las principales representaciones grficas que se adoptan para variables bidimensionales
(cuantitativas) son las siguientes:

Si X e Y son variables discretas

Sobre los ejes de abcisas y ordenadas se presentan los valores de X e Y, respectivamente, y


sobre cada punto (xi, yj) se dibuja un crculo con ese centro y superficie proporcional a su
frecuencia nij. Por tanto, cuanto mayor sea la frecuencia asociada a un par, mayor ser el crculo
centrado en l.
Otra representacin equivalente a esta y que recibe el nombre de nube de puntos o
diagrama de dispersin, consiste en representar cada pareja de valores mediante un punto en un
sistema de ejes coordenados. Cuando una pareja de valores est repetida, junto a la
representacin del punto correspondiente se indica el valor de su frecuencia.
Veamos un ejemplo. Sea la distribucin de frecuencias:

42

Estadstica bidimensional. Regresin

entonces, su representacin grfica ser la siguiente:

Si X es variable continua e Y es variable discreta.


Si X es por ejemplo una variable continua e Y discreta, o viceversa, entonces la
representacin se suele llevar a cabo a travs del conjunto de histogramas que podemos trazar
para las distribuciones condicionadas de la variable de tipo continuo a los distintos valores de la
variable discreta, presentndose de forma conjunta.

Si las variables X e Y son ambas continuas


La representacin ms utilizada es la que se conoce con el nombre de estereograma, que es
en realidad una generalizacin del histograma para tres dimensiones. El proceso es el siguiente:
sobre un plano se trazan los ejes sobre los que tomaremos los valores de las variables X e Y,
respectivamente, y perpendicularmente a ellos, sobre cada rectngulo, resultante del cruce de dos
clases o intervalos de las dos variables, se levanta un paraleppedo, cuyo volumen es
proporcional a la frecuencia absoluta conjunta asociada a dicho rectngulo. Puede demostrarse
que el volumen total del estereograma es l.
Veamos un ejemplo: las edades de los esposos y esposas de 20 matrimonios fueron las
indicadas en la siguiente tabla:
Edad
esposa
Edad
esposo

18 - 26

26 - 34

34 - 42

22

30

38

20-26

23

26-32

29

32-38

35

Observemos que en este caso todos los rectngulos de cruce tienen la misma rea 6 8 =
= 48, luego bastar tomar como referencia de altura sus frecuencias, con lo cual el estereograma
que obtenemos es el siguiente:

43

Estadstica bidimensional. Regresin

6.3. Distribuciones marginales y condicionadas


6.3.1. Distribuciones marginales
Sea la variable bidimensional (X, Y). Si considerarnos la variable X con sus valores x1, x2, ,
xi, , xk y sus frecuencias absolutas, independientes del valor de Y, n1, n2, ..., ni, ..., nk
obtenemos lo que se llama distribucin marginal de la variable X. La frecuencia (relativa)
n
marginal de xi es f i = i . Del mismo modo, llamaremos distribucin marginal de la variable
N
Y, a sus valores y1, ..., yj, , yp con sus frecuencias absolutas n1, , nj, , np. La frecuencia
n j
marginal de yj es f j =
.
N
k

Es evidente que:

i =1

f i = f j = 1
j =1

En la tabla, la distribucin marginal de X est formada por la primera y la ltima fila. La


distribucin marginal de Y la forman la primera y la ltima columna.

6.3.2. Distribuciones condicionadas


Consideremos los nj individuos que presentan el valor yj. De todos estos, nij toman el valor
xi. Entonces se define corno frecuencia del valor xi condicionado por el valor yj a f i j , siendo:
nij
fi j =
n j
Llamaremos distribucin condicionada de la variable X por el valor yj a la representada en la
tabla siguiente:
Valores de X

Frec. absolutas

Frec. relativas

x1

n1j

f1 j

xi

nij

fi j

xk

nkj

f kj

Total

nj

44

Estadstica bidimensional. Regresin


Como se ve, en la tercera columna figuran las frecuencias de los distintos valores de X
condicionadas por yj. Segn lo dicho hasta ahora y teniendo en cuenta que hay p valores posibles
para Y, existen p distribuciones condicionadas para la variable X.
Del mismo modo, la frecuencia condicionada de yj por xi es:
nij
f ji =
ni
donde f ji representa la proporcin de pares (xi, yj) sobre los que tienen como primer elemento xi.
Las tablas de distribuciones condicionadas de yj por xi son:
Valores de Y

Frec. absolutas

Frec. relativas

Y1

ni1

f 1i

yi

nij

f ji

yk

nip

f pi

Total

ni

6.3.3. Independencia y dependencia funcional


Puede suceder que las variables X e Y tengan un cierto grado de dependencia. De momento,
nos limitaremos a definir los dos casos extremos: la ausencia de dependencia, llamada
independencia, y la dependencia total o dependencia funcional.
Definicin de independencia funcional
Diremos que la variable X es independiente de Y cuando las frecuencias relativas de las
distribuciones condicionadas de X por yj son idnticas entre s. Segn esto las p distribuciones
condicionadas de X son iguales. f i j no depende de j, es decir:
nij
nip
ni1 ni 2
=
= =
==
n1 n2
n j
n p
Aplicando la conocida propiedad de las proporciones:
nij

ni1 + ni 2 + + nij + + nip

ni
de donde f i j = f i
n j n1 + n2 + + n j + + n p n
Las frecuencias condicionadas son iguales a las frecuencias marginales y las distribuciones
condicionadas iguales a la distribucin marginal.
=

Por otra parte:


nij
n

ni nij n j nij

o bien f ij = f i f ji = f j f i j
N ni
N N

y cuando X es independiente de Y, f i j = f i ; sustituyendo f ij = f j f i = f i f ji por lo que

f ji = f j , que nos indican que las frecuencias de Y condicionadas por xi, no dependen de i. Por
tanto, cuando X es independiente de Y tambin Y es independiente de X, y se dice que la
independencia es recproca.
A continuacin damos un ejemplo de dos variables independientes:

45

Estadstica bidimensional. Regresin


x1
3
5
2
4
14

y1
y2
y3
y4
TOTAL

x2
6
10
4
8
28

x3
12
20
8
16
56

TOTAL
21
35
14
28
98

Veamos que las frecuencias condicionadas son iguales a las frecuencias marginales y las
distribuciones condicionadas iguales a la distribucin marginal. Las distribuciones marginales de
X e Y son:
X
x1
x2
x3
TOTAL

F.Abs
ni
14
28
56
98

F.Rel
fi
14/98 = 1/7
28/98 = 2/7
56/98 = 4/7
1

y1
y2
y3
y4
TOTAL

F.Abs
nj
21
35
14
28
98

F.Rel
fi
21/98 = 3/14
35/98 = 5/14
14/98 = 2/14
28/98 = 4/14
1

F.Abs
nj

F.Rel

Y
y1
y2
y3
y4
TOTAL

21
35
14
28
98

21/98 = 3/14
35/98 = 5/14
14/98 = 2/14
28/98 = 4/14
1

Las distribuciones condicionadas son:


X

F.Abs
ni

F.Rel
f ji

x1
x2
x3
TOTAL

14
28
56
98

14/98 = 1/7
28/98 = 2/7
56/98 = 4/7
1

f ji

Definicin de dependencia funcional


Se dice que la variable X depende funcionalmente de Y si a cada valor yj corresponde un
nico valor de X. Para todo j la frecuencia absoluta es nula salvo para un valor de i, siendo nij =
nj. En cada fila todas las frecuencias son nulas excepto una, aunque puede haber varias
frecuencias no nulas en la misma columna. Esta dependencia funcional se expresa por x = f(y).
En general, la representacin grfica de x = f(y) ser una curva llamada de dependencia. A cada
ordenada (y) le corresponder, en este caso, un nico valor de x.
A continuacin damos un ejemplo donde X depende funcionalmente de Y.
xl

x2

x3

TOTAL

y1

y2

y3

y4

y5

TOTAL

11

28

46

Estadstica bidimensional. Regresin


Cuando la variable Y tambin depende funcionalmente de X, se dice que la funcionalidad es
recproca. En este caso la tabla es cuadrada y en cada fila y en cada columna hay un nico valor
distinto de cero.

6.3.4. Caractersticas marginales


Consideremos la distribucin marginal de X. Sus caractersticas ms importantes son:

Media
1
N

x=

i =1

i =1

i =1 j =1

Varianza
V ( X ) = x2 =

ni xi = f i xi = f ij xi
1
N

Desviacin tpica: x

n (x
i

i =1

x ) = f i (xi x )
2

i =1

Para la variable marginal Y.

Media
y=

1
N

j =1

j =1

i =1 j =1

Varianza
1
V (Y ) = =
N
2
y

n j y j = f j y j = f ij y j
n (y
p

j =1

y ) = f (y
p

j =1

y)

Desviacin tpica: y

6.3.5. Caractersticas condicionadas


Consideremos la distribucin condicionada de X al valor yj, dada por la tabla de ms abajo.
Al definir las caractersticas de esta distribucin, media y varianza, las asignaremos el subndice
j, donde j puede tomar valores desde 1 hasta p.
X

Frec. Absoluta

Frec. Relativa

xl

n1j

xi

nij

xk

nkj

f1 j
fi j
f kj

TOTAL

nj

Definimos la media x j y la varianza Vj(x) de esta distribucin por:

Media: x j =

1
n j

i =1

i =1

nij xi = f i j xi

47

Estadstica bidimensional. Regresin

Varianza: V j ( X ) =

1
n j

nij (xi x j ) = f i j (xi x j )


k

i =1

i =1

Del mismo modo se definen para la distribucin de la variable Y condicionada a xi:


p
1 p
Media: yi =
n

y
=
f ji y j

ij
j
ni j =1
j =1

Varianza: Vi (Y ) =

1
ni

nij (y j yi ) = f ji (y j yi )
p

j =1

j =1

6.4. Covarianza
Hemos visto anteriormente como asociadas a una variable estadstica bidimensional que hay
una serie de distribuciones unidimensionales (marginales y condicionadas). Evidentemente, la
descripcin numrica de una variable bidimensional pasa por una descripcin numrica de
dichas variables unidimensionales, aspecto este que ya sabemos manejar en base a temas
anteriores. Para cada distribucin puede estudiarse, por ejemplo, posicin, dispersin, simetra y
curtosis como ya vimos.
Ahora bien, existe sin embargo una medida general para la distribucin bidimensional, que es
de gran utilidad y est ligada a la independencia de las variables. Dicha medida se conoce con el
nombre de covarianza y suele representarse por xy. Viene dada por la siguiente frmula:
p

n (x
xy =

ij

i =1 j =1

x ) (y j y )

donde (xi, yj) es una observacin conjunta y x e y las medias aritmticas de las distribuciones
marginales de X e Y, respectivamente.
Puede comprobarse, adems, sin dificultad, que la covarianza se puede poner en la forma:
p

n
xy =

i =1 j =1

ij

xi y j

xy

Veamos que en caso de independencia entre las variables la covarianza en nula.


Demostracin:
La condicin de independencia era:
nij

n i n j

, i,j
N
N N
Calculemos, segn esta condicin, el valor de la covarianza:
k

xy = xi y j
i =1 j =1

nij
N

x y = xi y j
i =1 j =1

k
n i n j
n

x y = xi i
N
N N
i =1

48

n j

y
j =1

xy = xyxy =0

Estadstica bidimensional. Regresin

7. REGRESIN Y CORRELACIN LINEAL


7.1. El problema del ajuste
En algunas ocasiones, del estudio terico de un fenmeno se puede deducir la frmula
matemtica que liga las magnitudes consideradas. Por ejemplo, la frmula de los gases perfectos
es un resultado de la teora cintica de los gases. Pero otras veces, para llegar a dicha frmula
slo se dispone de un conjunto de pares de valores (xi, yi) obtenidos experimentalmente.
Entonces se plantea el problema de hallar una funcin y = f(x; l, ... , k) perteneciente a una
determinada familia, en cuya expresin figuran k-parmetros o constantes indeterminadas, de
forma que se adapte lo mejor posible al conjunto de datos experimentales y permita predecir con
xito el resultado de futuras experiencias.
Este problema presenta analogas con el de la interpolacin; es ms, si el nmero de pares
( xi , yi ) de valores experimentales es k, elegimos la familia de los polinomios y convenimos en
que la mejor aproximacin sea: f(xi; l, ... , k) = yi (con i = 1, ... , k), ambos problemas
coinciden.
Pero, en general, no sucede esto, pues f no es un polinomio y el nmero de parmetros es
menor que el de los pares de valores experimentales, as el sistema antes planteado carece de
solucin. En tal caso la determinacin de los parmetros se lleva a cabo imponiendo la condicin
de que la diferencia entre los valores observados y los que da la funcin f(x; 1, ... , k) sean los
menores posibles.
En el problema del ajuste se distinguen, pues, dos partes:
1) Eleccin de la familia de funciones f(x; 1, ... , k), es decir, eleccin del tipo de funcin de
ajuste.
2) Determinacin de los parmetros 1, ... , k .
Las funciones que ms se utilizan para llevar a cabo el ajuste son polinomios, funciones
exponenciales y potenciales, as como las funciones logartmicas.

Mtodo de los mnimos cuadrados


Sean (xi, yi) los pares de valores observados, e y=f(x; l, ... , k) la frmula con que
representamos la relacin que existe entre x e y. Para determinar los parmetros 1, ... , k que
aparecen en dicha frmula disponemos del sistema que resulta al imponer la condicin:
f(xi; l, ... , k) = yi (con i = 1, ... , k)
Si n = k, existe el nmero justo de condiciones que se requieren para fijar los parmetros.
Pero, en general, n > k y el sistema propuesto es imposible; el problema que entonces se plantea
es cmo asignar a los parmetros 1, ... , k los valores adecuados.
Para resolverlo se definen las desviaciones de las observaciones:
ei = yi - f(xi; l, ... , k)
o diferencias entre los valores observados y los valores tericos que suministra la frmula, y
segn cmo se comporten ciertas sumas formadas con estas desviaciones, as resultan diversos
mtodos para obtener valores de los k parmetros.

49

Estadstica bidimensional. Regresin

Este mtodo se establece sobre la hiptesis de que la suma

e
i =1

2
i

de los cuadrados de las

desviaciones sea mnima. Tiene la ventaja de que los valores que asigna a los parmetros
corresponden a la frmula ms probable en el sentido de que los valores de y que se deduzcan
de ella son los valores ms probables de las observaciones, supuesto que stas cumplen la ley de
Gauss de los errores. El desarrollo del mtodo requiere conocimientos sobre la determinacin de
mnimos de funciones de varias variables. Se trata, pues, de hacer que la funcin
n

E = ei2
i =1

sea mmima
El mtodo de los mnimos cuadrados nos proporciona las condiciones que nos permiten,
eligiendo una familia de funciones, determinar cul de ellas ajusta mejor nuestra nube de puntos.
Dada una nube de puntos y considerando la familia de todas las funciones lineales, vamos a
aplicar el mtodo de los mnimos cuadrados para determinar cul de todas ellas ajusta mejor
nuestro diagrama de dispersin. Esta recta se denomina recta de regresin y su estudio lo
desarrollamos en el siguiente apartado.

7.2. Regresin lineal


Sea una nube de puntos que se condensa alrededor de una recta. Llamaremos recta de
regresin de Y sobre X a la que nos da los valores aproximados de Y conocidos los de X. Su
ecuacin ser de la forma y = ax + b, y nuestro problema es calcular los coeficientes a y b.
Para ello utilizaremos el mtodo de los mnimos cuadrados, descrito anteriormente, segn el
cual la recta que ms se ajusta a la nube es aquella para la cual la media, ponderada por las
frecuencias totales fij de los cuadrados de las desviaciones paralelas al eje OY entre los puntos P
y la recta, sea mnima.

Para cada punto P(xi, yj) su desviacin respecto a la recta y = ax + b es la cantidad que
denotaremos dij y que se calcula: dij = yj - y = yj - (axi + b).
Segn el mtodo de los mnimos cuadrados para que:
D = f ij d ij2 = f ij ( y j axi b )
k

i =1 j =1

i =1 j =1

sea mnima deben cumplirse las condiciones siguientes:

50

Estadstica bidimensional. Regresin


D
D
=0 y
=0
a
b

Desarrollando obtenemos:
p
k
D
= 2 f ij ( y j axi b ) =
b
i =1 j =1
p
p
k
k
k p

= 2 f ij y i a f ij xi b f ij = 2( y ax b )
i =1 j =1
i =1 j =1
i =1 j =1

Como 2( y ax b ) = 0 , esto implica que b = y ax


Despejando tenemos que y = ax + b , relacin que nos indica que el punto ( x, y ) est sobre la
recta. Al punto G = ( x , y ) se le llama centro de gravedad de la nube Pij y sus coordenadas son las
medias de las variables marginales X e Y.
Sustituyendo b en D queda:

D = f ij ( y j axi y + ax ) = f ij y j y a ( xi x )
k

i =1 j =1

i =1 j =1

D
= 2 f ij ( xi x ) y j y a ( xi x ) = 0 , por lo que
a
i =1 j =1
k

[
k

i =1 j =1

f ij y j y a ( xi x ) = 0 f ij ( y j y ) a f ij ( xi x ) = 0
k

i =1 j =1

i =1 j =1

Despejando:

f (y
a=

y)

x)

ij

i =1 j =1
p

f (x
ij

i =1 j =1

Si multiplicarnos numerador y denominador por ( xi x )


k

f (x
a=

i =1 j =1
k

ij

x )( y j y )

f (x
ij

i =1 j =1

x)

Teniendo en cuenta que x2 = f i (xi x ) = f ij ( xi x ) podemos poner


2

i =1

i =1 j =1

f (x
a=

i =1 j =1

ij

x )( y j y )

x2

51

xy
x2

Estadstica bidimensional. Regresin

Como la recta y = ax + b tiene por pendiente a =


yy =

xy
, y pasa por el punto ( x, y ) se obtiene:
x2

xy
(x x )
x2

Cambiando x por y, y tomando las desviaciones paralelas al eje OX, se obtiene la recta de
regresin de X sobre Y, cuya ecuacin es:
xx =

xy
(y y)
y2

52

Estadstica bidimensional. Regresin

8. COEFICIENTE DE CORRELACIN
Se llama correlacin al grado de dependencia que hay entre las variables. Mediante la
correlacin se determina en qu medida una recta o curva de regresin describe la relacin que
existe entre las variables. Cuando todos los valores de las variables satisfacen exactamente una
ecuacin se dice que entre ellas hay una correlacin perfecta. Todos los puntos de la nube estn,
en este caso, sobre la curva de regresin.
En general, la correlacin, no ser perfecta, como estudiaremos a lo largo del tema,
pudindose presentar distintos grados de correlacin. Si se trata de estudiar la correlacin entre
dos variables, se habla de correlacin simple; si son ms de dos, se llama mltiple. En este tema,
nos limitaremos a estudiar la correlacin entre dos variables cuando la lnea de regresin es una
recta, llamndola correlacin lineal.

8.1. Correlacin lineal


Sea (X, Y) una variable bidimensional. Consideremos el diagrama de dispersin formado por
los puntos (xi, yj) i = 1, ... , k; j = 1, ... , p, y supongamos que la nube se condensa alrededor de
una recta.
Cuando Y tiende a aumentar cuando aumenta X, se dice que la correlacin es positiva o
directa. Si Y tiende a disminuir cuando aumenta X, la correlacin se llama inversa o negativa.

Si los puntos se condensan alrededor de una curva, la correlacin es no lineal, y si no hay


ninguna relacin entre las variables se dice que no estn correlacionadas.

53

Estadstica bidimensional. Regresin


Para medir cualitativamente la correlacin entre las variables basta con observar atentamente
la distribucin de los puntos alrededor de la recta o curva de regresin. Cuanto mayor sea el
ajuste a la curva, mayor ser la correlacin.
La necesidad de medir cuantitativamente el grado de correlacin entre las variables nos lleva
a definir el coeficiente de correlacin.

8.2. Coeficiente de correlacin lineal: propiedades


Definimos por coeficiente de correlacin lineal entre las variables X e Y a la razn:
p

r=

f ( x x )( y y )
i =1 j =1

ij

f ( x x )
i =1 j =1

ij

f ( y
k

ij

i =1 j =1

y)

Segn la definicin r es simtrico respecto a X e Y, por tanto: r = rxy = ryx


Para obtener una expresin ms sencilla recordemos lo que conocemos hasta ahora:.
k

xy = f ij ( xi x )( yi y )
i =1 j =1
k

= f ij ( xi x )
2
x

i =1 j =1

y2 = f ij ( y j y )
k

i =1 j =1

Sustituyendo en r se obtiene
r=

xy
x y

Comparemos esta expresin con la encontrada al calcular los coeficientes de la recta de


regresin, para encontrar una relacin entre ellos que nos permitir luego deducir propiedades
del coeficiente de correlacin lineal.
Tenemos: r =

xy

y a = xy2 , por lo que despejando xy e igualando expresiones queda:


x y
x
y
a =r
x

Propiedades

El coeficiente de correlacin lineal es un nmero comprendido entre -1 y 1, es decir, -1 r


1.

54

Estadstica bidimensional. Regresin

Si r=1 entonces la correlacin es total o funcional, pues todos los puntos estn sobre la
recta de regresin. La suma de los cuadrados de las desviaciones es nula, luego todos los
puntos estn sobre la recta de regresin. Las ecuaciones de las rectas de regresin de Y sobre
X y de X sobre Y son, respectivamente:

y
(x x)
x
1
r2 y y = y ( x x )
r x
r1 y y = r

a) Si r = 1, las dos rectas coinciden y toman la expresin: y y =

y
(x x)
x

Se dice en este caso que entre las dos variables existe una dependencia funcional.
b) Si r = -1, las rectas tambin coinciden y su ecuacin es: y y =

y
(x x)
x

Anlogamente, en este caso, entre las dos variables tambin existe una dependencia
funcional.

Si r = 0, la correlacin es nula. En este caso la suma de los cuadrados de las desviaciones es


mxima y toma el valor y. Se obtiene lo que se llama dispersin completa. Las rectas de
regresin quedan:
y y =0 y = y ; xx =0 x = x

55

Estadstica bidimensional. Regresin


Las dos rectas se cortan en el centro de gravedad ( x , y ) y son perpendiculares. En el caso en
que r = 0, no existe ninguna relacin entre las dos variables. Es decir, ambas variables son
incorreladas. Es un caso de independencia aleatoria.

Si -1 < r < 1, se dice que entre las dos variables existe dependencia aleatoria:
a. Cuando r est prximo a 1 o -1 la dependencia se aproxima a la funcional. El ngulo
que forman las rectas de regresin se aproxima a cero.
b. Si r se aproxima a 0, la dependencia aleatoria es muy pequea y el ngulo que forman
las rectas de regresin es prximo a 90.

Si r > 0, se dice que la correlacin es directa o positiva. Las pendientes de las rectas de
regresin son:

1y
de r2
m = r y de r1 y m =
x
r x
Ambas son del mismo signo y positivas por ser r > 0. Adems m' > m, pues r< 1. Las dos
rectas se cortan en el centro de gravedad ( x , y ) y la recta de regresin de X sobre Y se
aproxima ms a la vertical que la de Y sobre X.

Si 0 < r < 1, las dos variables estn tanto ms correladas a medida que r se aproxima a 1. Por
tanto, es un caso de dependencia aleatoria.

Si r < 0, la correlacin se llama inversa o negativa. Las pendientes m y m' son negativas por
ser r < 0, y m > m' pues r< 1. Las dos rectas son decrecientes y su posicin relativa viene
dada por la figura.

Si -1 < r < 0, las dos variables estn tanto ms correladas a medida que r se aproxima a -1.
Por tanto, es un caso de dependencia aleatoria.

56

Estadstica bidimensional. Regresin


Nota:
Tan importante es el valor del coeficiente r como el valor del coeficiente:

xy2
r = 2 2
x y
2

al que se denomina coeficiente de determinacin ya que determina si el ajuste lineal es


suficiente o se deben buscar ajustes o modelos alternativos.
Teniendo en cuenta esto, si r2 = 1, la correlacin es perfecta, y en el caso de que r2 = 0 (entonces
r = 0) implica que la correlacin es nula, es decir, en este caso X no nos sirve para describir el
comportamiento de la variable Y.

57

Estadstica bidimensional. Regresin

9. SIGNIFICADO Y APLICACIONES
9.1. Uso y abuso de la regresin
La aplicacin de los mtodos expuestos de regresin y correlacin exige un anlisis terico
previo de las posibles relaciones entre las variables. Puede ocurrir que se seleccionen dos
variables cualesquiera al azar y que d la casualidad de que, estadsticamente, la correlacin es
perfecta cuando no existe relacin posible entre ellas. Por ejemplo, el hecho que, casualmente, la
correlacin lineal entre la tasa de natalidad en Nueva Zelanda y la produccin de cereales en
Espaa a lo largo de un determinado perodo fuera perfecta no nos debera llevar a suponer que
existe algn tipo de relacin lineal entre estas variables.
Se deben seleccionar entre las que la fundamentacin terica avale algn tipo de relacin,
evitando, en lo posible, relaciones a travs de otra variable principal. Por ejemplo, el consumo de
bebidas puede variar en la misma direccin que el consumo de gasolina, pero no porque una
variable dependa directamente de la otra, sino porque ambas van en el mismo sentido que las
variaciones de la renta, que ser la principal variable explicativa.

9.2. Prediccin
El objetivo ltimo de la regresin es la prediccin o pronstico sobre el comportamiento de
una variable para un valor determinado de la otra. As, dada la recta de regresin de Y sobre X,
para un valor X = x0 de la variable, obtenemos y0.
Es claro que la fiabilidad de esta prediccin ser tanto mayor, en principio, cuanto mejor sea
la correlacin entre las variables. Por tanto, una medida aproximada de la bondad de la
prediccin podra venir dada por r.

9.3. Errores de medida en variables numricas


Veamos un ejemplo prctico de aplicacin del coeficiente de correlacin en el campo de la
medicin.
La medida de parmetros fisiolgicos est sujeta a error y a la propia variabilidad biolgica.
La presin arterial es un claro ejemplo: aunque la tcnica es bastante simple, pueden aparecer
errores debidos a defectos del aparato utilizado, a la aplicacin del manguito, al estado del
paciente y a la objetividad y preparacin del observador. Es de desear que el proceso sea fiable:
la repeticin de las medidas de la misma magnitud producen resultados iguales o al menos
similares. Hablamos entonces de fiabilidad de las mediciones, estabilidad o concordancia.
Diremos que una medicin es fiable si la variabilidad en mediciones sucesivas se mantiene
dentro de cierto margen razonable.
En ocasiones pueden existir diferentes mtodos de medida, siendo uno de ellos el que mejor
determina la magnitud de la variable en estudio. A ste se le conoce como patrn de referencia y
en principio sera el mtodo a emplear preferentemente, salvo que presente serios
inconvenientes, como pueden ser el coste, complicado de utilizar, etc. Es el caso de la medicin
de la tensin arterial mediante la introduccin de un catter flexible en una arteria perifrica.
Si se dispone de un mtodo alternativo al mtodo de referencia, ms prctico de utilizar, interesa
determinar la concordancia entre ambos sistemas.
El coeficiente de correlacin se emplea como ndice de concordancia entre los dos mtodos.
58

Estadstica bidimensional. Regresin

9.4. Otras aplicaciones


Para acabar, indicar que todos los conceptos tratados a lo largo del tema se aplican en
muchos y diferentes campos.
En Sanidad por ejemplo en la comparacin de medidas corporales (peso y talla, nivel de
grasa y colesterol...). En Educacin buscando la relacin, por ejemplo, entre el nivel
socioeconmico del alumnado y su rendimiento escolar. En Psicologa, ya que en una
investigacin psicolgica existen, adems de los sujetos, otras unidades de anlisis y es
importante determinar la influencia de estos en el comportamiento del individuo. En distintas
reas de Economa como la econometra ...

59

Ejercicios
EJERCICIOS DE ESTADISTICA UNIDIMENSIONAL

1.- La puntuacin de un test, de valores entre cero y diez, realizado a 20 personas es la siguiente:
2
1

5
8

6
3

9
4

7
2

8
7

9
5

6
8

3
5

4
5

a) Elabora una tabla estadstica


b) Construye un diagrama de barras

2.- El color favorito de 10 personas elegido entre azul, amarillo y rojo es:
azul

rojo

amarillo

rojo

amarillo

azul

rojo

amarillo amarillo

azul

a) Realiza una tabla de frecuencias


b) Construye un diagrama de sectores

3.- En las elecciones al Parlamento de Catalua del ao 2006 en la ciudad de Reus se obtuvieron
los siguientes resultados:
Censo electoral: 71.361
Votantes: 36.501
Abstencin: 34.860
Resultado:
Partido poltico
Votos
CiU
11.645
PSC
9.079
ERC
5.844
PP
4.562
ICV
2.549
Otros
2.106
a)
b)
c)
d)

Calcula el porcentaje de votantes y de abstenciones


El nmero de votos nulos
Elabora una tabla estadstica de frecuencias
Representa los datos en un diagrama de sectores y en un diagrama de barras.

4.- Las edades de los 12 jugadores de la plantilla de baloncesto del equipo CB Tarragona en la
temporada 2006-2007 son:
29
a)
b)
c)
d)

36

19

28

28

20

Elabora la tabla estadstica


Calcula la media aritmtica de las edades
Halla la mediana
Calcula la moda

60

24

21

24

30

23

27

Ejercicios

5.- Las calificaciones del examen de matemticas Aplicadas a las Ciencias Sociales de 25
alumnos de 1 de Bachillerato son:
1
2
7
a)
b)
c)
d)
e)
f)
g)

2
4
5

3
5
9

4
8
2

5
4
6

6
1

9
3

6
4

3
7

4
4

Elabora la tabla estadstica


Cul es el porcentaje de aprobados? Y de suspensos?
Cuntos alumnos han obtenido una nota superior a 6?
Calcula la media aritmtica.
Halla la mediana.
Calcula la moda.
Halla la desviacin estndar de la distribucin.

6.- Completa la tabla siguiente de una variable cuantitativa continua:


Valores
[260-270)
[270-280)
[280-290)
[290-300)
[300-310)
[310-320)
Total

ni
14
7
11
5
4
9
50

Marca de clase (xi)

Ni

fi

Fi

7.- Completa la tabla siguiente de los m2 de 30 viviendas de una organizacin:


Valores

ni

[50-100)
[100-150)
[150-200)
[200-250)

8
16
4
2

Total

30

a)
b)
c)
d)
e)

Marca de
clase (xi)

Ni

xini

xi x

Calcula la media aritmtica


Halla la mediana
Halla la clase modal
Calcula la desviacin media
Calcula la desviacin estndar

61

xi x ni

( xi x ) 2

( xi x ) 2 ni

Ejercicios
8.- Las alturas de 40 pasajeros de un avin son las siguientes expresadas en cm:
140
164
175
193
a)
b)
c)
d)
e)
f)

192
182
185
190

126
178
124
181

177
167
164
163

150
170
180
190

179
173
158
162

175
182
186
162

174
172
175
161

171
189
172
167

169
173
176
155

Calcula el recorrido
Distribuye los datos en diez intervalos de siete unidades de amplitud
Elabora una tabla como la del ejercicio anterior
Calcula la media aritmtica y la desviacin estndar
Calcula la desviacin media
Cul es el porcentaje de pasajeros que son ms altos de 166 cm?Y ms bajos de 152?

9.- El nmero de calzado de los alumnos de una clase de 1 de Bachillerato es:


39
37
42

35
40
45

45
42
41

42
39
44

40
41
43

43
39
38

37
36
38

35
40
37

39
42
40

41
39
41

Considerando la variable como discreta:


a) Elabora la tabla de frecuencias
b) Calcula la media aritmtica, la media y la moda
c) Halla la varianza y la desviacin estndar

10.- Las ganancias de una empresa durante los diez ltimos aos han sido las siguientes:
Aos
1997
1998
1999
2000
2001
2002
2003
2004
2005
2006
2007

Beneficios
(millones de euros)
1.248
1.125
972
1.208
1.110
1.005
1.102
1.170
1.250
1.375
1.382

a) Elabora un grfico con la evolucin de los beneficios


b) Calcula la media de los beneficios de la empresa durante esa dcada
c) Halla la desviacin tpica e interpreta el resultado.

62

Ejercicios
11.- El nmero de goles que un jugador ha marcado durante la primera ronda de la liga son:
1
0
10
0

Jornada
Goles
Jornada
Goles

2
2
11
1

3
3
12
2

4
1
13
2

5
1
14
1

6
2
15
0

7
2
16
0

8
3
17
0

9
0
18
1

a) Elabore un diagrama de barras en el que el eje de abcisas sea el nmero de goles y el de


ordenadas, el nmero de partidos
b) Calcula la media y la desviacin tpica del nmero de goles.

12.- Un jugador de baloncesto ha conseguido los siguientes puntos en los primeros diez partidos
de Liga:
Partidos
Puntos

1
12

2
20

3
15

4
8

5
10

6
11

7
15

8
7

9
9

10
17

a) Elabora un diagrama de barras en que el eje de abcisas sea el nmero del partido, y el de
ordenadas, el nmero de puntos.
b) Calcula la media y la varianza del nmero de puntos.

13.- A las 4h de la madrugada, la polica realiz la prueba de alcoholemia a 50 conductores, y el


resultado obtenido, agrupado por intervalos, fue:
Intervalos de tasas de Frecuencia
alcoholemia (mg/l)
ni
[0; 0,2)
35
[0,2; 0,4)
7
[0,4; 0,6)
2
[0,6; 0,8)
3
[0,8; 1)
1
[1; 1,2)
0
[1,2; 1,4)
1
[1,4; 1,6)
1
a)
b)
c)
d)

Calcula el porcentaje de cada intervalo


Cual es el promedio de la tasa de alcoholemia?
Encuentra la clase modal.
Representa el correspondiente histograma y el polgono de frecuencias.

63

Ejercicios
EJERCICIOS DE ESTADISTICA BIDIMENSIONAL

1.- Dados los valores siguientes de las variables bidimensionales X(peso) e Y(altura):
Peso (kg): X
Altura (cm): Y
a)
b)
c)
d)

52
160

60
163

70
181

73
185

54
170

80
170

65
172

60
164

90
192

85
178

Elabora la tabla de doble entrada


Elabora la nube de puntos
Calcula la mediana y la desviacin tpica de cada variable.
Calcula la covarianza.

2.- Con los datos de la siguiente tabla de doble entrada calcula los parmetros siguientes:
Y/X

10

11

12

13

Total

Total
a)
b)
c)
d)

Media aritmtica de X e Y
Desviacin tpica de X e Y.
Covarianza.
Coeficiente de correlacin

3.- Dada la siguiente distribucin bidimensional de covarianza xy = 3, 2 ; desviacin tpica de x

x = 1, 71 y coeficiente de correlacin r = 0,99; calcula la desviacin tpica de y y.

4.- De una distribucin bidimensional se conocen los siguientes parmetros:


x = 1, 7
y = 2, 3
xy = 1,1
y = 1, 0
a) Calcula la recta de regresin de x sobre y
b) Calcula la recta de regresin de y sobre x
c) Calcula el coeficiente de correlacin

64

Ejercicios
5.- Dada la siguiente tabla de doble entrada, donde X son las horas diarias que cada alumno
dedica a los videojuegos e Y es el nmero de suspensos del ltimo trimestre:
Y/X

Total

Total
a) completa la tabla de doble entrada
b) Representa la nube de puntos
c) Elabora la tabla siguiente:
xi
yi
ni
nixi

nixi2

niyi

niyi2

nixiyi

d) Calcula las medias y las desviaciones tpicas de los datos anteriores.


e) Calcula la covarianza e interpreta su signo.

6.- Con los datos de la actividad anterior:


a) Calcula el coeficiente de correlacin y las rectas de regresin.
b) Cuntas asignaturas se prev que suspender un alumno que juega 2,5h?
c) Cuntas horas debe de jugar un alumno que ha suspendido tres materias?

7.- Dada la siguiente tabla, donde X es el rea de un bosque (ha) e Y es la madera que se extrae
al ao (kg):
yi
ni
nixi
nixi2
niyi
niyi2
nixiyi
xi
100
29
1
150
38
2
200
47
0
250
63
3
300
74
1
350
82
1
400
90
2
450
111
1
500
129
2
550
136
1
600
150
1
15
Total

65

Ejercicios
a) Completa la tabla anterior
b) Calcula las medias y las desviaciones
c) Calcula la covarianza y el coeficiente de correlacin.

8.- Se mide la altura y el nmero del calzado de diez personas adultas, y los resultados son:
Pie: X
Altura (cm): Y
a)
b)
c)
d)
e)

39
163

46
194

45
185

41
172

38
170

44
180

42
177

39
160

41
165

45
183

Elabora la tabla de doble entrada


Representa la nube de puntos
Calcula la media y la desviacin tpica de cada variable
Calcula la covarianza
Calcula el coeficiente de correlacin e interpreta el resultado.

9.- Se mide la concentracin de calcio en diferentes aguas comerciales mediante un aparato que
mide el rea de la figura registrada. Por este motivo se realiza una recta de regresin:
Concentracin
(mg/ml): X
Area: Y

10

15

20

25

30

35

40

25

46

78

102

121

149

173

205

a) Calcula el coeficiente de correlacin


b) Encuentra la recta de regresin de Y sobre X
c) Un pueblo lleva a analizar una muestra de agua cuya rea es de 112. Qu concentracin
de calcio tiene el agua?

10.- En una clase de 20 alumnos de 4 de ESO, las notas del curso de ciencias naturales y
matemticas son las siguientes:
Nota ciencias
naturales (X)
Nota
matemticas (Y)
Nota ciencias
naturales (X)
Nota
matemticas (Y)

10

a) Calcular la covarianza y el coeficiente de correlacin de la distribucin anterior


b) Encuentra las rectas de regresin
c) Qu nota de matemticas obtendra un alumno que tenga un 6 en ciencias naturales?

66

Ejercicios
11.- A partir de las siguientes nubes de puntos identifica los coeficientes de correlacin ms
apropiados para cada una de ellas: r = 0,85; r = -1; r = 0,99; r = 0,017.

12.- Identifica las siguientes rectas de regresin con la nube de puntos de la actividad anterior:

13.- En un experimento para estudiar la relacin que existe entre la dosis de un medicamento y el
tiempo de reaccin de una persona estimulada ante una seal acstica, se han recogido los datos
siguientes:
Dosis (mg)
Tiempo (s)

1
3,5

3
2,4

4
2,1

7
1,3

9
1,2

12
2,2

13
2,6

14
4,2

a) Haz una nube de puntos en el plano de coordenadas poniendo en las abcisas la dosis, y en
las ordenadas, el tiempo. Crees que el tiempo depende de la dosis?
b) Se puede ajustar la nube mediante una recta? Tiene sentido calcular el coeficiente de
correlacin en este caso? Qu mide el coeficiente de correlacin?

67