Documentos de Académico
Documentos de Profesional
Documentos de Cultura
INDICE
Es a los matemáticos del s. XIX a los que les debemos el uso de la palabra Estadística en
todo su sentido técnico ya que fueron ellos los que posibilitaron el paso de la estadística
deductiva a la estadística inductiva o inferencial, que es la que actualmente tiene mayor
influencia en todos los campos de la ciencia.
El tamaño de una población viene dado por el número de elementos que componen dicha
población. Puede ser finito o infinito. No siempre es posible analizar cada elemento de una
población, ya sea por razones económicas, de tiempo, de personal disponible, por destrucción
de los elementos tras el análisis... Por eso, en muchos estudios estadísticos se estudia solo una
parte de la población, que denominamos muestra. La operación de tomar una muestra de la
población se denomina muestreo.
1
Estadística unidimensional
hace por criterios personales no aleatorios, estamos ante un muestreo no probabilístico que
nos da una muestra no representativa.
Las propiedades o cualidades que poseen los elementos de una población se denominan
caracteres. Los caracteres de los elementos que componen una población los dividiremos en:
- Cuantitativos o variables.
- Cualitativos o atributos.
Los caracteres cualitativos o atributos son los que se describen mediante palabras, tal como
el sexo, estado civil, nacionalidad, etc. Un atributo adopta diversas modalidades. Por ejemplo
el sexo: hombre o mujer.
Los caracteres cuantitativos o variables son los que se describen mediante números, es
decir, son medibles; tales como la estatura, la edad,... Las variables se expresan con símbolos
(x, y, z...) que pueden tomar un valor numérico de entre un conjunto de valores posibles que se
denomina dominio de la variable.
2
Estadística unidimensional
• Estadística descriptiva
La Estadística descriptiva no es otra cosa, pues, que la ciencia dedicada a descubrir las
regularidades o características existentes en un conjunto de datos. Pero si la observación no
es exhaustiva, sino que se parte de una muestra con la finalidad de conocer, mediante ella,
las características de la población, entonces nos enfrentamos con un proceso de inducción,
en virtud del cual se aprovecha la información suministrada por la muestra para conocer,
aunque sea aproximadamente, aquellas características.
• Estadística inferencial
La Estadística Inductiva, también llamada Inferencia Estadística, tiene, por tanto, como
función, generalizar los resultados de la muestra para estimar las características de la
población. No obstante, el conjunto de datos muestrales puede describirse o analizarse de la
misma forma que una población. Por tanto, el conjunto de observaciones o datos de una
muestra puede manejarse en un doble sentido. Primero, para describir el propio conjunto de
observaciones, y segundo, para inferir lo que ocurre en la población.
Como ya hemos mencionado, una población está constituida por todos los elementos que
poseen unos caracteres por cuyo estudio estamos interesados. Una muestra, en cambio, es una
parte de los elementos de la población, que, lógicamente, será representativa del total.
Conviene que subrayemos, y esto es muy importante, que los conceptos de población y
muestra están subordinados al uso que se piensa hacer del conjunto de observaciones
disponibles. Si lo único que se pretende es describir las características de dicho conjunto,
entonces éste constituye, ciertamente, una población, aun cuando sea una parte de un total más
general. Pero si se desea extender la información obtenida de él a otro conjunto mayor para
inferir sus características, entonces, evidentemente, el conjunto de observaciones constituye
una muestra (se supone que con todas las garantías).
3
Estadística unidimensional
- Recogida de datos.
- Ordenación y tabulación datos.
- Representación de los datos.
- Calculo de los parámetros estadísticos.
Con los datos obtenidos tras la observación y suponiendo ausencia de errores, tanto de
medición como de manipulación, trascripción y cálculo, podemos describir perfectamente
cuanto acontece en la población o muestra objeto de estudio. La estadística descriptiva es una
fase necesaria para luego realizar inferencia.
Por las razones económicas, de tiempo y de personal antes comentadas, lo primero que se
realiza para obtener los datos es buscar si la información que necesitamos ya ha sido trabajada,
es decir, si existe alguna fuente que ya la haya estudiado. Una fuente importante son los
registros administrativos en donde la información se recoge a nivel de gestión pero que luego
se depura de manera que sea una información válida a distintos niveles. Estos trabajos se
recogen a nivel oficial en el inventario de operaciones estadísticas del Estado.
4
Estadística unidimensional
Hoy en día, los estadísticos siguen estudiando formas de mejorar algunos problemas
relacionados con las técnicas de recogidas de datos. Estos problemas se centran en conseguir
que los elementos de la población o muestra cumplimenten las encuestas necesarias y
conseguir que las realicen de un modo que resulte más fiable.
Una de las formas de clasificar los datos para depurarlos y prepararlos para la realización
de tablas es organizarlos en montones según una característica determinada aunque
actualmente se suelen organizar y representar geográficamente (si los elementos estudiados
pertenecen a una provincia, por pueblos; si pertenecen a una ciudad, por barrios ... ) Esta forma
de organizar y representar los datos se denomina S.I.G. (Sistema de Información
Georeferenciada).
5
Estadística unidimensional
• Frecuencia relativa
Es la frecuencia absoluta dividida por el número total de datos, que denominamos
tamaño de la muestra y representaremos por N. Se suele expresar en tanto por uno,
siendo el valor correspondiente al dato i -ésimo, fi, es decir:
n
fi = i
N
La suma de todas las frecuencias relativas es igual a la unidad.
Una tabla estadística contiene los datos observados y las distintas frecuencias absolutas y
relativas de éstos. Una vez los datos están tabulados, la tabla obtenida ofrece una visión de
conjunto de los caracteres que se estudian. Un ejemplo de una tabla estadística para una
variable discreta es:
Frecuencia Frecuencia
Frecuencia Frecuencia
Datos absoluta relativa
absoluta relativa
xi acumulada acumulada
ni fi
Ni Fi
x1 n1 N1 f1 F1
x2 n2 N2 f2 F2
… … … … …
xn nn Nn = N fn Fn = 1
∑n i =N ∑f i =1
Cuando queremos realizar una tabla de frecuencias para una distribución con un número
elevado de variables o con una distribución cuyas variables son continuas, éstas se suelen
6
Estadística unidimensional
agrupar en intervalos [Li-1, Li) para facilitar la elaboración de la tabla y la comprensión de los
datos.
Antes de ver como se ordenan las frecuencias en una tabla para una variable continua
veamos brevemente algunas definiciones propias de la tabla de frecuencia para variables
continuas:
• Denominaremos recorrido a la resta entre el valor mayor de los datos y el valor menor
y lo representaremos por Re.
• Si los intervalos no son de la misma amplitud para trabajar con ellos obtendremos la
densidad de frecuencia del intervalo i-ésimo, como el cociente entre el número total
de observaciones de un intervalo, esto es , la frecuencia absoluta, y la amplitud del
mismo:
n
di = i
a
Teniendo en cuenta esto, la ordenación de la tabla será la siguiente:
7
Estadística unidimensional
deben considerar las representaciones gráficas como medios útiles de presentación de los datos
que, junto con otras medidas numéricas, permitirán un estudio correcto de la masa de datos
inicial y, por tanto, de los caracteres de la población que nos interesan.
Una posible clasificación de los distintos gráficos es respecto al tipo de variable que
representa. Esta es la clasificación por la que optamos aunque los gráficos que veremos no
tienen que ser exclusivos de un tipo variable concreta, como indicaremos en cada caso. En
principio distinguimos dos tipos de gráficos independientemente se trate de una variable
discreta o continua, estos gráficos dependen de que queramos representar las frecuencias
(absolutas o relativas) o las frecuencias acumuladas.
Los gráficos más usuales para representar este tipo de variable son los siguientes:
a) Diagramas de barras.
Solteros 4
Casados 5
Viudos 7
Divorciados 3
Si, mediante el gráfico, se intenta comparar varias poblaciones entre sí, existen otras
modalidades del diagrama de barras como por ejemplo:
8
Estadística unidimensional
Muestra 1 Muestra 2
Solteros 4 5
Casados 5 6
Viudos 7 6
Divorciados 3 2
Cuando los tamaños de las dos poblaciones son diferentes, es conveniente utilizar las
frecuencias relativas, ya que en otro caso podrían resultar engañosas.
b) Diagrama de sectores
Para realizar estos diagramas, también llamados coloquialmente tartas, se divide un círculo
en tantos sectores circulares como clases existan, de modo que el área de cada sector sea
proporcional a la frecuencia que se quiera representar.Para calcularlo podemos decir que el
área depende del ángulo central, mediante la siguiente proporción:
ni α
=
N 360
c) Pictogramas
Expresan con dibujos relativos al tema que se quiera representar las frecuencias de las
variables. Se realizan representado a diferentes escalas un mismo dibujo. Las escalas de los
dibujos se realizan de forma que el área de cada uno sea proporcional a la frecuencia que
representan. Este tipo de gráficos suele usarse en los medios de comunicación, para que sean
comprendidos por el público no especializado, sin que sea necesaria una explicación compleja.
9
Estadística unidimensional
d) Cartogramas
Para las distribuciones de tipo geográfico se suelen usar mapas, que se colorean con
diferentes tonalidades, cuyas frecuencias equivalentes se explican al margen, o bien se colocan
dibujos alusivos si se están estudiando los lugares en que se producen o se encuentran los
bienes correspondientes. Estos gráficos se denominan cartogramas y la forma de construirlos
se basa en la proporcionalidad con las frecuencias de la misma forma que los pictogramas.
a) Diagrama de barras
Para representar las frecuencias absolutas o relativas, acumuladas o no, de una variable
cuantitativa discreta se utiliza principalmente el diagrama de barras, aunque se utiliza
también para representar otros tipos de variables, como indicaremos en el apartado
correspondiente.
En este caso, las barras deben ser estrechas para representar que los valores que toma la
variable son discretos. En el eje de abcisas, situaremos los diferentes valores de la variable. En
el eje de ordenadas la frecuencia que queramos representar. Levantaremos barras o columnas
de altura correspondiente a la frecuencia adecuada.
Frecuencia
Frecuencia
Variables absoluta
absoluta
acumulada
X1 5 5
X2 4 9
X3 6 15
X4 2 17
X5 4 21
10
Estadística unidimensional
a) Histograma
El histograma, por tanto, representa las frecuencias de los intervalos mediante áreas y no
mediante alturas. Sin embargo, como nos es mucho más fácil hacer representaciones gráficas
teniendo en cuenta estas últimas, si todos los intervalos tienen la misma amplitud no es
necesario diferenciar entre los conceptos de área y altura. Por ejemplo:
Frecuencia absoluta
[0-2] 2
[2-4] 1
[4-6] 4
[6-8] 3
[8-10] 2
11
Estadística unidimensional
b) Polígono de frecuencias
12
Estadística unidimensional
Los errores más comunes y no significativos (por errores no significativos nos referimos a
los errores no muestrales) podemos hablar de los siguientes tipos:
Aunque las dos tablas están realizadas con los mismos datos, el crecimiento de la
primera parece mucho mayor que el de la segunda. Esto se ha debido, simplemente, al
haber utilizado distintas escalas.
13
Estadística unidimensional
Las medidas de centralización son valores que están medidos en las mismas unidades que las
observaciones y que nos indican en torno a qué posición se distribuyen las observaciones que
disponemos, es decir, cómo se agrupan los datos observados.
Se clasifican en medidas de posición central (medias mediana y moda) y en medidas de
posición no central (cuartiles, deciles , percentiles) dependiendo de que estos valores nos orienten
sobre el lugar central de la distribución o sobre la posición de una parte cualquiera previamente
determinada de la misma.
Todas ellas verifican que su valor está comprendido entre el menor y el mayor valor de los
datos disponibles.
Lo que se busca con este parámetro es determinar la posición central de una distribución
cualquiera, de modo que su valor represente su centro de gravedad en el sentido de compensar las
desviaciones con respecto a él de los valores de la variable en un sentido u otro.
Se define por tanto la media aritmética como la suma de todos los valores de la distribución
dividida por el número total de datos y se representa por x . Así pues,
x + x + … + xN 1 N
x= 1 2 = ∑ xi
N N i =1
n
La frecuencia relativa del valor xi queda determinada por f i = i , por lo que podemos poner
N
k
x = ∑ xi ⋅ f i
i =1
En el caso de que tuviéramos una distribución con datos agrupados, los valores individuales de
la variable serían desconocidos y por tanto no se podría utilizar la expresión anterior. En este
14
Estadística unidimensional
supuesto se formulan las hipótesis de que el punto medio del intervalo de clase (marca de clase)
representa adecuadamente el valor medio de dicha clase, y se aplicaría la fórmula original de la
media simple para dichos valores.
Ventajas e inconvenientes
• Ventajas:
- se utilizan en el cálculo todos los valores de que se dispone en la distribución
- está perfectamente determinada de forma objetiva y es única
- es calculable
- es el centro de gravedad de la distribución
• Inconvenientes:
- los valores extremos muy dispares influyen de manera notable en su valor, por este motivo
puede perder valor representativo
No obstante, la media aritmética, como medida de posición es la forma más adecuada para el
resuman estadístico en el caso de distribuciones en escala de intervalos o de proporción, con los
cuales dicha medida alcanza su máximo sentido.
Cuando es conocido que los valores de la variable no tienen todos la misma importancia con
respecto al tratamiento que deben dárseles, suele ser bastante útil utilizar una variable de la media
aritmética denominada media ponderada.
Para calcularla se le asocia a cada valor de la variable xi un peso wi que mide su grado de
importancia en la distribución. Dichos pesos wi son valores positivos y representan el número de
veces que sus correspondientes valores xi son más representativos que un valor que tuviese peso
asociado a la unidad.
Se define la media aritmética ponderada de una distribución de valores x1 , x2 ,… , xk , de pesos
w1 , w2 ,… , wk a
k
∑x ⋅w i i
xp = i =1
k
∑w i =1
i
Notar que los pesos wi pueden ser números reales positivos cualesquiera.
15
Estadística unidimensional
Ventajas e inconvenientes
• Ventajas:
- está definida de forma objetiva y es única.
- considera en su cálculo todos los valores de la distribución.
- los valores extremos tiene menos influencia que en la media aritmética.
• Inconvenientes:
- cálculo complicado
- sólo deba aplicarse cuando los valores de la distribución sean todos positivos, ya que si
alguno fuese cero anularía la media geométrica y si hubiese valores negativos, se obtendrían
valores imaginarios.
Se define la media armónica de una distribución de frecuencias (xi, ni) y se representa por H
como:
N N
H= = k
n1 n2 n n
+ +⋯ + k ∑ i
x1 x2 xk i =1 xi
Como puede verse, la inversa de la media armónica es la media aritmética de los inversos de
los valores de la variable. Se suele utilizar para promediar velocidades, tiempos, rendimientos.
Ventajas e inconvenientes
• Ventajas:
- en su cálculo intervienen todos los valores de la distribución.
- cálculo sencillo.
- está definida de forma objetiva y es única.
• Inconvenientes:
- no debe usarse con valores próximos a cero pues sus inversos pueden crecer en demasía
haciendo despreciables frente a ellos la información aportada por valores mayores.
- no es posible su determinación en distribuciones con algunos valores iguales a cero.
16
Estadística unidimensional
5.- Mediana
La Mediana es el valor de la distribución, supuesta ésta ordenada de menor a mayor, que deja a
su izquierda y a su derecha el mismo número de frecuencias. Es decir, divide a la serie estadística
ordenada en dos partes iguales, habiendo tantos valores por encima como por debajo de ella.
También se puede definir como el valor de la distribución cuya frecuencia acumulada es N/2 (o su
frecuencia relativa acumulada es ½).
Si los datos no están agrupados y están numerados de 1 a N, es el valor que ocupa el lugar que
N +1
ocupa el lugar si N es impar. Cuando N es par, la mediana no queda definida y se toma la
2
N N
media de los valores y +1.
2 2
Representando el polígono de frecuencias acumuladas, bastará con trazar la recta paralela al eje
X de ordenadas N/2 y determinar la abcisa del punto en que lo corta. Puede suceder que la recta
N
y= tenga un segmento de puntos comunes, entonces se toma como mediana el punto medio del
2
segmento.
N N
N/2 N/2
x1 x2 x3 x5 x6 x7 x1 x2 x3 x4 x5 x6 x7
M M
Suponemos que todos los valores comprendidos dentro del intervalo mediano se encuentran
distribuidos uniformemente a lo largo de él. A continuación se considera la poligonal de frecuencias
acumuladas correspondientes al intervalo mediano y a sus dos contiguos y determinamos
gráficamente la mediana.
B’
B
N/2
A
C’
C Ni
Ni-1 m
ci
ai-1 M ai
17
Estadística unidimensional
Ventajas e inconvenientes
• Ventajas:
- es sencilla de calcular
- no influyen en ella más que los datos centrales de la distribución.
- se puede calcular aún desconociendo los valores extremos de la distribución siempre que
contemos con suficiente información respecto de sus frecuencias.
• Inconvenientes:
- no puede expresarse mediante una fórmula matemática sencilla a efectos de realizar con ella
grandes desarrollos matemáticos.
A pesar de la fórmula vista para el caso de distribuciones en escala por intervalos, la mediana
tiene un mayor sentido en casos de distribuciones en escala ordinal (susceptibles de ser ordenados),
de la cual es la medida más representativa por describir la tendencia central de la misma.
6.- Moda
El cálculo de la Moda resulta sencillo en el caso de datos simples y datos agrupados, pero
cuando los datos están agrupados en intervalos no obtendremos el valor exacto de la Moda, sino una
aproximación que dependerá de las hipótesis que realicemos sobre las observaciones de cada
intervalo considerado. Las hipótesis de partida son:
− Hay una moda en cada intervalo cuya densidad de frecuencia no es superada por ningún otro.
− Dentro de los intervalos, la moda es aquel punto que equilibra las densidades de frecuencia de
los intervalos adyacentes, suponiendo que los valores se reparten en el interior de los mismos de
manera uniforme.
Sea pues [ai −1 , ai ) un intervalo cuya densidad de frecuencia no es superada por ningún otro.
Estre intervalo recibe el nombre de intervalo modal o clase modal. La densidad de frecuencia hi de
n
un intervalo i-ésimo es el cociente entre la frecuencia absoluta asociada ni y su amplitud ei: hi = i .
ei
18
Estadística unidimensional
hi
hi+1
a
ei
hi-1
a hi +1
En la representación gráfica el equilibrio debe darse en el sentido de ser =
b hi −1
a e −b
Como la moda M0 será M 0 = ai −1 + b , tenemos b = ⋅ hi +1 = i ⋅ hi +1 .
hi −1 hi −1
hi +1
Despejando b ⋅ hi −1 = ei ⋅ hi +1 − b ⋅ hi +1 , y así b = ⋅ ei . Por tanto la expresión de M0 es
hi +1 + hi −1
hi +1
M 0 = ai −1 + ⋅ ei
hi +1 + hi −1
Si las amplitudes de los intervalos fuesen constantes, la expresión de la moda será
ni +1
M 0 = ai −1 + ⋅ ei
ni +1 + ni −1
Ventajas e inconvenientes
• Ventajas:
- fácil interpretación
- cálculo sencillo
• Inconvenientes:
- no tiene una expresión matemática sencilla para el cálculo algebraico.
- no intervienen en su determinación todos los valores de la distribución.
- los cambios en la distribución que se produzcan ajenos al valor modal no son detectados.
La obtención de las modas de una distribución tienen una importancia propia derivada del
hecho de que sirve para detectar posibles fusiones de distintas poblaciones unidimensionales en la
masa de datos. A veces avisa de la necesidad de dividir dicha masa de datos en partes distintas para
que el fenómeno que estamos tratando se estudie mejor.
Otros valores notables, pero que no reflejan ninguna tendencia central son los Cuantiles. Son
valores de la distribución que la dividen en partes iguales, es decir, en intervalos que comprenden el
mismo número de valores. Entre los Cuantiles de uso más frecuente están los Cuartiles, los Deciles
y los Percentiles.
19
Estadística unidimensional
• Cuartiles: son tres valores de la distribución que la dividen en cuatro partes iguales, es decir, en
cuatro intervalos dentro de los cuales están el 25% de los valores de la distr5ibución. Se
representan por Ci con i=1,2,3.
• Deciles: son los nueve valores de la distribución que la dividen en 10 partes iguales. Cada parte
contendrá el 10% de la distribución. Se representan por Di, con i=1,2,…,9.
• Percentiles: son los 99 valores que dividen a la distribución en 100 partes iguales. Se
representan por Pi, con i=1,2,…,99.
Notar que P25=C1; P50=C2=M; P75=C3; P10=D1; P20=D2; …; P90=D9. Su cálculo es análogo
al de la mediana y en general se aplica la expresión
r
⋅ N − N i −1
Qr / k = ai −1 + k ⋅ ci donde
ni
1) para k = 4 y r = 1,2,3 obtenemos los cuarteles
2) para k = 10 y r = 1,2,…,9 obtenemos los deciles
3) para k = 100 y r = 1,2,…,99 obtenemos los percentiles
Las medidas de dispersión tienen por objeto dar una idea de la mayor o menor concentración de
los valores de una distribución alrededor de los valores centrales. Las medidas de tendencia central
tienen como objetivo sintetizar toda la información de la que se dispone. Por tanto, medir la
representatividad de estas medidas equivale a cuantificar la separación de los valores de la
distribución con respecto de dicha media. La mayor o menor separación de los valores entre si se
llama Dispersión o Variabilidad. Por tanto las medidas de dispersión nos miden el grado de
dispersión de la distribución de la variable.
1 - Recorrido
El recorrido intercuartílico es la diferencia entre los valores P75 y P25 y nos indica el intervalo
de longitud RI donde están comprendidos el 50% central de los valores.
2 - Desviaciones
20
Estadística unidimensional
1 k
∑ xi − C ⋅ ni (en caso de datos agrupados).
D=
N i =1
Las desviaciones medias más utilizadas son respecto a la media y a la mediana, que se obtienen
sustituyendo C por x y M, respectivamente.
Las desviaciones medias tienen un significado preciso como promedio de las desviaciones,
aunque tienen el inconveniente de no ser adecuadas para el cálculo algebraico.
N i =1
para datos agrupados y xi marcas de clase, siendo x la media aritmética de la distribución de
frecuencias (xi, ni).
∑ xi2 ⋅ ni + ∑ ni − ∑ x ⋅n =
2
i i
N i =1 N i =1 N i =1 N i =1 N i =1
k k
1 1
=
N
∑ xi2 ⋅ ni + x 2 − 2 x 2 =
i =1 N
∑x
i =1
2
i ⋅ ni − x 2
xi ni ni ⋅ xi ni ⋅ xi2
x1 n1 n1 ⋅ x1 n1 ⋅ x12
⋮ ⋮ ⋮ ⋮
xi ni ni ⋅ xi ni ⋅ xi2
⋮ ⋮ ⋮ ⋮
xk nk nk ⋅ xk nk ⋅ xk2
N = ∑ xi ∑n ⋅x i i ∑n ⋅x i
2
i
2
1 k
1 k
σ = 2
N
∑
i =1
ni ⋅ x −
2
i
N
∑
i =1
xi ⋅ ni
21
Estadística unidimensional
La varianza medirá la mayor o menor dispersión de los valores respecto a la media aritmética.
Si la dispersión es muy grande, la media no será representativa.
• No tiene un sentido muy concreto en sí misma y tiene significado para comparar dos
distribuciones. Dividiendo las desviaciones típicas de ambas se puede obtener cuántas veces una
distribución es más dispersa que otra.
• Es más sensible que la media a los valores erróneos, puesto que intervienen al cuadrado. Su
cálculo puede resultar pesado, por lo que a veces se prefiere el recorrido.
• Es la menor de todas las desviaciones cuadráticas respecto a un promedio.
• Para distribuciones simétricas o moderadamente asimétricas se cumple de forma aproximada
que:
1. Entre x − σ y x + σ están aproximadamente el 68% de las observaciones.
2. Entre x − 2σ y x + 2σ están aproximadamente el 95% de las observaciones.
3. Entre x − 3σ y x + 3σ están aproximadamente el 98% de las observaciones.
• Coeficiente de apertura
x1
Es la relación por cociente entre el mayor y el menor valor de una distribución: A = . Es
xn
muy fácil de calcular pero presenta inconvenientes:
− Mide la dispersión de la distribución, pero no hace referencia a ningún promedio por lo que no
resuelve el problema de comparación entre estos.
− Sólo tiene en cuenta dos valores de la distribución (los extremos), lo que dará gran dispersión en
el caso de que estén muy separados.
• Recorrido relativo.
R
Es el cociente entre el recorrido y la media aritmética Rr = . Nos indica el número de veces
x
que el recorrido contiene a la media aritmética.
22
Estadística unidimensional
• Recorrido semiintercuartílico
Es el cociente entre el recorrido intercuartílico y la suma del primer y tercer cuartil:
C − C1
Rs = 3
C3 + C1
Se han visto hasta ahora las medidas de centralización o posición y las medidas de dispersión,
de modo que tenemos una idea de las “forma” que tiene la distribución objeto de nuestro estudio.
Pero es necesario definir otra serie de medidas que permitan cuantificar la forma de la distribución
en dos sentidos: la mayor o menor simetría y la concentración más o menos acusada de los valores
centrales de la distribución en torno a las medidas de posición central que ya conocemos.
Las medidas de forma de una distribución se pueden clasificar en dos grandes grupos: medidas
de asimetría y medidas de curtosis.
1 - Medidas de asimetría
Las medidas de asimetría se dirigen a elaborar un indicador que permita establecer el grado de
simetría (o asimetría) que presenta una distribución sin necesidad de llevar a cabo su representación
gráfica. Diremos que una distribución es simétrica si al representarla gráficamente y trazada una
vertical que pase por la media aritmética, deja a ambos lados el mismo número de valores.
x − Mo
Pearson define su índice de simetría como f1 = . Así si se verifica que f1 = 0, entonces
σ
x = Mo = Me y la distribución es simétrica. Si f1 > 0 se dice que es asimétrica a la derecha, pues
Mo < x , y si f1 < 0, asimétrica a la izquierda, pues Mo> x .
23
Estadística unidimensional
N i =1
g1 =
σ 2
Para estudiar la curtosis de una distribución es necesario definir previamente una distribución
“tipo” que se toma como modelo de referencia. Esta distribución es la llamada distribución normal,
que corresponde a fenómenos muy corrientes en la naturaleza y cuya representación gráfica es una
campana de Gauss dada por la fórmula
1 ( x− x )
2
1 −
f ( x) = e 2 σ2
σ 2π
Se trata de ver la deformación existente entre una distribución, en sentido vertical y la normal.
Así diremos que una distribución puede ser más apuntada que la normal si es más alta, y recibe el
nombre de Leptocúrtica. En caso contrario se la llama Platocúrtica. La propia distribución normal
recibe el nombre de Mesocúrtica.
1 k
∑ ( xi − x ) ⋅ ni
4
N i =1
Se define el coeficiente de apuntamiento o curtosis como g 2 = −3.
σ 4
g2 = 0 g2 > 0 g2 < 0
24
Estadística unidimensional
- Muestreo.
- Estimación estadística.
- Contraste de hipótesis.
4.1. Muestreo
Como ya se ha indicado, en estadística se llama Población o Universo, a cualquier conjunto o
colección de individuos o elementos que tienen una característica común. Así son ejemplos de
Población los habitantes de una provincia, los árboles de un bosque o los establecimientos
comerciales de una ciudad. Lo que interesa en la Población es medir o contar uno o varios
caracteres cuantitativos. Por tanto se hace necesario que la Población esté definida para saber qué
elementos la componen.
Cuando se pueden observar todos los elementos de la Población, diremos que se está realizando
un censo. En este caso la tarea a realizar es describir las características y regularidades de la
Población con los métodos de la Estadística Descriptiva y construir el modelo de Distribución de
Probabilidad para que pueda ser utilizado en posteriores investigaciones
Pero no siempre es posible analizar cada elemento de la Población debido a diferentes razones
como:
- que sea inviable económicamente estudiar la población,
- que el estudio implique la destrucción del elemento (ensayos destructivos)
- que la población sea muy difícil de controlar
- que se desea conocer rápidamente ciertos datos de la Población (p.e. encuestas de intención de
voto)
por lo que las características de la Población deben ser estudiadas a partir de un subconjunto de esta.
Al efectuar una observación exhaustiva se conoce el valor que toma una característica X en
cada uno de los individuos de la Población, por lo que se conoce la distribución de la variable
haciéndose innecesarios los métodos de Inferencia estadística. Si la característica X se observa en
una muestra de la Población, para poder utilizar adecuadamente la Inferencia estadística hay que
prescindir de las muestras seleccionadas según un criterio u opinión personal. De este modo surge
de forma natural la necesidad de cuantificar los errores de muestreo y de conocer los aspectos
fundamentales para que una muestra sea representativa de la Población.
25
Estadística unidimensional
Para obtener conclusiones razonables a partir de una muestra, esta debe estar bien elegida, debe
ser representativa de la Población. Esta cualidad depende de dos aspectos fundamentales: el tamaño
de la muestra y de cómo se realiza la selección de los individuos que la componen.
Los integrantes de una muestra han de ser elegidos al azar, eliminando criterios personales. En
este caso estamos ante un muestreo probabilístico al que se pueden aplicar métodos de inferencia
estadística. Obtenemos así muestras representativas. En caso contrario estamos ante el muestreo
opinático o no probabilístico (p.e. encuestas de Internet).
Por este motivo es importante conocer los tipos de muestreo así como la garantía de su
representatividad. Para aumentar la representatividad sin necesidad de aumentar el tamaño de la
muestra se recurre al muestreo o técnicas de muestreo. En la práctica resuelven el problema de la
representatividad. Pero antes de pasar a estudiar los diferentes tipos de muestreo, se presentarán
algunos conceptos básicos en el muestreo.
Distribución poblacional
Supongamos que en una Población dada nos interesa estudiar la característica numérica x, y
tenemos para cada uno de sus elementos los valores x1, x2,…, xN. Su distribución queda definida
principalmente por los parámetros poblacionales que son:
N : tamaño de la Población;
N
∑x i
Media poblacional: µ = i =1
;
N
26
Estadística unidimensional
N N
∑ ( xi − µ )2 ∑x i
Varianza poblacional: σ = 2 i =1
= i =1
− µ2 ;
N N
Desviación típica poblacional: σ = + σ 2
A
Proporción poblacional: p A = ,
N
con A= nº de elementos de la población con la característica A. Destacar que estos parámetros son
valores numéricos
Distribución de la muestra
Medimos en la muestra la característica numérica x que nos interesa. Ahora x es una variable
estadística, y se estudia la distribución de sus frecuencias con los métodos de la Estadística
Descriptiva. Si x1, x2,…, xn son los valores obtenidos, a partir de estos se calculan los parámetros
estadísticos o muestrales:
n : tamaño de la muestra;
n
∑x i
Media muestral: x = i =1
;
n
n n
∑ ( xi − x )2 ∑x i
Varianza muestral: S = 2 i =1
= i =1
− x2;
n n
Desviación típica muestral: S = + S 2 ;
α
Proporción poblacional: p =
,
n
con α = nº de individuos de la muestra con la característica A. Destacar que ahora estos parámetros
son funciones, pues dependen de la muestra escogida.
Nuestro objetivo es obtener información sobre la Ley de Probabilidad que rige la característica
x de la Población a partir de las observaciones de la misma elegidas para formar la muestra, es
decir, queremos estimar los parámetros poblacionales a partir de los datos muestrales. Así, se define
como estadístico a cualquier función que depende sólo de los valores de la muestra x1, x2,…, xn, y
estimador a aquel estadístico que se utiliza para estimar el valor de un parámetro desconocido de la
Población.
Como para cada muestra considerada el estimador toma un valor, este es una variable aleatoria,
y por tanto, cada estimador tendrá una distribución que llamaremos Distribución muestral del
estimador considerado. Los estadísticos más utilizados son x , S 2 , S y un parámetro muestral que se
llama Cuasivarianza muestral, definido como:
n
∑ (x − x )
i
2
n −1 2 n 2
SC2 = i =1
. (Notar que S 2 =
SC , y SC2 = S )
n −1 n n −1
El muestreo probabilístico se caracteriza porque puede calcularse de antemano la probabilidad
de obtener cada una de las posibles muestras, para lo cual es necesario que la selección de la
muestra pueda considerarse como un experimento aleatorio. Así cada observación xi es una variable
aleatoria que tiene la distribución de probabilidad de la Población: E[xi]=µ, V[xi]=σ2, para todo i =
1,2,…0.
27
Estadística unidimensional
Este tipo de muestreo es el único que tiene rigor científico y el único que puede darnos el error
que cometemos en la inferencia. Dentro del muestreo aleatorio hay varios tipos que se verán a
continuación.
Se realiza en poblaciones en las que los datos son homogéneos, es decir, no existen factores que
produzcan variabilidad sistemática. En este tipo de muestreos los elementos de la población
homogénea se eligen al azar. La representatividad de una muestra obtenida por el muestreo
aleatorio simple (MAS) viene garantizada por tener cada elemento la misma probabilidad de ser
elegido. Así, si un 40% de la población tiene la característica xi, se obtendrá, por término medio, un
40% de elementos de la muestra con esa característica.
Se distinguen a su vez dos casos de MAS, dependiendo de que los elementos de la población se
selecciones con o sin reemplazamiento.
28
Estadística unidimensional
1 n n −1 2
E S 2 = E ∑ ( xi − x ) 2 = σ
n i =1 n
En consecuencia, el valor medio de S2 es menor que σ2 , aunque la diferencia tiende a cero al
aumentar el tamaño de la muestra. Por eso se define la Cuasivarianza muestral Sc2, que verifica
E[Sc2]=σ2, lo que se demuestra sencillamente.
Notar que en el caso de ser la población infinita, o el tamaño N muy grande, es prácticamente
igual hacer el muestreo con o sin reemplazamiento pues:
N − n σ 2 n →∞ σ2
V[x ] = ⋅ →V [ x ] =
N −1 n n
N (n − 1) σ 2
(n − 1) 2
E[ S 2 ] = ⋅ n →∞
→ E[ S 2 ] = ⋅σ
N −1 n n
Como regla práctica se suele adoptar que si la fracción de muestreo n/N es menor que 5/100,
entonces se hace el muestreo aleatorio simple con reemplazamiento, que es el que se utiliza con
mayor frecuencia, y al ser variables aleatorias e independientes e idénticamente distribuidas, el
estudio de las distribuciones de x y S2 queda mucho más sencillo.
29
Estadística unidimensional
σ Sc
Si σ es conocida, x → N µ , , y si σ es desconocida, x → N µ ,
n n
2) Si Y≡B(1,p) y n≥30, también por el teorema central del Límite,
pA ⋅ qA
p ≡ N p A ,
n
Se emplea cuando los elementos de la población están ordenados en listas. Si k es el entero más
próximo a N/n, la muestra sistemática se toma eligiendo al azar un elemento entre los k primeros.
Sea n1 el orden del elegido. A continuación se toman los elementos n1+k, n1+2k,…, a intervalos
fijos de k hasta completar la muestra.
Si el orden de los elementos de la lista es al azar, este procedimiento es equivalente al MAS,
aunque resulta más fácil llevarlo a cabo sin errores. La representatividad de una muestra aleatoria
sistemática es la misma que la de un MAS. Si el orden es tal que los individuos próximos tienden a
ser más semejantes que los alejados, el muestreo sistemático tiende a ser más preciso que el MAS,
al cubrir más homogéneamente toda la Población. El muestreo sistemático puede utilizarse con el
muestreo estratificado para seleccionar la muestra dentro de cada estrato.
Si a Población presenta heterogeneidad, se utiliza este tipo de muestreo. Para llevarlo a cabo de
divide a la Población en diferentes secciones o conglomerados y se eligen al azar unas cuantas
secciones para formar la muestra. En un primer paso se descompone al a Población en clases
llamadas conglomerados, de forma que dentro de cada conglomerado haya la misma dispersión o
heterogeneidad, de tal forma que todos los conglomerados se parezcan entre si. El segundo paso
30
Estadística unidimensional
Este tipo de muestreo se utiliza sobre todo para realizar controles de calidad en los que debe
estudiar una característica de una Población cuyo estudio implica la destrucción del elemento que se
selecciona. Las unidades de muestreo son examinadas progresivamente hasta llegar al punto en que
se tiene suficiente información como para dar el resultado con las probabilidades de error
previamente establecidas. Por tanto, primeramente se establecen unas propiedades que debe de
cumplir el elemento que se seleccione y se toma la decisión de rechazarlo o aceptarlo y de continuar
o no la inspección.
Con este tipo de muestreo se requiere una muestra de menor tamaño que en los muestreos
estudiados anteriormente, aunque puede haber una ligera pérdida de representatividad respecto a
ellos.
Si podemos estimar una recta de regresión entre dos variables de una Población con una
muestra de una variable (independiente,.que obtendremos por métodos directos ya vistos), podemos
estimar los valores de otra variable (dependiente). La representatividad de la muestra dependerá del
coeficiente de correlación entre las dos variables que se estudien y de la representatividad de la
muestra de la variable independiente.
Tamaño de la muestra
Hasta ahora se ha respondido a la pregunta ¿cómo se debe seleccionar una muestra para que sea
representativa? Queda por contestar la otra cuestión planteada ¿qué tamaño debe de tener la
muestra?
31
Estadística unidimensional
σ
P x − µ < k = 1−α .
n
Suponiendo una Población normal con µ desconocida, pero conocida σ, tipificando queda
x −µ
z= ⇒ P ( z < k ) = 1 − α , y por tanto k = zα / 2 , por lo que el error vendrá dado por
σ/ n
σ z ⋅σ
2
La fórmula anterior sólo sirve para muestreos sobre poblaciones infinitas o finitas con
N −n σ
reemplazamiento. Para las poblaciones finitas se tomará eN = zα / 2 ⋅ , es decir añadiéndole
N −1 n
el factor de corrección.
z ⋅σ
2
n∞
Despejando queda nN = , con n∞ = α / 2 .
n −1 e
1+ ∞
N
• Estimación puntual
En la que se aproxima el valor del parámetro a partir de un estadístico calculado en
la muestra. No hay un único criterio para determinar el mejor estimador puntual pero
32
Estadística unidimensional
para ser un buen estimador se desea que sea insesgado (cuando su distribución está
centrada en el parámetro a estimar), consistente (si la probabilidad de que la estimación
y el parámetro estén próximos aumenta y tiende a 1 al aumentar el tamaño de la
muestra) y eficiente (un parámetro es más eficiente que otro si tiene menor varianza).
El contraste de hipótesis es, por tanto, un método numérico para comprobar una teoría o
hipótesis sobre una población. Dicho método consta de los siguientes pasos:
3. Verificar la hipótesis
Obtener el correspondiente parámetro en una muestra cuyo tamaño es el que se ha decidido
en el paso 2.
33
Estadística unidimensional
pq 0,5 ⋅ 0,5
N p, = N 0,5; = N (0,5;0,05)
n 100
3. Elegimos un nivel de significación α = 0,05; por tanto el 95% de las proporciones
muestrales de caras estarían en el intervalo característico:
(0,5 - 1,96 . 0,05; 0,5 + 1,96 . 0,05) = (0,402; 0,598)
denominada zona de aceptación.
34
Estadística unidimensional
5 - APLICACIONES DE LA ESTADÍSTICA.
La estadística es una ciencia de aplicación práctica casi universal en todos los campos
científicos. En este apartado vamos a ver algunas aplicaciones en campos concretos tanto de la
Estadística Descriptiva como de la Estadística Inferencial
Para una correcta comparación es preciso formular e identificar claramente los objetos o
fenómenos que se van a medir, para que se puedan contrastar consistentemente grupos
comparables. Son tres los tipos de comparación que se pueden realizar:
35
Estadística unidimensional
La recogida de datos es una tarea delicada pues un error en esta fase falsea todo el
tratamiento posterior, de ahí que, una vez concluida, haya de hacerse un detenido escrutinio de
los números conseguidos, a fin de revisar datos sospechosos o rechazar los claramente
inadmisibles.
Censos y recuentos
Cuando tanto el tamaño de la población a estudiar y los recursos necesarios para el
estudio no sean excesivos se puede someter a análisis la población total dada la exactitud
que se obtendrá. Los censos de población tienen gran tradición y fueron las primeras
manifestaciones estadísticas.
Estudios actuales que implican la utilización de censos y recuentos son: los estudios
sobre características demográficas, los de fecundidad comparativa en diferentes grupos
socio-económicos y étnicos, los de actitudes y opiniones, los del efecto de la movilidad
física y social, de la sanidad, del empleo y desempleo, analfabetismo y educación.
• Investigaciones de mercado
El sondeo o medición de la opinión pública, tradicionalmente importante por su relación
con objetivos no sólo sociales, sino también económicos o políticos, ha adquirido
actualmente una gran relevancia. Investigadores del mercado, trabajadores sociales,
doxólogos, psefólogos y analizadores de la opinión pública constituyen parte de un nuevo
colectivo que utiliza el muestreo de opinión pública como herramienta de trabajo. Es
36
Estadística unidimensional
interesante, así mismo, el empleo del material recogido en las encuestas para el análisis y
simulación de votaciones y otras reacciones políticas y sociales.
Los demógrafos y sociólogos utilizan las técnicas de la Estadística (tanto descriptiva como
inferencial) para realizar sus investigaciones. Para la Teoría de la Población han desarrollado
un esquema conceptual para describir los cambios demográficos que se producen en los países
al pasar por diversos estados de industrialización y urbanización.
Tres son los tipos que se utilizan para describir países: de alto crecimiento potencial, de
crecimiento transaccional y de decadencia incipiente. Tales tipos se definen en términos de
tasas de natalidad, de mortalidad y de crecimiento negativo, respectivamente.
La Teoría de la Decisión y la Teoría de Muestras son los dos grandes temas que trata la
37
Estadística unidimensional
Estadística Inferencial. Son dos las técnicas principales que la Teoría de la Decisión pone a
disposición de las Ciencias Sociales.
• Decisiones estadísticas
Después de sacar una muestra de cierta población, y obtener los datos referentes a la
muestra, podemos usarlos para ayudarnos a tomar una decisión sobre la población. Un
ejemplo sería analizar las necesidades de vivienda en una muestra particular para tomar una
decisión en cuanto a la construcción de un número determinado de viviendas en una
ciudad.
Es importante observar que estas decisiones están tomadas sobre una base
probabilística. Esto es, hay siempre una probabilidad calculada de que una decisión
particular sea mala. El acierto de la decisión estadística es que el grado de riesgo
correspondiente a cualquier decisión particular se mide objetivamente en términos de
probabilidades.
• Hipótesis estadística
El procedimiento a seguir para llegar a una decisión será primero suponer la hipótesis
que se quiere decidir, después estudiar los resultados del experimento para ver si son
consecuentes o no con la hipótesis y, finalmente, rechazar o aceptar dependiendo de si son
consecuentes o no.
Un ejemplo sería la determinación del nivel de delincuencia de una ciudad específica.
Una de las hipótesis podría ser que el nivel de delincuencia es mayor en la mitad norte que
en la mitad sur. Para ello se procede al análisis mediante el estudio de una muestra concreta
aleatoria sobre la que se contrasta la hipótesis, siguiéndose la veracidad o falsedad de la
misma.
38
Estadística unidimensional
de enlaces necesarios para la no saturación de las líneas telefónicas. Algo muy parecido sucede
en las Ingenierías tanto Electrónicas, de Telecomunicaciones, Industriales o Informática.
Otras aplicaciones
Tras todo 1o comentado se puede observar la dificultad de encontrar algún ámbito, tanto a
nivel empresarial como tecnológico o científico que no utilicen la estadística como valor
añadido a su actividad. Algunos ámbitos que no se han nombrado directamente, pero dónde
también deben tenerse en cuenta las aplicaciones de la estadística, podrían ser, entre otros
muchos, la Publicidad, ayudando a prever o a entender la influencia de una campaña sobre un
sector de la población, la Lingüística, ayudando a analizar dos obras literarias muy semejantes,
las Matemáticas, dónde se utilizan numerosos modelos estadísticos, las Compañías de
Seguros, utilizando las tablas de mortalidad para calcular las tarifas de sus clientes, o la
Informática, tanto en algoritmos complejos como en distribuciones de tráficos por las redes de
ordenadores.
39
Estadística bidimensional. Regresión
• Primer tipo
Se origina cuando el número de datos bidimensionales N es pequeño. En este caso, los datos
se disponen en dos columnas sobre las que se emparejan los correspondientes valores
unidimensionales de una misma realización de la variable bidimensional, como puede verse en la
siguiente tabla:
Variable X Variable Y
x1 y1
x2 y2
… …
xn yn
• Segundo tipo
Se utiliza cuando el número de datos N es grande pero, sin embargo, existe un número
pequeño (k) de parejas de valores distintos. Es decir, cuando entre los N datos existan k
realizaciones (x1,y1), (x2, y2), .... (xk, yk) distintas que se repiten n1, n2, … , nk, veces,
respectivamente, siendo
n1 + n2 + ... + nk = N.
En este caso la tabulación se realiza en tres columnas, enfrentando los valores xi, yi y ni en
cada fila, es decir, valores unidimensionales de cada realización con su frecuencia absoluta
correspondiente, según se expresa en la siguiente tabla:
40
Estadística bidimensional. Regresión
Hay que hacer notar que las tablas del primer tipo pueden considerarse como de segundo
tipo, en donde las frecuencias valen 1 para la totalidad de los pares de los valores observados.
• Tercer tipo
Se utiliza este tipo de tabulación cuando el número de observaciones es elevado y el número
de distintas parejas de valores observadas también. En este caso se utiliza una tabla de doble
entrada, que recibe el nombre de tabla de correlación, y que tiene la forma que puede verse:
Intervalos Totales
(a0, a1) (al, a2) .... (ai-1, ai) .... (ak-l, ak)
de clase X horizontales
Intervalos Marcas de
xl x2 .... xi .... xk
de clase Y de clase
(b0, bl) y1 n11 n21 .... ni1 .... nkl n·1
(b1, b2) y2 n12 n22 .... ni2 .... nk2 n·2
.... .... .... .... .... .... .... .... ....
(bj-l, bj) yj n1j n2j .... nij .... nkj n·j
.... .... .... .... .... .... .... .... ....
(bp-1, bp) yp n1p n2p .... nip .... nkp n·p
Totales verticales n1· n2· .... ni· .... nk· n·· = N
Como se ve, la tabla es de doble entrada, figurando en las columnas las modalidades o
valores de X y en las filas los de Y. En la intersección de la columna del valor xi, y la fila
correspondiente al valor yj se encuentra la frecuencia absoluta del par (xi, yj), que designamos por
nij. En la última fila aparecen los totales de las frecuencias de las columnas; ni· es la suma de
frecuencias de todos los pares cuyo primer elemento es x1·. En general:
p
ni · = ∑ nij
j =1
En la última columna aparecen los totales de las frecuencias de las filas; n·1 es la suma de
frecuencias de todos los pares cuyo segundo elemento es y1. En general:
k
n· j = ∑ nij
i =1
Por último:
k p k p
n·· = ∑∑ nij =∑ ni· = ∑ n· j = N
i =1 j =1 i =1 j =1
Se define la frecuencia relativa del par (xi, yj) como el cociente entre su frecuencia absoluta
y el número total de pares. Se designa por fij
41
Estadística bidimensional. Regresión
nij
f ij =
N
fi· es la frecuencia (relativa) de los pares cuyo primer elemento es xi, independientemente de cual
sea el segundo valor. Se define por:
p
ni ·
f i· = = ∑ f ij
N j =1
Del mismo modo f·j es la frecuencia relativa de los pares cuya segunda componente es yj
siendo la primera cualquier valor de X, se define por:
n· j k
f· j = = ∑ f ij
N i =1
Es evidente que:
k p k p
∑i =1
f i· = ∑ f · j = ∑∑ f ij = 1
j =1 i =1 j =1
Nota:
Si las variables no están agrupadas en clases, se pueden suprimir la primera fila y la primera
columna de la tabla. Una representación gráfica se puede obtener asignando a cada par (xi, yj) un
punto del plano.
42
Estadística bidimensional. Regresión
Veamos un ejemplo: las edades de los esposos y esposas de 20 matrimonios fueron las
indicadas en la siguiente tabla:
Edad
18 - 26 26 - 34 34 - 42
esposa
Edad
22 30 38
esposo
20-26 23 2 3 5
26-32 29 3 4 6
32-38 35 5 6 8
Observemos que en este caso todos los rectángulos de cruce tienen la misma área 6 × 8 =
= 48, luego bastará tomar como referencia de altura sus frecuencias, con lo cual el estereograma
que obtenemos es el siguiente:
43
Estadística bidimensional. Regresión
Sea la variable bidimensional (X, Y). Si considerarnos la variable X con sus valores x1, x2, …,
xi, …, xk y sus frecuencias absolutas, independientes del valor de Y, n1·, n2·, ..., ni·, ..., nk·
obtenemos lo que se llama distribución marginal de la variable X. La frecuencia (relativa)
n
marginal de xi es f i · = i· . Del mismo modo, llamaremos distribución marginal de la variable
N
Y, a sus valores y1, ..., yj, …, yp con sus frecuencias absolutas n·1, …, n·j, …, n·p. La frecuencia
n· j
marginal de yj es f · j = .
N
k p
Es evidente que: ∑
i =1
f i· = ∑ f · j = 1
j =1
Consideremos los n·j individuos que presentan el valor yj. De todos estos, nij toman el valor
xi. Entonces se define corno frecuencia del valor xi condicionado por el valor yj a f i j , siendo:
nij
fi j =
n· j
Llamaremos distribución condicionada de la variable X por el valor yj a la representada en la
tabla siguiente:
Valores de X Frec. absolutas Frec. relativas
x1 n1j f1 j
xi nij fi j
xk nkj f kj
Total n·j 1
44
Estadística bidimensional. Regresión
Como se ve, en la tercera columna figuran las frecuencias de los distintos valores de X
condicionadas por yj. Según lo dicho hasta ahora y teniendo en cuenta que hay p valores posibles
para Y, existen p distribuciones condicionadas para la variable X.
Puede suceder que las variables X e Y tengan un cierto grado de dependencia. De momento,
nos limitaremos a definir los dos casos extremos: la ausencia de dependencia, llamada
independencia, y la dependencia total o dependencia funcional.
45
Estadística bidimensional. Regresión
x1 x2 x3 TOTAL
y1 3 6 12 21
y2 5 10 20 35
y3 2 4 8 14
y4 4 8 16 28
TOTAL 14 28 56 98
Veamos que las frecuencias condicionadas son iguales a las frecuencias marginales y las
distribuciones condicionadas iguales a la distribución marginal. Las distribuciones marginales de
X e Y son:
xl x2 x3 TOTAL
y1 4 0 0 4
y2 0 6 0 6
y3 7 0 0 7
y4 0 0 9 9
y5 0 2 0 2
TOTAL 11 8 9 28
46
Estadística bidimensional. Regresión
• Media
k k k p
1
x=
N
∑ ni· ⋅ xi = ∑ f i· ⋅ xi = ∑∑ f ij ⋅ xi
i =1 i =1 i =1 j =1
• Varianza
k k
∑ n ⋅ (x − x ) = ∑ f i· ⋅ (xi − x )
1
V ( X ) = σ x2 =
2 2
i· i
N i =1 i =1
• Desviación típica: σ x
• Media
p p k p
1
y=
N
∑ n· j ⋅ y j = ∑ f · j ⋅ y j = ∑∑ f ij ⋅ y j
j =1 j =1 i =1 j =1
• Varianza
∑ n ⋅ (y − y ) = ∑ f ⋅ (y − y)
p p
1
V (Y ) = σ =2 2 2
y ·j j ·j j
N j =1 j =1
• Desviación típica: σ y
Consideremos la distribución condicionada de X al valor yj, dada por la tabla de más abajo.
Al definir las características de esta distribución, media y varianza, las asignaremos el subíndice
j, donde j puede tomar valores desde 1 hasta p.
47
Estadística bidimensional. Regresión
n· j i =1 i =1
∑ nij ⋅ (y j − yi ) = ∑ f ji ⋅ (y j − yi )
p p
1
• Varianza: Vi (Y ) =
2 2
ni · j =1 j =1
6.4. Covarianza
Hemos visto anteriormente como asociadas a una variable estadística bidimensional que hay
una serie de distribuciones unidimensionales (marginales y condicionadas). Evidentemente, la
descripción numérica de una variable bidimensional pasa por una descripción numérica de
dichas variables unidimensionales, aspecto este que ya sabemos manejar en base a temas
anteriores. Para cada distribución puede estudiarse, por ejemplo, posición, dispersión, simetría y
curtosis como ya vimos.
Ahora bien, existe sin embargo una medida general para la distribución bidimensional, que es
de gran utilidad y está ligada a la independencia de las variables. Dicha medida se conoce con el
nombre de covarianza y suele representarse por σxy. Viene dada por la siguiente fórmula:
− x ) ⋅ (y j − y )
k p
∑∑ n ⋅ (x
i =1 j =1
ij i
σ xy =
N
donde (xi, yj) es una observación conjunta y x e y las medias aritméticas de las distribuciones
marginales de X e Y, respectivamente.
Puede comprobarse, además, sin dificultad, que la covarianza se puede poner en la forma:
k p
∑∑ n
i =1 j =1
ij ⋅ xi ⋅ y j
σ xy = −x⋅y
N
Demostración:
La condición de independencia era:
n i · n· j nij
⋅ , ∀ i,j =
N N N
Calculemos, según esta condición, el valor de la covarianza:
k p nij k p
n i · n· j k
n p n· j
σ xy = ∑∑ xi ⋅ y j − x ⋅ y = ∑∑ xi ⋅ y j ⋅ − x ⋅ y = ∑ xi i· ∑y j −x⋅y = x⋅y−x⋅y =0
i =1 j =1 N i =1 j =1 N N i =1 N j =1 N
48
Estadística bidimensional. Regresión
Las funciones que más se utilizan para llevar a cabo el ajuste son polinomios, funciones
exponenciales y potenciales, así como las funciones logarítmicas.
Sean (xi, yi) los pares de valores observados, e y=f(x; λl, ... , λk) la fórmula con que
representamos la relación que existe entre x e y. Para determinar los parámetros λ1, ... , λk que
aparecen en dicha fórmula disponemos del sistema que resulta al imponer la condición:
f(xi; λl, ... , λk) = yi (con i = 1, ... , k)
Si n = k, existe el número justo de condiciones que se requieren para fijar los parámetros.
Pero, en general, n > k y el sistema propuesto es imposible; el problema que entonces se plantea
es cómo asignar a los parámetros λ1, ... , λk los valores adecuados.
49
Estadística bidimensional. Regresión
n
Este método se establece sobre la hipótesis de que la suma ∑e
i =1
2
i de los cuadrados de las
desviaciones sea mínima. Tiene la ventaja de que los valores que asigna a los parámetros
corresponden a la fórmula «más probable» en el sentido de que los valores de y que se deduzcan
de ella son los valores más probables de las observaciones, supuesto que éstas cumplen la ley de
Gauss de los errores. El desarrollo del método requiere conocimientos sobre la determinación de
mínimos de funciones de varias variables. Se trata, pues, de hacer que la función
n
E = ∑ ei2
i =1
sea mímima
El método de los mínimos cuadrados nos proporciona las condiciones que nos permiten,
eligiendo una familia de funciones, determinar cuál de ellas ajusta mejor nuestra nube de puntos.
Dada una nube de puntos y considerando la familia de todas las funciones lineales, vamos a
aplicar el método de los mínimos cuadrados para determinar cuál de todas ellas ajusta mejor
nuestro diagrama de dispersión. Esta recta se denomina recta de regresión y su estudio lo
desarrollamos en el siguiente apartado.
Para ello utilizaremos el método de los mínimos cuadrados, descrito anteriormente, según el
cual la recta que más se ajusta a la nube es aquella para la cual la media, ponderada por las
frecuencias totales fij de los cuadrados de las desviaciones paralelas al eje OY entre los puntos P
y la recta, sea mínima.
Para cada punto P(xi, yj) su desviación respecto a la recta y = ax + b es la cantidad que
denotaremos dij y que se calcula: dij = yj - y = yj - (axi + b).
Según el método de los mínimos cuadrados para que:
D = ∑∑ f ij d ij2 = ∑∑ f ij ( y j − axi − b )
k p k p
2
i =1 j =1 i =1 j =1
50
Estadística bidimensional. Regresión
∂D ∂D
=0 y =0
∂a ∂b
Desarrollando obtenemos:
∂D
= −2∑∑ f ij ( y j − axi − b ) =
k p
∂b i =1 j =1
k p k p k p
= −2 ∑∑ f ij y i − a ∑ ∑ f ij xi − b∑∑ f ij = −2( y − ax − b )
i =1 j =1 i =1 j =1 i =1 j =1
Despejando tenemos que y = ax + b , relación que nos indica que el punto ( x, y ) está sobre la
recta. Al punto G = ( x , y ) se le llama centro de gravedad de la nube Pij y sus coordenadas son las
medias de las variables marginales X e Y.
Sustituyendo b en D queda:
D = ∑∑ f ij ( y j − axi − y + ax ) =∑∑ f ij y j − y − a ( xi − x ) [ ]
k p k p
2 2
i =1 j =1 i =1 j =1
∂D
[ ]
k p
= −2∑∑ f ij ( xi − x ) y j − y − a ( xi − x ) = 0 , por lo que
∂a i =1 j =1
∑∑ [ ]
f ij y j − y − a ( xi − x ) = 0 ⇒∑∑ f ij ( y j − y ) − a ∑∑ f ij ( xi − x ) = 0
k p k p k p
i =1 j =1 i =1 j =1 i =1 j =1
Despejando:
∑∑ f (y − y)
k p
ij j
i =1 j =1
a= k p
∑∑ f (x
i =1 j =1
ij i − x)
− x )( y j − y )
k p
∑∑ f (x
i =1 j =1
ij i
a= k p
∑∑ f (x − x)
2
ij i
i =1 j =1
k k p
Teniendo en cuenta que σ x2 = ∑ f i · (xi − x ) = ∑∑ f ij ( xi − x ) podemos poner
2 2
i =1 i =1 j =1
− x )( y j − y )
k p
∑∑ f (x
i =1 j =1
ij i
σ xy
a= =
σ x2 σ x2
51
Estadística bidimensional. Regresión
σ xy
Como la recta y = ax + b tiene por pendiente a = , y pasa por el punto ( x, y ) se obtiene:
σ x2
σ xy
y−y = (x − x )
σ x2
Cambiando x por y, y tomando las desviaciones paralelas al eje OX, se obtiene la recta de
regresión de X sobre Y, cuya ecuación es:
σ xy
y−y = (x − x )
σ y2
52
Estadística bidimensional. Regresión
8. COEFICIENTE DE CORRELACIÓN
Se llama correlación al grado de dependencia que hay entre las variables. Mediante la
correlación se determina en qué medida una recta o curva de regresión describe la relación que
existe entre las variables. Cuando todos los valores de las variables satisfacen exactamente una
ecuación se dice que entre ellas hay una correlación perfecta. Todos los puntos de la nube están,
en este caso, sobre la curva de regresión.
En general, la correlación, no será perfecta, como estudiaremos a lo largo del tema,
pudiéndose presentar distintos grados de correlación. Si se trata de estudiar la correlación entre
dos variables, se habla de correlación simple; si son más de dos, se llama múltiple. En este tema,
nos limitaremos a estudiar la correlación entre dos variables cuando la línea de regresión es una
recta, llamándola correlación lineal.
53
Estadística bidimensional. Regresión
Para medir cualitativamente la correlación entre las variables basta con observar atentamente
la distribución de los puntos alrededor de la recta o curva de regresión. Cuanto mayor sea el
ajuste a la curva, mayor será la correlación.
La necesidad de medir cuantitativamente el grado de correlación entre las variables nos lleva
a definir el coeficiente de correlación.
k p
∑∑ f ( x − x )( y − y )
i =1 j =1
ij i i
r=
∑∑ f ( y − y)
k p k p
∑∑ f ( x − x )
2
⋅
2
ij i ij j
i =1 j =1 i =1 j =1
Para obtener una expresión más sencilla recordemos lo que conocemos hasta ahora:.
k p
σ xy = ∑∑ f ij ( xi − x )( yi − y )
i =1 j =1
k p
σ = ∑∑ f ij ( xi − x )
2 2
x
i =1 j =1
σ y2 = ∑∑ f ij ( y j − y )
k p
2
i =1 j =1
Sustituyendo en r se obtiene
σ xy
r=
σ x ⋅σ y
σ xy σ
Tenemos: r = y a = xy2 , por lo que despejando σxy e igualando expresiones queda:
σ x ⋅σ y σx
σy
a =r⋅
σx
Propiedades
54
Estadística bidimensional. Regresión
• Si r=1 entonces la correlación es total o funcional, pues todos los puntos están sobre la
recta de regresión. La suma de los cuadrados de las desviaciones es nula, luego todos los
puntos están sobre la recta de regresión. Las ecuaciones de las rectas de regresión de Y sobre
X y de X sobre Y son, respectivamente:
σx
r1 ≡ y − y = r ⋅ (x − x)
σy
1 σ
r1 ≡ y − y = ⋅ x ( x − x )
r σy
σx
a) Si r = 1, las dos rectas coinciden y toman la expresión: y − y = (x − x)
σy
Se dice en este caso que entre las dos variables existe una dependencia funcional.
σx
b) Si r = -1, las rectas también coinciden y su ecuación es: y − y = − (x − x)
σy
Análogamente, en este caso, entre las dos variables también existe una dependencia
funcional.
55
Estadística bidimensional. Regresión
• Si -1 < r < 1, se dice que entre las dos variables existe dependencia aleatoria:
a. Cuando r está próximo a 1 o -1 la dependencia se aproxima a la funcional. El ángulo
que forman las rectas de regresión se aproxima a cero.
b. Si r se aproxima a 0, la dependencia aleatoria es muy pequeña y el ángulo que forman
las rectas de regresión es próximo a 90°.
• Si r > 0, se dice que la correlación es directa o positiva. Las pendientes de las rectas de
regresión son:
σ 1σy
m = r y de r1 y m′ = de r2
σx r σx
Ambas son del mismo signo y positivas por ser r > 0. Además m' > m, pues r< 1. Las dos
rectas se cortan en el centro de gravedad ( x , y ) y la recta de regresión de X sobre Y se
aproxima más a la vertical que la de Y sobre X.
Si 0 < r < 1, las dos variables están tanto más correladas a medida que r se aproxima a 1. Por
tanto, es un caso de dependencia aleatoria.
• Si r < 0, la correlación se llama inversa o negativa. Las pendientes m y m' son negativas por
ser r < 0, y m > m' pues r< 1. Las dos rectas son decrecientes y su posición relativa viene
dada por la figura.
Si -1 < r < 0, las dos variables están tanto más correladas a medida que r se aproxima a -1.
Por tanto, es un caso de dependencia aleatoria.
56
Estadística bidimensional. Regresión
Nota:
Tan importante es el valor del coeficiente r como el valor del coeficiente:
σ xy2
r = 2 2
2
σ x ⋅σ y
al que se denomina coeficiente de determinación ya que determina si el ajuste lineal es
suficiente o se deben buscar ajustes o modelos alternativos.
Teniendo en cuenta esto, si r2 = 1, la correlación es perfecta, y en el caso de que r2 = 0 (entonces
r = 0) implica que la correlación es nula, es decir, en este caso X no nos sirve para describir el
comportamiento de la variable Y.
57
Estadística bidimensional. Regresión
9. SIGNIFICADO Y APLICACIONES
9.2. Predicción
El objetivo último de la regresión es la predicción o pronóstico sobre el comportamiento de
una variable para un valor determinado de la otra. Así, dada la recta de regresión de Y sobre X,
para un valor X = x0 de la variable, obtenemos y0.
Es claro que la fiabilidad de esta predicción será tanto mayor, en principio, cuanto mejor sea
la correlación entre las variables. Por tanto, una medida aproximada de la bondad de la
predicción podría venir dada por r.
58
Estadística bidimensional. Regresión
59
Ejercicios
1.- La puntuación de un test, de valores entre cero y diez, realizado a 20 personas es la siguiente:
2 5 6 9 7 8 9 6 3 4
1 8 3 4 2 7 5 8 5 5
2.- El color favorito de 10 personas elegido entre azul, amarillo y rojo es:
azul rojo amarillo rojo amarillo azul rojo amarillo amarillo azul
3.- En las elecciones al Parlamento de Cataluña del año 2006 en la ciudad de Reus se obtuvieron
los siguientes resultados:
Censo electoral: 71.361
Votantes: 36.501
Abstención: 34.860
Resultado:
Partido político Votos
CiU 11.645
PSC 9.079
ERC 5.844
PP 4.562
ICV 2.549
Otros 2.106
4.- Las edades de los 12 jugadores de la plantilla de baloncesto del equipo CB Tarragona en la
temporada 2006-2007 son:
29 36 19 28 28 20 24 21 24 30 23 27
60
Ejercicios
5.- Las calificaciones del examen de matemáticas Aplicadas a las Ciencias Sociales de 25
alumnos de 1º de Bachillerato son:
1 2 3 4 5 6 9 6 3 4
2 4 5 8 4 1 3 4 7 4
7 5 9 2 6
Marca de xi − x xi − x ⋅ ni
Valores ni Ni xi·ni ( xi − x ) 2 ( xi − x ) 2 ⋅ ni
clase (xi)
[50-100) 8
[100-150) 16
[150-200) 4
[200-250) 2
Total 30
61
Ejercicios
8.- Las alturas de 40 pasajeros de un avión son las siguientes expresadas en cm:
140 192 126 177 150 179 175 174 171 169
164 182 178 167 170 173 182 172 189 173
175 185 124 164 180 158 186 175 172 176
193 190 181 163 190 162 162 161 167 155
a) Calcula el recorrido
b) Distribuye los datos en diez intervalos de siete unidades de amplitud
c) Elabora una tabla como la del ejercicio anterior
d) Calcula la media aritmética y la desviación estándar
e) Calcula la desviación media
f) ¿Cuál es el porcentaje de pasajeros que son más altos de 166 cm?¿Y más bajos de 152?
39 35 45 42 40 43 37 35 39 41
37 40 42 39 41 39 36 40 42 39
42 45 41 44 43 38 38 37 40 41
10.- Las ganancias de una empresa durante los diez últimos años han sido las siguientes:
Beneficios
Años
(millones de euros)
1997 1.248
1998 1.125
1999 972
2000 1.208
2001 1.110
2002 1.005
2003 1.102
2004 1.170
2005 1.250
2006 1.375
2007 1.382
62
Ejercicios
11.- El número de goles que un jugador ha marcado durante la primera ronda de la liga son:
Jornada 1 2 3 4 5 6 7 8 9
Goles 0 2 3 1 1 2 2 3 0
Jornada 10 11 12 13 14 15 16 17 18
Goles 0 1 2 2 1 0 0 0 1
12.- Un jugador de baloncesto ha conseguido los siguientes puntos en los primeros diez partidos
de Liga:
Partidos 1 2 3 4 5 6 7 8 9 10
Puntos 12 20 15 8 10 11 15 7 9 17
a) Elabora un diagrama de barras en que el eje de abcisas sea el número del partido, y el de
ordenadas, el número de puntos.
b) Calcula la media y la varianza del número de puntos.
63
Ejercicios
1.- Dados los valores siguientes de las variables bidimensionales X(peso) e Y(altura):
Peso (kg): X 52 60 70 73 54 80 65 60 90 85
Altura (cm): Y 160 163 181 185 170 170 172 164 192 178
2.- Con los datos de la siguiente tabla de doble entrada calcula los parámetros siguientes:
Y/X 0 1 2 3 4 Total
10 2 1 1 0 0
11 1 0 1 1 1
12 1 0 0 3 0
13 0 0 0 1 2
Total
a) Media aritmética de X e Y
b) Desviación típica de X e Y.
c) Covarianza.
d) Coeficiente de correlación
64
Ejercicios
5.- Dada la siguiente tabla de doble entrada, donde X son las horas diarias que cada alumno
dedica a los videojuegos e Y es el número de suspensos del último trimestre:
Y/X 0 1 2 3 4 5 Total
0 1 3 1 0 0 0
1 2 5 0 0 0 0
2 1 2 3 0 1 0
3 0 0 1 3 2 0
4 0 1 1 1 2 1
5 0 1 1 3 2 2
Total
7.- Dada la siguiente tabla, donde X es el área de un bosque (ha) e Y es la madera que se extrae
al año (kg):
xi yi ni ni·xi ni·xi2 ni·yi ni·yi2 ni·xi·yi
100 29 1
150 38 2
200 47 0
250 63 3
300 74 1
350 82 1
400 90 2
450 111 1
500 129 2
550 136 1
600 150 1
Total 15
65
Ejercicios
8.- Se mide la altura y el número del calzado de diez personas adultas, y los resultados son:
Pie: X 39 46 45 41 38 44 42 39 41 45
Altura (cm): Y 163 194 185 172 170 180 177 160 165 183
9.- Se mide la concentración de calcio en diferentes aguas comerciales mediante un aparato que
mide el área de la figura registrada. Por este motivo se realiza una recta de regresión:
Concentración
0 5 10 15 20 25 30 35 40
(mg/ml): X
Area: Y 0 25 46 78 102 121 149 173 205
10.- En una clase de 20 alumnos de 4º de ESO, las notas del curso de ciencias naturales y
matemáticas son las siguientes:
Nota ciencias
7 6 8 3 4 7 5 8 6 5
naturales (X)
Nota
6 6 7 7 5 7 6 8 5 5
matemáticas (Y)
Nota ciencias
2 1 10 2 8 6 4 9 7 8
naturales (X)
Nota
3 2 8 3 9 4 5 7 7 6
matemáticas (Y)
66
Ejercicios
11.- A partir de las siguientes nubes de puntos identifica los coeficientes de correlación más
apropiados para cada una de ellas: r = 0,85; r = -1; r = 0,99; r = 0,017.
12.- Identifica las siguientes rectas de regresión con la nube de puntos de la actividad anterior:
13.- En un experimento para estudiar la relación que existe entre la dosis de un medicamento y el
tiempo de reacción de una persona estimulada ante una señal acústica, se han recogido los datos
siguientes:
Dosis (mg) 1 3 4 7 9 12 13 14
Tiempo (s) 3,5 2,4 2,1 1,3 1,2 2,2 2,6 4,2
a) Haz una nube de puntos en el plano de coordenadas poniendo en las abcisas la dosis, y en
las ordenadas, el tiempo. ¿Crees que el tiempo depende de la dosis?
b) ¿Se puede ajustar la nube mediante una recta? ¿Tiene sentido calcular el coeficiente de
correlación en este caso? ¿Qué mide el coeficiente de correlación?
67