Está en la página 1de 14

Estadística

v 0.3 (Dic 2010)


por Óscar Valor 火長兄 勇気 (Hichōkei Yūki)
http://hichokei.wordpress.com

La estadística es una abstracción simplificada de una realidad más compleja.

Conceptos
Un individuo (i) es un elemento de la población (P) aunque en caso de no poder acceder a esta,
se estudia un subconjunto representativo, o muestra (M).
i∈M⊂P
Las modalidades (xi) son las diferentes valores que posee un carácter o característica (X),
aunque de forma general, las llamaremos variables.
x i ∈X
Hay dos tipos de variables:
1. Cualitativas las que no se pueden medir
1. Atributos: las variables son de tipo nominal (que sólo se describen con palabras)
2. Cuantitativas, las que son medibles, que se subdividen en:
1. Discretas: cuando entre dos valores no se puede tomar otro x i ∈ℕó xi ∈ℤ
2. Continuas: cuando entre dos valores siempre existe un valor intermedio x i ∈ℚ ó x i ∈ℝ
Las variables cuantitativas pueden pertenecer a 4 escalas:
1. Nominal: solo tiene sentido las comparaciones x.e (Hombre/Mujer)
x A =x B∨x A≠x B
2. Ordinal: tienen orden. x.e (Mat, Sob, Not, Apr, Sus)
x A ≤x B∨x A≥x B
3. Intervalo: tiene sentido la diferencia x.e (Calendario)
x A −x B=x C
4. Razón: tiene sentido la proporción y la división. x.e (Distancia)
x A /x B =x C

-1-
Tabla de Frecuencias
Es la tabla donde se representan los valores que se quieren estudiar.

Tabla Unidimensional Discreta


X ni Ni fi Fi ni xi ni xi2
x1 ... ... ... ... ... ...
xi ni Σi ni ni / n Ni / n ni xi ni xi2
xk ... n ... 1 ... ...
n 1 Σi ni xi Σi ni xi2
x = Σi ni xi / n σx2 = Σi ni xi2/n – x2
Las columnas fi y Fii no son necesarias para hacer los cálculos, pues se puede calcular todo a
partir de ni y Ni realizando la división al final, lo que conlleva acumular menos errores de
redondeo.

Notación
El tamaño es n, y representa la cantidad de valores que hemos recogido.
X es la variable, xi la modalidad de la variable.
La cantidad de modalidades es k por lo que xi se mueve para i∈[1, k ]⊂ℕ .

Datos discretos
Frecuencia [Absoluta] ni
Es la cantidad de veces que se repite una modalidad, y cumple esta propiedad:
∑ n i=n
Frecuencia [Absoluta] Acumulada Ni
Es la cantidad de veces que se repite una modalidad, y cumple esta propiedad:
i
N i =∑ n a Nk =n N 0=0
a=1

Frecuencia Relativa fi
ni
f i=
n
∑ f i =1
Frecuencia Relativa Acumulada Fi
Ni
F i=
n

-2-
Tabla Unidimensional Continua
Ii ai ci ni Ni di fi Fi hi ni c i ni ci2
[e0,e1[ ... ... ... ... ... ... ... ... ... ...
i
[ei-1,ei[ ei-ei-1 (ei-1+ei )/ 2 ni Σ ni ni / ai ni / n Ni / n fi / ai ni ci (ni ci)·ci
[ek-1,ek] ... …. ... n ... ... 1 ... ... ...
n 1 Σi nici Σi nici2
x = Σnici/n σx2 = Σnici2/n – x2
Las columnas fi, Fi y hi no son necesarias para hacer los cálculos, pues se puede calcular todo a
partir de ni, Ni y di y realizando la división al final, lo que conlleva acumular menos errores de
redondeo.

Datos Continuos por intervalos


Intervalo Ii
Es el rango de valores de la modalidad:
I i=( e i−1 , e i ] I 0=[ e0, e 1 ]

Marcas de clase ci
Representa a los xi continuos:
ei −1ei
c i=
2

Amplitud ai
a i=ei−ei−1

Densidad di
ni
d i=
ai
d 0=d n1=0

Densidad Relativa hi
f d
hi = i = i
ai n

Representación Gráfica
Dependiendo de la naturaleza de la variable, los valores se pueden representar utilizando un tipo
u otro de gráficos.

-3-
Gráficas para Variables Cualitativas
Diagrama de sectores
Es un círculo que representa la proporción de cada uno de las variables. Se utiliza para variables
cualitativas.

Pictograma
Asocia un dibujo a cada categoría, es muy poco preciso, y intenta mostrar una proporción que no
se ve tan clara como en el diagrama de sectores

Diagrama de Rectángulos
Ayuda visualmente a ver los máximos y los mínimos de la distribución

Gráficas para Variables Cuantitativas Discretas


Diagrama de Barras
Ayuda a ver los máximos y los mínimos.

Curva de Distribución (o Acumulativas)


Muestra la velocidad a la que crece una variable

Gráficas para Variables Cuantitativas Continuas


Histograma
Muestra el área proporcional a la frecuena de los datos

Poligonal de frecuencias
Ayuda a ver los máximos y los mínimos.

Curva de Distribución (o Repartición)


Muestra la velocidad a la que crece una variable.

Medidas de posición (o tendencia central)


Todas las medidas de posición se encuentran dentro de los valores de la variable.

Media [Aritmética]
k
1
x= ∑ x i n i
n i
Para variable continua, los xi se sustituyen por los ci.

-4-
Ventajas
• Se pude calcular para cualquier valor cuantitativo
• Es fácil de calcular, y tiene en cuenta todos los valores de la distribución.
• Es el centro de gravedad de la distribución, es decir, es el punto que dista menos de todas las
observaciones de la distribución. ∑ n i x i−x=0
• Es una medida única y definida de forma objetiva en cada distribución de frecuencias

Inconvenientes
• Es poco representativa si hay mucha dispersión de datos, ya que es muy sensible a los
valores extremos.
• Depende de los cambios de origen y de unidad.

Otras Medias
Armónica Geométrica Cuadrática


k
ni
∏
k k
H=n / ∑
n ni 1
i xi G=
i
x i ⇔ Q= ∑
n i
n i x 2i
k
condiciones xi ≠ 0 1
G=e ^  ∑ n log x 
n i i e i
condiciones: xi > 0
Además se cumple que:
H≤G≤x

Sobre las medias ponderadas


Todas las fórmulas de las medias están ponderadas, es decir, cada x i tiene un valor diferente en
función del número de veces que se repite (n i). Y esto se puede demostrar a partir de las fórmulas
n
1
que se suelen poner así: x= ∑ x i , sin los ni, pero en estas fórmula, se supone que el conjunto
n i
puede repetir elementos, así que si tenemos un conjunto: {a 1, a2, … , an} donde los elementos se
repiten, si los agrupamos tenemos un conjunto equivalente {{x 1,n1}, {x2,n2}, …,{xk,nk}}, siendo ni
las veces que se repiten el elemento con valor x i., que se corresponde con uno o varios valores a j. La
fórmula sería:
n
1 a 1a 2...a n n1 x 1n 2 x 2...n k x k 1 k
x= ∑ a
n j=1 j
=
n
=
n
= ∑ n i xi
n i=0
Donde los ai se refieren a los elementos sin agrupar, y los x i son los elementos agrupados. A esto
es lo que se le llama media ponderada.
Sobre las otras medias se puede ver que ocurre lo mismo, en las sumatorias (como en la
armónica y la cuadrática), la suma n i veces de xi se traduce en el producto de n i·xi, y en las
productorias, el producto ni veces de xi, se traduce en elevar xi a ni.

-5-
Aproximación para variable continua
Las medidas en variable continua, como se puede haber visto en la media, deberían de ser la
suma de todos los datos que tenemos xi sin importar al intervalo que pertenezcan. Hoy en día los
ordenadores lo pueden hacer perfectamente y con grandes cantidades de datos, pero para realizar
cualquier aproximación, nosotros en vez de coger cada dato, lo aproximaremos a el valor medio del
intervalo ci (su marca de clase).
Así las fórmulas de la media, quedarán aproximadas de la siguiente forma (lo que nos permitirá
realizar los cálculos con facilidad):
n k
1
x= ∑a ≈1∑n c
n j=1 j n i=0 i i

Cuantiles Qp
Son las medidas que dividen la distribución en un número de partes iguales (p).
El valor de p siempre se encuentra entre 0 y 1. p∈[ 0,1]

Mediana Me
Divide en dos partes iguales, así deja el mismo número de observaciones a su izquierda y a su
derecha. (es igual a Q1/2 )

Cuartil Cs
Divide la distribución en 4 partes iguales. (C1 = Q1/4, C2 = Q1/2, C3 = Q3/4)

Decil Ds
Divide la distribución en 10 partes iguales (Ds = Qs/10)

Percentil Ps
Divide la distribución en 100 partes iguales (Ps = Qs/100)

Discreta

{ }
x Ax A1
si n · p=N A
Qp = 2
xA si n · p∈( NA −1 , N A )

Continua

{ }
eA si n · p= N A
Qp = n · p−N A−1
e A−1a A si n · p∈( NA −1 , N A )
nA
La fórmula del cuantil para variable continua se saca a partir de la fórmula de semejanza de
triángulos:

-6-
Qp−e A −1 n · p−N A−1
= , n · p∈( N A−1 , NA )
e A−e A −1 N A −NA −1

Moda
Es el valor de la variable que tiene mayor frecuencia. Si hay más de una moda es bimodal,
trimodal o plurimodal:

Discreta
Mo=x A , n A=max { n i }

Continua
d A−d A−1 dA
Mo=e A −1a A = eA −1a A , I A =max { d i }
d A−d A−1  d A−d A 1   d A  d A 1
La fórmula de la Moda continua se saca también a partir de la semejanza de triángulos:
Mo−eA−1 d A−d A−1
= , I A =max { d i }
 Mo−eA e A1−Mo d A−d A−1 d A−d A1 
A veces la moda se aproxima con esta fórmula:
d A1
Mo≈e A−1a A
d A−1d A 1

Medidas de Dispersión
Rango (o Recorrido)
R=x k −x 1

Recorrido Intercuártílico
R I =Q3−Q1

Varianza
La varianza mide la dispersión que presentan los valores de la variable respecto de la media.
1 1
Var x= 2x= n x −x2= ∑ n i x 2i −x 2
n∑ i i n
La varianza no depende de los cambios de origen, pero sí de los cambios de unidad.

Cuasi-Varianza
2 n 2
 x −1= ·x
n−1

-7-
Desviación Absoluta Media (DAM)
Desviación Típica
Es la DAM respecto de la media
1
n ∣n −x∣=  2
n∑ i i
Dx = x=

MEDA
Es la DAM respecto de la mediana
1
n∑ i i
DMe = n ∣n −Me∣

Medidas de Dispersión Relativas


Coeficiente de Apertura
xk
CA =
x1

Recorrido relativo
x k−x 1
RR=
x

Recorrido semi-intercuartílico
Q3−Q1
R SI=
x

Coeficiente de Variación de Pearson


x
γ 0=CV x =
x
Cuanto más próximo a 0 esté, más representativa será la media aritmética, porque habrá menos
dispersión.
Se utiliza para comparar distribuciones independientemente del valor de sus medias, pues no está
influenciado por las unidades de medida.

Índice de Dispersión respecto de la Mediana


Dme
V Me=
Me

Momentos
1 r
a m r=
n ∑ n i  xi −a

-8-
Momentos ordinarios (ó respecto del origen)
a=0
1 r
n∑ i i
0 m r =m r = nx

m 0=1 , m 1=x

Momentos centrales (ó respecto de la media)


a=x
1 r
x m r =r =
n ∑ n i x i−x 
2
0=1 , 1=0 , 2=

Características de Forma
si x≥Me≥Mo  Asimétrica por la derecha
si x≤Me≤Mo  Asimétrica por la izquierda

Coeficiente de Asimetría de Fisher


3

γ1  x=
3 1
3
 n
= ∑ ni
 
x i−x

si γ 1 x 0  Asimétrica por la derecha


si γ 1 x 0  Asimétrica por la izquierda

Coeficiente de Asimetría de Pearson


x−Mo 3 x−Me
A p= ≈ A*p=
 

Coeficiente de Asimetría de Bouley


Q3−Me−Me−Q1  Q3Q1−2Me
AB = =
Q3−MeMe−Q1  Q3Q1

Coeficiente Absoluto de Asimetría


Q3 Q1−2Me
AA =

Medidas de apuntamiento o Curtosis


Una distribución es :
• Leptocúrtica si es más apuntada que la curva de Gauss
• Mesocúrtica si tiene el mismo grado de apuntamiento
• Platicúrtica si tiene menor grado

-9-
Coeficiente de Curtosis de Fisher
k
4 1
γ 2 x  =
 4
−3 = ∑
n  i=1
n i x i−x4 −3

si γ 2 x 0  Leptocúrtica
si γ 2 x =0  Mesocúrtica
si γ 2 x 0  Platicúrtica

Coeficiente de Curtosis de Keller


Q3−Q1
K=
2 D9−D1 

Estadística Bidimensional
Sean dos características X,Y de la forma {(xi, yi), i=i, ..., k ; j=1, …, p}

Frecuencia [Absoluta] nij


Es la cantidad de veces que se repite la modalidad i,j, y cumple esta propiedad:
∑ ∑ n ij=n
Frecuencia Relativa fi
n ij
f ij =
n
∑ ∑ f ij =1

Distribuciones Marginales
Frecuencia [Absoluta] de x e y ni· n·j
Es la cantidad de veces que se repite la modalidad i,j, y cumple esta propiedad:
ni · =∑ n ia n· j=∑ naj
a a

Frecuencia Relativa de x e y fi· f·j


ni · n· j
f i ·= f · j=
n n

Frecuencia [Absoluta] Acumulada de x e y Ni· N·j


Es la cantidad de veces que se repite una modalidad, y cumple esta propiedad:
i j
N i · =∑ na · N· j=∑ n · a
a=1 a=1

N k ·=N ·p =n N 0 · =N·0 =0

-10-
Frecuencia Relativa Acumulada de x e y Fi· F·j
Ni · N· j
F i ·= F· j =
n n

Distribución Condicionada de x para y ni· n·j


n ij n ij
f i / j= f 1=
n· j j/ i ni ·
n i · n· j
X e Y son independientes sii ∀ i, f i/ j≈f i· ⇔ n ij≈
n
Las medidas de Posición y Dispersión se calculan de la misma forma que para la variable
unidimensional para cada distribución marginal x e y. Así que paso a añadir las medidas nuevas que
no son marginales.

Tabla Bidimensional
X\Y y1 yj yp ni· Ni· ni· xi ni· xi2
x1 n11 ... ... ... ... ... ...
i
xi ... nij ... Σj nij Σ na· a ni· xi xi (ni· xi)
xk ... ... nkp ... n ... ...
n·j ... Σi nij ... n Σi ni· xi Σi ni· xi2
N·j ... Σaj n·a n x = Σi ni· xi/n σx2 = Σi ni· xi2 /n – x2
n·j yj ... n·j yj ... Σj ni·yj y = Σj n·j yj /n
n·j yi2 ... yj (n·j yj) ... Σj n·jyj2 σy2 = Σj n·j yj2/n – y2
Σi xi nij ... Σi xi nij ...
yj Σi xi nij ... yj (Σi xi nij) ... σxy = Σj yj Σi xi nij
En la tabla bidimiensional no incluimos frecuencias relativas porque además de que pueden ser
calculadas directamente desde las absolutas, es mejor trabajar para calcular todo con las absolutas
para evitar errores de redondeo.

Momentos Bidimensionales
1
ab m rs = ∑ ∑ n ij  x i−a r y j−bs
n

Momentos respecto del origen (ó no centrados)


a=b=0
1 r s
n ∑ ∑ ij i j
0 m rs =m rs= n x y

m 00=1, m 10=x , m 01 =y

-11-
Momentos centrales
a=x , b=y
1
n x −xr  y j−y s
n ∑ ∑ ij i
xy m rs =rs=
2 2
00=1, 01=10=0, 20 = x , 02= y

Medidas de Dependencia Lineal


Covarianza
1
n ∑ ∑ ij i
 xy =Cov x , y=11= n  x −x y j−y=m 11−m 10 m 01

1
n ∑ ∑ ij i j
 xy = n x y −x y

Si x e y son independientes, la covarianza vale 0.

Recta de Regresión Lineal


f  x=axb
 xy  xy
f  x=f y / x  x=  x−x y f x / y  y=  y−yx
 2x  2y
2
a= xy / x , b=y−a x
Ambas rectas se cortan en el punto x , y

Ajustes de una Función Lineal a otras funciones


Hipérbola equilátera
a
y= b
x
Se hace un cambio de variable donde x' = 1/x, y se calcula de nuevo a media, desviación típica y
covarianza de x'
1
x 1
y
y= 2
 −1/x y
 x
1
x

Función Exponencial
y=ba x
Se hace un cambio de variable donde x' = log x, y se calcula de nuevo a media, desviación típica
y covarianza de x'
 x log y
log y= x−xlog y
 2x

-12-
Demostración:
y=ba x ⇔ log y=log b a x ⇔
⇔ log y=x log alog b ⇔ y '=cxd ⇔
⇔ e y '=ecxd ⇔ elog y =e cxd ⇔ y=e d · ec x

Función Potencia
a
y=bx
Se hace un cambio de variable donde x' = log x, y se calcula de nuevo a media, desviación típica
y covarianza de x'
 logx logy
logy= 2
logx−log x logy
 logx
Demostración:
y=bx a ⇔ logy=log b x a ⇔ logy=log ba · log x ⇔
⇔ logy=a · log xlog b ⇔ y '=c x 'd ⇔
⇔ ey '=e cx 'ed ⇔ elog y =ec log xe d ⇔ y=x c e d

Estudio del Ajuste


Coeficiente de correlación Lineal de y sobre x
 xy
ρ=r =
 x · y
r ∈[−1,1]
Si la covarianza vale 0, la correlación también valdrá 0, y al igual que con la covarianza, cuanto
más próximo esté a este valor, más independientes serán.
Si está próximo a ±1, serán muy dependientes.

Residuos eij
e ij=y j−f  xi 

Media Residual e
1 1
e=
n ∑ ∑ n ij e ij=y− ∑ n i · f x i 
n

Varianza de los valores ajustados de x sobre y


2
1 2  xy
 = ∑ ∑ n ij y j−f  x i = 2
2
ey
n x

Varianza Residual
1
 2ry= ∑ ∑ n ij e ij−e 2  2y− 2ey
n

-13-
Razón de Correlación de y sobre x:
 2ey
η2y / x=
 2x

Análisis de Atributos
Coeficiente de contingencia
1
χ 2= I ∑∑
n ij −n Iij 2
nij
2
χ ≈0 esindependiente

Coeficiente de contingencia de Pearson

C∈[0,1] , C≈0 es independiente


C=
 χ2
χ 2n

Coeficiente de Tschuprow
2 χ2
T=
n  k−1  p−1
T 2∈[0,1] , T2≈0 es independiente

Coeficiente de relación de rangos de Spearman


 xy
R s≈ =ρ
 x y
R S ∈[−1,1] , R≈1es concordante , R≈−1es discordante

Coeficiente τ de Kendall
n
2
τ= ∑ sg y j−y i
n  n−1 i=1, ji
τ∈[−1,1] , τ≈0 es concordante
sg es la función signo, que le da el valor 1 si es positivo, 0 si es 0, y -1 si es negativo.

-14-