Documentos de Académico
Documentos de Profesional
Documentos de Cultura
""
7.1.- Introduccin
!
"
La palabra estadstica proviene del latn status o estado, sin embargo, esta
palabra slo describe en parte su significado real, es decir, solo describe la funcin
de la estadstica de llevar registros ordenados de datos para describir el estado de
las cosas. La estadstica como se concibe hoy en da va ms all de esta simple
funcin.
En forma muy general, la estadstica es la ciencia que se ocupa de la recoleccin,
clasificacin, organizacin, anlisis, sntesis e interpretacin de datos. En palabras
sencillas podramos decir que la estadstica es la ciencia de los datos
En trminos generales la estadstica aborda dos tipos de problemas:
Resumir, describir y explorar datos.
Utilizar datos de una muestra para inferir la naturaleza del conjunto del cual se
escogi la muestra.
As, la estadstica se divide en dos partes ntimamente relacionadas:
Estadstica Descriptiva.- Esta es la parte de la estadstica que se dedica a la
organizacin, sntesis y descripcin de conjuntos de datos.
Esta es importante, ya que antes de que la mente humana pueda interpretar (hacer
inferencias es interpretar) un conjunto de datos, especialmente cuando estos son
demasiados, es necesario resumirlos o representarlos de manera clara, simplificada o
reducida.
Estadstica Inferencial.- Esta rama de la estadstica trata el problema de inferir la
naturaleza de un conjunto de datos a partir de una muestra de dichos datos.
Al conjunto total de donde se toman los datos que se desea describir se denomina la
poblacin, mientras que una muestra es un subconjunto de datos seleccionados
de la poblacin.
La estadstica se puede ver como el conjunto de herramientas que nos permiten
establecer inferencias estadsticas (conclusiones fundamentadas en datos) a partir de
muestras tomadas de una poblacin sobre la cual se realizan las inferencias. Por lo
tanto, la estadstica proporciona tcnicas para
El muestreo (la toma de datos)
La descripcin, anlisis y representacin de los datos
160
140
&
Frecuencia
120
'
(
'
!
100
80
$
%&
( %)&
%&
60
40
20
0
-4
-2
0
Clas es
Histograma de la Muestra
16
14
Frecuencia
12
10
8
'
!
6
4
2
0
-4
-2
0
Clases
#
%
( #
#
&
% )&
% &
Industry App. Julio/Agosto 1990) se detect que menos del 10% de estas instalaciones
tenia una corriente elevada del neutro respecto a la corriente nominal.
a) Cual es la poblacin de inters?
b) Cual es la muestra?
c) Hacer una inferencia sobre la poblacin basada en la muestra.
Tipos de datos. Los datos pueden ser de tipo Cuantitativo o bien pueden ser
Cualitativos (o categricos) estos ltimos no tienen interpretacin de cantidad, solo
pueden clasificarse en base a criterios.
Son ejemplos de datos cualitativos: Ocupaciones de los egresados de Ingeniera
Elctrica, Empresas dedicadas a la comercializacin de circuitos Integrados,- Materiales
usados en la construccin, etc.
2.4
8.0
5.5
7.0
6.5
5.7
6.4
2.7
6.5
7.6
6.5
8.6
6.6
5.5
7.4
7.8
6.3
7.2
Ordenamiento de datos.
El simple ordenamiento de los datos nos permitir observar algunos comportamientos a
simple vista que no son fciles de obtener con los datos desordenados. Para el
ejemplo, ordenamos los datos del 0 al 10 como sigue:
2.4, 2.7, 3.6, 5.5, 5.5, 5.7, 6.0, 6.3, 6.4, 6.5, 6.5, 6.5, 7.0, 7.0, 7.2, 7.4, 7.6, 7.8, 8.0, 8.6
No. De alumnos
Opcionalmente podemos adems hacer una representacin grfica de los datos con
respecto al orden indicando adems los que se repiten y cuantas veces lo hacen.
4
3
2
1
0
2.4
2.7
3.6
5.5
5.7
6.3
6.4
6.5
7.2
7.4
7.6
7.8
8.6
Calificacin
Tanto la lista ordenada como la grfica anterior nos proporcionan una mayor
informacin a simple vista; por ejemplo, es fcil advertir de ambas que:
- La mayor parte de alumnos obtuvieron calificaciones entre 5.5 y 8
- Nadie obtuvo calificaciones menores de 2.4 ni mayores de 8.6.
Diagrama de Tallo y Hojas.
Esta es una de las tcnicas ms simples para representar los datos y consiste en
clasificarlos en renglones de acuerdo a un tallo consistente en el primer dgito,
anotando en forma de lista los dgitos siguientes formando las hojas para cada tallo. De
esta manera se obtiene un diagrama en el que la longitud de las ramas nos dice a
simple vista en que tallo caen ms o menos datos. Para el ejemplo este diagrama
quedara como sigue
Tallo
2
3
5
6
7
8
H o j a s
.4
.6
.5
.3
.0
.0
.7
.5
.4
.0
.6
.7
.5
.2
.5
.4
.5
.6
.6
.8
Tablas de Frecuencia.
La misma informacin puede ser representada en una Tabla de Frecuencias la cual se
presenta a continuacin para el mismo ejemplo:
Calificacin Frecuencia Frecuencia Frecuencia Frec. Rel.
xi
fi
Acumulada Relativa Acumulada
2.4
1
1
0.05
0.05
2.7
1
2
0.05
0.10
3.6
5.5
5.7
6.0
6.3
6.4
6.5
7.0
7.2
7.4
7.6
7.8
8.0
8.6
1
2
1
1
1
1
3
2
1
1
1
1
1
1
3
5
6
7
8
9
12
14
15
16
17
18
19
20
0.05
0.10
0,05
0.05
0.05
0.05
0.15
0.10
0.05
0.05
0.05
0.05
0.05
0.05
0.15
0.25
0.3
0.35
0.4
0.45
0.6
0.7
0.75
0.8
0.85
0.9
0.95
1.0
Intervalo de Marca de
clase
Clase x
2.0 - 3.4
2.7
3.4 - 4.8
4.1
4.8 - 6.2
5.5
6.2 - 7.6
6.9
7.6 - 9.0
8.3
Frecuencia
de clase
2
1
4
9.5
3.5
Frecuencia
Relativa f(x)
0.1
0.05
0.2
0.475
0.175
Frec. Rel.
Acumulada F(x)
0.1
0.15
0.35
0.815
1.0
Frecuencia Relativa
0.4
0.35
0.3
0.25
0.2
0.15
Polgono de
frecuencias
0.1
0.05
0
2.0
2.7
3.4
4.1
4.8
5.5
Clases
6.2
6.9
7.6
8.3
9.0
A la lnea roja que une las alturas de los rectngulos sobre las marcas de clase se le
denomina polgono de frecuencias
Y si gratificamos el rea bajo la curva del histograma (considerando el ancho de los
intervalos de valor unitario), obtenemos el diagrama de frecuencia acumulada que suele
llamarse la curva de distribucin (o Curva de de Frecuencia Acumulada).
Lmites y lmites reales de clase
En el ejemplo anterior los lmites de clase son compartidos por clases consecutivas, por
lo cual ha sido necesario dividir los datos que caen en un lmite por mitad. Algunos
autores acostumbran indicar los intervalos de clase mediante nmeros adyacentes, de
manera que nunca se compartan los lmites entre clases consecutivas, por ejemplo:
As, para N datos (X1,X2 ,..., XN), la media se calcula como sigue
=
'
+ +
Es decir,
*
=*
=+ *
*
=*
Donde los coeficientes ai son los "pesos" o ponderaciones que se les da a los diferentes
datos xi.
* Obviamente en el caso particular en que
convierte en la media aritmtica.
= 6.5
- , / + -* + , /
- ' , +*) /
**
= + 10+ 1 = + 1
*
=*
Donde:
IM = Intervalo mediano = Intervalo de clase en el que cae la mediana el valor que est a
la mitad de los datos.
As, para el ejemplo, el Intervalo mediano es (6.2,7.6), entonces
. = 6.2 + (10-7/9.5)*(1.4) = 6.642
-
4#
* 3
*
+ *
-* -
,
+ + -*
*
,
'-* + - +
+ -, )
Esta medida (Q) es ms representativa que las anteriores, ya que tiene la siguiente
propiedad: En distribuciones aproximadamente simtricas el 50 % de los datos
queda comprendido entre
y
+
Ejemplo: Cuntos datos quedan entre
Cuartiles:
para el ejemplo?
QL=5.5, QU=7.2
Rango semi-intercuartlico:
Entonces:
6 1 1
=*
Sin embargo, la sumatoria anterior resulta ser cero, ya que las desviaciones positivas
cancelan a las negativas, ya que la media es el centro de la muestra.
Una manera de evitar que las desviaciones negativas se cancelen con las positivas es
sumar los cuadrados de las desviaciones como sigue,
*
*
'
=*
*
=*
+
(
)
*
*
=
+
(
)
*
=
Finalmente:
*
(
*
Esta ltima expresin nos da un mtodo para calcular la varianza que puede resultar
ms sencillo en ocasiones, especialmente cuando se calculan por separado la media
y la sumatoria de los cuadrados de los datos
.
Ejemplo.
Para el ejemplo de las calificaciones se puede formar la siguiente tabla
Suma
Xi
2.4
2.7
3.6
5.5
5.7
6.3
6.4
6.5
6.5
7.2
7.8
8.6 124.2
Xi2
5.76 7.29
13
36
39.7
41
49
49
64
74 823.56
Xi- -
5.5
6.5
-3.81 -3.51 -2.61 -0.71 -0.71 -0.51 -0.21 0.09 0.19 0.29 0.29 0.29 0.79
0.5
0.5
7.4
7.6
0.26 0.04 0.01 0.04 0.08 0.08 0.08 0.62 0.62 0.98 1.42 1.93 2.53
3.2
5.7 52.28
=6.21,
=
As, todo conjunto de datos con media cero y una varianza uno, se dice que es un
conjunto de datos normalizados.
As, para nuestro ejemplo:
Zi =
X i 6.21
1.65876
2.4
2.7
3.6
5.5
5.5
5.7
6.3
6.4
6.5
6.5
6.5
-2.3 -2.12 -1.6 -0.43 -0.4 -0.3 -0.13 0.05 0.11 0.17 0.17 0.17 0.48
7.2
0.48
0.6
7.4
7.6
7.8
8.6
Sesgo =
*
=*
o bien, Sesgo =
8
=*
Sesgo positivo
Sesgo negativo
*
=*
es decir,
:
=*
Observe que una distribucin que tienen extremos que se extienden mucho se les llama
distribuciones Leptocrticas y aquellas que se terminan bruscamente se les llama
platocrticas. Una distribucin que tenga una curtosis normal se le llama mesocrtica.
7.7.- Momentos de Datos Estadsticos
Los momentos de datos estadsticos son una generalizacin de las medidas de
varianza, sesgo y picuds. De manera concreta un momento de ensimo orden se
puede calcular como momento simple o como un momento central (o respecto a la
media) y expresa como
Momento central de orden n=
*
=*
*
=*
)(
Donde
son las medias de las variables X, Y respectivamente. En forma similar a
como se procedi con la varianza se puede obtener la siguiente frmula alternativa que
en ocasiones puede ser ms sencilla de calcular:
El valor del coeficiente de correlacin vara entre 1 y 1 (-1 r 1). En cada caso
concreto, el valor de r indica el tipo de relacin entre las variables x e y.
Cuando |r| es cercano a 1, la correlacin es fuerte, lo que significa que las variaciones
de una de las variables repercuten fuertemente en la otra, esto significa que si
graficamos la muestra Y contra X obtendremos puntos aproximadamente sobre una
lnea recta. Mientras que si |r| es prximo a 0, la correlacin es muy dbil y las
variables estn muy poco relacionadas y en este caso la grafica de Y contra X parece
una nube de puntos dispersos.
Ejemplo. Consideremos las calificaciones de los mismos estudiantes en la materia de
Fsica obtenidas en el mismo ciclo escolar. Denominemos por X a los datos de
matemticas y por Y a los de fsica, en la siguiente tabla se muestran dichos datos y los
clculos intermedios para obtener cov(X,Y) y r.
Suma
Xi
2.4
2.7
3.6
5.5
5.5
5.7
6.3
6.4
6.5
6.5
6.5
7.2
7.4
7.6
7.8
8.6
124.2
X i2
5.76
7.29
13
30.3
30.3
32.5
36
39.7
41
42.3
42.3
42.3
49
49
51.8
54.8
57.8
60.8
64
74
823.56
0.09
0.19
0.29
0.29
0.29
0.79
0.79
0.99
1.19
1.39
1.59
1.79
2.39
0.00
Xi- -
(Xi- - )2
14.5
12.3
6.81
0.5
0.5
0.26
0.04
0.01
0.04
0.08
0.08
0.08
0.62
0.62
0.98
1.42
1.93
2.53
3.2
5.7
52.28
Yi
2.0
3.2
3.5
4.5
5.6
5.8
6.2
6.5
7.5
7.5
8.5
8.7
8.8
9.2
9.3
9.5
136.3
Yi2
)(
0.19
0.69
0.69
1.19
1.69
1.89
1.99
2.19
2.39
2.49
2.69
0.00
) 18.35
12.69 8.65
1.64
1.48
1.03
0.66
0.38
0.10
0.03
0.47
0.47
1.40
2.84
3.55
3.94
4.77
5.69
6.18
7.21
92.81
0.86
0.52
0.17
-0.06 -0.06
0.05
0.20
0.20
0.94
1.33
1.87
2.36
3.04
3.79
4.45
6.42
67.41
De donde se obtiene:
- =6.21,
10.24 12.25 20.25 31.36 33.64 36.00 38.44 42.25 49.00 56.25 56.25 64.00 72.25 75.69 77.44 81.00 84.64 86.49 90.25 1021.69
4.0
6
4
2
0
0
10
datos X
cuartil y el valor mximo. Este tipo de grfico recibe el nombre de grfico de caja
(boxplot).
Un grfico de este tipo consiste en un rectngulo (caja), de largo igual al rango
intercuartlico (2Q) . Este rectngulo est dividido por un segmento vertical que indica
donde se posiciona la mediana y por lo tanto su relacin con los cuartiles primero y
tercero QL y QU).
Como se puede ver en la siguiente figura, este rectngulo se ubica a escala sobre un
segmento que tiene como extremos los valores mnimo y mximo de la variable. Estos
segmentos que quedan a izquierda y a derecha de la caja se llaman bigotes
;=
;<
>
Los bigotes se dibujan con lneas continuas solamente hasta los lmites recomendados
por Tukey:. Para esto calcula 4 barreras, dos interiores y dos exteriores:
Bii = Barrera interior inferior = QL 3Q
Bis = Barrera interior superior = QU + 3Q
Bei = Barrera exterior inferior = QL 6Q
Bes = Barrera exterior superior = QU + 6Q
Si se consideran los valores de la variable comprendidos entre las dos barreras
interiores, el valor mnimo de la variable y el valor mximo son los extremos de los
bigotes, pero si existen valores de la variable comprendidos entre las barreras interiores
y exteriores se consideran valores atpicos y se indican con un asterisco *. Si
existieren valores fuera de las barreras exteriores se consideran valores todava ms
atpicos y se indican con un crculo . De esta manera, un diagrama de caja y bigotes
en general puede lucir como se muestra en la siguiente figura:
?
?
9
?
99
;<
;=
Por otra parte, este tipo de grfico nos proporciona informacin con respecto a la
simetra o asimetra de la distribucin: si la mediana est en el centro de la caja o cerca
de l, constituye un indicio de simetra de los datos, si la mediana est
considerablemente ms cerca de QL indica que los datos son positivamente asimtricos
y si est ms cerca d QU, indica que los datos son negativamente asimtricos.
Ejemplo
Para el ejemplo de los datos de la materia de matemticas se tena que QL=5.5,
QU=7.2, Q=0.85 =6.5, de donde se obtiene:
Bii=2.95, por lo que existen dos datos menores que esta barrera y se considerarn
atpicos por lo tanto el bigote izquierdo se extender hasta el tercer dato X3=3.6
Bis=9.75 que es superior al dato mximo, por lo cual el bigote derecho se prolongar
solo hasta Xmax=8.6 el diagrama de caja y bigotes correspondiente queda como se
muestra en la parte inferior de la siguiente figura
Fsica
Matemticas
2.5
3.5
4.5
5.5
6.5
7.5
8.5
9.5
10
Aplastamiento
Fragilidad
Dimensiones
Color
Alabeo
Acabado
Incompleto
Desbalanceo
Otros
Total
40
35
8
3
3
2
2
1
0
94
relativa
42.6 %
37.2 %
8.5%
3.2 %
3.2 %
2.1 %
2.1 %
1.1 %
0%
100 %
acumulada
42.6 %
79.8 %
88.3 %
91.5 %
94.7 %
96.8 %
98.9 %
100 %
100 %
La columna de frecuencia acumulada hace ms evidente cuales son los defectos que
aparecen con mayor frecuencia.
Obsrvese que se ha ordenado la tabla en orden decreciente de frecuencia. La
categora otros siempre debe ir al final, sin importar su valor.
Podemos ahora representar los datos en un histograma como el siguiente:
120
100
80
Frec Rel
Frec Rel Acum
60
40
20
tro
s
O
Al
ab
eo
Ac
ab
ad
o
In
co
m
pl
et
D
es
o
ba
la
nc
eo
C
ol
or
Ap
la
st
am
ie
nt
o
Fr
ag
ilid
D
ad
im
en
si
on
es
7.10.Regresin Lineal
Como se ilustr en el clculo de la covarianza, en ocasiones ocurre que dos variables
estn relacionadas entre s. Este tipo de situaciones es comn en la medicin
experimental de variables fsicas en las que se desea establecer o validar algn modelo
basado en alguna teora, en observaciones previas o en algn razonamiento emprico.
En este caso se define una variable dependiente y, y una variable independiente x,
luego se toman mediciones agrupadas en pares:
' * @ * )@ ' @ )@ @ ' @ )
Cada par de mediciones (xi,yi) se puede considerar como las coordenadas de un punto
en un plano, de esta manera se tienen N puntos, los cuales se pueden representar en
una grfica para ilustrar de manera visual el tipo de dependencia involucrada.
Se propone un modelo de dependencia a validar o a ajustar en trminos de una
funcin matemtica:
= ' @ *@ @ @ )
donde * @ @ @ son los parmetros cuyos valores ajustan la forma exacta de la
curva para que se parezca lo ms posible a los puntos experimentales.
*
3 >0
9
9
9
9
9
9
9
9
3"'>@ *@ @A@ )
9
9
9
9
9
9 9
9
+
Sin embargo, no se debe caer en el extremo de buscar una curva que pase
exactamente por cada punto experimental, dado que cualquier proceso de medida es
susceptible en mayor o menor medida a errores, y habr que considerar que todos los
puntos tienen asociado algn margen de error.
La mejor solucin debe ponderar un equilibrio entre simplicidad y exactitud:
La simplicidad est dada por la eleccin del tipo de modelo = ' @ * @ @ @ ) lo
ms simple posible y con el menor nmero de parmetros (n lo ms pequeo
posible).
La exactitud est dada por la exigencia de que la curva pase lo ms cerca posible
de cada punto experimental.
El modelo ms simple es una lnea recta que pase por el origen: = * , sin embargo,
es demasiado simple para la mayora de los casos. Un modelo ligeramente ms
completo es una recta que no necesariamente pase por el origen:
=
+ ,
donde los parmetros a ajustar son m=pendiente de la recta, b=ordenada al origen.
Como es de suponerse, la relacin y = mx + b no va a cumplirse exactamente.
Las distancias verticales entre el valor observado y el valor dado por la recta
para cada valor de x reciben el nombre de residuos, y se suelen denotar por ei.
La expresin terica del modelo matemtico ser, por lo tanto:
=
+ +
Se acostumbra por simplicidad suponer que ei es una variable aleatoria Normal con
media cero y varianza conocida .
Clculo por mnimos cuadrados de la pendiente y la ordenada al origen:
Estrategia: La estrategia utilizada para buscar la recta que mejor se ajuste a los datos
experimentales fue propuesta por Gauss y consiste en buscar la recta que minimice la
+ y la ordenada
diferencia o error entre cada ordenada predicha por la recta B =
obtenida experimentalmente , esta diferencia se denota como , es decir,
= B =
+
En la siguiente figura se ilustra esta diferencia:
*
3 >0
9
9
B
9
9
9
9
9
9
9
>
Una primera idea sera minimizar la suma total de los errores , pero como algunos
son positivos y otros son negativos, la suma podra ser muy pequea an si existen
errores de gran magnitud, por ello se busca ms bien:
Minimizar la suma de los cuadrados de los errores:
=
=*
=
=*
=*
=*
)=
=*
de donde
+
=*
=*
=*
=*
)=
=*
de donde
+
=*
=*
hemos obtenido el sistema de dos ecuaciones lineales con las dos incgnitas m, b,
denominado conjunto de ecuaciones normales:
=*
=*
=*
=*
=*
=*
=*
=*
=*
=*
=*
=*
=*
=*
=*
=*
Donde:
Ejemplo. La siguiente tabla muestra los datos de 69 pacientes de los que se conoce su
edad y una medicin de su presin sistlica. Si estamos interesados en estudiar la
variacin en la tensin sistlica en funcin de la edad del individuo, deberemos
considerar como variable dependiente la tensin y como variable independiente
(predictora) la edad.
N Tensin Edad
N Tensin Edad
114
17
36
156
47
134
18
37
159
47
124
19
38
130
48
128
19
39
157
48
116
20
40
142
50
120
21
41
144
50
138
21
42
160
51
130
22
43
174
51
139
23
44
156
52
10
125
25
45
158
53
11
132
26
46
174
55
12
130
29
47
150
56
13
140
33
48
154
56
14
144
33
49
165
56
15
110
34
50
164
57
16
148
35
51
168
57
17
124
36
52
140
59
18
136
36
53
170
59
19
150
38
54
185
60
20
120
39
55
154
61
21
144
39
56
169
61
22
153
40
57
172
62
23
134
41
58
144
63
24
152
41
59
162
64
25
158
41
60
158
65
26
124
42
61
162
65
27
128
42
62
176
65
28
138
42
63
176
66
29
142
44
64
158
67
30
160
44
65
170
67
31
135
45
66
172
68
32
138
45
67
184
68
33
142
46
68
175
69
34
145
47
69
180
70
35
149
47
180
170
Tensin
160
150
140
130
120
110
100
10
20
30
40 Edad 50
60
70
80