Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Analisisdedatos
Analisisdedatos
8.1 INTRODUCCION
El concepto de Estadstica
El origen de la Estadstica se remonta a dos tipos de actividades humanas: los juegos
de azar y las necesidades de los Estados: necesidades de describir numricamente
ciudades, provincias, etc. Los juegos de azar llevaron al estudio de la probabilidad, y ste
condujo al tratamiento matemtico de los errores de las mediciones y a la teora que hoy
constituye la base de la estadstica, mientras que la segunda actividad condujo a la
estadstica descriptiva: presentacin de datos en tablas y grficos, aunque en nuestros das
incluye tambin la sntesis de ellos mediante descripciones numricas.
El mtodo estadstico moderno se refiere a la Inferencia estadstica: sta se relaciona
con el desarrollo de mtodos y tcnicas para obtener, analizar e interpretar datos
cuantitativos de tal manera que la confiabilidad de las conclusiones basadas en los datos
pueda ser evaluada objetivamente por medio del uso de la probabilidad. La teora de la
probabilidad permite pasar de datos especficos a conclusiones generales, por eso
desempea un papel fundamental en la teora y aplicacin de la estadstica.
En pocas recientes la inferencia estadstica ha adquirido la importancia que antes
tena la estadstica descriptiva. La inferencia estadstica trata de generalizaciones basadas
en muestras de datos: se aplica a problemas como estimar, mediante pruebas, la emisin
promedio de contaminantes en una turbina, verificar las especificaciones de un fabricante
a partir de mediciones efectuadas sobre muestras de un producto, etc.
Cuando se hace una inferencia estadstica, debe procederse con cautela: debe decidirse
hasta qu punto pueden hacerse generalizaciones a partir de un conjunto de datos disponibles, si las generalizaciones son razonables, o si sera preferible disponer de otro
conjunto de datos...
Algunos de los problemas importantes de la inferencia estadstica se refieren precisamente a la evaluacin de los riesgos y las consecuencias a las que uno se expone al hacer
generalizaciones. Esto incluye una estimacin de la probabilidad de tomar decisiones
errneas, las posibilidades de hacer decisiones incorrectas y de obtener estimaciones no
comprendidas dentro de los lmites permitidos. Todos estos problemas los aborda en los
ltimos aos la teora de la decisin.
Podemos sintetizar lo anterior, mediante las siguientes definiciones:
El contenido de la estadstica moderna incluye la recopilacin, presentacin y
caracterizacin de la informacin a fin de que auxilie tanto en el anlisis de datos como en el proceso de toma de decisiones.
Se puede definir la estadstica descriptiva como los mtodos que implican recopilacin, presentacin y caracterizacin de un conjunto de datos con el objeto
de describir en forma apropiada las diversas caractersticas de dicho conjunto.
Puede considerarse la inferencia estadstica como los mtodos que hacen posible la estimacin de una caracterstica de una poblacin, o la toma de una decisin con respecto a una poblacin, con base nicamente en resultados muestrales.
Tipos de datos
Tipos de preguntas
Respuestas
____________________________________________________________
Cualitativos
Discretos
S --No ---
-------
Cuantitativos
Continuos
-------
No
Titular
Asociado
Adjunto
JTP
8.2.2.3 Escala de intervalo: es una escala ordenada en la cual la diferencia entre las
mediciones es una cantidad que tiene significado preciso. Por ejemplo, si una persona
mide 1,65 m, entonces tiene 5 cm ms que otra que mide 1,70 m. Estos 5 cm representan
la misma diferencia entre una persona que mide 1,82 m y otra que mide 1,77m.
8.2.2.4 Escala de razn: En este caso, adems de que las diferencias son significativas
e iguales en todos los puntos de la escala, existe un cero real, de modo que se pueden
considerar cocientes de mediciones. Por ejemplo, una persona que mide 180 cm tiene el
doble de altura de otra que mide 90 cm, mientras que una temperatura de 80C no
significa precisamente el doble de otra de 40C.
Temperatura (en grados C)
Temperatura (en grados K)
Edad
Sueldo
de intervalo
de razn
de razn
de razn
Xi
X =
i =1
Si bien es una de las medidas ms utilizadas posee la desventaja de ser muy afectada
por los valores extremos, pues en su clculo se utilizan todas las observaciones. Puede
entonces dar una imagen distorsionada de la informacin contenida en los datos, por lo
que no siempre es la mejor medida de posicin.
8.4.2.2 Mediana: Es el valor que ocupa la posicin central en un conjunto de datos,
ordenados en forma creciente o decreciente. As definida, la mitad de las observaciones es
menor que la mediana, mientras que la otra mitad es mayor que la mediana. Resulta
apropiada cuando el conjunto de datos posee observaciones extremas.
Para calcular la mediana, primero se deben ordenar los datos. Luego se debe
determinar el dato que ocupa la posicin
n +1
(cuando n es impar) o la semisuma de los
2
( Xi
i =1
- X) = 0
Por eso consideraremos una medida obtenida "promediando" los cuadrados de los desvos, la varianza muestral:
n
(X i
S2 =
i =1
- X) 2
(1)
n - 1
El desvo estndar muestral es la raz cuadrada de la varianza: S = S 2
Las medidas de forma describen la manera en que se distribuyen los datos. Una distribucin de datos puede ser simtrica o no. Cuando no lo es, se denomina asimtrica o sesgada.
Para indicar la forma se comparan la media y la mediana de la distribucin. Si las
medidas son iguales se considera que los datos son simtricos, o que la distribucin tiene
sesgo cero. Cuando la media es mayor que la mediana, el sesgo es positivo o la asimetra
es a la derecha, en cambio cuando la media es menor que la mediana, se dice que la
distribucin tiene sesgo negativo o asimetra a la izquierda.
El sesgo positivo ocurre cuando la media se ve aumentada por algunos valores extraordinariamente grandes; el sesgo negativo se da cuando la media se ve afectada por algunos valores extremadamente pequeos.
1
El siguiente grfico muestra lo que ocurre en cada situacin: en cada una de las tres escalas se describe la distribucin de un grupo de alumnos segn las notas obtenidas (entre
40 y 100 puntos)
3(X - Med )
S
Muchas veces es necesario manejar un gran nmero de datos, y en ese caso puede demandar mucho esfuerzo el clculo de las medidas anteriores. Como regla prctica, cuando
el conjunto contenga 20 o ms observaciones, la mejor manera de examinar estos datos es
presentarlos en forma resumida, elaborando tablas y grficas.
La distribucin de frecuencia es una tabla en la que se disponen los datos divididos en
grupos y ordenados numricamente, mostrando tambin el nmero de elementos de cada
grupo o clase. Se sacrifica as parte de la informacin contenida en los datos: en lugar de
conocer el valor exacto de cada uno, slo sabemos que pertenece a una clase determinada.
Pero lo que se pierde en informacin se compensa en legibilidad, ya que de esta forma se
destacan caractersticas importantes de los datos.
El primer paso para construir una distribucin de frecuencia es decidir el nmero de
clases a utilizar y los lmites de cada clase. En general el nmero de clases depende del
nmero de observaciones, pero tiene poca utilidad una distribucin con menos de 5 clases
o con ms de 15 clases. Tambin depende del rango de los datos.
Es recomendable que todas las clases tengan la misma amplitud. Para determinar el tamao de cada clase se divide el rango entre el nmero de clases que se desean.
Luego se necesita establecer lmite para cada una de las clases, evitando que se superpongan.
Para ejemplificar, consideremos las siguientes 80 mediciones de la emisin (en toneladas) de xido de azufre de una planta industrial:
31.8; 26.4; 17.3; 11.2; 23.9; 24.8; 13.9; 9.0; 13.2; 18.7; 25.9; 10.5; 22.7; 9.8; 6.2; 14.7;
26.1; 12.8; 17.6; 28.6; 23.7; 17.5; 15.9; 27.5; 26.8; 22.7; 18.0; 20.5; 11.0; 20.9; 15.5;
19.4; 16.7; 10.7; 18.1; 17.9; 19.1; 15.2; 22.9; 26.6; 20.4; 21.4; 19.2; 21.6; 16.9; 19.0;
9.4; 20.1; 18.5; 23.0; 24.6; 20.1; 16.2; 18.0; 7.7; 13.5; 23.5; 14.5; 28.5; 24.1; 14.4;
29.6; 19.4; 17.0; 20.8; 24.3; 22.5; 24.6; 18.4; 18.1
La observacin ms grande es 31.8, mientras que la ms pequea es 6.2, por lo tanto la
amplitud de la distribucin, o rango, es de 25.6. Podramos entonces elegir 6 clases que
tuvieran los lmites: 5.0 - 9.9; 10.0 - 14.9, etc. O tambin las siete clases: 5.0 - 8.9; 9.0 12.9, etc. O las nueve clases: 5.0 - 7.9; 8.0 - 10.9, etc. Notemos que en todos los casos las
clases no se traslapan, incluyen todos los casos y tienen la misma longitud.
Existe otra posibilidad: considerar los intervalos: 5.0 - 9.0; 9.0 - 13.0, etc. En este caso
se presentan ambigedades, ya que el valor 9 podra pertenecer a la primera o a la
segunda clase. Para evitar esta dificultad, podemos hacer que la primera clase vaya de
4.95 a 8.95, la segunda de 8.95 a 12.95, etc. Estas son las fronteras de clase, y a pesar de
las clases se traslapan, no hay ambigedades, ya que estas fronteras son valores
"imposibles" para los datos. En general, empleamos los fronteras de clase y no los lmites
para indicar que los datos son continuos.
Para nuestra ejemplo, tendremos:
lmites de clase
etiqueta
4.95 - 8.95
8.95 - 12.95
12.95 - 16.95
16.95 - 20.95
20.95 - 24.95
24.95 - 28.95
28.95 - 32.95
///
////
////
////
////
////
//
Total
////
//// ////
//// //// //// ////
//// //// //
////
frecuencia
3
10
14
25
17
9
2
80
Una vez que los datos han sido ordenados, pierden su identidad, pues ya no se conoce
su valor exacto. Esto puede evitarse de algn modo considerando el punto medio de cada
intervalo, llamado marca de clase. La marca de clase de cada intervalo se obtiene
mediante la semisuma de sus fronteras.
25
frecuencia
20
15
10
0
1
emisin de xido de azufre (en ton)
Otras grficas similares a los histogramas son los diagramas de barras, donde las
alturas de los rectngulos representan las frecuencias, pero no se pretende fijar una escala
horizontal continua.
8.5.2.2 Polgono de frecuencias
30
25
20
15
10
Existen formas alternativas de agrupar los datos: son las distribuciones acumuladas
"menor que" y "mayor que".
Para ello podramos convertir la distribucin de modo que muestre cuntas
observaciones son menores que 4.95, menor que 8.95, etc.
ton. de x. de azufre
menos de 4.95
menos de 8.95
menos de 12.95
menos de 16.95
menos de 20.95
menos de 24.95
menos de 28,95
menos de 32.95
frec. acumulada
0
3
13
27
52
69
78
80
frecuencias sobre las fronteras en lugar de graficarlas sobre la marca de clase. Los puntos
obtenidos se unen mediante segmentos de recta, obteniendo la grfica de la distribucin
"menor que".
90
frecuencia acumulada
80
70
60
50
40
30
20
10
0
emisin de xido de azufre
Cuando los datos se presentan por medio de una distribucin de frecuencias, perdemos
la informacin acerca del valor de cada uno de ellos, ya que se encuentran reunidos en
clases. En este caso sustituimos cada uno de los valores de un intervalo por la marca de
clase.
Si llamamos X i al punto medio de cada intervalo, y f i a la frecuencia del intervalo,
obtenemos las siguientes frmulas para el clculo de las diversas medidas descriptivas:
k
X i fi
Media aritmtica: X =
i=1
k
(X
Varianza: S 2 =
- X) 2 f i
i=1
k
fi
i=1
i=1
n
.
2