Analisisdedatos

Estadstica Descriptiva Anlisis de Datos
8.1 INTRODUCCION
El concepto de Estadstica
El origen de la Estadstica se remonta a dos tipos de actividades humanas: los juegos
de azar y las necesidades de los Estados: necesidades de describir numricamente
ciudades, provincias, etc. Los juegos de azar llevaron al estudio de la probabilidad, y ste
condujo al tratamiento matemtico de los errores de las mediciones y a la teora que hoy
constituye la base de la estadstica, mientras que la segunda actividad condujo a la
estadstica descriptiva: presentacin de datos en tablas y grficos, aunque en nuestros das
incluye tambin la sntesis de ellos mediante descripciones numricas.
El mtodo estadstico moderno se refiere a la Inferencia estadstica: sta se relaciona
con el desarrollo de mtodos y tcnicas para obtener, analizar e interpretar datos
cuantitativos de tal manera que la confiabilidad de las conclusiones basadas en los datos
pueda ser evaluada objetivamente por medio del uso de la probabilidad. La teora de la
probabilidad permite pasar de datos especficos a conclusiones generales, por eso
desempea un papel fundamental en la teora y aplicacin de la estadstica.
En pocas recientes la inferencia estadstica ha adquirido la importancia que antes
tena la estadstica descriptiva. La inferencia estadstica trata de generalizaciones basadas
en muestras de datos: se aplica a problemas como estimar, mediante pruebas, la emisin
promedio de contaminantes en una turbina, verificar las especificaciones de un fabricante
a partir de mediciones efectuadas sobre muestras de un producto, etc.
Cuando se hace una inferencia estadstica, debe procederse con cautela: debe decidirse
hasta qu punto pueden hacerse generalizaciones a partir de un conjunto de datos disponibles, si las generalizaciones son razonables, o si sera preferible disponer de otro
conjunto de datos...
Algunos de los problemas importantes de la inferencia estadstica se refieren precisamente a la evaluacin de los riesgos y las consecuencias a las que uno se expone al hacer
generalizaciones. Esto incluye una estimacin de la probabilidad de tomar decisiones
errneas, las posibilidades de hacer decisiones incorrectas y de obtener estimaciones no
comprendidas dentro de los lmites permitidos. Todos estos problemas los aborda en los
ltimos aos la teora de la decisin.
Podemos sintetizar lo anterior, mediante las siguientes definiciones:
El contenido de la estadstica moderna incluye la recopilacin, presentacin y
caracterizacin de la informacin a fin de que auxilie tanto en el anlisis de datos como en el proceso de toma de decisiones.
Se puede definir la estadstica descriptiva como los mtodos que implican recopilacin, presentacin y caracterizacin de un conjunto de datos con el objeto
de describir en forma apropiada las diversas caractersticas de dicho conjunto.
Puede considerarse la inferencia estadstica como los mtodos que hacen posible la estimacin de una caracterstica de una poblacin, o la toma de una decisin con respecto a una poblacin, con base nicamente en resultados muestrales.
Para clarificar esta definicin, se requieren algunas definiciones:

Poblacin (o universo): es la totalidad de elementos que se consideran.
Muestra: es un subconjunto de una poblacin que se selecciona para su estudio.
Parmetro: es una medida que se calcula para describir una caracterstica poblacional.
Estadstica: es una medida utilizada para describir una caracterstica muestral.
La Bioestadstica
La Bioestadstica se define como "la aplicacin de mtodos estadsticos a la solucin
de problemas biolgicos". Tambin se la denomina biometra.
Antecedentes histricos
Como ya hemos dicho, a causa del inters por los juegos del azar, en el siglo XVII se
desarroll la teora matemtica de la probabilidad, gracias a los aportes, principalmente,
de Pascal y Fermat. Jacques Bernoulli fundament la moderna teora de la probabilidad
en su obra Ars Conjectandi, y Abraham de Moivre fue el primero en combinar la
estadstica de su poca con la teora de probabilidad.
Un estmulo importante para el desarrollo de la estadstica lo produjo la astronoma. Se
cree que el primer personaje importante en bioestadstica fue el astrnomo y matemtico
belga Adolphe Quetelet (1796-1874), que aplicaba los mtodos tericos y prcticos de la
estadstica a problemas de medicina, biologa y psicologa. Francis Dalton (1822-1911)
es denominado padre de la bioestadstica. Su mayor aporte lo constituye la aplicacin del
anlisis estadstico al anlisis de la variacin biolgica, as como el anlisis de
variabilidad y su estudio de regresin y correlacin en medidas biolgicas. Karl Pearson
(1857-1936) continu la tradicin de Galton y sent las bases para gran parte de la
estadstica descriptiva y de correlacin. La figura dominante en el siglo XX en estadstica
y biometra ha sido Ronald Fisher (1890-1962).
8.2 RECOPILACION DE DATOS

Para el especialista, la informacin necesaria para toda investigacin est constituida
por datos. A fin de que un anlisis estadstico resulte til en la toma de decisiones, los
datos deben ser apropiados. Hay, por lo menos, tres maneras de obtener datos: i) utilizar
los datos publicados por fuentes gubernamentales, industriales o particulares; ii) a travs
de la experimentacin; iii) realizando encuestas.
8.2.1 Tipos de datos
En una investigacin estadstica, se manejan diversas caractersticas, a las que se denomina variables. Los datos son los resultados que se observan para estas variables.
Bsicamente existen dos tipos de variables, que producen dos tipos de datos: cualitativos y cuantitativos. Las primeras variables producen respuestas categricas, en tanto
que las segundas producen respuestas numricas. Por otra parte, los datos cuantitativos
pueden ser discretos o continuos.
Los datos cuantitativos discretos son respuestas numricas que surgen de un proceso
de conteo, mientras que los continuos son los que surgen de un proceso de medicin.
Tipos de datos
Tipos de preguntas
Respuestas
____________________________________________________________
Cualitativos
Posee vivienda propia?
Discretos
S --No ---
Cuntos baos posee?
-------
Cuantitativos
Continuos
Cul es la superficie cubierta?
-------
8.2.2 Tipos de escalas de medicin

Todos los datos son en ltima instancia resultado de un proceso de medicin (hasta
los datos discretos pueden considerarse resultado de una medicin mediante conteo).
Podemos distinguir cuatro niveles de medicin: escala nominal, escala ordinal, escala de
intervalo, escala de razn.
8.2.2.1 Escala nominal: corresponde a los datos cualitativos, cuando se clasifican en
categoras que no implican orden.
Es propietario de automvil?
Cul es su afiliacin poltica?
No
8.2.2.2 Escala ordinal: cuando los datos cualitativos se clasifican en categoras

distintas en las que existe algn orden.
Rango docente
Auxiliar
Titular
Asociado
Adjunto
JTP
8.2.2.3 Escala de intervalo: es una escala ordenada en la cual la diferencia entre las
mediciones es una cantidad que tiene significado preciso. Por ejemplo, si una persona
mide 1,65 m, entonces tiene 5 cm ms que otra que mide 1,70 m. Estos 5 cm representan
la misma diferencia entre una persona que mide 1,82 m y otra que mide 1,77m.
8.2.2.4 Escala de razn: En este caso, adems de que las diferencias son significativas
e iguales en todos los puntos de la escala, existe un cero real, de modo que se pueden
considerar cocientes de mediciones. Por ejemplo, una persona que mide 180 cm tiene el
doble de altura de otra que mide 90 cm, mientras que una temperatura de 80C no
significa precisamente el doble de otra de 40C.
Temperatura (en grados C)
Temperatura (en grados K)
Edad
Sueldo
de intervalo
de razn
de razn
de razn
8.3 LOS DATOS EN BIOLOGA

Haremos ahora referencia a ciertos aspectos especficos de la Bioestadstica, donde
podremos encontrar algunas diferencias con los conceptos generales antes estudiados. Lo
que sigue es, por lo tanto, la adaptacin, segn la mayora de los autores, de los conceptos
antes estudiados.
8.3.1 Muestras y poblaciones
La Estadstica trabaja con datos. En bioestadstica, los datos se basan en observaciones
individuales, es decir en medidas tomadas de la mnima unidad de muestreo. La
propiedad medida por las observaciones individuales es el carcter o variable. En
estadstica se usa frecuentemente el trmino variable, pero en bioestadstica es ms
comn carcter. En cada unidad de muestreo puede medirse ms de un carcter. As en un
grupo de 10 ratones podemos medir el pH de la sangre y el nmero de clulas rojas. De
esta manera obtendramos dos muestras de 10 observaciones o una nica muestra
bivariada de 10 observaciones.
La totalidad de observaciones individuales sobre las cuales se hacen inferencias se
denomina poblacin en Estadstica, y a veces universo. Por ejemplo, las longitudes de la
cola de todos los ratones blancos del mundo; los recuentos de leucocitos de todos los
varones chinos de 20 aos, o puede referirse a resultados de experimentos, como las
frecuencias de los latidos cardacos producidos en ratone por inyecciones de adrenalina.

En los primeros ejemplos, la poblacin es finita, aunque sera imposible analizar cada uno
de sus elementos. En el ltimo ejemplo, al menos en teora, podramos repetir el
experimento un nmero ilimitado de veces.
Aunque la mayora de las veces las poblaciones son finitas, son tan superiores a las
muestras extradas de ellas que de hecho pueden ser consideradas infinitas.
8.3.2 Variables
Variable es una propiedad con respecto a la cual los individuos de una muestra difieren
de algn modo verificable. Las variables biolgicas pueden dividirse en:
Variables medibles
Variables continuas
Variables discontinuas
Variables clasificables en rangos
Atributos
8.3.2.1 Variables medibles: son aquellas cuyos diferentes valores pueden expresar de
forma numricamente ordenada. Pueden ser continuas: las que al menos en teora pueden
tomar infinitos valores entre dos determinados, o discontinuas -tambin llamadas
discretas o mersticas-: son las que tienen valores numricos fijos, sin posibles valores
intermedios. En el primer caso, tenemos por ejemplo, longitudes, reas, pesos,
temperaturas, perodos de tiempo, velocidades. En el segundo, el nmero de cras, el
nmero de colonias de microorganismos, el nmero de plantas en un cuadrado
determinado.
8.3.2.2 Variables clasificables por rangos: son las que no pueden medirse, pero si
pueden ordenarse por su magnitud.
8.3.2.3 Atributos: son las variables que no pueden expresarse cuantitativamente sino
cualitativamente. Son propiedades como grvida e ingrvida, muerto o vivo, macho o
hembra.
8.3.3 Observacin sobre las variables continuas
La mayora de las variables continuas son aproximadas. El valor exacto de la medida
individual es desconocido. Por ejemplo, al decir que una medida es de 12,4 mm
queremos dar a entender que la verdadera longitud est comprendida entre 12,35 mm y
12,45 mm. Si hubisemos podido obtener una medida de 12,43 mm, esto significara que
la verdadera medida est entre 12,435 mm y 12,435 mm. En general, la ltima cifra de un
nmero aproximado debera ser siempre significativa: debera implicar que la verdadera
medida est en un intervalo desde media unidad del ltimo orden por debajo hasta media
unidad por encima de la medida registrada. Esto se aplica tambin al cero.
8.4 MANEJO DE DATOS

8.4.1 Propiedades de los datos cuantitativos
Ya vimos que el material con que cuenta el estadstico es un conjunto de datos. Pero,
la recoleccin de datos es slo uno de los aspectos de la estadstica descriptiva cmo se
pueden utilizar esos datos?
A veces los datos estadsticos obtenidos de muestras, experimentos o cualquier coleccin de mediciones, son tan numerosos que carecen de utilidad a menos que sean condensados.
Veremos tres propiedades de los datos cuantitativos que permiten una mejor comprensin de la informacin por ellos aportada.
Estas propiedades pueden ser expresadas por diversas medidas, que agrupamos de la
siguiente manera:
1. de tendencia central
2. de dispersin
3. de forma
Cuando se calculan a partir de los datos muestrales, reciben el nombre de estadsticos,
y si se los calcula a partir de la poblacin, se denominan parmetros.
8.4.2 Medidas de tendencia central
Con este nombre nos referimos a valores promedios que describen todo un conjunto de
datos. Se utilizan cuatro promedios, frecuentemente, como medidas de tendencia central o
de posicin: la media aritmtica, la mediana, la moda y el rango medio.
8.4.2.1 Media aritmtica: es la medida de posicin utilizada con ms frecuencia. Si
X 1, X 2 .... X n constituyen una muestra de n observaciones, la media aritmtica se define
de la siguiente manera:
n
Xi
X =
i =1
Si bien es una de las medidas ms utilizadas posee la desventaja de ser muy afectada
por los valores extremos, pues en su clculo se utilizan todas las observaciones. Puede
entonces dar una imagen distorsionada de la informacin contenida en los datos, por lo
que no siempre es la mejor medida de posicin.
8.4.2.2 Mediana: Es el valor que ocupa la posicin central en un conjunto de datos,
ordenados en forma creciente o decreciente. As definida, la mitad de las observaciones es
menor que la mediana, mientras que la otra mitad es mayor que la mediana. Resulta
apropiada cuando el conjunto de datos posee observaciones extremas.
Para calcular la mediana, primero se deben ordenar los datos. Luego se debe
determinar el dato que ocupa la posicin
n +1
(cuando n es impar) o la semisuma de los
2
valores numricos correspondientes a las dos observaciones centrales (cuando n es par).

Por ejemplo, si los datos son: 25 12
23
28
17
15,
se obtiene el
arreglo ordenado 12 15
17
23
25
28, y la mediana se obtiene promediando los valores 17 y 23, resultando igual a 20.
El clculo de la mediana se ve afectado por el nmero de observaciones, y no por la
magnitud de los valores extremos.
8.4.2.3 Moda: es el valor de un conjunto de datos que aparece con mayor frecuencia.
Tampoco depende de los valores extremos, pero es ms variable que las otras medidas de
posicin para las distintas muestras.
Cuando no hay ningn valor con frecuencia mayor, la distribucin carece de moda.
Tambin se puede dar el caso de una distribucin con ms de una moda.
8.4.2.4 Rango medio: Es la media de las observaciones mayor y menor. Como
intervienen solamente estas observaciones, si hay valores extremos, se distorsiona como
medida de posicin, pero frecuentemente ofrece una valor adecuado rpido y sencillo para
resumir un conjunto de datos (cuando puede suponerse que no existen valores extremos).
8.4.3 Medidas de dispersin o de variabilidad
Las medidas de dispersin permiten conocer la variabilidad de un conjunto de datos.

Estudiaremos las siguientes: rango, varianza, desviacin estndar y coeficiente de
variacin.
8.4.3.1 Rango: Es la diferencia entre las observaciones mayor y menor. Si bien es una
medida de dispersin simple, posee el inconveniente de que no toma en consideracin la
forma en que se distribuyen los datos entre los valores ms pequeos y ms grandes.
8.4.3.2 Varianza y desviacin estndar: Una medida de variabilidad podra obtenerse
a partir de la dispersin de cada una de las observaciones con respecto a algn valor
particular, por ejemplo la media. Pero, como es fcil de comprobar, la suma de los
desvos de cada valor respecto a la media es siempre cero, es decir
n
( Xi
i =1
- X) = 0
Por eso consideraremos una medida obtenida "promediando" los cuadrados de los desvos, la varianza muestral:
n
(X i
S2 =
i =1
- X) 2
(1)
n - 1
El desvo estndar muestral es la raz cuadrada de la varianza: S = S 2
A partir de la frmula puede observarse que ni la varianza ni el desvo estndar,

pueden ser negativos, y hay un nico caso en que pueden ser nulos: cuando todos los
valores de la muestra son iguales.
La varianza y el desvo estndar miden la dispersin "promedio" en torno a la media,
es decir cmo fluctan las observaciones mayores por encima de la media y cmo se
distribuyen las observaciones menores por debajo de ella.
A pesar de que la varianza posee ciertas propiedades matemticas tiles, est
expresada en unidades cuadradas (dlares cuadrados, etc.) lo que le hace perder
significado. El desvo estndar no posee este inconveniente, y est expresado en las
unidades originales.
8.4.3.3 Coeficiente de variacin: Es una cantidad que mide la dispersin de los datos
S
100
con respecto a la media: CV =
X
El coeficiente de variacin es una medida relativa. No se expresa en trmino de las
unidades utilizadas, sino como porcentaje. Es til cuando se compara la variabilidad de
dos conjuntos de datos, o ms, expresados en diferentes unidades. Tambin es til cuando
se comparan dos o ms distribuciones de datos expresados en la misma unidad, pero que
difieren en tal forma que una comparacin directa de los desvos estndar no resulta til.
8.4.4 Forma
Las medidas de forma describen la manera en que se distribuyen los datos. Una distribucin de datos puede ser simtrica o no. Cuando no lo es, se denomina asimtrica o sesgada.
Para indicar la forma se comparan la media y la mediana de la distribucin. Si las
medidas son iguales se considera que los datos son simtricos, o que la distribucin tiene
sesgo cero. Cuando la media es mayor que la mediana, el sesgo es positivo o la asimetra
es a la derecha, en cambio cuando la media es menor que la mediana, se dice que la
distribucin tiene sesgo negativo o asimetra a la izquierda.
El sesgo positivo ocurre cuando la media se ve aumentada por algunos valores extraordinariamente grandes; el sesgo negativo se da cuando la media se ve afectada por algunos valores extremadamente pequeos.
1
La razn de utilizar (n - 1) en lugar de n se comprender ms adelante, aunque si el tamao de la muestra

es grande, el uso de n o (n - 1) no produce diferencias significativas. En general, utilizaremos el
denominador (n - 1) cuando se trata de la varianza muestral, y n para la varianza de la poblacin.
El siguiente grfico muestra lo que ocurre en cada situacin: en cada una de las tres escalas se describe la distribucin de un grupo de alumnos segn las notas obtenidas (entre
40 y 100 puntos)
El primero de lo grficos corresponde a un conjunto sesgado a la izquierda, donde la

media es menor que la mediana, ya que hay pocas calificaciones bajas. En el segundo, los
datos estn sesgados a la derecha. La media es mayor que la mediana, ya que hay pocas
calificaciones altas. El ltimo grfico muestra una distribucin simtrica, con un desempeo que podramos catalogar como "normal". La media y la mediana son iguales, al
igual que la moda y el rango medio.
Cuantitativamente, la asimetra puede determinarse por medio de la siguiente
ecuacin:
As =
3(X - Med )
S
8.5 TRATAMIENTO DE DATOS AGRUPADOS

8.5.1 La distribucin de frecuencias
Muchas veces es necesario manejar un gran nmero de datos, y en ese caso puede demandar mucho esfuerzo el clculo de las medidas anteriores. Como regla prctica, cuando
el conjunto contenga 20 o ms observaciones, la mejor manera de examinar estos datos es
presentarlos en forma resumida, elaborando tablas y grficas.
La distribucin de frecuencia es una tabla en la que se disponen los datos divididos en
grupos y ordenados numricamente, mostrando tambin el nmero de elementos de cada
grupo o clase. Se sacrifica as parte de la informacin contenida en los datos: en lugar de
conocer el valor exacto de cada uno, slo sabemos que pertenece a una clase determinada.
Pero lo que se pierde en informacin se compensa en legibilidad, ya que de esta forma se
destacan caractersticas importantes de los datos.
El primer paso para construir una distribucin de frecuencia es decidir el nmero de
clases a utilizar y los lmites de cada clase. En general el nmero de clases depende del
nmero de observaciones, pero tiene poca utilidad una distribucin con menos de 5 clases
o con ms de 15 clases. Tambin depende del rango de los datos.
Es recomendable que todas las clases tengan la misma amplitud. Para determinar el tamao de cada clase se divide el rango entre el nmero de clases que se desean.
Luego se necesita establecer lmite para cada una de las clases, evitando que se superpongan.
Para ejemplificar, consideremos las siguientes 80 mediciones de la emisin (en toneladas) de xido de azufre de una planta industrial:
31.8; 26.4; 17.3; 11.2; 23.9; 24.8; 13.9; 9.0; 13.2; 18.7; 25.9; 10.5; 22.7; 9.8; 6.2; 14.7;
26.1; 12.8; 17.6; 28.6; 23.7; 17.5; 15.9; 27.5; 26.8; 22.7; 18.0; 20.5; 11.0; 20.9; 15.5;
19.4; 16.7; 10.7; 18.1; 17.9; 19.1; 15.2; 22.9; 26.6; 20.4; 21.4; 19.2; 21.6; 16.9; 19.0;
9.4; 20.1; 18.5; 23.0; 24.6; 20.1; 16.2; 18.0; 7.7; 13.5; 23.5; 14.5; 28.5; 24.1; 14.4;
29.6; 19.4; 17.0; 20.8; 24.3; 22.5; 24.6; 18.4; 18.1
La observacin ms grande es 31.8, mientras que la ms pequea es 6.2, por lo tanto la
amplitud de la distribucin, o rango, es de 25.6. Podramos entonces elegir 6 clases que
tuvieran los lmites: 5.0 - 9.9; 10.0 - 14.9, etc. O tambin las siete clases: 5.0 - 8.9; 9.0 12.9, etc. O las nueve clases: 5.0 - 7.9; 8.0 - 10.9, etc. Notemos que en todos los casos las
clases no se traslapan, incluyen todos los casos y tienen la misma longitud.
Existe otra posibilidad: considerar los intervalos: 5.0 - 9.0; 9.0 - 13.0, etc. En este caso
se presentan ambigedades, ya que el valor 9 podra pertenecer a la primera o a la
segunda clase. Para evitar esta dificultad, podemos hacer que la primera clase vaya de
4.95 a 8.95, la segunda de 8.95 a 12.95, etc. Estas son las fronteras de clase, y a pesar de
las clases se traslapan, no hay ambigedades, ya que estas fronteras son valores
"imposibles" para los datos. En general, empleamos los fronteras de clase y no los lmites
para indicar que los datos son continuos.
Para nuestra ejemplo, tendremos:
lmites de clase
etiqueta
4.95 - 8.95
8.95 - 12.95
12.95 - 16.95
16.95 - 20.95
20.95 - 24.95
24.95 - 28.95
28.95 - 32.95
///
////
////
////
////
////
//
Total
////
//// ////
//// //// //// ////
//// //// //
////
frecuencia
3
10
14
25
17
9
2
80
Una vez que los datos han sido ordenados, pierden su identidad, pues ya no se conoce
su valor exacto. Esto puede evitarse de algn modo considerando el punto medio de cada
intervalo, llamado marca de clase. La marca de clase de cada intervalo se obtiene
mediante la semisuma de sus fronteras.
8.5.2 Grficas de las distribuciones de frecuencias

8.5.2.1 Histogramas
Representar una distribucin de frecuencias hace ms evidente sus propiedades. La

forma ms comn de representar una distribucin de frecuencias es el histograma, que se
construye con rectngulos adyacentes de alturas proporcionales a las frecuencias y cuyas
bases se extienden entre las fronteras de clases sucesivas.
Para los datos anteriores, obtenemos el siguiente histograma:
30
25
frecuencia
20
15
10
0
1
emisin de xido de azufre (en ton)
Otras grficas similares a los histogramas son los diagramas de barras, donde las
alturas de los rectngulos representan las frecuencias, pero no se pretende fijar una escala
horizontal continua.
8.5.2.2 Polgono de frecuencias
Una forma optativa de representar las distribuciones de frecuencias es el polgono de

frecuencias. En l las frecuencias de cada clase son graficadas en sobre la marca de clase,
y los puntos sucesivos se unen mediante segmentos de recta, despus de haber agregado
clases con frecuencia cero en los extremos de la distribucin.
30
25
20
15
10
8.5.2.3 Distribuciones acumuladas
Existen formas alternativas de agrupar los datos: son las distribuciones acumuladas
"menor que" y "mayor que".
Para ello podramos convertir la distribucin de modo que muestre cuntas
observaciones son menores que 4.95, menor que 8.95, etc.
ton. de x. de azufre
menos de 4.95
menos de 8.95
menos de 12.95
menos de 16.95
menos de 20.95
menos de 24.95
menos de 28,95
menos de 32.95
frec. acumulada
0
3
13
27
52
69
78
80
En lugar de "menos de 4.95", podramos haber utilizado "menos de 5.0" o "menos de

4.9", etc.
Las distribuciones del tipo "mayor que" se construyen de la misma forma, pero en la
prctica la ms utilizada es la anterior. Con el fin de comparar distribuciones de frecuencias puede ser ventajoso convertirlas en distribuciones porcentuales. Puede hacerse lo
mismo con las distribuciones acumuladas, obteniendo las distribuciones porcentuales
acumuladas.
Las distribuciones acumuladas se presentan por lo general en forma de ojivas, las cuales son similares a los polgonos de frecuencias, excepto en que graficamos las
frecuencias sobre las fronteras en lugar de graficarlas sobre la marca de clase. Los puntos
obtenidos se unen mediante segmentos de recta, obteniendo la grfica de la distribucin
"menor que".
90
frecuencia acumulada
80
70
60
50
40
30
20
10
0
emisin de xido de azufre
8.5.3 Clculo de las medidas descriptivas para una distribucin de frecuencias
Cuando los datos se presentan por medio de una distribucin de frecuencias, perdemos
la informacin acerca del valor de cada uno de ellos, ya que se encuentran reunidos en
clases. En este caso sustituimos cada uno de los valores de un intervalo por la marca de
clase.
Si llamamos X i al punto medio de cada intervalo, y f i a la frecuencia del intervalo,
obtenemos las siguientes frmulas para el clculo de las diversas medidas descriptivas:
k
X i fi
Media aritmtica: X =
i=1
k
(X
Varianza: S 2 =
- X) 2 f i
i=1
k
fi
i=1
i=1
(En estas frmulas, k representa el nmero de intervalos o clases de la distribucin)

Si bien es posible obtener expresiones para las dems medidas, slo nos ocuparemos
de las dos mencionadas ms arriba.
En el caso de la mediana, su obtencin puede hacerse en forma aproximada a partir del
grfico de la distribucin acumulada, obteniendo del mismo el valor de la variable que
corresponde a una frecuencia acumulada de
n
.
2

Analisisdedatos

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Analisisdedatos

Cargado por

Copyright:

Formatos disponibles

Estadstica Descriptiva Anlisis de Datos

Para clarificar esta definicin, se requieren algunas definiciones:

8.2 RECOPILACION DE DATOS

Posee vivienda propia?

Cuntos baos posee?

Cul es la superficie cubierta?

8.2.2 Tipos de escalas de medicin

8.2.2.2 Escala ordinal: cuando los datos cualitativos se clasifican en categoras

8.3 LOS DATOS EN BIOLOGA

frecuencias de los latidos cardacos producidos en ratone por inyecciones de adrenalina.

8.4 MANEJO DE DATOS

valores numricos correspondientes a las dos observaciones centrales (cuando n es par).

Las medidas de dispersin permiten conocer la variabilidad de un conjunto de datos.

A partir de la frmula puede observarse que ni la varianza ni el desvo estndar,

La razn de utilizar (n - 1) en lugar de n se comprender ms adelante, aunque si el tamao de la muestra

El primero de lo grficos corresponde a un conjunto sesgado a la izquierda, donde la

8.5 TRATAMIENTO DE DATOS AGRUPADOS

8.5.2 Grficas de las distribuciones de frecuencias

Representar una distribucin de frecuencias hace ms evidente sus propiedades. La

Una forma optativa de representar las distribuciones de frecuencias es el polgono de

8.5.2.3 Distribuciones acumuladas

En lugar de "menos de 4.95", podramos haber utilizado "menos de 5.0" o "menos de

8.5.3 Clculo de las medidas descriptivas para una distribucin de frecuencias

(En estas frmulas, k representa el nmero de intervalos o clases de la distribucin)

También podría gustarte