Está en la página 1de 36

Estadstica

Saltar a navegacin, bsqueda


Para anlisis, datos y grficas sobre Wikipedia, vase Wikipedia:Estadsticas.

La estadstica es una ciencia con base matemtica referente a la recoleccin, anlisis e


interpretacin de datos, que busca explicar condiciones regulares en fenmenos de tipo
aleatorio.

Distribucin normal.

Es transversal a una amplia variedad de disciplinas, desde la fsica hasta las ciencias
sociales, desde las ciencias de la salud hasta el control de calidad. Se usa para la toma
de decisiones en reas de negocios o instituciones gubernamentales.

La estadstica se divide en dos elementos:

La estadstica descriptiva, que se dedica a los mtodos de recoleccin,


descripcin, visualizacin y resumen de datos originados a partir de los
fenmenos en estudio. Los datos pueden ser resumidos numrica o grficamente.
Ejemplos bsicos de parmetros estadsticos son: la media y la desviacin
estndar. Algunos ejemplos grficos son: histograma, pirmide poblacional,
clsters, etc.
La estadstica inferencial, que se dedica a la generacin de los modelos,
inferencias y predicciones asociadas a los fenmenos en cuestin teniendo en
cuenta la aleatoriedad de las observaciones. Se usa para modelar patrones en los
datos y extraer inferencias acerca de la poblacin bajo estudio. Estas inferencias
pueden tomar la forma de respuestas a preguntas si/no (prueba de hiptesis),
estimaciones de caractersticas numricas (estimacin), pronsticos de futuras
observaciones, descripciones de asociacin (correlacin) o modelamiento de
relaciones entre variables (anlisis de regresin). Otras tcnicas de
modelamiento incluyen anova, series de tiempo y minera de datos.
Ambas ramas (descriptiva e inferencial) comprenden la estadstica aplicada. Hay
tambin una disciplina llamada estadstica matemtica, la cual se refiere a las bases
tericas de la materia. La palabra estadsticas tambin se refiere al resultado de
aplicar un algoritmo estadstico a un conjunto de datos, como en estadsticas
econmicas, estadsticas criminales, etc.

ORDENANDO LA INFORMACION

Di s t r i bu c i n de

f r ecu en c i a s

La distribucin de frecuencias o tabla de frecuencias es

una ordenacin en forma de tabla de los datos estadsticos,

asignando a cada dato su frecuencia correspondiente .

Tipos de frecuencias

Frecuencia absoluta

La frecuencia absoluta es el nmero de veces que aparece

un determinado valor en un estudio estadstico.

Se representa por fi.

La suma de las frecuencias absolutas es igual al nmero

total de datos, que se representa por N.

Para indicar resumidamente estas sumas se utiliza la letra

griega (sigma mayscula) que se lee suma o sumatoria.


Frecuencia relativa

La frecuencia relativa es el cociente entre la frecuencia

absoluta de un determinado valor y el nmero total de datos .

Se puede expresar en tantos por ciento y se representa por ni.

La suma de las frecuencias relativas es igual a 1.

Frecuencia acumulada

La frecuencia acumulada es la suma de las frecuencias

absolutas de todos los valores inferiores o iguales al valor

considerado.

Se representa por Fi.

Frecuencia relativa acumulada

La frecuencia relativa acumulada es el cociente entre la

frecuencia acumulada de un determinado valor y el nmero total

de datos. Se puede expresar en tantos por ciento.

Ejemplo

Durante el mes de julio, en una ciudad se han registrado las

siguientes temperaturas mximas:

32, 31, 28, 29, 33, 32, 31, 30, 31, 31, 27, 28, 29, 30, 32, 31,

31, 30, 30, 29, 29, 30, 30, 31, 30, 31, 34, 33, 33, 29, 29.
En la primera columna de la tabla colocamos la variable ordenada de menor
a mayor, en la segunda hacemos el recuento y en la tercera anotamos la frecuencia
absoluta.

xi Recuento fi Fi ni Ni

27 I 1 1 0.032 0.032

28 II 2 3 0.065 0.097

29 6 9 0.194 0.290

30 7 16 0.226 0.0516

31 8 24 0.258 0.774

32 III 3 27 0.097 0.871

33 III 3 30 0.097 0.968

34 I 1 31 0.032 1

31 1

Este tipo de tablas de frecuencias se utiliza con variables

discretas.

Di s t r i b u c i n d e f r ec u en c i a s a gr u pa da s

La distribucin de frecuencias agrupadas o tabla con datos

agrupados se emplea si las variables toman un nmero grande de

valores o la variable es continua.


Se agrupan los valores en intervalos que tengan la misma

amplitud denominados clases. A cada clase se le asigna su

frecuencia correspondiente .

Lmites de la clase

Cada clase est delimitada por el lmite inferior de la clase

y el lmite superior de la clase .

Amplitud de la clase

La amplitud de la clase es la diferencia entre el lmite

superior e inferior de la clase.

Marca de clase

La marca de clase es el punto medio de cada intervalo y es

el valor que representa a todo el intervalo para el clculo de

algunos parmetros.

C o n s t r u c c i n d e u n a t a bl a de da t o s a gr u pa do s

3, 15, 24, 28, 33, 35, 38, 42, 43, 38, 36, 34, 29, 25, 17, 7,

34, 36, 39, 44, 31, 26, 20, 11, 13, 22, 27, 47, 39, 37, 34, 32, 35,

28, 38, 41, 48, 15, 32, 13.

1 Se localizan los valores menor y mayor de la distribucin.

En este caso son 3 y 48.

2 Se restan y se busca un nmero entero un poco mayor que

la diferencia y que sea divisible por el nmero de intervalos

queramos establecer.

Es conveniente que el nmero de intervalos oscile entre 6 y 15.


En este caso, 48 - 3 = 45, incrementamos el nmero hasta 50 :

5 = 10 intervalos.

Se forman los intervalos teniendo presente que el lmite inferior de una


clase pertenece al intervalo, pero el lmite superior no pertenece intervalo, se
cuenta en el siguiente intervalo.

ci fi Fi ni Ni

[0, 5) 2.5 1 1 0.025 0.025

[5, 10) 7.5 1 2 0.025 0.050

[10, 15) 12.5 3 5 0.075 0.125

[15, 20) 17.5 3 8 0.075 0.200

[20, 25) 22.5 3 11 0.075 0.2775

[25, 30) 27.5 6 17 0.150 0.425

[30, 35) 32.5 7 24 0.175 0.600

[35, 40) 37.5 10 34 0.250 0.850

[40, 45) 42.5 4 38 0.100 0.950

[45, 50) 47.5 2 40 0.050 1

40 1

DEFINICIN
Las tablas de frecuencias sirven para ordenar y organizar los datos
estadsticos. Con ellas, una masa amorfa de datos pasa a ser una
coleccin ordenada y perfectamente inteligible.
- FRECUENCIAS (ABSOLUTAS)
Con los datos se construye la tabla de frecuencias:
En la primera columna, la variable xi, con todos sus posibles
valores. Si la variable es continua tomaremos como xi, la marca
de clase, es decir, el punto medio de cada intervalo.
En la segunda columna, la correspondiente frecuencia, fi: nmero
de veces que aparece cada valor.

EJEMPLO 1: Variable discreta: Calificaciones en matemticas de 40


alumnos de una clase.

EJEMPLO 3: Variable discreta tratada como continua:

Al hacer balance en una oficina bancaria se tienen anotadas las 145


cuentas corrientes correspondientes a los diferentes clientes con que
cuenta. Para facilitar su estudio se agrupan segn un intervalo de
valores. A cada intervalo se le llama CLASE. El valor de cada cuenta
est en Euros. Construye, paso a paso, la siguiente tabla de
frecuencias :

FRECUENCIAS RELATIVAS
Cuando se desea comparar varias distribuciones similares con distinto
nmero de elementos, se debe recurrir a las frecuencias relativas. Estas
vienen dadas en : "tanto por uno" (fr) o en "tantos por ciento" (%).

Si N es el nmero de individuos:

fr =

% = 100.fr =

Ejemplo: Vamos a completar un poco ms la Tabla de Frecuencias.


Extrayendo de cada Clase o Modalidad el valor medio (marca de
clase), podemos prescindir de la columna de Clases para todo lo
que sigue.
Construye, paso a paso, la siguiente tabla de frecuencias:
FRECUENCIAS ACUMULADAS
En una distribucin de frecuencias, se llama frecuencia acumulada, Fi,
correspondiente al valor i-simo, xi, a la suma de la frecuencia de ese
valor con todas las anteriores: Fi = f1 + f2 + .... + fi.

Anlogamente se puede definir frecuencia relativa acumulada o


porcentaje acumulado.

Ejemplo:

Observa la siguiente escena, si tomamos la variable estadstica nmero 1


tenemos la tabla de frecuencia de una variable discreta, las notas de una
prueba de matemticas de 40 alumnos. Si tomamos la variable 2 se trata de
la tabla de frecuencias (no completa) de una variable continua, las alturas
de un grupo de 33 alumnos.

Actividades:
1.- Traslada la tabla de frecuencias del caso discreto a tu cuaderno,
observando como han sido calculadas cada una de las frecuencias.

2.- Comprueba que la suma de todas las frecuencias absolutas es igual


al nmero de alumnos y que la suma de todas las frecuencias relativas
es igual a 1.

3.- Pasa a la variable continua utilizando el pulsador, y traslada a tu


cuaderno la tabla de frecuencias incompleta. Calcula las marcas de
clase, frecuencia absoluta, frecuencia relativa, frecuencia absoluta
acumulada y frecuencia relativa acumulada y completa la tabla.

TABLAS CON DATOS AGRUPADOS


Cuando en una distribucin estadstica el nmero de valores que toma
la variable es muy grande, conviene elaborar una tabla de frecuencias
agrupndolos en intervalos.

Para ello:

Se localizan los valores extremos, a y b, y se halla su diferencia, r


= b-a
Se decide el nmero de intervalos que se quiere formar, teniendo
en cuenta la cantidad de datos que se poseen. El nmero de
intervalos no debe ser inferior a 6 ni superior a 15.
Se toma un intervalo, r', de longitud algo mayor que el recorrido r
y que sea mltiplo del nmero de intervalos, con objeto de que
estos tengan una longitud entera.
Se forman los intervalos de modo que el extremo inferior del
primero sea algo menor que a y el extremo superior del ltimo
sea algo superior a b. Es deseable que los extremos de los
intervalos no coincidan con ninguno de los datos. Para ello, puede
convenir que dichos extremos tengan valores no enteros.

Cuando se elabora una tabla con datos agrupados, se pierde algo de


informacin (pues en ella se ignora cada valor concreto, que se
difumina dentro de un intervalo). A cambio, se gana en claridad y
eficacia.

TABLA DE FRECUENCIAS COMPLETA


eEjercicio: Completa la siguientes tabla con todo lo
aprendido (Frec. absoluta, Frec. relativa, Frec. relativa
en %, y todas las acumuladas)

Diagrama de tallo y hojas


Un diagrama donde cada valor de
datos es dividido en una "hoja"
(normalmente el ltimo dgito) y
un "tallo" (los otros dgitos). Por
ejemplo "32" sera dividido en "3"
(tallo) y "2" (hoja).

Los valores del "tallo" se escriben


hacia abajo y los valores "hoja"
van a la derecha (o izquierda) del
los valores tallo.

El "tallo" es usado para agrupar


los puntajes y cada "hoja" indica
los puntajes individuales dentro
de cada grupo.
EL DIAGRAMA DE TALLO Y HOJA

Es una tcnica estadstica para representar un conjunto de datos. Cada valor numrico se
divide en dos partes. El o los dgitos principales forman el tallo y los dgitos secundarios
las hojas. Los tallos estn colocados a lo largo del eje vertical, y las hojas de cada
observacin a lo largo del eje horizontal.

Ejemplo

La siguiente distribucin de frecuencia muestra el nmero de anuncios comerciales


pagados por los 45 miembros de Greater Buffalo Automobile Dealers Association en
1999. Observemos que 7 de los 45 comerciantes pagaron entre 90 y 99 anuncios (pero
menos de 100). Sin embargo, El numero de comerciantes pagados en esta clase se
agrupan en alrededor de 90, estn dispersos a lo largo de toda clase, o se acumulan
alrededor de 99? No podemos saberlo.

90 a 100 7

100 a 110 6

110 a 120 9

120 a 130 8

130 a 140 7

140 a 150 3

150 a 160 3

sumatoria de la frecuencia= 45

Una tcnica que se usa para presentar informacin cuantitativa en forma condensada es
el diagrama de tallo y hoja. En el ejemplo anterior no se da la identidad de los valores
de la clase de 90 a 100. Para ilustrar la construccin de un diagrama de tallo y hojas
usando el nmero de comerciales comprados, supongamos que las 7 observaciones en la
clase de 90 a 100 sean 96, 94, 93, 94, 95, 96, 97. EL valor de tallo es el digito o dgitos
principales, en este caso el 9. Las hojas son los dgitos secundarios. EL tallo se coloca a
la izquierda de una lnea vertical y los valores de las hojas a la derecha.

Los valores de las clases de 90 a 100, apareceran como sigue:


9|6434567

Por ultimo, ordenamos los valores dentro de cada tallo de menor a mayor. El segundo
rengln del diagrama de tallo y hojas aparecera como sigue:

9|3445667

Con el diagrama de tallo y hojas podemos observar rpidamente que hubo 2


comerciantes que compraron 94 comerciales y que el nmero de anuncios comprados
fue desde 93 hasta 97. Un diagrama de tallo y hojas es semejante a una distribucin de
frecuencia, pero con ms informacin, esto es, valores de datos en lugar de marcas.

La realizacin de los estudios clnico-epidemiolgicos implica


finalmente emitir unos resultados cuantificables de dicho estudio o
experimento. La claridad de dicha presentacin es de vital
importancia para la comprensin de los resultados y la interpretacin
de los mismos. A la hora de representar los resultados de un anlisis
estadstico de un modo adecuado, son varias las publicaciones que
podemos consultar1. Aunque se aconseja que la presentacin de
datos numricos se haga habitualmente por medio de tablas, en
ocasiones un diagrama o un grfico pueden ayudarnos a representar
de un modo ms eficiente nuestros datos.

En este artculo se abordar la representacin grfica de los resultados de un estudio,


constatando su utilidad en el proceso de anlisis estadstico y la presentacin de datos.
Se describirn los distintos tipos de grficos que podemos utilizar y su correspondencia
con las distintas etapas del proceso de anlisis.

Anlisis descriptivo.

Cuando se dispone de datos de una poblacin, y antes de abordar


anlisis estadsticos ms complejos, un primer paso consiste en
presentar esa informacin de forma que sta se pueda visualizar de
una manera ms sistemtica y resumida. Los datos que nos interesan
dependen, en cada caso, del tipo de variables que estemos
manejando2.

Para variables categricas3, como el sexo, estadio TNM, profesin,


etc., se quiere conocer la frecuencia y el porcentaje del total de casos
que "caen" en cada categora. Una forma muy sencilla de representar
grficamente estos resultados es mediante diagramas de barras o
diagramas de sectores. En los grficos de sectores, tambin
conocidos como diagramas de "tartas", se divide un crculo en tantas
porciones como clases tenga la variable, de modo que a cada clase le
corresponde un arco de crculo proporcional a su frecuencia absoluta
o relativa. Un ejemplo se muestra en la Figura 1. Como se puede
observar, la informacin que se debe mostrar en cada sector hace
referencia al nmero de casos dentro de cada categora y al
porcentaje del total que estos representan. Si el nmero de
categoras es excesivamente grande, la imagen proporcionada por el
grfico de sectores no es lo suficientemente clara y por lo tanto la
situacin ideal es cuando hay alrededor de tres categoras. En este
caso se pueden apreciar con claridad dichos subgrupos.

Los diagramas de barras son similares a los grficos de sectores.


Se representan tantas barras como categoras tiene la variable, de
modo que la altura de cada una de ellas sea proporcional a la
frecuencia o porcentaje de casos en cada clase (Figura 2). Estos
mismos grficos pueden utilizarse tambin para describir variables
numricas discretas que toman pocos valores (nmero de hijos,
nmero de recidivas, etc.).

Para variables numricas continuas, tales como la edad, la


tensin arterial o el ndice de masa corporal, el tipo de grfico ms
utilizado es el histograma. Para construir un grfico de este tipo, se
divide el rango de valores de la variable en intervalos de igual
amplitud, representando sobre cada intervalo un rectngulo que tiene
a este segmento como base. El criterio para calcular la altura de cada
rectngulo es el de mantener la proporcionalidad entre las
frecuencias absolutas (o relativas) de los datos en cada intervalo y el
rea de los rectngulos. Como ejemplo, la Tabla I muestra la
distribucin de frecuencias de la edad de 100 pacientes, comprendida
entre los 18 y 42 aos. Si se divide este rango en intervalos de dos
aos, el primer tramo est comprendido entre los 18 y 19 aos, entre
los que se encuentra el 4/100=4% del total. Por lo tanto, la primera
barra tendr altura proporcional a 4. Procediendo as sucesivamente,
se construye el histograma que se muestra en la Figura 3. Uniendo
los puntos medios del extremo superior de las barras del histograma,
se obtiene una imagen que se llama polgono de frecuencias. Dicha
figura pretende mostrar, de la forma ms simple, en qu rangos se
encuentra la mayor parte de los datos. Un ejemplo, utilizando los
datos anteriores, se presenta en la Figura 4.

Otro modo habitual, y muy til, de resumir una variable de tipo


numrico es utilizando el concepto de percentiles, mediante
diagramas de cajas4,5. La Figura 5 muestra un grfico de cajas
correspondiente a los datos de la Tabla I. La caja central indica el
rango en el que se concentra el 50% central de los datos. Sus
extremos son, por lo tanto, el 1er y 3er cuartil de la distribucin. La
lnea central en la caja es la mediana. De este modo, si la variable es
simtrica, dicha lnea se encontrar en el centro de la caja. Los
extremos de los "bigotes" que salen de la caja son los valores que
delimitan el 95% central de los datos, aunque en ocasiones coinciden
con los valores extremos de la distribucin. Se suelen tambin
representar aquellas observaciones que caen fuera de este rango
(outliers o valores extremos). Esto resulta especialmente til para
comprobar, grficamente, posibles errores en nuestros datos. En
general, los diagramas de cajas resultan ms apropiados para
representar variables que presenten una gran desviacin de la
distribucin normal. Como se ver ms adelante, resultan adems
de gran ayuda cuando se dispone de datos en distintos grupos de
sujetos.

Por ltimo, y en lo que respecta a la descripcin de los datos, suele


ser necesario, para posteriores anlisis, comprobar la normalidad de
alguna de las variables numricas de las que se dispone. Un
diagrama de cajas o un histograma son grficos sencillos que
permiten comprobar, de un modo puramente visual, la simetra y el
"apuntamiento" de la distribucin de una variable y, por lo tanto,
valorar su desviacin de la normalidad. Existen otros mtodos
grficos especficos para este propsito, como son los grficos P-P o
Q-Q. En los primeros, se confrontan las proporciones acumuladas de
una variable con las de una distribucin normal. Si la variable
seleccionada coincide con la distribucin de prueba, los puntos se
concentran en torno a una lnea recta. Los grficos Q-Q se obtienen
de modo anlogo, esta vez representando los cuantiles de
distribucin de la variable respecto a los cuantiles de la distribucin
normal. En la Figura 6 se muestra el grfico P-P correspondientes a
los datos de la Tabla I que sugiere, al igual que el correspondiente histograma y el
diagrama de cajas, que la distribucin de la variable se aleja de la normalidad.

Comparacin de dos o ms grupos.

Cuando se quieren comparar las observaciones tomadas en dos o


ms grupos de individuos una vez ms el mtodo estadstico a
utilizar, as como los grficos apropiados para visualizar esa relacin,
dependen del tipo de variables que estemos manejando.

Cuando se trabaja con dos variables cualitativas podemos seguir


empleando grficos de barras o de sectores. Podemos querer
determinar, por ejemplo, si en una muestra dada, la frecuencia de
sujetos que padecen una enfermedad coronaria es ms frecuente en
aquellos que tienen algn familiar con antecedentes cardiacos. A
partir de dicha muestra podemos representar, como se hace en la
Figura 7, dos grupos de barras: uno para los sujetos con
antecedentes cardiacos familiares y otro para los que no tienen este
tipo de antecedentes. En cada grupo, se dibujan dos barras
representando el porcentaje de pacientes que tienen o no alguna
enfermedad coronaria. No se debe olvidar que cuando los tamaos de
las dos poblaciones son diferentes, es conveniente utilizar las
frecuencias relativas, ya que en otro caso el grfico podra resultar
engaoso.

Por otro lado, la comparacin de variables continuas en dos o


ms grupos se realiza habitualmente en trminos de su valor medio,
por medio del test t de Student, anlisis de la varianza o mtodos no
paramtricos equivalentes, y as se ha de reflejar en el tipo de grfico
utilizado. En este caso resulta muy til un diagrama de barras de
error, como en la Figura 8. En l se compara el ndice de masa
corporal en una muestra de hombres y mujeres. Para cada grupo, se
representa su valor medio, junto con su 95% intervalo de confianza.
Conviene recordar que el hecho de que dichos intervalos no se
solapen, no implica necesariamente que la diferencia entre ambos
grupos pueda ser estadsticamente significativa, pero s nos puede
servir para valorar la magnitud de la misma. As mismo, para
visualizar este tipo de asociaciones, pueden utilizarse dos diagramas
de cajas, uno para cada grupo. Estos diagramas son especialmente
tiles aqu: no slo permiten ver si existe o no diferencia entre los
grupos, sino que adems nos permiten comprobar la normalidad y la
variabilidad de cada una de las distribuciones. No olvidemos que las
hiptesis de normalidad y homocedasticidad son condiciones
necesarias para aplicar algunos de los procedimientos de anlisis
paramtricos.

Por ltimo, sealar que tambin en esta situacin pueden utilizarse


los ya conocidos grficos de barras, representando aqu como altura
de cada barra el valor medio de la variable de inters. Los grficos
de lneas pueden resultar tambin especialmente interesantes, sobre
todo cuando interesa estudiar tendencias a lo largo del tiempo
(Figura 9). No son ms que una serie de puntos conectados entre s mediante rectas,
donde cada punto puede representar distintas cosas segn lo que nos interese en cada
momento (el valor medio de una variable, porcentaje de casos en una categora, el valor
mximo en cada grupo, etc).

Relacin entre dos variables numricas.

Cuando lo que interesa es estudiar la relacin entre dos variables


continuas, el mtodo de anlisis adecuado es el estudio de la
correlacin. Los coeficientes de correlacin (Pearson, Spearman, etc.)
valoran hasta qu punto el valor de una de las variables aumenta o
disminuye cuando crece el valor de la otra. Cuando se dispone de
todos los datos, un modo sencillo de comprobar, grficamente, si
existe una correlacin alta, es mediante diagramas de dispersin,
donde se confronta, en el eje horizontal, el valor de una variable y en
el eje vertical el valor de la otra. Un ejemplo sencillo de variables
altamente correlacionados es la relacin entre el peso y la talla de un
sujeto. Partiendo de una muestra arbitraria, podemos construir el
diagrama de dispersin de la Figura 10. En l puede observarse claramente
como existe una relacin directa entre ambas variables, y valorar hasta qu punto dicha
relacin puede modelizarse por la ecuacin de una recta. Este tipo de grficos son, por
lo tanto, especialmente tiles en la etapa de seleccin de variables cuando se ajusta un
modelo de regresin lineal.

Otros grficos.

Los tipos de grficos mostrados hasta aqu son los ms sencillos que
podemos manejar, pero ofrecen grandes posibilidades para la
representacin de datos y pueden ser utilizados en mltiples
situaciones, incluso para representar los resultados obtenidos por
mtodos de anlisis ms complicados. Podemos utilizar, por ejemplo,
dos diagramas de lneas superpuestos para visualizar los resultados
de un anlisis de la varianza con dos factores (Figura 11). Un
diagrama de dispersin es el mtodo adecuado para valorar el
resultado de un modelo de regresin logstica (Figura 12). Existen
incluso algunos anlisis concretos que estn basados completamente
en la representacin grfica. En particular, la elaboracin de curvas
ROC (Figura 13) y el clculo del rea bajo la curva constituyen el
mtodo ms apropiado para valorar la exactitud de una prueba
diagnstica.

Hemos visto, por lo tanto, como la importancia y utilidad que las


representaciones grficas pueden alcanzar en el proceso de anlisis
de datos. La mayora de los textos estadsticos y epidemiolgicos 4
hacen hincapi en los distintos tipos de grficos que se pueden crear, como una
herramienta imprescindible en la presentacin de resultados y el proceso de anlisis
estadstico. No obstante, es difcil precisar cundo es ms apropiado utilizar un grfico
que una tabla. Ms bien podremos considerarlos dos modos distintos pero
complementarios de visualizar los mismos datos. La creciente utilizacin de distintos
programas informticos hace especialmente sencillo la obtencin de las mismas. La
mayora de los paquetes estadsticos (SPSS, STATGRAPHICS, S-PLUS, EGRET,...)
ofrecen grandes posibilidades en este sentido. Adems de los grficos vistos, es posible
elaborar otros grficos, incluso tridimensionales, permitiendo grandes cambios en su
apariencia y facilidad de exportacin a otros programas para presentar finalmente los
resultados del estudio.

Figura 1. Ejemplo de grfico de sectores. Distribucin de una muestra de pacientes


segn el hbito de fumar.
Figura 2. Ejemplo de grfico de barras. Estadio TNM en el cncer gstrico.
Tabla I. Distribucin de frecuencias
de la edad en 100 pacientes.

Edad N de pacientes

18 1

19 3

20 4

21 7

22 5

23 8

24 10

25 8

26 9

27 6

28 6

29 4

30 3

31 4

32 5

33 3

34 2

35 3

36 1
37 2

38 3

39 1

41 1

42 1

Figura 3. Ejemplo de un histograma correspondiente a los datos de la Tabla I.

Figura 4. Polgono de frecuencias para los datos de la Tabla I.


Figura 5. Ejemplo de un diagrama de caja correspondiente a lo datos en la Tabla I.
Figura 6. Grfico P-P de normalidad para los datos de la Tabla I.

Figura 7. Diagrama de barras agrupadas. Relacin entre la presencia de alguna


enfermedad coronaria y los antecedentes cardiacos familiares en una muestra.
Figura 8. Barras de error. Variacin en el ndice de masa corporal segn el sexo.
Figura 9. Grfico de lneas. Nmero de pacientes trasplantados renales en el Complexo
Hospitalario "Juan Canalejo" durante el periodo 1981-1997.

Figura 10. Diagrama de dispersin entre la talla y el peso de una muestra de individuos.
Figura 11. Dos diagramas de lneas superpuestos. Variacin en el peso medio de una
muestra de recin nacidos segn el control ginecolgico del embarazo y el hbito de
fumar de la madre.
Figura 12. Diagrama de dispersin (regresin logstica). Probabilidad de padecer cirrosis
heptica, segn un modelo de regresin logstica ajustando por el % de protrombina y el
presentar o no hepatomegalia.
Figura 13. Curva ROC para el porcentaje de protrombina en la prediccin de cirrosis.
IMPACTO DE LA COMPUTADORA EN LA ENSEANZA DE LA
ESTADSTICA

Esta seccin presenta la evolucin del uso de la computadora, algunas de sus


aplicaciones tpicas y los riesgos que ello implica.

Los primeros usos del software estadstico en la enseanza de la estadstica han


sido la presentacin de "output" impresos a los alumnos para interpretar
resultados. La masividad en la Universidad y el costo de las computadoras, hacan
imposible otra forma de presentar dicho software.

Esta forma de presentacin no haca ms que sustituir la antigua formulacin del


problema por la que proporciona el output. El alumno adquira destreza de donde
buscar los resultados que le interesan en ese universo de indicadores que figuran
en la salida.

En su momento, los profesores que aplicaban esta tcnica crean que estaban
innovando en la forma de ensear estadstica. Y s lo estaban haciendo porque
evitaban clculos engorrosos (por ejemplo cuando se planteaba una regresin
mltiple o tcnicas de clustering, entre otros). Pero fue un primer paso en un largo
camino. Ahora se est en condiciones de desarrollar un anlisis en clase
conjuntamente con los alumnos, discutiendo los pasos a seguir, sin plantear uno
solo como el nico o dar un conjunto de datos para que ellos desarrollen sus
propios trabajos.

La simulacin es un ejemplo de cmo utilizar el computador en la estadstica


aplicada. Existen software que simulan sistemas fsicos, sociales o empresariales.
Uno de las ms sencillos y conocidos trata de simular la toma de decisiones en
diversos escenarios y analizar sus resultados en un entorno competitivo. El alumno
debe manejar varias variables en procura de maximizar las ganancias de su
empresa.

Modelizar por computadora se critica porque se basa en "la fuerza bruta". Por
ejemplo, en el desarrollo de un estudio de la demanda de un producto, se puede
generar una gran cantidad de modelos ( utilizando todas las variables disponibles
en una tabla de datos ) para luego elegir el "mejor". Esto puede llevar a generar
modelos errneos conceptualmente. Por esto mismo, los autores opinamos que no
es posible separar la estadstica (y sus aplicaciones computacionales) del
conocimiento de la disciplina a la que se est aplicando. Las computadoras ayudan
a enriquecer el conocimiento de la disciplina, y no a llegar a "cosas sin explicacin"
o evidentemente equivocadas.

Las reas de anlisis multivariado fueron las ms beneficiadas por el uso de la


computadora. Las tcnicas a utilizar no se ven limitadas a pesar de que el nmero
de variables sea considerable, ya que los problemas de clculo se minimizan.
Tampoco los grficos resultan un escollo. Algunos profesores, en ausencia de
impedimentos de clculos, le piden al alumno que aplique tales o cuales mtodos,
incentivando de esta forma la destreza en el uso del software (y el conocimiento de
muchas de sus variantes). Sin embargo, no hay una enseanza orientada a la
resolucin de problemas (porque no se ha planteado un problema) sino a la
aplicacin de tcnicas estadstica sin un claro objetivo.

Paradjicamente, el uso de la computadora ha generado nuevos problemas. Uno de


ellos es que se corre el riesgo de desarrollar anlisis que constituyen slo un ejercicio
de uso de software, sin dedicar el suficiente tiempo a analizar la coherencia y lgica
detrs de los mismos.

Algunos ejemplos son:

Determinar medias y desviaciones estndar de variables con escala nominal,


debido a que en la tabla de datos figuran cdigos numricos de las distintas
categoras.
Calcular la media y el desvo estndar de los nmeros que identifican cada
formulario.
Asignar un nmero a cada individuo segn el orden que ocupa, y concluir
que su distribucin es simtrica.

Cuando los clculos llevaban mucho tiempo, se deba pensar si era necesario realizar
tal operacin. Ahora que los clculos no son obstculo, muchas veces no se piensa
qu es lo que se est haciendo. El momento de reflexin se realiza despus de la etapa
de clculo y no antes. Ahora se dedica tiempo y esfuerzo en descartar anlisis e
indicadores sin sentido.

Los Software estadsticos que facilitan una variedad de tcnicas estadsticas


descriptiva e inferencial, poco a poco, estn cambiando la enseanza de esta
disciplina. Ya no es necesario concentrarse mucho en el manejo de frmulas
engorrosas. Esto puede conducir, a pretender el mismo objetivo que antes pero
demorando menos o a usar la computadora para potenciar las posibilidades de la
enseanza de estadstica. Nuestra opinin es que si bien las opciones anteriores no
son excluyentes, se debe insistir ms en el sentido de las tcnicas, en su aplicacin
apropiada y en la buena interpretacin de los resultados.

3. CAMBIOS SUGERIDOS AL INCORPORAR LA COMPUTADORA

En esta seccin sugerimos cambios que consideramos imprescindibles para una


buena incorporacin de la computadora en la enseanza de la estadstica. Ellos se
refieren a la formacin de los profesores, distribucin de los tiempos, el uso de
paquetes estadsticos versus planillas electrnicas y estudios de casos.

La incorporacin de computadoras a la enseanza de la estadstica implica que los


profesores tienen que saber como manejar dicha tecnologa. Adems, si el uso de la
tecnologa involucra la posibilidad de cambios curriculares implica mucho ms que
los simples conocimientos sobre como activar mquinas y usar software. Significa
cambios en las actitudes, creencias y modos de actuar del profesor. Si creemos que
debemos "ensear como nos ensearon nuestros profesores" es difcil imaginar
que un profesor, que nunca ha aprendido estadstica usando computadoras, va a
poder ensear o guiar el aprendizaje de sus alumnos, usando las mismas.
Tampoco hay que caer en el otro extremo, cualquier curso que utiliza
computadoras no tiene porqu ser mejor que otro curso que no la utiliza. El rigor
analtico no puede perderse porque se superen las dificultades de clculo, de lo
contrario caemos en usar una herramienta sin saber sus cmo y porqu.

El efecto de la computadora sobre la enseanza de la estadstica es metodolgico y


de contenido. En cuanto a contenido se necesitarn ms tpicos de metodologa de
la investigacin estadstica y anlisis exploratorio de datos para apoyar el rea de
la computacin. Del punto de vista metodolgico hay que tomar en cuenta
paquetes interactivos y grficos que permiten cambiar el enfoque didctico y poner
menos nfasis en manipulaciones mecnicas, y ms en el desarrollo de conceptos
que permiten descubrir y explorar con la ayuda de computadoras.

Podemos pensar que un curso de Estadstica se divide en tres partes: terico,


resolucin de ejercicios-prctico- y aplicacin de la computadora. Muchas veces las
dos primeras reas se interrelacionan pero el uso de la computadora no se inserta
adecuadamente. La enseanza del software se considera un fin en s mismo. La
relacin de tiempos es aproximadamente: 5 de terico - prctico y 1 de
computacin. Nuestra propuesta en el uso de la computadora en la enseanza de la
estadstica es modificar esta relacin para aproximarla a una distribucin que
responda ms adecuadamente al saber hacer (terico-prctico 3 y computacin 3).

Queremos dejar muy claro que en ningn momento se pretende adiestrar en el uso
de un software estadstico. Menos an, en cuestiones informticas. Queremos
enfatizar siempre que la computadora es un mero instrumento, comparable a una
calculadora..

Existe mucho software estadstico que sirve como apoyo del profesor para mostrar
en forma precisa y rpida las grficas e indicadores estadsticos. Con estos
software los profesores pueden trabajar bien las grficas y los indicadores, y
mostrar rpidamente lo que pasa al cambiar los datos. Generalmente resulta una
confusin si el profesor dispone de nada ms que pizarrn y transparencias. Si la
computadora est presentando las grficas, el profesor y los alumnos pueden
fijarse en el comportamiento de los mismos, en vez de calcular y graficar.

Se ha planteado en varias ocasiones la siguiente controversia: utilizar software


estadstico o planilla electrnica. Nuestra experiencia nos ha mostrado que ambos
son necesarios, dado que enfatizan diferentes aspectos.

Las planillas electrnicas ( en sus utilizacin ms sencilla ) han sido caracterizadas


como una combinacin de un papel cuadriculado con una calculadora. Ellas nos
permiten ensear los procedimientos de clculo en forma rpida, pero destacando
una forma procedural ( vamos indicando el procedimiento de cmo hacerlo ). Por
ejemplo, ordenar los datos, ubicar el punto medio, determinar la mediana y copiar
un resultado en otra celda, entre otros. En cambio los paquetes estadsticos actan
en forma no procedural, ( indicamos slo lo qu queremos ).

Un uso de la planilla electrnica que recomendamos especialmente es su aplicacin


para comprender la relacin entre el coeficiente de correlacin lineal de Pearson y
el diagrama de dispersin. La planilla electrnica permite observar en forma
simultnea los efectos que provoca la modificacin de algn dato en el diagrama de
dispersin y en el coeficiente de correlacin.

La enseanza de la prctica de la estadstica debera basarse en la resolucin de


estudios de casos. El software adecuado podra apoyar cursos basados en el estudio
de casos, para presentar problemas prcticos que requieren:

1. La formulacin de hiptesis
2. La recoleccin de datos
3. La comprobacin de hiptesis
4. La comunicacin de resultados e ideas

Adems, ayudan a cambiar el nfasis de los tradicionales "problemas de planteo"


a "estudios de casos".

En el desarrollo de "estudios de casos", el uso de la computadora implica dar


mayor importancia a temas que antes no se priorizaban. Cuando se fomenta a los
alumnos que desarrollen una investigacin donde deban recolectar datos, se
plantea el problema de cmo organizar luego la tabla de datos. Proponemos incluir
en los cursos un capitulo dedicado a la creacin de estas tablas.

4. CONCLUSIONES

Presentamos en esta seccin las conclusiones que se derivan de nuestro estudio, en


relacin a los contenidos tericos de los cursos, la actividad del profesor y su
relacin con el alumno, y su efecto sobre los contenidos de las asignaturas.

Una consecuencia inmediata de la incorporacin de la computadora en los cursos


de estadstica es, en contra de lo que podra pensarse, el incremento que se produce
en los contenidos tericos. Eso tiene especial importancia dentro de lo que es la
formacin de estadstica, ya que, para muchas carreras, la estadstica ser usada
como una herramienta ms de las que se cuenta en una oficina.

Ya se ha mencionado que la computadora puede conducirnos a cambiar nuestro


punto de vista acerca de la estadstica y la actividad del profesor. El aspecto
experimental en estadstica es ms prominente y los alumnos deben desarrollar
habilidades como observar, explorar, formar nociones e intuiciones (generar
hiptesis), predecir, probar hiptesis, conducir estas pruebas, controlar variables,
simular, etc. Pero no hay que descuidar actividades estadsticas tradicionales, como
clculo de probabilidades, teora del muestreo, etc.

Las computadoras pueden cambiar la relacin entre estudiantes y profesores, ya


que stas permiten al estudiante ser cognitivamente activo en estadstica. La
computadora puede ser un auxiliar didctico del profesor como pizarrn
electrnico, dentro del esquema tradicional ctedra-ejemplos-tarea-examen. o bien
el alumno interacta con la computadora y se llega a una estructura proyecto-
interaccin entre alumno, mquina y profesor. Esto producir una "revolucin" en
muchos salones de clase, ya que tendra que cambiar la metodologa y las metas de
la enseanza y la evaluacin del aprendizaje.
Es importante notar que el uso razonable de computadoras requiere software con
un buen estndar educativo, cuya integracin al curriculum debe coordinarse con
programas de actualizacin de los profesores para lo cual se necesitan recursos
financieros. Peligros de un uso indiscriminado de computadoras requieren ms
investigacin ya que puede causar una uniformizacin del pensamiento estadstico
de los alumnos y la falta de dilogo entre alumno y profesor.

No queremos dejar de mencionar que sobre el uso de la computadora en la


enseanza de la estadstica est en juego, evidentemente, una cuestin de filosofa
Qu estadstica tiene que saber un economista, un ingeniero, un socilogo, un
mdico, etc.?

En realidad parece claro que ese futuro economista, ingeniero, socilogo, mdico
debe conocer conceptos estadsticos, precisamente aquellos que le posibiliten
abordar problemas de su trabajo. Es mucho ms discutible que tenga que saber las
destrezas de clculo asociadas a esos conceptos. Entre otras cosas, porque esas
destrezas ponen al descubierto su misma limitacin.

Independientemente de la cuestin de los programas de las asignaturas no se puede


ya objetar que quiz no siempre se tenga a mano una computadora. Programas
como una planilla electrnica que funciona en cualquier ordenador personal cuyo
costo es comparable al de una calculadora, cuyo manejo se aprende casi
intuitivamente, ponen ms al descubierto que el problema no es fundamentalmente
de medios.

Si las Universidades van a invertir dinero en hardware o software, es necesario


intentar tener el mejor uso posible de dichos recursos. Algunas reas de la
estadstica parecen ofrecer ms posibilidades de un buen uso de las computadoras:

1. El estudiante debera adquirir la capacidad de juzgar si es razonable un


resultado dado por una computadora.
2. La computadora podra ser til para detectar errores de los alumnos y
motivarlos para intensificar su actividad en estadstica
3. El estudio de casos podra recibir ms atencin si una mquina est
realizando clculos engorrosos. Tambin existen programas que permiten al
alumno fijarse en estrategias especficas para el estudio de casos.
4. La representacin grfica se facilita con software que elabora grficas
rpidas y precisas, y permite el cambio de parmetros con facilidad.
5. Alumnos con dificultades para el clculo matemtico podran adquirir
destreza en la metodologa de investigacin estadstica. En la metodologa
tradicional estas dificultades de clculos prcticamente incapacitan al
alumno, sin permitirle llevar a la etapa de interpretacin de resultados y
ubicacin dentro de un contexto ms amplio.

Debemos ser conscientes, que podemos crear la figura del estudiante dependiente
de la computadora en la aplicacin de mtodos estadsticos. Qu sucede cuando
un estudiante no tiene a mano la computadora para resolver problemas de otras
asignaturas que utilicen cuestiones estadsticas?. La respuesta que dan los
estudiantes es: "Que esas otras asignaturas cambien". Del mismo modo en que se
ha suscitado este problema, es posible que haya otros aspectos negativos
insospechados.

Estamos recin empezando a sentir el impacto de la computadora sobre la


enseanza y el aprendizaje de la estadstica. Muchas aplicaciones de la
computadora en la educacin aprovechan el aspecto dinmico del despliegue en la
pantalla. La contribucin de la computadora es la de una ayuda para el clculo,
para graficar y para desarrollar ideas, poniendo nfasis en metodologa de la
investigacin estadstica y el estudio del anlisis exploratorio. La computadora por
s solo no mejora la enseanza, tenemos que aprender a aprovecharla al mximo.

1. Indica que variables son cualitativas y cuales

cuantitativas:

1 Comida Favorita.

2 Profesin que te gusta.

3 Nmero de goles marcados por tu equipo favorito en la


ltima temporada.

4 Nmero de alumnos de tu Instituto.

5 El color de los ojos de tus compaeros de clase.

6 Coeficiente intelectual de tus compaeros de clase.

2. De las siguientes variables indica cules son discretas y


cuales continuas.

1 Nmero de acciones vendidas cada da en la Bolsa.

2Temperaturas registradas cada hora en un observatorio.

3 Perodo de duracin de un automvil.

4 El dimetro de las ruedas de varios coches.

5 Nmero de hijos de 50 familias.


6 Censo anual de los espaoles.

3. Clasificar las siguientes variables en cualitativas y

cuantitativas discretas o continuas.

1 La nacionalidad de una persona.

2 Nmero de litros de agua contenidos en un depsito.

3 Nmero de libros en un estante de librera.

4 Suma de puntos tenidos en el lanzamiento de un par de


dados.

5 La profesin de una persona.

6 El rea de las distintas baldosas de un edificio.

4. Las puntuaciones obtenidas por un grupo en una prueba han


sido:

15, 20, 15, 18, 22, 13, 13, 16, 15, 19, 18, 15, 16, 20, 16, 15,

18, 16, 14, 13.

Construir la tabla de distribucin de frecuencias y dibuja el

polgono de frecuencias.

5. El nmero de estrellas de los hoteles de una ciudad viene


dado por la siguiente serie:

3, 3, 4, 3, 4, 3, 1, 3, 4, 3, 3, 3, 2, 1, 3, 3, 3, 2, 3, 2, 2, 3, 3,

3, 2, 2, 2, 2, 2, 3, 2, 1, 1, 1, 2, 2, 4, 1.

Construir la tabla de distribucin de frecuencias y dibuja el

diagrama de barras.
6. Las calificaciones de 50 alumnos en Matemticas han sido
las siguientes:

5, 2, 4, 9, 7, 4, 5, 6, 5, 7, 7, 5, 5, 2, 10, 5, 6, 5, 4, 5, 8, 8, 4,

0, 8, 4, 8, 6, 6, 3, 6, 7, 6, 6, 7, 6, 7, 3, 5, 6, 9, 6, 1, 4, 6, 3, 5, 5,

6, 7.

Construir la tabla de distribucin de frecuencias y dibuja el

diagrama de barras .

7. Los pesos de los 65 empleados de una fbrica vienen dados por la


siguiente tabla:

[50, [60, [70, [90, [100, [110,


Peso [80,90)
60) 70) 80) 100) 110) 120)

fi 8 10 16 14 10 5 2

1 Construir la tabla de frecuencias .

2 Representar el histograma y el polgono de frecuencias.

8. Los 40 alumnos de una clase han obtenido las siguientes


puntuaciones, sobre 50, en un examen de Fsica.

3, 15, 24, 28, 33, 35, 38, 42, 23, 38, 36, 34, 29, 25, 17, 7,

34, 36, 39, 44, 31, 26, 20, 11, 13, 22, 27, 47, 39, 37, 34, 32, 35,

28, 38, 41, 48, 15, 32, 13.

1 Construir la tabla de frecuencias .

2 Dibujar el histograma y el polgono de frecuencias .

9. Sea una distribucin estadstica que viene dada por la siguiente tabla:
xi 61 64 67 70 73

fi 5 18 42 27 8

Calcular:

1 La moda, mediana y media.

2 El rango, desviacin media, varianza y desviacin tpica .

10.Calcular la media, la mediana y la moda de la siguiente


serie de nmeros: 5, 3, 6, 5, 4, 5, 2, 8, 6, 5, 4, 8, 3, 4, 5, 4, 8, 2,

5, 4.

11 Hallar la varianza y la desviacin tpica de la siguiente


serie de datos:

12, 6, 7, 3, 15, 10, 18, 5.

12 Hallar la media, mediana y moda de la siguiente serie de


nmeros:

3, 5, 2, 6, 5, 9, 5, 2, 8, 6.

13. Hallar la desviacin media, la varianza y la desviacin


tpica de la series de nmeros siguientes:

2, 3, 6, 8, 11.

12, 6, 7, 3, 15, 10, 18, 5.

14 Se ha aplicado un test a los empleados de una fbrica, obtenindose la


siguiente tabla:

fi
[38, 44) 7

[44, 50) 8

[50, 56) 15

[56, 62) 25

[62, 68) 18

[68, 74) 9

[74, 80) 6

Dibujar el histograma y el polgono de frecuencias

acumuladas.

15. Dadas las series estadsticas:

3, 5, 2, 7, 6, 4, 9.

3, 5, 2, 7, 6, 4, 9, 1.

Calcular:

La moda, la mediana y la media.

La desviacin media, la varianza y la desviacin tpica.

Los cuartiles 1 y 3.

Los deciles 2 y 7.

Los percentiles 32 y 85.

16. Una distribucin estadstica viene dada por la siguiente tabla:


[10, [15, [20, [25, [30,

15) 20) 25) 30) 35)

fi 3 5 7 4 2

Hallar:

La moda, mediana y media.

El rango, desviacin media y varianza.

Los cuartiles 1 y 3.

Los deciles 3 y 6.

Los percentiles 30 y 70.

17. Dada la distribucin estadstica:

[0, [5, [10, [15, [20, [25,

5) 10) 15) 20) 25) )

fi 3 5 7 8 2 6

Calcular:

La mediana y moda.

Cuartil 2 y 3.

Media.

También podría gustarte