Está en la página 1de 65

Estadstica Descriptiva o Anlisis Exploratorio

de Datos

oNos ayudan a organizar la informacin que nos dan los datos de manera
de detectar algn patrn de comportamiento as como tambin
apartamientos importantes al modelo subyacente

oNos presentan los datos de modo tal que sobresalga su estructura.

Explorar los datos, debe ser la primera etapa de todo anlisis de datos.

Apuntes: Notas de Liliana Orellana Clases de Ana Bianco


Estadstica descriptiva
Hay varias formas de organizar los datos:

o Mtodos grficos: permiten detectar tanto las caractersticas


sobresalientes como las caractersticas inesperadas.

o Medidas resumen: resumirlos en uno o dos nmeros que pretenden


caracterizar el conjunto con la menor distorsin o perdida de informacin
posible.
Estadstica descriptiva
POBLACIN: total de sujetos o unidades de anlisis de inters en el
estudio
(Todos los nios sanos con edad entre 0 y 5 aos.)

MUESTRA: cualquier subconjunto de los sujetos o unidades de anlisis de


la poblacin, en el cual se recolectarn los datos

Usamos una muestra para conocer o estimar caractersticas de la


poblacin, denominamos:

PARMETRO: una medida resumen calculada sobre la poblacin

ESTADSTICO : una medida resumen calculada sobre la muestra


Estadstica descriptiva
Cuando existen datos para toda la poblacin (CENSO) no hay necesidad de
usar mtodos estadsticos, ya que es posible calcular exactamente los
parmetros de inters.

Ejemplo: en el censo poblacional, se registra el sexo de todas las


personas censadas, que son prcticamente toda la poblacin, as que es
posible conocer
exactamente la proporcin de habitantes de los dos sexos
Estadstica descriptiva
VARIABLE: Una variable es una caracterstica que vara de individuo en
individuo.

(edad, peso, altura, gnero, concentracin de colesterol en sangre, club de


ftbol preferido etc.)

DATOS: son los valores de la variable en estudio

Los datos disponibles se obtienen a partir de una muestra de la poblacin


de inters, como los valores observados de la o las variables de inters.
Estadstica descriptiva
TIPOS DE DATOS:
Categricos:

dicotmicos: (dos categoras) ( sexo, genero, fuma o no fuma)


mas categoras:
nominales: No existe orden obvio entre las categoras.
(pas de origen, estado civil, diagnstico.)
ordinales: Existe un orden natural entre las categoras.
(Tabaquismo: No fuma / ex-fumador / fuma 10
cigarrillos diarios / fuma > 10 cigarrillos diarios)
(Severidad de la patologa: Ausente/leve/moderado/severo)
Estadstica descriptiva
TIPOS DE DATOS:
Numricos: el resultado de la observacin o medicin es un nmero

Discretos: La variable slo puede tomar un cierto conjunto de


valores posibles. En general, aparecen por conteo.
(nmero de miembros del hogar, nmero de intervenciones
quirrgicas, nmero de casos notificados de una cierta patologa.)
Continuos: Generalmente son el resultado de una medicin que
se expresa en unidades. Las mediciones pueden tomar
tericamente un conjunto infinito de valores posibles dentro de
un rango. En la prctica los valores posibles de la variable estn
limitados por la precisin del mtodo de medicin o por el modo
de registro.
( altura, peso, pH, nivel de colesterol en sangre.)
Estadstica descriptiva
El tipo de dato nos permite decidir que anlisis estadstico utilizar.

Ejemplo: Edad es continua, pero si se la registra en aos resulta ser


discreta. En estudios con adultos, en que la edad va de 20 a 70 aos, por
ejemplo, no hay problemas en tratarla como continua, ya que el nmero
de valores posibles es muy grande. Pero en el caso de nios en edad
preescolar, si la edad se registra en aos debe tratarse como discreta, en
tanto que si se la registra en meses puede tratarse como continua.

Los datos numricos (discretos o continuos) pueden ser transformados en


categricos y ser tratados como tales.
Aunque esto es correcto no necesariamente es eficiente y siempre es
preferible registrar el valor numrico de la medicin.
Estadstica descriptiva
Los datos numricos (discretos o continuos) pueden ser transformados en
categricos y ser tratados como tales.
Aunque esto es correcto no necesariamente es eficiente y siempre es
preferible registrar el valor numrico de la medicin.

Por qu es importante identificar el tipo de datos?

Porque el tipo de datos DETERMINA el mtodo de anlisis apropiado y


vlido y cada mtodo de anlisis estadstico es especfico para un cierto
tipo de datos. La distincin ms importante es entre datos numricos y
categricos.
Mtodos Grficos:
REPRESENTACIN DE DATOS CATEGRICOS

TABLA DE FRECUENCIA
El modo ms simple de presentar datos categricos es por medio de una
tabla de frecuencias que indica el nmero observaciones que caen en
cada una de las clases de la variable.

GRFICO DE BARRAS
A cada categora o clase de la variable se le asocia una barra cuya altura
representa la frecuencia o la frecuencia relativa de esa clase. Las barras
difieren slo en altura, no en ancho.

GRFICO DE TORTAS
Se representa la frecuencia relativa de cada categora como una porcin
de un crculo, en la que el ngulo se corresponde con la frecuencia relativa
correspondiente.
Mtodos Grficos
REPRESENTACIN DE DATOS NUMERICOS

Trataremos de responder a preguntas tales como:

Son los valores medidos casi todos iguales?


Son muy diferentes unos de otros?
En qu sentido difieren?
Cmo podemos describir cualquier patrn o tendencia?
Son un nico grupo? Hay varios grupos de nmeros?
Difieren algunos pocos nmeros notablemente del resto?
Mtodos Grficos
REPRESENTACIN DE DATOS NUMERICOS
GRFICO DE TALLOS Y HOJAS (STEM AND LEAF)
Esta tcnica grfica desarrollada por Tukey es muy sencilla y permite
mostrar la forma de la distribucin de una variable numrica.
Es apropiada para conjuntos de observaciones no muy extensos, se
construye con poco esfuerzo por lo que es muy simple de realizar con lpiz
y papel.
Mtodos Grficos
REPRESENTACIN DE DATOS NUMERICOS
GRFICO DE TALLOS Y HOJAS (STEM AND LEAF)

1. Separamos cada observacin en dos porciones, TALLO y HOJA. En


general, el tallo tendr tantos dgitos como sea necesario, pero las
hojas contendrn un nico dgito.

Ejemplo: tallo 96 hoja

2. Se listan los tallos verticalmente en orden creciente y se traza una


lnea vertical a la derecha de los tallos
Mtodos Grficos
REPRESENTACIN DE DATOS NUMERICOS
GRFICO DE TALLOS Y HOJAS (STEM AND LEAF)

3. A continuacin de cada tallo se agregan las hojas correspondientes en


la misma lnea, arreglndolas de menor a mayor.
Se debe tomar una decisin sobre qu se har con el dgito posterior
a la hoja, si se truncar o se redondear, poco se pierde truncando y
esta ltima opcin hace ms simple volver a la lista de datos a partir
del grfico.
Los tallos que no estn acompaados con hojas tambin se
representan, de este modo se respeta la escala de los datos.
Mtodos Grficos
REPRESENTACIN DE DATOS NUMERICOS
GRFICO DE TALLOS Y HOJAS (STEM AND LEAF)

Que vemos en este diagrama?

Forma de la distribucin: simetra, asimetra a derecha, asimetra a


izquierda

Posicin del centro de la distribucin y concentracin de los datos

Desviaciones marcadas respecto al comportamiento general: outliers


Mtodos Grficos
REPRESENTACIN DE DATOS NUMERICOS
GRFICO DE TALLOS Y HOJAS (STEM AND LEAF)
Mtodos Grficos
REPRESENTACIN DE DATOS NUMERICOS
GRFICO DE TALLOS Y HOJAS (STEM AND LEAF)
Mtodos Grficos
REPRESENTACIN DE DATOS NUMERICOS
GRFICO DE TALLOS Y HOJAS (STEM AND LEAF)
Mtodos Grficos
REPRESENTACIN DE DATOS NUMERICOS
GRFICO DE TALLOS Y HOJAS (STEM AND LEAF)

Los grficos de tallo-hojas son tiles para comparar la distribucin de una


variable en dos condiciones o grupos. El grfico se denomina tallo-hojas
espalda con espalda porque ambos grupos comparten los tallos.

Comparacin de la presin arterial sistlica en pacientes sometidos a dos


tcnicas anestsicas (30 minutos del inicio de la anestesia).
Mtodos Grficos
REPRESENTACIN DE DATOS NUMERICOS
HISTOGRAMAS
El histograma es el ms conocido de los grficos para resumir un conjunto
de datos Numricos.

Una virtud del grfico de tallo-hojas es que retiene los valores de las
observaciones, sin embargo, esta caracterstica puede ser una desventaja
para gran cantidad de datos.

Construir manualmente un histograma es ms laborioso que construir un


grfico de tallo-hojas, pero la mayora de los paquetes estadsticos
producen histogramas.

Para construir un histograma es necesario previamente construir una


tabla de frecuencias
Mtodos Grficos
REPRESENTACIN DE DATOS NUMERICOS
HISTOGRAMAS
Dividimos el rango de los n datos en intervalos o clases, que no se
superponen. Las clases deben ser excluyentes y exhaustivas.

Contamos la cantidad de datos en cada intervalo o clase, es decir la


frecuencia.

Tambin podemos usar para cada intervalo la frecuencia relativa

Graficamos el histograma en un par de ejes coordenados representando


en las abscisas los intervalos y sobre cada uno de ellos un rectngulo cuya
rea es proporcional a la frecuencia relativa de dicho intervalo.
Mtodos Grficos
REPRESENTACIN DE DATOS NUMERICOS
HISTOGRAMAS
Mtodos Grficos
REPRESENTACIN DE DATOS NUMERICOS
HISTOGRAMAS
Mtodos Grficos
REPRESENTACIN DE DATOS NUMERICOS
HISTOGRAMAS
No es necesario que todos los intervalos tengan la misma longitud, pero
es recomendable que as sea. Esto facilita la lectura.

El histograma representa la frecuencia o la frecuencia relativa a travs del


rea y no a travs de la altura.

Es recomendable tomar

Altura del rectngulo = frecuencia relativa


Long. del intervalo

De esta manera el rea es 1 y dos histogramas son fcilmente


comparables independientemente de la cantidad de observaciones en las
que se basa cada uno.
Mtodos Grficos
REPRESENTACIN DE DATOS NUMERICOS
HISTOGRAMAS
Mtodos Grficos
REPRESENTACIN DE DATOS NUMERICOS

HISTOGRAMAS

No existen criterios ptimos para elegir la cantidad de intervalos. En


general, entre 8 y 15 intervalos deberan ser suficientes. Muchos o muy
pocos intervalos puede ser poco informativo.

Se busca un equilibrio entre un histograma muy irregular y uno demasiado


suavizado.
Mtodos Grficos
REPRESENTACIN DE DATOS NUMERICOS
HISTOGRAMAS

Qu podemos ver en un histograma?


Rango de variacin de los datos (Mnimo Mximo)
Intervalos ms frecuentes
Simetra o Asimetra
Mtodos Grficos
REPRESENTACIN DE DATOS NUMERICOS
HISTOGRAMAS

Qu podemos ver en un histograma?


Rango de variacin de los datos (Mnimo Mximo)
Intervalos ms frecuentes
Simetra o Asimetra
Mtodos Grficos
REPRESENTACIN DE DATOS NUMERICOS
HISTOGRAMAS

En que difieren un grfico de barras y un histograma?

-El grfico de barras representa el porcentaje en la altura de la barra.


Mientras que en un histograma el porcentaje se representa en el rea
de la barra.

- En el grfico de barras, las barras se representan separadas para


indicar que no hay continuidad entre las categoras. En un histograma
barras adyacentes deben estar en contacto indicando que la variable es
continua.
Mtodos Grficos
REPRESENTACIN DE DATOS NUMERICOS
HISTOGRAMAS
Medidas resumen
Resumiremos la informacin de los datos mediante medidas de fcil
interpretacin que reflejen sus caractersticas ms relevantes. Las medidas
resmenes son tiles para comparar conjuntos de datos y para presentar los
resultados de un estudio.

Se clasifican en dos grupos principales:

Medidas de posicin o localizacin: describen un valor alrededor del cual se


encuentran las observaciones

Medidas de dispersin o escala: pretenden expresar cuan variable es un


conjunto
de datos.
Medidas resumen
Medidas de Posicin o Centrado
Cul es el valor central o que mejor representa a los datos?

Buscamos un valor tpico que represente a los datos.

Si la distribucin es simtrica diferentes medidas darn resultados similares y hay


un claro valor de centrado.

Si es asimtrica no existe un centro evidente y diferentes criterios para resumir


los datos pueden diferir considerablemente.
Medidas resumen
Medidas de Posicin o Centrado
Promedio o Media Muestral

Sumamos todas las observaciones y dividimos por el nmero total


datos.
Medidas resumen
Medidas de Posicin o Centrado
Medidas resumen
Medidas de Posicin o Centrado
Media de datos agrupados

Supongamos que se dispone de dos conjuntos de datos en los


que se conoce la media y el nmero de datos de cada uno
(hombres/ mujeres) ( x1 , n1 , x2 , n2 )

x1n1 + x2 n2
x=
n1 + n2
Medidas resumen
Medidas de Posicin o Centrado
Medidas resumen
Medidas de Posicin o Centrado

Mediana poblacional

La mediana poblacional se define de modo equivalente a la mediana


muestral y es el valor de la variable por debajo del cual se encuentra
a lo sumo el 50% de la poblacin y por encima del cual se encuentra
a lo sumo el 50% de la poblacin.
Medidas resumen
Medidas de Posicin o Centrado

Mediana poblacional
Medidas resumen
Medidas de Posicin o Centrado
Medidas resumen
Medidas de Posicin o Centrado
Medidas resumen
Medidas de Dispersin
Medidas resumen
Medidas de Dispersin
Medidas resumen
Medidas de Dispersin
Medidas resumen
Medidas de Dispersin
Medidas resumen
Medidas de Dispersin
Medidas resumen
Medidas de Dispersin
Mtodos Grficos
REPRESENTACIN DE DATOS NUMERICOS
Boxplot
Mtodos Grficos
REPRESENTACIN DE DATOS NUMERICOS
Boxplot

1. Representamos una escala vertical u horizontal

2. Dibujamos una caja cuyos extremos son los cuartiles y dentro de ella un
segmento que corresponde a la mediana.

3. A partir de cada extremo dibujamos un segmento hasta el dato ms alejado


que est a lo sumo 1.5 dI del extremo de la caja. Estos segmentos se llaman
bigotes.

4. Marcamos con * a aquellos datos que estn entre 1.5 dI y 3 dI de cada extremo
y con o a aquellos que estn a ms
Mtodos Grficos
REPRESENTACIN DE DATOS NUMERICOS
Boxplot
Mtodos Grficos
REPRESENTACIN DE DATOS NUMERICOS
Boxplot

Que vemos en un box-plot?

oposicin
oDispersin
oAsimetra
olongitud de las colas
opuntos anmalos o outliers.

Los box-plots son tiles para comparar varios conjuntos de datos, pues nos dan una
rpida impresin visual de sus caractersticas.
Mtodos Grficos
REPRESENTACIN DE DATOS NUMERICOS
Boxplot
Se sembraron 25000 clulas en cada well en un Multiwell de 24 wells. Se
aplicaron 6 dosis (tetra) 0, 1, 10, 25, 50 y 100 g/ml. Luego de 24 horas se mide
la absorbancia del medio de cultivo de cada well en un espectrofotmetro.
Mtodos Grficos
REPRESENTACIN DE DATOS NUMERICOS
Boxplot
Mtodos Grficos
REPRESENTACIN DE DATOS NUMERICOS
Boxplot
Mtodos Grficos
REPRESENTACIN DE DATOS NUMERICOS
Boxplot
Mtodos Grficos
REPRESENTACIN DE DATOS NUMERICOS
QQ-Plot o Grafico cuantil-cuantil
Mtodos Grficos
REPRESENTACIN DE DATOS NUMERICOS
QQ-Plot o Grafico cuantil-cuantil
Mtodos Grficos
REPRESENTACIN DE DATOS NUMERICOS
QQ-Plot o Grafico cuantil-cuantil
Mtodos Grficos
REPRESENTACIN DE DATOS NUMERICOS
QQ-Plot o Grafico cuantil-cuantil
ERRORES
Errores en el Proceso de Medicin

En todo proceso de medicin existen limitaciones dadas por

o los instrumentos usados


o el mtodo de medicin
o el observador

El mismo proceso de medicin introduce errores o incertezas.

Ejemplo: Si usamos un termmetro para medir una temperatura, parte del calor del objeto
fluye al termmetro, de modo que el resultado de la medicin es un valor modificado del
original debido a la interaccin. Esta interaccin podr o no ser significativa, de acuerdo a si
medimos la temperatura de un metro cbico de agua si el volumen en cuestin es una
fraccin del mililitro.
ERRORES
Errores en el Proceso de Medicin
Los instrumentos que usamos para medir como las magnitudes mismas son fuente de
incertezas al momento de medir.

Los instrumentos tienen una precisin finita, por lo tanto siempre existe una variacin
mnima de la magnitud que puede detectar.

Ejemplo: con una regla graduada en milmetros, no podemos detectar variaciones menores
que una fraccin del milmetro.

Las magnitudes a medir no estn definidas con infinita precisin.

Ejemplo: Si queremos medir el largo de una mesa, si usamos instrumentos cada vez ms
precisos empecemos a notar las irregularidades
ERRORES
Errores en el Proceso de Medicin:

Tipos de Errores:

Errores sistemticos: (sesgo) surgen por falla del equipo o del diseo.
No se pueden evaluar realizando medidas repetidas.

Errores aleatorios: surgen por efectos de variables no controladas.


Siempre esta presente, nunca se pueden eliminar. Podemos
.minimizarlos y realizando medidas repetidas independientes se pueden
evaluar, usando procedimientos estadsticos .
ERRORES
Errores en el Proceso de Medicin

Precisin: la precisin de un instrumento o un mtodo de medicin est asociada a la


sensibilidad o menor variacin de la magnitud que se pueda detectar con dicho instrumento
o mtodo.

Ejemplo: un cronmetro es ms preciso que un reloj comn

Exactitud: La exactitud de un instrumento o mtodo de medicin est asociada a la calidad de


la calibracin del mismo, a la proximidad del valor verdadero.

Ejemplo: Imaginemos que el cronmetro que usamos es capaz de determinar la


centsima de segundo pero adelanta dos minutos por hora, mientras que un reloj de pulsera
comn no lo hace. En este caso decimos que el cronmetro es todava ms preciso que el
reloj comn, pero menos exacto.
ERRORES
Errores en el Proceso de Medicin: Precisin y Exactitud
ERRORES
Errores en el Proceso de Medicin

Tenemos errores por diversos origenes

Error de apreciacin (minima division de escala)


Error de definicin (falta de definicin del objeto)
Error de interaccin (interaccin en el metodo de medicin)
ERRORES
Errores en el Proceso de Medicin

MEDICION= +1+2+3+ +n
errores

Cantidad a medir: (desconocido pero no aleatorio)


2 2 2 2 2
VAR(+1+2+3+ +n)=1+2+3+.+n= si llamamos =1+2+3+ +n
2 2
X= + donde ~N(0, ) esto es equivalente a X ~N(, )

MODELO

También podría gustarte