Está en la página 1de 88

Tema 1 de Anlisis de datos resumen

Conceptos bsicos y organizacin de datos

UNED

Curso 2012

Mariluz Lozano Gago


1.1.Introduccin

La estadstica se aplica en todas las reas del saber, y puede ser terica o aplicada
(a la realidad, se entiende), siendo llamada esta ltima: "anlisis de datos".

1.2. La investigacin en Psicologa.

Con la aparicin de la ciencia moderna en el siglo XVII, el mtodo cientfico pas


a ser la fuente de estudio ms utilizada, aunque no la nica. El mtodo cientfico
consiste en dar razn sistemtica, emprica y en lo posible experimental, de los
fenmenos (Yela, 1994). El mtodo cientfico se caracteriza por ser sistemtico (=en
fases) y replicable (= debe arrojar datos susceptibles de rplica o refutacin por
cualquier investigador interesado). Las fases interdependientes del mtodo cientfico
son:

1. Definicin del problema.


2. Deduccin de hiptesis contrastables.
3. Establecimiento de un procedimiento de recogida de datos.
4. Anlisis de los resultados obtenidos. * (objeto de esta asignatura)
5. Discusin de dichos resultados y bsqueda de conclusiones.
6. Informe.

1.3. Concepto y funciones de la estadstica: descriptiva e inferencial.

La Estadstica en general se ocupa de la sistematizacin, recogida, ordenacin y


presentacin de los datos referentes a un fenmeno que presenta variabilidad o
incertidumbre para su estudio metdico, con objeto de hacer previsiones sobre los
mismos, tomar decisiones u obtener conclusiones.

La Estadstica descriptiva = mediante la estadstica descriptiva se organizan y


resumen conjuntos de observaciones procedentes de una muestra o de la poblacin total,
en forma cuantitativa.

La Estadstica inferencial = se realizan inferencias acerca de una poblacin


basndose en los datos obtenidos a partir de una muestra. Para realizar estas
generalizaciones de la muestra a la poblacin se utiliza el clculo de probabilidades.

* Conceptos estadsticos bsicos:

Poblacin : Conjunto de todos los elementos que cumplen una determinada


caracterstica objeto de estudio.

Muestra: Un subconjunto cualquiera de una poblacin

Parmetro: Es una medida (= propiedad descriptiva) de una poblacin

Estadstico: Es una medida (= propiedad descriptiva) de una muestra (vg, el


porcentaje de la muestra que responde que s votar en unas elecciones)
Las conclusiones obtenidas de una muestra slo servirn para el total de una
poblacin si la muestra es representativa (y para que sea representativa se usan mtodos
de muestreo probabilstico). Por contra, las muestras no probabilsticas no se basan en
las matemticas de las probabilidades como vg la muestra de conveniencia o incidental
(personas cercanas al investigador, fcil acceso)

1.4. Medicin y escalas de medida.

Consiste en asignar un nmero a cada una de las modalidades de una


caracterstica.
Hay 4 tipos de escala de medida:

Nominal= Asignacin de nmeros o smbolos, por tanto la nica relacin que


obtenemos es la de igualdad o desigualdad. (no hay suma) Vg catlicos practicantes
versus catlicos no practicantes.

Ordinal= Como su propio nombre indica, aparte de la igualdad o desigualdad ,


tambin nos indica el orden de las posiciones del objeto clasificado. Nos permite
establecer relaciones de mayor que o menor que. Ejemplo status socioeconmico (1, 2,
3: alto, medio, bajo, los ns no slo indican diferentes modalidades sino tambin orden
entre ellas)

Intervalo= Adems de las caractersticas de la escala nominal (igualdad o


desigualdad) y ordinal (orden) , la escala de intervalo se identifica porque cada nmero
es una unidad de medicin, podemos sumarlos o restarlos obteniendo resultados
coherentes (a diferencia de la escala nominal)
Es importante sealar que en la escala de intervalo el origen es arbitrario.

Ejemplo: el test de inteligencia, el 0 no significa la ausencia de inteligencia, ni 160 de


CI supone el doble de inteligencia que 80.

De razn= Adems de todas las caractersticas de las tres escalas diferentes, supera a las
dems en que se puede establecer un punto de origen verdadero de valor cero (a
diferencia del 0 arbitrario de la escala de intervalo). Es lo que se conoce como valor
absoluto. Ejemplo: la altura y el peso.

1.5. Variables: clasificacin y notacin.

Variable: Representacin numrica de una caracterstica que presenta ms de


una modalidad (valor) de un conjunto determinado.
Si una caracterstica tiene una nica modalidad se llama constante.
Segn el nivel de medicin tenemos tantas variables como escalas (variable nominal,
ordinal, de intervalo, de razn).
Aparte de esta clasificacin existen ms clasificaciones:
- Variable independiente: Cualquier suceso que sospechamos es la causa de otro, es la
manipulada o controlada a su vez por el investigador
- Variable dependiente: Medida utilizada para estudiar la variable independiente = es
tambin llamada variable consecuente, y est subordinada a la independiente.
- Variable extraa: Aquellas que pueden influir sobre la variable dependiente pero no
nos interesa estudiar sus efectos.

Para referirnos a un valor cualquiera de la variable X se utiliza el subndice i (Xi ),


siendo n el nmero de elementos que componen la muestra:

1.6. Distribucin de frecuencias.

Una distribucin de frecuencias es una representacin de la relacin entre un


conjunto de medidas exhaustivas y mutuamente influyentes y la frecuencia de cada una
de ellas.

Funciones:
- Ofrecer la informacin necesaria para realizar representaciones grficas
- Facilitar los datos para obtener los estadsticos muestrales
Conceptos

Frecuencia absoluta (ni): Nmero de veces que se repite cada uno de los valores de
una variable. La suma de todas las frecuencias absolutas representa el total de la
muestra (n)
Proporcin o frecuencia relativa (pi): Cociente entre la frecuencia absoluta de cada
valor de la variable (ni) y el nmero total de observaciones (n). pi = ni /n
Porcentaje (Pi): Valor de la frecuencia relativa (pi) multiplicado por cien: Pi = pi x 100

Frecuencia absoluta acumulada (na): Nmero de veces que se repita cada modalidad
o cualquiera de las modalidades inferiores.

Proporcin acumulada o frecuencia relativa acumulada (pa): Cociente entre la


frecuencia absoluta acumulada de cada clase y el total de observaciones. pa = na / n
Porcentaje acumulado (Pa): Valor de la frecuencia relativa acumulada multiplicado
por cien. Pa= pax 100

Ms conceptos
Si la variable cuantitativa es reducida (nmero de hijos) no hay problema, la utilizamos
tal cual. Pero si ocurre que puede ser muy amplia (edad) debemos recurrir a la
agrupacin en intervalos.
La amplitud de los intervalos representa al nmero de unidades que tenemos dentro de
cada intervalo. No es lo mismo tener una amplitud de intervalos de 10 en 10 (11-20)
(21-30) (31-40) que de 5 en 5 (15-19) (20-24) (25-29).
Obviamente al establecer intervalos siempre se pierde informacin. Por lo tanto hay que
buscar equilibrio entre la precisin que buscamos y lo cmodo que sea trabajar con esos
datos (si no establecisemos intervalos podramos encontrarnos con tablas de 100 filas)

Aunque tengamos un intervalo de edad (25-35) (36-45) no significa que no pueda haber
personas con 35,5 aos. Por lo tanto los intervalos (25-35) y (36-45) reciben el nombre
de limites informados o aparentes. (aparentan ser lo que no son) ya que en realidad los
lmites verdaderos son (25,5-35,5) y (35,5-45,5). El lmite superior exacto del primer
intervalo (35,5) coincide con el lmite inferior exacto del siguiente (35,5)

Clculo de lmites exactos


Lmite exacto = Valor informado (el que nos han dado) +- 0,5 x I
I = Instrumento de medida. (en el caso de las edades I = 1)
Punto Medio: Es la semisuma del lmite superior e inferior del intervalo. Se calcula a
travs de los lmites informados o de los lmites exactos.

*Nota: Con un poco de sentido comn el punto medio se haya sumando los dos valores
del intervalo y dividiendo el resultado entre 2
Tomemos el intervalo (26-35) = 26 + 35 = 61/2 = 35,5.
Ya sabemos lo que es la semisuma
Intervalo abierto: Son los intervalos finales que se utilizan para no tener frecuencia
nula.
Ejemplo de edad: (76 aos o ms)

1.7. Representaciones grficas

Un grfico es una forma rpida de visualizar un conjunto de datos o distribucin de


frecuencias. El sistema de coordenadas ms habitual est formado por:
Eje vertical (ordenada o eje Y)
Eje horizontal (abscisa o eje X)
Origen: Punto donde se juntan ambos ejes
Representacin grfica de una variable
a) Diagrama de barras
Se utiliza para variables nominales, ordinales y cuantitativas discretas.
- En el eje X se colocan los valores y en el Y las frecuencias.
Sobre cada valor de la variable se dibuja un rectngulo o barra perpendicular cuya altura
debe ser igual a la frecuencia.

Diagrama de barras acumulativo


Variedad del diagrama de barras que se utiliza en variables ordinales y cuantitativas
discretas. En el eje X se sitan los valores de la variable y en el eje Y las frecuencias
acumuladas.

b) Diagrama de sectores
Se utiliza para variables cualitativas y cuasicuantitativas
- Representacin en forma de crculo. El crculo se divide en secciones cuya superficie
es proporcional a la frecuencia de la modalidad correspondiente. Para determinar el
ngulo de los sectores de cada modalidad se multiplica la frecuencia relativa por 360,
que es el nmero de grados de una circunferencia.
c) Pictograma
Se utiliza para variables cualitativas
- Son dibujos alusivos al objeto de estudio. Son escalas que deben ser proporcionales al
valor que representan.

d) Histograma (parecido al diagrama de barras pero no hay espacio entre los


rectngulos)
Se utiliza para variables cuantitativas continuas con datos agrupados en intervalos
- En el eje X se colocan los lmites exactos de los intervalos y en el eje Y la frecuencia.

e) Polgono de frecuencias
Se utiliza para variables discretas
- La forma que obtenemos es una lnea poligonal cuya figura se obtiene a partir de
una diagrama de barras o de un histograma.
- Tambin se puede utilizar en frecuencias acumuladas
Representacin grfica de dos variables
a) Diagrama de barras conjunto
Se utiliza cuando al menos una de las dos variables es cualitativa
- Los datos se organizan en una tabla de doble entrada. Se sitan los valores de una
variable en las filas y los valores de la otra variable en las columnas.
- Una vez construida la tabla, se procede a dibujar los grficos por columnas

b) Diagrama de dispersin o nube de puntos


Se utiliza en el caso de dos variables cuantitativas
- Una variable se sita en el eje X y la otra en el eje Y. Para cada par de datos se
localiza la interseccin entre ambas variables y se marca con un punto.
- Es una manera rpida de hallar relaciones lineales entre las dos variables.
1.8. Propiedades de la distribucin de frecuencias.

a) Tendencia central
Se refiere al lugar donde se centra una distribucin particular en la escala de valores.

b) Variabilidad
Se refiere al grado de concentracin de las observaciones en torno al promedio.
Una distribucin de frecuencias ser:
Homognea (tiene poca variabilidad). Si los valores de distribucin estn cercanos al
promedio. (cuando hay pocos rectngulos alrededor del central)
Heterognea (tiene mucha variabilidad). Si los valores se dispersan mucho en torno al
promedio. (cuando hay muchos rectngulos alrededor del central)

c) Asimetra o sesgo
Se refiere al grado en que los datos se reparten equilibradamente por encima y por
debajo de la tendencia central.

Diremos que una distribucin ser simtrica cuando al dividirla en dos a la altura de la
media, las dos mitades se superponen. Si esto no ocurre decimos que se produce
asimetra. Hay dos tipos de asimetra:
Asimetra positiva: Cuando la mayor concentracin de puntuaciones se produce en la
parte baja de la escala.
Asimetra negativa: Cuando la mayor parte de puntuaciones se sita en la parte alta de
la escala.
Tema 2 de Anlisis de datos resumen

Conceptos bsicos y organizacin de datos

UNED

Curso 2012

Mariluz Lozano Gago


Medidas de tendencia central

La media aritmtica

Tambin llamada promedio o media a secas: Es el centro de gravedad de la distribucin


de frecuencias, y slo puede calcularse para variables cuantitativas. La media aritmtica
de una variable X, se define como la suma de todos los valores observados de la
variable divididos por el nmero total de observaciones. Se expresa as
matemticamente:

Si el nmero de observaciones es muy grande, la media aritmtica se puede calcular a


partir de las frecuencias absolutas (ni) o de las frecuencias relativas (pi) (recordemos
que las frecuencias relativas tambin las llambamos proporciones) Recordemos que pi
= ni / n (esto lo vimos en el primer tema)

Para frecuencias absolutas:


_
X = niXi / ni

Para frecuencias relativas:


_
X = piXi

En realidad da igual cual de los dos procedimientos escojamos, ya que ante una misma
distribucin de frecuencias el resultado va a ser el mismo aunque se haga por la frmula
de frecuencias absolutas o mediante la frmula de frecuencias relativas

Ejemplo:
LA MEDIA ARITMTICA (X: suma de las puntuaciones dividida por el nmero de
casos): ndice que toma en consideracin todas las puntuaciones registradas. Slo puede
calcularse con variables cuantitativas. Para proceder a su clculo se toman en
consideracin dos posibilidades:
_
Para valores no agrupados en intervalos X = xi / n

Ejemplo Obtener la Media Aritmtica de los siguientes valores: 4, 7, 8, 12, 6


_
X = xi / n (4 + 7 + 8 + 10 + 6) / 5 = 35 / 5 = 7
_
Donde: xi = n X 35 = (5 7)
_
Para valores agrupados en intervalos X = (ni Xi) / n

Ejemplo Dada la siguiente distribucin de frecuencias absolutas (ni) calcular la


Media Aritmtica:

X ni Xi ni X i _
10 - 12 10 11 110 X = (ni Xi) / n
79 100 8 800 _
46 60 5 300 X = 1. 270 / 200 = 6,35
1-3 30 2 60
Intervalos N = 200 Punto medio ( ni Xi ) = 1. 270
Intervalos

Ejemplo Dada la siguiente distribucin de frecuencias relativas o proporciones (pi)


calcular la Media:

X Xi pi Xi pi _
10 - 12 11 10 / 200 = 0, 05 0, 55 X = (Xi pi )
79 8 100 / 200 = 0, 5 4 _
46 5 60 / 200 = 0, 3 1, 5 X = 6, 35 (resultado
1-3 2 30 / 200 = 0, 15 0, 3 similar al anterior).
Intervalos Punto medio Proporciones ( Xi pi ) =
Intervalos 6,35
Propiedades de la media aritmtica

1. En una distribucin, la suma de las desviaciones de cada valor con respecto a su


media es igual a cero.

_
(Xi-X) = 0

Ejemplo
Obtener las desviaciones con respecto a la media en la siguiente distribucin y
comprobar que su suma es cero.
li-1 - li ni
0 - 10 1
10 - 20 2
20 - 30 4
30 - 40 3
Solucin:
li-1 - li ni xi xi ni

0 - 10 1 5 5 -19 -19
10 - 20 2 15 30 -9 -18
20 - 30 4 25 100 +1 +4
30 - 40 3 35 105 +11 +33

n=10
La media aritmtica es:

Como se puede comprobar sumando los elementos de la ltima columna,

Para intervalos abiertos ( ms / menos) no es posible calcular la Media (no se


puede obtener el punto medio).
La media es un ndice apropiado para una distribucin simtrica.
Si cada una de las puntuaciones de una distribucin (X) se multiplica por una
constante (b) y se le suma otra constante (a), la media de las nuevas puntuaciones (Y) es
igual a la media de las puntuaciones originales (X) multiplicada por la constante b ms
la constante a:
Esto quiere decir que si cada uno de los valores antiguos (X) lo multiplicamos por un
nmero cualquiera y le sumamos otro nmero, obtenemos nuevos valores (Y) pero con
la misma proporcin anterior. Es decir, si tenemos dos valores: X=4 y X=8 y los
multiplicamos por 10, tendremos Y=40 y Y=80, pero la proporcin se sigue
manteniendo, el segundo valor sigue siendo el doble que el primero.

LA MEDIANA

- La utilizaremos cuando la distribucin sea muy asimtrica.


- Los valores extremos no le afectan (a diferencia de la media aritmtica) ya que para su
clculo slo se toman los valores que ocupan posiciones centrales.
- Se puede calcular para todo tipo de variables, excepto cualitativas.

La Mediana de una variable X, representada por Md, se define como el valor de la


variable que divide la distribucin de frecuencias en dos partes iguales, conteniendo
cada una el 50% de las observaciones.
Clculo de mediana con pocos casos
1 - Se ordenan las puntuaciones n de mayor a menor
2 - Se Observa si el nmero de observaciones n es par o impar
- Si es impar, la mediana es el valor de la posicin central
- Si es par, la mediana es la media aritmtica de los dos valores centrales.

Al ser muchos casos, los datos vienen presentados en intervalos. El intervalo en el que
se encuentra la mediana se llama Intervalo crtico y se corresponde con aquel en el que
la frecuencia absoluta acumulada na es igual o superior a n/2.

Li = Lmite exacto inferior del intervalo crtico


n = Nmero de observaciones
nd = Frecuencia absoluta acumulada por debajo del intervalo crtico
nc = Frecuencia absoluta del intervalo crtico
I = Amplitud del intervalo crtico
Casos especiales (pg 69-71) Si hemos entendido el caso anterior, esto es ms de lo
mismo pero con un par de puntualizaciones)
A) Cuando se trata de una distribucin de frecuencias pero los datos no estn agrupados
en intervalos. Como los datos son unitarios, la amplitud (I) ser = 1
Es prcticamente lo mismo que el ejemplo anterior pero con I = 1
B) No se puede calcular la mediana cuando los datos estn agrupados en intervalos y
existe un intervalo abierto en el que se encuentra la mediana.

3) La moda (la ms fcil de todas las medidas de tendencia central)


- Se puede calcular para variables cualitativas y cuantitativas.
- Se representa por Mo y se define como el valor o categora de la variable con
mayor frecuencia absoluta.
- Si los datos estn agrupados en intervalos, la moda se puede calcular excepto si el
intervalo modal coincide con el intervalo abierto.

VARIABLES NOMINALES
(Categora o modalidad ms Xi n!
frecuente) Solteras 25
Casadas 50 Mo
Divorciadas 15
Viudas 10
100

VARIABLES ORDINALES
(Grado o magnitud de la Xi n!
caracterstica ms frecuente) Psimo 5
Regular 15
Es preciso ordenar previamente Bueno 25
los valores para facilitar la lectura
Muy bueno 45
de las frecuencias. Mo
Excelente 10
100

VARIABLES CUANTITATIVAS
(DE INTERVALO O Xi ni
RAZN)
3-5 6
- Punto medio del intervalo con 6-8 9
mayor frecuencia. M0 = 10 9 - 11 18
- Cuando se trata de intervalos Punto Medio 12 - 14 12
abiertos (intervalo 15 - 17 7
superior o inferior sin
lmite (o ms / o menos)
la Moda no puede caer
en uno de ellos.

Si la variable es cualitativa, la moda es la categora con la mxima frecuencia.


- Si la variable es cuantitativa, la moda es el valor con la mxima frecuencia absoluta.
- Si la variables es cuantitativa con datos en intervalos, se localiza el intervalo modal
(intervalo con la frecuencia mxima) y la moda es el punto medio de dicho intervalo.
Podemos tener distinto nmero de modas en la distribucin (1= unimodal) (2=bimodal)
(3=trimodal); etc.
Distribucin amodal = cuando no hay moda ya que todos los valores tienen la misma
frecuencia absoluta.

La eleccin de una medida de tendencia central

- En primer lugar probaremos con la media aritmtica (menos en los casos en que
la distribucin sea muy asimtrica, o el nivel de medida sea nominal u ordinal, o
existan datos agrupados en intervalos con intervalos abiertos.
- Si vemos que por alguna de estas razones la media aritmtica no funciona
probaremos con la mediana. Sin embargo la mediana no podremos utilizarla
cuando el nivel de la variable sea nominal o la mediana se encuentre en el intervalo
abierto.
- Entonces, descartando las dos medidas anteriores, probaremos con la moda.
Aunque no podremos calcularla si la distribucin es amodal o el intervalo abierto
coincide con el intervalo modal.

Hoy en da se recomienda calcular las 3 (siempre que se pueda).


- Variables cualitativas: Solo podremos calcular la moda
- Variables ordinales: moda y mediana
- Variables cuantitativas: Podemos calcular las 3.

Tendencia central Tipo de variable


Cualitativo (nominal)
Moda
(sexo, estado civil)
Mediana Ordinal (cuasi-cuantitativa)
Intervalo o razn
Media Cuantitativa continua

2. MEDIDAS DE POSICIN
La medida de tendencia central buscaba un indicador para representar a un conjunto de
datos. En cambio, las medidas de posicin buscan un indicador para representar a un
sujeto o a un dato en particular.
Medidas de tendencia central: Nota media de un examen en una clase de 30 nios
Medidas de posicin: Qu nota debe sacar un alumno para superar al 50% de
compaeros?
Las medidas o ndices de posicin (tambin llamados cuantiles), informan acerca de la
posicin relativa de un sujeto con respecto a su grupo de referencia

Percentiles
Tambin llamados centiles, son los 99 valores de la variable que dividen en 100
partes iguales la distribucin de frecuencias.
Percentil k (Pk ): Es un valor de la variable de inters que deja por debajo de s un
porcentaje k de sujetos, donde k = 1,299
Ejemplo P40 = 25 (25 es la puntuacin en un examen)
Quiere decir que los sujetos con X= 25 estn por encima del 40% de los sujetos.

En los percentiles, la mediana coincide con el percentil 50 (es justo la mitad). Por esta
razn el percentil lo calcularemos a partir de las frmulas para la mediana.
Clculo de los percentiles
Utilizaremos la misma frmula que la mediana pero sustituyendo nk/100 en lugar de
n/2
Li = Lmite exacto inferior del intervalo crtico
n = Nmero de observaciones
nd = Frecuencia absoluta acumulada por debajo del intervalo crtico
nc = Frecuencia absoluta del intervalo crtico
I = Amplitud del intervalo
Ejemplo numrico en la pgina 78. Tenemos que tener en cuenta que lo primero que
hay
que hacer es hallar el intervalo crtico mediante la frmula (nk/100) a diferencia de
cmo lo hallbamos para la mediana que era mediante la frmula (n/2)
Aparte de hallar el valor de los percentiles, tambin puede ocurrir que ya tengamos un
valor y queramos saber qu posicin ocupa ese valor en la distribucin (es como lo de
antes pero al revs, es decir, antes tena una posicin y quera hallar un valor. Ahora
tengo un valor y quiero hallar una posicin. Por lo tanto la frmula cambia un poco.

Si el resultado de k es decimal se redondea.


Cuartiles y deciles
Cuartiles: 3 valores de la distribucin que dividen en 4 partes de igual frecuencia a la
distribucin.
Primer Cuartil (Q1) = Deja por debajo de s al 25% y por encima al 75% (Q1 = P25)
Segundo Cuartil (Q2) = Deja por debajo de s al 50% y por encima al 50% (Q2 = P50 =
Md)
Tercer Cuartil (Q3) = Deja por debajo de s al 75% y por encima al 25% (Q3 = P75)
Por lo tanto como cada cuartil se corresponde con un percentil, utilizaremos las
frmulas de los percentiles para hallar cada cuartil.

Deciles: Son 9 valores que dividen en 10 partes iguales a la distribucin. Se representan


por D1, D2 D9 y al igual que los cuartiles, tambin se corresponden con cada
percentil:
D1 = P10 ; D2 = P20 etc Por lo tanto tambin utilizaremos las frmulas de los
percentiles para calcular los deciles.
Ejemplo: Dada la siguiente distribucin de frecuencias, calcular los Percentiles 36, 50, 25 y 75.

Punto Medio ni = Frecuencias na = Frecuencias


Lmites Intervalo Absolutas Acumuladas
Vi
rt
u
al
es
d
e
X
103 108 105, 5 8 50
97 102 99, 5 11 42
91 96 93, 5 16 31
85 90 87, 5 10 15
79 84 81, 5 5 5

N = 50

Localizamos el Intervalo Crtico en el que se encuentra cada Percentil:

P25 = (El 25% de 50 observaciones es 12,5); (k n / 100) (25 50 / 100) = 12, 5

P36 = (El 36% de 50 observaciones es 18); (k n / 100) (36 50 / 100) = 18

P50 = (El 50% de 50 observaciones es 25); (k n / 100) (50 50 / 100) = 25

P75 = (El 75% de 50 observaciones es 37, 5); (k n / 100) (75 50 / 100) = 37, 5

Aplicamos la frmula (Interpolacin): Pk = Li + {(k n / 100) nd / nc} I

P25 = Intervalo (85 90) P25 = 84, 5 + [(25 50 / 100) 5 / 10] 6 = 89

P36 = Intervalo (91 96) P36 = 90, 5 + [(36 50 / 100) 15 / 16] 6 = 91, 625

P50 = Intervalo (91 96) P50 = 90, 5 + [(50 50 / 100) 15 / 16] 6 = 94, 25

P75 = Intervalo (97 102) P25 = 96, 5 + [(75 50 / 100) 31 / 11] 6 = 100

Las puntuaciones obtenidas se corresponden con el Percentil buscado y se interpretan sealando el


porcentaje de puntuaciones que dejan por debajo. As, el P25 = 89 (la puntuacin 89 deja por debajo de
s el 25% de las observaciones de la distribucin). Utilizando el mismo procedimiento se puede averiguar
el Percentil que corresponde a una puntuacin dada:

Utilizando la Interpolacin comprobamos el Percentil que corresponde a la puntuacin X = 100.

K = [{(Pk - Li) nc / I} + nd / n] 100

X = 100; Intervalo (97 102) K = [{(100 - 96,5) 11 / 6} + 31 / 50] 100 = 75


Equivalencias de las medidas de posicin
Deciles - Percentiles Cuartiles - Percentiles
D1 - P10 Q1 - P25
D2 - P20
D3 - P30 Q2 - P50
D4 - P40
D5 - P50 Q3 - P75
D6 - P60
D7 - P70
D8 - P80
D9 - P90

*NOTA IMPORTANTE:
La mejor forma de aprender a calcular deciles, cuartiles y percentiles es seguir estos dos
vdeos en You Tube:

http://www.youtube.com/watch?v=Ww0tPH_-31w

http://www.youtube.com/watch?v=iqTPaS32Iz8

Estadsticos de posicin
Para una variable discreta, se define el percentil de orden k, como la observacin, Pk,

que deja por debajo de si el de la poblacin. Esta definicin nos recuerda a la


mediana, pues como consecuencia de la definicin es evidente que

Med= P50

En el caso de una variable continua, el intervalo donde se encuentra , se

calcula buscando el que deja debajo de si al de las observaciones. Dentro de l, Pk se


obtiene segn la relacin:
Por su propia naturaleza, el percentil puede estar situado en cualquier lugar de la
distribucin, por lo que no puede considerarsele como una medida de tendencia central.

Los cuartiles, Ql, son un caso particular de los percentiles. Hay 3, y se definen como:

De forma anloga se definen los deciles como los valores de la variable que dividen a
las observaciones en 10 grupos de igual tamao. Ms precisamente, definimos D1,D2, ...,
D9 como:

Los percentiles (que incluyen a la mediana, cuartiles y deciles) tambin son


denominados estadsticos de posicin.

2.5.0.1 Ejemplo
Dada la siguiente distribucin en el nmero de hijos de cien familias, calcular sus
cuartiles.
xi ni Ni
0 14 14
1 10 24
2 15 39
3 26 65
4 20 85
5 15 100
n=100

Solucin:
1.
Primer cuartil:

2.
Segundo cuartil:

3.
Tercer cuartil:

2.5.0.2 Ejemplo
Calcular los cuartiles en la siguiente distribucin de una variable continua:
li-1 - li ni Ni
0-1 10 10
1-2 12 22
2-3 12 34
3-4 10 44
4-5 7 51
n=51

Solucin:

1.
Primer cuartil
2.
Segundo cuartil:

3.
Tercer cuartil

2.5.0.3 Ejemplo
Han sido ordenados los pesos de 21 personas en la siguiente tabla:
Intervalos f.a.
li-1 -- li ni
38 -- 45 3
45 -- 52 2
52 -- 59 7
59 -- 66 3
66 -- 73 6
21

Encontrar aquellos valores que dividen a los datos en 4 partes con el mismo nmero de
observaciones.

Solucin: Las cantidades que buscamos son los tres cuartiles: , y . Para
calcularlos, le aadimos a la tabla las columnas con las frecuencias acumuladas, para
localizar qu intervalos son los que contienen a los cuartiles buscados:

li-1 -- li ni Ni
38 -- 45 3 3
45 -- 52 2 5

52 -- 59 7 12

59 -- 66 3 15

66 -- 73 6 21

21

y se encuentran en
el intervalo 52--59, ya que
N3=12 es la primera f.a.a.

que supera a y

est en 66--73, pues


N5=21 es el primer Ni

mayor que .

As se tiene que:
Obsrvese que . Esto es lgico, ya que la mediana divide a la distribucin en

dos partes con el mismo nmero de observaciones, y , hace lo mismo, pues es deja a
dos cuartos de los datos por arriba y otros dos cuartos por abajo.

2.5.0.4 Ejemplo
La distribucin de una variable tiene por polgono acumulativo de frecuencias el de la
figura 2.6. Si el nmero total de observaciones es 50:
1.
Elaborar una tabla estadstica con los siguientes elementos: intervalos, marcas de
clase, frecuencia absoluta, frecuencia absoluta acumulada, frecuencias relativa y
frecuencias relativa acumulada.
2.
Cuntas observaciones tuvieron un valor inferior a 10, cuntas inferior a 8 y
cuntas fueron superior a 11.
3.
Calcule las modas.
4.
Determine los cuartiles.

Figura: Diagrama acumulado de frecuencias relativas.


Solucin:

1.
En la siguiente tabla se proporciona la informacin pedida y algunos clculos
auxiliares que nos permitirn responder a otras cuestiones.
Intervalos ni Ni fi Fi xi ai

0-5 10 10 0,2 0,3 2,5 5 2


5-7 25 35 0,5 0,7 6 2 12,5
7 - 12 5 40 0,1 0,8 9,5 5 1
12 - 15 10 50 0,2 1 13,5 7 3,33
2.
Calculemos el nmero de observaciones pedido:

10 + 25+3 = 38 observaciones tomaron un valor inferior a 10

10 + 25+1 = 36 observaciones tomaron un valor inferior a 8


50 -(10 + 25+4) = 50-39=11 observaciones tomaron un valor superior a 11
3.
Hay dos modas. Calculemos la ms representativa:

4.
Cuartiles:
Tema 3 de Anlisis de datos resumen

Medidas de variabilidad y asimetra

UNED

Curso 2012

Mariluz Lozano Gago


La variabilidad hace referencia al grado en que las puntuaciones se asemejan o
diferencian entre s, o se aproximan o alejan de una medida de tendencia central como la
media aritmtica. Se har especial nfasis en la varianza y en la desviacin tpica.

MEDIDAS DE VARIABILIDAD

La variabilidad o dispersin hace referencia al grado de variacin que hay en un


conjunto de puntuaciones.
Cuanto menor es la variabilidad en una distribucin, ms homognea es la muestra de
sujetos en la variable que estamos midiendo. El caso extremo de mxima homogeneidad
es que todos los valores seran iguales entre s y no habra variabilidad.

Para cuantificar la dispersin de los datos se distinguen 2 tipos de ndices:


- Los que miden el grado en que las puntuaciones se asemejan o diferencian entre s:
Amplitud total o rango y amplitud semi-intercuartil
- Los que la dispersin de mide con respecto a alguna medida de tendencia central como
la media aritmtica: Varianza y desviacin tpica.

Amplitud total o rango


La amplitud total, (AT) de un conjunto de puntuaciones es la distancia que hay en una
escala numrica entre los valores que representan la puntuacin mxima y la puntuacin
mnima.

Cuando asumimos que trabajamos con variables continuas, la puntuacin mxima es el


lmite exacto superior del intervalo mximo y la puntuacin mnima es el lmite exacto
inferior del intervalo mnimo
AT = Xmax Xmin

Sin embargo esta medida slo aporta datos de los valores extremos, pero no nos dice la
poca o mucha dispersin que pueda existir en el resto de valores.

Varianza y desviacin tpica


La medida de variabilidad tambin se puede basar en la distancia observada entre las
puntuaciones y la media aritmtica.
Por lo tanto:
- Una distribucin con poca variabilidad es aquella en la que la mayora de las
puntuaciones estn muy prximas a la media.
- Una distribucin con mucha variabilidad tiene sus puntuaciones muy alejadas del
valor medio de la variable.
La varianza de un conjunto n de puntuaciones en una variable X denotada por S2
x, se define como el promedio de los cuadrados de las desviaciones de las puntuaciones
con respecto a la media.

Aunque supongo que a estas alturas todo el mundo lo sabr, pero estas frmulas estn
en la Addenda y nos dejan tenerla con nosotros durante el examen.

Es importante darse cuenta de que , para el clculo de la varianza, primero se elevan al


cuadrado las diferencias, y despus se obtiene el promedio de esas desviaciones al
cuadrado.
Propiedades de la varianza y la desviacin tpica
- Para calcularlas las dos requieren la utilizacin de todas las puntuaciones de la
distribucin.
- Las dos miden la variabilidad de los datos con respecto a la media aritmtica, por lo
que slo deben aplicarse si estamos utilizando la media como medida central
- Siempre son iguales o mayores que 0.
- Si a una variable X se le suma o resta una constante a, la varianza y desviacin tpica
de la variable original no se ven afectadas y siguen siendo las mismas. En cambio,
cuando multiplicamos los valores de X por una constante b, la varianza queda
multiplicada por la constante al cuadrado y la desviacin tpica por el valor absoluto de
dicha constante.
Un primo hermano de la varianza y que se utiliza en inferencia estadstica es la
cuasivarianza:
Coeficiente de variacin
Se trata de un ndice de variabilidad relativa que no depende de las unidades de medida.
_
CV = (SX/X) 100, sera el cociente entre la desviacin tpica y la media multiplicado
por 100.
Cuando comparamos dos conjuntos de puntuaciones obtenidas de la misma variable,
tambin es necesario el coeficiente de variacin para comparar la dispersin de ambas
distribuciones

Amplitud semi-intercuartil (Q o rango semi-intercuartil)


Como hemos dicho antes, este ndice se utiliza cuando la distribucin es muy asimtrica
. Se define como la distancia media entre el tercer y el primer cuartil. No informa de la
variabilidad del conjunto de puntuaciones sino del 50% de las mismas comprendidas
entre el percentil 25 y el 75 de la distribucin. (dividiendo siempre este numerador por
2)

3. INDICE DE ASIMETRA DE PEARSON


La asimetra es una propiedad de la distribucin de frecuencias que nos indica el grado
en el que las puntuaciones de los sujetos se reparten por debajo y por encima de la
medida de tendencia central. El ndice de Pearson es un ndice numrico que cuantifica
el grado de asimetra de una distribucin.
_
AS= X - Mo / Sx, cociente de la diferencia entre la media y la moda en el
numerador, y la desviacin tpica en el denominador.

- Este ndice es adimensional (no tiene unidades de medida) y se aplica a distribuciones


unimodales.
- Cuando la distrubicin es simtrica, la media y la moda coinciden, por lo que el
numerador se anula y el valor del ndice (As) es = 0.
- En distribuciones con asimetra positiva, la media es mayor que la moda, por lo tanto
AS ser mayor que 0. (recordamos que asimetra positiva se produce cuando la mayor
cantidad de puntuaciones se concentran en la parte baja de la tabla)
- En distribuciones con asimetra negativa, la media es menor que la moda, por lo tanto
AS ser menor que 0. (la asimetra negativa se produce cuando la mayor cantidad de
puntuaciones se sita en la parte alta de la tabla)

4. PUNTUACIONES TPICAS
Hasta ahora hemos visto puntuaciones directas (nota de un sujeto en un test), sin
embargo estas puntuaciones nos dan poca informacin ya que no sabemos si se trata de
un valor alto o bajo, ya que esto depende del promedio del grupo.

Si a una puntuacin directa Xi le restamos la media de su grupo obtenemos una


puntuacin diferencial (xi)
_
xi = Xi X

Propiedades de las puntuaciones diferenciales


- Su media es cero:
_
x=0
- La varianza de las puntuaciones diferenciales es igual a la varianza de las
puntuaciones directas:

Sin embargo, dos puntuaciones diferenciales idnticas pueden tener un significado muy
diferente en funcin de la media y de la varianza de las distribuciones de las que
proceden.
Para solucionar este problema tenemos las puntuaciones tpicas que nos permiten no
slo comparar las puntuaciones de un sujeto en dos variables distintas sino tambin
comparar dos sujetos distintos en dos pruebas o variables distintas.

Sin embargo, dos puntuaciones diferenciales idnticas pueden tener un significado


muy diferente en funcin de la media y de la varianza de las distribuciones de las que
proceden.
Para solucionar este problema tenemos las puntuaciones tpicas que nos permiten
no slo comparar las puntuaciones de un sujeto en dos variables distintas sino
tambin comparar dos sujetos distintos en dos pruebas o variables distintas.
_
zx = x / Sx = X X / Sx
Al proceso de obtener puntuaciones tpicas se llama tipificacin. Por ello estas
puntuaciones tambin se llaman puntuaciones tipificadas.

Propiedades de las puntuaciones tpicas


Tema 4 de Anlisis de datos resumen

ANLISIS CONJUNTO DE VARIABLES

UNED

Curso 2012

Mariluz Lozano Gago


Este tema se centra en el estudio conjunto de dos variables.
Dos variables cualitativas
- Tabla de datos
- Tabla de contingencia
- Diagrama de barras
- Tabla de diferencias entre frecuencias empricas y tericas
- Calculo de coeficiente X2
- Clculo del coeficiente de contingencia
Dos variables cuantitativas
- Tabla de datos conjuntos
- Diagrama de dispersin
- Clculo de covarianza
- Clculo del coeficiente de correlacin de Pearson

Adems
Si dos variables cuantitativas estn relacionadas linealmente utilizaremos la recta de
regresin.

CONCEPTOS PREVIOS
Asociacin y/o relacin entre dos variables: Dos variables estn relacionadas entre s
cuando ciertos valores de una de las variables se asocian con ciertos valores de la otra
variable.

RELACIN ENTRE DOS VARIABLES CUALITATIVAS _


LA PRUEBA CHI CUADRADO (2) _
Permite determinar si dos variables estn o no relacionadas. Se fundamenta en la
comparacin de las frecuencias conjuntas empricas u observadas (ne) y las frecuencias
conjuntas tericas o esperadas (nt), en el caso de que ambas variables sean
independientes (no relacionadas). Uno de los problemas que plantea este ndice es que
es difcil de interpretar.

Se tratara de ver la diferencia entre las frecuencias empricas y las tericas. Hay que
comparar ambas tablas, pues (la tabla de frecuencias tericas se har con la frmula
indicada ut supra).

- Es importante quedarnos con el dato de que la suma de las filas y las columnas de esta
tercera tabla siempre es igual a 0, si sale otra cosa es que algo hemos hecho mal.

Una vez que tenemos la tabla debemos interpretarla: La interpretacin que hace el libro
se basa en analizar los valores positivos (8) como fuente de informacin. (parece ser
que los valores negativos no nos aportan informacin) .As tenemos un 8 en S-V y en
No-M. Por lo tanto concluiremos que los varones tienen mayor tendencia a padecer
estrs (S-V) y las mujeres tiene menos tendencia a padecer estrs (No-M).
Y ahora
Calculamos un estadstico X2

Para calcular el estadstico no hace falta informacin nueva, ya que extraemos todos los
nmeros de las tablas anteriores.

Sin embargo este estadstico nos da poca informacin porque desconocemos su lmite
superior. Slo sabemos que si nos da valor 0 no hay relacin entre las dos variables. Sin
embargo si nos da un valor cualquiera como por ejemplo 10,78 no sabemos que
interpretar ya que el lmite podra ser 20, 50 , 100 etc y lo desconocemos. Para resolver
este problema se calcula algo que s que sabemos sus lmites y es el ndice o
Coeficiente de Contingencia, C. (da valores entre 0 y 1)
Su aplicacin, por ende, una vez calculado chi cuadrado, es bien sencilla.

Adems, en el caso en que el n de filas de la tabla de contingencia o tabla de doble


entrada sea igual al nmero de columnas, vamos a ajustar ms su valor mximo, con la
siguiente frmula.

Adems del Coeficiente de Contingencia tenemos tambin que calcular su mximo


(para posteriormente poder comparar uno con otro )

Siguiendo el ejemplo del libro, el Coeficiente de contingencia nos da 0,312 y su


mximo 0,707. Por lo tanto el coeficiente de contingencia est prcticamente a la mitad
de su mximo y por ello diremos que la relacin entre las dos variables es de tipo
medio.

Para concluir:
Caractersticas del Coeficiente C
- Tiene valores entre 0 y 1
- Cuando C = 0 diremos que no existe relacin entre ellas
- C = 1 nunca se puede dar
- Cuanto mayor es C, mayor es la relacin entre las dos variables y viceversa
- Cuando utilicemos C para comparar la relacin entre dos variables cuyos datos
tenemos en dos tablas de contingencia diferentes, tenemos que vigilar que tienen el
mismo nmero de filas y de columnas. De lo contrario los valores de C no permiten una
comparacin vlida.
- Cuando existe un valor elevado de C, no podemos afirmar con rotundidad que una de
las variables es causa de la otra, ya que puede haber una tercera variable que est
relacionando a ambas.
- Cuando la tabla de contingencia tiene igual nmero de filas que de columnas, podemos
estimar un valor mximo que alcanzar C.
CORRELACIN ENTRE DOS VARIABLES CUANTITATIVAS

Nos presentan una tabla de datos conjuntos


Lo primero que hacemos es elaborar el diagrama de dispersin o nube de puntos

Una vez realizado el diagrama y tan slo observndolo, podemos decir que existe una
relacin lineal en las variables X e Y. Es decir, a valores mayores de X correspondern
valores mayores de Y y viceversa.
Una vez llegados a este punto calculamos 2 ndices que nos permiten ponerle nmeros a
todo esto que llevamos analizado:

Cuando la tabla presenta frecuencias, en el numerador de la fraccin se multiplica


finalmente por las mismas, tal que as:

Si el signo de la covarianza es positivo, diremos que existe relacin lineal directa.


Si el signo de la covarianza es negativo, diremos que existe relacin lineal inversa.

Sin embargo la covarianza tiene un problema y es que no conocemos su rango (de la


misma manera que con el estadstico X2 no sabamos su lmite superior y tenamos que
calcular el coeficiente de contingencia) , por lo tanto para la covarianza calcularemos
algo llamado Coeficiente de Correlacin de Pearson (rxy)

Propiedades del coeficiente de Correlacin de Pearson


- Toma valores comprendidos entre -1 y +1
- Cuando vale 0 no existe relacin lineal entre X e Y
- Cuando vale exactamente +1 o -1 diremos que una variable es una transformacin
lineal de la otra
- Cuanto mayor es el valor absoluto del coeficiente nos est indicando que la relacin
lineal entre las dos variables es ms fuerte.
- Cuando el signo es positivo, indica que a valores mayores de la variable X, tienden a
corresponder valores mayores de la variable Y y a valores menores de la variable X
tienden a corresponder valores menores de la variable Y. Es una relacin directa.
- Cuando el signo es negativo, indica que a valores mayores de la variable X, tienden a
corresponder valores menores de la variable Y, y a valores menores de la variable X
tienden a corresponder valores mayores de la variable Y. Es una relacin inversa.

Pero qu pasa cuando tenemos valores intermedios como por ejemplo 0,55?
En ese caso no podemos afirmar que ese valor indica correlacin alta o baja ya que
depender del tipo de datos que estemos analizando
- Ser baja si se trata de dos tests similares que estemos aplicando a los mismos sujetos
o si tenemos pocos sujetos
- Ser alta si se trata de tests bastante diferenciados o si tenemos muchos sujetos.

REGRESIN LINEAL
Fuente: http://www.vitutor.com/estadistica/bi/recta_regresion.html

Cuando existe relacin lineal podemos utilizar la recta de regresin para efectuar
pronsticos de los valores de una variable a partir de otra variable.

Propiedades de las puntuaciones pronosticadas y de los errores


Tema 5 de Anlisis de datos resumen

NOCIONES BSICAS DE
PROBABILIDAD

UNED

Curso 2012

Mariluz Lozano Gago


Conceptos previos.

- Un experimento aleatorio es un proceso que se puede repetir indefinidamente en las


mismas condiciones, cuyo resultado no se puede predecir con certeza.

- Un espacio muestral es el conjunto de todos los resultados posibles de un


experimento aleatorio y se representa como E. (E = Universo o poblacin del
experimento)
Lanzar un dado: E = {1, 2, 3, 4, 5, 6}; Lanzar una moneda: E = {cara, cruz)

-Los sucesos son los distintos resultados de un experimento aleatorio (subconjunto del
espacio muestral)

Tipos de sucesos:
_ Elementales o Simples (implican un solo resultado del espacio muestral E). Lanzar
un dado:
Obtener un tres (elemental o simple) A = {3}
_ Compuestos (implican dos o ms resultados del espacio muestral). Obtener un
nmero par
(compuesto) A = {2, 4, 6}
Los sucesos tambin se pueden clasificar atendiendo a las siguientes caractersticas:
_ Suceso Seguro _ Siempre se verifica (Lanzar un dado y obtener puntuacin menor
que siete)
_ Suceso imposible _ Nunca se verifica (conj. vaco ). (Lanzar un dado y obtener diez
puntos)

Operaciones con sucesos:


Unin de sucesos A B = P (aparezca A aparezca B ambos a la vez) = P (A U B)
Interseccin de sucesos A y B = P (aparezca A y aparezca B) = P (A B). Cuando no
contiene
ningn elemento, los sucesos son incompatibles o excluyentes y no pueden ocurrir
simultneamente.
Complementario de A _ Subconjunto formado por los sucesos que no pertenecen a A _
(No A)

Ejemplo:

Lanzamiento de un dado............
DEFINICIN DE PROBABILIDAD

Se consideran tres definiciones. En cualquiera de las tres, la probabilidad se cuantifica


como un nmero comprendido entre 0 y 1 _ 0 para el suceso imposible // 1 para el
suceso seguro // cualquier otro suceso, asignando un nmero entre 0 y 1, en funcin de
la cuanta de su probabilidad de ocurrencia.

DEFINICIN CLSICA (LAPLACE / A PRIORI): P (A) = nA / N _ La


probabilidad de un suceso A es el cociente entre el nmero de casos favorables y el
nmero de casos posibles (suponemos que todos los sucesos tienen la misma
probabilidad de ocurrencia _ Equiprobabilidad)
El gran problema es aplicarla a sucesos cuya condicin de equiprobabilidad no est
garantizada. Una salida es aplicar la Definicin Estadstica.

DEFINICIN ESTADSTICA (RICHARD VON MISES / A POSTERIORI): P


(A) = lim N_ nA / N _
Lmite al que tiende la frecuencia relativa de aparicin de un suceso A cuando el
nmero de ensayos (N) tiende a infinito. Von Mises (cuando se realiza un experimento
aleatorio un nmero suficiente de veces, la frecuencia de aparicin de un determinado
suceso tiende a aproximarse a un valor constante que es la probabilidad de aparicin de
ese suceso)
Al igual que la anterior tampoco es una definicin satisfactoria. A veces no es posible,
ni prctico, repetir un experimento aleatorio un gran nmero de veces (no es posible
aproximarse a infinito). Por ello los matemticos cambiaron el rumbo de su
pensamiento, lo que origin la Definicin Axiomtica.

DEFINICIN AXIOMTICA (KOLMOGOROV) _ Dado un espacio muestral E,


llamamos probabilidad de un suceso A, designado P (A) a un nmero real que
asignamos al suceso A, tal que cumple los siguientes axiomas (afirmaciones que se
aceptan sin demostracin):

TEOREMAS DE PROBABILIDAD: Los Teoremas de Probabilidad permiten


calcular probabilidades de sucesos que renen una serie de condiciones (dependientes,
independientes, mutuamente excluyentes,...). La aplicacin de los teoremas ms
importantes de la probabilidad de sucesos requieren distinguir, previamente, entre las
caractersticas de dichos sucesos:

TEOREMA DE LA SUMA: Permite resolver preguntas del tipo _ Cul es la


probabilidad de que aparezca un suceso o el otro? La letra (o) implica alternativa entre
dos opciones (unin de sucesos).

(A B) Sucesos mutuamente excluyentes _ P (A U B) = P (A B) = P (A) + P (B)


Los sucesos mutuamente excluyentes o incompatibles no pueden ocurrir
simultneamente. La aparicin de uno excluye al otro (obtener cara y cruz en el mismo
lanzamiento P (A U B) = (conjunto vaco ) = 0.
Problema ejemplo _ En una bolsa hay 15 bolas rojas y 10 verdes. Extraemos una bola
de la bolsa. Cul es la probabilidad de que sea roja o verde _ P (Roja) = 15 / 25 y P
(Verde) = 10 / 25. Se trata de sucesos excluyentes (si es roja no puede ser verde)
P (Roja U Verde) = P (Roja Verde) = (15 / 25) + (10 / 25) = 25 / 25 = 1

(A B) Sucesos simultneos _ P (A U B) = P (A) + P (B) P (A C)

Los sucesos simultneos o compatibles son los que pueden ocurrir a la vez (ejemplo: ser
hombre y conducir) _ P (A U B) (conjunto vaco ).

Problema ejemplo _ A los 70 aos la probabilidad de ser miope es 0,3, la de tener


cataratas es 0,15 y la de ser miope y tener cataratas es 0,1. La probabilidad de ser miope
o tener cataratas a esta edad sera:
Ser miope (M) y Tener cataratas (C) son sucesos compatibles (simultneos) y su
probabilidad de ocurrencia conjunta es 0,1 _ P (M U C) = P (M) + P (C) P (M C) =
0,3 + 0,15 0,1 = 0,35

TEOREMA DEL PRODUCTO (PROBABILIDAD CONDICIONADA P (A/B): La


aparicin de uno de los sucesos depende de la aparicin del otro. Dados dos sucesos (A
y B), se llama probabilidad de A condicionada por B, a la interseccin, dividida por la
probabilidad de la condicin B y viceversa:
P (A / B) = P (A B) / P (B) Supuesto P (B) 0
P (B / A) = P (A B) / P (A) Supuesto P (A) 0
(A y B) Sucesos dependientes _ P (A B) = P (A) P (B / A)

Por tanto la probabilidad de que se presenten simultneamente P (A B) se obtiene


despejando el numerador del teorema del producto. En las extracciones sin reposicin
los sucesos son siempre dependientes.
Explicacin de este teorema segn el ejemplo:

Para dos sucesos A y B, la probabilidad de que ocurra B supuesto A (o sea, supuesto


que ha sucedido A), es igual a la probabilidad de la interseccin entre ambos sucesos A
y B partido por la probabilidad de A, si a partir de ah, despejamos la probabilidad de la
interseccin A-B, obtenemos que es igual a la probabilidad de A por la probabilidad de
B supuesto A (siempre y cuando la probabilidad de A sea distinta a cero)

Ejemplo: Una caja con 3 bolas azules o 3A y 3 bolas rojas o 3R, si no hay reposicin,
probabilidad de obtener roja en la primera extraccin= R1 y azul en la segunda= A2?
En el grfico se explica la aplicacin de la frmula.

Pero si los sucesos son independientes, entonces la probabilidad de que ocurra A


supuesto el suceso B es igual a la probabilidad del suceso A (lo mismo con B) Por tanto
la probabilidad de la interseccin de ambos sucesos es igual al producto de sus
probabilidades.

Ejemplo: Qu probabilidad hay lanzando una moneda de obtener cara en el segundo


lanzamiento tras obtener o bien obteniendo a la vez cara en el primer lanzamiento? Se
aplicara entonces este producto de las probabilidades del suceso 1 y suceso 2 que
estudiamos.

PROBABILIDAD CONDICIONADA Y TEOREMA DE BAYES

A este teorema se llega partiendo de la probabilidad de A supuesto B y de la


probabilidad de B supuesto A. El teorema de Bayes nos permite calcular la probabilidad
condicionada , la probabilidad de A supuesto B en funcin de la probabilidad de B
supuesto A.

Si unimos estas dos expresiones:

Vamos a aplicar lo visto a travs del siguiente ejemplo.

Enunciado del ejemplo:


Todos estos supuestos los representamos en el siguiente diagrama de rbol con sus
respectivos complementarios (= probabilidad de no responder favorablemente al
tratamiento) :

El supuesto nos pide la probabilidad de N supuesto F, aplicando el teorema de Bayes...

Entonces, la probabilidad de N supuesto F sera igual a ...


a) Elegido al azar un enfermo depresivo, cul es la probabilidad de que se haya
recuperado con el tratamiento?

b) Elegido un enfermo depresivo al azar que se haya recuperado, cul es la


probabilidad de que no haya sido tratado mdicamente con anterioridad?

c) Elegido un enfermo al azar, cul es la probabilidad de que haya sido tratado


mdicamente y no se haya recuperado con el tratamiento psicolgico?

d) Elegido un enfermo al azar, cul es la probabilidad de que haya sido tratado


mdicamente?

e) Elegido un enfermo al azar resulta que ha sido tratado mdicamente con


anterioridad, cul es la probabilidad de que se recupere con el tratamiento
psicolgico?:

Solucionario:
Tema 6 de Anlisis de datos resumen

DISTRIBUCIONES DISCRETAS DE
PROBABILIDAD

UNED

Curso 2012

Mariluz Lozano Gago


INTRODUCCIN:

Concepto de variable aleatoria = como una funcin que asigna un nmero real, y slo
uno, a cada uno de los resultados de un experimento aleatorio.

Funcin de probabilidad de la variable aleatoria X = es la probabilidad de que dicha


variable aleatoria tome un determinado valor x minscula.

Funcin de distribucin = probabilidad de de la variable aleatoria X tome un valor igual


o inferior a un determinado valor x minscula. = probabilidades acumuladas

Representacin grfica = diagrama de barras


Media o esperanza matemtica de la variable = sumatorio de cada uno de los valores
que toma la variable por su correspondiente probabilidad

Varianza= sumatorio de cada uno de los valores que toma la variable menos su media
al cuadrado por su funcin de probabilidad.
Donde n es el nmero de ensayos y p la probabilidad de xito

Tngase en cuenta que n es el n de ensayos, x el de aciertos, p la probabilidad de xitos


y q de fracasos.

Ejemplo: lanzamos una moneda al aire 3 veces


Donde la probabilidad de que la variable X tome valores inferiores a 4 sera igual a la
probabilidad de que sea 0 ms que sea 1 ms que sea 2 ms que sea 3, lo que
numricamente se traduce en que 12 que es el nmero de preguntas o ensayos sobre 0
multiplicado por la probabilidad de aciertos que es 0,25 elevada al nmero inferior o
denominador multiplicada por la probabilidad de fracasos que es 0,75 elevada a su vez a
la diferencia entre numerador y denominador de la expresin numrica entre parntesis
(y as sucesivamente)

Una forma mucho ms cmoda que la anterior de resolver el ejercicio es con las tablas:
En forma clsica sera:

Una forma alternativa de resolver este problema sera la siguiente:


Tema 7 de Anlisis de datos resumen

DISTRIBUCIONES CONTINUAS DE
PROBABILIDAD

UNED

Curso 2012

Mariluz Lozano Gago


LA DISTRIBUCIN NORMAL (la ms popular) (un caso particular: la tipificada que
tiene de media 0 y varianza 1, es muy til y est recogida en tablas) Tambin veremos la
aproximacin de la distribucin binomial a la normal.

Donde pi es 3,1416, un valor constante, y e es la base de los logaritmos neperianos, o


sea, tambin un valor constante = 2,718.

Cules son las caractersticas bsicas de la distribucin normal?

El rango oscila entre menos infinito e infinito. Es simtrica en torno a la media.

LA DISTRIBUCIN NORMAL TIPIFICADA:

Se tratara de manejar las tablas III y IV, previa transformacin de las puntuaciones
directas en tpicas: cmo se hace esta transformacin? La tipificacin consiste en
restar la media a una variable X y dividir su resultado por su desviacin tpica, y a
esta variable se llama Z (y as nos ahorramos el clculo integral). La distribucin de la
variable Z tiene media igual a 0 y varianza igual a 1, y esta propiedad se cumple
siempre.

A esta distribucin tambin se le llama 0,1, o distribucin normal tipificada.


La semisuma de cada par de valores de esta distribucin simtrica es siempre igual a la
media, o sea, 55+145/2 = 100, 70+130/2=100, 85+115/2=100.

TABLAS DE DISTRIBUCIN NORMAL

La 3 recoge los valores negativos de Z, de -3,59 a 0 y la 4 recoge los positivos: desde 0


a 3,59

Por ejemplo, hallar la probabilidad de que Z sea menor o igual que -0,25. Primero nos
vamos al valor 0, 2 y luego seguimos viendo hasta llegar al 0,05. El resultado es 0,4013.

Lo vemos grficamente junto con otro ejemplo, tenindose en cuenta que cuando se
buscan probabilidades de que Z sea mayor que... hay que restar la misma previamente
de 1, como detalla la imagen ut infra.
Obsrvese que si queremos hallar la probabilidad de Z est entre menos 0,25 y 0,5, hay
que calcular ambas probabilidades con la tabla y luego restarlas como indica la frmula
tercera de la imagen:

APLICACIONES BSICAS DE LA DISTRIBUCIN NORMAL.

Lo veremos con el siguiente ejemplo.


Recordar una vez ms que Z, o sea, = la puntuacin tpica, es igual al valor de la
variable menos la media partido por la desviacin tpica. El resultado es Z=0, pero no
de puede calcular directamente de la tabla, por lo que hay que buscar menor que 0 y
restarla de 1.

Para saber cuntos alumnos, pues hay 2500 en total, hay que multiplicar dicho total por
la proporcin resultante, en este caso, 0,5.

Y si nos preguntan... Y cul es el percentil 75 de la distribucin?

Es una puntuacin directa que deja por debajo de s el 75% de los casos, se resolvera de
este modo:

No vemos en la tabla directamente el 0,75, por tanto tenemos que buscar lo que ms se
acerque, o sea, el 0,7486 (mirando en el interior de la tabla damos con esta
probabilidad).

Finalmente se despeja el percentil 75 de la frmula de la desviacin tpica.

Aproximacin de la binomial a normal, ejemplo de la moneda ( ejercicio resuelto


7.21)
Otro ejemplo:
La coincidencia entre ambas aproximaciones ser mayor cuanto ms grande sea N

LA DISTRIBUCIN CHI CUADRADO.

(Donde n es el n de grados de libertad o gl)


(Cuando la probabilidad es de que sea mayor que, hay que restar como siempre de la
unidad, ojo, sera el resultado de la derecha)

LA DISTRIBUCIN T DE STUDENT
La media y la varianza dependeran de los grados de
libertad..

TABLA 7 de la distribucin F slo recoge las probabilidades ms importantes:


DISTRIBUCIN F: propiedad recproca
La distribucin normal
Tema 8 de Anlisis de datos resumen

ESTIMACIN

UNED

Curso 2012

Mariluz Lozano Gago


PROCESO ESTADSTICO PARA INFERIR UN PARMETRO EN 5 PASOS
GENERALES (como la media o la proporcin, a partir de un estadstico muestral)

Primer paso: especificar la poblacin de inters (dado que el procedimiento permite


realizar inferencias nicamente a la poblacin de la que procede la muestra)

Segundo paso: obtener la muestra (=conjunto de elementos investigados), su tamao


ser un factor a tener cuenta.

Tercero: medir variable de inters a todos los elementos de la muestra.

Cuarto: se realiza un anlisis descriptivo de los datos para detectar errores y hacer una
descripcin detallada de la muestra.

Quinto: Uso de las herramientas de inferencia.

(Desde la media y proporcin de la muestra se pretende saltar a toda la poblacin)

En este tema utilizaremos los intervalos de confianza a estos efectos

MUESTREO: CLASES
DISTRIBUCIN MUESTRAL DE LA MEDIA, TEOREMAS:

Un sencillo ejemplo para entender el concepto:


INTERVALO DE CONFIANZA para la media.

Aspectos bsicos:

Cuando estimamos la media de la poblacin a partir de una muestra podemos cometer


un error de estimacin, por eso debe fijarse un error de estimacin mximo con una alta
probabilidad, o sea, con una probabilidad 0,95.

Tngase en cuenta esta frmula:

Primero: El error de estimacin mximo sera igual al valor Z de la distribucin normal


que depende del nivel de confianza, por el error tpico de estimacin que es igual a
sigma dividida por la raz cuadrada de N

En segundo lugar: Se resta y suma el error de estimacin mximo a la media de la


muestra, obtenemos as un intervalo de confianza con unos lmites inferior y superior:

Llamamos intervalo de confianza al rango de valores comprendidos entre dichos lmites

Y llamamos nivel de confianza a la probabilidad 1 menos alfa de que el intervalo de


confianza incluya al parmetro.
Cmo se resuelven los ejercicios con nivel de confianza 0.95?
Hay que buscar en la tabla de distribucin normal el valor de Z que deja por debajo de s
el 97,5 de los casos que es 1,96.

PASOS PARA LA APLICACIN DE INTERVENCIN DEL NIVEL DE


CONFIANZA.

En la estimacin por intervalos hay que determinar el tamao mximo de la muestra con
carcter previo, lo vemos en este ejemplo:
Explicacin: Queremos saber tamao muestra para estimar por intervalos, error de
estimacin mximo 1segundo, desviacin tpica 3, y para un nivel confianza 0,95 Z =
1,96 segn la tabla IV y la nica incgnita sera N que hay que despejarla de la
ecuacin. N= 35. Eso significa= si extraemos una muestra de 35 nios, y les medimos el
tiempo de reaccin en una tarea de discriminacin, la estimacin del tiempo de reaccin
medio tendr un error mximo de 1 segundo para un nivel de confianza de 0,95.

CLCULO DEL INTERVALO DE CONFIANZA.

Partiendo del caso anterior N=35, desarrollndolo y obteniendo un tiempo de reaccin


medio (que ser de 4 segundos)

Entre qu lmites estar el tiempo de reaccin medio de la poblacin? Sumamos y


restamos el error de estimacin mximo a la media obtenida en la muestra, lmite
inferior de 3 y superior de 5, conclusin: el tiempo de reaccin medio estara entre 3 y 5
segundos.

Si se desconoce la desviacin tpica de la poblacin, usaremos la cuasi-desviacin


tpica, habr que usar la T de Student con N menos 1 grado de libertad ( a medida que N
crece se aproxima a la normal)
Empezamos con el tamao de muestra (similar al caso de la media). Dado que la
variable es dicotmica: curados/no curados, la varianza es igual a pi por 1 menos pi.
Como se desconoce la proporcin poblacional pi, tomamos pi=0,5. Porque as la
varianza es mayor que con cualquier otro valor de pi (as no infravaloraremos el tamao
de la muestra)

También podría gustarte