Está en la página 1de 29

09/07/2013

1
http://learning.corvelis.com
ESTADSTICA PARA LAS
CIENCIAS SOCIALES
Oscar Cano R
ESTADSTICA
Es un conjunto de mtodos
utilizados para recopilar,
analizar, presentar e
interpretar datos y tomar
decisiones.
TIPOS DE ESTADSTICA
Estadstica Descriptiva:
Mtodos para organizar, mostrar y describir los datos
mediante el uso de tablas, grficos y medidas de
resumen.
Rama de la estadstica que involucra la organizacin,
resumen y presentacin de datos.
Estadstica inferencial:
Mtodos que son utilizados, para que a travs de los
resultados de una muestra de la poblacin, tomar
decisiones o predicciones sobre la poblacin.
Se basa en la probabilidad
CONCEPTOS
Una poblacin es el conjunto de todos los
resultados, respuestas, medidas, o recuentos que
son de inters.
Un parmetro es una descripcin numrica de una caracterstica de
la poblacin.
Una muestra es un subconjunto o parte de la
poblacin.
Una estadstica es una descripcin numrica de una caracterstica
de la muestra.
09/07/2013
2
MEDICIN DE DATOS
Es el valor que se le asigna a los datos que
queremos recolectar. Por ejemplo:
A las calificaciones de una materia se le asigna
nmeros que van de 0 a 10 o de 0 a 100, segn la
necesidad.
A la temperatura se le asigna nmeros llamados
grados
Aun auto se le asigna un numero asociado a la
velocidad 60 km/h, 80 km/h. Etc.
MEDICIONES EN UN GRUPO O POBLACIN
En estadstica nos interesa las
mediciones que se puedan
realizar a una poblacin o
grupo (no necesariamente
personas).
Nos interesa tener medidas que nos
represente todas las mediciones y que nos
de una idea de ,lo que esta pasando en
la poblacin.
Una buena idea de esta medida, es tener
un numero que nos indique en donde se
concentran el mayor nmero de
mediciones.
MEDIDAS DE TENDENCIA CENTRAL
Media aritmtica (media o promedio). Se
representa por medio de una letra M o por
una x (x con una lnea en la parte superior).
Mediana: la cual es el puntaje que se ubica en
el centro de una distribucin ordenada. Se
representa como Md.
Moda: que es el puntaje que se presenta con
mayor frecuencia en una distribucin. Se
representa Mo.
09/07/2013
3
LA MEDIA ARITMTICA (MEDIA, PROMEDIO) MEDIA ARITMTICA
Persona Calificacin
Oscar x
1
6
Claudia x
2
7
Tere x
3
8
Patricia x
4
7
Laura x
5
7
Antonieta x

6
Sonia x
7
7
x =
x

n
=1
n
x =
6 +7 +8 +7 +7 +6 +7
7
x =
48
7
= 6.8S71428S7
MODA
7 es la calificacin con frecuencia mas alta por lo
tanto la moda para el grupo analizado es tener
una calificacin de 7
Persona Calificacin
Oscar 6
Claudia 7
Tere 8
Patricia 7
Laura 7
Antonieta 6
Sonia 7
Calificaci
n
Frecuencia
6 2
7 4
8 1
MEDIANA
Persona Calificacin
Oscar
x
1 6
Antonieta x
2
6
Claudia x
3
7
Patricia x
4
7
Laura x
5
7
Sonia x

7
Tere x
7
8
Persona Calificacin
Oscar x
1
6
Claudia x
2
7
Tere x
3
8
Patricia x
4
7
Laura x
5
7
Antonieta x

6
Sonia x
7
7
Se ordenan
los datos
El dato que esta en medio es x
4
por lo tanto
la mediana es 7.
09/07/2013
4
MEDIANA (2)
Persona Calificacin
Oscar
x
1 5
Antonieta x
2
5
Claudia x
3
6
Patricia x
4
6
Laura x
5
8
Sonia x

8
Tere x
7
8
Alejandra x
8
9
Persona Calificacin
Oscar x
1
5
Claudia x
2
6
Tere x
3
8
Patricia x
4
6
Laura x
5
8
Antonieta x

5
Sonia x
7
8
Alejandra x
8
9
Se ordenan
los datos
El dato que esta en medio es x
4
y x
5
por lo tanto
la mediana es
x
4
+x
S
2
=
6+8
2
=
14
2
= 7.
EJEMPLO
Suponga que quiere hacer blusas para las
adolescentes que viven en su colonia, pero
por presupuesto, solo puede hacerlo en una
sola talla y color. Qu talla y color le
conviene?
La talla promedio le asegura que el mayor nmero de
chicas estarn muy cerca de esa talla.
El color de moda le asegura que es el color que ms
podr vender
La distancia Mediana, estar justo a la mitad de las
distancia a que viven las chicas.
http://learning.corvelis.com
MEDIDAS DE DISPERSION
Oscar Cano Rodrguez
LAS MEDIDAS DE DISPERSIN
Las medidas de tendencia central, nos dice
entorno a que punto se agrupan los datos,
pero NO nos dicen que tan unidos o
dispersos estn.
Las medidas de dispersin bsicamente
toman el promedio de la distancia de los
puntos a la media
09/07/2013
5
DISTANCIA ENTRE DOS PUNTOS
0 o
1
o
2
0
o
1
0 o
2
o
2
- o
1
o
1
o
2
LA DISTANCIA?
Sin embargo la distancia como tal no nos servira
as que bsicamente hay dos casos
Promedio del valor absoluto de las distancias llamado
DESVIACION MEDIA
DM =
x
|
-x
n
|=1
n
En donde x

-x significa el valor absoluto de la


diferencia entre el punto y la media
Raz cuadrada del promedio del cuadrado de las
distancias llamada DESVIACION ESTANDAR
E =
x
|
-x
2 n
|=1
n
2
=
x
|
2 n
|=1
n
-x
2
2
OTRAS MEDICIONES
Rango = Dato mayor Dato menor
IARIANZA = E
2
http://learning.corvelis.com
DISTRIBUCIN DE
FRECUENCIAS
Oscar Cano Rodrguez
09/07/2013
6
PRESENTAR LA INFORMACIN
Cuando tomamos mediciones, por lo regular la
queremos compartir con lo dems, para esto lo
podemos hacer varias formas, pero lo ms comn
es presentarlo de manera exhaustiva o en
resumen.
Para presentar un resumen de mediciones,
podemos tomar en cuenta varias formas de
hacerlo.
Revisaremos los principales conceptos para
presentar este resumen.
FRECUENCIA
Es el nmero de veces que se presenta una medicin
en un grupo o poblacin, se representa con f
Persona Calificacin
Oscar 6
Claudia 7
Tere 8
Patricia 7
Laura 7
Antonieta 6
Sonia 7
Calificacin Frecuencia (f)
6 2
7 4
8 1
Note que la calificacin 7 se
repite mas veces (4 en total),
por lo que tiene la frecuencia
ms alta
Forma exhaustiva
Resumen
TABLA DE FRECUENCIAS
Cuando presentamos esta informacin en una
tabla, se le conoce como TABLA O DISTRIBUCION
DE FRECUENCIAS.
Por ejemplo en las calificaciones de los alumnos:
Calificacin Frecuencia
6 2
7 4
8 1
FRECUENCIA ACUMULADA
Es la suma acumulativa de las frecuencias, se representa con F, en el
ejemplo anterior:
Calificacin Frecuencia(f)
6 2
7 4
8 1
Frecuencia
Acumulada (F)
2
6
7
+
+
Note que el ltimo dato es igual al total de datos
09/07/2013
7
FRECUENCIA RELATIVA
Una frecuencias relativas, muestran las puntuaciones y la proporcin o
porcentaje del nmero total de casos en que las puntuaciones
representan, se representa con n.
La frecuencia relativa acumulada se representa con N
Calificacin f Frecuencia
Relativa (n)
Porcentaje
6 2 0.2857 28.57%
7 4 0.5714 57.14%
8 1 0.1428 14.28%
Total 7 1 100%
2
7
4
7
1
7
REPRESENTACIN GRFICA DE
DISTRIBUCIN DE FRECUENCIAS
0
0.5
1
1.5
2
2.5
3
3.5
4
4.5
6 7 8
Frecuencia
Frecuencia
http://learning.corvelis.com
DATOS AGRUPADOS
QU PASA CUANDO HAY MAS DATOS?
0
2
4
6
8
10
12
14
16
1 2 3 4 5 6 7 8 9 10
Frecuencia
Frecuencia
09/07/2013
8
CLASES
Cuando hay muchos valores en la escala de
medicin, es conveniente dividir las mediciones en
ciertos grupos que nos permitan la mejor
visualizacin de la informacin.
Estos grupos los llamaremos clases, y el conjunto
de valores comprendidos en cada clase los
llamaremos intervalos de clase
EJEMPLO (1)
Suponga que tiene las siguientes calificaciones
de un grupo:
3,15,24,28,33,35,38,42,43,38,36,34,29,25,1
7,7,34,36,39,44,31,26,20,11,13,22,27,47,39
,37,34,32,35,28,38,41,48,15,32,13
EJEMPLO (2)
Lo primero es ordenar los datos:
3 7 11 13 13 15
15 17 20 22 24 25
26 27 28 28 29 31
32 32 33 34 34 34
35 35 36 36 37 38
38 38 39 39 41 42
43 44 47 48
GRFICA DEL EJEMPLO
Frecuencia
Frecuencia acumulada
09/07/2013
9
EJEMPLO (3)
Ahora queremos ver la frecuencia de los datos
pero si vemos el rango de los datos nos damos
cuenta de cuantos valores tenemos que
considerar:
48-3 =45
Son muchos, por lo que decidimos agruparlos en
partes iguales (clases). Supongamos que
queremos hacer 6 clases, entonces dividimos el
rango entre 6
45/6 = 7.5 => 8
Cada clase tendr 8 puntajes, se comienza con el
menor valor y se suman 8, se repite el proceso
para cada valor
Intervalo PM f F %a
[3,11) 7 2 2 5%
[11,19) 15 6 8 20%
[19,27) 23 5 13 32.5%
[27, 35) 31 11 24 60%
[35, 43) 39 12 36 90%
[43, 51) 47 4 40 100%
[a, b)
a, es el lmite inferior de la clase (L
inf
)
b, es el limite superior de la clase (L
sup
)
b-a (L
sup
-L
inf
), es la amplitud de la clase
[a, significa que el valor esta incluido
b), significa que el valor NO esta incluido
3 7 11 13
13 15 15 17
20 22 24 25
26 27 28 28
29 31 32 32
33 34 34 34
35 35 36 36
37 38 38 38
39 39 41 42
43 44 47 48
GRFICA DE DATOS AGRUPADOS
Medida Formula
Moda
HoJo = PH I
max ]
PM=punto medio
I
max (])
Intervalo de mxima frecuencia
Mediana
|
|n(I
Med
)
+
N
2
-F
I
(Med-1)

I
med
|
xup
-|
|n
l
inf
=lmite inferior
l
sup
=lmite superior
I
med-1
=Intervalo anterior al
mediano
N=Tamao del universo
l
sup
- l
inf
=Amplitud de clase
Media
X

=

|
|
|
xup
+|
|
|n
2
|
N
f
i
= frecuencia del intervalo i
l

sup
=lmite superior del intervalo i
l

n]
=lmite inferior del intervalo i
MEDIDAS DE TENDENCIA CENTRAL (Estimaciones)
09/07/2013
10
Medida Formula
Rango
R = l
sup (I
mcjcr)
-l
InI (I
mcncr
)
Desviacin media
DM =

|
PM
|
-x
N
Desviacin estndar
DE =

|
(PM
|
-x)
2 N
|=1
N
f
i
= Frecuencia del intervalo i
PM
i
= Punto medio del intervalo i
N = Tamao del universo
MEDIDAS DE DISPERSION (Estimaciones)
Intervalo PM f F %a PM*f
[3,11) 7 2 2 5% 14
[11,19) 15 6 8 20% 90
[19,27) 23 5 13 32.5% 115
[27, 35) 31 11 24 60% 341
[35, 43) 39 12 36 90% 468
[43, 51) 47 4 40 100% 188
TOTALES 1,216
HoJo = PH I
max ]
=39
Mdn = |
|n(I
Med
)
+
N
2
-F
I
(Med-1)

I
med
|
xup
-|
|n
Mdn = 27 +
4u
2
-1S
11
SS -27 = 32
X

=

|
|
|
xup
+ |
|
|n
2
|
N
=
1, 21
4
= 3. 4
COMPLICNDOSE LA VIDA
Algunos textos utilizan intervalos que brincan de un valor a otro, en
nuestro ejemplo
Intervalo f fa %a
[3,10) 2 2 5%
[10,17) 5 7 17.5%
[17,24) 3 10 25%
[24, 31) 7 17 42.5%
[31, 38) 12 29 72.5%
[38, 45) 9 38 95%
[45, 52) 2 40 100%
Intervalo f fa %a
3 9 2 2 5%
10 16 5 7 17.5%
17 23 3 10 25%
24 30 7 17 42.5%
31 37 12 29 72.5%
38 44 9 38 95%
45 - 51 2 40 100%
Sin embargo esta notacin es muy engorrosa, y los libros del rea social la usan mucho,
segn que para simplificar, pero esto lleva a demasiadas consideraciones.
http://learning.corvelis.com
CUANTILES
Oscar Cano Rodrguez
09/07/2013
11
MEDIDAS NO CENTRALES
En estadstica descriptiva, las medidas de
posicin no central permiten conocer otros puntos
caractersticos de la distribucin que no son los
valores centrales. Entre las medidas de posicin
no central ms importantes estn los cuantiles
CUANTILES
Los cuantiles suelen usarse por grupos que
dividen la distribucin en partes iguales;
entendidas estas como intervalos que comprenden
la misma proporcin de valores.
en las distribuciones de variable discreta (como el
caso de datos aislados) debemos conformarnos
con que estas partes sean aproximadamente
iguales. Por desgracia, no hay consenso sobre la
forma en que realizar esta aproximacin.
CUANTILES MS USADOS
Los Percentiles, que dividen a la distribucin en
cien partes
Los Cuartiles, que dividen a la distribucin en
cuatro partes (corresponden a los percentiles
0.25, 0.50 y 0.75);
Los Quintiles, que dividen a la distribucin en
cinco partes (corresponden a los percentiles 0.20,
0.40, 0.60 y 0.80) ;
Los Deciles, que dividen a la distribucin en diez
partes;
CUARTILES, DECILES Y PERCENTILES PARA
DATOS NO AGRUPADOS
cuontil

=

Nmco dc putcs
N si N es impar.
si N es par se toma el promedio del valor que
ocupa la posicin calculada y el siguiente.
El valor del cuantil es el que ocupa la posicin calculada
Define un intervalo abierto por la izquierda y cerrado por la
derecha
(1-5], es un
Intervalo que contiene a todos los valores entre 1 y 5, pero no contiene a 1 pero si
a 5.
09/07/2013
12
CUANTILES EN DATOS AGRUPADOS
C
k
= I
In]
k
+
kN
# cucntilcs
-P
k-1
]
k
o
k
C
k
, k-esimo cuantil
L
inf_k
, Lmite inferior del k-esimo intervalo
N, nmero de datos
F
k-1
, Frecuencia acumulada en el intervalo anterior, al k-esimo
intervalo
Ak, amplitud del k-esimo intervalo
EJEMPLO
A partir de los siguientes datos:
6,4,3,5,9,7,8,5,4,1,3,5,4,3,7,9,6,3,2.
A) calcular el primero y el tercer cuartil.
B) calcular el tercero, cuarto y sptimo decil.
ORDENAR.
1,2,3,3,3,3,4,4,4,5,5,5,6,6,7,7,7,8,9,9.
CALCULAR
Primer cuartil=(1/4)20=5 posicin => cuarti_1=3
Tercer cuartil=(3/4)20=15 posicin => cuartil_3=7
3er decil=3/10*20 = 6 => 3.5
4 decil = 4/10*20=8 => 4
7 decil=7/10*20=14 => 6.5
http://learning.corvelis.com
VARIABLES
VARIABLES
Variable: es una caracterstica en estudio que
asume valores diferentes para los distintos
elementos. En contraste con una variable, el valor
de una constante se fija.
Observacin o medicin: Es el valor de una
variable de un elemento.
Conjunto de datos: Coleccin de observaciones
sobre una o ms variables.
09/07/2013
13
TIPOS DE VARIABLES
Variable cuantitativa: Puede ser medido
numricamente. Los datos recogidos en una
variable cuantitativa se llaman datos cuantitativos.
Variable discreta: Sus valores se pueden contar. En otras palabras, una variable
discreta puede asumir slo ciertos valores sin valores intermedios.
Variable continua: Puede asumir cualquier valor numrico en un determinado
intervalo o intervalos.
Variable cualitativa o categrica : No puede
asumir un valor numrico, pero se pueden clasificar
en dos o ms categoras no numricas. Los datos
recogidos en dicha variable se llaman los datos
cualitativos.
TIPOS DE DATOS
Los datos cualitativos consisten en atributos,
etiquetas, o entradas no numricos.
Los datos cuantitativos consisten en mediciones o
conteos numricos.
TIPOS DE MEDICIN
El que podamos considerar los medios puntos en
las calificaciones es debido al nivel de medicin
escogido.
En estadstica se consideran cuatro niveles de
medicin
1. Nominal
2. Ordinal
3. Intervalos
4. Razn
MEDICIN NOMINAL O CATEGRICA
Es cuando solo le asignamos nombres a lo que
medimos.
P. ej. Si queremos medir cual es el color preferido
de nuestros alumnos de una tendramos una tabla
de frecuencias como:
Color Frecuencia
Blanco 12
Azul 15
Rojo 11
Verde 13
Hay que notar que nuestra escala (color),
solo nombra el dato elegido, pero no
sabemos nada sobre l
Cul es mayor?, menor?
09/07/2013
14
MEDICIN ORDINAL
Este nivel de medicin nos permite saber el orden de la medicin.
Por ejemplo, si medimos la simpata de los alumnos por el maestro,
podramos tener una tabla:
Simpata Frecuencia
Mal 12
Mas o menos 15
Bien 11
Excelente 13
Nos permite saber los 11 alumnos les cae
mejor el maestro que a los 27 que
dijeron ms o menos y mal.
La simpata esta ordenada, de menor a
mayor, sin embargo no sabemos la
distancia entre una medida y otra.
NOTESE QUE LA ESCALA ORDINAL
TAMBIEN ES NOMINAL
MEDICIN POR INTERVALO
Emplean unidades constantes de medicin.
Por ejemplo, si medimos las calificaciones de los
alumnos, tendremos una tabla como :
Calificacin Frecuencia
6 5
7 15
8 12
9 5
10 2
Dadas dos calificaciones podemos conocer que
calificacin es mayor y adems sabemos
que alguien que obtuvo 5 solo le falta un
punto para obtener 6.
NOTESE QUE LA ESCALA POR INTERVALOS
TAMBIEN ES ORDINAL
qu significa una calificacin de cero?
MEDICIN DE RAZN.
integra aquellas variables con intervalos iguales
pueden situar un cero absoluto. Estas variables
nombran orden, presentan intervalos iguales y el
cero significa ausencia de la caracterstica.
Es mas usada en las ciencias exactas , permite
operaciones ms complejas.
EN QU NOS AYUDA EL NIVEL DE
MEDICIN?
Medicin Estadstica
inferencial
Nominal
NO paramtrica
Ordinal
Intervalo
Paramtrica
Razn
09/07/2013
15
ESTADISTICA
DESCRIPTIVA INFERENCIAL
PARAMETRICA
NO
PARAMETRICA
http://learning.corvelis.com
REPRESENTACIN GRFICA
Oscar Cano Rodrguez
DISTRIBUCIN DE FRECUENCIAS
Es la ms usada en el campo de la educacin,
adems de ser la que se usa en los medios
informativos.
Cuando lo usamos con datos cualitativos,
usaremos las grfica de barras, y cuando los
datos sean cuantitativos, usaremos el histograma
GRFICA DE BARRA (DATOS CUALITATIVOS, O
CUANTITATIVOS DISCRETOS)
Una grfica de barras tendr dos
ejes, uno horizontal y otro vertical
que por lo regular esta en el lado
izquierdo, las categoras que hemos
medido se distribuirn en el eje
horizontal, puede ser en orden
alfabtico, o por su frecuencia.
Las frecuencias (absolutas o
relativas) se representarn en el eje
vertical.
09/07/2013
16
BARRAS HORIZONTAL HISTOGRAMA (DATOS CUANTITATIVOS)
Es una generalizacin
de la grfica de
barras, solo que
ahora los datos del
eje horizontal son
cuantitativos.
Ntese que entre las
barras no hay
espacios.
LA ESCALA DEL HISTOGRAMA
Ambas grficas muestran la distribucin de
las mismas mediciones, sin embargo note
que dan diferente percepcin
REGLA PARA LOS EJES
El eje vertical debe ser
aproximadamente tres cuartas
partes de la longitud de la
horizontal.
Siempre que sea posible, el eje
vertical debe incluir la
frecuencia de cero.
Si las frecuencias obtenidas son
grandes, se debe evitar una
grfica engaosa. Una prctica
comn es insertar un
rompimiento en el eje de las
frecuencias (vertical).
Debe tener en cuenta esto a la
hora de realizar un histograma,
y a la hora de revisarlas!
09/07/2013
17
LAS MENTIRITAS, LAS MENTIROTAS Y LAS
ESTADSTICAS.
Grfica de tendencias
FRECUENCIA RELATIVA, EL HISTOGRAMA
Y EL REA
Intervalo f n %
12-14 2 2/20=0.1 10
9-11 6 6/20=0.3 30
6-8 8 8/20=0.4 40
3-5 4 4/20=0.2 20
TOTAL 20
LA PROPORCIN DE REA BAJO UNA CURVA DE
FRECUENCIA ENTRE DOS PUNTOS, ES IGUAL A LA
FRECUENCIA RELATIVA DE LOS CASOS ENTRE ESOS
PUNTOS.
GRFICA DE LNEAS
Unimos con una lnea, los puntos medios superiores, de la grfica de
barras o del histograma
09/07/2013
18
CIRCULARES O PASTEL
Nos permiten ver la distribucin interna de los datos que representan
un hecho, en forma de porcentajes sobre un total. Se suele separar el
sector correspondiente al mayor o menor valor, segn lo que se desee
destacar.
CAJA CON BIGOTES
Son una presentacin visual que describe varias
caractersticas importantes, al mismo tiempo, tales
como la dispersin y simetra.
Para su realizacin se representan los tres
cuartiles y los valores mnimo y mximo de los
datos, sobre un rectngulo, alineado horizontal o
verticalmente.
EJEMPLO DISTRIBUCIN DE EDADES
Sean la edad de un grupo de 20 personas.
36 25 37 24 39 20 36 45 31 31 39 24 29 23 41 40 33
24 34 40
Ordenamos
20 23 24 24 24 25 29 31 31 33 34 36 36 37 39 39
40 40 41 45
CALCULO DE CUARTILES
cuartil Primero 1*N/4 = 5; como N es par el
primer cuartil es la media aritmtica de dicho
valor y el siguiente: 24.5
cuartil Segundo => 2*20/4=10 => 33.5
cuartil Tercero => 3*20/4= 15 => 39
09/07/2013
19
AS LUCE
Note que el segundo cuartil es la mediana
http://learning.corvelis.com
DISTRIBUCIN NORMAL
Oscar Cano Rodrguez
MEDICIN CONTINUA
0
0.05
0.1
0.15
0.2
0.25
1
.
0
1
.
4
1
.
8
2
.
2
2
.
6
3
.
0
3
.
4
3
.
8
4
.
2
4
.
6
5
.
0
5
.
4
5
.
8
6
.
2
6
.
6
7
.
0
7
.
4
7
.
8
8
.
2
8
.
6
9
.
0
9
.
4
9
.
8
Frecuencia
DENSIDAD
Cuando nuestra escala de medicin es del tipo continuo, la
grfica de distribucin de frecuencia, pasa a llamarse
grfica de densidad de frecuencias.
Los matemticos, propusieron un modelo ideal de
distribucin de frecuencias, este modelo fue llamado
distribucin normal.
La importancia de esta distribucin radica en que permite
modelar numerosos fenmenos naturales, sociales,
psicolgicos y por supuesto, educativos
09/07/2013
20
En una distribucin normal ideal, a partir del valor de la
media, encontramos que:
x _1o contiene aproximadamente 68% de la scores.3
x _2o contiene aproximadamente 95% de las
puntuaciones.
x _So contiene aproximadamente el 99.7% de los
resultados.
DISTRIBUCIN NORMAL Y DESVIACIN
ESTNDAR
LA CURVA NORMAL
Es simtrica el rea bajo la curva es igual a 1
EN DONDE ESTN LOS DATOS?
En la prctica se considera
que todos los casos estn
comprendidos entre -3 y +3
desviaciones estndar
POR QU ES IMPORTANTE?
La distribucin normal que representamos
mediante la curva normal, es un modelo
matemtico terico al que de hecho tienden a
aproximarse las distribuciones que encontramos
en la prctica:
estadsticas biolgicas, datos antropomtricos, sociales y econmicos,
mediciones psicolgicas y educacionales, errores de observacin, etc.;
es un modelo muy til por su relacin con el clculo de probabilidades que
nos va a permitir hacer inferencias y predicciones
09/07/2013
21
SU FORMULA
Distribucin normal Distribucin normal
estndar
x =
e
-
1
2
x-
o
2
o 2a
2
x =
e
-
x
2
2
o 2a
2
La media es 0 y la DE
es 1
LA TABLA NORMAL
Ingreso Medio=5000
DE=1500
En donde esta 7000
(7000-5000)/1500=1.33
PROPIEDADES DE LA CURVA NORMAL
Es simtrica: la mitad izquierda de la distribucin
es una imagen de espejo de la mitad derecha.
Es unimodal.
La media, la mediana y la moda todos tienen el
mismo valor.
http://learning.corvelis.com
PUNTAJE ESTNDAR
Oscar Cano Rodrguez
09/07/2013
22
PUNTOS Z
En la prctica, podemos suponer sin perdida de
generalidad que nuestros datos cumplen con una
distribucin normal (esto se de muestra en
estadstica).
Por lo tanto si conocemos la media y la desviacin
estndar, podemos responder preguntas del tipo:
La porcin de datos que se encuentran por encima de una cierta
puntuacin.
La porcin de datos que se encuentran por debajo de una cierta
puntuacin.
La porcin de datos que se encuentran entre dos puntuaciones.
PUNTAJES ESTNDAR
El puntaje estndar se
calcula
z
|
=
x
|
-x
DF
Cal. z f. f. rel.
6
-1.54
5 5/39
=0.13
7
-0.57
15 15/39
=0.38
8
0.40
12 12/39
=0.31
9
1.37
5 5/39
=0.13
10
2.34
2 2/39
=0.05

39 1
Es fcil calcular:
x =
65+715+812+95+102
39
=7.6
DE=
x
i
2
n
-x
2
2
=
6
2
5+7
2
15+8
2
12+9
2
5+10
2
2
39
- (7.6)
2
2
=1.03
http://learning.corvelis.com
PROBLEMAS
Oscar Cano Rdodrguez
ENCONTRAR REA CUANDO LA
PUNTUACIN ES CONOCIDA
Para una distribucin normal con X

= 100 y S = 20, qu proporcin


de los casos caen por debajo de un puntaje de 80?
z =
X-X
S
=
80-100
20
= -1
Buscando el valor en tablas (+1) vemos
que corresponde a 34.13.
Pero como la tabla solo muestra los
valores a la derecha de la media (cero),
y por simetra, vemos que la porcin de
valores por debajo de -1, es igual a la
porcin de valores por encima de +1
La porcin total es del 50 %, por lo tanto
la porcin buscada es:
50-34.13=15.87 => 16%
09/07/2013
23
1.- Para una distribucin normal con X

= 100 y S = 20, qu
proporcin de casos se encuentra por encima de una puntuacin de
120?
z =
X-X
S
=
120-100
20
= +1
=> %
2.- Para una distribucin normal con X

= 100 y S = 20, qu
proporcin de casos se encuentra por encima de una puntuacin de
80?
z =
X-X
S
=
80-100
20
= -1
=> %
3.- Para una distribucin normal con X

= 100 y S = 20, qu
proporcin de casos se encuentra entre los valores de 90 y 120?
4.- Para una distribucin normal con X

= 100 y S = 20, qu
proporcin de casos se encuentra entre los valores de 110 y 120?
DESPEJES
ENCONTRAR LA PUNTUACIN CUANDO EL
REA ES CONOCIDA
Para una distribucin normal con X

= 100 y S = 20, encontrar el


punto que separa el 20% de la parte superior, de los casos que
quedan en el 80% de la parte inferior.
Buscando el valor en tablas (30.00),
vemos que el ms cercano es el .84
Aplicando la frmula:
z =
X-X
S
=> .84 =
X-100
20
y por lo
tanto:
X=(.84)(20)+100=16.8+100=116.8
El puntaje 116.8, separa a los datos en
80% por debajo y 20% por arriba de l.
EJERCICIOS
1. Para una distribucin normal con X

= 100 y S = 20, encontrar el


puntaje que separa la parte inferior del 20% de los casos de la
parte superior del 80%.
2. Para una distribucin normal con X

= 100 y S = 20, cules son


los lmites dentro de los cuales el 95% central de las puntuaciones
queda incluido?
09/07/2013
24
http://learning.corvelis.com
CORRELACIN
Oscar Cano Rodrguez
DOS VARIABLES
Hasta ahora hemos trabajados con datos
que tiene que ver con una sola variable, o
cuando tratamos ms de una variable los
hemos descrito por separado.
Sin embargo es de inters encontrar la
relacin entre variables, por ejemplo:
Esta relacionado el nivel socioeconmico con la inteligencia?
Qu relacin existe entre el gasto por alumno y el rendimiento
acadmico?
CORRELACIN
Para poder responder a preguntas de asociacin
de variables, utilizaremos mtodos que nos
permitan analizar dos o ms variables, llamados
multivariados.
En este curso solo veremos los mtodos
bivariados, es decir que nos permiten ver el
grado de asociacin entre estas variables
(Correlacin).
http://learning.corvelis.com
DISTRIBUCIN BI-VARIADA Y
DIAGRAMAS DE DISPERSIN
09/07/2013
25
EJEMPLO 1
X Y X Y
Estudiante
Razonamiento
espacial
Habilidad
Matemtica
Estudiante
Razonamiento
espacial
Habilidad
Matemtica
1 85 133 16 77 124
2 79 106 17 67 93
3 75 113 18 71 96
4 69 105 19 58 99
5 59 88 20 63 101
6 76 107 21 51 78
7 84 124 22 68 97
8 60 76 23 88 115
9 62 88 24 75 101
10 67 112 25 71 112
11 77 90 26 86 76
12 50 70 27 69 110
13 76 99 28 54 89
14 63 96 29 80 112
15 72 103 30 68 87
X Y
Promedio 70.00 100.00
DE 9.97 14.83
GRFICA DE DISPERSIN
ASOCIACIN
Es importante hacer la grfica de dispersin, ya
que esta nos mostrar si podemos suponer la
linealidad.
En nuestro ejemplo, se puede ver que los datos
estarn dentro de una elipse imaginaria, esto
nos da la idea de que puede haber una
linealidad, que cuando el razonamiento espacial
aumenta, aumenta la habilidad matemtica.
DIRECCIN
En el diagrama de dispersin tambin podemos visualizar la direccin
de la asociacin. Cuando ambas crecen diremos que es una
asociacin positiva, cuando una crece y al otra decrece, diremos que
la asociacin es negativa.
Positiva Negativa
09/07/2013
26
PUNTOS ATPICOS
El diagrama de dispersin tambin permite ver los casos
atpicos.
Si no visualizamos una posible relacin lineal, entonces no
podremos utilizar los coeficientes de linealidad. La gran
mayora de las relaciones en las ciencias del
comportamiento son lineales.
COVARIANZA
la covarianza es un valor que indica el grado de
variacin conjunta de dos variables aleatorias. Es
el dato bsico para determinar si existe una
dependencia entre ambas variables y adems es
el dato necesario para estimar otros parmetros
bsicos, como el coeficiente de correlacin lineal o
la recta de regresin
co: =
x

- x y

- y
n
=1
n
INTERPRETACIN
Si Cov>0 hay dependencia directa (positiva), es decir, a
grandes valores de x corresponden grandes valores de y.
Si Cov=0 Una covarianza 0 se interpreta como la no
existencia de una relacin lineal entre las dos variables
estudiadas.
Si Cov<0 hay dependencia inversa o negativa, es decir,
a grandes valores de x corresponden pequeos valores
de y.
09/07/2013
27
R-PEARSON
r =
Co
S
x
S
j
=
x
i
-x
i
-
n
i=1
nS
x
S
j
Valor r significado
-1.0 Correlacin negativa PERFECTA
-.95 Correlacin negativa FUERTE
-.50 Correlacin negativa MODERADA
-.10 Correlacin negativa DBIL
0.0 NINGUNA correlacin
.10 Correlacin positiva DBIL
.50 Correlacin positiva MODERADA
.95 Correlacin positiva FUERTE
1.0 Correlacin positiva PERFECTA
FRMULA ALTERNATIVA
r =
NXY -(X)(Y)
|NX
2
- X
2
] |NY
2
- Y
2
]
CORRELACIN NO IMPLICA CAUSALIDAD
La correlacin puede ser explicado por 3
posibles causas:
El razonamiento espacial influye en la habilidad matemtica.
La habilidad matemtica influye en el razonamiento espacial.
A asociacin entre razonamiento espacial y habilidad matemtica, deriva
de otro factor o serie de factores.
Es responsabilidad del investigador atender a los
posibles factores del entorno.
COEFICIENTE DE DETERMINACIN
r
2
, explica la porcin de la variable dependiente que se puede
explicar por la variable independiente.
-r2, se llama coeficiente de indeterminacin
09/07/2013
28
EJERCICIO
X Y
11 12
9 8
8 10
6 7
4 4
3 6
1 2
http://learning.corvelis.com
REGRESIN
Oscar Cano Rodrguez
AJUSTE LINEAL POR MNIMOS
CUADRADOS
Cuando se tienen un conjunto de
datos y deseamos saber si estos
estn relacionados, podemos suponer
como primera aproximacin que esta
relacin es lineal.
Por ejemplo supongamos que tenemos
los siguientes puntos graficados.
Que se relacionen de forma lineal,
significa que deseamos encontrar la
ecuacin de la recta que minimiza las
distancias entre los puntos reales y los
puntos originados por la recta.
SUPUESTOS
Cada x, tiene un valor y fijo, no es aleatorio y
es conocido sin error.
Los valores y son aleatorios independientes y
tienen la misma varianza
Los valores de y para una x dada deben estar
normalmente distribuidos
La regresin de y contra x no es la misma que
de x contra y
09/07/2013
29
LA ECUACIN LINEAL
Es decir, supongamos que tenemos un conjunto
de datos (x1, y1), (x2, y2),, (xn, yn) y
supongamos que hemos elegido una recta
y=mx + b, para ajustar a este conjunto de
puntos.
Como podemos observar, para cada valor xi,
tenemos el valor del punto y el valor de la
recta, denotados por yi y yi*,
respectivamente, el residuo es la diferencia
entre estos dos valores y se denota por: i=yi-
yi*.
El mtodo consiste en encontrar la pendiente
m, y la ordenada al origen b, de tal forma
que los residuos sean mnimos
CLCULO DE LA PENDIENTE Y ORDENADA
AL ORIGEN
m =
n x
i

i
-
i
x
i
n
i=1
n
i=1
n
i=1
n x
i
2 n
i=1
- x
i
n
i=1
2
b =
x
i
x
i

i
n
i=1
-
i
n
i=1
x
i
2 n
i=1
n
i=1
x
i
n
i=1
2
-n x
i
2 n
i=1