Está en la página 1de 74

UNI Norte

Estadstica I Luis Mara Dicovskiy Riobo



1










































Ao, 2008


UNIVERSIDAD NACIONAL DE INGENIERA
UNI- NORTE - SEDE REGIONAL Estel, Nicaragua

UNI Norte

Estadstica I Luis Mara Dicovskiy Riobo

2
ndice
Introduccin ............................................................................................................. 5
Unidad I. Estadstica Descriptiva ............................................................................. 5
Objetivos .............................................................................................................. 5
1.1 Introduccin Unidad I ..................................................................................... 6
1.2 Anlisis de datos ............................................................................................ 7
Principios a utilizar al construir una Tabla de Distribucin de Frecuencias,
TDF. ............................................................................................................... 12
Grficos .......................................................................................................... 14
Grficos Multivariados .................................................................................... 18
1.3. Medidas de Tendencia Central ................................................................... 20
Media Aritmtica............................................................................................. 21
La Mediana .................................................................................................... 22
La Moda ......................................................................................................... 23
1.4 Medidas de Dispersin o de Variabilidad ..................................................... 25
El Rango. ....................................................................................................... 25
El Desvo Estndar......................................................................................... 26
La Varianza. ................................................................................................... 27
El Coeficiente de variacin ............................................................................. 27
1.6 Otras medidas tiles en Estadstica Descriptiva. ......................................... 28
La Asimetra. .................................................................................................. 28
La Curtosis. .................................................................................................... 28
1.7 Muestras y Poblacin. .................................................................................. 31
Muestreo Aleatorio Simple ............................................................................. 31
Muestreo Estratificado .................................................................................... 32
Muestreo por Conglomerados ........................................................................ 33
Muestreo Sistemtico ..................................................................................... 34
Unidad 2. Teora Elemental de Probabilidades ..................................................... 36
2.1 Introduccin a las Probabilidades ................................................................ 36
2.2 Trminos Bsicos. ....................................................................................... 36
UNI Norte

Estadstica I Luis Mara Dicovskiy Riobo

3
Objetivos ............................................................................................................ 36
2.3 Propiedades de la Probabilidad ................................................................... 37
Regla del producto. ........................................................................................ 37
Regla de la Suma. .......................................................................................... 38
2.4 Probabilidad condicionada ........................................................................... 39
2.3 Teorema de Bayes....................................................................................... 40
Regla de la probabilidad total ......................................................................... 40
Planteo del Teorema de Bayes ...................................................................... 41
2.4 Tcnicas de conteo: Combinaciones y Permutaciones ............................... 44
Unidad 3. Variables aleatorias y sus distribuciones. ............................................. 47
3.1 Distribuciones de Frecuencia, Introduccin. ............................................... 47
Objetivos ............................................................................................................ 47
3.2 Variables aleatorias. .................................................................................... 49
Funcin de densidad de probabilidad............................................................. 49
Distribucin acumulativa o funcin de distribucin ......................................... 51
Parmetros caractersticos de una funcin de densidad de probabilidad. ..... 51
El Desvo Estndar y el Teorema de Chebyshev ........................................... 54
3.3 Distribucin Normal ..................................................................................... 54
3.4 Distribucin t de Student. .......................................................................... 57
3.5 La distribucin X2 de Pearson. .................................................................... 58
3.6 La distribucin F de Fisher. ....................................................................... 59
3.7 La distribucin Binomial. .............................................................................. 60
3.8 Distribucin de Poisson ............................................................................... 63
Bibliografa y Documentos Consultados ................................................................ 64
Unidad 4. Estimacin y prueba de hiptesis. ......................................................... 66
4.1 Estimacin por Intervalos de Confianza. ...................................................... 66
Objetivos ............................................................................................................ 66
4.2 Generalidades de las pruebas de Hiptesis ................................................ 68
4.3 Prueba de hiptesis con pruebas t ............................................................ 70
El promedio de una muestra pertenece a poblacin con promedio conocido.
....................................................................................................................... 70
UNI Norte

Estadstica I Luis Mara Dicovskiy Riobo

4
Dos promedios tomados en una misma muestra, en momentos diferentes, son
iguales. ........................................................................................................... 72
Los promedios de dos muestras o grupos pertenecen a una misma poblacin.
....................................................................................................................... 72


UNI Norte

Estadstica I Luis Mara Dicovskiy Riobo

5

Introduccin

Este texto est organizado en funcin del contenido de temas que se aborda en
las asignaturas de Estadstica I de Ingeniera en Sistemas, Civil, Industrial y
Agroindustrial que posee la Universidad de Ingeniera, UNI, en Nicaragua. Sin
embargo este texto puede ser til en cualquier otra carrera universitaria.

Se quiso dar a este libro un enfoque utilitario, prctico, respetando el principio que
la Estadstica debe ser una herramienta fundamental para describir procesos y
tomar decisiones en el trabajo cotidiano de un Ingeniero. En el mismo se trat de
romper la dicotoma entre teora y realidad, respondiendo permanentemente a la
pregunta Cundo puedo usar esta teora? Qu me permite conocer o responder
la misma?

Es por lo anterior que buena cantidad de los ejercicios fueron generados en el aula
con la informacin que tienen los estudiantes mano. Creo que la estadstica no
puede funcionar si primero no se sabe como generar el dato, y como organizar la
informacin en forma de matriz.

Unidad I. Estadstica Descriptiva



Reflexin sobre el uso de la estadstica
Introduccin a la recoleccin de datos
Construccin de concepto bsicos
Explicar los tipos de medidas
Construir Distribuciones de Frecuencia.
Realizar los tipos de Grficos ms comunes
Construir medidas de tendencia central
Objetivos
UNI Norte

Estadstica I Luis Mara Dicovskiy Riobo

6
Construir medidas de variabilidad
Utilizar las medidas en el anlisis de datos
Explicar principio bsicos de muestreo

1.1 Introduccin Unidad I
Los procedimientos estadsticos son de particular importancia en las ciencias
biolgicas y sociales para reducir y abstraer datos. Una definicin que describe la
estadstica de manera utilitaria es la que dice que esta es: un conjunto de
tcnicas para describir grupos de datos y para tomar decisiones en ausencia de
una informacin completa. La estadstica a diferencia de la matemtica no genera
resultados exactos, los resultados siempre tienen asociada un grado de
incertidumbre o error. La estadstica trata de lograr una aproximacin de la
realidad, la cual es siempre mucho ms compleja y rica que el modelo que
podemos abstraer. Si bien esta ciencia es ideal para describir procesos
cuantitativos, tiene serios problemas para explicar el porqu cualitativo de las
cosas

En general podemos hablar de dos tipos de estadsticas, las descriptivas que nos
permiten resumir las caractersticas de grandes grupos de individuos y las
inferenciales que nos permite dar respuestas a preguntas (hiptesis) sobre
poblaciones grandes a partir de datos de grupos pequeos o muestras.

Construccin de Variables a partir de informacin de un cuestionario.
Para poder analizar datos, ya sea de forma manual o por computadora, hay que
entender que trataremos a partir del estudio de la realidad observable crear un
modelo numrico terico donde se estudian variables para describirlas y analizar
sus relaciones. Para hacer esto primero es necesario definir algunos trminos
tericos.
Variable: es una caracterstica observable de un objeto que vara, las variables
pueden ser: a) Cualitativas b) Cuantitativas, que son las que analizaremos
UNI Norte

Estadstica I Luis Mara Dicovskiy Riobo

7
numricamente. Estas ltimas pueden clasificarse en b1) continuas o
medibles b2) discretas o contables. El rendimiento de un lote de frjol se
mide en qq/mz y es una variable continua y el nmero de miembros de
una familia es una variable discreta. Al medir una variable se tienen datos
cada dato ocupa una celda de una matriz. En una encuesta (cuestionario)
cada pregunta que se hace, genera al menos, una variable generalmente
discreta. Hay casos donde una pregunta puede generar muchas variables
de tipo dicotmico, SI- NO, que se suele codificar como 1= SI y 0= NO.
Ejercicio 1: Definir 10 variables discretas y 10 variables continuas.
Ejercicio 2. Clasifique las siguientes variables.
- Peso de un estudiante
- Dimetro de un casa
- Color de ojos
- Tipo de construccin

- # de vainas de frijol por planta.
- Belleza de una flor.
- Temperatura semanal.
- Largo de peces de un estanque
Matriz de datos: es un ordenamiento de datos en fila y columnas donde: cada
fila es: un individuo, una parcela, una muestra, una unidad experimental o
una encuesta determinada y cada columna: una variable. Los programas
Acces, Excel, Infostat y SPSS ordenan los datos en forma de matriz.
1.2 Anlisis de datos
Una vez que los datos se han codificado, transferido a una matriz y guardado en
una micro computadora podemos proceder a analizarlos, proceso que
generalmente se hace con un programa estadstico. En esta clase haremos a
modo de ejercicio el inicio del procedimiento de forma manual, situacin que
difcilmente se puede hacer con miles datos reales que puede generar una
encuesta de tamao mediano. Es por ello que el nfasis de la clase estar en la
interpretacin de resultados que en los procedimientos de clculo.

El procedimiento de anlisis se esquematiza en la figura siguiente:

UNI Norte

Estadstica I Luis Mara Dicovskiy Riobo

8





En general el investigador busca en primer trmino describir sus datos y
posteriormente efectuar anlisis estadstico para relacionar las variables. Los tipos
de anlisis son variados y cada mtodo tiene su razn de ser un propsito
especfico, la estadstica no es un fin en si misma sino una herramienta para
analizar los datos.
Los principales anlisis que pueden efectuarse son:
- Estadstica descriptiva para variables tomadas individualmente
- Pruebas paramtricas.
- Pruebas no paramtricas.

Una primera tarea luego de
construir la tabla de datos es
explorar los datos buscando informacin atpica o anormal y corregir los datos en
caso que esta informacin atpica se deba a una mala digitacin o error en la
recoleccin de datos.

Lo siguiente para observar el comportamiento de los datos es realizar una
distribucin frecuencias en forma de tabla y grfico. Para esto los datos se
agrupan en clases o categoras y para grupo se calcula la frecuencia absoluta y
relativa.

En este momento es importante poder definir el tipo de escala de medicin usada
para agrupar los datos, en este sentido se pueden reconocer diferentes escalas:
Definicin
de anlisis
a realizar

Creacin de la
matriz de datos
Ejecucin de
anlisis en
microcomputadora
Interpretacin
de resultados
la estadstica est ligada a la toma,
organizacin, presentacin y anlisis
de un grupo de datos.

UNI Norte

Estadstica I Luis Mara Dicovskiy Riobo

9
- Las escalas Nominales, es cuando describimos algo dndole un nombre a
cada categora o clase y estas son mutuamente excluyentes. Por ejemplo la
variable sexo donde varn = 1 y mujer = 2.
- Las escalas Ordinales, donde hay un orden de un conjunto de objetos o
eventos con respecto a a algn atributo especfico, por ejemplo ordenar los
ingresos en tres niveles: alto =1, medio = 2 y bajo = 3.
- Las Escalas de Intervalos Iguales, estas pueden ser sumadas, restadas
multiplicadas y divididas sin afectar las distancias relativas entre las
calificaciones. Por ejemplo las medidas de temperatura en Grados C
0
, las
calificaciones de un examen en una escala de 1 a 100 o un juicio de valor en
una escala Likert. En esta escala el 0 es arbitrario y no necesariamente
representa ausencia, tambin nos dice que un valor de 30 puntos de un
examen de espaol no necesariamente representa la mitad de conocimiento de
un valor de 60 puntos .
- Escala de Razn Constante, tienen todas las propiedades de las clases de
intervalos ms un cero absoluto, por ejemplo las medidas de tiempo, peso y
distancia el valor 0 representa ausencia del valor.

Un caso especial La escala de Likert, esta escala es muy usada en las ciencias
sociales y se usa para medir actitudes, Una actitud es una predisposicin
aprendida par responder consistentemente de una manera favorable o
desfavorable ante un objeto de sus smbolos. As las personas tenemos actitudes
hacia muy diversos objetos o smbolos, por ejemplo: actitudes hacia la poltica
econmica, un profesor, la ley, nosotros, etc. Las actitudes estn relacionadas con
el comportamiento que mantenemos. Estas mediciones de actitudes deben
interpretarse como sntomas y no como hechos. Esta escala consiste en un
conjunto de tem presentado en forma de afirmaciones o juicios ante los cuales se
pide reaccin a los sujetos en estudio en una escala de 5 puntos, cada punto tiene
un valor numrico. Un ejemplo de cmo calificar con afirmaciones positivas es
Le gusta cmo se imparte la clase de estadstica?:
UNI Norte

Estadstica I Luis Mara Dicovskiy Riobo

10
1- Muy en desacuerdo, 2- En desacuerdo, 3- Ni de acuerdo, ni en desacuerdo,
4- De acuerdo, 5-Muy de acuerdo.
Estar de acuerdo con la idea presentada significa un puntaje mayor.

Ejercicio 2: entre los participantes de la clases tomar datos de 15 variables al
menos por ejemplo: Edad, Sexo, Procedencia, etc. y ordenarlos en forma de
matriz de datos, recodifique la informacin cualitativa en numrica.

Organizacin de una matriz de informacin a partir de un cuestionario.
Una encuesta impersonal con preguntas cerradas es una manera de recolectar
mucha informacin rpidamente que luego se puede codificarla fcilmente, la
debilidad de este instrumento es que no siempre la gente responde
adecuadamente y que las respuestas generadas se limitan a las opciones
previamente definidas y la experiencia nos dice que la realidad es mucho ms rica
que lo que creemos ocurre a priori. Para los que trabajan con entrevistas hay que
saber que tambin la informacin que se genera de las entrevistas pueden luego
tabularse numricamente de la misma manera que una encuesta.

Encuestas o Cuestionarios: Al disear una encuesta esta debe ayudar a
responder a las preguntas que genera la hiptesis del trabajo, un error comn es
hacer una encuesta primero y luego que se han recolectado los datos, se solicita a
un estadstico que no ayude a analizar la informacin, la lgica es al revs se
debe pensar como se analizar la informacin desde el mismo momento que se
disea la encuesta. Se sugiera que las variables cualitativas (ej. nombres) se
deben recodificar al momento del llenado de la base de datos creando variables
numricas discretas, por ej. Si quiero clasificar la becas que otorga una
Universidad puedo codificar a estas de la siguiente manera: Beca interna =1, Beca
externa =2 y No beca =0 .

Si las opciones que genera una variable discreta permite hacer
combinaciones de las respuestas se sugiere crear muchas variables
UNI Norte

Estadstica I Luis Mara Dicovskiy Riobo

11
dicotmicas del tipo Si o No (1,0). Veamos un ejemplo: Si se pregunta: que
prcticas de en los cultivos realiza un campesino, estas pueden ser varias
y combinadas como: Insecticidas Botnicos, Trampas amarillas, Barreras
vivas, Semilla resistente etc. En este caso lo que se hace es generar un
variable del tipo 0-1 para cada opcin de prctica de cultivo, generando
muchas variables en una sola pregunta.

Para crear una base de datos hay que recordar que est formando una matriz de
datos donde en la primera fila se tiene el nombre abreviado de la variable y en el
resto de las filas los datos para cada encuesta o individuo en estudio. Las
variables cualitativas se deben recodificar, veamos el siguiente ejemplo hipottico
de 8 encuestas:

Encuesta Sexo Edad Ingresos
semanales
Comunidad Labor
realizada
1 1 31 394 2 3
2 1 35 311 4 2
3 1 43 300 2 3
4 1 28 304 3 1
5 2 45 310 1 3
6 2 36 443 2 2
7 2 21 536 2 3
8 2 32 823 1 3
Esta matriz se codifica as: la variable Sexo: 1= varn, 2 = mujer. Para la variable
comunidad hay 4 tipos diferentes donde: 1= Estel, 2= Condega, 3= Pueblo
Nuevo y 4= Limay y para Labor realizado: 1= en otra finca, 2= en la cuidad y 3=
en la propia finca.

De esta manera se transforma en datos numricos una informacin descriptiva,
estos nmeros permiten luego hacer estadstica.
UNI Norte

Estadstica I Luis Mara Dicovskiy Riobo

12

Ejercicio 3: Intente codificar numricamente las respuestas que se generan a
partir de la encuesta de caracterizacin socioeconmica, que a continuacin se
detalla, discuta las posibles respuestas, diga si las preguntas estn bien
formuladas, sugiera si alguna de ellas est de ms y que preguntas propone para
completar la informacin.
Hoja de Encuesta
Nmero de ficha___________
Fecha: ______________________________________________________
Primer Apellido_______________________________________________
Segundo Apellido______________________________________________
Nombres:_____________________________________________________
Ao____________
Direccin: _____________________________________________________
Estado Civil: ____________
Nmero de personas que habitan la vivienda__________________________
Nivel de estudio de ellos__________________________________________
Edad de cada una de ellos_________________________________________
Profesin: _____________________________________________________

Ejercicio 4:
- Defina variables para caracterizar a los estudiantes del curso.
- Cree una base de datos de al menos 25 individuos.
Principios a utilizar al construir una Tabla de Distribucin de
Frecuencias, TDF.
Para realizar una tabla de distribucin de Frecuencias, TDF, con Variables
continuas como (peso, altura, produccin / superficie, etc.) Se debe definir el
nmero de clases y el intervalo o ancho de cada una. El nmero de clases se
recomienda que no sean menor de 5 ni mayor de 20, el ancho de clase se calcula
dividiendo el Rango (valor mayor valor menor), con un valor que debe variar
UNI Norte

Estadstica I Luis Mara Dicovskiy Riobo

13
entre 5 y 20. Hay que utilizar ms clases cuando se tiene ms datos disponibles, si
el nmero de clases es muy grande es posible tener muchas clases vacas, si es
demasiado pequeo podran quedar ocultas caractersticas importantes de los
datos al agruparlos. Se tendra que determinar el nmero de clases a partir de la
cantidad de datos presente y de su uniformidad, en general con menos de treinta
datos se usa TDF con 5 6 clases. El valor central de una clase se llama marca
de clase, este valor se usa para construir los grficos de polgonos de frecuencia.

Ejemplo de una tabla de distribucin de frecuencias de edades de una muestra de
598 personas de origen rural, obtenida como salida de un anlisis con el programa
estadstico SPSS.
160 26.8 26.8
161 26.9 53.7
122 20.4 74.1
57 9.5 83.6
49 8.2 91.8
30 5.0 96.8
15 2.5 99.3
4 .7 100.0
598 100.0
0-10 aos
11-20
aos
21-30
aos
31-40
aos
41-50
aos
51-60
aos
61-70
aos
ms de 71
aos
Total
Edad
Frequencia
Porcentaje
Vlido
Porcentaje
acumulado
Edad en cl ases

Ejercicio 4 Realizar una tabla de frecuencias con una variable discreta (contable)
y una variable continua (medible) de la matriz generada con los datos obtenidos
en clase.

Otra manera de representar una distribucin de Frecuencias es por medio de un
Grfico de Barras o Histograma o polgono de Frecuencias cuando se quieren
UNI Norte

Estadstica I Luis Mara Dicovskiy Riobo

14
mostrar las frecuencias absolutas o con un grfico de Pastel cuando se tienen
porcentajes o proporciones.

Ejercicio 5. Realizar un grfico de barras y un grfico de Pastel a partir de los
datos recolectados.
Grficos
Los grficos nos permiten presentar la informacin que san los datos de manera
resumida y grfica, fcil de entender. Los grficos pueden ser univariosdos,
divariados y multivariados, segn el nmero de variables involucradas.

Grficos univariados, Ejemplo de edad de una muestra de personas, datos
presentados en forma de Histograma de frecuencias. En este grfico las barras se
encuentran unidas, no habiendo espacio entre las barras. Para su construccin
primero se tiene que hacer una tabla de distribucin de frecuencias, TDF, donde
se precisen los lmites reales de frecuencia, que se usan para construir las barras.
El centro de cada barra es la marca de clase, esta medida se usa para construir
polgonos.
UNI Norte

Estadstica I Luis Mara Dicovskiy Riobo

15
Edad
90 85 80 75 70 65 60 55 50 45 40 35 30 25 20 15 10 5 0
F
r
e
c
u
e
n
c
i
a

d
e

p
e
r
s
o
n
a
s
40
30
20
10
0

Histograma de Frecuencias, de la edad, de una muestra de personas de una
comunidad rural


Este grfico univariado se acompaa de estadstica descriptiva como promedios,
medianas, desvos estndares e intervalos de confianza.

Grfico de Pastel o Sectores Ejemplo del nivel de educacin, de una muestra
de 598 personas de origen rural, obtenida como salida de un anlisis con SPSS.
Este Grfico es creado con frecuencias y porcentajes, permite resaltar segmentos
de clases determinadas.

UNI Norte

Estadstica I Luis Mara Dicovskiy Riobo

16
















Grfico de pastel o sectores.

Grfico de Barras bivariado. Ejemplo de las notas de tres asignaturas
presentadas en forma de barras. Este resume el promedio de notas obtenido por
asignatura. Entre barra y barra hay un espacio. Se usa construy con una variable
nominales, asignatura y una variable continua, nota.
19%
15%
21%
45%
ot ros
ninguno
secundaria
primaria
UNI Norte

Estadstica I Luis Mara Dicovskiy Riobo

17
Asignatura
Algebra Programacin Contabilidad Matematica
N
o
t
a

P
r
o
m
e
d
i
o

75.5
75.0
74.5
74.0
73.5
73.0
72.5
72.0
72.5
75.2
73.0
73.5

Polgono de Frecuencias Ejemplo de un donde se grafica en el tiempo el
desarrollo de una enfermedad, tizn temprano, en el follaje de las platas de
tomate.
Este polgono se construye con los valores medio de cada clase, Marca de clase.


El Polgono es una lnea quebrada que se construye uniendo los puntos
medios en la parte superior de cada barra, marca de clase de un
histograma
UNI Norte

Estadstica I Luis Mara Dicovskiy Riobo

18
Das despues del trasplante
76 69 62 55 48 41 34 27 20 13

%

D
e
s
a
r
r
o
l
l
o

d
e

T
i
z

n


e
n

T
o
m
a
t
e
30
20
10
0

Polgono de frecuencias acumuladas,

Grficos Multivariados
Grfico de Barras que incorpora 4 variables dicotmicas (si- no)


Este tipo de grfico
permite resumir de
manera muy eficiente
la informacin de
hasta 6 o 7 variables.
Es ideal para usar
con escalas de
opinin como la
escala Likert o
variables dicotmica,
SI y NO.
Telfono
Asistencia Mdica
Agua Potable
Electricidad
Escuela Cercana
P
o
r
c
e
n
t
j
e

d
e

r
e
s
p
u
e
s
t
a

a
f
i
r
m
a
t
i
v
a
120
100
80
60
40
20
0
19
30
43
98
UNI Norte

Estadstica I Luis Mara Dicovskiy Riobo

19
Grfico De Barras, Bivariado en Cluster

Grfico bivariado, que se puede acompaar de una tabla cruzada de frecuencias y
porcentajes con
una prueba
estadstica X
2
de
independencia.










Grfico Bivariado De Barras Apiladas
Grfico
bivariado que
reduce el
nmero de
barras y por lo
tanto se
simplifica el
diseo. Se
puede construir
con frecuencias
o porcentajes


Nivel educativo
solo lee universitario secundaria primaria
P
o
r
c
e
n
t
a
j
e
50
40
30
20
10
0
Sexo
varn
mujer
13
23
41
8
9
19
46
Sexo
mujer varn
C
a
n
t
i
d
a
d

d
e

e
n
t
r
e
v
i
s
t
a
d
o
s
140
120
100
80
60
40
20
0
Rol en la familia
hijo/a
madre
padre
jefe de familia
62
79
28
22
10
15
UNI Norte

Estadstica I Luis Mara Dicovskiy Riobo

20
















Definicin de estudio:
En matemtica, el smbolo Griego E en mayscula se utiliza para indicar
sumatoria de datos donde:







Siendo x un valor de una medicin de la variable en estudio e i un ndice que
vara de 1 a n . n es el nmero de datos de la muestra.



1.3. Medidas de Tendencia Central
Al forjarnos una imagen mental de la distribucin de frecuencias de un conjunto de
mediciones, una de las primeras apreciaciones descriptivas de inters es una
medida de tendencia central, es decir, una que localiza el centro de la distribucin.

n
i x
1
= x
1
+x
2
+x
3
+x
4
+.......+ x
n


Un Grfico es una manera de ver
rpidamente lo que nos dicen los
datos


A partir de la realidad observable
debo crear un modelo numrico
terico para intentar estudiar esa
realidad
UNI Norte

Estadstica I Luis Mara Dicovskiy Riobo

21
Una de las medidas de tendencia central ms comn y til es el promedio comn
o media aritmtica, pero tambin son de importancia, segn las circunstancias y
el tipo de variables la moda y la mediana.

Media Aritmtica
La media aritmtica o simplemente media de un conjunto de mediciones es la
medida de tendencia central ms usada y conocida. Esta medida se simboliza
como x ( x con raya ) cuando representa la media muestral y como (letra griega
minscula) para representar la media poblacional. x o es la suma de todos
los valores de la muestra o poblacin divididos por el nmero de casos. En el caso
de la media muestral esta es igual a : x = x
1
+ x
2
+ x
3
+ .. x
n
/ n donde n es el
nmero de datos de la muestra y x el valor numrico del dato. La frmula
simplificada de la media es:
x =(

n
x
1
i
/ n) , donde

representa la letra griega sigma que en matemticas


es el smbolo de sumatoria de datos, el subndice i es un valor que vara desde
1 a n.

Cuando se tienen datos agrupados en una distribucin de frecuencias se obtiene
el punto medio de cada intervalo y se determina media de la siguiente manera: x
= (

n
x
1
f )/n donde f es la frecuencia de la clase y x el punto medio de cada
intervalo.

Una debilidad de la media aritmtica es que es sensible a valores extremos de la
distribucin y que carece de sentido para varibles medidas en un nivel nominal o
ordinal.




x
=(

n
x
1
i
/ n)
Media Aritmtica
UNI Norte

Estadstica I Luis Mara Dicovskiy Riobo

22


Ejemplo de clculo de una media o promedio.
Si tengo la nota de un examen de matemticas de 10 estudiantes en una escala
de 1 a 100 donde:
Estudiante Variable Nota = x
i
Valor de x
i

Luis X
1
62
Alberto X
2
68
Juan X
3
92
Pedro X
4
88
Robero X
5
55
Mara X
6
79
Raquel X
7
89
Luisa X
8
92
Rosa X
9
67
Diana X
10
69

i
x

10
1
=
761.
En este caso i varia de 1 a 10.

Media de notas de los estudiantes =
i
x

10
1
/10 = 761/10 = 76.1
La Mediana
La segunda medida de tendencia central es la mediana. La mediana m de un
conjunto de mediciones x
1
, x
2
, x
3
, ...., x
n
es el valor de x que se encuentra en el
punto medio o centro cuando se ordenan los valores de menor a mayor.

Si las mediciones de un conjunto de datos se ordenan de menor a mayor valor y
n es impar, la mediana corresponder a la medicin con el orden (n + 1) / 2. Si
el nmero de mediciones es par , n = par, la mediana se escoge como el valor de
x a la mitad de las dos mediciones centrales, es decir como el valor central entre
la medicin con rango n/2 y la que tiene rango (n/2) + 1.





Reglas para calcular la mediana
- Ordenar las mediciones de menor a mayor
- Si n es impar, la mediana m es la medicin con rango (n + 1) / 2
- Si n es par, la mediana m es el valor de x que se encuentra a la mitad
entre la medicin con rango n / 2 y la medicin con rango (n /2)+1.

UNI Norte

Estadstica I Luis Mara Dicovskiy Riobo

23
Ejemplo de clculo de una mediana.
En el ejemplo de las notas de matemticas la mediana se construye ordenando
los datos de menor a mayor:

Estudiante Datos ordenados Valor de x
i

Roberto 1

55
Luis 2 62
Rosa 3 67
Alberto 4 68
Diana 5 69
Mara 6 79
Pedro 7 88
Raquel 8 89
Juan 9 92
Luisa 10 92

Como n es impar, la normal es igual a la mitad entre la medicin con rango n /
2 y la medicin con rango (n/2) +1, donde n / 2 = 5 y (n /2) +1 )= 6.
El dato 5 vale 69 y el dato 6=79, entonces la mediana es igual a 69 + 79 / 2= 74
En este ejemplo la mediana es semejante a la media.

La Moda
La moda es la medida de tendencia central ms fcil de calcular y tambin es la
ms sujeta a fluctuaciones cuando cambian unos pocas valores de la distribucin.
Por esta razn la moda se suele usar para una evaluacin rpida de la tendencia
central. La moda se define comoel valor ms frecuente de una distribucin. Se
debe usar cuando se describen datos nominales, es la nica medida de tendencia
central que funciona con este tipo de escala..









La moda es el valor ms frecuente y
funciona bien con escalas nominales
UNI Norte

Estadstica I Luis Mara Dicovskiy Riobo

24
Comparaciones entre las diferentes medidas.
Las tres medidas de tendencia central, la media, mediana y moda, no son
igualmente tiles para obtener una medida de tendencia central. Por el contrario,
cada una de estas medidas tiene caractersticas que hacen que su empleo sea
una ventaja en ciertas condiciones y en otras no.

La media es la medida de tendencia central, generalmente ms usada y tiene la
caracterstica que incorpora todos los datos de la variable en su clculo por lo
tanto su valor suele ser ms estable. Adems se suele preferir en la construccin
de pruebas de hiptesis, en la estadstica inferencial. Se usa normalmente con
datos de intervalo y de razn constante y cuando las distribuciones tiene forma
simtrica.

La mediana suele ser la medida preferida cuando se emplea una escala ordinal,
estas son las situaciones donde el valor asignado a cada caso no tiene otro
significado ms que el indicar el orden entre los casos. Por ejemplo saber en una
clase cuales alumnos estn dentro del 50% con mejores notas y cuales dentro del
50% con peores notas. Tambin se suele preferir la mediana cuando unos pocos
valores extremos distorsionan el valor del promedio. Por ejemplo si tengo 9
personas con 0 ingresos y uno sola que tiene ingresos de 10 unidades, el
promedio me puede dar a entender que la mayora recibe 1 uni dad, cuando esto
no es real.

La moda en ciertas condiciones puede ser la ms apropiada, por ejemplo cuando
se quiere informacin rpida y cuando la precisin no sea un factor especialmente
importante. En ciertos casos solo esta medida tiene sentido por ejemplo en un
equipo de ftbol llevo la estadstica por jugador (escala ordinal) de la cantidad de
pases que realiza por juego, esto para detectar quien es el que mejor
distribuyendo la pelota, en este caso la media y la mediana no tendran
significado, solo la moda.

UNI Norte

Estadstica I Luis Mara Dicovskiy Riobo

25
No necesariamente una escala de medida nos debe decir que tipo de medida de
tendencia central debemos usar, pero si nos ayuda a determinar cual es la ms
apropiada.

Un aspecto interesante entre las tres medidas es su comportamiento referente a la
simetra que toma una distribucin. Cuando las distribuciones son simtricas, sin
sesgo, caso de la distribucin Normal que tiene forma de campana, la media, la
mediana y la moda coinciden. Si la distribucin es asimtrica con sesgo positivo,
hay ms datos hacia la izquierda de la media, entonces la media es mayor que la
mediana y esta mayor que la moda. Si ocurre lo contrario, el sesgo es negativo,
entonces la media es menor que la mediana y esta menor que la moda.

1.4 Medidas de Dispersin o de Variabilidad

Las medidas de variabilidad indican la dispersin de los datos en la escala de
medicin. As como las medidas de tendencia central son valores en una
distribucin, las medidas de dispersin son intervalos, distancias o un nmero de
unidades en la escala de medicin. Este tipo de medida se complementa con las
medidas de centralidad y ambas permiten describir a la mayora de las
distribuciones. Los tipos de medidas de Dispersin ms comunes son: el Rango,
el Desvo Estndar y la Varianza.

El Rango.
El Rango, Recorrido o Amplitud de un conjunto de mediciones, es la diferencia
entre el valor mayor y el valor menor, indica el nmero necesario y mnimo de
unidades, en la escala de medicin, para incluir los valores mnimo y mximo. Es
la medida de dispersin ms fcil de calcular, pero tambin es la menos estable al
estar fuertemente influenciada por valores extremos atpicos.

Cuanto ms grande es el rango, mayor ser la dispersin de los datos de una
distribucin. Es adecuada para medir la variacin de pequeos conjuntos de datos
y para escalas de tipo nominal.
UNI Norte

Estadstica I Luis Mara Dicovskiy Riobo

26

El Desvo Estndar.
El Desvo Estndar es la medida de dispersin ms ampliamente usada y es la
ms estable ya que depende de todos los valores de la distribucin. Es el
promedio de desviacin de los valores con respecto a al media, aunque una
definicin completa sera: la raz cuadrada de la suma de las desviaciones
alrededor de la media, elevadas al cuadrado y divididas entre el nmero de casos
menos uno en el caso de S, .





Cuando se trabaja con muestras el desvo estndar se simboliza con una S y con
la letra sigma minscula o cuando se usan datos de una poblacin. Su frmula
de clculo es:






Donde i es cualquier valor de uno a n o N, y n es el nmero total de datos de
la muestra y N de la poblacin.
El desvo estndar, S o o, se interpreta como cuanto se desva, en promedio,
de la media un conjunto de valores y se grafico como un intervalo. Esta medida
solo se utiliza con escalas de intervalo y de razn constante.


Desvo Estndar S: la raz
cuadrada de la suma de las
desviaciones alrededor de la
media, elevadas al cuadrado y
divididas entre el nmero de
casos menos uno.

=
n
i n x x S
1
2
1 / ) (

=
N
i N x
1
2
/ ) ( o

UNI Norte

Estadstica I Luis Mara Dicovskiy Riobo

27

Ejemplo de clculo de Desvo Estndar S
Con el ejemplo de las notas de matemticas haremos clculo de S

S=


= 13.6

Se sugiere hacer estos clculos usando una calculadora cientfica en funcin
estadstica.

La Varianza.
La varianza es el desvo estndar elevado al cuadrado y se simboliza con S
2

cuando es muestral, o o
2
cuando es poblacional. Este es un concepto que se usa
en muchas pruebas estadsticas, por ejemplo el Anlisis de Varianza, ANDEVA
que se basa en la descomposicin y relacin de las varianzas de las causas de
variacin de los datos. Pero para fines descriptivos se prefiere usar el desvo
estndar en vez de la varianza, que suele ser un valor mayor y difcil de
interpretar.

El Coeficiente de variacin
El coeficiente de variacin, CV, es un cociente entre el desvo estndar y la media
de los datos
X
S
CV =
. Este coeficiente permite comparar la variabilidad de
diferentes muestras de una poblacin la variabilidad entre variables diferentes.
En general un CV menor a 0.10, nos dice que los datos tienen poca variabilidad,
que es lo mismo que decir que los valores observados son en general, cercanos
al valor medio.

9 / ) ) 1 . 76 92 ( ) 1 . 76 92 ( ) 1 . 76 89 ( ) 1 . 76 88 (
) 1 . 76 79 ( ) 1 . 76 69 ( ) 1 . 76 68 ( ) 1 . 76 67 ( ) 1 . 76 62 ( ) 1 . 76 55 ((
2 2 2 2
2 2 2 2 2 2
+ + +
+ + + + + +
UNI Norte

Estadstica I Luis Mara Dicovskiy Riobo

28
Interpretacin de las medidas de tendencia central y de la variabilidad.

Cabe destacar que al describir nuestros datos, debemos interpretar nuestros datos
de tendencia central y de variabilidad en conjunto y no de manera separada. Con
la media y el desvo estndar se pueden construir intervalos donde supongo estn
la mayora de los datos en el caso que la distribucin sea normal. La moda,
mediana y el rango pueden completar la informacin sobre la distribucin y as
tener una buena idea de lo que sucede con la variable en estudio.


1.6 Otras medidas tiles en Estadstica Descriptiva.
Cuando los polgonos de frecuencia de una variable se presentan en forma de
curva hay dos medidas esenciales para describir estas curvas: La Asimetra y la
Curtosis.

La Asimetra.
La Asimetra es una estadstica necesaria para conocer cuanto se parece nuestra
distribucin a una distribucin terica llamada curva normal y constituye un
indicador del lado de la curva donde se agrupan las frecuencias. Si es cero
(asimetra = 0), la curva de distribucin es simtrica. Cuando es positiva quiere
decir que hay valores agrupados hacia la izquierda de la curva, por debajo de la
media. Cuando es negativa significa que los valores tienden a agruparse hacia la
derecha de la curva, por encima de la media.

La Curtosis.
La curtosis es un indicador de lo plano o puntiaguda que es una curva. Cuando es
cero, curtosis = 0, significa que se trata de una curva Normal. Si es positiva, quiere
decir que la curva o distribucin o polgono es ms puntiaguda o levantada. Si es
negativa quiere decir que es ms plana.
UNI Norte

Estadstica I Luis Mara Dicovskiy Riobo

29










Ejercicio 6
Clase Prctica de Estadstica: A partir del grupo de clase generar una base de
datos como la que a continuacin se muestra, proponer un modelo de anlisis en
computadora, de estas variables. Explicar que tablas, grficos y pruebas
estadsticas se pueden hacer para describir la informacin

Definicin:
Las medidas calculadas a partir de la poblacin, Ej.
y o se llaman PARMETROS

Las medidas calculadas a partir de las muestras, Ej. x
S se llaman ESTADSTICOS
UNI Norte

Estadstica I Luis Mara Dicovskiy Riobo

30


GENERACIONDEDATOS
NOMBRE NOTAS
Prom.
EST
ADO
CIVIL
EDAD ALTU
RA
SEXOPESOorigen INGRE
SO
FAMI
LIAR
BE
CA
S
Opinin
Abel 74 2 25 1.75 1 140 2 1 0 3
Adely 70 2 18 1.55 2 110 1 1 0 3
Alexis 80 2 24 1.85 1 150 1 1 1 2
Aracely 70 2 20 1.54 2 117 1 1 1 4
Candelario 78 1 24 1.65 1 150 2 1 0 5
Carlos 85 2 19 1.8 1 150 1 2 0 5
Cesar 70 2 19 1.7 1 140 2 1 0 5
Cleotilde 75 1 20 1.5 2 112 1 1 1 1
Danny T 70 2 18 1.7 1 160 1 1 0 4
Danny 85 2 18 1.67 1 120 2 1 0 4
David N 77 2 18 1.63 1 135 1 1 0 2
Deice 75 2 20 1.52 2 110 1 1 1 3
Edwin 80 1 18 1.75 1 110 1 1 0 3
Ronal 80 2 21 1.73 1 160 2 1 0 3
Sara 80 2 17 1.6 2 114 2 1 0 2
Sayda 78 2 18 1.5 2 128 2 1 0 5
Seyla 75 2 20 1.7 2 120 1 1 1 5
Tania 90 2 19 1.65 2 130 2 1 0 4
Uriel 70 2 22 1.65 1 140 2 1 0 2
Yilmar 78 2 18 1.8 1 174 2 2 0 4


Cdigos: Estado Civil: 1 Soltero, 2 Casado; Origen: 1 Estel, 2 No Estel; Sexo: 1
Varn, 2 Mujer; Becas: 1 Si 2 No; Opinin: 1 Negativa 5 Positiva

Tomando como fuente de datos las variables continuas recolectadas a partir de los
datos que generen los estudiantes en clase debe construir
- medias,
- modas
- medianas,
- desviacin estndar y rango
- distribucin de frecuencias
- espacios:
x
2 S y determinar cuantos datos entran en este intervalo.
UNI Norte

Estadstica I Luis Mara Dicovskiy Riobo

31
- Grficos de barras, histogramas y grficos de pastel

1.7 Muestras y Poblacin.

Llamaremos poblacin a un conjunto homogneo de elementos en el que se
estudia una caracterstica dada. El censo es la forma de estudio de todos los
elementos de una poblacin. Frecuentemente no es posible estudiar toda la
poblacin ya que suele ser econmicamente inviable o llevar tanto tiempo que es
impracticable.

Como generalmente no se puede estudiar la poblacin, se selecciona un conjunto
representativo de elementos de esta, que llamaremos muestra. Cuando la
muestra est bien escogida podemos obtener informacin de la poblacin similar a
la de un censo, pero con mayor rapidez y menor costo.

La clave de un procedimiento de muestreo es garantizar que la muestra sea
representativa de la poblacin. Por lo tanto cualquier informacin al respecto de
las diferencias entre sus elementos debe tenerse en cuenta para seleccionar la
muestra, esto origina diferentes tipos de muestreo, los cuales se describen a
continuacin.
Muestreo Aleatorio Simple
Decimos que una muestra es aleatoria cuando:
- Cada elemento de la poblacin tiene la misma probabilidad de ser elegido.
- La poblacin es idntica en todas las extracciones de muestreo. Esta
caracterstica es irrelevante si el tamao de la poblacin (N) es grande en
relacin al tamao de la muestra (n) .
Cuando la fraccin n / N a priori se determina que ser mayor que 0.1, un mtodo
para determinar n de manera aproximada es el siguiente:
q * p D * 1 ) ( N
q * p * N
n
+
=
Donde:
UNI Norte

Estadstica I Luis Mara Dicovskiy Riobo

32
- Los valores p y q cumplen que p + q = 1 y generalmente se acepta que
p = q = 0.5.
- D es un valor que se vincula al error de estimacin prefijado donde D = B
2
/4
- B es el error de estimacin que se debe fijar y generalmente flucta entre
0.01 y 0.10 .
- p x q es la variancia de una distribucin binomial de una pregunta
dicotmica, con tiene 2 posibles respuestas.
Si bien este modelo es bastante terico es un mtodo muy usado para aproximar
un valor de n entrevistados, cuando se realiza investigacin social .

Muestreo Estratificado
El muestreo aleatorio simple debe utilizarse cuando los elementos de la poblacin
son homogneo respecto a las caractersticas a estudiar, es decir a priori no
conocemos que elementos de la poblacin tendrn valores altos de ella. Cuando
dispongamos de informacin sobre la poblacin conviene tenerla en cuenta al
seleccionar la muestra.
Un ejemplo clsico son las encuestas de opinin, donde los elementos (personas)
son heterogneas en algunas variables como: sexo, edad, profesin, etc. Interesa
en estos casos que la muestra tenga una composicin anloga a la poblacin, lo
que se consigue mediante una muestra estratificada.

Se denomina muestra estratificada aqul en que los elementos de la poblacin se
divide en clases o estratos. La muestra se toma asignando un nmero o cuota de
miembros a cada estrato y escogiendo los elementos por muestreo aleatorio
simple dentro del estrato.

En concreto si existen k estratos de tamao N
1
...N
k
y tales que N = N
1
+ N
2
+
....+ N
k
se tomar una muestra nque garantice una presencia adecuada de cada
estrato n
i
.
UNI Norte

Estadstica I Luis Mara Dicovskiy Riobo

33

Existen dos criterios bsicos para dividir el tamao total de la muestra n entre los
estratos de n
i
:
1. Mtodo Proporcional al tamao relativo del estrato de la poblacin, por
ejemplo si en la poblacin hay un 55 % de mujeres y un 45 % de hombres,
mantendremos esta proporcin de la muestra. En general se har n
i
= n *
N
i
/ N .

2. Mtodo Proporcional a la Variabilidad del Estrato. Si conocemos la varianza
de la caracterstica estudiada de cada estrato, tomaremos el tamao
muestral en cada una de manera proporcional a su variabilidad, de manera
que los estratos ms variables estn representados. En concreto si
llamamos
i
o a la desviacin estndar en el estrato i, se tomar la
siguiente ecuacin:

=
n
1
i i
i i
i
. N
. N
n n

. Esta frmula se reduce a la anterior el


mtodo proporcional si la variabilidad de los diferentes estratos es
semejante.

Muestreo por Conglomerados
Existen situaciones donde ni el muestreo aleatorio simple ni el estratificado son
aplicables, ya que no disponemos de una lista con el nmero de elementos de la
poblacin ni en los posibles estratos. En estos casos tpicamente los elementos de
la poblacin se encuentran de manera natural agrupados en conglomerados, cuyo
nmero es conocido, por ejemplo la poblacin rural se distribuye en comunidades
y los habitantes de un barrio en manzanas. Si suponemos que cada uno de estos
habitantes son parte de un conglomerado que pertenece a una poblacin total de
conglomerados semejantes para una variable dada, podemos seleccionar algunos
conglomerados al azar y dentro de ellos analizar a todos sus elementos o una
muestra aleatoria simple. Este mtodo se conoce como muestreo por
UNI Norte

Estadstica I Luis Mara Dicovskiy Riobo

34
conglomerados y tiene la ventaja de simplificar la recogida de la informacin
muestral, no es necesario visitar todos los conglomerados para recolectar una
muestra. El inconveniente obvio es que si los conglomerados son heterogneos
entre s, cmo se analizan solo algunos de ellos la muestra final puede ser no
representativa de la poblacin, algo as sucede si estudio a fondo una comunidad
en lo referente a un opinin dada y supongo que los resultados son
representativos de un conjunto de comunidades, pero si esta comunidad estudiada
tiene opiniones distintas del resto, los resultados no sern representativos de la
poblacin, por ejemplo las comunidades ms ricas suelen tener opinin diferente a
las mas pobres respecto a la ayuda social que da el estado

En resumen las ideas de estratificacin y de conglomerados son opuestas, la
estratificacin funciona tanto mejor cuanto mayor sean las diferencias entre los
estratos y ms homogneas sean estos internamente. Los conglomerados
funcionan si hay poca diferencia entre ellos y son muy heterogneos internamente,
que incluyan toda la variabilidad de la poblacin en el conglomerado.

Muestreo Sistemtico
Cuando los elementos de la poblacin estn en una lista o un censo, se puede
utilizar el muestreo sistemtico. Supongamos que tenemos una poblacin de
tamao N y se desea una muestra de tamao n y sea K un valor entero ms
prximo a la relacin n/N.La muestra sistemtica se toma eligiendo al azar, con
nmeros aleatorios, un elemento entre los primeros K elementos y se denomina
n
1
. El muestreo se realiza seleccionando los elementos (n
1
+ K) ; (n
1
+ 2 K), etc
a intervalos fijos de K hasta completar la muestra. Si el orden de los elementos
en la lista es al azar, este procedimiento es equivalente al muestreo aleatorio
simple, aunque resulta ms fcil de llevar a cabo sin errores.

UNI Norte

Estadstica I Luis Mara Dicovskiy Riobo

35
Si el orden de los elementos es tal que los ms prximos tienden a ser ms
semejantes que los alejados, el muestreo sistemtico tiende a ser ms preciso que
el aleatorio simple al cubrir ms homogneamente toda la poblacin.

El muestreo sistemtico puede utilizarse conjuntamente con el estratificado para
seleccionar le muestra dentro de cada estrato.





Tarea:
- Suponga que quiere conocer la opinin de una comunidad donde hay 50
personas adultas, N = 50. Cul es la es tamao de n mnimo a calcular?
- Cul sera el valor de n con una ciudad de 50,000 habitantes?
- Discuta que mtodo de muestreo usara si quiere estudiar la opinin de la
gente de 12 comunidades semejantes en cuanto a su nivel de vida y forma
de producir la tierra.

Bibliografa consultada:

Mendenhall . Estadstica para administradores.. Edit Iberoamericana

Sampieri, Collado y Lucio . Metodologa de la investigacin.. Edit Mc Graw Hill

Young y Veldaman . Introduccin a la Estadstica aplicado a las ciencias de la
conducta. Edit Trillas.


La regla general que se aplica a los procedimientos de muestreo es
que: cualquier informacin previa debe utilizarse para subdividir la
poblacin y asegurar mayor representatividad de la muestra.
UNI Norte

Estadstica I Luis Mara Dicovskiy Riobo

36
Unidad 2. Teora Elemental de Probabilidades




Definir conceptos bsicos de probabilidad
Explicar las Reglas de Adicin y Multiplicacin..
Valorar la importancia de la probabilidad para la seleccin de una muestra
Introducir la probabilidad condicional y Bayesiana

2.1 Introduccin a las Probabilidades
Con esta teora se estudia fenmenos naturales
con el fin de descubrir regularidades en la
ocurrencia de los mismos. Sus fundamentos
aunque parezca extrao se bas en un inicio en
el estudio de los juegos al azar (dados, cartas,
ruletas, etc), as comenz esta ciencia en la
Francia Monrquica. Sus aplicaciones hoy da
abundan desde ramas de las ciencias como por
ejemplo en la gentica mendeliana, gentica de
poblaciones, anlisis de experimentos, predicciones del tiempo, prediccin de
ataque de plagas, etc. En nuestra vida diaria aplicamos inconscientemente
probabilidades cuando compramos un billete de lotera o llevamos un paraguas
cuando vemos el cielo nublado.

2.2 Trminos Bsicos.
Experimento: Es el proceso que permite obtener una o varias observaciones.
Espacio Muestral S O,: Todos los posibles resultados de un experimento.
Evento A: Algn resultado del experimento que nos interesa.

Ejemplo: Experimento: tirar un dado.
Espacio muestral S O= (1, 2, 3, 4, 5, 6)
Objetivos

UNI Norte

Estadstica I Luis Mara Dicovskiy Riobo

37
Evento A = sale 3.


Probabilidades: La probabilidad de un evento A se
define como la frecuencia relativa de A en el espacio
muestral Oy se denota como P(A).

Por ejemplo si en una comunidad hay 64 campesinos
que siembran frijol de forma manual y 16 con bueyes.
En este caso hay 2 eventos: Siembra manual y Siembra
con bueyes y existe la P(bu) y la P(ma) asociados a la frecuencia de ocurrencia de
cada evento. La probabilidad que al elegir que una parcela al azar esta fue
sembrada al manual P(ma) es de 16/80 = 0.20 20 % .

2.3 Propiedades de la Probabilidad
- 0 s P(A) s 1
- El evento A es ms probable que B P(A) > P(B)
- Un Evento cierto, que seguramente ocurre, tiene probabilidad 1.
- Un Evento imposible, que nunca ocurrir, tiene probabilidad 0.

Regla del producto.
Si dos evento A y B son independientes si A no influye de ninguna manera en
B y viceversa. La probabilidad que los eventos independientes Ay B ocurran al
mismo tiempo es P(A y B) = P(AB) = P(A) x P(B)

Por ejemplo si la Probabilidad de obtener cara al arrojar una moneda es 0.5,
P(cara) = 0.5, la probabilidad que al arrojar dos veces la moneda salgan dos

P(A) = # casos favorables / # casos Totales de S = #A / # S
UNI Norte

Estadstica I Luis Mara Dicovskiy Riobo

38
caras, ya que ambos eventos son independientes, uno no influye sobre otro, la
P(cara, cara) es de 0.5 x .05 = 0.25
Una paradoja es que una persona que compra todas las semanas la lotera, para
un sorteo dado, tiene la misma probabilidad de sacar el premio mayor que una
persona que compr un nmero por primera vez

Tarea: estimar la probabilidad que al elegir por sorteo dos estudiantes del grupo,
ambos sean varones. Determinar tambin cuales eventos forman Oes este
caso.
Si los sucesos son independientes: P(A) x P (B) es igual p(A B)
Otro enfoque de mirar independencia es, si dos eventos A y B son independientes
si y slo si: P(A|B) = P(A) y P(B|A) = P(B) o, que es lo mismo: P(AB) = P(A) x P(B)
Regla de la Suma.
Para que dos eventos A y B se puedan sumar directamente, estos deben se
incompatibles, es decir ellos no pueden ocurrir al mimo tiempo. P(AB) = 0

La probabilidad que ocurra A B para eventos incompatibles A y B es P(A
B) = P (A) + P (B) = P(AB)

Si los eventos no son incompatibles P(AB) = P(A) + P(B) - P(AB)
En el ejemplo de arrojar dos veces una moneda al aire, la probabilidad que salga
una vez cara y el otro sol sin importar el orden, es la probabilidad de los eventos
cara, sol y sol, cara. Debido a que son cuatro los eventos posibles O= cara
cara, sol cara, cara sol y sol-sol y cada uno con igual probabilidad, cada uno
de esto eventos tiene una P = 0.25, de ocurrencia.
Por lo tanto la ocurrencia de cara-sol ms sol caraes de P (c, s) + P (s,c)),
que en valore de probabilidades es de P (0.25) + P (0.25) = 0.5
UNI Norte

Estadstica I Luis Mara Dicovskiy Riobo

39
2.4 Probabilidad condicionada
Como la probabilidad est ligada a nuestra ignorancia sobre los resultados de la
experiencia, el hecho de que ocurra un suceso, puede cambiar la probabilidad de
los dems. El proceso de realizar la historia de un caso, explorar y realizar
pruebas complementarias ilustra este principio.
La probabilidad de que ocurra el suceso A si ha ocurrido el suceso B, P(A/B), se
denomina probabilidad condicionada y se define
( )
( )
( ) B p
B A p
B A p

= /
si ( ) 0 = B p
La condicin que P(B) 0, esto es necesario para una buena definicin de
probabilidad condicional
Ejemplo:
Una mujer es portadora de una enfermedad recesiva que se trasmite al hijo por el
cromosoma X Cul es la probabilidad de que su prximo hijo tenga la
enfermedad?
Segn las leyes de Mendel, todos los posibles genotipos de un hijo de una madre
portadora (xX) y un padre normal (XY) son xX, xY, XX, XY y tienen la misma
probabilidad. El espacio muestral es O = {xX, xY, XX, XY} el suceso A={hijo enfermo}
corresponde al genotipo xY, por tanto, segn la definicin clsica de probabilidad
p(A) = 1/4 = 0,25
La mujer tiene el hijo y es varn qu probabilidad hay de que tenga la
enfermedad? (Esta es una Probabilidad condicionada a un suceso previo)
UNI Norte

Estadstica I Luis Mara Dicovskiy Riobo

40
Se define el suceso B = {ser varn} = {xY, XY} la probabilidad pedida es P(A/B) y
aplicando la definicin anterior (B) = 0,5; A B = {xY}; P(AB) = 0,25; P(A/B) =
0,25/0,5 = 0,5 .
Si sabemos que es varn, el espacio de la muestra, ahora es B. Por lo tanto se
puede calcular P(A/B) aplicando la definicin clsica probabilidad al nuevo espacio
muestral P(A/B) = 1/2 = 0,5
Ejercicio 7
Si se tiene una escuela de 200 alumnos distribuidos en tres aulas y por sexo:
mujer M, y varn, V; como sigue:
Aula/
Sexo
Varn Mujer
A 20 20
B 30 30
C 56 44
Total 106 94

Cul es la probabilidad que un estudiante, sin importar el sexo, sea del aula B ?
Cul es la probabilidad que un estudiante sea del aula A, si el estudiante es
mujer?
2.3 Teorema de Bayes
Regla de la probabilidad total
Se llama particin a un conjunto de sucesos A
i
tales que.



Es decir, son un conjunto de sucesos mutuamente excluyentes y que cubren todo
el espacio muestral.
A
1
A
2
... A
n
= O y A
i
A
j
= C i = j
UNI Norte

Estadstica I Luis Mara Dicovskiy Riobo

41


Regla de la probabilidad total: Si un conjunto de sucesos A
i
forman una particin
del espacio muestral y p(A
i
) = 0 A
i
, para cualquier otro suceso B se cumple


( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )

=
= + + + =
n
i
n n
A p A B p A p A B p A p A B p A p A B p B p
1
1 1 2 2 1 1
/ / ..... / /
p (B) = 0,003 * 0,25 + 0,001 * 0,75 = 0,0015
Planteo del Teorema de Bayes
Si los sucesos A
i
son una particin y B un suceso tal que p (B) = 0 y para i=
1,2,..n, como lo visto en la teora de Probabilidad Total

A
1
A
2
A
n
A
1
A
2
A
n
B

UNI Norte

Estadstica I Luis Mara Dicovskiy Riobo

42
( )
( ) ( )
( ) ( )

=
=
n
j
j j
i i
i
A p A B p
A p A B p
B A p
1
/
/
/

Ejercicio resuelto:
Tres mquinas, A, B y C, producen el 45%, 30% y 25%, respectivamente, del total
de las piezas producidas en una fbrica. Los porcentajes de produccin
defectuosa de estas mquinas son del 3%, 4% y 5%.
a. Seleccionamos una pieza al azar; calcula la probabilidad de que sea
defectuosa. (probabilidad Total)
b. Tomamos, al azar, una pieza y resulta ser defectuosa; calcula la
probabilidad de haber sido producida por la mquina B.
c. Qu mquina tiene la mayor probabilidad de haber producido la citada
pieza defectuosa?
Sea D= "la pieza es defectuosa" y N= "la pieza no es defectuosa". La informacin
del problema puede expresarse en el diagrama de rbol adjunto.
a. Para calcular la probabilidad de que la pieza elegida sea defectuosa, P(D),
por la propiedad de la probabilidad total,
P(D) = P(A) P(D/A) + P(B) P(D/B) + P(C) P(D/C) =
= 0.45 x 0.03 + 0.30 x 0.04 + 0.25 x 0.05 = 0.038
Resolucin por diagrama de rbol. Un diagrama de rbol es una representacin
grfica de un experimento que consta de pasos, donde cada uno de los pasos
tiene un nmero finito de maneras de ser llevado a cabo.

UNI Norte

Estadstica I Luis Mara Dicovskiy Riobo

43
Prob. Mquina Prob. Tipo de
produccin
0.45 A 0.03 D
0.97 N
0.30 B 0.04 D
0.96 N
0.25 C 0.05 D
0.095 N
b. Debemos calcular P(B/D). Por el teorema de Bayes,

( )
( ) ( )
( ) ( ) ( ) ( ) ( ) ( ) C D P C P B D P B P A D P A P
B D P B P
D B P
/ . / . / .
/ .
/
+ +
=


( )( )
( )( ) ( )( ) ( )( )
316 . 0
38
12
05 . 0 25 . 0 04 . 0 3 . 0 03 . 0 45 . 0
04 . 0 30 . 0
= =
+ +
=


c. Calculamos P(A/D) y P(C/D), comparndolas con el valor de P(B/D) ya
calculado. Aplicando el teorema de Bayes, obtenemos:

( )
( )( )
( )( ) ( )( ) ( )( )
355 . 0
380
135
05 . 0 25 . 0 04 . 0 3 . 0 03 . 0 45 . 0
03 . 0 45 . 0
/ = =
+ +
= D A P

UNI Norte

Estadstica I Luis Mara Dicovskiy Riobo

44
( )
( )( )
( )( ) ( )( ) ( )( )
329 . 0
380
125
05 . 0 25 . 0 04 . 0 3 . 0 03 . 0 45 . 0
05 . 0 25 . 0
/ = =
+ +
= D C P


La mquina con mayor probabilidad de haber producido la pieza defectuosa
es A
2.4 Tcnicas de conteo: Combinaciones y Permutaciones
Las tcnicas de conteo son aquellas que son usadas para enumerar eventos
difciles de cuantificar.
Combinaciones:
Para calcular el nmero de combinaciones se aplica la siguiente frmula:
)! ( !
!
.
n m n
m
C
n m

=


El termino " n ! " se denomina "factorial de n" y es la multiplicacin de todos los
nmeros que van desde "n" hasta 1.
Por ejemplo: 4 ! = 4 * 3 * 2 * 1 = 24
La expresin "C
m,n
" representa las combinaciones de "m" elementos, formando
subgrupos de "n" elementos.
Ejemplo: C
10,4
son las combinaciones de 10 elementos agrupndolos en
subgrupos de 4 elementos:
210
) 1 . 2 . 3 . 4 . 5 . 6 )( 1 . 2 . 3 . 4 (
1 . 2 . 3 . 4 . 5 . 6 . 7 . 8 . 9 . 10
)! 4 10 ( ! 4
! 10
4 , 10
= =

= C


Es decir, podramos formar 210 subgrupos diferentes de 4 elementos, a partir de
los 10 elementos.
Por ejemplo: Si tomamos el conjunto A={a,b,c,d}, cuntos subconjuntos de 2
elementos cada uno se pueden obtener?
UNI Norte

Estadstica I Luis Mara Dicovskiy Riobo

45
Hacindolos se obtienen: {a,b}, {a,c}, {a,d}, {b,c}, {b,d}, {c,d}. Son seis los
subconjuntos.

Permutaciones:
Para calcular el nmero de permutaciones se aplica la siguiente frmula:
)! (
!
.
n m
m
P
n m

=


La expresin "P
m,n
" representa las variaciones de "m" elementos, formando
subgrupos de "n" elementos. En este caso, como vimos en la leccin anterior, un
subgrupo se diferenciar del resto, bien por los elementos que lo forman, o bien
por el orden de dichos elementos.
Ejemplo: P
(10,4)
son las permutaciones de 10 elementos agrupndolos en
subgrupos de 4 elementos:
040 , 5
1 . 2 . 3 . 4 . 5 . 6
1 . 2 . 3 . 4 . 5 . 6 . 7 . 8 . 9 . 10
)! 4 10 (
! 10
4 , 10
= =

= P


Es decir, podramos formar 5.040 subgrupos diferentes de 4 elementos, a partir de
los 10 elementos.
Por ejemplo: Sea A={a,b,c,d}, cuntas "palabras" de dos letras se pueden
obtener?
Se pide formar permutaciones u ordenaciones de 2 letras, cuando el total de letras
es 4. En este caso r=2 y n=4.
Las "palabras" de 2 letras formadas son: aa, ab, ac, ad, ba, bb, bc, bd, ca, cb, cc,
cd, da, db, dc, dd. En total son 16.

Bibliografa y Documentos Consultados
Abraira V. PROBABILIDAD.. Centro de Estudios Ramn Areces. Madrid. 1996.
UNI Norte

Estadstica I Luis Mara Dicovskiy Riobo

46
Dicovskiy, L. Mdulo Nro 1. Bioestadstica. Folleto de clase. UCATSE.

Sampieri R, Collado C y Lucio P. 2004.Metodologa de la Investigacin. Tercera
Edicin edit. Mc Graw Hill.

Vermeer I.1996. Estadstica, Curso Bsico. EAGE. 104 p.
UNI Norte

Estadstica I Luis Mara Dicovskiy Riobo

47

Unidad 3. Variables aleatorias y sus distribuciones.






Aplicar el concepto de variable aleatoria
Explicar las distribuciones ms usadas en la ingeniera
Identificar que modelos se usan con variables discretas y continuas

3.1 Distribuciones de Frecuencia, Introduccin.




Hasta esta unidad nos hemos ocupado de descripciones de muestras usando
tablas, grficos y valores tpicos como la media y la varianza. Pero generalmente
nuestro inters va ms all que una simple descripcin, suele haber inters en
tratar de generalizar los resultados de la muestra hacia el grupo total, es decir la
Poblacin.

Para generalizar podemos usar modelos estadsticos tericos diseados por
estadsticos famosos como Gauss, Fisher, Gosset y otros.

Hoy en da los modelos estadsticos tericos son frecuentemente utilizados para
observar y comprender fenmenos naturales que implican el estudio de variables
o caractersticas de poblaciones naturales. El instrumento conceptual que
permitir esta generalizacin es un modelo de la poblacin, es decir una
representacin simblica de su comportamiento. Los modelos estadsticos van a
actuar de puente entre lo observado, la muestra y lo desconocido, la poblacin.
Los modelos estadsticos son un puente entre la muestra observada y la
poblacin desconocida.

Objetivos
UNI Norte

Estadstica I Luis Mara Dicovskiy Riobo

48
Las distribuciones de probabilidad estn relacionadas con las distribuciones de
frecuencias. Una distribucin de frecuencias terica es una distribucin de
probabilidades que describe la forma en que se espera que varen los resultados.
Debido a que estas distribuciones tratan sobre expectativas de que algo suceda,
resultan ser modelos tiles para hacer inferencias y para tomar decisiones en
condiciones de incertidumbre.
Las distribuciones de probabilidad son idealizaciones de los polgonos de
frecuencias. En el caso de una variable estadstica continua consideramos el
histograma de frecuencias relativas, y se comprueba que al aumentar el nmero
de datos y el nmero de clases el histograma tiende a estabilizarse llegando a
convertirse su perfil en la grfica de una funcin.
Una distribucin de frecuencias es un listado de las frecuencias observadas de
todos los resultados de un experimento que se presentaron realmente cuando se
efectu el experimento, mientras que una distribucin de probabilidad es un listado
de las probabilidades de todos los posibles resultados que podran obtenerse si el
experimento se lleva a cabo.
Las distribuciones de probabilidad pueden basarse en consideraciones tericas o
en una estimacin subjetiva de la posibilidad. Se pueden basar tambin en la
experiencia.
Las distribuciones de probabilidad se clasifican como continuas y discretas. En la
distribucin de probabilidad discreta est permitido tomar slo un nmero limitado
de valores. En una distribucin de probabilidad continua, la variable que se est
considerando puede tomar cualquier valor dentro de un intervalo dado. Las
distribuciones continuas son una forma conveniente de presentar distribuciones
discretas que tienen muchos resultados posibles, todos muy cercanos entre s.
UNI Norte

Estadstica I Luis Mara Dicovskiy Riobo

49
3.2 Variables aleatorias.
Una variable es aleatoria si toma diferentes valores como resultado de un
experimento aleatorio. Puede ser discreta o continua. Si puede tomar slo un
nmero limitado de valores, entonces es una variable aleatoria discreta. En el otro
extremo, si puede tomar cualquier valor dentro de un intervalo dado, entonces se
trata de una variable aleatoria continua. Las variables aleatorias definidas sobre
espacios muestrales discretos se llaman variables aleatorias discretas y las
definidas sobre espacios muestrales continuos se llaman continuas.
Se puede pensar en una variable aleatoria como un valor o una magnitud que
cambia de una presentacin a otra, sin seguir una secuencia predecible. Los
valores de una variable aleatoria son los valores numricos correspondientes a
cada posible resultado de un experimento aleatorio.
Una variable aleatoria asocia un nmero o ms generalmente una caracterstica a
todo resultado posible del experimento. Por ejemplo, si consideramos el
experimento que consiste en realizar una edicin de la concentracin de un
producto en una solucin, nos interesa la variable aleatoria X= valor medido de la
concentracin. Otro ejemplo de variable aleatoria asociada a un proceso de
fabricacin, al experimento de escoger un elemento producido, y considerar la
variable aleatoria X= duracin hasta el fallo.
La distribucin de probabilidad de una variable aleatoria proporciona una
probabilidad para cada valor posible, y estas probabilidades deben sumar 1.
Funcin de densidad de probabilidad: funcin que mide concentracin
de probabilidad alrededor de los valores de una variable aleatoria continua.
Ejemplo 3: Tiramos una moneda 3 veces. Representamos escudo por c y
nmero por z.
S = {ccc, ccz, czc, zcc, czz, zcz, zzc, zzz}
UNI Norte

Estadstica I Luis Mara Dicovskiy Riobo

50
La probabilidad de cada suceso elemental es 1/8. Por ejemplo p (ccc)=1/8, ya que
la probabilidad de sacar cara en una tirada es 1/2 segn la definicin clsica y las
tiradas son independientes.
Definimos la variable aleatoria. X: nmero de escudos, que puede tomar los
valores {0, 1, 2, 3}. Se buscan todos los puntos muestrales que dan lugar a cada
valor de la variable y a ese valor se le asigna la probabilidad del suceso
correspondiente.
x Sucesos p
x

0 {zzz} 1/8
1 {czz, zcz, zzc} 3/8
2 {ccz, czc, zcc} 3/8
3 {ccc} 1/8
A esta funcin se le denomina funcin densidad de probabilidad (fdp), que
desgraciadamente "funciona" de distinta manera en las variables discreta que en
las continuas. En el caso de las variables discretas, como en el ejemplo, es una
funcin que para cada valor de la variable da su probabilidad.
Para las variables continuas la probabilidad de que una variable tome cualquier
valor concreto es 0, por lo tanto la fdp slo permite calcular la probabilidad para un
intervalo del tipo (a<X<b), mediante el rea bajo la curva de la fdp.
Para las variables aleatorias de inters hay tablas, y programas de
computacionales, donde buscar esos valores.

UNI Norte

Estadstica I Luis Mara Dicovskiy Riobo

51
Distribucin acumulativa o funcin de distribucin
Funcin que acumula probabilidades asociadas a una variable aleatoria. Su
notacin es F(x) = p(X s x). Para el ejemplo anterior, F (X) es:
X f(x) F(x)
0 1/8 1/8
1 3/8 4/8
2 3/8 7/8
3 1/8 8/8

En variables continuas F(X) = P(X < a) = } f(x) dx
La probabilidad de que la variable est dentro de un intervalo [a - b] se calcula:
P (a< x < b) = F(b) - F(a)
La probabilidad de que la variable tome un valor particular se puede expresar
como:
F(c) - F(c) = 0
Esto explica la idea de que para el caso de una variable aleatoria continua no
tiene sentido trabajar con la probabilidad de un valor particular.
Parmetros caractersticos de una funcin de densidad de
probabilidad.
Valor esperado o esperanza matemtica o media
UNI Norte

Estadstica I Luis Mara Dicovskiy Riobo

52

= = ) ( ) ( x xf x E
x
caso discreto
}


= = dx x xf x E
x
) ( ) ( caso continuo
Si X es una variable aleatoria cualquier funcin de ella, h(x), es tambin una
variable aleatoria, en consecuencia tambin se define este parmetro para una
funcin de variable aleatoria.
| |

= = ) ( ) ( ) ( x f x h x h E
x
Caso discreto
| |
}


= = dx x f x h x h E
x
) ( ) ( ) ( Caso continuo

Ejemplo: Se tira un dado. Se define como v.a. el nmero que sale Cul es su
media?
La variable X puede tomar los valores 1, 2, ..., 6 y para todos ellos f(x) = 1/6. En
consecuencia la media es
5 . 3
6
1
6 ....
6
1
2
6
1
1 ) (
6
1
= + + + = =

=
x xf
x
x


Obsrvese que es un nmero que la variable aleatoria no puede alcanzar.
Se define ahora una funcin sobre X: el premio: si sale 1 2 se gana 100 C$, si
sale 3 se gana 500 y si sale 4, 5 6 no se gana nada
X h(x)
1 100
2 100
UNI Norte

Estadstica I Luis Mara Dicovskiy Riobo

53
3 500
4 0
5 0
6 0
Cul es el valor medio de esta funcin?
6 . 116 0 0 0
6
1
500
6
1
100
6
1
100 ) ( ) (
6
1
= + + + + + = =

=
x f x h
x
x



Qu significa? es el valor medio a la larga: si se juega un nmero grande de
veces la ganancia final es como si en cada jugada se hubiera ganado 116,6 C$. Si
la apuesta costara menos de eso el juego sera ventajoso para el jugador, si
costara ms, para la banca.
Varianza:
Se define como:
( )
2 2
x x
x E o =

Aunque para el clculo se suele usar esta otra frmula equivalente:
2 2 2
) (
x x
x E o =

Qu mide la varianza? Mide la dispersin de la variable alrededor de la media.
Ejemplo de clculo de varianza:
UNI Norte

Estadstica I Luis Mara Dicovskiy Riobo

54
Si lanzamos tres veces una moneda, la esperanza y la varianza de la variable
aleatoria X nmero de escudos es:
E (X) = 0* 1/8 + 1* 3/8 + 2* 3/8 + 3 * 1/8 = 3/2
2 2 2
) (
x x
x E o =
= 0
2
* 1/8 + 1
2
* 3/8 + 2
2
* 3/8 + 3
2
* 1/8 (3/2)
2
=
866 . 0 4 / 3
2
= = =
o o
x x

El Desvo Estndar y el Teorema de Chebyshev
Es conocida en el rea de la probabilidad y estadstica, la desigualdad de
Chebyshev, matemtico Ruso del siglo XIX, que dice que la probabilidad de que
una variable aleatoria est distanciada de su media en ms de a veces la
desviacin estndar, es menor o igual que1/a
2
. Si E(x) es la media (o la
esperanza matemtica) y es la desviacin estndar, entonces podemos redefinir
la relacin como:
2
1
) ) ( (
a
a x E x P s > o
Tomando en cuenta el teorema de Chebyshev se puede construir las siguientes
reglas sobre el uso del desvo estndar:






3.3 Distribucin Normal
La distribucin Normal es un modelo terico para variables aleatorias y continuas y
representa la distribucin de frecuencias de una poblacin de valores.
Segn el teorema de Chebyshev, y sin importar el tipo de distribucin de
los datos, se cumple que:
El intervalo x 2 S contendr al menos de los datos.
El intervalo x 3 S contendr al menos 8/9 de los datos.

UNI Norte

Estadstica I Luis Mara Dicovskiy Riobo

55
La curva normal es una campana simtrica cuya forma y posicin depende de dos
parmetros
- , media poblacional, que se localiza en el centro de la del eje
horizontal.
- o , desviacin estndar que determina el ancho de la curva.

Para una variable x con media y desviacin estndar o , que est
normalmente distribuida, escribimos: x es N ( ,o ).
La funcin de densidad de la distribucin normal es:
2
2
2
) (
2
1
) (
o

t o

=
x
e x f


Ejemplo de una distribucin de frecuencias de Mg. de Aflotoxinas (toxinas) en
maz y la curva Normal terica que genera el programa SPSS.
UNI Norte

Estadstica I Luis Mara Dicovskiy Riobo

56
Cantidad de Aflatoxinas en mg en maiz
70 65 60 55 50 45 40 35 30 25 20 15 10 5
Histograma de frecuencias y curva terica Normal
F
r
e
c
u
e
n
c
i
a
30
20
10
0










A continuacin se observa un grfico de una distribucin normal tipificada(0,1)
donde est sombreado un intervalo de ms menos 1.96 desvi estndar.
Si un Distribucin de datos tiene aproximadamente el perfil o forma de campana
se cumple que:
El intervalo o contendr aproximadamente el 68 % de los datos.
El intervalo 2 o contendr aproximadamente el 95 % de los datos.
El intervalo 3 o contendr aproximadamente casi la totalidad de los
datos.

UNI Norte

Estadstica I Luis Mara Dicovskiy Riobo

57
-3.00 -2.00 -1.00 0.00 1.00 2.00 3.00
Variable
0.00
0.10
0.20
0.30
0.40
D
e
n
s
i
d
a
d
Funcin de densidad distribucin normal tipificada
Normal(0,1): p(evento)=0.9500

3.4 Distribucin t de Student.
La curva Normal y Normal Estndar son modelos tericos adecuados para
describir muchas poblaciones, basndose en dos parmetros y o . Sin embargo
por lo general, trabajamos con muestras, lo que da alguna inseguridad sobre el
modelo empleado al desconocerse estos parmetros. Un investigador, Gosset
(seudnimo Student) estudio este problema y lleg a la conclusin que la
distribucin Normal no funciona bien con muestras pequeas, de tamao menor a
30 datos, y encontr una distribucin que supera este problema, luego esta
distribucin se llamara t de Student. Esta distribucin se usa con variables
aleatorias y continuas

Es as que si X
1
, X
2
, . . . , X
n
son variables aleatorias independientes que son
todas normales con media,

y desviacin estndar
o
. La variable aleatoria
n
s
x
t

=


UNI Norte

Estadstica I Luis Mara Dicovskiy Riobo

58
Tiene una distribucin t con n-1 grados de libertad. Cuando hay menos de 30
grados de libertad la curva es ms aplanada que una curva normal, con ms
grados de libertad la distribucin t es casi igual que la distribucin normal.

Esta Distribucin se usa en construccin de intervalos de confianza y pruebas de
hiptesis de dos promedios.
-5.00 -2.50 0.00 2.50 5.00
Variable
0.00
0.10
0.20
0.30
0.40
D
e
n
s
i
d
a
d
n=1
n=10
n=100
Funcin de densidad Distribucin "t"


3.5 La distribucin X2 de Pearson.
La distribucin X
2
se genera a partir de n variables aleatorias independientes
normales con media 0 y varianza 1 . Si realizamos la siguiente operacin:


Es decir elevamos los n valores generados al cuadrado y los sumamos. Si
aplicamos este procedimiento muchas veces, obtendremos la distribucin de una
variable que solo depende del nmero de sumandos. Esta distribucin se
denomina X
2
con n grados de libertad. Esta distribucin comienza desde el valor
0, ya que al ser una suma de cuadrados no posee valores negativos.
2 2
1
2
....
n n
z z X + =

UNI Norte

Estadstica I Luis Mara Dicovskiy Riobo

59

Este tipo de distribucin se usa en pruebas de hiptesis sobre:
- Distribuciones, por ejemplo para verificar si un distribucin observada se
comporta como una distribucin Normal.
- Independencia, para verificar si dos variables discretas son independientes
o no.
0.00 3.81 7.62 11.44 15.25
Variable
0.00
0.06
0.12
0.18
0.24
D
e
n
s
i
d
a
d
Funcin de densidad de una Distribucin Chi cuadrada

3.6 La distribucin F de Fisher.

La distribucin F de Fisher surge del cociente de dos distribuciones X
2

independientes, con n y m grados de libertad respectivamente. Un valor F se
define matemticamente de la siguiente manera:






La distribucin de F es asimtrica y comienza del valor 0, no posee valores
negativos, al igual que la distribucin X
2
.
2
2
,
m
X
n
X
F
m
n
m n
=
UNI Norte

Estadstica I Luis Mara Dicovskiy Riobo

60

Este tipo de distribucin se usa mucho con pruebas de hiptesis de promedios
donde:
- Hiptesis nula, los promedios de los tratamientos pertenecen a un mismo
promedio poblacional



- Hiptesis alternativa, al menos un promedio de los tratamientos evaluados
no pertenecen al mismo promedio poblacional













3. 7 La distribucin Binomial.
Se usa con variables discretas, es decir cuyos valores son contables. Este modelo
se aplica a poblaciones finitas de las que tomamos elementos al azar con
reemplazamiento y tambin a poblaciones conceptualmente infinitas, como son
piezas que generara una mquina, siempre que el proceso generador sea estable
e
n
x x x H .... , :
2 1 0

e
n
x x x H .... , :
2 1 1

0.00 4.14 8.29 12.43 16.57
Variable
0.0
0.2
0.3
0.5
0.6
D
e
n
s
i
d
a
d
Funcin de densidad de una distribucin "F"
UNI Norte

Estadstica I Luis Mara Dicovskiy Riobo

61
(proporcin de pieza defectuosas constante a largo plazo) y sin memoria (el
resultado en cada momento es independiente de lo previamente ocurrido).

Un experimento Binomial tiene las siguientes caractersticas:
- Las observaciones se clasifican en dos categoras, por ejemplo A =
aceptable y D = defectuoso.
- La proporcin de elementos A y D en la poblacin es constante y no se
modifica, siendo en este caso p la probabilidad de defectuosos y q la
probabilidad de aceptables.
- Las observaciones son independientes, es decir que la probabilidad de
elemento defectuoso es siempre la misma y no se modifica por cualquier
combinacin de elementos defectuosos o aceptables observados.

Ejemplos de este proceso son:
- Observar cinco de cerdos hembras de una camada de 12 lechones recin
nacidos,
- Ganar 4 veces apostando a docena en diez tiradas sucesivas de una ruleta
- La aparicin de 10 plantas planta enferma en 100 plantas de cultivo.

La variable binomial posee siempre 2 eventos, por ejemplo A y B. Se define
como r:


Conociendo que :
- p es la probabilidad de ocurrencia del evento A
- q es la probabilidad de ocurrencia del evento B

Por lo tanto la probabilidad de encontrar r elementos que cumplen el evento A
luego de n repeticiones del experimento, se define como P ( r ):

r = nmero de elementos del evento A al observar n
experimentos
P ( r ) =
r n r
n
r
q p

|
.
|

\
|
siendo r = 0, 1, ..., n
UNI Norte

Estadstica I Luis Mara Dicovskiy Riobo

62



Siendo
|
.
|

\
|
n
r
las posibles combinaciones de ocurrencia de r en n experimentos y
esto se resuelve de la siguiente manera:





Estos problemas se pueden resolver directamente o con una tabla de
probabilidades binomiales.
Una distribucin binomial B(n,p) se parece a una normal tanto ms cuanto mayor
es el producto n * p (o n * q si q<p, siendo q=1-p). Cuando n * p y n * q superan
el valor 5, la aproximacin es casi perfecta.
En estas condiciones:
B(n,p) se aproxima a un distribucin normal, ) , ( npq np N


Veamos un ejemplo donde se usa esta distribucin, Cual es la probabilidad de
nacer 5 varones en 12 nacimientos? Este problema se puede resolver con un
diagrama de rbol de probabilidades, pero se hace muy complicado. Por
distribucin Binomial se resuelve el problema de la siguiente manera.
Si sabemos que:
- A evento varn
- B evento no varn, es decir mujer.
)! ( ! / ! r n r n
n
r
=
|
.
|

\
|

UNI Norte

Estadstica I Luis Mara Dicovskiy Riobo

63
- p probabilidad de varn = 0.5
- q probabilidad de mujer = 0.5
- n son 12 nacimientos totales
- r son 5 nacimientos de varones
Por lo tanto:
P ( 5 varones ) =
5 12 5
12
5
5 . 0 5 . 0

|
.
|

\
|

Donde )! 5 12 ( ! 5 / ! 12
12
5
=
|
.
|

\
|
= 1*2*3........*12 / 1*2*3...*5 ( 1*2*...*7)
= 8*9*10*11*12 / 1*2*3*4*5 = 3*2*11*12= 792


P ( 5 varones ) =
7 5
5 . 0 5 . 0 * 792 = 792* 0.03125 * 0.0078125 = 0.19

Ejercicio de prctica
La Secretara del Trabajo reporta que 20% de la fuerza de trabajo en un pueblo
est desempleada. De una muestra de 14 trabajadores, calcule las siguientes
probabilidades con la frmula de la distribucin binomial (n=14, p=0.2):

1. Tres estn desempleados: P(x=3)=.250
2. Al menos un trabajador est desempleado:
P(x > 1) = 1 - P(x=0) =1 - .044 = .956
3. A lo ms dos trabajadores estn desempleados:
P(x s 2)=.044 +.154 +.250 =.448
3.8 Distribucin de Poisson
En teora de probabiliddes y estadstica, la distribucin de Poisson es una
distribucin de probabilidad discreta. Expresa la probabilidad de un nmero de
eventos ocurriendo en un tiempo fijo si estos eventos ocurren con una tasa media
conocida, y son independientes del tiempo desde el ltimo evento. La distribucin
fue descubierta por Simon Poisson en 17811840.
UNI Norte

Estadstica I Luis Mara Dicovskiy Riobo

64
La distribucin de probabilidades binomial se hace cada vez ms sesgada a la
derecha conforme la probabilidad de xitos disminuye.
La forma lmite de la distribucin binomial donde la probabilidad de xito es muy
pequea y n es grande se llama distribucin de probabilidades de Poisson..
La distribucin de Poisson se puede describir matemticamente por la frmula:
!
) (
x
e
x P
x


=

Donde u es la media aritmtica del nmero de ocurrencias en un intervalo
especfico de tiempo, e es la constante 2.71828 y x es el nmero de ocurrencias.

El nmero medio de xitos u se puede determinar en situaciones binomiales por
n p, donde n es el nmero de ensayos y p la probabilidad de xito. La varianza
de la distribucin de Poisson tambin es igual a n p.
Ejemplo: un Hospital se especializa en el cuidado de lesiones menores. En las
horas de la tarde de 6-10 PM el nmero medio de llegadas es 4.0 personas por
hora.
Cul es la probabilidad de 4 llegadas en una hora?
P(4) = (4
4
) (e
-4
) / 4!= 0.1954.

Bibliografa y Documentos Consultados
Cebran, M. 2001. Distribuciones continuas. Ministerio de Educacin y ciencia.
Espaa.
http://descartes.cnice.mecd.es/Bach_HCS_2/distribuciones_probabilidad/dis_co
ntinuas.htm
Dicovskiy, L.1998. Mdulo Nro 3. Bioestadstica. EAGE. Folleto de clase.
CYTA. Gua de Estadsticas. Distribucin de Poisson
http://www.cyta.com.ar/biblioteca/bddoc/bdlibros/guia_estadistica/index.htm.
UNI Norte

Estadstica I Luis Mara Dicovskiy Riobo

65
Hospital Universitario Ramn y Cajal. Material docente de la Unidad de
Bioestadstica Clnica. Madrid. http://www.hrc.es/bioest/M_docente.html#tema2
Kessler, M. 2005. Apuntes de Mtodos estadsticos de la Ingeniera
http://filemon.upct.es/~mathieu/metodos/teoria/pdftema3.pdf
Pea D. Estadstica 1, modelos y mtodos, Fundamentos. 551 p.

Vermeer I..1996. Estadstica, Curso Bsico. EAGE. 104 p.

Zad, I. Metodologa. Variable Aleatoria.
http://www.southlink.com.ar/vap/VARIABLE%20ALEATORIA.htm
UNI Norte

Estadstica I Luis Mara Dicovskiy Riobo

66

Unidad 4. Estimacin y prueba de hiptesis.





- Desarrollar el concepto de estimacin de parmetros
- Explicar que es una prueba de hiptesis
- Diferenciar grupos de una poblacin utilizando pruebas de Student
- Diferenciar grupos de una poblacin usando pruebas de varianzas
- Realizar pruebas de independencia chi cuadrado



4.1 Estimacin por Intervalos de Confianza.
En estadstica se llama estimacin al conjunto de tcnicas que permiten dar un
valor aproximado de un parmetro (Ej.: o , ) de una poblacin a partir de
estadsticos, generados por los datos (Ej: x , S, n). Un estimador puntual de un
parmetro es un valor que puede ser considerado representativo de este y se
obtiene a partir de alguna funcin de la muestra, por Ej. x , promedio muestral,
estima puntualmente a , el promedio poblacional.
La estimacin por intervalos consiste en la obtencin de un intervalo dentro del
cual estar el valor del parmetro estimado, con una cierta probabilidad. Un uso de
la distribucin Normal y de la t de Student es la creacin de Intervalos de
confianza, estimacin por intervalos, de los promedios poblacionales, .
El promedio poblacional, , se estima por un intervalo calculado a partir de S y
x
de muestras.

Objetivos
Se debe poder hacer conclusiones generales para toda la
poblacin, a partir del estudio de las muestras.
UNI Norte

Estadstica I Luis Mara Dicovskiy Riobo

67
El intervalo de confianza de con un 95 de confianza, IC
95 %
, es el ms usado y
para muestras de ms de 30 datos se calcula como :




Para menos de 30 datos se usa:


Donde t es el valor dado por la distribucin t de Student con n-1 Grados de
Libertad, para un 95 % se busca el valor del t 0.975, ya que esta es una prueba
de dos colas.

El IC
95 %
nos dice que con un 95 % de confiabilidad en este intervalo encuentro el
promedio de la poblacin, el cual desconozco. Para esto necesito conocer de la
muestra los siguientes estadsticos: x , S y n.

El grfico de IC
95 %
se usa cuando se cruza una variable discreta que genera
grupos, con una variable continua. En este grfico se observan los promedios de
cada grupo con sus intervalos de confianza al 95 %, estos en forma de dos rayas.
Veamos un ejemplo de este tipo.


IC
95 %
= x 1.96 ) / ( n s
IC
95 %
= x t
95
) 1 / ( n s ,
UNI Norte

Estadstica I Luis Mara Dicovskiy Riobo

68
Grfico de Promedios e Intervalos de Confianza de , t
95%
, desagregada
por sexo, de la Edad de una poblacin adulta de Estados Unidos.

















En este tipo de grfico es interesante observar si los intervalos de confianza de los
diferentes promedios tienen valores superpuestos, ya que si es as, al hacer una
prueba de hiptesis lo ms probable que la respuesta sea de hiptesis nula, es
decir los promedios superpuestos pertenecen a un mismo promedio poblacional.

4.2 Generalidades de las pruebas de Hiptesis
Una hiptesis estadstica es una asuncin relativa a una o varias poblaciones, que
puede ser cierta o no. Las hiptesis estadsticas se pueden contrastar con la
informacin extrada de las muestras y tanto si se aceptan como si se rechazan se
puede cometer un error.
La hiptesis formulada con intencin de rechazarla se llama hiptesis nula y se
representa por H
0
. Rechazar H
0
implica aceptar una hiptesis alternativa (H
1
).
La situacin se puede esquematizar:
Sexo
Muj er Hombre
I

d
e

C

a
l

9
5
%


d
e

l
a

E
d
a
d
49
48
47
46
45
44
43
42
UNI Norte

Estadstica I Luis Mara Dicovskiy Riobo

69
H
0
cierta H
0
falsa
H
1
cierta
H
0
rechazada Error tipo I (o ) Decisin correcta (*)
H
0
no rechazada Decisin correcta Error tipo II (| )
(*) Decisin correcta que se busca
o = p (rechazar H
0
siendo H
0
cierta)
| = p (aceptar H
0
siendo H
0
falsa)
Potencia =1-| = p (rechazar H
0
siendo H
0
falsa)
Detalles a tener en cuenta
1 o y | estn inversamente relacionadas.
2 Slo pueden disminuirse las dos, aumentando n.
Los pasos necesarios para realizar un contraste relativo a un parmetro u son:
1. Establecer la hiptesis nula en trminos de igualdad
0 0
: u = u H

2. Establecer la hiptesis alternativa, que puede hacerse de tres maneras,
dependiendo del inters del investigador
0 0 0 1
....... .......... . .......... : u u u u u = u H


en el primer caso se habla de contraste bilateral o de dos colas, y en los otros dos
de lateral (derecho en el 2 caso, o izquierdo en el 3) o una cola.
3. Elegir un nivel de significacin: nivel crtico para o
UNI Norte

Estadstica I Luis Mara Dicovskiy Riobo

70
4. Elegir un estadstico de contraste: estadstico cuya distribucin muestral se
conozca en H
0
y que est relacionado con u y establecer, en base a dicha
distribucin, la regin crtica: regin en la que el estadstico tiene una probabilidad
menor que o si H
0
fuera cierta y, en consecuencia, si el estadstico cayera en la
misma, se rechazara H
0
.
Obsrvese que, de esta manera, se est ms seguro cuando se rechaza una
hiptesis que cuando no. Por eso se fija como H
0
lo que se quiere rechazar.
Cuando no se rechaza, no se ha demostrado nada, simplemente no se ha podido
rechazar. Por otro lado, la decisin se toma en base a la distribucin muestral
en H
0
, por eso es necesario que tenga la igualdad.
5. Calcular el estadstico para una muestra aleatoria y compararlo con la regin
crtica, o equivalentemente, calcular el "valor p" del estadstico (probabilidad de
obtener ese valor, u otro ms alejado de la H
0
, si H
0
fuera cierta) y compararlo con
o.
4.3 Prueba de hiptesis con pruebas t
El promedio de una muestra pertenece a poblacin con promedio
conocido.
Esta es una prueba que permite contrastar si una muestra de una variable difiere
significativamente de un promedio poblacional dado o no. Generalmente este
promedio es histrico.
La hiptesis nula es H
0
:
x =

El estadstico de contraste es el valor t calculado:
UNI Norte

Estadstica I Luis Mara Dicovskiy Riobo

71
n s
x
t
c
/

=

Ejemplo: Histricamente la edad de los alumnos que entran a primer ao de la
Universidad es de 18 aos. Se quiere saber si para el ao que viene la edad de
ingreso ser la misma a la histrica, para estudiar esto se tom una muestra de 36
estudiantes del ltimo ao de secundaria y se calcul la edad de ingreso a la
universidad. En funcin de los datos observados surge la hiptesis de que la edad
de los estudiantes es mayor que 18 aos. La muestra de 36 sujetos dio los
siguientes datos:
X
= 18.5 S=3.6
Se trata de un contraste sobre medias. La hiptesis nula (lo que queremos
rechazar) es:
18 :
0
= H


La hiptesis alternativa
18 :
0
H

Este un contraste lateral derecho.
Fijamos "a priori" el nivel de significacin en 0,05 y la regin crtica T>t
o

Si el contraste hubiera sido lateral izquierdo, la regin crtica sera T<t
1-o

y si hubiera sido bilateral T<t
1-

o/2
o T>t
o/2
. En este ejemplo t
(35)0,05
=1,69.
Calculamos el valor de t
c
en la muestra
UNI Norte

Estadstica I Luis Mara Dicovskiy Riobo

72
82 . 0
1 36
6 . 3
18 5 . 18
" " =

=
c
t

No est en la regin crtica (no es mayor que 1,69), por tanto no rechazamos H
0
,
la edad histrica de ingreso se mantiene.

Dos promedios tomados en una misma muestra, en momentos diferentes,
son iguales.
Esta es una prueba t para muestras relacionadas, donde pretendemos contrastar
las medias de una misma muestra que se ha medido dos veces en los mismos
sujetos. Se pretende saber si estos promedios difieren o no.

El estadstico de contraste es
n S
d
t
d
c
/
=


Donde d es el promedio de las diferencias de los datos repetidos, S
d
es la
desviacin estndar de las diferencias. n es el nmero de pares (diferencias).

Los promedios de dos muestras o grupos pertenecen a una misma
poblacin.
Esta es una prueba de hiptesis muy usada cuando se tienen dos grupos y se
quiere saber si estos tienen un mismo promedio poblacional.
UNI Norte

Estadstica I Luis Mara Dicovskiy Riobo

73
La hiptesis nula H
0
:
1

2
= d0
Generalmente d
0
=0
Hay diferentes tipos de prueba t, pero suponiendo varianzas iguales, el
estadstico a calcular se hace:
1 1
" "
2
2
2
1
2
1
2 1

=
n
S
n
S
X X
t
c


Ejemplo
En un ensayo para evaluar la vida til de dos productos. La variable medida es el
tiempo de vida til en aos: producto T, n = 35; = 3,7 aos de vida y s
2
= 33,9;
producto P n = 40; = 15,1 aos y s
2
= 12,8. El producto P tiene ms vida
til que el producto P?
Se trata de un contraste sobre diferencias de medias
H
0
:
T

P
= 0
H
1
:
T

P
> 0
Como no conocemos las varianzas, para realizarlo debemos decidir si son iguales
o distintas, para ello primero se plantea un contraste de prueba de hiptesis de
variancias. Si las variancias son iguales se sigue con la prueba t que se
presenta, sino se debe hacer otra variante de prueba t de ms difcil clculo.
Hiptesis de Variancias
2 2
0
:
P T
H o o =
UNI Norte

Estadstica I Luis Mara Dicovskiy Riobo

74
2 2
1
:
P T
H o o =


El estadstico es 65 . 2 8 . 12 / 9 . 33 /
2 2
= = =
T P
S S F , para el que p<0,05, en
consecuencia rechazamos la H
0
y concluimos que las varianzas son distintas. Por
lo tanto usaramos la t para varianzas distintas. Luego se hace la prueba de
hiptesis de promedios bajo el siguiente estadstico
90 . 9
1 40
8 . 12
1 35
9 . 33
7 . 3 1 . 15
" " =

=
T P
t
Rechazamos la H
0 ,
ya que este valor es mayor que el valor de tabla con n
1
+ n
2

2 , 35 + 40 -2 = 73 grados de libertad. Estos grados de libertad con un alfa del 5%
bilateral posee un valor t de 2, valor menor que 10.42, entonces concluimos que
las medias son distintas.

También podría gustarte