Está en la página 1de 31

CURSO DE PROBABILIDAD Y ESTADSTICA

Qu es la Estadstica?
Cada persona es un individuo, por lo que es diferente de manera nica a los dems. No
obstante, cuando se trata de un solo rasgo, muchos valores de una sola variable tomados
de muchos individuos, suele generar un patrn (Johnson, 1999). La metodologa
estadstica se usa para describir y ayudar a explicar estos patrones. La Estadstica aplica
tcnicas matemticas para cuantificar las ideas que se estn investigando y para reducir la
informacin a un formato numrico, en el que sta puede tratarse grfica o
algebraicamente.
OBJETIVO DEL CURSO
Objetivo: desarrollar la capacidad de razonamiento formal utilizando las herramientas
bsicas de la estadstica descriptiva y de la teora de probabilidades para muestrear,
procesar y comunicar informacin social y cientfica, para la toma de decisiones en la vida
cotidiana, en un clima de colaboracin y respeto.
1.1 Definicin de Probabilidad:
La teora de la probabilidad es la teora matemtica que modela los fenmenos aleatorios. Un
fenmeno aleatorio es aquel que, a pesar de realizarse el experimento bajo las mismas
condiciones determinadas, tiene como resultados posibles un conjunto de alternativas.
TEMARIO
Unidad I. Estadstica Descriptiva
I.1 Conceptos generales
I.1.1 Antecedentes histricos
I.1.2 Elementos fundamentales
I.1.3 Tipos de Variables
I.1.4 Escalas de medicin
I.1.5 Organizacin de la informacin
I.1.6 Distribucin de frecuencias y representacin grfica
I.2 Medidas de Tendencia Central
I.2.1 Mediana, Moda, Media aritmtica, geomtrica y armnica
I.2.2 Propiedades
I.3 Medidas de dispersin
1

I.3.1 Rango, Desviacin media, desviacin estndar y varianza


I.3.2 Propiedades

I.4 Medidas de forma


I.4.1 Sesgo, apuntamiento, Medidas de posicin o percentiles
I.5 Medidas de correlacin lineal
I.5.1 Grfica de dispersin
I.5.2 Coeficiente de correlacin r de Pearson
I.5.2 Ajuste de una recta de regresin
Unidad II. Probabilidad
II.1 Teora de Conjuntos
II.1.1 Operaciones con conjuntos
II.1.2 Diagramas de Venn
II.1.3 Diagramas de rbol
Eventos complementarios
Eventos mutuamente excluyentes
Experimento aleatorio y espacio muestral
Muestra probabilstica
Bibliografa
Johnson, Robert (1990) Estadstica elemental. Ed. Trillas. 2 edicin
Moore, David (1997) Statistics concepts and controversies. W. H. Freeman and Company.
4th edition
Lohr, Sharon (2000) Muestreo: diseo y anlisis. Ed. Thompson. 1 edicin.
Definicin de Estadstica
La Estadstica es la ciencia que estudia cmo debe emplearse la informacin y cmo dar
una gua de accin en situaciones prcticas que entraan incertidumbre Barnett (1973).
Estadstica es ms que matemticas. Incluye: resolucin de problemas, pensamiento
estadstico, recoleccin de datos, obtencin de resultados numricos y grficos,
cuestionamiento de resultados.
2

La estadstica trata sobre la descripcin del mundo que nos rodea.


Ciencia de recolectar, describir e interpretar datos.
Uno de los objetivos primordiales de la Estadstica es la medicin de la variabilidad
Definiciones de la Estadstica
Rama de las Matemticas que trata de la recopilacin, anlisis, interpretacin y
presentacin de una gran cantidad de datos numricos.
Es la rama del mtodo cientfico que trata de los datos reunidos al contar o medir las
propiedades de una poblacin.
Trata con mtodos para obtener conclusiones a partir de los resultados de experimento o
procesos
El conocimiento relacionado con la toma de decisiones en situaciones de incertidumbre
Dnde se usa?
Encuestas de tipo electoral, de mercado, sociales, econmicas, etc.
El mdico que investiga realiza experimentos para determinar el efecto de ciertos
medicamentos
El ingeniero muestrea caractersticas de calidad de un producto
El economista considera varios ndices de la situacin econmica y los utiliza para predecir
situaciones futuras
Surgimiento de la Estadstica
El rea descriptiva es tan antigua como la humanidad.
El rea inferencial surgi a mediados del siglo XVII, 1660 con Herman Conring.
Estadstica Descriptiva: resumir la informacin de un conjunto de datos en trminos de
estadsticos descriptivos como son medidas de localizacin y dispersin, momentos e ndices.
Se auxilia de tablas y grficos.
Estadstica Inferencial
Se refiere a la tcnica de obtener informacin de una poblacin a travs de la extraccin,
observacin y anlisis de los datos de una muestra.
Definiciones Bsicas
Poblacin: Coleccin o conjunto de individuos, objetos o eventos cuyas propiedades sern
analizadas
3

Muestra: subconjunto de la poblacin


Variable: caracterstica de inters sobre cada elemento individual de una poblacin o
muestra.
Dato: valor de una variable, asociado a un elemento de una poblacin o muestra. Puede
ser un nmero, una palabra o un smbolo.
Datos: conjunto de valores recolectados para la variable de cada uno de los elementos que
pertenecen a la muestra.
Experimento: prueba o serie de pruebas en las que se hacen cambios deliberados en las
variables de entrada de un proceso o sistema para observar e identificar las razones de los
cambios que pudieran observarse en la respuesta de salida.
Parmetro: valor numrico que resume todos los datos de una poblacin completa.
Estadstica(s): valor numrico que resume los datos de la muestra.
Tipos de variables
Cualitativa o de atributos: clasifica o describe un elemento de la poblacin. Ejemplos:
empleado, desempleado, gnero de una persona, nivel de escolaridad (primaria,
secundaria, etc.), identificacin partidaria (pri, pan, prd, etc.).
Cuantitativa o numrica: cuantifica un elemento de la poblacin. Ejemplos: edad de una
persona (en aos), ingreso de una persona (en pesos), antigedad en el trabajo (en aos),
nmero de nios en una vivienda, etc.
Ejemplo
Una encuesta electoral
En una encuesta de este tipo se recoge informacin de muchas variables, pero una de ellas
es medular. Generalmente se pregunta algo as comoSi hoy fuera la eleccin para
presidente municipal de Quertaro, por qu partido votara?
Cul es la poblacin objetivo en este caso?
La poblacin objetivo en el caso de una encuesta es el conjunto de individuos del cual se
desea obtener informacin. En este caso sera de todos los votantes potenciales del
municipio en cuestin; es decir, personas de 18 aos y ms que residen en el municipio en
cuestin.
Cul es la muestra? Aquellas personas de la poblacin seleccionadas para ser
entrevistadas.
Cul es el parmetro de inters? Cada pregunta de un cuestionario es una variable y se
encuentra asociada con uno o ms parmetros.

Para la pregunta que se menciona aqu (intencin del voto), el parmetro sera la
proporcin de la poblacin que votara por cada partido (% voto pri, % voto pan, %voto
prd, etc.)
El valor de un parmetro es aquel nmero que se obtendra si se midiera o revisara la
poblacin completa en lugar de solo una muestra. Este valor generalmente se desconoce,
por lo que se estima o pronostica por medio de una muestra.
Otro ejemplo
De un proceso de produccin de tornillos se desea saber cul es el dimetro promedio de
los tornillos que se producen. Se toma una muestra de 50 tornillos y se mide el dimetro
de cada uno. Se promedian los dimetros de los tornillos de la muestra y se toma este
valor como una estimacin del dimetro promedio de los tornillos que se producen.
Poblacin: Todos los tornillos que se producen usando el proceso
Parmetro: dimetro promedio de los tornillos de la poblacin (se desconoce)

Muestra: conjunto de 50 tornillos medidos

Estadstica: dimetro promedio de los tornillos de la muestra


Variable: dimetro de los tornillos
Datos: valores numricos de los dimetros de los tornillos de la muestra
Tipos de estudio
Existen dos clases de estudios estadsticos: observacionales y experimentales.
En los observacionales, como es el caso de las encuestas, no se manipulan las variables del
entorno.
En los experimentales, como es el caso del diseo de experimentos, se manipulan
variables del entorno.
Ejemplo de estudio experimental

Un ingeniero qumico tiene inters en estudiar el efecto de dos procesos diferentes de


endurecimiento, el templado en aceite y el templado en agua salada, sobre una aleacin
de aluminio. El objetivo del experimentador es determinar cul de las dos soluciones de
templado produce la dureza mxima para esta aleacin particular.
Tipos de variables segn su escala
Variables
_Cualitativa o categrica: registra una cualidad. Si se usa un nmero para distinguir a los
miembros de las categoras, ese nmero es arbitrario.
5

_Cuantitativa puede asumir valores numricos. Tiene sentido realizar operaciones con los
nmeros, como por ejemplo el promedio
EJEMPLOS
(cualitativa) La calificacin de una pregunta en un examen: correcta=1, incorrecta=0.
(cualitativa) El gnero de un trabajador: femenino=1, masculino=2.
(cualitativa) El resultado de revisar un artculo: defectuoso=1, no defectuoso=0.
(cuantitativa) El tiempo que transcurre para que seque una capa de pintura.
(cuantitativa) El nmero de defectos encontrados en un metro cuadrado de tela
(cuantitativa) El contenido del lquido de una botella de refresco
(cuantitativa) El peso de un envase que se usa para contener un lquido
(cuantitativa) El tiempo que transcurre desde que un foco se enciende por primera vez
hasta que se funde
Escalas de Medicin
Hay 4 escalas:

Nominal: Los nmeros se usan para distinguir las categoras de la variable. Ejemplo:
estado civil, estado de empleo, ocupacin, gnero, etc.

Ordinal: Se usan nmeros para distinguir las categoras de la variable, pero estas
categoras llevan un orden. Ejemplo: Qu tan identificado usted con la afirmacin: el
que no tranza, no avanza? 1) totalmente, 2) regular, 3) nada
de Intervalo: Asume valores numricos y las operaciones aritmticas con dichos nmeros
tienen sentido, pero el cero de la escala es arbitrario. Este es el caso de muchos variables
sicolgicas, por ejemplo el IQ. Si una persona tiene un IQ de 50 y otra de 100, no significa
que la segunda sea el doble de inteligente que la primera. Lo mismo pasa con las
calificaciones de los exmenes. El 0 de la escala no significa una ausencia total de la
caracterstica que se mide. Si alguien obtiene 0 en una prueba no significa que su grado de
conocimiento sede Razn: Como la escala de intervalo pero con la diferencia de que el 0
es absoluto, es decir, refleja carencia absoluta de la caracterstica que se mide.
Ejemplo, longitud, peso, temperatura (k), densidad, tiempo, dinero
Algunos paquetes estadsticos no distinguen entre escala intervalo y razn, pues muchas
tcnicas estadsticas funcionan para ambas.
a nulo. Ejemplo: temperatura (C).
PROBABILIDAD Y ESTADSTICA

4 Sep 2008
6

RECOLECCIN DE DATOS

1. Definir con cuidado a la poblacin.

2. Definir la o las variables de inters.

3. Definir el diseo de la muestra. Cuntos elementos incluir en la muestra? y cmo


seleccionar a los elementos de la muestra?

La tcnica de muestreo ms sencilla: Muestreo Aleatorio Simple (M.A.S.)

Definicin: Una muestra aleatoria simple de tamao n es una muestra de tamao n


elegida en tal forma que cada coleccin de n unidades de la poblacin tiene la misma
probabilidad de ser elegida.

Cmo se obtiene?. Usando una tabla de nmeros aleatorios o cualquier otro dispositivo
que induzca aleatoriedad como una moneda, una baraja, una ruleta, etc.

ALEATORIEDAD

Recordemos que un experimento aleatorio es aquel para el que:

1) no se puede predecir con total exactitud su resultado.

2) se observa un patrn predecible en corridas largas, es decir despus de realizar muchas


veces el experimento, que se puede describir por la distribucin de los resultados.

La seleccin usando el dedo (el dedazo) no es aleatoria en sentido probabilstico porque


no existe modo de asegurar que exista un patrn predecible en corridas largas.

Aleatorio no es sinnimo de catico, sino una descripcin de un tipo de orden que emerge
slo en corridas largas (Moore, 1997)

Entonces, cmo materializar una M.A.S.?

Proceso de 3 pasos para tomar una m.a.s. de tamao n:

1. Numere en una lista a todos los individuos de la poblacin de inters, llamemos N al tamao de
este conjunto.
2. Observe cuntos dgitos tiene el nmero N (por ejemplo N=150 tiene 3 dgitos). Llamemos r a
ese nmero.
3. Elija cualquier columna de ancho r en la tabla de nmeros aleatorios y recrrala de arriba hacia
abajo seleccionando los primeros n nmeros entre 1 y N que encuentre. Si se termina la columna y
no ha completado los n nmeros, contine el procedimiento con la siguiente columna de la
derecha.

Los elementos de la muestra sern aquellos que se encuentren asociados en la lista con
los nmeros aleatorios elegidos. Por ejemplo si la muestra es de tres individuos de un
7

listado de 30 y los nmeros seleccionados fueron 7, 5 y 21, entonces los individuos cuyos
nombres aparezcan en los renglones 7, 5 y 21 de la lista constituyen la muestra.
de qu tamao debe ser la muestra?

Esto es todo un conjunto de herramientas estadsticas llamado muestreo.

Sin embargo en una encuesta, para tomar una m.a.s. de elementos cuando el tipo de
parmetro que se desea estimar en una poblacin es una proporcin, el tamao se define
con la siguiente frmula que se evala en dos pasos:

Primer paso:

n0

0.96
e2

donde e es el margen de error que se desee utilizar y debe escribirse en forma de proporcin. El
nivel de confianza utilizado en esta frmula es del 95%.
Segundo paso: si N es el tamao de la poblacin de donde va a extraerse la muestra, entonces se
usa la estimacin del tamao de muestra obtenido en el primer paso y se sustituye junto con N en
la siguiente frmula:

n0
n
1 0
N

Continuacin

Cuando el tipo de parmetro es una media, un total u otro, se usan otras frmulas
(consultar un libro de muestreo)

Se define cul o cules son las variables principales o medulares en la investigacin y se


evala la frmula para cada una de las variables. Luego se toma el tamao ms grande de
los calculados, como tamao de la muestra definitiva.

Organizacin de la informacin

Cuando se tienen muchos datos, es difcil observar aspectos relevantes de los datos por lo
que se recurre a resumirlos.

Un primer paso para resumirlos es construir su distribucin de frecuencias

Existen dispositivos tabulares y grficos para representar una distribucin de frecuencias.

Frecuencia: nmero de veces que aparece un dato

Frecuencia relativa: proporcin de veces que aparece un dato

Distribucin de frecuencias
8

Una distribucin de frecuencias es el conjunto de valores que toma una variable junto con
su frecuencia de aparicin.

Caso I: Variable Cualitativa, nominal u ordinal. Las grficas pueden ser de pastel o
circulares o bien pueden ser de barras.

Distribucin de frecuencias
Accidentes graves en carreteras estatales de Quertaro
durante el 2004

Graves
18%

No graves
82%

Frecuencia

Frecuencia
relativa

Porcentaje

Graves

483

0.1806

18

No graves

2191

0.8194

82

Total

2674

1.0

100

Accidentes
Categora

Accidentes graves en carreteras estatales


durante 2004
2500

2191

2000
1500
1000
483
500

Para trazar una grfica circular, 1) se


traza una circunferencia y se dibuja un
radio 2) se multiplica el nmero de
datos en una categora por 360, luego
se divide el resultado entre la
frecuencia de la categora, 3) se traza
un ngulo igual a la cantidad de grados
resultante en el paso 2, a partir del
radio dibujado en el paso 1. Se hace lo
mismo con todas las categoras de la
variable.

La informacin de la tabla de distribucin de


frecuencias tambin se puede representar en
una grfica de barras como la de la izquierda.
En el eje horizontal se colocan las categoras y
en el eje vertical, las frecuencias, frecuencias
relativas o porcentajes. Por cada categora de la
variable se levanta una barra cuya altura es
igual a la frecuencia, frecuencia relativa o
porcentaje segn la modalidad que se use.

0
Graves

No graves

Distribucin de frecuencias

Caso II: Variable cuantitativa, intervalar o de razn.

Dispositivos grficos que se utilizan: diagramas de puntos, diagrama de tallo y hojas,


grfica de caja y bigote, histogramas y derivados de ste como el polgono de frecuencias.

Los dispositivos tabulares pueden ser de dos clases: frecuencias agrupadas o sin agrupar

Ejemplo

Las siguientes son 44 calificaciones del curso de Estadstica:

4.6 5.0 5.1 5.2 5.5 5.9 6.1 6.2 6.3 6.3 6.4 6.4 6.5 6.5 6.6 6.6 6.7 6.8 6.9 6.9 6.9 7.0 7.0
7.0 7.1 7.1 7.2 7.2 7.2 7.3 7.4 7.4 7.5 7.5 7.6 7.6 7.8 7.8 8.0 8.1 8.5 8.5 9.0 9.0
Grfica de puntos

Calificacion total del semestre

Histograma y grfica de tallo y hojas

10

Distributions
Calificacin
Stem and Leaf

Stem
9
8
8
7
7
6
6
5
5
4

Leaf
00
55
01
556688
00011222344
556678999
123344
59
012
6

Count
2
2
2
6
11
9
6
2
3
1

4| 6 represents 4.6

La grfica de tallo y hojas tiene la


ventaja de poder visualizar los datos
originales adems de la forma de la
distribucin.
Para elaborarla, se separa el ltimo
dgito de cada dato y se usa como
hoja, por ejemplo para el dato 4.6, el
6 es la hoja. El resto de los dgitos del
dato se usan como tallo. El 4 es el
tallo en el dato 4.6.
Se dibuja una lnea vertical y se
colocan los tallos a la izquierda y las
hojas a la derecha de la lnea.

Histograma

El histograma basa su construccin en un tabla de frecuencias que bsicamente


tiene la forma de la tabla derecha.

Los datos se agrupan en intervalos llamados clases y estas clases son representadas
por el punto medio del intervalo llamado marca de clase. Se hacen
aproximadamente n intervalos, donde n es el nmero de datos. El ancho de los
intervalos se calcula dividiendo el dato mximo menos el mnimo entre el nmero
de intervalos.

Intervalos

Frecuencia

Frec. acumulada

Frec. relativa

Frec.Rel.acum.

4.6 - 5.2

4/44=.045

.045

5.3 - 5.9

2/44

6/44=.136

6.0 - 6.6

11

17

11/44

17/44=.386

6.7 7.3

15

32

15/44

32/44=.727

7.4 - 8.0

40

8/44

40/44=.909

8.0 8.6

42

2/44

42/44=.955

8.7 9.3

44

2/44

44/44=1.0

11

Una vez realizada la tabla de frecuencias, se puede construir el histograma, dibujando dos ejes
perpendiculares uno horizontal, donde se ubican los valores de la variable y se levanta una barra
de altura proporcional a la frecuencia para cada intervalo y otro vertical donde se ubican los
valores de las frecuencias. De este modo, el rea bajo un histograma es 1.
Grfica de caja y bigotes
9,0

8,0

Calificacion total del semestre

Resume cinco nmeros clave de la distribucin:


el dato mnimo, el primer cuartil, la mediana, el
tercer cuartil y el dato mximo. Existen algunas
versiones de esta grfica, especial para detectar
puntos atpicos (puntos alejados del bulto de
los datos). Como la grfica de la derecha.

7,0

6,0

5,0
20

4,0

v1

Todas las grficas para variables cuantitativas tienen como objetivo visualizar:

1. La forma de la distribucin

2. El centro de los datos

3. La dispersin de los datos

4. La presencia de datos atpicos

Formas frecuentes de distribucin

Simtricas, en forma de campana (Significa que la mayor parte de los datos se distribuye
alrededor del centro y unos cuantos datos en los extremos)

Simtrica en forma rectangular (cada valor de la variable es aprox. igualmente probable)

Sesgada a la derecha (cola der. ms larga que la izquierda, los valores pequeos son ms
frecuentes que los grandes)

Sesgada a la izquierda (cola izquierda ms larga que la derecha, los valores ms grandes
son ms frecuentes que los pequeos)

Bimodal (la distribucin tiene dos montculos, puede ser sntoma de dos poblaciones
diferentes mezcladas)

12

Resmenes Numricos

Medidas de tendencia central: sirven para localizar el punto medio de un conjunto de


datos

1. Media aritmtica
2. Mediana
3. Moda
4. Media geomtrica
5. Media armnica
6. Media ponderada
1. Media aritmtica. Es el promedio simple de los datos. Es el resultado de sumar los datos y
dividir entre el nmero de ellos. Sea n el nmero de datos, sea X el smbolo para la variable. Se
denota por
el dato correspondiente al individuo i-simo. Se denota con el smbolo de
sumatoria, sigma mayscula, la suma de los datos desde i=1 hasta i=n:
n

i 1

En la literatura estadstica, generalmente sen usa el smbolo


aritmtica. As pues su frmula es:
xi

para denotar la media

i 1

Interpretacin: es el centro de gravedad de los datos

Propiedades:
media es cero.

Es sensible a datos extremos

Ejemplo: Consideremos los sig. Datos: 2, 5, 3, 4, 5, 20. La media es 6.5. Observemos que en
estos 6 datos, 5 son cercanos entre s y uno es muy grande comparado con el resto. La
media no representa al grupo de los valores pequeos ni al dato grande. Cuando hay datos
extremos no es adecuada la media como medida de centralidad. En este caso es mejor
usar la mediana.

La Mediana. Es el dato central de los datos ordenados en forma ascendente. Si el nmero


de datos es impar, slo hay un dato central. Si el nmero de datos es par, existen 2 datos
centrales, en este caso la mediana es el promedio simple de estos dos nmeros.

Sea x(i ) el dato que ocupa la posicin i-sima en el conjunto de datos ordenados en
forma ascendente
si n es impar
x n 1
( 2 )

Mediana x n x n

13
( 2 ) ( 2 1) si n es par

la suma de las desviaciones de los datos con respecto a la

Propiedades:
No es sensible a datos extremos
No todos los datos contribuyen al clculo de su valor.
Es ms variable que la media en el muestreo
Ejemplo: con los datos anteriores: 2,5,3,4,5,20, ordenamos los datos:
2, 3, 4, 5, 5, 20 y observamos que existen dos datos centrales: el 4 y el 5. La mediana es el
promedio (4+5)/2=4.5

Moda. Es el dato con mayor frecuencia.

Propiedades: Puede suceder que existan varias modas o ninguna, por esta razn no se usa
mucho.

Ejemplo: en los datos 2,3,4,5,5,20, la moda es el 5 pues aparece 2 veces mientras el resto
slo aparece una vez.

En el conjunto de datos 2,3,5,6,10 no hay moda pues cada dato aparece una vez.

Media geomtrica. Es la raz n-sima del producto de todos los datos. Tiene aplicaciones
en economa.

Media geomtrica G n x1 x2 xn

Propiedades

Para cualquier conjunto de datos


Slo tiene sentido cuando el producto de los datos es no negativo. Cuando algn dato es 0, la
media geomtrica es 0.
Media armnica
Representada por H es igual al recproco de la media aritmtica de los recprocos de dichos
nmeros.
n
n

Dados los nmeros a1 , a2 ,, an la media armnica ser igual a:

i 1 ai

1
1

an
a1

Propiedades: es sensible a datos extremos pequeos. No es sensible a datos extremos grandes. No


est definida si la suma de los recprocos de los datos es cero.

14

Media Ponderada. Es la suma de los productos de cada dato con su respectiva


ponderacin.
n

Media ponderada wi xi
i 1

La media aritmtica es un caso particular de la media ponderada, en la cual los pesos o


ponderaciones
La mediana tambin es un caso particular en el cual todos los datos tienen peso 0 excepto los
datos centrales.
La media ponderada tambin se usa cuando se tienen datos extremos
Medidas de dispersin

Sirven para medir la fluctuacin o dispersin de los datos.

1. El rango
2. Desviacin media
3. Varianza
4. La desviacin estndar o tpica
5. El coeficiente de variacin

El rango es la medida de dispersin ms simple. Simplemente es la diferencia entre el dato


mximo y el mnimo.

Rango= Mx Mn.

Propiedades: No dice cmo se dispersan los datos entre el mnimo y el mximo.

Desviacin Media. Es el promedio de los valores absolutos de las desviaciones de los datos
respecto a la media.
n

Desviacin Media

x x
i 1

Propiedades: no tiene buenas propiedades matemticas como estimador en el muestreo.

La varianza s de un conjunto de observaciones es un promedio de los cuadrados de las


desviaciones de las observaciones desde la media. En smbolos, la varianza de n
n
observaciones es:
2

s
2

(x x)
i 1

n 1

( x1 x ) 2 ( x2 x ) 2 ( xn x ) 2
n 1

La desviacin estndar, s, es la raz cuadrada positiva de la varianza s.

Las unidades de la varianza son unidades al cuadrado, mientras que las de la desviacin
estndar son unidades lineales, es decir tienen las mismas unidades que los datos
originales.
15

La varianza tiene buenas propiedades como estimador en el muestreo.

El coeficiente de variacin es una medida relativa de dispersin respecto a la media. Se


denota por C.V. y es dado por
Sy

CV ( y )

Propiedades del C.V.

a) Es una medida independiente de las unidades de medicin


b) Es la cantidad ms adecuada para comparar la variabilidad de dos conjuntos de datos
c) En investigaciones donde se tienen datos de experimentos previos, es comn usar el C.V.
para evaluar la precisin de un experimento, comparando el C.V. del experimento en
cuestin con los valores del mismo en experiencias anteriores.
Medidas de forma

Sesgo

Apuntamiento

Sesgo u asimetra

La medida ms usada para identificar la asimetra de una distribucin de frecuencias de


una caracterstica X se llama coeficiente de asimetra y est dado por:

1 n
( xi x ) 3

n
a x i 1 3
sx

Si existen observaciones muy grandes con respecto a la media, el coeficiente de asimetra


tendr un valor positivo. Si existen observaciones muy pequeas, menores que la media,
el coeficiente ser negativo y si las observaciones se distribuyen simtricamente alrededor
de la media, el coeficiente ser cero.

Apuntamiento
Una medida del escarpamiento o concentracin en torno a la media de una distribucin de
frecuencias es la curtosis. Una mayor curtosis implica que la mayor parte de la varianza es
debida a desviaciones infrecuentes en los extremos, que se oponen a desviaciones
comunes de medidas menos pronunciadas.

Comnmente se define la curtosis como:

4
3
4

donde es el cuarto momento central y es la desviacin estndar.


4
La sustraccin del 3 al final de la frmula se explica como una correccin que se le hace a
la curtosis de una distribucin normal igual a cero

Momentos

Se define el k-simo momento central de una distribucin como:

mk ( X )

1 n
( xi x )k
n i 1

16

Correlacin

Una relacin estadstica entre dos variables afirma que las mediciones de una variable
tienden a cambiar de forma consistente con las mediciones de la otra.

Una manera comn, en el lenguaje estadstico, de llamar a las relaciones estadsticas es


Correlacin.
La correlacin entre dos variables no necesariamente significa que una de las variables es
causa y el otro efecto.

Dos variables pueden resultar correlacionadas por su relacin con una variable oculta, que
a su vez est correlacionada con ambas.

Ejemplo: en los ltimos aos observamos que en un poblado de Espaa, la poblacin de


cigeas que habita el lugar ha ido en aumento, mientras que el nmero de personas que
habitan el poblado tambin ha aumentado. Entre estas dos variables una o varias variables
no tomadas en cuenta estn provocando el aumento en ambas poblaciones. La disposicin
de alimento, el transcurrir del tiempo, etc.

Otro ejemplo es: Si recopilamos informacin en un estado, sobre el sueldo de los


profesores ao con ao durante los ltimos 10 aos y recopilamos informacin sobre el
precio de una determinada marca de cerveza tambin durante los ltimos 10 aos,
probablemente encontraremos una correlacin. Esta correlacin la causa la inflacin que
afecta a ambas variables.

Quien puede decir si la relacin de dos variables es causal o no, es un especialista del rea
donde las variables se encuentran contextualizadas. Por lo general, para probar causalidad
se utilizan experimentos.
Los 4 aspectos de la relacin entre 2 variables

1. Existencia. Con base en el anlisis estadstico, es posible concluir que existe una
relacin entre dos variables?

2. Direccin: en general, a medida que los valores de una de las variables aumentan, los
de la otra variable disminuyen?, o bien, a medida que los valores de una variable
aumenta, los de la otra variable tambin aumentan?

3. Fuerza: hasta qu punto se reducen los errores al predecir los valores de una variable
en funcin de los valores de la otra variable?

4. Naturaleza: En trminos prcticos, cmo nos ayuda el conocimiento de una relacin


entre dos variables para entender y predecir los valores de una variable en funcin de la
otra?.
Tipos de correlacin

Existen variables cualitativas y cuantitativas de modo que el tipo de correlacin depende


del tipo de escala en que estn medidas las variables.
17

1. Cualitativa versus cualitativa

2. Cualitativa versus cuantitativa

3. Cuantitativa versus cuantitativa


Cualitativa vs cualitativa

Se utiliza una tabla de doble entrada tambin llamada tabla cruzada o de contingencia. En
esta tabla se muestran las frecuencias de las categoras de las variables medidas
simultneamente. Para visualizar si existe relacin y su naturaleza, se puede usar una
grfica de barras acumuladas o una de barras apiladas.

Ejemplo: El consejo de arte estudiantil de un campus propone exhibir el trabajo de un


artista controversial, conocido por sus pinturas violentas y sexuales de conos religiosos.
Existir una diferencia significativa entre las proporciones de estudiantes y ex alumnos
que se oponen a la exhibicin?
Estudiantes

Ex alumnos

Apoyan la exhib.

172

278

Se oponen a la exhib

60

170

Si los datos de una tabla cruzada fueron obtenidos por muestreo, no sabemos qu tanto
del comportamiento de los datos se deba a la variabilidad inherente al muestreo y qu
tanto se deba a la relacin. Para determinar si existe relacin significativa, desde el punto
de vista estadstico, se realiza una prueba conocida como chi-cuadrado o ji-cuadrado. Pero
esto es ya una prueba de hiptesis. Tambin existen ndices de la fuerza de relacin y
otros tipos de grficas

Cualitativa versus cuantitativa

Se pueden utilizar grficas de caja y bigotes para explorar la relacin entre estas variables.
Tambin se pueden calcular resmenes numricos para cada categora de la variable
cualitativa y comprar. La tcnica que se utiliza para explorar la relacin entre este tipo de
variables se llama Anlisis de Varianza (ANOVA).

Cuantitativa vs Cuantitativa

En este tipo de variables se acostumbra utilizar el coeficiente r de Pearson tambin


llamado coeficiente producto-momento de Pearson acompaado de una grfica llamada
grfica de dispersin.

El primer paso en el anlisis de correlacin de este tipo es realizar la grfica de dispersin y


apoyar lo que se observa con el clculo de la r de Pearson.

18

Grfica de dispersin

Es una grfica sencilla. Se trazan dos ejes perpendiculares entre s. Las mediciones de un
individuo se representan con un punto en el plano cartesiano. Luego se observa el patrn
general presentado por la nube de puntos.

Sean X1, X2, Xn mediciones de n individuos en la caracterstica X y sean Y1, Y2,Yn


mediciones de los mismos n individuos en la caracterstica Y, entonces el par ordenado
(X1,Y1) representa las mediciones del individuo 1 y as sucesivamente. Se grafican los
pares ordenados.
Ejemplo

En los estanques de la UAQ se cran peces tilapia (mojarras). Siendo todava alevines se les
coloca en un estanque, se les alimenta y se monitorea su crecimiento. Una manera de
entender cmo se da ese crecimiento es tratar de modelarlo, es decir ajustar un modelo
matemtico a las variables de longitud y peso del pez.

Diagrama de dispersin

Peso v s longitud de peces tilapia


19

longitud1

17
15
13
11
9
7
5
0

50

100

150

200

250

peso

Como primer paso del anlisis se realiz una grfica de dispersin del peso contra la
longitud del pez tilapia. Se observa de la grfica que la relacin no es lineal, es decir que
los puntos no se ajustan a una lnea recta.
19

En la siguiente diapositiva se muestra la grfica de dispersin con la recta ajustada (lnea


roja) y un polinomio de grado 4(lnea azul). Se observa que el polinomio ajusta mejor a los
datos.
Diagrama de dispersin de longitud vs peso
19
17

longitud1

15
13
11
9
7
5
0

50

100

150

200

250

peso
Linear Fit
Polynomial Fit Degree=4

El coeficiente r de Pearson slo sirve cuando la relacin es lineal por lo que aqu no tendra
sentido usarlo.

El resultado del anlisis de correlacin es: s estn relacionados el peso y la longitud del
pez. Su relacin no es lineal.
Otro ejemplo

Una empresa de mercadeo deseaba saber si el nmero de comerciales transmitidos por


televisin estaban o no correlacionados linealmente con las ventas de su producto. Los
datos obtenidos de varias ciudades se muestran en la tabla siguiente:

Ciudad

No. comerciales por TV

12

15

11

15

16

12

ventas

10

14

12

11

11

20

Multivariate
Scatterplot Matrix
17.5

15

12.5
Comerciales
10

7.5

15

12.5

10
Ventas
7.5

7.5

10

12.5

15

17.5

7.5

10

12.5

15

En la grfica se aprecia una relacin lineal moderada, se observa que los puntos pueden
encerrarse en una elipse elongada.

Podemos calcular la r de Pearson y encontramos r=.6611

M ultiv ar iate
Cor relations
Comerciales
Ventas

Comerciales
1.0000
0.6611

Ventas
0.6611
1.0000

21

El coeficiente r

Siempre que la grfica de dispersin muestre una relacin lineal o al menos no muestre
una relacin no lineal, se calcula el coeficiente r de Pearson, el cual tiene las siguientes
cualidades:

1) vara entre -1 y 1, incluyendo estos valores.

2) r cercano a +1, significa relacin lineal directa fuerte

3) r cercano a -1, significa relacin lineal indirecta fuerte

4) r cercano a 0 (por la izq. o der.), significa ausencia de relacin lineal.

5) .5 |r| .7 se dice que hay relacin lineal moderada

Se dice que 2 variables tienen relacin directa si a medida que los valores de una variable
aumentan, los valores de la otra tambin.

Se dice que 2 variables tienen relacin indirecta si a medida que los valores de una
variable aumentan, los de la otra disminuyen.

Ejemplo

Relacin Directa: a mayor estatura, mayor peso

Relacin Indirecta: a mayor edad, menor nmero de sentadillas

Hay que aclarar que la relacin se considera en el promedio, es decir puede haber
individuos que escapen a la regla.

Distintas situaciones

Coeficiente r de Pearson

rxy

i 1

i 1

[( xi x )( yi y )]

( xi x ) 2

i 1

( yi y ) 2

22

Anlisis de Regresin

Objetivo de la regresin: Ayudar a comprender cmo se relacionan dos variables, es decir


qu tanto los cambios en una variable afectan a la otra. Predecir el valor de una variable
en trminos de la otra variable.

Recta de regresin

Modelo de regresin lineal simple:

donde: Y es la variable dependiente, X la variable independiente, a es la ordenada al origen y b es


la pendiente de la recta. El trmino psi, es un trmino de error.
Y a bX
i

El trmino de error pretende abarcar la informacin que la recta no puede explicar.


Supuestos

El modelo de regresin lineal, se basa en el supuesto de que

1) Los errores tienen distribucin Normal, con media igual a cero y varianza constante
desconocida (este ltimo se llama homoscedasticidad)

2) Los errores son independientes, es decir que las observaciones son no correlacionadas.

Intuitivamente, la recta que mejor ajusta los datos es aquella para la cual la discrepancia
entre los valores observados y los valores esperados o pronosticados por la recta es
mnima. Esto se expresa como
n

( y y )
i 1

es mnima

Donde yi es la i-sima observacin y y i es el valor que el modelo pronostica debera


observarse para el correspondiente xi. Este criterio se conoce como el Criterio de Mnimos
Cuadrados.

Interpretacin de la pendiente

A la recta ajustada usando dicho criterio se le llama la Recta de Mnimos Cuadrados o la


Recta del Mejor Ajuste. La pendiente de la recta se interpreta como el cambio en la
variable y por cambio unitario en x. Es decir es la razn de cambio en y cuando x cambia
en una unidad. Si la pendiente tiene signo positivo significa que el cambio es un
incremento. Si la pendiente tiene signo negativo, el cambio es un decremento.

Interpretacin de la ordenada al origen

No siempre tiene interpretacin adecuada, depende del contexto de los datos. Es el valor
de Y cuando X=0.

Por ejemplo Si Y es peso y X es estatura, la ordenada al origen sera el peso de la persona


cuando su estatura fuera cero. No podemos reunir datos de Y para valores de X cercanos a
cero.
23

Parmetros y estimaciones

Se distingue entre parmetros y estimaciones.

a y b son parmetros desconocidos, sus estimaciones obtenidas por medio de los datos se
denotan con un gorro sobre el smbolo.

a y b son estimaciones de los parmetros, obtenidas por medio de los datos

Los parmetros son cantidades que se conoceran si se midiera a la poblacin completa.

Estimacin de la recta de regresin

s expresi one s para la s estimaci ones

( x x )( y
i

i 1

y)

(x x)
i 1

a y bx
Ejemplo

Xi

Para los datos de comerciales por TV y ventas.


Yi

12

10

15

14

11

12

15

16

11

12

11

24

Biv ariate Fit of V entas By Comerciales


15

Ventas

12.5
10
7.5
5
2.5
5

7.5

10

12.5

15

17.5

Comerciales
Linear Fit

Linear Fit
Ventas = 3.7098361 + 0.5081967 Comerciales

Summary of Fit
RSquare
RSquare Adj
Root Mean Square Error
Mean of Response
Observations (or Sum Wgts)

0.437007
0.366633
2.252549
9.3
10

Analysis of V ariance
Source
Model
Error
C. Total

DF Sum of Squares
1
8
9

Mean Square

F Ratio

31.5082
5.0740

6.2098
Prob > F

31.508197
40.591803
72.100000

0.0374

Parameter Es timates
Term
Intercept
Comerciales

Estimate
3.7098361
0.5081967

Std Error

t Ratio

Prob>| t|

2.353674
0.203936

1.58
2.49

0.1536
0.0374

Residuales o residuos

El residual isimo es la diferencia entre la observacin isima y el valor esperado o


pronosticado por el modelo
i yi yi yi (a bxi )

Estos residuales son estimaciones de los errores i del modelo.

Se realizan pruebas de normalidad sobre los residuales, pueba de hiptesis de que su


media es 0.

Tambin se grafican los residuales contra los valores predichos y no deben observarse
patrones no aleatorios (homoscedasticidad)

Por ltimo se grafican los residuales contra los residuales desfasados para comprobar la
independencia. Tampoco deben observarse patrones sospechosos de no aleatoriedad.
25

Orgenes de la Probabilidad
La historia del azar

La aleatoriedad se nota ms fcilmente al repetir muchas veces un juego de azar


lanzamiento de dados, juegos de cartas, girar una ruleta, etc.

Dispositivos de azar similares a los anteriores se han usado desde la remota antigedad
para descubrir la voluntad de los dioses
Juegos de azar en la antigedad:

Los juegos ms comunes eran los lanzamientos de huesos (huesos astragali). Los huesos
astragalus son huesos bastante regulares en su forma, se encuentran en el taln de ovejas
y perros

Cuando se lanzan pueden descansar sobre cualquiera de sus 4 lados (tiene 6 lados pero 2
estn redondeados)

Se han encontrado huesos astragalus con una antigedad de 4,000 aos. Abajo, las
primeras 2 imgenes de izquierda a derecha son dados antiguos, la tercera imagen
corresponde a un hueso astragalus

Filippo Calandri, nacido en Siena hacia el ao 1467, en uno de los primeros tratados de
aritmtica, publica una primera versin del llamado problema del reparto de apuestas que
ms tarde trataron en su correspondencia Blas Pascal y Fermat. El problema lo plantea de
la siguiente forma:

Dos personas juegan a la palla grossa (Juego de pelota, antecedente del tenis), de forma
que gana el juego el primero que consiga seis victorias. Por azar, cuando uno de los dos ha
ganado 5 veces y el otro 3, explota la pelota y es imposible terminar el juego. Se quiere
saber qu parte de la apuesta inicial le corresponde a cada uno.

A la muerte de Gerolamo Cardano (1501-1576) se encontr, entre sus manuscritos, el


titulado Liber de Ludo Alae (Libro de los juegos de azar) la primera obra dedicada
ntegramente a la probabilidad. Fue publicada en 1663. En esta obra Cardano presenta
una primera aproximacin al concepto de probabilidad en trminos de proporciones.

Galileo Galilei (1564-1642) establece la nocin de probabilidad de un evento A como la


proporcin de resultados favorables a A respecto al nmero total de resultados posibles; y
relaciona
problemas
combinatorios
y
juegos
de
azar.
Un problema conocido es el planteado a Galileo por el Prncipe de Toscana, muy
aficionado al juego de los dados, por qu al tirar tres dados y sumar sus resultados era
26

ms frecuente obtener 10 puntos que 9, a pesar de que en ambos casos hay seis formas
distintas de obtener dichas sumas? Galileo demostr, que realmente los dos resultados
no eran igualmente probables. La solucin del mismo la recogi en el libro
Consideraciones sobre el juego de los dados, publicado en 1718, muchos aos despus de
la muerte de su autor.

En 1654, Antoine Gombauld, conocido como Caballero de Mr plante al matemtico


Blaise Pascal (1623-1662) un problema de reparto de apuestas similar a los ya
mencionados.
Las cartas que sobre este problema intercambiaron en el ao 1654 Pascal y el matemtico
Pierre de Fermat (1601-1665) sentaron las bases de la teora de probabilidades.

La siguiente contribucin importante para la Teora de la Probabilidad se debe a Christian


Huygens (1629-1695) quien visit Francia en 1655 atrado por las investigaciones recientes
de Pascal y Fermat. Los resultados de sus reflexiones dieron nacimiento al tratado De
Ratiociniis de Ludo Aleae que se public en 1657. En este trabajo Huygens, introduce el
primer concepto que distingue a la Teora de Probabilidad de las otras ramas de la
matemtica: el concepto de valor esperado o esperanza matemtica.

Fue Jacques Bernoulli (1656-1705) el primero en discutir la idea de que la probabilidad se


calcule a priori, a partir de las simetras del dispositivo que se utiliza en el experimento
aleatorio, y que sta se determine a posteriori despus de observar el resultado de un
gran nmero de experiencias. En su tratado Ars Conjectandi de 1713, justific la
identificacin de probabilidad y frecuencia mediante su Ley de los grandes nmeros.
El reverendo Thomas Bayes (1702-1761), matemtico ingls, dedic su vida al estudio de
las causas de los hechos. Este estudio, casi teolgico, dedicado a demostrar la existencia
de un creador, a la bsqueda de una Causa fundamental de las cosas, motiv un trabajo
publicado en 1763 sobre la probabilidad de los eventos posibles a partir de
acontecimientos observados, es decir, sobre la probabilidad condicionada.

En 1812 Pierre de Laplace (1749-1827) en su obra Teora Analtica de las Probabilidades


introdujo una gran cantidad de nuevas ideas y tcnicas. Antes de Laplace la teora de la
probabilidad se relacionaba solamente con el desarrollo de las matemticas y de los
juegos de azar. Laplace aplic mtodos probabilsticos a muchos problemas prcticos o
cientficos: la teora de los errores, la matemtica actuarial, la mecnica estadstica, etc.

27

Una de las dificultades en el desarrollo de esta teora fue el obtener una definicin precisa
de probabilidad. La bsqueda de esta definicin dur casi tres siglos y fue resuelta
finalmente en 1933 por el ruso Andrey Kolmogorov (1903-1987) que finalmente construye
una teora axiomtica de la probabilidad
Probabilidad
Ley de los grandes nmeros
Experimento Aleatorio
Aleatoriedad
Decimos que un fenmeno es aleatorio si:

el resultado exacto del experimento no es predecible de antemano

sin embargo, existe un patrn predecible a largo plazo, que puede describirse por la
distribucin de los resultados de una cantidad grande de ensayos
Ejemplos de fenmenos aleatorios

Juegos de azar: lanzamiento de dados, de monedas, girar una ruleta, extraer un boleto de
una urna, etc.

En tiempos remotos, se lanzaban huesos en lugar de dados (astragali de ovejas o perros)


Experimentos aleatorios

Si se lanza una moneda existen dos posibles resultados: guila, sol.

Si se lanza un dado, los posibles resultados son los enteros 1, 2, 3, 4, 5, 6.

Si se lanzan dos dados y se suman los puntos de las caras superiores, los posibles
resultados son: 2, 3, 4, , 12.

Si se extrae un boleto de una urna que contiene 100 boletos numerados:1,100


Espacio Muestral

Al conjunto de todos los posibles resultados de un experimento, se le llama espacio


muestral ().

= {guila, sol}

= {1,2,3,4,5,6}

= {2,3,4,,11,12}

= {1,2,3,,100}

Los resultados individuales de un espacio muestral se denominan puntos muestrales


28

n() es el nmero de puntos muestrales de un experimento. En los ejemplos anteriores


n()=2
n()=6
n()=11
n()=100
Propiedades de los espacios muestrales

1. Son totalmente incluyentes

2. Son mutuamente excluyentes


Eventos: son cualquier subconjunto del espacio muestral
Probabilidad de que ocurra un evento: es la frecuencia relativa con la que puede esperarse
que ocurra ese evento
Ejemplos
Sea A el evento: que caiga guila en el lanzamiento de 1 moneda, hay 2 posibles
resultados del lanzamiento: guila o sol. Entonces P(A)=1/2
En gral. La probabilidad terica es
P(A)= # de puntos de que pertenecen a A
# de puntos de .
Probabilidad emprica

Si A es un evento, la probabilidad emprica de A es:


P(A)= n(A)/n
donde n(A) es el nmero de veces que se observa el evento A y n es el nmero de veces
que se intenta el experimento
Ejemplo: se lanz una moneda normal 1000 veces y se observ guila (evento A) en 491
ocasiones, P(A)= 491/1000 = 0.491, mientras que la probabilidad terica P(A)=0.50
Ley de los Grandes Nmeros

Si se incrementa el nmero de veces que se repite un experimento, el cociente del


nmero de ocurrencias de xito al nmero de ensayos tiende a la probabilidad terica,
P(A), del resultado de un ensayo individual:
P(A) P(A) cuando n

29

Lanzamiento de un dado 6 veces en cada ensayo: # de unos observados

Frecuencia relativa acumulada

Frecuencia r elativ a acumulada


0.26
0.24
0.22
0.2
0.18
0.16
0.14
0 1 2 3 4 5 6 7 8 9 10

12

14

16

18

20

Ensayo
Fit Each Value

Lanzamientos de 1 moneda
Frecuencia relativa de guila

Biv ariate Fit of frec. rel. acumulada By ensayo nmero

frec. rel. acumulada

0.6
0.55
0.5
0.45
0.4
0.35
0 10 20 30 40 50 60 70 80 90 100

120

ensayo nmero

30

Espacios discretos y continuos


Los espacios muestrales que sirvieron de ejemplos, son todos discretos. Un espacio
muestral es discreto si sus puntos son puntos aislados.
Un espacio muestral es continuo si sus puntos pueden pensarse como un intervalo o unin
de intervalos de la recta numrica.
Espacio muestral continuo

Considere el experimento de medir la velocidad con la que un vehculo pasa por un punto
determinado de una carretera, la velocidad de un vehculo ser un valor positivo, de modo
que
=(0, )

Considere la extraccin de muestras de una poblacin. Se registra la proporcin de


individuos en la muestra, con determinada caracterstica. =[0, 1].
Variable Aleatoria

Es una funcin que a cada punto del espacio muestral de un experimento, le asigna un
nmero real.

Sea X el resultado de un lanzamiento. Entonces


X:{0,1}, donde 0=guila y 1=sol
Sea Y el nmero de guilas en 2 lanzamientos:
Y:={(a,a),(a,s),(s,a),(s,s)}{0,1,2}
Ms Ejemplos

Sea X el tiempo que transcurre desde que un cliente entra al banco hasta el momento en
que es atendido.
Entonces X:=(9,17)(0,)
El valor esperado

Tambin llamado la esperanza matemtica es la media de una variable aleatoria. Se


denota por E(X) y es un promedio ponderado de los valores de la variable, donde el peso o
ponderacin de un valor es la probabilidad del valor.

31

También podría gustarte