Está en la página 1de 47

Anlisis de Datos

Unidad 2
NICOLS BERGH C.

TEORA DE
PROBABILIDADES

La probabilidad mide la mayor o menor


posibilidad de que se d un determinado
resultado (suceso o evento) cuando se realiza un
experimento aleatorio.

Para calcular la probabilidad de un evento se


toma en cuenta todos los casos posibles de
ocurrencia del mismo; es decir, de cuntas
formas puede ocurrir determinada situacin.

Los casos favorables de ocurrencia de un evento


sern los que cumplan con la condicin que
estamos buscando.

La probabilidad toma valores entre 0 y 1

TEORA DE
PROBABILIDADES

El valor cero corresponde al suceso imposible;


ejemplo

El valor uno corresponde al suceso seguro,


ejemplo

Lanzamos un dado al aire y la probabilidad de que


salga el nmero 7 es cero

Lanzamos un dado al aire y la probabilidad de que


salga cualquier nmero del 1 al 6 es igual a uno

El resto de sucesos tendr probabilidades entre


cero y uno

Que ser tanto mayor cuanto ms probable sea


que dicho suceso tenga lugar

Regla de la Adicin
La regla de la adicin o regla de la suma establece
que la probabilidad de ocurrencia de cualquier
evento en particular es igual a la suma de las
probabilidades individuales, si es que los eventos
son mutuamente excluyentes, es decir, que dos
no pueden ocurrir al mismo tiempo
Si A y B son mutuamente excluyentes:
= = +
Si A y B son no excluyentes:
= +
Siendo:
P(A) = probabilidad de ocurrencia del evento A

P(B) = probabilidad de ocurrencia del evento B


P(A y B) = probabilidad de ocurrencia simultanea de los eventos A y B

Regla de la Multiplicacin
La regla de la multiplicacin establece que la
probabilidad de ocurrencia de dos o ms
eventos estadsticamente independientes (que A
suceda no est influenciada porque B haya o no
sucedido) es igual al producto de sus
probabilidades individuales
Si A y B son independientes:
= =
Si A y B son dependientes:
= = |
Siendo:
P(A) = probabilidad de ocurrencia del evento A
P(B) = probabilidad de ocurrencia del evento B
P(A y B) = probabilidad de ocurrencia simultanea de los eventos A y B

Regla de Laplace

Define la probabilidad de un suceso como el


cociente entre casos favorables y casos posibles

Si un experimento cualquiera puede dar lugar a un


nmero finito de resultados posibles, y no existe
ninguna razn que privilegie unos resultados en
contra de otros, se calcula la probabilidad de un
suceso aleatorio A, segn la regla de Laplace
como el cociente entre el nmero de casos
favorables a A, y el de todos los posibles
resultados del experimento:

Regla de Laplace

Ejemplo

Calcular la probabilidad de que al lanzar un dado


se obtenga un nmero impar:
1,3,5
3
=
= = 0,5
1,2,3,4,5,6
6

Regla de Laplace
Siendo perseguido por un Polica, un Delincuente puede huir slo por
uno de los callejones A, B C, para intentar liberarse de su
inminente detencin

La probabilidad de que el Ladrn entre en el callejn A es de 0,3

La probabilidad de que el Ladrn entre en el callejn B es de 0,5

La probabilidad de que el Ladrn entre en el callejn C es de 0,2

Las probabilidades de que el Polica capture al Ladrn en cada


callejn son:

En el callejn A es 0,4

En el callejn B es 0,6

En el callejn C es 0,1

Regla de Laplace

Ejemplo: Probabilidad de capturar al ladrn

Teoremas de Clculo de
Probabilidades
Probabilidad de la unin de sucesos:

= +
Probabilidad de la interseccin de sucesos:

=
|

Teoremas de Clculo de
Probabilidades
Probabilidad del suceso contrario:

=1
Probabilidad condicionada del suceso contrario:

| = 1 |

Teorema Clculo de
Probabilidades
Ejemplo
En una sede del Duoc el 50% de los alumnos habla ingls, el
20% francs y el 5% los dos idiomas
Cul es la probabilidad de encontrar alumnos que
hablen alguna lengua extranjera?
Sea A el suceso hablar ingls: = 0,5
Sea B el suceso hablar francs: = 0,2
El suceso hablar francs e ingls: = 0,05
= +
= 0,5 + 0,2 0,05
= 0,65

Teorema de Clculo de
Probabilidades
Ejemplo:
En una estacin de esqu, la experiencia indica que el fin de
semana hay un tiempo soleado slo el 15% de los das. Por
otro lado, se ha calculado que cuando un da es soleado, el
20% de que el da posterior tambin lo sea.
Calcular la probabilidad de que, un fin de semana completo sea
soleado
S es el suceso sbado soleado y D el suceso domingo soleado.
La nica manera en que un fin de semana completo sea soleado
es que lo sea en primer lugar el sbado, y que el domingo
posterior tambin, es decir:
= |
= 0,15 0,2
= 0,03

Probabilidad Compuesta
Regla de multiplicacin de probabilidades

La probabilidad de que se den simultneamente dos sucesos (suceso


interseccin de A y B) es igual a la probabilidad a priori del suceso A
multiplicada por la probabilidad del suceso B condicionada al cumplimiento
del suceso A.
1 , 2 , 3 = 1 2 |1 3 |1 2 |1 2 1
Ejemplo:
Estudiamos el suceso A (porcentaje de varones mayores de 40 aos casados)
y el suceso B (varones mayores de 40 aos con ms de 2 hijos) y obtenemos
la siguiente informacin: Un 35% de los varones mayores de 40 aos estn
casados. De los varones mayores de 40 aos y casados, un 30% tienen ms
de 2 hijos (suceso B condicionado al suceso A)
Calcular la probabilidad de que un varn mayor de 40 aos est casado y
tenga ms de 2 hijos (suceso interseccin de A y B)
= 0,35
| = 0,30
= 0,35 0,30 = 0,105

Probabilidad Total
Permite calcular la probabilidad de un suceso a
partir de probabilidades condicionadas:

|
=1

Probabilidad Total
Ejemplo
Se tienen dos urnas, y cada una de ellas contiene un nmero diferente de bolas blancas y rojas:
Primera urna, U1: 3 bolas blancas y 2 rojas
Segunda urna, U2: 4 bolas blancas y 2 rojas
Se realiza el siguiente experimento aleatorio:
Se tira una moneda al aire y si sale cara se elige una bola de la primera urna, y si sale cruz de la segunda.
Cul es la probabilidad de que salga una bola blanca?

Solucin:

La situacin que tenemos puede


ser esquematizada como:
Como U1 y U2 forman un sistema incompatible y excluyente de sucesos (la bola resultado debe provenir de una de
esas dos urnas y de una slo de ellas), el teorema de la probabilidad total permite afirmar que:
= |1 1 + |2 2
=

3 1 4 1 19
+ =
= 0,633
5 2 6 2 30

U1
3B
2R

U2
4B
2R

P[U1] = 1/2
P[U2] = 1/2
P[B|U1]= 3/5 P[B|U2]= 4/6

Teorema de Bayes
El Teorema de Bayes viene a seguir el proceso inverso al que
hemos visto en el Teorema de la probabilidad total:
Teorema de la probabilidad total:
A partir de las probabilidades del suceso A (probabilidad de que
llueva o de que haga buen tiempo) deducimos la probabilidad
del suceso B (que ocurra un accidente)
Teorema de Bayes:
A partir de que ha ocurrido el suceso B (ha ocurrido un
accidente) deducimos las probabilidades del suceso A (estaba
lloviendo o haca buen tiempo?)
La frmula del Teorema de Bayes es:

| =

=1

Teorema de Bayes
El parte meteorolgico ha anunciado tres posibilidades para el fin de semana:
1.

Que llueva: probabilidad del 50%.

2.

Que nieve: probabilidad del 30%

3.

Que haya niebla: probabilidad del 20%.

Segn estos posibles estados meteorolgicos, la posibilidad de que ocurra un


accidente es la siguiente:
1.

Si llueve: probabilidad de accidente del 20%.

2.

Si nieva: probabilidad de accidente del 10%

3.

Si hay niebla: probabilidad de accidente del 5%

Resulta que efectivamente ocurre un accidente y como no estbamos en la


ciudad no sabemos que tiempo hizo (nev, llovi o hubo niebla)
Las probabilidades que manejamos antes de conocer que ha ocurrido un
accidente se denominan "probabilidades a priori" (lluvia con el 50%, nieve con
el 30% y niebla con el 20%).
Una vez que incorporamos la informacin de que ha ocurrido un accidente, las
probabilidades del suceso A cambian: son probabilidades condicionadas P
(A/B), que se denominan "probabilidades a posteriori"

Teorema de Bayes

Permutaciones
EL ORDEN SI IMPORTA!

Permutaciones de n elementos: Dados n elementos distintos, el nmero de secuencias


ordenadas de stos es

= 1 2 2 1 = !
1.

Permutaciones con repeticin

Si tienes n elementos para elegir y eliges r de ellas, las permutaciones posibles son:

= ( ) =
2.

Permutaciones sin repeticin

En este caso, se reduce el nmero de opciones en cada paso


As que tu primera eleccin tiene n posibilidades, y tu siguiente eleccin tiene (n-1)
posibilidades, despus (n-2) , (n-3) , etc. Ac usamos la funcin factorial !

= = =

!
!

Combinaciones
EL ORDEN NO IMPORTA!
1.

Combinaciones sin repeticin

Se debe ajustar la frmula de permutaciones para reducir por las


maneras de ordenar los objetos elegidos (porque no interesa
ordenarlos)

!
1
!

=
=
=

! ! ! !
2.

Combinaciones con repeticin

En este caso,
=

+1 !
+1
+1
=
=

1
! 1 !

Combinaciones y Permutaciones

Variables Bidemensionales

Considere dos variables X e Y,

La dependencia funcional, es cuando existe una relacin


funcional entre ellas, o alternativamente, cuando alguna
de las funciones del conjunto es expresable como funcin
de las otras funciones del conjunto

La independencia, es cuando no se da ningn tipo de


relacin entre 2 variables o atributos

Tabla de Doble Entrada

Los datos que se obtienen al estudiar simultneamente


dos variables

Sea una poblacin de n individuos en la que estudiamos dos


caracteres, a los que llamaremos X e Y. El carcter X tendr
p modalidades y el Y tendr q. Una vez recabada
informacin de esas variables hemos de ordenarla, para ello
crearemos una tabla en la que representaremos las
modalidades de cada variable.

Colocamos en la fila superior las modalidades de una


variable (generalmente Y) y en la columna de la izquierda
las modalidades de la otra variable (generalmente X).

Tabla de Doble Entrada

Distribucin Marginal

Cuando se estudian por separado las variables


unidimensionales X e Y que forman la variable
bidimensional (X, Y), se habla de distribuciones marginales.

La ltima fila y la ltima columna de la tabla de doble


entrada contienen, respectivamente, las frecuencias
absolutas de las variables X e Y, consideradas por
separado.

Estas frecuencias reciben el nombre de frecuencias


marginales

Frecuencia Marginal

Clculos

Covarianza

Se llama covarianza de una variable bidimensional (X,


Y) a la media aritmtica de los productos de las
desviaciones de cada una de las variables respecto a
sus medias respectivas

Tambin se le llama varianza conjunta de las variables


XeY

Se representa por Sxy o xy

xy > 0 directa

xy = 0 no tienen relacin las variables X e Y

xy < 0 inversa

Ejemplo

Dependencia o
Correlacin
1.

Entre dos variables estadsticas existe dependencia


funcional si estn relacionadas de forma que sea posible
determinar con exactitud los valores que toma una de
ellas a partir de los que toma la otra

2.

Entre dos variables estadsticas existe dependencia


estadstica o correlacin cuando los valores que toma
una de ellas estn relacionados con los valores que
toma la otra, pero no de manera exacta

3.

Dos variables estadsticas son independientes si no puede


establecerse ninguna relacin entre los valores que toma
una de ellas y los que toma la otra

Dependencia o
Correlacin

Determina si entre los siguientes pares de


variables existe dependencia funcional
(DF) o estadstica (DE), o bien, si son
independientes (I)
(DE)

1.

Talla de zapatos y estatura

2.

Color de cabello y profesin

3.

Radio y longitud de la circunferencia (DF)

4.

Cociente intelectual y peso

(I)

(I)

Interpretacin Grfica
La relacin existente entre dos variables queda reflejada en
los diagramas de dispersin o nubes de puntos de la
distribucin bidimensional:

Si los puntos de la nube se sitan sobre una recta o una curva


cuya expresin matemtica podemos determinar, hablaremos
de dependencia funcional entre las variables X e Y

Si los puntos de la nube se agrupan en torno a una posible


recta, o curva, no muy definida pero reconocible, hablaremos
de dependencia estadstica o correlacin entre las variables X
eY

Si los puntos de la nube no se agrupan en torno a ninguna


curva, estn completamente en desorden, hablaremos de
independencia entre las variables X e Y.

Interpretacin Grfica
Entre los casos extremos de dependencia funcional e independencia
existe una amplia gama de situaciones en que se da dependencia
estadstica o correlacin. Por ello, al estudiar la relacin entre las
variables X e Y, se deben considerar los siguientes aspectos:
1.

Se dice que el grado de la correlacin entre dos variables


estadsticas es fuerte si la relacin entre ambas se acerca a la
dependencia funcional, y es dbil si se acerca a la independencia.

2.

Entre dos variables estadsticas existe una correlacin de sentido


positivo cuando ambas aumentan conjuntamente, y una correlacin
de sentido negativo cuando una de ellas disminuye al aumentar la
otra

3.

Cuando los puntos del diagrama de dispersin tienden a agruparse


en torno a una lnea recta, decimos que existe una correlacin de
tipo lineal. Si los puntos se agrupan en torno a cualquier otro tipo de
curva, decimos que existe una correlacin de tipo curvilneo

Interpretacin Grfica

Anlisis y Utilidad de la
Covarianza

La covarianza es un indicador numrico del grado de relacin lineal


que existe entre las dos variables

Coeficiente de Pearson
A pesar de que la covarianza es un indicador de la
asociacin lineal entre las dos variables, esta presenta
dificultades:
1.

2.

Puede verse influenciada por los puntos de la nube


alejados del centro de gravedad, que distorsionan el
resultado.
Su valor depende de las unidades de medida de las
variables y, en consecuencia, necesitamos un indicador
que no dependa de las unidades.

Por tanto, la covarianza no indica de forma precisa la


medida de la relacin entre las dos variables
Para salvar estas dificultades, se define un nuevo parmetro
que nos cuantifica correctamente la dependencia,
llamado Coeficiente de Correlacin Lineal de Pearson

Coeficiente de Pearson
El coeficiente de correlacin de Pearson se representa
por r y es el cociente entre la covarianza y el producto
de las desviaciones tpicas marginales de X e Y:

=

Dicho coeficiente es adimensional, es decir, no depende
de las unidades utilizadas. Adems el signo del
coeficiente r viene dado por el signo de la covarianza,
ya que las desviaciones tpicas son siempre positivas

Coeficiente de Pearson
1.

Si 1 < r < 0, existe correlacin lineal negativa, y ser ms fuerte cuanto ms se


aproxime r a 1.

2.

Si 0 < r < 1, existe correlacin lineal positiva, y ser ms fuerte cuanto ms se


aproxime r a 1.

3.

Si r = 1 r = 1, la correlacin es una dependencia lineal exacta


(dependencia funcional).

4.

Si r = 0, no existe correlacin lineal o las variables no estn correlacionadas


linealmente.

Esto no excluye que las variables estadsticas puedan estar relacionadas por una
correlacin curvilnea.

Ejercicio

Regresin Lineal

Uno de los objetivos que se persiguen, al estudiar conjuntamente


dos variables X e Y, es encontrar alguna manera de predecir los
valores de una de ellas conocidos los de la otra

Al anlisis que pretende determinar la curva que mejor aproxima


un diagrama de dispersin se le llama regresin

Se considera algn criterio que permita determinar


objetivamente la recta que se ajusta mejor a la distribucin

Estas rectas se determinan haciendo que se cumplan las


siguientes condiciones:

1.

Tienen que pasar por el centro de gravedad ,

2.

Las sumas de los cuadrados de las distancias,


mnima, siendo = ,

, debe ser

Donde es el valor de la ordenada de cada punto de la nube e y


es la ordenada del punto de la recta

Esto se conoce como Criterio de los Mnimos Cuadrados

Regresin Lineal

Regresin Lineal

1.

2.

El coeficiente de correlacin lineal (r) indica el grado de


linealidad entre las dos variables, pero para analizar la
bondad del ajuste de la recta de regresin se utiliza un
parmetro nuevo llamado coeficiente de determinacin
Se llama coeficiente de determinacin al cuadrado del
coeficiente de correlacin lineal, r2
Dicho coeficiente, r2, indica el porcentaje de la variacin de
Y que puede ser explicada por X
Si 2 = 0, significa que no existe tal relacin lineal entre las
variables (puede existir otro tipo de relacin o no haber
ninguna entre las dos variables)
Si 2 = 1, significa que el ajuste es perfecto. No hemos
cometido ningn error al realizarlo (todos los valores de los
errores son nulos)

Regresin Lineal

Si 0 < 2 < 1, en funcin de a cual de las dos situaciones


anteriores nos acerquemos, hablaremos de ajuste malo o
bueno

Adems, 2 , indica el porcentaje de la variacin de Y que


puede ser explicada por X. As, un valor concreto de 2 se
puede interpretar en los siguientes trminos:

Si 2 =0,90 significa que la recta obtenida explica en un 90 % el


comportamiento de Y en funcin de X

El 10 % restante de la variacin de Y puede deberse al azar o a


la influencia sobre Y de otras variables distintas

Regresin Lineal

Si 0 < 2 < 1 , en funcin de a cual de las dos situaciones


anteriores nos acerquemos, hablaremos de ajuste malo o bueno

Adems, 2 , indica el porcentaje de la variacin de Y que puede


ser explicada por X. As, un valor concreto de 2 se puede
interpretar en los siguientes trminos:

Si 2 =0,90 significa que la recta obtenida explica en un 90 % el


comportamiento de Y en funcin de X

El 10 % restante de la variacin de Y puede deberse al azar o a la


influencia sobre Y de otras variables distintas

Extensiones del modelo lineal


1.

Dependencia Exponencial =

2.

Dependencia Potencial =

3.

Dependencia Logartmica ln = +

4.

Dependencia Polinmica (grado n)

Regresin Lineal

Anlisis de Datos
Fin Unidad 2
NICOLS BERGH C.