Clase 01

Análisis de Patrones
Andrés Scarioni
1.0 Modelos Matemáticos

Cuando se observa un experimento o
fenómeno, es importante diferenciar entre el
fenómeno observable en si mismo y el
modelo matemático para dicho fenómeno,
no influimos sobre lo que observamos; sin
embargo, al elegir un modelo, si podemos
aplicar nuestro juicio critico. Esto ha sido
muy bien expresado por J. Neyman,
“Cada vez que utilizamos las matemáticas
con el objeto de estudiar fenómenos
observables es indispensable empezar por
construir un modelo matemático
(determinista o probabilistico) para estos
fenómenos. Este modelo debe simplificar las
cosas y permitir la omisión de ciertos
detalles. El éxito del modelo dependerá de si
los detalles omitidos tienen o no importancia
en el desarrollo de los fenómenos
estudiados. La solución del problema
matemático puede ser correcta, y aun asi
estar en desacuerdo con lo observado,
debido a que no estaba probada la validez de
las suposiciones que se hicieron.
Normalmente es difícil comprobar la validez
de un modelo antes de obtener algunos
datos, mediante la observación. Para
verificar la validez de un modelo, se debe
deducir una serie de consecuencias del
mismo y luego comparar con las
observaciones esos resultados predichos”
1.1 Modelos Deterministas

Se corresponden a descripciones de
fenómenos cuyos resultados son predecibles
con exactitud. En general viene dado por un
conjunto de leyes (o ecuaciones). Ejemplo
de ello:
Las ecuaciones de movimiento.
Las leyes de la Termodinámica.
1.2 Modelos Probabilisticos.

Corresponde a aquellas situaciones en las
que no podemos saber con exactitud cual
será el resultado de un “experimento”.
Ejemplo de ello.
.- Se lanza un dado y observamos que
numero sale.
.- Se fabrican artículos en una fábrica y
contamos el número de artículos defectuosos
producidos en un día.
.- Se lanza una moneda cuatro veces y
observamos el número de caras obtenidas.
2.0 Espacio Muestral

Cuando realizamos un experimento E,
definimos el espacio muestral S como el
conjunto de todos los resultado posibles de
E. esto aplicado a los ejemplos anteriores,
seria:
S= {1,2,3,4,5,6}
S= {0,1,2,...todos}
S= {0,1,2,3,4}
2.1 Eventos
Un evento A (respecto a un espacio muestral
S asociado a un experimento E) en un
conjunto de resultados posibles. Es
simplemente un subconjunto de S. en este
sentido eventos son:
A: Ocurre un numero par {2,4,6}
A: dos artículos defectuosos {2}
A: Solo se obtuvo una cara {1}.
Los eventos pueden combinarse para
generar nuevos eventos:
.- Si A1, A2,.....An es una coleccion finita de
eventos entonces ∪Ai es el evento que
ocurre si y solo si al menos uno de los
eventos ocurre.
.- Si A1, A2,.....An es una coleccion finita de
eventos entonces ∩Ai es el evento que
ocurre si y solo si todos los eventos ocurren.
.- Si A es un evento entonces Ac es el evento
que ocurre si A no ocurre.
.- Dos eventos A y B son excluyentes si no
pueden ocurrir juntos. entonces A∩ =∅.
2.2 Frecuencia Relativa

Supongamos que repetimos n veces un
experimento E, y A,B son dos eventos
asociados con E. Sean nA y nb
respectivamente el numero de veces que
ocurrieron los A y B. Entonces
fA= nA/n se llama frecuencia relativa del
evento A.
fB= nB/n se llama frecuencia relativa del
evento B.
Se cumple que
.- 0≤fA≤
.- fA=1 si y solo si A ocurre siempre.
.- fA=0 si y solo si A nunca ocurre.
.- si A y B son excluyentes f(A∪B)=fA +fB.
.- Cuando n->∞ se dice que fA “converge” a
P(A).
3.0 Probabilidades
Suponiendo que el espacio muestral es finito
esto es S={a1,.....,ak}, si consideramos el
evento formado por un solo resultado
A={ai}, le podemos asignar un numero pi
llamado probabilidad de {ai}, que satisface:
.- pi ≥0 i=1,2,...,k
.- ∑ pi =1
Si el evento esta formado por r resultados,
1≤r≤ ,
A={aj1,aj2,.....ajr} entonces
P(A)=pj1+pj2,+...+pjr.
para k resultados igualmente probables.
entonces
pi = 1/k
Para cualquier evento A que conste de r
resultados,
P(A)=r/k
lo cual indica que
numero de maneras en que E es favorable a A
P ( A) =
numero de maneras en que ocurre E
3.1 Probabilidades Condicionadas

Sean A y B dos eventos asociados con un
experimento E, llamaremos
P(A | B) la probabilidad condicional del
evento A, dado que ocurrió B.
Cuando calculamos P(A | B), esencialmente
estamos calculando P(A) respecto al espacio
muestreal reducido B, en lugar del espacio
muestreal original.
Ejemplo
Se lanzan dos dados y se anotan los
resultados (x1,x2) obviamente el espacio
muestreal consta de 36 resultados posibles.
1,1 1,2 .. 1.6

1,1 1,2 .. 1.6
2,1 2,2 .. 2,6
.. .. .. ..
6,1 6,2 .. 6,6
consideremos los eventos

A={ (x1,x2) | x1+x2 =10} , B= { (x1,x2)|
(x1>x2)}
entonces A= {(5,5), (4,6), (6,4)} y B
={(2,1), (3,1), (3,2),....,(6,5)}
P(A)=3/36 y P(B)= 15/36. Ademas P(B |
A)=1/3 y P(A | B)=1/15.
Finalmente calculamos ( ∩ ). este evento
ocurre solo si la suma es diez y el primer
dado indica un numero mayor que el
segundo. solo hay un resultado ( ∩ ) =
1/36.
Se cumple que
P(A|B)= ( ∩ )/ ( )
( )= ( ∩ )/ ( ).
Definiremos
P( A I B)
P( A | B) =
P( B)
Ec. 1
Dado que P(B)>0
Donde
P(A|B) es la probabilidad de que se de el
evento A dado que se dio el evento B.
( ∩ ) es la probabilidad de que se den
simultaneamente los evento A y B.
P(B) el la probabilidad de que se de el
evento B.
Ejemplo 1
Si tiramos un dado sabemos que la
probabilidad de que salga un 2 es 1/6. Si
incorporamos nueva información (por
ejemplo, alguien dice que el resultado un
numero par) entonces la probabilidad ya no
es 1/6.
P(B | A) es la probabilidad de que salga 2
(B) condicionado a que haya salido un
numero par (A)
( ∩ ) es la probabilidad de que salga 2 y
sea par.
P(A) el la probabilidad de que salga par.
por tanto
( ∩ )=1/6
P(A)=1/2
P(B|A)=(1/6)/(1/2)=1/3
Ejemplo 2
En un estudio sanitario se ha llegado a la
conclusión de que la probabilidad de que
una persona sufra problemas coronarios es
de 0.1(evento B)
Además, la probabilidad de que una persona
sufra problemas de obesidad (evento A) es
del 0.25 y la probabilidad de que una
persona sufra a la vez problemas de
obesidad y coronarios ( ∩ ) es del 0.05
Podemos calcular la probabilidad de que una
persona obesa sufra problemas
coronarios(probabilidad condicionada
P(B|A).
P(B|A)=0,05/0,25=0,20
Nótese que la probabilidad condicionada es
mayor que la probabilidad del evento A
(llamada probabilidad a priori)
3.2 Probabilidad Compuesta

La probabilidad de que se den
simultáneamente dos eventos (intersección
de A y B) es igual a la prioridad apriori del
evento B multiplicada por la probabilidad
del evento A condicionada al cumplimiento
del evento B. Evidentemente esto deriva de
la probabilidad condicionada.
( ∩ )=P(A|B)*P(B)
Ec. 2
3.3 Probabilidades Totales

El teorema de la probabilidad total permite
calcular la probabilidad de un evento a partir
de probabilidades condicionadas.
Definición: Decimos que los eventos B1,
B2,.....Bk representan una partición del
espacio muestreal S si:
a) Bi ∩ Bj = Ø para toda i≠j.
b) ∪Bi = S i=1,2......k.
c) P(Bi )>0 para todo i.
Dicho de otra manera, Cuando se efectúa el
experimento E ocurre uno y solo uno de los
eventos Bi.
Entonces si A es algún evento respecto a S y
Bi son las particiones de S.
P(A)=∑ (Bi) * P(A| Bi) i=1,2,........k
Ec. 3
Es importante notar (b) los eventos tienen
que formar un sistema completo, es decir,
que contemplen todas las posibilidades.
Ejemplo 3
Cierto artículo se elabora en tres fábricas
1,2,3 distintas. Sabemos que la primera
produce el doble de artículos que la segunda
y que esta y la tercera producen el mismo
numero. Se sabe también que el 2% de los
artículos producidos por las dos primeras
son defectuosos, mientras que el 4% de los
elaborados por la tercera son defectuosos. Si
todos los artículos producidos se colocan
juntos y escogemos uno al azar. ¿Cual es la
probabilidad de que sea defectuoso?
Llamemos los eventos
A={el articulo es defectuoso} B1 = {el
articulo viene de 1}
B2 = {el articulo viene de 2} B3 = {el
articulo viene de 3}
P(A)=P(A|B1)P(B1)+P(A|B2)P(B2)+P(A|B3)
P(B3)
Pero
P(B1)=1/2, P(B2)=P(B3)=1/4
P(A|B1)=P(A|B2)=0,02 P(A|B3)=0,04
Obtenemos P(A)=0.025
4.0 Teorema de Bayes

Utilizando el ejemplo anterior, ahora nos
planteamos lo siguiente: Supongamos que
seleccionamos un artículo y encontramos
que este es defectuoso. Cual es la
probabilidad de que se produjese en la
primera fabrica. Utilizando las Ec. 1,2 y 3.
podemos calcular P(B1|A) mediante:
P(Bi|A)=P(A|Bi)*P(Bi)/(∑ (Bj) * P(A| Bj))
j=1,2,..k Ec. 4
Este resultado de conoce como teorema de
Bayes. también se le llama formula para la
probabilidad de las causas. Dado que las Bi
son una particion del espacio muestreal, uno
y solo uno de estos eventos ocurre (Esto es,
UNO de los eventos (Bi) debe ocurrir y
solamente UNO) por lo tanto le formula
anterior nos da la probabilidad de un (Bi)
particular (causa), dado que ha ocurrido el
evento A.
Ejemplo 4
La probabilidad de que el articulo
defectuoso fuera producido en la primera
fabrica viene dado por
P(B1|A)=P(A|B1)*P(B1)/(∑ (Bj) * P(A| Bj))
j=1,2,..3
0.02 * 1 / 2
P ( B1 | A) = = 0.40
0.02 * 1 / 2 + 0.02 * 1 / 4 + 0.04 * 1 / 4
El ejemplo siguiente permite introducir la

idea de diagrama de arbol
Ejemplo 5
Supongamos que varias cajas de caramelos
son de dos tipos, digamos A y B. el tipo A
contiene 70% de caramelos dulces y 30% de
caramelos ácidos, mientras que en el tipo B
dichos porcentajes están invertidos. Aun
mas, supongamos que el 60% de todas las
cajas de caramelos son del tipo A, mientras
que el resto son de tipo B.
Ahora estamos ante el
siguiente problema de
decisión. Usted recibe una
caja de caramelos de tipo
desconocido. Se le permite
sacar una muestra, con esa
información debe decidir si
cree que le ha sido ofrecido
del tipo A o B. El siguiente “diagrama de
árbol” ayudara a analizar el problema.(Sd y
Sa indican la elección de un caramelo dulce
o acido)
Hagamos algunos cálculos.

P(A)=0.6; P(B)=0.4; P(Sd|A)=0.7;
P(Sa|A)=0.3
P(Sd|B)=0,3; P(Sa|B)=0,7
Lo que queremos averiguar es
P(A|Sd),P(A|Sa),P(B|Sd),P(B|Sa). Esto es,
suponiendo que escogimos un caramelo
dulce, que decisión estaríamos mas
inclinados a tomar? para ello comparemos
P(A|Sd) y P(B|Sd).
P( S d | A) * P( A)
P( A | S d ) =
P( S d | A) * P( A) * P( S d | B) * P( B)
0.7 * 0.6
P( A | S d ) = = 7/9
0.7 * 0.6 + 0.3 * 0.4
Análogamente
P( B | S d ) = 2 / 9
Obviamente escogeríamos la opción de un

caja de tipo A (podríamos equivocarnos).
Pero seleccionamos el evento mas probable.
En
términos del árbol, lo que hicimos fue un
cálculo hacia atrás. Esto es dado que
observamos Sd, que tan probable era
escoger tipo A.
5.0 Variables Aleatorias

Sea E un experimento y S el espacio
muestreal correspondiente. Una función X
que asigna a cada uno de los elementos s ∈ S
un numero X(s), se llama variable aleatoria.
Aunque la terminologia anterior no es muy
afortunada, (X es una funcion) la usaremos
El espacio Rx, es decir, el conjunto de todos

los posibles valores de X, algunas veces se
llama el recorrido. En cierto sentido es
también un espacio muestreal.
5.1 Variables Aleatorias Discretas
Sea X una variable aleatoria. Si el numero
de valores posibles de X (esto es Rx) es
finito o infinito numerable, llamamos X una
variable discreta. Esto es se pueden anotar
los posibles valores de X como x1,x2,.........xn
.......en el caso finito la lista termina y en el
caso infinito numerable la lista continua
indefinidamente.
Definicion: Sea X una variable aleatoria
discreta. Por tanto Rx consta de un numero
de valores xi numerable. Con cada resultado
posible xi asociamos un numero p(xi) ;
P(X=xi ) llamado probabilidad de xi. se debe
satisfacer
a) p(xi) ≥ 0 para todo i
b) ∑ p(xi)=1
La función p asi definida se llama función
de probabilidad de la variable aleatoria X.
La colección de pares (xi,p(xi)) se llama
distribución de probabilidad de X.
5.2 Variables Aleatorias Continuas

Supongamos que el recorrido de X esta
formado por todos los valores posibles 0≤x≤
1 que pasa con las probabilidades puntuales
p(xi ). dado que los valores de X no son
contables, no podemos hablar del i-esimo
valor de X, por lo tanto p(xi ) pierde
significado. Lo que se hace es sustituir la
función p por otra función f definida en
[0,1]. Formalmente es:
Definicion: Se dice que X es una variable
aleatoria continua, si existe una funcion f,
llamada función de densidad de probabilidad
(fdp) de X, que satisface las siguientes
condiciones.
a) f(x) ≥ 0 para toda X
b) ∫f(x)dx=1
c) para cualquier a,b, tal que -∞ < a < b <
∞
tenemos P(a≤X≤b)=∫f(x)dx
5.3 Variables Bidimensionales y de

Mayor Dimensión
En muchos casos, interesa observar
simultaneamente dos o mas caracteristicas
numericas. Por ejemplo, podríamos estudiar
la altura A y el peso P de una persona que
daría lugar al resultado (p,a). podriamos
observar la cantidad de lluvia LL, y el
promedio de la temperatura T, en cierta
región durante un periodo de tiempo
especifico, que daria lugar al resultado (ll, t).
en fin existen muchos casos de dos o mas
variables.
Si los valores son numerables se trata de
variables discretas, caso contrario son
continuas.
Definicion: Sea (X,Y) una variable aleatoria
bidimensional discreta. Con cada resultado
posible (xi ,yi) asociamos un numero p(xi ,yi)
que representa P(X=xi , Y=yi ) y que
satisface:
a) p(xi ,yi) ≥1 para toda (xi ,yi)
b) ∑∑ p(xi ,yi)=1
La funcion p definida para toda (xi,yi) se
llama función de probabilidad de (X,Y). el
conjunto de ternas (xi ,yi,p(xi ,yi)) se llama
distribución de probabilidades de (X,Y).
5.4 Valor Esperado

Para una variable aleatoria discreta con
valores x1, x2,..,xn y sus probabilidades
respectivas p(xi) el valor esperado (llamado
también esperanza) se define como.
n
E ( X ) = ∑ X i P( X i )
i =1
Si todos los valores son igualmente

probables, entonces p=1/n y por
consiguiente el valor esperado coincide con
la media aritmética en general el
conocimiento del valor esperado (media
aritmética) no reporta mayor información
acerca de los resultados obtenidos en los
experimentos. Un valor E(X)=2 significa
sencillamente que si consideramos un gran
numero de valores de X, y los promediamos,
este resultado estará cercano a dos. Pero
obviamente se abren muchas posibilidades
para esto.
Existen una serie de medidas cuantitativas
para discriminar situaciones diferentes que
producen el mismo valor medio o esperado.
5.5 Varianza
Sea X una variable aleatoria. Definimos la
varianza de X, Que denotaremos como V(X)
o σ2x como sigue:
V(X)=E[X-E(X)]2.
La raiz cuadrada positiva de V(X) se llama
desviación estándar de X y se indica por σx.
Se puede simplificar el calculo de V(X)
usando (no lo demostraremos)
V(X)=E(X2)-[E(X)]2
Ejemplo
La oficina meteorologica clasifica la
visibilidad en relacion a los “grados de
nubosidad”, usando para ello una escala de
11 categorias: 0,1 ....,10. donde 0 representa
total claridad y 10 un cielo totalmente
cubierto. Supongamos que tal clasificacion
se hace en una estacion meteorologica en un
dia y hora determinada. sea X la variable
aleatoria que tomo uno de los valores
anteriores. Supongamos que la distribucion
de probabilidades de X es
p0=p10=0.05
p1=p2=p8=p9=0.15
p3=p4=p5=p6=p7=0.06
Por tanto
E(X)=1*0.15+2*0.15+3*0.06+4*0.06+5*0.
06+6*0.06+
+7*0.06+8*0.15+9*0.15+10*0.05=5
E(X2)=1*0.15+4*0.15+9*0.06+16*0.06+25
*0.06+36*0.06+
+49*0.06+64*0.15+81*0.15+100*0.05=35.
6
Luego
V(X)=E(X2)-[E(X)]2=35.6-25=10.6
y la desviacion estandar σx=3.25
Propiedades
a) Si C es una constante,
V(X+C)=V(X)
Esta propiedad es intuitivamente evidente. al
agregar un constante a un variable, no se
afecta su “variabilidad”
b) Si C es una constante,
V(CX)=C2V(X).
c) Si X1,.....,Xn n variables independientes.
Entonces,
V( X1,.....,Xn) = V(X1)+.....V(Xn ).
d) Si X es una variable con varianza finita,
luego, para cualquier numero real α,
V(X)=E[(X-α)2]-[E(X)- α ]2
Coeficiente de Correlacion
Si tenemos una variable aleatoria
bidimensional X,Y. este coeficiente mide de
alguna manera el grado de asociación entre
ellas. Se define como
ρxy= E{[X-E(X)][Y-E(Y)]}/√V(X)V(Y) :
V(X),V(Y) existen y son distintas a cero
El numerador de ρxy se llama covarianza y
generalmente se denota por σxy.
Sxy=E{[X-E(X)][Y-E(Y)]}
Propiedades de ρxy
. ρxy esta comprendido entre -1 y 1
. si ρxy =1 o ρxy =1 entonces los puntos de la
muestra estan situados en linea recta
(correlacion lineal perfecta).
. si ρxy esta proximo a 1 o -1 habra una fuerte
asociacion lineal entre ambas variables.
. si ρxy es cercano a 0, habra una asociacion
linaeal muy debil.
. ρxy no cambia cuando se realiza un cambio
de escala o de origen.
Una interpretacion geometrica de la

covarianza
A fin de simplificar lo que viene a
continuación haremos un cambio de
notación.
Covarianza
1 n
S xy = ∑ ( xi − xˆ )( y i − yˆ )
n − 1 i =1
Consideremos la nube de puntos formadas

por las n parejas de datos (xi,yi). El centro de
gravedad de esta nube de puntos es ( xˆ , yˆ ) , si
colocamos allí el centro de coordenadas. La
nube de puntos queda dividida en cuatro
cuadrantes como se observa en la figura. Los
puntos que se encuentran en el primer y
tercer cuadrante contribuyen positivamente
al valor de la covarianza Sxy., mientras que
aquellos que se encuentran en el segundo y
el cuarto lo hacen negativamente.
Figura: Interpretación geométrica de
De este modo:
• Si hay mayoría de puntos en el tercer y
primer cuadrante, ocurrirá que Sxy >0. ,
lo que se puede interpretar como que la
variable Y tiende a aumentar cuando lo
hace X;
• Si la mayoría de puntos están repartidos
entre el segundo y cuarto cuadrante
entonces Sxy <0, es decir, las
observaciones Y tienen tendencia a
disminuir cuando las de X aumentan;
• Si los puntos se reparten con igual
intensidad alrededor de ( xˆ, yˆ ) , entonces
se tendrá que Sxy ≈0. Véase la figura
como ilustración.
Figura: Cuando los puntos se reparte de
modo más o menos homogéneo entre los
cuadrantes primero y tercero, y segundo y
cuarto, se tiene que Sxy ≈0. Eso no quiere
decir de ningún modo que no pueda existir
ninguna relación entre las dos variables, ya
que ésta puede existir como se aprecia en la
figura de la derecha.
Resumiendo
Si Sxy >0. las dos variables crecen o

decrecen a la vez (nube de puntos creciente).
Si Sxy <0. cuando una variable crece, la otra

tiene tendencia a decrecer (nube de puntos
decreciente).
Si los puntos se reparten con igual
intensidad alrededor de Sxy =0 no decimos
nada
De este modo podemos utilizar la covarianza

para medir la variación conjunta
(covariación) de las variables X e Y. Esta
medida no debe ser utilizada de modo
exclusivo para medir la relación entre las
dos variables, ya que es sensible al cambio
de unidad de medida.

Clase 01

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Clase 01

Cargado por

Copyright:

Formatos disponibles

Análisis de Patrones

1.0 Modelos Matemáticos

1.1 Modelos Deterministas

1.2 Modelos Probabilisticos.

2.0 Espacio Muestral

2.2 Frecuencia Relativa

3.1 Probabilidades Condicionadas

1,1 1,2 .. 1.6

consideremos los eventos

3.2 Probabilidad Compuesta

3.3 Probabilidades Totales

4.0 Teorema de Bayes

El ejemplo siguiente permite introducir la

Hagamos algunos cálculos.

Obviamente escogeríamos la opción de un

5.0 Variables Aleatorias

El espacio Rx, es decir, el conjunto de todos

5.2 Variables Aleatorias Continuas

5.3 Variables Bidimensionales y de

5.4 Valor Esperado

Si todos los valores son igualmente

Una interpretacion geometrica de la

Consideremos la nube de puntos formadas

Figura: Interpretación geométrica de

Si Sxy >0. las dos variables crecen o

Si Sxy <0. cuando una variable crece, la otra

De este modo podemos utilizar la covarianza

También podría gustarte