Documentos de Académico
Documentos de Profesional
Documentos de Cultura
+MEDIDAS DE DISPERSION:
+VARIANZA/DESVIACION ESTANDAR (que tan bien la media representa a los datos)
la desviacion estandar es la raiz cuadrada de la varianza.
var () y sd ()
+RIC evalua que tan bien la mediana representa a los datos,
es el Q3 (0.75) - Q1 (0.25)
+ Que M.T.C usar? (Ver Asimetria)
(Asimetría(Barras,Histo)=mediana/RIC)(Simetria=media/varianza o DS)
O CON LA FUNCION FISHER O PEARSON
Pearson.asi<- function(x) 3* (mean(x,na.rm=T))-median(x,na.rm=T))/sd(x,na.rm=T)
Pearson.asi (variable)
+summary (variable)
-te saca el valor max min la media la median el Q1 Y Q3
+quantile (el percentil, datos$columna, type=2)
-es mejor sacar los percentiles asi porque. en summary el R lo hace por defecto en type=7
+ ETIQUETAS
attr (variable, "label") # para saber la etiqueta o el nombre oculto del titulo de una columna
# por ejemplo esta de titulo CP3 pero en realidad quieres decir "numero de hijos"
# attr (variable, "labels") # para saber la etiqueta o el nombre oculto de las filas de una columna
# por ejemplo tienes te titulo sexo pero en las filas estan 1,0,1,0,0,1 usas eso para saber cual es
hombre y cual es mujer
table (variable) # creas una tabla de frecuencia
prop. table (table (variable)) # creas una tabla de proporciones
# Con addmargin==1 cambia el total con respecto a las filas y con == 2 con respecto a las columnas
addmargins (prop.table (table (y, x), 1))
addmargins (prop.table (table (y, x),2) )
recuerda que Y seria la columna y X seran las filas en la tabla de relacion
# GRAFICOS
# PRIMERO IDENTIFICAR EL TIPO DE VARIABLE.
# CAULITATIVA:
# ORDINAL: NOTACIONES NUMERICAS
# NOMINAL;
LETRAS EN SI
# CUANTITATIVA:
# discreta: las puedes contar y toma valores extremos en un intervalo, por ejemplo el numero de
hijos. no tienes 1 hijo y medio.
# continua: son MEDIBLES y toma valores que se encuentran dentro de un intervalo, el tiempo, la
edad, la altura, etc
# TIPOS DE GRAFICOS
# para cualitativa: grafico de pie o de barras, usamos más barras
barplot (prop.table (table (variable)), ylim=c (0,1),
names.arg = c ("1", "2"),
ylab="Proporcion")
# cuanti discreta, graficos de bastones
plot (variable)
# cuanti continua,histograma
hist (variable,prob=T)
#AÑADIR LEYENDAS
legend (coordenada x, coordenada y, c ("name", "name") , bty="n",
pch=15,col=1:2)
# agregar una linea de densidad en un hist
hist (datos$columna, prob=T)
lines (density (datos$columna))
* funcion distribucionrelativa acumulada
# aqui puedes verificar los percentiles
trazando linea horizontal
fun<- ecdf (datos$columna)
plot (fun)
# BOXPLOT
boxplot (datos$columna)
#Con 2
boxplot (variable~variable) (y~x) y siempre es la cuantitativa y x cualitativa
Ls <- quantile (variable, 0.75) + 1,5*IQR (variable)
Li <- quantile (variable, 0,25) - 1,5^IQR (variable)
Valores atipicos
boxplot (variable) $out
length (boxplot (variable) $out) -para saber cuantos son
#Asociacion de Variables
#Cualitativa - cualitativa
table (y, x) # creas una tabla de frecuencia que relaciona variables
prop. table (table (Y, x) )
-creas una tabla de proporciones que relaciona variables
tabla<- prop.table (table (y , x))
barplot (tabla, beside= T,
main = "name",
xlab = "name",
ylab = "Proporción",
col = c ("blue",
"red"), ylim = c (0:1))
#OJO para comparar 2 variables cuali en barplot, es barplot (y,x), la primera es #la que sera de
titulo y la legenda, la otra como xlab
# cualitativa ~cuantitativa
# para esto se usa boxplot (y~x) y es la variable cuantitativa y x la cualitativa
boxplot (Y~X)
# COMPARAS SUS MEDIAS Y SUS RIC
#funcion by
# by (y,x, lo que necesito) y tiene que ser cuantitativa
# by (datos,según una condición, funcion)
cuantitativa~cuantitativa
plot (Y,x)
cor (variable, variable) # no importa el orden, mide el nivel de asociacion [0,1]
# varianza total
datos$Rcrit=datos$R.critica-mean(datos$R.critica)
sum (datos$Rcrit**2)/n-1
# ERROR
SCE ( suma del cuadrado de los errores ) = Sumatoria de (yi - y (sombrerito))
# el y con sombreriro son los valores obtenidos en la regresion y el otro los valores reales de la
muestra
errores <- datos$columna - predict (modelo_1, datos)
Sum (errores**2)
# puedes
comparar 2 modelos por su suma de errores al cuadrado, mientras menor sea mejor.
#varianza de los errores: n= numero de datos de la muestra 2 modo
datos$variable.predict=predict (model.1, datos)
datos$error= datos$variable-datos$variable.predict
sum (datos$error**2)/n-1
#varianza total
datos$Rcrit=datos$R.critica-mean(datos$R.critica)
sum (datos$Rcrit**2) /n-1
# varianza de los residuos
var (modelo_B$residuals)
# PROBABILIDADES
‡ muestras
Sample (a:b,n, replace= T/F)
=a:b elementos
#n tamaño de la muestra
TECNICAS DE CONTEO
# 4 personas en 2 asientos
# Ordenar k (o r) de n elementos en k (o r) lugares pero SI IMPORTA EL ORDEN
por lo que no se pueden sentar en cualquier asiento
variacion = function (n, k) factorial (n) / factorial (n-k)
Varlacion (20,3)
# Combinatoria
= No importa el orden
‡ Seleccionar un grupo de k (o r) de n elementos distinguibles
combinatoria = function (n,k) factorial (n) / (factorial (k) *factorial (n-k))
combinatoria (36,3)
# Esquema Hipergeometrico
‡ r= numero de defectuosos (o lo que te pidan) en la poblacion o lote
x= numero de defectuosos que puedes encontrar en la muestra
N= numero total de lotes o de poblacion
n= numero de muestras a tomar de N
usualmente te dan r n N de datos y x es la pregunta
combinatoria(r.x)*combinatoria(N-R,n-x)/combinatoria(N,n)
# PROPIEDADES DE PROBABILIDAD
# OJOS AUB es A o B, no ambos a la vez. A INTERSECCION B es A Y B, que ambos eventos sucedan a
la vez
# P (AUB) = P (A) + P (B)- P (A Interseccion B)
# Si es que NO son mutumanete excluyente
‡ P (AUB) = P (A) + P(B) = si es que SI son mutuamente excluyentes
# P (A-B) = P (A) - P (A INTERSECCION B)
# P (A INTERSECCION B) = P (B/A) *P (A)
# P (A/B)
= (P(A INTERSECCION B))/ P(B)
= teorema de bayes
P (A/B)= (P(B/A)*P(A))/P(B)
#MODELOS ESTADÍSTICOS
PARA TODOS EL P ES UN PARAMETRO
Y RECUERDEN EL ORDEN D P Q
D es para un caso puntual
P para la funcion amuluda es decir x<= X0
Q es para percentiales, es al reves, tu pones la probabilidad te responde un dato
Es importante deifinir bien el X para saber que tipo de variable es y con ello saber que modelo usar
Bernoulli: SE DA PARA EL CASO DE N=1, ES DECIR UN INTENTO POR LO QUE SOLO TIENES 2
OPCIONES
# EXITO O FRACASO
# Si n = 1 --> x ~ Bernoulli (p)
‡ Esperanza: D
# Varianza: p (1-p)
plot (x, dbinom (x, 1,0.30), type ="h", xlab= "numero de defectuosos en 10 productos", ylab= "P
(x)",
main = "x ~ Bernoullli (p=0.30)")
# EN GENERAL: parà más de 1 intento
#x <ー c (0,1,2,3,.....n) se crea un dominio
# p <- (0.15)/(x+1) la funcion probabilidad de ese dominio, te lo deben dar
# Esperanza: E(X) = sum(x*p) es el valor esperado o la media, NO ES UNA PROBABILIDAD
# Varianza: V(X) = E(X^2) - (E (X)) ^2 = sum(x^2 *2) - (sum (x*p)) ^2
# para verificar el percentil del modelo
modelo <- data.frame (x, p)
modelo
modelo$acum <- cumsum (P)
mcdelo$ acum
ㅍㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡ
# Distribucion binomial: para numero de “exitos” en N ensayos
‡ x ~ Binomial (n,p)
# X: Número de éxitos en n ensayos
# Ejemplo: De 10 productos, la probabilidad de encontrar un defectuoso es de 0.30
# n = 10
# р = 0.30
‡ dbinom: dbinom(2, 10, 0.30) # la probabilidad de encontrar 2 defectuosos de 10 productos
‡ ppois
Ppois (0. 5,10) # probabilidad de vender a lo max 5 productos en 20 min
qpois
qpois (0.5,10) # percentil 50
# Esperanza: lambda
# Varianza: lambda
# grafica
x<- 0:20
plot (x, dpois (x, 10),
type = "h", lwd=5)
# CONTINUAS
# EN GENERAL
# dominio de [-infinito, + infinito] no importa los puntuales porque = 0, propiedad de integrales
# P (x>=8) = P (x>8)
# Ejemplo:
# X: Porcentaje de línea crédito usada por los clientes de un banco, es una variable continua, es %
X~ f (x) = (4/100^4) *x^2 Función Densidad, esa densidad se integra para hallar la probabilidad
# Dominio [0;100] esto es dato
# Intregrar f (x)
# P ( X > 50)
# integrate ( function (x) (4/100^4) *x^2, lower = 50, upper = 100)
# Esperanza: se integra en todo el dominio
ya no usamos el d porque como mencione los puntuales son = 0, solo lo usamos para graficar
X ~ Exponencial (lambda)
# Ejemplo:
# ANTES
# C: Número de clientes que llegan a un restaurante en un intervalo de 20 minutos,es variable
discreta
# C~ Pois (lambda = 12 clientes) solo toma la parte discreta,unidades 20 min
# AHORA
# T: Tiempo transcurrido entre llegada de clientes en minutosm, es variable continua
# T ~ Exp (lambda = 12 clientes/20 minutos) lo toma todo, unidades min
# Distribución Gamma
# x ~ Exponencial (alfa,lambda)
# U: Tiempo transcurrido hasta la llegada
del 4er cliente
# U ~ Gamma (alfa = 3, lambda = 15 clientes/20 minutos)
dgamma:
pgamma: Calcula Probabilidad Acumulada P(X<= x)
pgamma (10,4,15/20) # para max 10 min
# qgamma: Calcula Cuantil
qgamma (0.5,4,15/20) # para hallar los percentiles, en este caso la mediana
alfa corresponde al parámetro shape en R
ejemplo:
dgamma (x, 3,1/12)
* Lo mismo con las demás, solo que cambias de distribucion