Está en la página 1de 9

+CSV

datos<- read.csv (file. choose () )


datos <- read.csv(file.choose (), sep =“, o ;"
+SAV
datos <- read.sav (file.choose () )

+Crear un subconjunto de base de datos, por ejemplo de solo de hombres


salud.medicos <- datos salud.personal [datos salud.personal$C2P1==1,]
OJO que datos_salud.personal es el nombre que le pongo a TODA la base de datos

+MEDIDAS DE TENDENCIA CENTRAL: OJO TENER EN CUENTA LOS DATOS PERDIDOS LE


PONES ,na.rm = T) EJEMPLO
mean (datos$columna, na.rm = T)
+MEDIA : el promedio de los datos
mean ()
+MEDIANA: # valor medio de los datos,
median () --- summary() --- quantile(0,5, datos$columna)

+MEDIDAS DE DISPERSION:
+VARIANZA/DESVIACION ESTANDAR (que tan bien la media representa a los datos)
la desviacion estandar es la raiz cuadrada de la varianza.
var () y sd ()
+RIC evalua que tan bien la mediana representa a los datos,
es el Q3 (0.75) - Q1 (0.25)
+ Que M.T.C usar? (Ver Asimetria)
(Asimetría(Barras,Histo)=mediana/RIC)(Simetria=media/varianza o DS)
O CON LA FUNCION FISHER O PEARSON
Pearson.asi<- function(x) 3* (mean(x,na.rm=T))-median(x,na.rm=T))/sd(x,na.rm=T)
Pearson.asi (variable)

Fisher.asi <- function (x) (mean ((xa-mean(x,na.rim=T)^3,na.rm=T)/sd(x,na.rm=T)^3


Fisher.asi (variable) “es mas exacto”

+summary (variable)
-te saca el valor max min la media la median el Q1 Y Q3
+quantile (el percentil, datos$columna, type=2)
-es mejor sacar los percentiles asi porque. en summary el R lo hace por defecto en type=7
+ ETIQUETAS
attr (variable, "label") # para saber la etiqueta o el nombre oculto del titulo de una columna
# por ejemplo esta de titulo CP3 pero en realidad quieres decir "numero de hijos"
# attr (variable, "labels") # para saber la etiqueta o el nombre oculto de las filas de una columna
# por ejemplo tienes te titulo sexo pero en las filas estan 1,0,1,0,0,1 usas eso para saber cual es
hombre y cual es mujer
table (variable) # creas una tabla de frecuencia
prop. table (table (variable)) # creas una tabla de proporciones
# Con addmargin==1 cambia el total con respecto a las filas y con == 2 con respecto a las columnas
addmargins (prop.table (table (y, x), 1))
addmargins (prop.table (table (y, x),2) )
recuerda que Y seria la columna y X seran las filas en la tabla de relacion
# GRAFICOS
# PRIMERO IDENTIFICAR EL TIPO DE VARIABLE.
# CAULITATIVA:
# ORDINAL: NOTACIONES NUMERICAS
# NOMINAL;
LETRAS EN SI

# CUANTITATIVA:
# discreta: las puedes contar y toma valores extremos en un intervalo, por ejemplo el numero de
hijos. no tienes 1 hijo y medio.
# continua: son MEDIBLES y toma valores que se encuentran dentro de un intervalo, el tiempo, la
edad, la altura, etc
# TIPOS DE GRAFICOS
# para cualitativa: grafico de pie o de barras, usamos más barras
barplot (prop.table (table (variable)), ylim=c (0,1),
names.arg = c ("1", "2"),
ylab="Proporcion")
# cuanti discreta, graficos de bastones
plot (variable)
# cuanti continua,histograma
hist (variable,prob=T)
#AÑADIR LEYENDAS
legend (coordenada x, coordenada y, c ("name", "name") , bty="n",
pch=15,col=1:2)
# agregar una linea de densidad en un hist
hist (datos$columna, prob=T)
lines (density (datos$columna))
* funcion distribucionrelativa acumulada
# aqui puedes verificar los percentiles
trazando linea horizontal
fun<- ecdf (datos$columna)
plot (fun)

# BOXPLOT
boxplot (datos$columna)
#Con 2
boxplot (variable~variable) (y~x) y siempre es la cuantitativa y x cualitativa
Ls <- quantile (variable, 0.75) + 1,5*IQR (variable)
Li <- quantile (variable, 0,25) - 1,5^IQR (variable)

plot (density (variable))


lines (lo que quiero graficar)

Valores atipicos
boxplot (variable) $out
length (boxplot (variable) $out) -para saber cuantos son

#Asociacion de Variables
#Cualitativa - cualitativa
table (y, x) # creas una tabla de frecuencia que relaciona variables
prop. table (table (Y, x) )
-creas una tabla de proporciones que relaciona variables
tabla<- prop.table (table (y , x))
barplot (tabla, beside= T,
main = "name",
xlab = "name",
ylab = "Proporción",
col = c ("blue",
"red"), ylim = c (0:1))

#OJO para comparar 2 variables cuali en barplot, es barplot (y,x), la primera es #la que sera de
titulo y la legenda, la otra como xlab

# cualitativa ~cuantitativa
# para esto se usa boxplot (y~x) y es la variable cuantitativa y x la cualitativa
boxplot (Y~X)
# COMPARAS SUS MEDIAS Y SUS RIC
#funcion by
# by (y,x, lo que necesito) y tiene que ser cuantitativa
# by (datos,según una condición, funcion)

cuantitativa~cuantitativa
plot (Y,x)
cor (variable, variable) # no importa el orden, mide el nivel de asociacion [0,1]

# Regresion lineal simple


modelo1<- lm(y~x, datos) # y es la variable respuesta y x la variable que explicara
summary (modelo1) # te saca la ecuacion linea y el R**2
plot (modelo 1)
abline (model1, col="red", Iwd ="2") # linea de tendencia
‡ al comparar 2 modelos los comparas con el R**2 que representa el porcentaje variabilidad
explicada
# y-hat= b + m*X1
‡ se debe interpretar el intercepto y la pendiente

Regresión lineal multiple


modelo _2 <- lm (y~x, datos)
summary (model.1)
plot (modelo_2)
abline (modelo_2, col="red", lwd ="2") # linea de tendencia al comparar 2 modelos de regresion
lineal multiple se usa el R**2 ajustado
= y-hat= b + m1*x1 +m2*x2

varianza de los errores: 1 modo


datos$variable.predict=predict (model.1, datos)
datos$error= datos$variable-datos$variable.predict
sum(datos$error**2)/n-1

#varianza de las predicciones


datos$Rcrit2= datos$Rcrit.predict-mean(datos$R.critica)
sum (datos$Rcrit2**2)/n-1

# varianza total
datos$Rcrit=datos$R.critica-mean(datos$R.critica)
sum (datos$Rcrit**2)/n-1

# ERROR
SCE ( suma del cuadrado de los errores ) = Sumatoria de (yi - y (sombrerito))
# el y con sombreriro son los valores obtenidos en la regresion y el otro los valores reales de la
muestra
errores <- datos$columna - predict (modelo_1, datos)
Sum (errores**2)
# puedes
comparar 2 modelos por su suma de errores al cuadrado, mientras menor sea mejor.
#varianza de los errores: n= numero de datos de la muestra 2 modo
datos$variable.predict=predict (model.1, datos)
datos$error= datos$variable-datos$variable.predict
sum (datos$error**2)/n-1

#varianza de las predicciones 2 modo


# ejemplo
#y_hat = 112.7338-0.9999*x1 + 2.0174*x2
b0<- modelo_B$coefficients [1]
b1 <- modelo _B$coefficients [2]
b2‹- modelo B$coefficients [3]
y estimacion <- b0 + b1*datos_1$altura+b2*datos_1$peso
var (y_estimacion)

#varianza total
datos$Rcrit=datos$R.critica-mean(datos$R.critica)
sum (datos$Rcrit**2) /n-1
# varianza de los residuos
var (modelo_B$residuals)

# PROBABILIDADES
‡ muestras
Sample (a:b,n, replace= T/F)
=a:b elementos
#n tamaño de la muestra

TECNICAS DE CONTEO

# 4 personas en 2 asientos
# Ordenar k (o r) de n elementos en k (o r) lugares pero SI IMPORTA EL ORDEN
por lo que no se pueden sentar en cualquier asiento
variacion = function (n, k) factorial (n) / factorial (n-k)
Varlacion (20,3)

# Combinatoria
= No importa el orden
‡ Seleccionar un grupo de k (o r) de n elementos distinguibles
combinatoria = function (n,k) factorial (n) / (factorial (k) *factorial (n-k))
combinatoria (36,3)

# Esquema Hipergeometrico
‡ r= numero de defectuosos (o lo que te pidan) en la poblacion o lote
x= numero de defectuosos que puedes encontrar en la muestra
N= numero total de lotes o de poblacion
n= numero de muestras a tomar de N
usualmente te dan r n N de datos y x es la pregunta
combinatoria(r.x)*combinatoria(N-R,n-x)/combinatoria(N,n)

# PROPIEDADES DE PROBABILIDAD
# OJOS AUB es A o B, no ambos a la vez. A INTERSECCION B es A Y B, que ambos eventos sucedan a
la vez
# P (AUB) = P (A) + P (B)- P (A Interseccion B)
# Si es que NO son mutumanete excluyente
‡ P (AUB) = P (A) + P(B) = si es que SI son mutuamente excluyentes
# P (A-B) = P (A) - P (A INTERSECCION B)
# P (A INTERSECCION B) = P (B/A) *P (A)
# P (A/B)
= (P(A INTERSECCION B))/ P(B)
= teorema de bayes
P (A/B)= (P(B/A)*P(A))/P(B)
#MODELOS ESTADÍSTICOS
PARA TODOS EL P ES UN PARAMETRO
Y RECUERDEN EL ORDEN D P Q
D es para un caso puntual
P para la funcion amuluda es decir x<= X0
Q es para percentiales, es al reves, tu pones la probabilidad te responde un dato
Es importante deifinir bien el X para saber que tipo de variable es y con ello saber que modelo usar

Bernoulli: SE DA PARA EL CASO DE N=1, ES DECIR UN INTENTO POR LO QUE SOLO TIENES 2
OPCIONES
# EXITO O FRACASO
# Si n = 1 --> x ~ Bernoulli (p)
‡ Esperanza: D
# Varianza: p (1-p)
plot (x, dbinom (x, 1,0.30), type ="h", xlab= "numero de defectuosos en 10 productos", ylab= "P
(x)",
main = "x ~ Bernoullli (p=0.30)")
# EN GENERAL: parà más de 1 intento
#x <ー c (0,1,2,3,.....n) se crea un dominio
# p <- (0.15)/(x+1) la funcion probabilidad de ese dominio, te lo deben dar
# Esperanza: E(X) = sum(x*p) es el valor esperado o la media, NO ES UNA PROBABILIDAD
# Varianza: V(X) = E(X^2) - (E (X)) ^2 = sum(x^2 *2) - (sum (x*p)) ^2
# para verificar el percentil del modelo
modelo <- data.frame (x, p)
modelo
modelo$acum <- cumsum (P)
mcdelo$ acum
ㅍㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡ
# Distribucion binomial: para numero de “exitos” en N ensayos

‡ x ~ Binomial (n,p)
# X: Número de éxitos en n ensayos
# Ejemplo: De 10 productos, la probabilidad de encontrar un defectuoso es de 0.30
# n = 10
# р = 0.30
‡ dbinom: dbinom(2, 10, 0.30) # la probabilidad de encontrar 2 defectuosos de 10 productos

# pbinom: pbinom (2,10,0.30) # la probabilidad de encontroal A LO MÁS 2 defectuosos de 10


productos ( x <-2)
# gbinom:qbinom (0.5,10,0.30) # 3 productos defectuosos es la mediana <- percentil 50, Q2
# Esperanza: np
# Varianza: np (1-p)
# grafica
x <- 0:10 # defines el dominio
plot (x, dbinom (x, 10, 0.30), type ="h", xlab= "numero de defectuosos en 10 productos"
vlab= "P (x)"
main = "x ~ Binomial (n=10, p=0.30)")

#Poisson: lambda es una tasa de ocurrencia, su dominio (0, ,infinito)


# x ~ Poisson (Lambda)
# x: Número de éxitos en un intervalo de espacio (tiempo, area, etc.) SON ESPACIOS CONTINUOS
# oiO "
" va se recibió", "ya se dió",”ya pasó” como condicional quieres decir X>=X0 puesto que si no no
habría intersección y serian independientes
# Ejemplo: En un intervalo de 20 minutos,
en promedio venden 10. productos
# lambda = 10 (productos/20 min) OJO EL POISSON SE CENTRA EN LA PARTE DISCRETA NO EN LA
CONTINUA
* x= la cantidad de productos vendidos en un intervalo de 20 min
# dpois: a valores mayores la probabilidad tiende a 0 por limite
dpois (5,10) #probabilidad de vender 5 productos en 20 min

‡ ppois
Ppois (0. 5,10) # probabilidad de vender a lo max 5 productos en 20 min

qpois
qpois (0.5,10) # percentil 50
# Esperanza: lambda
# Varianza: lambda
# grafica
x<- 0:20
plot (x, dpois (x, 10),
type = "h", lwd=5)

# CONTINUAS
# EN GENERAL
# dominio de [-infinito, + infinito] no importa los puntuales porque = 0, propiedad de integrales
# P (x>=8) = P (x>8)
# Ejemplo:
# X: Porcentaje de línea crédito usada por los clientes de un banco, es una variable continua, es %
X~ f (x) = (4/100^4) *x^2 Función Densidad, esa densidad se integra para hallar la probabilidad
# Dominio [0;100] esto es dato
# Intregrar f (x)
# P ( X > 50)
# integrate ( function (x) (4/100^4) *x^2, lower = 50, upper = 100)
# Esperanza: se integra en todo el dominio

# E (X)=integrate (function (x)x* (3/100^3)*x^2, lower = 0, upper = 100)


# Varianza (x): por definicion
#integrate ( function (x)(x*2)(3/100^3)*x^2,lower=0,upper=100)==a
(E(x))**2==b el resultado de la esperanza se eleva al cuadrado
# varianza= a-b

ya no usamos el d porque como mencione los puntuales son = 0, solo lo usamos para graficar

X ~ Exponencial (lambda)
# Ejemplo:
# ANTES
# C: Número de clientes que llegan a un restaurante en un intervalo de 20 minutos,es variable
discreta
# C~ Pois (lambda = 12 clientes) solo toma la parte discreta,unidades 20 min

# AHORA
# T: Tiempo transcurrido entre llegada de clientes en minutosm, es variable continua
# T ~ Exp (lambda = 12 clientes/20 minutos) lo toma todo, unidades min

# dexp: Calcula Densidad P(X = x) ¡No hay probabilidad puntual!


# рехр:
qexp (10,12/20) # la probabilidad de tiempo sea menor a 10 min
# gexp: Calcula Cuantil
qexp (0.5,12/20) #1.155 minutos
# lambda corresponde al parámetro rate en R
# Así mismo también se puede usar el parámetro scale= 1/rate
# Esperanza: 1/lambda
# Varianza: 1/ (lambda^2)

# Distribución Gamma
# x ~ Exponencial (alfa,lambda)
# U: Tiempo transcurrido hasta la llegada
del 4er cliente
# U ~ Gamma (alfa = 3, lambda = 15 clientes/20 minutos)

dgamma:
pgamma: Calcula Probabilidad Acumulada P(X<= x)
pgamma (10,4,15/20) # para max 10 min
# qgamma: Calcula Cuantil
qgamma (0.5,4,15/20) # para hallar los percentiles, en este caso la mediana
alfa corresponde al parámetro shape en R

Lambda corresponde al parametro rate en R


# Así mismo también se puede. usar el parámetro scale = 1/rate
# Esperanza: alfa/lambda
# Varianza: alfa/ (lambda^2)
# Distribución Weibull
# x ~ Weibull (alfa, beta)
# dweibull: Calcula Densidad P (X = x) ¡No hay probabilidad puntual!
# pweibull: Calcula Probabilidad Acumulada P (X <= x)
# gweibull: Calcula Cuantil

# alfa corresponde al parámetro shape en R


‡ beta corresponde al parametro scale en R
# Esperanza: beta * gamma (1 + 1/alfa),
EN ESTE CASO gamma es la generalización del factorial
# Varianza: beta^2* ( gamma (1 + 2/alfa) - (gamma (1 + 1/alfa))^2 )
# PARA GRAFICAR LOS CONTINUOS
X<- seq (0,100, by = 0.01)
plot (x, dexp (x, 1/12), type=“1”)

ejemplo:
dgamma (x, 3,1/12)
* Lo mismo con las demás, solo que cambias de distribucion

También podría gustarte