Está en la página 1de 8

PRUEBAS ESTADÍSTICAS DEL DIPLOMADO

Pruebas Explicación prueba Función p-valor buscado otro


Wilcoxon Para un grupo. Comprobar si wilcox.test() H1 – p-valor < 0.05
coincide la mediana con la
buscada
Wilcoxon-Mann- Para dos grupos. Comprobar si wilcox.test() H1 – p-valor < 0.05
Whitney coinciden sus medianas
Kolmogorov- Prueba de normalidad. Se busca ks.test() H0 – p-valor > 0.05
Smirnov que exista una normalidad
relativa. Solo una variable
Shapiro Prueba de normalidad. Se busca shapiro.test() H0 – p-valor > 0.05
que exista una normalidad
relativa. Solo una variable
Kruskal-Wallis Prueba para diferencia de medias kruskal.test() H1 – p-valor < 0.05
de dos o más grupos.
Chi-cuadrado Prueba para diferencia de medias chisq.test() H1 – p-valor < 0.05
de dos o más grupos.
t-Student Prueba para diferencia de medias t.test() H1 – p-valor < 0.05 Necesita que haya
de dos grupos. Paramétrica. normalidad
Necesita haya normalidad en (kolmogorov o shapiro).
cada grupo. Comprobar con Intervalo de confianza
shapiro o kolmogorov. pequeño.
Medias distintas de cada
grupo.
Anova de un Prueba de diferencia de medias summary(aov)) H1 – p-valor < 0.05 Puede realizarse post
factor de dos o más grupos con un anova(lm()) hoc HSD de Tukey
factor. Paramétrica. Necesita que
tres supuestos se cumplan:
normalidad, homocedasticidad e
independencia de los grupos.
Anova de un Pruebas de generalización t1way() H1 – p-valor < 0.05 Puede realizarse post
factor robusto robusta de welch y de box. box1way() hoc de comparaciones
Tienen en cuenta y tratan la falta con lincon()
de supuestos del anova. Dentro
de la biblioteca WRS (Wilcox
Robust Statistics)
Anova de dos Prueba de diferencia de medias summary(aov)) H1 (primer factor) – Puede realizarse post
factores de dos o más grupos con dos anova(lm()) p-valor < 0.05 hoc con HSD de Tukey
factores. Paramétrica. Necesita
que tres supuestos se cumplan: H1 (segundo factor) –
normalidad, homocedasticidad e p-valor < 0.05
independencia de los grupos.
H1 (interacción de
factores) – p-valor <
0.05
Anova de dos Prueba de generalización robusta t2way() H1 (primer factor) – Puede realizarse post
factores robusto de welch. Tienen en cuenta y p-valor < 0.05 hoc de comparaciones
tratan la falta de supuestos del con lincon()
anova. Dentro de la biblioteca H1 (segundo factor) –
WRS (Wilcox Robust Statistics) p-valor < 0.05

H1 (interacción de
factores) – p-valor <
0.05
Regresión lineal Prueba para clasificar y predecir. lm() H1 – p-valor < 0.05 También se debe
simple Para establecer la relación entre comprobar el p-valor <
dos variables. Requiere haya 0.05 del intercepto y un
normalidad y simetría. R2 ajustado cercano a 1.
Correlación Prueba predictiva. Establece la cor.test() H1 – p-valor < 0.05 También se comprueba
simple intensidad entre dos variables el intervalo al 95% de
que han sido relacionadas en la confianza y se establece
regresión. Para variables el coeficiente de
cuantitativas se utiliza Pearson. correlación de Pearson
Para cualitativas, Kendall o r.
Spearman.
Regresión lineal Prueba para clasificar y predecir. lm() H1 (de cada También se debe
múltiple Para establecer la relación entre variable)– p-valor < comprobar el p-valor <
una dependiente (y) y dos o más 0.05 0.05 del intercepto y un
independientes (xs). Requiere R2 ajustado cercano a 1,
haya normalidad y simetría. y el p-valor general del
modelo < 0.05
Correlación Se establece la relación de library(Hmisc) H1 (de cada par de Puede realizarse con los
múltiple intensidad entre cada para de rcorr() variables)– p-valor < métodos Pearson,
variables. Los resultados son en 0.05 Kendall y Spearman.
dos matrices, de p-valores y de
coeficientes.
Regresión robusta Las dos mejores: Huber:
-Huber siempre que no haya -library(MASS) H1 - p-valor < 0.05
puntos de apalancamiento. - rlm()
-MM (M-estimadores de Yohai), MM:
indica los datos anómalos -library(robustbase)
cuántos son y cuáles son. -lmrob()
Regresión poisson Se establece la relación entre glm(,family=poisson) H1 (de cada También se debe
variables siempre que se asuma variable)– p-valor < comprobar el p-valor <
que siguen una distribución 0.05 0.05 del intercepto y el
poisson y sea un recuento de AIC (siempre a elegir el
datos. La variable dependiente menor) del modelo.
debe ser una tasa.
Regresión La más utilizada en investigación glm(,family=binomial) H1 (de cada Se deben comprobar
logística logit ya que se establece cuando la variable)– p-valor < con summary y se
relación entre variables tienen en 0.05 pueden hacer
las distribuciones colas pesadas o predicciones
así se presupone. La variable posteriores.
dependiente es dicotómica (1/0)
normalmente éxito/fracaso. El
resto de variables pueden ser
cualitativas y cuantitativas.
Regresión Poco utilizada en investigación ya glm(,family=binomial(link=probit)) H1 (de cada Se deben comprobar
logística probit que se establece cuando la variable)– p-valor < con summary y se
relación entre variables cuando 0.05 pueden hacer
hay normalidad. La variable predicciones
dependiente es dicotómica (1/0) posteriores.
normalmente éxito/fracaso. El
resto de variables pueden ser
cualitativas y cuantitativas.
Regresión Las dos mejores: Huber:
múltiple robusta -Huber siempre que no haya -library(MASS) H1 - p-valor < 0.05
puntos de apalancamiento. - rlm()
-MM (M-estimadores de Yohai), MM:
indica los datos anómalos -library(robustbase)
cuántos son y cuáles son. -lmrob()
Correlación Sirven para estimar intensidad de Porcentaje ajustado: H1 - p-valor < 0.05
simple robusta la relación, normalmente cuando -library(WRS)
no queda clara la correlación -pbcor()
simple por un intervalo Winsorizada:
demasiado grande o un p-valor -library(WRS)
cercano a 0.05. También a veces -wincor()
debido a que el coeficiente de M-estimadores:
correlación clásico es pequeño, -relfun()
para comprobar si con esta se
incrementa.
Correlación Sirven para estimar intensidad de Porcentaje ajustado: H1 - p-valor < 0.05
múltiple robusta la relación, normalmente cuando -library(WRS)
no queda clara la correlación -pball()
simple por un intervalo Winsorizada:
demasiado grande o un p-valor -library(WRS)
cercano a 0.05. También a veces -winall()
debido a que el coeficiente de
correlación clásico es pequeño,
para comprobar si con esta se
incrementa.
Modelos Lineales Es una técnica que mezcla anova -library(nlme) H1 - p-valor < 0.05 Se pueden hacer
Mixtos y regresión. Se deben estudiar -lme() de cada variable e transformaciones de
Generalizados los efectos fijos y los efectos intercepto datos a logaritmos log()
aleatorios así como los supuestos
de normalidad y simetría
Árboles de Se hacen bajo método anova, -library(rpart) No hay p-valores. Se Se puede podar el árbol
regresión todas las variables deben ser -rpart() estudian los nodos con el método de coste
cuantitativas terminales que se de complejidad. plotcp()
obtienen con *
Árboles de Se hacen con método class -library(rpart) No hay p-valores. Se
clasificación (índice de Gini), la variable -rpart() estudian los nodos
dependiente debe ser dicotómica terminales que se
(1/0) el resto pueden ser obtienen con *
cualitativas y cuantitativas
Modelos Aditivos Sirven para comprobar si las -library(mgcv) H1 - p-valor < 0.05 Se puede realizar
Generalizados variables del árbol anterior son -gam(,family="poisson(link=log)")) de cada variable gráficos de residuos de
válidas o no. Cada variable debe cada variable para
ser suavizada y bajo el método estudiar la presencia de
de serie temporal: datos anómalos que son
~s(gamesa,bs="ts") aquellos que no se
sitúan sobre la zona
sombreada del gráfico.
Series temporales Con tan solo una variable en el -library(tseries) No hay p-valores. Se pueden calcular
actuales SARIMA tiempo (entre 80-70 medidas -library(forecast) Se busca el AIC más pendientes avanzadas
equidistantes en el tiempo) se -auto.arima(Serie) pequeño en los para reportar en los
puede calcular un modelo -tsdiag(result) modelos o el log artículos.
polinómico SARIMA y una -predict() likelihood mayor.
predicción. A corto plazo la
predicción es exacta si la base de
datos se trabaja desde el
comienzo con medias avanzadas
en lugar de medias clásicas.
Análisis de Se realiza para analizar las -library(ca) Las dos primeras El trabajo de matrices
correspondencias asociaciones entre variables -chisq.test() inercias deben para obtener la matriz
categóricas. Para establecer -ca(matriz) explicar al menos del de discrepancias es
patrones. Primero se estudia la -plot(ca(matriz)) 70% hasta el 100% únicamente para la
dependencia de las variables con del análisis. publicación si la revista
chi-cuadrado (se debe obtener lo indica.
un p-valor menor a 0.05 para
poder realizar el análisis de
correspondencias)
Análisis Factorial Se realiza para validar -library(psych) Se estudian los pesos Dentro de la función fa
Exploratorio externamente instrumentos tipo -library(nFactors) de los ítems en cada se utilizan métodos de
Likert (para poder generalizar -resultados<-fa() factor, debe ser el rotación (varimax) o de
resultados al resto de la mayor peso para transformación
población) y para reducir encuadrarse en un (oblimin), este último
dimensiones. Los ítems explican factor concreto. El recomendado ya que es
los factores “abstractos” no peso para aceptar un para cuando hay falta de
medibles. Deben tener buen buen encuadre debe normalidad.
peso en su factor (de 0.6 a 1). Se ser de 0.6 hasta 1.
puede realizar una simulación de
análisis paralelo previo para
conocer el número de factores
real.
Análisis de Es una técnica exploratoria para -library(ade4) La variabilidad La revista puede pedir
componentes reducir dimensiones, es decir, -dudi.pca() explicada debe las corrdenadas de las
principales número de variables. El gráfico -inertia.dudi() superar el 70%, una filas, de las columnas,
de desmoronamiento o vez lo supere contribuciones, etc
sedimentación indica contamos hacia atrás
normalmente que el primer el número de
componente lleva la mayor componentes
explicación.
Análisis Se van clasificando elementos en -library(MASS) La porción de rastro Se pueden utilizar
discriminante grupos (agrupándolos) en -lda() de las funciones algoritmos como K-
función de una variable -plot(datos.lda) discriminantes indica vecinos más cercanos,
discriminante. Puede ser con -predict() qué función tiene validación cruzada, o
clasificación dada o con mayor explicación ambos juntos.
clasificación desconocida (en
este caso se necesita un grupo
origen para comparar con el
nuevo a discriminar)
Escalado Nos permite clasificar la -cdmscale() Si algún valor eigen Las matrices de
multidimensional asociación entre elementos o no -library(MASS) es negativo la matriz distancias más utilizadas
en un plano en función de sus -isoMDS() de distancias debe son euclide y
distancias. Hay que calcular ser no euclídea (de manhattan.
matrices (función dist). Puede ser preferencia
métrico (las variables son manhattan)
cuantitativas) o no métrico (las
variables son escaladas por el
investigador)
Análisis Clusters Los elementos se clasifican en -library(apcluster) Se realiza la matriz Puede ser cluster
grupos o conglomerados. De tal -hclust() negativa de jerárquico o no
manera que los elementos -cutree() distancias de jerárquico. Más
dentro de los grupos se parecen -rect.hclust() cuadrados para recomendable el
y, a su vez, los grupos se conocer el número primero y con método
diferencian entre ellos. Se debe exacto de clusters: de Ward (ward.D) ya
calcular una matriz de distancias MS<-negDistMat() que permite visulaizar si
negativas de cuadrados Apcluster(MS) hay datos anómalos que
previamente para conocer el formen un solo grupo.
número de clusters, grupos o
conglomerados.

También podría gustarte