Está en la página 1de 78

UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS

(Universidad del Perú, DECANA DE AMÉRICA)

FACULTAD DE INGENIERÍA INDUSTRIAL

ESCUELA PROFESIONAL DE INGENIERÍA TEXTIL

SOFTWARE R
 CURSO: PROGRAMACION

 PROFESOR: ORTIZ JOSE

 INTEGRANTE

 TAMITA HUAYRA NURIA

 FECHA DE ENTREGA:   8 DE SEPTIEMBRE DE 2020

Lima – Perú
2020-I
ÍNDICE

OBJETIVOS...........................................................................................................................4
ESTADÍSTICA DESCRIPTIVA........................................................................................................14
INTRODUCCIÓN.....................................................................................................................14
Las variables.......................................................................................................................14
TABLAS O DISTRIBUCIÓN DE FRECUENCIAS..........................................................................15
GRÁFICOS...............................................................................................................................15
Variables Cualitativas........................................................................................................15
 Diagrama de barras........................................................................................................15
 Diagrama de sectores.....................................................................................................15
Variables Cuantitativas Discretas......................................................................................16
 Diagrama de barras........................................................................................................16
 Diagrama de cajas..........................................................................................................16
Variables Cuantitativas Continuas.....................................................................................16
 Histograma.....................................................................................................................16
 Polígono de frecuencias.................................................................................................16
Diagrama de cajas..............................................................................................................16
Histograma.........................................................................................................................16
ESTADÍSTICOS........................................................................................................................17
Estadísticos de posición no central: cuantiles...................................................................17
Estadísticos de dispersión..................................................................................................17
Estadísticos de forma.........................................................................................................18
INFERENCIA................................................................................................................................33
PRUEBA DE HIPÓTESIS...........................................................................................................34
ERRORES................................................................................................................................34
TIPOS DE PRUEBAS................................................................................................................34
 Pruebas paramétricas:...............................................................................................34
 Pruebas no paramétricas...........................................................................................34
 Pruebas paramétricas robustas.................................................................................34
PRUEBA DE HOMOGENEIDAD......................................................................................48
1. Comparación entre 2 grupos:......................................................................................48
2. Comparación entre más de 2 grupos...........................................................................48
Prueba de U de Mann Whitney.......................................................................................48
Prueba de Wilcoxon para  muestras relacionadas.........................................................51
Ho : µ antes ≤ µ desp ú es................................................................................................51
H1 : µ antes > µ desp ú es..............................................................................51
Prueba de Kruskal - Wallis..............................................................................................53
Prueba de Friedman.........................................................................................................54
Regresión y correlación......................................................................................................57
CONCLUCIONES................................................................................................................77
RECOMENDACIONES.......................................................................................................78
Referencias.................................................................................................................................78
OBJETIVOS

 Conocer las herramientas que nos brinda R para el control de calidad.

 Dar un alcance del programa R que están en tendencia para las investigaciones.

 Reforzar el conocimiento adquirido en el curso ejecutando lo aprendido en R.

 Indagar sobre el tema para comprender su funcionamiento y propósito.

 Aplicar estadísticos de control de calidad mediante el lenguaje de programación

R.

 La estadística es un campo de suma importancia en toads las ciencias, olo tanto

apoyarse en un software que sea flexible y adaptable que se puede extender

fácilmente mediante paquetes o librerías o simplemente configurando nuestras

propias funciones.

 Mediante la investigación adquirir conocimientos sobre R.

 Conocer todo lo posible relacionado al lenguaje de programación R para

utilizarlas en nuestras futuras investigaciones académicas como laborales.


INTRODUCCIÓN

¿Cómo inició el lenguaje de programación de R? ¿ Quién lo creó? R fue creado en 1993

por Ihaka y Robert Gentleman del departamento de Estadística de la Universidad de

Auckland, Nueva Zelanda. Su principal intención era realizar un lenguaje didáctico para

ser utilizado en el curso de introducción a la Estadística, con la característica de la

manipulación de datos y creación de gráficos. Para ello adoptaron la sintaxis del

lenguaje S desarrollado por Bell Laboratories.

La sintaxis de R es similar al lenguaje S, diferenciándose en la semántica, donde es

sensiblemente diferente, sobre todo en los detalles más profundos de la programación.

Además, R es un software de código abierto, forma parte del proyecto GNU, lo que

significa que cualquiera puede descargar y modificar su código de manera gratuita. R se

distribuye bajo la licencia GNU GPL (General Public License), esta licencia no tiene

restricciones de uso, solo obliga que la distribución sea siempre GLP. Es decir, si

cambias o redistribuyes el código R, esos cambios deben estar disponibles para todo el

público. Por lo que uno de sus beneficios es que puedes acceder a su código,

modificarlo y mejorarlo. Esto forma parte de un proyecto colaborativo, donde la

comunidad de usuarios, integrado por programadores de alto nivel, contribuyen a

desarrollar nuevas funciones y paquetes que rápidamente son accesibles a todo público,

logrando que R sea estable y confiable.

Este software obtuvo su nombre a modo de broma, ya que era las iniciales de ambos

creadores; sin embargo, fue el nombre con el que quedó marcado para los amantes de

este lenguaje.

Ahora que se conoce la trascendencia de y conceptos generales de R, se puede expresar

que este trabajo quiere mostrar las estadísticas aplicadas en el control de la calidad
mediante el lenguaje de R, donde se tocará la estadística descriptiva, inferencial y de

relación y correlación. Se debe de tener en cuenta que R está disponible para todos los

sistemas operativos como Windows, Macintosh y sistemas Unix, también permite leer

los datos de otros softwares, entre los más conocidos están SPSS, SAS, Stata y Excel, lo

cual facilitará el acceso a este software para quién lo desee aprender.

1. FUNDAMENTOS TEÓRICOS

1.1. Concepto:

R es un lenguaje de programación entorno al análisis estadístico y gráfico. El término

entorno representa a un sistema totalmente planificado y coherente, en lugar de una

acumulación gradual de herramientas muy específicas y poco flexibles. Es importante

diferencia a R de un sistema estadístico. “Nosotros preferimos describirlo como un

entorno en el que se han implementado muchas técnicas estadísticas, tanto clásicas

como modernas. Algunas están incluidas en el entorno base de R y otras se acompañan

en forma de bibliotecas” [CITATION Equ00 \p 2 \l 10250 ].

Esta diferenciación es parte de una cuestión histórica, en vez de ver a R como un

sistema estadístico, es preferible verlo como un ambiente en el que se aplican técnicas

estadísticas.

1.2. Editores de texto

R nos brinda la posibilidad de elegir que editor de texto queremos utilizar junto con R.

Existen varios editores de R disponibles como: RStudio, Tinn-R, Eclipse StatET, Emacs

Speaks Statistics, entre otros.

- Características de los editores de R:


RStudio: Tiene un resaltador de código que indica con diferentes colores las palabras

claves, variables y símbolos, haciendo más sencilla la creación de código en R.

También presenta la posibilidad de completar el código, por lo que no es necesario

recordar todos los comandos. También presentar una pantalla de consulta a la ayuda de

R con buscador propio, nos permite observar el listado de variables y valores que

tenemos en nuestra área de trabajo, los paquetes instalados y los gráficos que se vayan

realizando. Además, permite trabajar con archivos como Shiny, Markdown, Sweave,

etc.

Tinn-R: Está disponible para Windows y es sencillo de manejar, pero presenta menos

presentaciones.

Eclipse StatET: Es útil para trabajar con proyectos largos de desarrollo de software.

Emacs Speaks Statistics: Disponible para Linux y Windowa, y es útil por sus atajos de

teclados.

1.3. Cómo funciona R

R es un lenguaje Orientados a Objetos, lo que significa que las variables, datos,

funciones y resultados se guardan en la memoria activa del computador en forma de

objetos con nombre específico. El usuario puede modificar o manipular este objeto a

través de operadores y funciones.

Ejemplo 1: Al objeto “x”, se le asigna los números 1,2,3.

Fuente:
Elaboración propia

Si se quiere llamar a este objeto se debe aplicar:


Fuente:
Elaboración propia

Su lenguaje está basado en vectores, fila o columna de números o caracteres, lo cual

permite aplicar cálculos a un conjunto de valores a la vez sin necesidad de utilizar una

función bucle.

Ejemplo 2: Al objeto del ejemplo 1 se le suma 3 a cada elemento del vector

Fuente: Elaboración propia

1.4. Sintaxis básica

- El signo “>” indica que el usuario realiza alguna entrada.

- El símbolo “#”, sirve para realizar un comentario que no ejecute R.

- El operador de asignación “<-” o el de igualdad “=” permiten crear objetos en R.

- El nombre de un objeto debe comenzar con una letra (R toma como objetos

diferentes una misma letra en mayúscula y minúscula), y puede incluir dígitos

del 0 al 9 y puntos (.).

- El operador “rm(x1)”, sirve para borrar objetos de la memoria.

- El operador “rm(list=ls())”, sirve para eliminar todos los objetos del área de

trabajo.

- La función “sabe”, nos permite guardar los objetos de un archivo de RData.

- La función “savehistory ()” nos permite guardar le historial de órdenes que se ha

ejecutado en R y la función “loadhistory ()” nos permite recuperar el archivo.


- Para salir de R podemos utilizar el comando “q()” o “q(save = no))”, donde nos

preguntará si queremos guardar el workspace.

1.5. Librerías o paquetes

R consta de un sistema base y un sistema adicional de paquetes que extienden las

funciones del programa. Los paquetes son una colección de funciones programadas

previamente sobre temas específicos.

Las instalaciones de un paquete adicional en R, se realiza por dos opciones:

a. Ir a la ventana que se encuentra debajo a la derecha y darle click en la pestaña de

“Packages”, luego en “Install” y buscar el repositorio CRAN (Comprehensive

RArchive Network) de R el paquete que se desea o primero descargarlo y luego

buscar el archivo comprimido del paquete en el directorio.

b. Usar la función install.packages () desde la consola de R. Si se cuenta con el editor

RStudio y se quiere elegir el servido, se dirige a “Tools” y luego a “Options”, para

seleccionar un paquete.

Finalmente, para cualquiera de los dos procesos de descarga, los paquetes deben ser

activados para volverlos disponibles por el programa; esto se realiza desde la barra de

herramientas con Paquetes, Cargar paquete o desde la consola con la función library.
1.6. Operadores

- R como calculadora:

Ilustración 1Funciones básicas en R Figura 1: Operadores básicos. Obtenido de https://cran.r-


project.org/doc/contrib/rdebuts_es.pdf
2. Funciones básicas en R

Figura 2: Funciones matemáticas básicas. Obtenido de https://cran.r-project.org/doc/contrib/rdebuts_es.pdf

Estas funciones devuelven un solo valor o un vector de longitud 1, a excepción de range () que

retorna un vector de longitud 2, y var(), cov(), y cor() que pueden devolver matrices. Las

siguientes funciones pueden devolver vectores más complejos:

3. Funciones de distribución en R:
Figura n: Funciones de distribución. Obtenido de https://cran.r-project.org/doc/contrib/R-intro-1.1.0-
espanol.1.pdf

-Funciones de gráficas
ESTADÍSTICA DESCRIPTIVA

INTRODUCCIÓN

El análisis de datos exploratorio es lo primero que se hace para realizar un análisis

estadístico, esto nos deja tener una idea primera de nuestros datos y de las relaciones entre

las variables que se van a analizar.

Las variables

Para un análisis de los datos es importante saber diferenciar el tipo de variables. Estas

pueden ser cualitativas o cuantitativas. Las últimas pueden ser continuas o discretas,

mientras que las cualitativas se dividen en ordinales o nominales.

TABLAS O DISTRIBUCIÓN DE FRECUENCIAS

Una tabla de frecuencias nos permite presentar de forma ordenada las distribuciones de

frecuencia.

- Frecuencia absoluta (fi): cantidad de veces que se repetirá un determinado valor xi en

el estudio.

- Frecuencia relativa (ni): es la división entre la frecuencia absoluta con el número total

de datos.

- Frecuencia acumulada (Fi): la frecuencia absoluta acumulada es la suma de las

frecuencias absolutas de aquellos valores menores o iguales al valor considerado.

- Frecuencia relativa acumulada (Ni): de manera similar a la frecuencia acumulada

obtenemos esta.
Podemos diseñar tablas de frecuencias con datos no agrupados como también con datos

agrupados donde se sugiere agrupar los valores por intervalos para facilitar y de forma

resumida poder trabajar.

GRÁFICOS

Variables Cualitativas

 Diagrama de barras.

 Diagrama de sectores.

Variables Cuantitativas Discretas

 Diagrama de barras.

 Diagrama de cajas.

Variables Cuantitativas Continuas


 Histograma.

 Polígono de frecuencias.

Diagrama de cajas

Se construye trazando una caja entre los cuartiles superiores e inferiores con una línea

interna que representa la mediana. Las líneas que salen de la caja se denominan bigotes

y es una forma de identificar a los valores extremos.

Histograma

Este representa la distribución de frecuencias de la muestra mediante barras para cada

intervalo. A diferencia del diagrama de barras es que en esta es el área de la barra lo que

es proporcional a la frecuencia del intervalo, no a la altura, y los intervalos no tienen por

qué ser todos idénticos.

ESTADÍSTICOS
Después de la tabla de frecuencias y la representación gráfica, podemos utilizar

estadísticos (estimadores o medidas como media aritmética, moda y mediana) para

expresar de forma clara y concisa la información.

Estadísticos de posición no central: cuantiles

Dividen un conjunto ordenado de datos en grupos con la misma cantidad. Están los

cuartiles que dividen a la muestra en cuatro partes iguales, deciles en diez partes iguales

y percentiles en cien partes iguales

Estadísticos de dispersión

Indican la variación de los datos con respecto a las medidas de centralización.

 Rango.

 Varianza.

 Desviación estándar.

 Error estándar.

 Coeficiente de variación.

 IQR o rango de intercuartílico.

Estadísticos de forma

Muestran la forma en la que los datos están posicionados.


 Asimetría: el coeficiente de asimetría es negativo cuando la asimetría es hacia la

izquierda, cero para cuando hay simetría y positiva cuando se da una simetría

hacia la derecha.

 Curtosis: el coeficiente de curtosis es negativo si es platicúrtica o aplanada, cero

cuando es mesocúrtica o normal y positivo cuando es leptocúrtica o apuntada.

DISTRIBUCIONES DE PROBABILIDAD DISCRETAS

En R es posible calcular probabilidades para las principales variables aleatorias

discretas. Los nombres reservados a algunas de esas distribuciones son:

 Binomial: binom

 Poisson: pois
Los nombres anteriores, sin embargo, no son sentencias de R que produzcan una salida

válida. Es necesario anteponerles los prefijos “d”, para la función de masa o función de

probabilidad, “p” para la función de distribución acumulada, “r” para generar valores

aleatorios y “q” para la función cuantil.

Veamos algunos ejemplos.

Calcular la probabilidad de que una variable aleatoria binomial de parámetros n=10,

p=0.3 tome el valor 4:

> dbinom(4,size=10,prob=0.3)

Se puede simplificar la orden anterior:

> dbinom(4,10,0.3)

[1] 0.2001209

Este valor también se podría calcular con la fórmula de la función de masa de una

variable aleatoria binomial de parámetros (n,p):

(nk ¿ pk ( 1− p )n−k

En R la fórmula anterior se expresaría así:

> choose(10,4)*0.3^4*(1-0.3)^6

[1] 0.2001209

La probabilidad acumulada hasta el valor 4, P(X≤4), de una variable aleatoria B(10,0.3)

es

> pbinom(4,10,0.3)

[1] 0.8497317
La probabilidad de que tome el valor 10 una variable aleatoria de Poisson de parámetro

λ=3.52 y la probabilidad acumulada en ese valor son

> dpois(10,lambda=3.52)

[1] 0.002382029

> dpois(10,3.52)

[1] 0.002382029

> ppois(10,3.52)

[1] 0.998933

Generar 10 valores aleatorios de una distribución de Poisson de parámetro 3,52:

> rpois(10,3.52)

[1] 4 3 3 3 4 5 4 1 2 1

CÓMO SIMULAR EN R EL LANZAMIENTO DE UN DADO

En primer lugar vamos a simular el lanzamiento de un dado una vez. Para ello

utilizamos la función sample(). Mediante esta función se escogen al azar un número de

elementos de tamaño especificado entre todos los elementos de un cierto vector. Por

ejemplo, podemos usarla para escoger un número al azar entre los naturales del 1 al 6

(lanzamiento de un dado una vez).

> dado<-1:6

> sample(dado,1)

[1] 5
Para simular el lanzamiento más de una vez, por ejemplo 10, evidentemente debemos

indicar la opción con reemplazamiento (por defecto extrae sin reemplazamiento):

> sample(dado,10)

Error en sample.int(length(x), size, replace, prob) :

cannot take a sample larger than the population when 'replace =

FALSE'

> sample(dado,10,replace=T)

[1] 1 5 3 6 6 4 2 3 2 2

Si quisiéramos simular el lanzamiento de un dado cargado, en el que, por ejemplo, las

probabilidades de los valores 1 a 5 son 0.1 y la de 6 es 0.5, hacemos:

> prdadocarg<-c(0.1,0.1,0.1,0.1,0.1,0.5)

> sample(dado,10,replace=T,prob=prdadocarg)

[1] 5 2 6 4 6 6 5 3 6 2

FUNCIÓN DE DISTRIBUCIÓN

Utilizando la función pbinom() podemos dibujar la función de distribución acumulada

de la variable aleatoria que representa el número de unos y doses que aparecen al lanzar

cinco dados. Utilizamos la opción type="s" para construir la función en forma de

escalera.

> plot(z,pbinom(z,5,1/3),type="s")
> #Vemos que las probabilidades, a partir de 12 aproximadamente, son muy pequeñas

por lo que hacemos un nuevo gráfico

> x<-0:12

> plot(x,dpois(x,4.32),type="h")

> plot(x,ppois(x,4.32),type="s")
● En la inspección de una tubería se detectaron 3,6 defectos por metro. Obtener y

representar gráficamente la función de masa de la variable aleatoria que cuenta el

número de defectos por metro. Calcular la probabilidad de que en un tramo de 1 m de

longitud se encuentren más de dos defectos. 

> #La variable aleatoria X = "nº de defectos en un tramo de 1 m de longitud" sigue una

distribución de Poisson de parámetro 3.6 

> x<-0:12 

> plot(x,dpois(x,3.6),type="h") 
> #Calculamos P(X>2)=1-P(X≤2)

 > 1-ppois(2,3.6) 

[1] 0. 6972532

 La central telefónica de una empresa dispone de 5 líneas, siendo 3 las que están

ocupadas de media en hora punta. Se pide: a) ¿Cuál es la probabilidad de que en una

hora punta estén todas las líneas ocupadas? b) ¿Qué número de líneas sería el

adecuado para garantizar que la probabilidad de que todas las líneas estén ocupadas

en la hora punta sea menor del 1%?   

> #Sea la variable aleatoria X="nº de líneas ocupadas en hora punta entre 5 líneas". Como

np=3, entonces 5p=3 y p=3/5=0.6 Por tanto, la v.a. X sigue una distribución B(5,0.6) 

> #Lo que se pide en el apartado a) es P(X=5) en una B(5,0.6)  

> dbinom(5,5,0.6)

 [1] 0.07776  
> #En el apartado b) se trata de determinar el valor de n tal que P(X=n)<=0.01 para una

distribución B(n,3/n). Lo resolvemos por tanteo. 

> dbinom(6,6,3/6) 

[1] 0.015625  

> dbinom(7,7,3/7)

[1] 0.002655599

> #La solución es n=7 líneas 

DISTRIBUCIONES DE PROBABILIDAD CONTINUAS

En R es posible calcular probabilidades para las principales variables aleatorias continuas.

Los nombres reservados a las distribuciones continuas más importantes son:  

 Normal: norm 

 χ 2 : chisq 

 t de Student: t
Las denominaciones anteriores, igual que para las distribuciones discretas, no son

sentencias de R que produzcan una salida válida. Es necesario anteponerles los prefijos

“d” para la función de densidad, “p” para la función de distribución acumulada, “r” para

generar valores aleatorios y “q” para la función cuantil (inversa de la función de

distribución).  

Por ejemplo, si queremos conocer la ordenada de la función de densidad de una variable

aleatoria N(-2,4) en una determinada abscisa, valor que por otro lado no tiene ninguna

utilidad práctica desde el punto de vista de las probabilidades, haremos: 

> dnorm(3,-2,4)

[1] 0.04566227 

Este resultado lo podemos obtener así mismo mediante la función de densidad de la variable

aleatoria normal:  

> exp(-(1/2)*((3+2)/4)^2)/(4*sqrt(2*pi)) 

[1] 0.04566227

La probabilidad acumulada hasta el valor 3 en la distribución anterior es

> pnorm(3,-2,4)

 [1] 0.8943502

Para calcular la probabilidad de obtener un valor entre 3 y 5 hacemos 

> pnorm(5,-2,4)- pnorm(3,-2,4)

 [1] 0.06559062  
 FUNCIÓN DE DISTRIBUCIÓN

La teoría de la probabilidad y la variable aleatoria van a permitir establecer un amplio catálogo de

modelos teóricos, tanto discretos como continuos, a los cuales se van a poder asimilar muchas de

las situaciones de la vida real. El estudio de los modelos teóricos, incluyendo la caracterización a

través de sus parámetros, el cálculo de probabilidades en sus distintos formatos y la generación de

números aleatorios, van a facilitar enormemente el análisis de estas situaciones reales.[ CITATION

Arr08 \l 3082 ].

Vamos a dibujar ahora la función de distribución de la variable aleatoria normal del ejemplo

anterior:  

> curve(pnorm(x,media,destip),from=0,to=100)  

CÓMO UTILIZAR R COMO ALTERNATIVA A LAS TABLAS ESTADÍSTICAS 


Como podemos deducir de lo visto en este capítulo y en el precedente, el programa R

encierra en sí mismo unas completas tablas estadísticas que, además, resultan de muy

fácil manejo. 

En los gráficos siguientes se recuerda el significado geométrico que tienen la función de

distribución (pnombredeladistribución) y la función cuantil (qnombredeladistribución):  

La forma en que el programa R puede ser utilizado como alternativa a las tablas estadísticas

clásicas se resume en el siguiente cuadro (solo se indican los escenarios de uso más

corriente):  
 EJERCICIOS RESUELTOS 

 Calcular: 

1º) P(X<3) si X --> N(2,4). 

> pnorm(3,2,4)

 [1] 0.5987063  

2º) P(X>5) si X --> χ 2 (8). 

> 1-pchisq(5,8) 

[1] 0.7575761  

3º) F3,5;0.05.

> qf(0.95,3,5)

 [1] 5.409451 

 4º) t5;0.01.

> qt(0.01,5,lower.tail=F)

 [1] 3.36493 
● Dibujar, superpuestas en un mismo gráfico, las funciones de densidad de las siguientes

variables aleatorias normales: N(3,0.75), N(0,1), N(-2,1), y N(-2,2).  

> curve(dnorm(x,3,0.75),from=-6,to=6) 

> curve(dnorm(x,0,1),add=T)

 > curve(dnorm(x,-2,1),add=T) 

> curve(dnorm(x,-2,2),add=T) 

> #Ahora vamos a obtener las coordenadas de 4 puntos elegidos en el gráfico donde

posteriormente situaremos los rótulos de las curvas. Para ello, una vez ejecutada la

sentencia siguiente, nos colocamos con el ratón sobre los puntos elegidos y pulsamos el

botón izquierdo 

> a<-locator(n=4) 

$x 

[1] -4.4329751 -1.6721848 0.4601328 4.7023227  


$y  

[1] 0.1241017 0.4210175 0.4199178 0.5045938

> #Colocamos los cuatro rótulos sobre el gráfico en los puntos cuyas coordenadas (x,y)

acabamos de obtener 

>text(a$x[1],a$y[1],"N(-2,2)") 

>text(a$x[2],a$y[2],"N(-2,1)")  

>text(a$x[3],a$y[3],"N(0,1)")  

>text(a$x[4],a$y[4],"N(3,0.75)")  

● Dibujar, superpuestas en un mismo gráfico, las funciones de densidad de las siguientes

variables aleatorias: χ 2 (3), χ 2 (10) y χ 2 (30). 

> curve(dchisq(x,3),from=0,to=80) 
> curve(dchisq(x,10),add=T) 

> curve(dchisq(x,30),add=T) 

> a<-locator(n=3) 

> text(a$x[1],a$y[1],"Ji-cuadrado(3)") 

> text(a$x[2],a$y[2],"Ji-cuadrado(10)") 

> text(a$x[3],a$y[3],"Ji-cuadrado(30)") 
INFERENCIA

Utilizar la estadística inferencial para generar conclusiones globales para la población

de estudio resulta enormemente útil debido a que en la mayoría de las investigaciones es

imposible o muy costoso estudiar todos y cada uno de los individuos de la población.

PRUEBA DE HIPÓTESIS

Las pruebas de hipótesis nos permiten investigar la veracidad o falsedad de una

afirmación acerca de una característica de una población o un conjunto de poblaciones.

Las hipótesis han de especificarse antes de realizar el contraste según la pregunta que se

quiera responder.

ERRORES

Existen dos tipos de errores que podemos cometer al decidir en una prueba de contraste:

 Error tipo I o α: rechazar Ho cuando es cierta

 Error tipo I o β: aceptar Ho cuando es falsa.

TIPOS DE PRUEBAS

 Pruebas paramétricas:

Pruebas para una media: están acá la prueba Z (N>30) y la t de Student.


Prueba para dos medias: están las muestras independientes y las relacionadas.

 Pruebas no paramétricas.

 Pruebas paramétricas robustas.

1. Prueba paramétrica

1.1.

1.2. Prueba para la varianza

De acuerdo con Gallego [CITATION Gal03 \n \t \l 10250 ] a la prueba de varianza “se le

considera como una forma de comprobar si dos o más medias muestrales pueden

haberse obtenido de poblaciones con la misma media paramétrica respecto de una

variable dada” [CITATION Gal03 \p 67 \n \y \t \l 10250 ] , es decir , que este método

estadístico determinará si diversos conjuntos muestras aleatorias de una determinada

variable proceden o no de la misma población.

Aplicación en R

Para aplicar esta prueba en R es necesario tener en cuenta el código para hallar la

varianza con una media poblacional desconocida y conocida.

Desconocida:

Pchisq(var(y)*(length(y)-1)/sigma0,length(y)-1,lower.tail=var(y)<sigma0)*2

Conocida:

Pchisq ( ∑ ( x−num ) ¿¿ 1/sigma 0)∗2¿

Ejemplo1:
Una empresa de llenado de botellas desea comprobar si su maquinaria rellena las

botellas de manera uniforme. Se considera que la máquina está averiada cuando la

varianza de la cantidad de líquido que dispensa por botella es mayor a 200 ml para un

nivel de significación del 1%. Para evaluar una máquina se toma una muestra de 40

botellas rellenadas y se obtiene una media de 331.2 ml y una desviación estándar de

16.3 ml. Se quiere averiguar si la máquina está averiada.

Planteo de hipótesis:

Ho: ơ=16.3

H1: ơ≠ 16.3

Código:

Fuente: Elaboración propia

Resultado:
Fuente: Elaboración propia

Análisis:

- No se pudo rechazar la hipótesis nula (p=0.165).

- Con un nivel de confianza del 95%, se puede afirmar que la verdadera varianza

está comprendida en el intervalo [178.2846, 438.0.556].

1.3. Prueba para dos varianzas o más varianzas

Existen varias maneras de comprobar la homogeneidad de varianza. Se encuentra la

prueba F, la prueba Bartlett, la prueba Levene., entre otras.

Prueba de F: Sirve únicamente para comparar las varianzas de dos muestras que

provienen de poblaciones normales.


Prueba de Bartlett: Es la mejor opción cuando los datos tienen una distribución

normal. Es sensible a las desviaciones respecto a la normalidad, ya que suele dar falsos

positivos.

Prueba de Levene: Es más robusta frente a las desviaciones leves de normalidad

respecto a la prueba de Barlett.

Figura 1: Prueba para dos o más varianzas

1.3.1. Prueba de comparación para dos varianzas

Ejemplo:

Evaluar si la varianza en el ancho del sépalo es similar en las especies Versicolor y

Virginica para un nivel de significación del 5%.

Planteamiento de hipótesis:

Ho: σ 2ver≤ σ 2vir ; similar variabilidad en el ancho de sépalo.

H1: σ 2ver > σ 2vir ; Versicolor presenta mayor variabilidad en el ancho de sépalo.

Código:

Fuente: Elaboración propia


Resultado:

Fuente: Elaboración propia

Gráfica.

Fuente: Elaboración propia

Análisis:
A través de la gráfica se puede observar que la variabilidad del ancho de sépalo en

versicolor y en viginica parecen similares, por ello, para comprobar la varianza de los

dos datos, se realizará la prueba Bartlett.

Se obtiene un p-valor mayor al nivel de significancia, por lo que no se rechaza la

hipótesis Ho.

1.3.2. Prueba de comparación para más de 2 varianzas

Ejemplo:

Analizar los datos del rencuentro de insectos en unidades experimentales agrícolas

tratadas con diferentes insecticidas.

Tener en cuenta que:

1. Los datos que tiene 1 variable independiente.

2. Los datos que tienen 2 variables independientes

Código:

Fuente: Elaboración propia

Resultado:
Fuente: Elaboración propia

Gráfica:

Fuente: Elaboración propia


Análisis:

No existe suficiente evidencia para rechazar Ho. Por lo tanto, se asume que la varianza

es similar entre los grupos de dosis y método de suministro.

Para realizar la prueba de Bartlett con dos factores se necesitó especificar la interacción

mediante la función para que calcule adecuadamente los grados de libertad y el p-valor.

2. Pruebas no paramétricas

Respecto a lo leído en el Análisis no paramétrico, Molinero (2003) se puede decir que

las pruebas no paramétricas son aquellas que no presuponen una distribución de

probabilidad para los datos, además la mayor parte de sus resultados estadísticos se

derivan solamente de los procedimientos de ordenación y de los de recuento.[CITATION

Mol03 \p 1 \n \y \t \l 10250 ]

2.1. Pruebas de bondad de ajuste de chi cuadrado

La prueba de chi cuadrado para una muestra permite averiguar si la distribución de una

variable se ajusta o no a una determinada distribución. Esta hipótesis de bondad de

ajuste es diseñada para comparar frecuencias obtenidas en una muestra concreta con las

frecuencias que deberíamos encontrar si la variable realmente siguiera la distribución

teórica, propuesta en la hipótesis nula.

Ejemplo:

Analizar si las muertes si las muertes en el ejército prusiano debido a las patadas de

caballos o mulas en 200 cuerpos de caballería se producen por puro azar en los distintos

grupos cuyo caso deberían seguir una distribución Poisson.


Ho: Las muertes siguen una distribución de Poisson.

H1: Las muertes no siguen una distribución de Poisson.

Código:

Fuente: Elaboración propia

Resultados:

Fuente: Elaboración propia

Gráfica:
Fuente: Elaboración propia

Análisis:

Se observa en la gráfica que las dos últimas frecuencias esperadas son inferiores a 5, por

lo que la prueba Chi cuadrado puede ser erróneo.

Como p=0.898, se concluye que no existen evidencias en los datos en contra de que este

se ajusten a una distribución de Poisson.

2.2. Prueba de ajuste de Kolmgorov- Smirnov

La prueba Kolmgorov- Smirnov según Molinero (2003) representa lo siguiente:

Esta prueba compara la función de distribución teórica con la observada, y

calcula un valor de discrepancia, representada como D, que corresponde a la

discrepancia máxima en valor absoluto entre la distribución observada y la

distribución teórica, a la vez proporcionando un valor de probabilidad P. Este

valor nos muestra en el caso que verifiquemos un ajuste a la distribución normal,

la probabilidad de obtener una distribución que discrepe con la observada si


verdaderamente se hubiera obtenido una muestra aleatoria, de tamaño n, de una

distribución normal.[CITATION Mol03 \p 2 \n \y \t \l 10250 ].

El valor de la probabilidad P es quien nos identificará si se cumple el ajuste a la

distribución, teniendo en cuenta que si es un valor grande se acepta la hipótesis nula y si

no, se rechaza la hipótesis.

Ejemplo:

Los datos del paquete corresponden a porcentajes de alcanzar la base de 438 jugadores

que realizaron 100 o más bates en el 2002.

Ho: Los porcentajes de los datos del paquete siguen una distribución normal.

H1: Los porcentajes de los datos del paquete no siguen una distribución normal.

Código:

Fuente: Elaboración propia

Resultados:
Fuente: Elaboración propia

Análisis:

Se rechaza la hipótesis Ho, el valor de p es muy pequeño; por lo que se concluye que los

porcentajes de alcanzar la base no siguen una distribución normal.

2.3. Prueba de normalidad de Shapiro-Wilks

Esta prueba es preferible usarla cuanto se contraste el ajuste de datos de una distribución

normal de una muestra pequeña. En este caso, al igual que en el anterior nos confirmará la

hipótesis a través del valor de la probabilidad P.

Ejemplo:

Ho: La variable aleatoria X observada en la población es Normal.

H1: La variable aleatoria X observada en la población no es Normal

Código:
Fuente: Elaboración propia

Resultado:

Se rechaza la hipótesis nula.

PRUEBA DE HOMOGENEIDAD

Se evalúa la existencia de homogeneidad entre distintas poblaciones.


Prueba de mejora de muestras cualitativas: Se utilizan principalmente cuando los datos

numéricos no cumplen con los supuestos de normalidad.

La hipótesis a contrastar de manera genérica son:

   Ho: la variable X se distribuye homogéneamente en la variable Y

   H1: la variable X no se distribuye homogéneamente en la variable Y

En este apartado entenderemos las siguientes técnicas:

1. Comparación entre 2 grupos:

Prueba de U de Mann Whitney (dos grupos independientes)

Prueba de Wilcoxon para  muestras relacionadas (dos grupos

relacionados)

2. Comparación entre más de 2 grupos

Prueba de Kruskal - Wallis (dos o más  grupos independientes)

Prueba de Friedman (dos o más  grupos relacionados)

 Prueba de U de Mann Whitney

Compara 2 muestras independientes para determinar si provienen o no de poblaciones

distintas. Es la prueba no paramétrica alternativa al t-test para muestras independientes,

pero se compara medianas no medias. Es útil para casos donde no cumple la normalidad

de los datos pero requiere de homogeneidad de varianzas.

Ejemplo - aplicado en R:
Utilizaremos datos de la revista MOTOR TREND US que refleja el consumo de

combustible y 10 aspectos de diseño de Automóviles y rendimiento, para 32

automóviles (modelos de los años 1973 – 1974). Queremos comparar el

consumo de gasolina según el tipo de transmisión del coche, cómo son los datos

(32) no asumiremos anormalidad de los mismos y utilizaremos pruebas no

paramétricas.

Solución:

Las hipótesis a plantear son:

Ho: Los datos de consumo de gasolina para las transmisiones automáticas y

manuales provienen de población idénticas.

H1: negación de Ho

Código en R

Resultado
Gráfica
Como el valor de p- valor (0,001871) que nos arroja el programa es menor que el 5%,

rechazamos la hipótesis nula y el gráfico nos indica que los coches con trasmisión

manual consumen más gasolina.

Prueba de Wilcoxon para  muestras relacionadas

Compara las medianas de 2 muestras relacionadas para determinar si existen o no

diferencias entre ellas. Es la versión no paramétricas de t- test para muestras

dependientes, pero compara medianas en lugar de medias.

Ejemplo - aplicado en R:

Utilizaremos los datos de Hollander & Wolfe (1973) sobre la escala de

depresión Hamilton medida en 9 pacientes con ansiedad y depresión, tomadas en

una primera (x) y segunda (y) visita luego de iniciar la terapia con la

administración de un tranquilizante.

Ho : µantes ≤ µdesp ú es

H1 : µantes > µdesp ú es

Primero, como las muestras son pequeñas es de esperar que no sea normal. Sin embargo,

podemos comprobarlo.
Como no cumple con la normalidad, tiene sentido aplicar pruebas no paramétricas.

Segundo, como son muestras relacionadas no tengo que hacer contraste de varianza (son los

mismos sujetos, tienen varianzas iguales).

Tercero, realizamos la comparación de medias no paramétricas:

Resultado:

α (0,05) < p (0,7139) distribución normal

α (0,05) > p (0,03439) distribución anormal


Como mi α (0,05) > p (0,01953) entonces rechazo Ho, es decir, el tranquilizante es

efectivo.

Prueba de Kruskal - Wallis

Es un método no paramétrico para probar si un grupo de datos proviene de la misma

población. Intuitivamente, es idéntico al ANOVA con los datos reemplazados por

categorías. Es una extensión de la prueba de la U de Mann-Whitney para 3 o más

grupos. Ya que es una prueba no paramétrica, la prueba de Kruskal-Wallis no asume

normalidad en los datos, en oposición al tradicional ANOVA. Sí asume, bajo la

hipótesis nula, que los datos vienen de la misma distribución. Una forma común en que

se viola este supuesto es con datos heterocedásticos. 

Ho: todas las muestras tienen la misma distribución 

H1: no todas las muestras tienen la misma distribución (al menos hay diferencias de dos

muestras).

Ejemplo - aplicado en R:

La cañota es una mala hierba como en campos de maíz. Un agrónomo sembró la misma

proporción de maíz en 16 parcelas experimentales. A continuación distribuyó las

parcelas a lazar en 4 grupos. Luego eliminó las malas hierbas a mano de manera que se

dejó un determinado número de cañotas por metro lineal de maíz sembrado. Eliminó

todas las restantes malas hierbas. Dejó 0, 1, 3 y 9 cañotas por metro lineal,

respectivamente en cada uno de los grupos. Excepto en cuanto al número de malas

hierbas, todas las parcelas se trataron de la misma manera. He aquí los rendimientos

(toneladas por hectárea) de cada una de las parcelas:


HIERBAS RENDIMIENTO
0 11,17 11,54 11,06 11,85
1 11,14 10,54 11,17 10,79
3 10,63 11,82 10,26 10,45
9 10,9 9,5 10,8 10,6

Compruebe sí existe una diferencia en el rendimiento del maíz.

Solución:

Las hipótesis a plantear son:

Ho: Mediana 0 = Mediana 1 = Mediana 3 = Mediana 9.

H1: Existe por lo menos una mediana diferente.

α : 0,05

Como mi α (0,05) < p (0,1204) entonces no rechazo Ho, es decir, existe evidencia

estadística de que los rendimientos del maíz son iguales.

Prueba de Friedman
Es una prueba no paramétrica desarrollado por el economista Milton Friedman. Equivalente a

la prueba ANOVA para medidas repetidas en la versión no paramétrica, el método consiste en

ordenar los datos por filas o bloques, reemplazándolos por su respectivo orden. Al ordenarlos,

debemos considerar la existencia de datos idénticos.

Ejemplo - aplicado en R:

Se realiza un experimento para investigar el efecto tóxicos velas de las 3 sustancias químicas,

A, B, y C en la piel de ratas. Tres cuadros adyacentes de ½ pulgada se marcan en los lomos de 8

ratas y cada una de las 3 sustancias se aplica a cada rato. Los cuadros de piel de cada rata se

clasifican de acuerdo con la severidad de la irritación (1= menos severa, 3 = severidad

máxima). Los datos resultantes se dan en la siguiente tabla. ¿Hay suficiente evidencia apoyar la

hipótesis en investigación de que las distribuciones de probabilidad de las calificaciones de

irritación de la piel, correspondientes a las 3 sustancias químicas difieren en localización? Use

α=0,10.

RATA A B C
1 3 2 1
2 3 2 1
3 2 3 1
4 1 3 2
5 1 2 3
6 1 3 2
7 2 3 1
8 3 1 3

Solución:

Las hipótesis a plantear son:

Ho: Datos normales.

H1: Datos no son normales.


Resultado:

Rechace Ho
Los datos no son normales.
Las hipótesis a plantear son:

• Ho: Existe evidencia estadística de que la irritación en los animales es igual con

todos los agentes químicos.

• H1: Existe evidencia estadística de que la irritación en los animales no es igual

con todos los agentes químicos.

Como mi α (0,05) < p (0,3679) entonces no rechazo Ho, es decir, existe evidencia

estadística de que la irritación en los animales no es igual con todos los agentes

químicos.
Regresión y correlación

Correlación

El análisis de correlación  nos permite cuantificar el grado de relación o asociación entre

dos o más variables continuas(paramétrico) u ordinales(no paramétricos), indica la

fuerza y dirección de la relación. Cuando exista relación tendría sentido proceder a la

obtención del modelo de regresión(simple o múltiple) .

Existen diferentes tipos de correlación, la correlación simple, correlación múltiple y la

correlación parcial.Usaremos la correlación simple cuando nuestros objetivo sea

relacionar dos variables, y los coeficientes de correlación parcial y múltiple cuando

tengamos más de dos variables.

Para analizar la correlación entre las variables podemos utilizar técnicas

paramétricas( correlación lineal de Pearson) o no paramétricas(Correlación de

Spearman), según las variables sigan a no una distribución aproximadamente normal,

respectivamente.  

Correlación simple

Coeficiente de correlación lineal de Pearson r

Para medir el grado de variación conjunta de dos variables continuas utilizando la

covarianza. Si una variable aumenta o disminuye conforme la otra aumenta o

disminuye, entonces las dos variables covarían. Si una variable no cambia con el
aumento o disminución de la otra entonces la variables no covarían. Sin embargo si las

covarianzas tienen dos inconvenientes:  1) Su rango de valores va de -infinito al

+infinito y 2) Su magnitud absoluta depende de las unidades de las variables. Si

estandarizamos la covarianza dividiendo por la desviación estándar de ambas variables

logramos que el rango se ajuste a -1 y +1, y obtendremos el coeficiente de correlación

lineal de Pearson.

El coeficiente de correlación lineal de pearson mide el tipo y fuerza de relación lineal

entre dos variables toma valores en el intervalo de [1 , -1] donde un valor negativo

indica relación inversa o negativa, un valor positivo indica relación directa o positiva, y

un valor nulo indica que no existe relación entre ambas variables o que dicha relación

no es lineal. Cuándo más cercano sea el valor a los extremos del intervalo más fuerte es

la relación lineal entre las variables y cuando más cercano sea a 0 más débil será.

Aplicación en R   

En R utilizaremos las siguientes funciones:

Calculan la covarianza (cov) y correlación (cor) de x e y, donde pueden ser vectores o

matrices. La función cor.test realiza además la prueba de hipótesis sobre la correlación.

En todas ellas podemos especificar como considerar los datos permitidos mediante la

opción nar.rm :

use=”everything” la variable con valores perdidos se trata como “missing”. Es la opción

por defecto.
use=”all,obs” asume que no existen valores ausentes. Cuando sí existen valores

perdidos produce un mensaje de error.

use=”complete,obs” solo se utilizan los casos que están completos para todas las

variables.

use=”pairwise.complete.obs” solo se utilizan los casos que están completos para todas

las variables.

También podemos decir que tipo de correlación queremos utilizar: pearson o kendall.

Ejemplo:

Utilizaremos el conjunto de datos(Brownlee, 1965) que corresponde a datos de una

fábrica de oxidación de amonio(NH3) a ácido nítrico (HNO3). son 21 observaciones de

4 variables.

-Flujo de aire(representa la tasa de operaciones en la fábrica; Air Flow)

-Temperatura del agua,(Water Temp)

-Concentración de ácido (por 1000 menos 500, es decir, un valor de 89 correspondencia

a 58.9%; Acid Conc) 

-Perdida de ácido a través de la pila(es una medida-inversa- de la eficiencia de la plata;

stack.loss).

Comenzamos activando los datos y realizando un  diagrama de dispersión para

visualizar la relación entre Water.Temp y Air.Flow.


Parece que las variables aumentan de manera conjunta, aunque algunos datos se

escapan del comportamiento general, volveremos a analizar estos datos en el siguiente

apartado de métodos robustos.

La manera más sencilla de expresar esta relación es mediante el coeficiente de

correlación. Podemos calcular la correlación y la covarianza entre las variables

Water.Temp y Air.Flow.
Obtenemos una correlación positiva y alta (r = 0.782).

Realizamos el contraste de hipótesis para el coeficiente de correlación: Ho : p = O (no

existe relación) Hl : p 0. (sí existe relación)

A un nivel de confianza del 95% podemos afirmar que existe una relación lineal

significativa entre ambas variables (t(19)=5.4663, df = 19, p<0.001, r=0.782). El

intervalo de confianza para r es [0.53, 0.91].

Correlación no paramétrica

Existen casos donde la distribución conjunta de las dos variables no es normal

bivariada (es decir, cuando alguna de las variables o ambas no son normales), o

donde las transformaciones no nos son útiles (e.g. por interpretación). Para analizar

relaciones monotónicas (no necesariamente lineales) entre variables, sin asumir

normalidad bivariada, podemos utilizar el coeficiente de correlación de rangos de


Spearman r, o el coeficiente de correlación de Kendall T.

Pruebas de hipótesis para , o  t

La hipótesis nula a contrastar es que no existe una relación monotónica entre las

variables X e Y.

Ambos son análisis de correlación no paramétricos, pero solo detectan relaciones

monotónicas, es decir, no detectan todos los tipos de asociaciones no lineales.

Aplicamos en R

Volveremos a utilizar las siguientes funciones, ahora para la correlación no

paramétrica: Podemos especificar el método de Spearman o el de Kendall con el

argumento method. 

Ejemplo:
La correlación parcial de Spearman y la de Kendall ahora es significativa para las

relaciones Water.Temp Air.Flow y Acid.Conc.-Air.Flow, manteniendo constante la

variable restante.

Regresión lineal

En muchas oportunidades al investigador le interesa saber cómo afecta el

comportamiento de un conjunto de variables a otra, no solo desde el punto de la

influencia o grado de asociación, sino también para describir la posible relación

funcional entre las mismas. En estos casos, debemos ajustar modelos estadísticos

a los datos.

La regresión lineal nos permite modelar el valor de una variable según una o más
variables, a través de una función lineal monotónica. Es decir, asume que un

cambio en la variable independiente (VI) resultará en un cambio en la variable

dependiente (VD), y la cantidad del cambio en VD es constante para todo el rango

de la VI. Por ejemplo, imaginemos que estamos interesados en la relación entre el

la potencia de un coche (VI) y su consumo de gasolina (VD). Si ajustamos un

modelo de regresión lineal estamos diciendo que un cambio en una unidad de

potencia del coche tendrá el mismo efecto en

el consumo de gasolina sea cual sea su valor de origen (lo mismo es un aumento

de potencia de 100-101 que de 300-301).

Nuestros objetivos serán:

1. Describir la relación lineal entre dos o más variables.

2. Determinar qué cantidad de la variación en la respuesta puede ser

explicada por su relación lineal con cada predictor.

3. Predecir nuevos valores de la respuesta a partir de nuevos valores de los

predictores.

Ajuste global del modelo(ANOVA)

El análisis de varianza (ANOVA) nos permite realizar la partición de varianza de

tal manera de que podamos conocer qué parte de la variabilidad de la respuesta es

explicada por su relación con las variables predictoras y qué parte no es explicada

por dicha relación (residual). Esto permitirá contrastar si el modelo es significativo

o no.
Parámetros del modelo

Obtendremos las estimaciones de los parámetros ,3 del modelo. Realizaremos

contrastes de hipótesis sobre cada parámetro de la función de regresión lineal. La

hipótesis nula a contrastar es )3i = O, es decir, vamos a comprobar si el intercepto

es significtivo o significativamente distinto de cero ()30 = O) y si los demás Ni

también los son.

Estas hipótesis se evaluarán mediante la prueba t de Student en cada parámetro.

Bondad de ajuste R2

Una medida de la eficacia del modelo de regresión es el coeficiente de

determinación R2 que toma valores en el intervalo [0, 1]. La interpretación usual del

estadístico es que mide el porcentaje de variabilidad en los datos que viene

explicada por el modelo, por lo que un valor cercano a 1 significa que el modelo es

bastante efectivo.

Al agregar más variables al modelo el R2 aumenta, por lo cual en modelos de

regresión múltiple se aconseja utilizar el R2 ajustado, que ajusta su valor para dar

cuenta del número

de variables incluidas en el modelo.

Diagnóstico del modelo

Queremos evaluar qué tan bien se ajusta el modelo a los datos observados. Para ello

analizaremos: 1) si la recta es el modelo adecuado o existe no linealidad, y 2) si

existen observaciones que puedan ser outliers que tengan una influencia indeseada

en la estimación de los parámetors y en el ajuste del modelo.

El diagnóstico del modelo nos permitirá también probar los supuestos de


normalidad, homogeneidad de varianza e independencia

1.      Leverage.

Es una medida de qué tan extremos es una observación para la variable X. Mide

cuánto xi influye sobre yiSe simboliza con hi debido a que vienen de una matriz

llamada hat, y toman valores en el rango [1/n, 1]. Un criterio útil es considerar que

los valores de leverage mayores que 2 * (p/n) con p el número de parámetros en el

modelo (p = 2 en el modelo de regresión lineal simple).

2.      Residuos.

Los residuos (ordinarios) son la diferencia entre la predicción del modelo y la

observación. Para el diagnóstico, sin embargo, utilizaremos:

-   los residuos estandarizados (residuos tipificados, es decir, se los transforma de

tal manera que tengan media cero y varianza próxima a 1, para distinguir a los

residuos grandes) y

-   los residuos estudentizados (se calculan del mismo modo que lo estandarizados

pero calculando la varianza residual a partir de toda la muestra excepto el residuo

de la observación objeto de estudio, para tener varianza constante).

Podemos encontrar los distintos patrones en los residuales:

- Si los mayores valores de Yi se asocian con los residuales de mayor valor, puede

ser un indicativo de que la distribución de los valores de Y para cada xi presenta

una asimetría positiva. Esto se asocia con el incumplimiento del supuesto de

normalidad.
- Si el patrón es en forma de cuña (mayor dispersión para mayores valores de xi o

Yi), indica que aumenta la varianza en el y en yi al aumentar xi. Esto se asocia con

el incumplimiento

del supuesto de homogeneidad de varianza y también con el de normalidad en los

valores de Y. Aquí podemos aplicar transformaciones.

-   Si el patrón de residuales es curvo, podría ser un indicativo de no linealidad o de

la presencia de outliers.

- Si el patrón de los residuales es en líneas paralelas, podría indicar que existe un

número de observaciones con valores similares para una de las variables (ej. ceros).

- Si no existe un patrón en los residuales indicaría que no se está incumpliendo los

supuestos del modelo de regresión lienal.

3. Distancia de Cook.

Es una medida de la influencia de cada observación en el modelo de regresión

lineal y los

parámetros estimados. Se simboliza con la letra Di y se calcula considerando tanto

el valor de leverage como los residuales de cada observación. Los valores altos

(mayores que 1) de Di indican una alta influencia.

También podemos utilizar la medida DFITSi que mide la influencia de cada

observación yi en su valor predicho por el modelo]


El procedimiento a seguir es el siguiente.

1. Analizar la correcta especificación del modelo: realizar un gráfico de los

residuos vs. los regresores y valores predichos. Si el modelo es razonable

esperamos que los residuos sigan un patrón aleatorio. Si el patrón no es

aleatorio podemos corregir este problema agregando términos apropiados o

transformando las variables.

2. Analizar los outliers: realizar un gráfico de los residuos

estudentizados y mirar si 'residuos estudentizadosl> 3.

::  datos atípicos u outliers, son puntos donde la respuesta observada no

sigue el patrón establecido por el resto de los datos. Es decir, son valores

extremos en términos de la variable Y. Una observación con residuo

grande se denominan outliers, normalmente se considera que una

observación es un dato atípico si tiene un residuo estandarizado mayor que

2 o 3, según el autor.

:: puntos de Leverage, son puntos que están distantes del resto de los

puntos en términos de los regresores. Es decir, son valores extremos en

términos de al variable X.

influential points, combinan los conceptos de puntos de leverage y

outliers. Son valores extremos en un sentido combinado de X e Y.


3. Analizar la normalidad de los residuos.

Dado un valor xi, podemos estimar el intervalo de confianza de las predicciones para el

valor esperado (respuesta promedio) o para un valor individual (nueva respuesta) de la

variable dependiente Y asociado a un valor dado de la variable independiente X.

Regresión lineal

El modelo de regresión lineal simple es: y =0+1*x1+iEi, donde yi es el valor de la

variable Y para la observación i (i = 1,...,n), cuando la variable X = xi; el parámetro0 

corresponde al intercepto (el valor medio de la distribución de probabilidad de Y

cuando xi = O), el parámetro )31 es la pendiente (mide el cambio en Y por unidad de

cambio en X); y el es el error aleatorio o no explicado que se asocia con la observación

i.

Estimaciones para los parámetros del modelo

Necesitamos estimar los parámetros ,β 0 β 1 o2€ (la varianza residual), para determinar la

recta de regresión muestral: yi = b0 +b1* xi, donde Yi es el valor predicho por la recta de

regresión para cada xi, b0 y b1 son las estimaciones muestrales de /30 y )31,

respectivamente. Para realizar estas estimaciones utilizaremos técnicas de mínimos

cuadrados OLS, es decir, los valores estimados serán aquellos que minimicen la suma

de desviaciones cuadradas (SS) entre los valores observados y los valores predichos por

el modelo.
NOTA: el modelo de regresión lineal para variables estandarizadas no

incluye intercepto debido a que la estimación OLS será cero.

Pendiente.

El valor de la pendiente depende de las unidades de X e Y. Por lo tanto, si

queremos comparar las pendientes de distintos conjuntos de datos, podemos

calcular su versión estandarizada b'í = b1 * sx/sy, cuyas unidades son independientes

de X e Y.

Intercepto.

Hay que tener cuidado con su interpretación. Debido al rango de nuestras

observaciones raramente incluye el cero, no deberíamos extrapolar un valor fuera del

rango de observaciones. También debemos pensar si teóricamente tiene sentido que la

recta pase por el origen.

Ejemplo

Volvemos a utilizar los datos del paquete . Primero observamos los datos y

graficamos
En el gráfico de dispersión vemos que algunos puntos escapan del comportamiento

general. Vamos a ajustar una recta por mínimos cuadrados (LS) mediante la

función .
El objeto "fitLS" contiene los resultados del análisis, que observamos con la orden

"summary".

Ajuste global del modelo

Los resultados también nos indican que el modelo es significativo (F(1,22)=9.247,

p=0.006 -ANOVA-), predice el número de llamadas bastante bien o, lo que es lo

mismo, podemos concluir que nuestro modelo resulta en mejores predicciones del

número de llamadas respecto al modelo nulo (i.e. si utilizáramos tan solo la media

de los años como predictor). Sin embargo, el modelo explica tan solo el 29.6% de

la variabilidad de la respuesta (R2). Esto quiere decir que el 70.4% de la variación

en el número de llamadas no puede ser explicado con la información del año

solamente. Por lo tanto, deben existir otras variables que también influyan.

Parámetros del modelo

El ANOVA nos dice que el modelo en general es bueno, sin embargo, no nos dice

nada acerca de la contribución de cada variable o término en el modelo. En los

resultados podemos observar el apartado de "coefficients" que contiene los

parámetros del modelo (los valores )3) y su significación.


Los valores de los parámetros son los siguientes: - b0 = —260.059, lo que

significaría que para el año 1900 (x = 0) el número de llamadas sería y = —

260.059. En este ejemplo esto no tiene sentido y por tanto podríamos plantearnos

un modelo sin intercepto (utilizaríamos y x — 1).

- bl = 5.041 en este caso representa la pendiente del modelo, el cambio en la respuesta

asociado a cada unidad de cambio en el predictor. En este caso por cada año nuestro

modelo predice que habrá 5.041 llamadas extra.

Si nuestros términos tienen un impacto significativo en el resultado, entonces cada b

debe ser diferente de 0. Contrastamos estas hipótesis mediante pruebas t.

Los niveles de probabilidad (p-valor) de la última columna de la tabla

corresponden a las pruebas de hipótesis para los coeficientes del modelo (H0 :

32 = 0). Podemos observar que tanto el intercepto (t(22)=-2.535, p=0.0189)

como la pendiente (t(22)=3.041, p=0.006) son significativos.

Diagnóstico del modelo

Los siguientes gráficos nos permitirán realizar el diagnóstico del modelo a través de los

residuos.

NOTA: los residuos se obtienen con la función "resid", los residuos

estandarizados con la función "rstandard" y los residuos estudentizados

con la función "rstudent". Las distancias de

Cook se obtienen con la función "cook.distance", los DFBeta con

"dfbeta", los DFFit con "dffits" y los valores hat (leverage) con

"hatvalues".
CONCLUCIONES
 R es un lenguaje de alto nivel y un ambiente para el análisis de datos y graficacion,

creado por Ihaka y Robert Gentleman.

 Su diseño sigue sintaxis de S pero el manejo de memoria y la manera de evaluar lo

hace mas eficiente como Scheme.

 En el desarrollo actual de R colaboran investigadores de primer nivel estadístico y

en computación.

 Entre otras razones por las que aprender R se anuncia:

1. Es de excelente calidad

2. Es libre y de código abierto

3. Es un proyecto de colaboración por lo que hay mucho material de apoyo y

ayuda

4. El sistema le ofrece una facilidad para que usted realice procedimientos y

que si así lo considera contribuya con el acervo de R.

5. Ofrece mayor cantidad de ventajas que desventajas.

6. R se enriquece con la colaboración de personas, literalmente, de todo el

mundo.
RECOMENDACIONES
 Para iniciar en R lo primero que se tiene que aprender son las sintaxis y cada uno

las ventanas que proporciona el software ya que de este modo comenzar a

programar se tornara más asequible.

 Tener el domino del inglés también es favorable para aprender R ya que el

programa aporta sugerencias cuando encuentra coincidencias en la escritura del

código, pero solo se presenta en este idioma ingles

 Aprender R como una herramienta que incrementara nuestro conocimiento ya

que a diferencia de los otros programas R presenta una base de datos reales que

a ido acumulando de todas partes del mundo y que nos pueden servir para

cualquier tipo de investigación ya que es de ingreso libre

Referencias

Arriaza Gómez, A. J., Fernández Palacín, F., López Sánchez, M. A., Muñoz Márquez, M., Pérez

Plaza, S., & Sánchez Navas, A. (2008). Estadística Básica con R Y R- Comander. Cáliz:

Servicio de Publicaciones de la Universidad de Cádiz. Obtenido de

http://cms.dm.uba.ar/academico/materias/1ercuat2019/met_no_param/estadistica_

basica_con_R.pdf

Equipo R core. (16 de Mayo de 2000). Introducción a R. Notas sobre R: Un entorno de

programación para Análisis de Datos y Gráficos. Viena, Austria. Obtenido de

https://cran.r-project.org/doc/contrib/R-intro-1.1.0-espanol.1.pdf

Gallego, R. S. (2003). Introducción al análisis de datos experimentales: tratamiento de datos en

bioensayos. Castellón de la Plana: Universidad Jaume I.


José Antonio Ordaz Sanz, M. d. (2010). Metodos estadísticos y econométricos en la empresa y

para finanzas. Sevilla, España: Sevilla, España : Universidad Pablo de Olavide, 2010.

Obtenido de

https://www.upo.es/export/portal/com/bin/portal/upo/profesores/jaordsan/profesor

/1311101268463_mxtodos_estadxsticos_y_economxtricos_en_la_empresa_y_para_fi

nanzas.pdf

Molinero, L. M. (2003). Análisis no paramétrico. El procedimiento Pruebas no paramétricas.

Obtenido de Alce ingeniería:

https://www.alceingenieria.net/bioestadistica/noparame.pdf

También podría gustarte