R Studio

UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS
(Universidad del Perú, DECANA DE AMÉRICA)
FACULTAD DE INGENIERÍA INDUSTRIAL
ESCUELA PROFESIONAL DE INGENIERÍA TEXTIL
SOFTWARE R
 CURSO: PROGRAMACION
 PROFESOR: ORTIZ JOSE
 INTEGRANTE
 TAMITA HUAYRA NURIA
 FECHA DE ENTREGA: 8 DE SEPTIEMBRE DE 2020
Lima – Perú
2020-I
ÍNDICE
OBJETIVOS...........................................................................................................................4
ESTADÍSTICA DESCRIPTIVA........................................................................................................14
INTRODUCCIÓN.....................................................................................................................14
Las variables.......................................................................................................................14
TABLAS O DISTRIBUCIÓN DE FRECUENCIAS..........................................................................15
GRÁFICOS...............................................................................................................................15
Variables Cualitativas........................................................................................................15
 Diagrama de barras........................................................................................................15
 Diagrama de sectores.....................................................................................................15
Variables Cuantitativas Discretas......................................................................................16
 Diagrama de barras........................................................................................................16
 Diagrama de cajas..........................................................................................................16
Variables Cuantitativas Continuas.....................................................................................16
 Histograma.....................................................................................................................16
 Polígono de frecuencias.................................................................................................16
Diagrama de cajas..............................................................................................................16
Histograma.........................................................................................................................16
ESTADÍSTICOS........................................................................................................................17
Estadísticos de posición no central: cuantiles...................................................................17
Estadísticos de dispersión..................................................................................................17
Estadísticos de forma.........................................................................................................18
INFERENCIA................................................................................................................................33
PRUEBA DE HIPÓTESIS...........................................................................................................34
ERRORES................................................................................................................................34
TIPOS DE PRUEBAS................................................................................................................34
 Pruebas paramétricas:...............................................................................................34
 Pruebas no paramétricas...........................................................................................34
 Pruebas paramétricas robustas.................................................................................34
PRUEBA DE HOMOGENEIDAD......................................................................................48
1. Comparación entre 2 grupos:......................................................................................48
2. Comparación entre más de 2 grupos...........................................................................48
Prueba de U de Mann Whitney.......................................................................................48
Prueba de Wilcoxon para muestras relacionadas.........................................................51
Ho : µ antes ≤ µ desp ú es................................................................................................51
H1 : µ antes > µ desp ú es..............................................................................51
Prueba de Kruskal - Wallis..............................................................................................53
Prueba de Friedman.........................................................................................................54
Regresión y correlación......................................................................................................57
CONCLUCIONES................................................................................................................77
RECOMENDACIONES.......................................................................................................78
Referencias.................................................................................................................................78
OBJETIVOS
 Conocer las herramientas que nos brinda R para el control de calidad.
 Dar un alcance del programa R que están en tendencia para las investigaciones.
 Reforzar el conocimiento adquirido en el curso ejecutando lo aprendido en R.
 Indagar sobre el tema para comprender su funcionamiento y propósito.
 Aplicar estadísticos de control de calidad mediante el lenguaje de programación
R.
 La estadística es un campo de suma importancia en toads las ciencias, olo tanto
apoyarse en un software que sea flexible y adaptable que se puede extender
fácilmente mediante paquetes o librerías o simplemente configurando nuestras
propias funciones.
 Mediante la investigación adquirir conocimientos sobre R.
 Conocer todo lo posible relacionado al lenguaje de programación R para
utilizarlas en nuestras futuras investigaciones académicas como laborales.

INTRODUCCIÓN
¿Cómo inició el lenguaje de programación de R? ¿ Quién lo creó? R fue creado en 1993
por Ihaka y Robert Gentleman del departamento de Estadística de la Universidad de
Auckland, Nueva Zelanda. Su principal intención era realizar un lenguaje didáctico para
ser utilizado en el curso de introducción a la Estadística, con la característica de la
manipulación de datos y creación de gráficos. Para ello adoptaron la sintaxis del
lenguaje S desarrollado por Bell Laboratories.
La sintaxis de R es similar al lenguaje S, diferenciándose en la semántica, donde es
sensiblemente diferente, sobre todo en los detalles más profundos de la programación.
Además, R es un software de código abierto, forma parte del proyecto GNU, lo que
significa que cualquiera puede descargar y modificar su código de manera gratuita. R se
distribuye bajo la licencia GNU GPL (General Public License), esta licencia no tiene
restricciones de uso, solo obliga que la distribución sea siempre GLP. Es decir, si
cambias o redistribuyes el código R, esos cambios deben estar disponibles para todo el
público. Por lo que uno de sus beneficios es que puedes acceder a su código,
modificarlo y mejorarlo. Esto forma parte de un proyecto colaborativo, donde la
comunidad de usuarios, integrado por programadores de alto nivel, contribuyen a
desarrollar nuevas funciones y paquetes que rápidamente son accesibles a todo público,
logrando que R sea estable y confiable.
Este software obtuvo su nombre a modo de broma, ya que era las iniciales de ambos
creadores; sin embargo, fue el nombre con el que quedó marcado para los amantes de
este lenguaje.
Ahora que se conoce la trascendencia de y conceptos generales de R, se puede expresar
que este trabajo quiere mostrar las estadísticas aplicadas en el control de la calidad
mediante el lenguaje de R, donde se tocará la estadística descriptiva, inferencial y de
relación y correlación. Se debe de tener en cuenta que R está disponible para todos los
sistemas operativos como Windows, Macintosh y sistemas Unix, también permite leer
los datos de otros softwares, entre los más conocidos están SPSS, SAS, Stata y Excel, lo
cual facilitará el acceso a este software para quién lo desee aprender.
1. FUNDAMENTOS TEÓRICOS
1.1. Concepto:
R es un lenguaje de programación entorno al análisis estadístico y gráfico. El término
entorno representa a un sistema totalmente planificado y coherente, en lugar de una
acumulación gradual de herramientas muy específicas y poco flexibles. Es importante
diferencia a R de un sistema estadístico. “Nosotros preferimos describirlo como un
entorno en el que se han implementado muchas técnicas estadísticas, tanto clásicas
como modernas. Algunas están incluidas en el entorno base de R y otras se acompañan
en forma de bibliotecas” [CITATION Equ00 \p 2 \l 10250 ].
Esta diferenciación es parte de una cuestión histórica, en vez de ver a R como un
sistema estadístico, es preferible verlo como un ambiente en el que se aplican técnicas
estadísticas.
1.2. Editores de texto
R nos brinda la posibilidad de elegir que editor de texto queremos utilizar junto con R.
Existen varios editores de R disponibles como: RStudio, Tinn-R, Eclipse StatET, Emacs
Speaks Statistics, entre otros.
- Características de los editores de R:

RStudio: Tiene un resaltador de código que indica con diferentes colores las palabras
claves, variables y símbolos, haciendo más sencilla la creación de código en R.
También presenta la posibilidad de completar el código, por lo que no es necesario
recordar todos los comandos. También presentar una pantalla de consulta a la ayuda de
R con buscador propio, nos permite observar el listado de variables y valores que
tenemos en nuestra área de trabajo, los paquetes instalados y los gráficos que se vayan
realizando. Además, permite trabajar con archivos como Shiny, Markdown, Sweave,
etc.
Tinn-R: Está disponible para Windows y es sencillo de manejar, pero presenta menos
presentaciones.
Eclipse StatET: Es útil para trabajar con proyectos largos de desarrollo de software.
Emacs Speaks Statistics: Disponible para Linux y Windowa, y es útil por sus atajos de
teclados.
1.3. Cómo funciona R
R es un lenguaje Orientados a Objetos, lo que significa que las variables, datos,
funciones y resultados se guardan en la memoria activa del computador en forma de
objetos con nombre específico. El usuario puede modificar o manipular este objeto a
través de operadores y funciones.
Ejemplo 1: Al objeto “x”, se le asigna los números 1,2,3.
Fuente:
Elaboración propia
Si se quiere llamar a este objeto se debe aplicar:

Fuente:
Elaboración propia
Su lenguaje está basado en vectores, fila o columna de números o caracteres, lo cual
permite aplicar cálculos a un conjunto de valores a la vez sin necesidad de utilizar una
función bucle.
Ejemplo 2: Al objeto del ejemplo 1 se le suma 3 a cada elemento del vector
Fuente: Elaboración propia
1.4. Sintaxis básica
- El signo “>” indica que el usuario realiza alguna entrada.
- El símbolo “#”, sirve para realizar un comentario que no ejecute R.
- El operador de asignación “<-” o el de igualdad “=” permiten crear objetos en R.
- El nombre de un objeto debe comenzar con una letra (R toma como objetos
diferentes una misma letra en mayúscula y minúscula), y puede incluir dígitos
del 0 al 9 y puntos (.).
- El operador “rm(x1)”, sirve para borrar objetos de la memoria.
- El operador “rm(list=ls())”, sirve para eliminar todos los objetos del área de
trabajo.
- La función “sabe”, nos permite guardar los objetos de un archivo de RData.
- La función “savehistory ()” nos permite guardar le historial de órdenes que se ha
ejecutado en R y la función “loadhistory ()” nos permite recuperar el archivo.

- Para salir de R podemos utilizar el comando “q()” o “q(save = no))”, donde nos
preguntará si queremos guardar el workspace.
1.5. Librerías o paquetes
R consta de un sistema base y un sistema adicional de paquetes que extienden las
funciones del programa. Los paquetes son una colección de funciones programadas
previamente sobre temas específicos.
Las instalaciones de un paquete adicional en R, se realiza por dos opciones:
a. Ir a la ventana que se encuentra debajo a la derecha y darle click en la pestaña de
“Packages”, luego en “Install” y buscar el repositorio CRAN (Comprehensive
RArchive Network) de R el paquete que se desea o primero descargarlo y luego
buscar el archivo comprimido del paquete en el directorio.
b. Usar la función install.packages () desde la consola de R. Si se cuenta con el editor
RStudio y se quiere elegir el servido, se dirige a “Tools” y luego a “Options”, para
seleccionar un paquete.
Finalmente, para cualquiera de los dos procesos de descarga, los paquetes deben ser
activados para volverlos disponibles por el programa; esto se realiza desde la barra de
herramientas con Paquetes, Cargar paquete o desde la consola con la función library.
1.6. Operadores
- R como calculadora:
Ilustración 1Funciones básicas en R Figura 1: Operadores básicos. Obtenido de https://cran.r-

project.org/doc/contrib/rdebuts_es.pdf
2. Funciones básicas en R
Figura 2: Funciones matemáticas básicas. Obtenido de https://cran.r-project.org/doc/contrib/rdebuts_es.pdf
Estas funciones devuelven un solo valor o un vector de longitud 1, a excepción de range () que
retorna un vector de longitud 2, y var(), cov(), y cor() que pueden devolver matrices. Las
siguientes funciones pueden devolver vectores más complejos:
3. Funciones de distribución en R:
Figura n: Funciones de distribución. Obtenido de https://cran.r-project.org/doc/contrib/R-intro-1.1.0-
espanol.1.pdf
-Funciones de gráficas
ESTADÍSTICA DESCRIPTIVA
INTRODUCCIÓN
El análisis de datos exploratorio es lo primero que se hace para realizar un análisis
estadístico, esto nos deja tener una idea primera de nuestros datos y de las relaciones entre
las variables que se van a analizar.
Las variables
Para un análisis de los datos es importante saber diferenciar el tipo de variables. Estas
pueden ser cualitativas o cuantitativas. Las últimas pueden ser continuas o discretas,
mientras que las cualitativas se dividen en ordinales o nominales.
TABLAS O DISTRIBUCIÓN DE FRECUENCIAS
Una tabla de frecuencias nos permite presentar de forma ordenada las distribuciones de
frecuencia.
- Frecuencia absoluta (fi): cantidad de veces que se repetirá un determinado valor xi en
el estudio.
- Frecuencia relativa (ni): es la división entre la frecuencia absoluta con el número total
de datos.
- Frecuencia acumulada (Fi): la frecuencia absoluta acumulada es la suma de las
frecuencias absolutas de aquellos valores menores o iguales al valor considerado.
- Frecuencia relativa acumulada (Ni): de manera similar a la frecuencia acumulada
obtenemos esta.
Podemos diseñar tablas de frecuencias con datos no agrupados como también con datos
agrupados donde se sugiere agrupar los valores por intervalos para facilitar y de forma
resumida poder trabajar.
GRÁFICOS
Variables Cualitativas
 Diagrama de barras.
 Diagrama de sectores.
Variables Cuantitativas Discretas
 Diagrama de barras.
 Diagrama de cajas.
Variables Cuantitativas Continuas

 Histograma.
 Polígono de frecuencias.
Diagrama de cajas
Se construye trazando una caja entre los cuartiles superiores e inferiores con una línea
interna que representa la mediana. Las líneas que salen de la caja se denominan bigotes
y es una forma de identificar a los valores extremos.
Histograma
Este representa la distribución de frecuencias de la muestra mediante barras para cada
intervalo. A diferencia del diagrama de barras es que en esta es el área de la barra lo que
es proporcional a la frecuencia del intervalo, no a la altura, y los intervalos no tienen por
qué ser todos idénticos.
ESTADÍSTICOS
Después de la tabla de frecuencias y la representación gráfica, podemos utilizar
estadísticos (estimadores o medidas como media aritmética, moda y mediana) para
expresar de forma clara y concisa la información.
Estadísticos de posición no central: cuantiles
Dividen un conjunto ordenado de datos en grupos con la misma cantidad. Están los
cuartiles que dividen a la muestra en cuatro partes iguales, deciles en diez partes iguales
y percentiles en cien partes iguales
Estadísticos de dispersión
Indican la variación de los datos con respecto a las medidas de centralización.
 Rango.
 Varianza.
 Desviación estándar.
 Error estándar.
 Coeficiente de variación.
 IQR o rango de intercuartílico.
Estadísticos de forma
Muestran la forma en la que los datos están posicionados.

 Asimetría: el coeficiente de asimetría es negativo cuando la asimetría es hacia la
izquierda, cero para cuando hay simetría y positiva cuando se da una simetría
hacia la derecha.
 Curtosis: el coeficiente de curtosis es negativo si es platicúrtica o aplanada, cero
cuando es mesocúrtica o normal y positivo cuando es leptocúrtica o apuntada.
DISTRIBUCIONES DE PROBABILIDAD DISCRETAS
En R es posible calcular probabilidades para las principales variables aleatorias
discretas. Los nombres reservados a algunas de esas distribuciones son:
 Binomial: binom
 Poisson: pois
Los nombres anteriores, sin embargo, no son sentencias de R que produzcan una salida
válida. Es necesario anteponerles los prefijos “d”, para la función de masa o función de
probabilidad, “p” para la función de distribución acumulada, “r” para generar valores
aleatorios y “q” para la función cuantil.
Veamos algunos ejemplos.
Calcular la probabilidad de que una variable aleatoria binomial de parámetros n=10,
p=0.3 tome el valor 4:
> dbinom(4,size=10,prob=0.3)
Se puede simplificar la orden anterior:
> dbinom(4,10,0.3)
[1] 0.2001209
Este valor también se podría calcular con la fórmula de la función de masa de una
variable aleatoria binomial de parámetros (n,p):
(nk ¿ pk ( 1− p )n−k
En R la fórmula anterior se expresaría así:
> choose(10,4)*0.3^4*(1-0.3)^6
[1] 0.2001209
La probabilidad acumulada hasta el valor 4, P(X≤4), de una variable aleatoria B(10,0.3)
es
> pbinom(4,10,0.3)
[1] 0.8497317
La probabilidad de que tome el valor 10 una variable aleatoria de Poisson de parámetro
λ=3.52 y la probabilidad acumulada en ese valor son
> dpois(10,lambda=3.52)
[1] 0.002382029
> dpois(10,3.52)
[1] 0.002382029
> ppois(10,3.52)
[1] 0.998933
Generar 10 valores aleatorios de una distribución de Poisson de parámetro 3,52:
> rpois(10,3.52)
[1] 4 3 3 3 4 5 4 1 2 1
CÓMO SIMULAR EN R EL LANZAMIENTO DE UN DADO
En primer lugar vamos a simular el lanzamiento de un dado una vez. Para ello
utilizamos la función sample(). Mediante esta función se escogen al azar un número de
elementos de tamaño especificado entre todos los elementos de un cierto vector. Por
ejemplo, podemos usarla para escoger un número al azar entre los naturales del 1 al 6
(lanzamiento de un dado una vez).
> dado<-1:6
> sample(dado,1)
[1] 5
Para simular el lanzamiento más de una vez, por ejemplo 10, evidentemente debemos
indicar la opción con reemplazamiento (por defecto extrae sin reemplazamiento):
> sample(dado,10)
Error en sample.int(length(x), size, replace, prob) :
cannot take a sample larger than the population when 'replace =
FALSE'
> sample(dado,10,replace=T)
[1] 1 5 3 6 6 4 2 3 2 2
Si quisiéramos simular el lanzamiento de un dado cargado, en el que, por ejemplo, las
probabilidades de los valores 1 a 5 son 0.1 y la de 6 es 0.5, hacemos:
> prdadocarg<-c(0.1,0.1,0.1,0.1,0.1,0.5)
> sample(dado,10,replace=T,prob=prdadocarg)
[1] 5 2 6 4 6 6 5 3 6 2
FUNCIÓN DE DISTRIBUCIÓN
Utilizando la función pbinom() podemos dibujar la función de distribución acumulada
de la variable aleatoria que representa el número de unos y doses que aparecen al lanzar
cinco dados. Utilizamos la opción type="s" para construir la función en forma de
escalera.
> plot(z,pbinom(z,5,1/3),type="s")
> #Vemos que las probabilidades, a partir de 12 aproximadamente, son muy pequeñas
por lo que hacemos un nuevo gráfico
> x<-0:12
> plot(x,dpois(x,4.32),type="h")
> plot(x,ppois(x,4.32),type="s")
● En la inspección de una tubería se detectaron 3,6 defectos por metro. Obtener y
representar gráficamente la función de masa de la variable aleatoria que cuenta el
número de defectos por metro. Calcular la probabilidad de que en un tramo de 1 m de
longitud se encuentren más de dos defectos.
> #La variable aleatoria X = "nº de defectos en un tramo de 1 m de longitud" sigue una
distribución de Poisson de parámetro 3.6
> x<-0:12
> plot(x,dpois(x,3.6),type="h")
> #Calculamos P(X>2)=1-P(X≤2)
> 1-ppois(2,3.6)
[1] 0. 6972532
 La central telefónica de una empresa dispone de 5 líneas, siendo 3 las que están
ocupadas de media en hora punta. Se pide: a) ¿Cuál es la probabilidad de que en una
hora punta estén todas las líneas ocupadas? b) ¿Qué número de líneas sería el
adecuado para garantizar que la probabilidad de que todas las líneas estén ocupadas
en la hora punta sea menor del 1%?
> #Sea la variable aleatoria X="nº de líneas ocupadas en hora punta entre 5 líneas". Como
np=3, entonces 5p=3 y p=3/5=0.6 Por tanto, la v.a. X sigue una distribución B(5,0.6)
> #Lo que se pide en el apartado a) es P(X=5) en una B(5,0.6)
> dbinom(5,5,0.6)
[1] 0.07776
> #En el apartado b) se trata de determinar el valor de n tal que P(X=n)<=0.01 para una
distribución B(n,3/n). Lo resolvemos por tanteo.
> dbinom(6,6,3/6)
[1] 0.015625
> dbinom(7,7,3/7)
[1] 0.002655599
> #La solución es n=7 líneas
DISTRIBUCIONES DE PROBABILIDAD CONTINUAS
En R es posible calcular probabilidades para las principales variables aleatorias continuas.
Los nombres reservados a las distribuciones continuas más importantes son:
 Normal: norm
 χ 2 : chisq
 t de Student: t
Las denominaciones anteriores, igual que para las distribuciones discretas, no son
sentencias de R que produzcan una salida válida. Es necesario anteponerles los prefijos
“d” para la función de densidad, “p” para la función de distribución acumulada, “r” para
generar valores aleatorios y “q” para la función cuantil (inversa de la función de
distribución).
Por ejemplo, si queremos conocer la ordenada de la función de densidad de una variable
aleatoria N(-2,4) en una determinada abscisa, valor que por otro lado no tiene ninguna
utilidad práctica desde el punto de vista de las probabilidades, haremos:
> dnorm(3,-2,4)
[1] 0.04566227
Este resultado lo podemos obtener así mismo mediante la función de densidad de la variable
aleatoria normal:
> exp(-(1/2)*((3+2)/4)^2)/(4*sqrt(2*pi))
[1] 0.04566227
La probabilidad acumulada hasta el valor 3 en la distribución anterior es
> pnorm(3,-2,4)
[1] 0.8943502
Para calcular la probabilidad de obtener un valor entre 3 y 5 hacemos
> pnorm(5,-2,4)- pnorm(3,-2,4)
[1] 0.06559062
FUNCIÓN DE DISTRIBUCIÓN
La teoría de la probabilidad y la variable aleatoria van a permitir establecer un amplio catálogo de
modelos teóricos, tanto discretos como continuos, a los cuales se van a poder asimilar muchas de
las situaciones de la vida real. El estudio de los modelos teóricos, incluyendo la caracterización a
través de sus parámetros, el cálculo de probabilidades en sus distintos formatos y la generación de
números aleatorios, van a facilitar enormemente el análisis de estas situaciones reales.[ CITATION
Arr08 \l 3082 ].
Vamos a dibujar ahora la función de distribución de la variable aleatoria normal del ejemplo
anterior:
> curve(pnorm(x,media,destip),from=0,to=100)
CÓMO UTILIZAR R COMO ALTERNATIVA A LAS TABLAS ESTADÍSTICAS

Como podemos deducir de lo visto en este capítulo y en el precedente, el programa R
encierra en sí mismo unas completas tablas estadísticas que, además, resultan de muy
fácil manejo.
En los gráficos siguientes se recuerda el significado geométrico que tienen la función de
distribución (pnombredeladistribución) y la función cuantil (qnombredeladistribución):
La forma en que el programa R puede ser utilizado como alternativa a las tablas estadísticas
clásicas se resume en el siguiente cuadro (solo se indican los escenarios de uso más
corriente):
EJERCICIOS RESUELTOS
 Calcular:
1º) P(X<3) si X --> N(2,4).
> pnorm(3,2,4)
[1] 0.5987063
2º) P(X>5) si X --> χ 2 (8).
> 1-pchisq(5,8)
[1] 0.7575761
3º) F3,5;0.05.
> qf(0.95,3,5)
[1] 5.409451
4º) t5;0.01.
> qt(0.01,5,lower.tail=F)
[1] 3.36493
● Dibujar, superpuestas en un mismo gráfico, las funciones de densidad de las siguientes
variables aleatorias normales: N(3,0.75), N(0,1), N(-2,1), y N(-2,2).
> curve(dnorm(x,3,0.75),from=-6,to=6)
> curve(dnorm(x,0,1),add=T)
> curve(dnorm(x,-2,1),add=T)
> curve(dnorm(x,-2,2),add=T)
> #Ahora vamos a obtener las coordenadas de 4 puntos elegidos en el gráfico donde
posteriormente situaremos los rótulos de las curvas. Para ello, una vez ejecutada la
sentencia siguiente, nos colocamos con el ratón sobre los puntos elegidos y pulsamos el
botón izquierdo
> a<-locator(n=4)
$x
[1] -4.4329751 -1.6721848 0.4601328 4.7023227

$y
[1] 0.1241017 0.4210175 0.4199178 0.5045938
> #Colocamos los cuatro rótulos sobre el gráfico en los puntos cuyas coordenadas (x,y)
acabamos de obtener
>text(a$x[1],a$y[1],"N(-2,2)")
>text(a$x[2],a$y[2],"N(-2,1)")
>text(a$x[3],a$y[3],"N(0,1)")
>text(a$x[4],a$y[4],"N(3,0.75)")
● Dibujar, superpuestas en un mismo gráfico, las funciones de densidad de las siguientes
variables aleatorias: χ 2 (3), χ 2 (10) y χ 2 (30).
> curve(dchisq(x,3),from=0,to=80)
> curve(dchisq(x,10),add=T)
> curve(dchisq(x,30),add=T)
> a<-locator(n=3)
> text(a$x[1],a$y[1],"Ji-cuadrado(3)")
INFERENCIA
Utilizar la estadística inferencial para generar conclusiones globales para la población
de estudio resulta enormemente útil debido a que en la mayoría de las investigaciones es
imposible o muy costoso estudiar todos y cada uno de los individuos de la población.
PRUEBA DE HIPÓTESIS
Las pruebas de hipótesis nos permiten investigar la veracidad o falsedad de una
afirmación acerca de una característica de una población o un conjunto de poblaciones.
Las hipótesis han de especificarse antes de realizar el contraste según la pregunta que se
quiera responder.
ERRORES
Existen dos tipos de errores que podemos cometer al decidir en una prueba de contraste:
 Error tipo I o α: rechazar Ho cuando es cierta
 Error tipo I o β: aceptar Ho cuando es falsa.
TIPOS DE PRUEBAS
 Pruebas paramétricas:
Pruebas para una media: están acá la prueba Z (N>30) y la t de Student.

Prueba para dos medias: están las muestras independientes y las relacionadas.
 Pruebas no paramétricas.
 Pruebas paramétricas robustas.
1. Prueba paramétrica
1.1.
1.2. Prueba para la varianza
De acuerdo con Gallego [CITATION Gal03 \n \t \l 10250 ] a la prueba de varianza “se le
considera como una forma de comprobar si dos o más medias muestrales pueden
haberse obtenido de poblaciones con la misma media paramétrica respecto de una
variable dada” [CITATION Gal03 \p 67 \n \y \t \l 10250 ] , es decir , que este método
estadístico determinará si diversos conjuntos muestras aleatorias de una determinada
variable proceden o no de la misma población.
Aplicación en R
Para aplicar esta prueba en R es necesario tener en cuenta el código para hallar la
varianza con una media poblacional desconocida y conocida.
Desconocida:
Pchisq(var(y)*(length(y)-1)/sigma0,length(y)-1,lower.tail=var(y)<sigma0)*2
Conocida:
Pchisq ( ∑ ( x−num ) ¿¿ 1/sigma 0)∗2¿
Ejemplo1:
Una empresa de llenado de botellas desea comprobar si su maquinaria rellena las
botellas de manera uniforme. Se considera que la máquina está averiada cuando la
varianza de la cantidad de líquido que dispensa por botella es mayor a 200 ml para un
nivel de significación del 1%. Para evaluar una máquina se toma una muestra de 40
botellas rellenadas y se obtiene una media de 331.2 ml y una desviación estándar de
16.3 ml. Se quiere averiguar si la máquina está averiada.
Planteo de hipótesis:
Ho: ơ=16.3
H1: ơ≠ 16.3
Código:
Resultado:
Análisis:
- No se pudo rechazar la hipótesis nula (p=0.165).
- Con un nivel de confianza del 95%, se puede afirmar que la verdadera varianza
está comprendida en el intervalo [178.2846, 438.0.556].
1.3. Prueba para dos varianzas o más varianzas
Existen varias maneras de comprobar la homogeneidad de varianza. Se encuentra la
prueba F, la prueba Bartlett, la prueba Levene., entre otras.
Prueba de F: Sirve únicamente para comparar las varianzas de dos muestras que
provienen de poblaciones normales.

Prueba de Bartlett: Es la mejor opción cuando los datos tienen una distribución
normal. Es sensible a las desviaciones respecto a la normalidad, ya que suele dar falsos
positivos.
Prueba de Levene: Es más robusta frente a las desviaciones leves de normalidad
respecto a la prueba de Barlett.
Figura 1: Prueba para dos o más varianzas
1.3.1. Prueba de comparación para dos varianzas
Ejemplo:
Evaluar si la varianza en el ancho del sépalo es similar en las especies Versicolor y
Virginica para un nivel de significación del 5%.
Planteamiento de hipótesis:
Ho: σ 2ver≤ σ 2vir ; similar variabilidad en el ancho de sépalo.
H1: σ 2ver > σ 2vir ; Versicolor presenta mayor variabilidad en el ancho de sépalo.
Código:

Resultado:
Gráfica.
Análisis:
A través de la gráfica se puede observar que la variabilidad del ancho de sépalo en
versicolor y en viginica parecen similares, por ello, para comprobar la varianza de los
dos datos, se realizará la prueba Bartlett.
Se obtiene un p-valor mayor al nivel de significancia, por lo que no se rechaza la
hipótesis Ho.
1.3.2. Prueba de comparación para más de 2 varianzas
Ejemplo:
Analizar los datos del rencuentro de insectos en unidades experimentales agrícolas
tratadas con diferentes insecticidas.
Tener en cuenta que:
1. Los datos que tiene 1 variable independiente.
2. Los datos que tienen 2 variables independientes
Código:
Resultado:
Gráfica:

Análisis:
No existe suficiente evidencia para rechazar Ho. Por lo tanto, se asume que la varianza
es similar entre los grupos de dosis y método de suministro.
Para realizar la prueba de Bartlett con dos factores se necesitó especificar la interacción
mediante la función para que calcule adecuadamente los grados de libertad y el p-valor.
2. Pruebas no paramétricas
Respecto a lo leído en el Análisis no paramétrico, Molinero (2003) se puede decir que
las pruebas no paramétricas son aquellas que no presuponen una distribución de
probabilidad para los datos, además la mayor parte de sus resultados estadísticos se
derivan solamente de los procedimientos de ordenación y de los de recuento.[CITATION
Mol03 \p 1 \n \y \t \l 10250 ]
2.1. Pruebas de bondad de ajuste de chi cuadrado
La prueba de chi cuadrado para una muestra permite averiguar si la distribución de una
variable se ajusta o no a una determinada distribución. Esta hipótesis de bondad de
ajuste es diseñada para comparar frecuencias obtenidas en una muestra concreta con las
frecuencias que deberíamos encontrar si la variable realmente siguiera la distribución
teórica, propuesta en la hipótesis nula.
Ejemplo:
Analizar si las muertes si las muertes en el ejército prusiano debido a las patadas de
caballos o mulas en 200 cuerpos de caballería se producen por puro azar en los distintos
grupos cuyo caso deberían seguir una distribución Poisson.

Ho: Las muertes siguen una distribución de Poisson.
H1: Las muertes no siguen una distribución de Poisson.
Código:
Resultados:
Gráfica:
Análisis:
Se observa en la gráfica que las dos últimas frecuencias esperadas son inferiores a 5, por
lo que la prueba Chi cuadrado puede ser erróneo.
Como p=0.898, se concluye que no existen evidencias en los datos en contra de que este
se ajusten a una distribución de Poisson.
2.2. Prueba de ajuste de Kolmgorov- Smirnov
La prueba Kolmgorov- Smirnov según Molinero (2003) representa lo siguiente:
Esta prueba compara la función de distribución teórica con la observada, y
calcula un valor de discrepancia, representada como D, que corresponde a la
discrepancia máxima en valor absoluto entre la distribución observada y la
distribución teórica, a la vez proporcionando un valor de probabilidad P. Este
valor nos muestra en el caso que verifiquemos un ajuste a la distribución normal,
la probabilidad de obtener una distribución que discrepe con la observada si

verdaderamente se hubiera obtenido una muestra aleatoria, de tamaño n, de una
distribución normal.[CITATION Mol03 \p 2 \n \y \t \l 10250 ].
El valor de la probabilidad P es quien nos identificará si se cumple el ajuste a la
distribución, teniendo en cuenta que si es un valor grande se acepta la hipótesis nula y si
no, se rechaza la hipótesis.
Ejemplo:
Los datos del paquete corresponden a porcentajes de alcanzar la base de 438 jugadores
que realizaron 100 o más bates en el 2002.
Ho: Los porcentajes de los datos del paquete siguen una distribución normal.
H1: Los porcentajes de los datos del paquete no siguen una distribución normal.
Código:
Resultados:
Análisis:
Se rechaza la hipótesis Ho, el valor de p es muy pequeño; por lo que se concluye que los
porcentajes de alcanzar la base no siguen una distribución normal.
2.3. Prueba de normalidad de Shapiro-Wilks
Esta prueba es preferible usarla cuanto se contraste el ajuste de datos de una distribución
normal de una muestra pequeña. En este caso, al igual que en el anterior nos confirmará la
hipótesis a través del valor de la probabilidad P.
Ejemplo:
Ho: La variable aleatoria X observada en la población es Normal.
H1: La variable aleatoria X observada en la población no es Normal
Código:
Resultado:
Se rechaza la hipótesis nula.
PRUEBA DE HOMOGENEIDAD
Se evalúa la existencia de homogeneidad entre distintas poblaciones.

Prueba de mejora de muestras cualitativas: Se utilizan principalmente cuando los datos
numéricos no cumplen con los supuestos de normalidad.
La hipótesis a contrastar de manera genérica son:
Ho: la variable X se distribuye homogéneamente en la variable Y
H1: la variable X no se distribuye homogéneamente en la variable Y
En este apartado entenderemos las siguientes técnicas:
1. Comparación entre 2 grupos:
Prueba de U de Mann Whitney (dos grupos independientes)
Prueba de Wilcoxon para muestras relacionadas (dos grupos
relacionados)
2. Comparación entre más de 2 grupos
Prueba de Kruskal - Wallis (dos o más grupos independientes)
Prueba de Friedman (dos o más grupos relacionados)
Prueba de U de Mann Whitney
Compara 2 muestras independientes para determinar si provienen o no de poblaciones
distintas. Es la prueba no paramétrica alternativa al t-test para muestras independientes,
pero se compara medianas no medias. Es útil para casos donde no cumple la normalidad
de los datos pero requiere de homogeneidad de varianzas.
Ejemplo - aplicado en R:
Utilizaremos datos de la revista MOTOR TREND US que refleja el consumo de
combustible y 10 aspectos de diseño de Automóviles y rendimiento, para 32
automóviles (modelos de los años 1973 – 1974). Queremos comparar el
consumo de gasolina según el tipo de transmisión del coche, cómo son los datos
(32) no asumiremos anormalidad de los mismos y utilizaremos pruebas no
paramétricas.
Solución:
Las hipótesis a plantear son:
Ho: Los datos de consumo de gasolina para las transmisiones automáticas y
manuales provienen de población idénticas.
H1: negación de Ho
Código en R
Resultado
Gráfica
Como el valor de p- valor (0,001871) que nos arroja el programa es menor que el 5%,
rechazamos la hipótesis nula y el gráfico nos indica que los coches con trasmisión
manual consumen más gasolina.
Prueba de Wilcoxon para muestras relacionadas
Compara las medianas de 2 muestras relacionadas para determinar si existen o no
diferencias entre ellas. Es la versión no paramétricas de t- test para muestras
dependientes, pero compara medianas en lugar de medias.
Utilizaremos los datos de Hollander & Wolfe (1973) sobre la escala de
depresión Hamilton medida en 9 pacientes con ansiedad y depresión, tomadas en
una primera (x) y segunda (y) visita luego de iniciar la terapia con la
administración de un tranquilizante.
Ho : µantes ≤ µdesp ú es
H1 : µantes > µdesp ú es
Primero, como las muestras son pequeñas es de esperar que no sea normal. Sin embargo,
podemos comprobarlo.
Como no cumple con la normalidad, tiene sentido aplicar pruebas no paramétricas.
Segundo, como son muestras relacionadas no tengo que hacer contraste de varianza (son los
mismos sujetos, tienen varianzas iguales).
Tercero, realizamos la comparación de medias no paramétricas:
Resultado:
α (0,05) < p (0,7139) distribución normal
α (0,05) > p (0,03439) distribución anormal

Como mi α (0,05) > p (0,01953) entonces rechazo Ho, es decir, el tranquilizante es
efectivo.
Prueba de Kruskal - Wallis
Es un método no paramétrico para probar si un grupo de datos proviene de la misma
población. Intuitivamente, es idéntico al ANOVA con los datos reemplazados por
categorías. Es una extensión de la prueba de la U de Mann-Whitney para 3 o más
grupos. Ya que es una prueba no paramétrica, la prueba de Kruskal-Wallis no asume
normalidad en los datos, en oposición al tradicional ANOVA. Sí asume, bajo la
hipótesis nula, que los datos vienen de la misma distribución. Una forma común en que
se viola este supuesto es con datos heterocedásticos.
Ho: todas las muestras tienen la misma distribución
H1: no todas las muestras tienen la misma distribución (al menos hay diferencias de dos
muestras).
La cañota es una mala hierba como en campos de maíz. Un agrónomo sembró la misma
proporción de maíz en 16 parcelas experimentales. A continuación distribuyó las
parcelas a lazar en 4 grupos. Luego eliminó las malas hierbas a mano de manera que se
dejó un determinado número de cañotas por metro lineal de maíz sembrado. Eliminó
todas las restantes malas hierbas. Dejó 0, 1, 3 y 9 cañotas por metro lineal,
respectivamente en cada uno de los grupos. Excepto en cuanto al número de malas
hierbas, todas las parcelas se trataron de la misma manera. He aquí los rendimientos
(toneladas por hectárea) de cada una de las parcelas:

HIERBAS RENDIMIENTO
0 11,17 11,54 11,06 11,85
1 11,14 10,54 11,17 10,79
3 10,63 11,82 10,26 10,45
9 10,9 9,5 10,8 10,6
Compruebe sí existe una diferencia en el rendimiento del maíz.
Solución:
Ho: Mediana 0 = Mediana 1 = Mediana 3 = Mediana 9.
H1: Existe por lo menos una mediana diferente.
α : 0,05
Como mi α (0,05) < p (0,1204) entonces no rechazo Ho, es decir, existe evidencia
estadística de que los rendimientos del maíz son iguales.
Prueba de Friedman
Es una prueba no paramétrica desarrollado por el economista Milton Friedman. Equivalente a
la prueba ANOVA para medidas repetidas en la versión no paramétrica, el método consiste en
ordenar los datos por filas o bloques, reemplazándolos por su respectivo orden. Al ordenarlos,
debemos considerar la existencia de datos idénticos.
Se realiza un experimento para investigar el efecto tóxicos velas de las 3 sustancias químicas,
A, B, y C en la piel de ratas. Tres cuadros adyacentes de ½ pulgada se marcan en los lomos de 8
ratas y cada una de las 3 sustancias se aplica a cada rato. Los cuadros de piel de cada rata se
clasifican de acuerdo con la severidad de la irritación (1= menos severa, 3 = severidad
máxima). Los datos resultantes se dan en la siguiente tabla. ¿Hay suficiente evidencia apoyar la
hipótesis en investigación de que las distribuciones de probabilidad de las calificaciones de
irritación de la piel, correspondientes a las 3 sustancias químicas difieren en localización? Use
α=0,10.
RATA A B C
1 3 2 1
2 3 2 1
3 2 3 1
4 1 3 2
5 1 2 3
6 1 3 2
7 2 3 1
8 3 1 3
Solución:
Ho: Datos normales.
H1: Datos no son normales.

Resultado:
Rechace Ho
Los datos no son normales.
• Ho: Existe evidencia estadística de que la irritación en los animales es igual con
todos los agentes químicos.
• H1: Existe evidencia estadística de que la irritación en los animales no es igual
con todos los agentes químicos.
Como mi α (0,05) < p (0,3679) entonces no rechazo Ho, es decir, existe evidencia
estadística de que la irritación en los animales no es igual con todos los agentes
químicos.
Regresión y correlación
Correlación
El análisis de correlación nos permite cuantificar el grado de relación o asociación entre
dos o más variables continuas(paramétrico) u ordinales(no paramétricos), indica la
fuerza y dirección de la relación. Cuando exista relación tendría sentido proceder a la
obtención del modelo de regresión(simple o múltiple) .
Existen diferentes tipos de correlación, la correlación simple, correlación múltiple y la
correlación parcial.Usaremos la correlación simple cuando nuestros objetivo sea
relacionar dos variables, y los coeficientes de correlación parcial y múltiple cuando
tengamos más de dos variables.
Para analizar la correlación entre las variables podemos utilizar técnicas
paramétricas( correlación lineal de Pearson) o no paramétricas(Correlación de
Spearman), según las variables sigan a no una distribución aproximadamente normal,
respectivamente.
Correlación simple
Coeficiente de correlación lineal de Pearson r
Para medir el grado de variación conjunta de dos variables continuas utilizando la
covarianza. Si una variable aumenta o disminuye conforme la otra aumenta o
disminuye, entonces las dos variables covarían. Si una variable no cambia con el
aumento o disminución de la otra entonces la variables no covarían. Sin embargo si las
covarianzas tienen dos inconvenientes: 1) Su rango de valores va de -infinito al
+infinito y 2) Su magnitud absoluta depende de las unidades de las variables. Si
estandarizamos la covarianza dividiendo por la desviación estándar de ambas variables
logramos que el rango se ajuste a -1 y +1, y obtendremos el coeficiente de correlación
lineal de Pearson.
El coeficiente de correlación lineal de pearson mide el tipo y fuerza de relación lineal
entre dos variables toma valores en el intervalo de [1 , -1] donde un valor negativo
indica relación inversa o negativa, un valor positivo indica relación directa o positiva, y
un valor nulo indica que no existe relación entre ambas variables o que dicha relación
no es lineal. Cuándo más cercano sea el valor a los extremos del intervalo más fuerte es
la relación lineal entre las variables y cuando más cercano sea a 0 más débil será.
Aplicación en R
En R utilizaremos las siguientes funciones:
Calculan la covarianza (cov) y correlación (cor) de x e y, donde pueden ser vectores o
matrices. La función cor.test realiza además la prueba de hipótesis sobre la correlación.
En todas ellas podemos especificar como considerar los datos permitidos mediante la
opción nar.rm :
use=”everything” la variable con valores perdidos se trata como “missing”. Es la opción
por defecto.
use=”all,obs” asume que no existen valores ausentes. Cuando sí existen valores
perdidos produce un mensaje de error.
use=”complete,obs” solo se utilizan los casos que están completos para todas las
variables.
use=”pairwise.complete.obs” solo se utilizan los casos que están completos para todas
las variables.
También podemos decir que tipo de correlación queremos utilizar: pearson o kendall.
Ejemplo:
Utilizaremos el conjunto de datos(Brownlee, 1965) que corresponde a datos de una
fábrica de oxidación de amonio(NH3) a ácido nítrico (HNO3). son 21 observaciones de
4 variables.
-Flujo de aire(representa la tasa de operaciones en la fábrica; Air Flow)
-Temperatura del agua,(Water Temp)
-Concentración de ácido (por 1000 menos 500, es decir, un valor de 89 correspondencia
a 58.9%; Acid Conc)
-Perdida de ácido a través de la pila(es una medida-inversa- de la eficiencia de la plata;
stack.loss).
Comenzamos activando los datos y realizando un diagrama de dispersión para
visualizar la relación entre Water.Temp y Air.Flow.

Parece que las variables aumentan de manera conjunta, aunque algunos datos se
escapan del comportamiento general, volveremos a analizar estos datos en el siguiente
apartado de métodos robustos.
La manera más sencilla de expresar esta relación es mediante el coeficiente de
correlación. Podemos calcular la correlación y la covarianza entre las variables
Water.Temp y Air.Flow.
Obtenemos una correlación positiva y alta (r = 0.782).
Realizamos el contraste de hipótesis para el coeficiente de correlación: Ho : p = O (no
existe relación) Hl : p 0. (sí existe relación)
A un nivel de confianza del 95% podemos afirmar que existe una relación lineal
significativa entre ambas variables (t(19)=5.4663, df = 19, p<0.001, r=0.782). El
intervalo de confianza para r es [0.53, 0.91].
Correlación no paramétrica
Existen casos donde la distribución conjunta de las dos variables no es normal
bivariada (es decir, cuando alguna de las variables o ambas no son normales), o
donde las transformaciones no nos son útiles (e.g. por interpretación). Para analizar
relaciones monotónicas (no necesariamente lineales) entre variables, sin asumir
normalidad bivariada, podemos utilizar el coeficiente de correlación de rangos de

Spearman r, o el coeficiente de correlación de Kendall T.
Pruebas de hipótesis para , o t
La hipótesis nula a contrastar es que no existe una relación monotónica entre las
variables X e Y.
Ambos son análisis de correlación no paramétricos, pero solo detectan relaciones
monotónicas, es decir, no detectan todos los tipos de asociaciones no lineales.
Aplicamos en R
Volveremos a utilizar las siguientes funciones, ahora para la correlación no
paramétrica: Podemos especificar el método de Spearman o el de Kendall con el
argumento method.
Ejemplo:
La correlación parcial de Spearman y la de Kendall ahora es significativa para las
relaciones Water.Temp Air.Flow y Acid.Conc.-Air.Flow, manteniendo constante la
variable restante.
Regresión lineal
En muchas oportunidades al investigador le interesa saber cómo afecta el
comportamiento de un conjunto de variables a otra, no solo desde el punto de la
influencia o grado de asociación, sino también para describir la posible relación
funcional entre las mismas. En estos casos, debemos ajustar modelos estadísticos
a los datos.
La regresión lineal nos permite modelar el valor de una variable según una o más
variables, a través de una función lineal monotónica. Es decir, asume que un
cambio en la variable independiente (VI) resultará en un cambio en la variable
dependiente (VD), y la cantidad del cambio en VD es constante para todo el rango
de la VI. Por ejemplo, imaginemos que estamos interesados en la relación entre el
la potencia de un coche (VI) y su consumo de gasolina (VD). Si ajustamos un
modelo de regresión lineal estamos diciendo que un cambio en una unidad de
potencia del coche tendrá el mismo efecto en
el consumo de gasolina sea cual sea su valor de origen (lo mismo es un aumento
de potencia de 100-101 que de 300-301).
Nuestros objetivos serán:
1. Describir la relación lineal entre dos o más variables.
2. Determinar qué cantidad de la variación en la respuesta puede ser
explicada por su relación lineal con cada predictor.
3. Predecir nuevos valores de la respuesta a partir de nuevos valores de los
predictores.
Ajuste global del modelo(ANOVA)
El análisis de varianza (ANOVA) nos permite realizar la partición de varianza de
tal manera de que podamos conocer qué parte de la variabilidad de la respuesta es
explicada por su relación con las variables predictoras y qué parte no es explicada
por dicha relación (residual). Esto permitirá contrastar si el modelo es significativo
o no.
Parámetros del modelo
Obtendremos las estimaciones de los parámetros ,3 del modelo. Realizaremos
contrastes de hipótesis sobre cada parámetro de la función de regresión lineal. La
hipótesis nula a contrastar es )3i = O, es decir, vamos a comprobar si el intercepto
es significtivo o significativamente distinto de cero ()30 = O) y si los demás Ni
también los son.
Estas hipótesis se evaluarán mediante la prueba t de Student en cada parámetro.
Bondad de ajuste R2
Una medida de la eficacia del modelo de regresión es el coeficiente de
determinación R2 que toma valores en el intervalo [0, 1]. La interpretación usual del
estadístico es que mide el porcentaje de variabilidad en los datos que viene
explicada por el modelo, por lo que un valor cercano a 1 significa que el modelo es
bastante efectivo.
Al agregar más variables al modelo el R2 aumenta, por lo cual en modelos de
regresión múltiple se aconseja utilizar el R2 ajustado, que ajusta su valor para dar
cuenta del número
de variables incluidas en el modelo.
Diagnóstico del modelo
Queremos evaluar qué tan bien se ajusta el modelo a los datos observados. Para ello
analizaremos: 1) si la recta es el modelo adecuado o existe no linealidad, y 2) si
existen observaciones que puedan ser outliers que tengan una influencia indeseada
en la estimación de los parámetors y en el ajuste del modelo.
El diagnóstico del modelo nos permitirá también probar los supuestos de

normalidad, homogeneidad de varianza e independencia
1. Leverage.
Es una medida de qué tan extremos es una observación para la variable X. Mide
cuánto xi influye sobre yiSe simboliza con hi debido a que vienen de una matriz
llamada hat, y toman valores en el rango [1/n, 1]. Un criterio útil es considerar que
los valores de leverage mayores que 2 * (p/n) con p el número de parámetros en el
modelo (p = 2 en el modelo de regresión lineal simple).
2. Residuos.
Los residuos (ordinarios) son la diferencia entre la predicción del modelo y la
observación. Para el diagnóstico, sin embargo, utilizaremos:
- los residuos estandarizados (residuos tipificados, es decir, se los transforma de
tal manera que tengan media cero y varianza próxima a 1, para distinguir a los
residuos grandes) y
- los residuos estudentizados (se calculan del mismo modo que lo estandarizados
pero calculando la varianza residual a partir de toda la muestra excepto el residuo
de la observación objeto de estudio, para tener varianza constante).
Podemos encontrar los distintos patrones en los residuales:
- Si los mayores valores de Yi se asocian con los residuales de mayor valor, puede
ser un indicativo de que la distribución de los valores de Y para cada xi presenta
una asimetría positiva. Esto se asocia con el incumplimiento del supuesto de
normalidad.
- Si el patrón es en forma de cuña (mayor dispersión para mayores valores de xi o
Yi), indica que aumenta la varianza en el y en yi al aumentar xi. Esto se asocia con
el incumplimiento
del supuesto de homogeneidad de varianza y también con el de normalidad en los
valores de Y. Aquí podemos aplicar transformaciones.
- Si el patrón de residuales es curvo, podría ser un indicativo de no linealidad o de
la presencia de outliers.
- Si el patrón de los residuales es en líneas paralelas, podría indicar que existe un
número de observaciones con valores similares para una de las variables (ej. ceros).
- Si no existe un patrón en los residuales indicaría que no se está incumpliendo los
supuestos del modelo de regresión lienal.
3. Distancia de Cook.
Es una medida de la influencia de cada observación en el modelo de regresión
lineal y los
parámetros estimados. Se simboliza con la letra Di y se calcula considerando tanto
el valor de leverage como los residuales de cada observación. Los valores altos
(mayores que 1) de Di indican una alta influencia.
También podemos utilizar la medida DFITSi que mide la influencia de cada
observación yi en su valor predicho por el modelo]

El procedimiento a seguir es el siguiente.
1. Analizar la correcta especificación del modelo: realizar un gráfico de los
residuos vs. los regresores y valores predichos. Si el modelo es razonable
esperamos que los residuos sigan un patrón aleatorio. Si el patrón no es
aleatorio podemos corregir este problema agregando términos apropiados o
transformando las variables.
2. Analizar los outliers: realizar un gráfico de los residuos
estudentizados y mirar si 'residuos estudentizadosl> 3.
:: datos atípicos u outliers, son puntos donde la respuesta observada no
sigue el patrón establecido por el resto de los datos. Es decir, son valores
extremos en términos de la variable Y. Una observación con residuo
grande se denominan outliers, normalmente se considera que una
observación es un dato atípico si tiene un residuo estandarizado mayor que
2 o 3, según el autor.
:: puntos de Leverage, son puntos que están distantes del resto de los
puntos en términos de los regresores. Es decir, son valores extremos en
términos de al variable X.
influential points, combinan los conceptos de puntos de leverage y
outliers. Son valores extremos en un sentido combinado de X e Y.

3. Analizar la normalidad de los residuos.
Dado un valor xi, podemos estimar el intervalo de confianza de las predicciones para el
valor esperado (respuesta promedio) o para un valor individual (nueva respuesta) de la
variable dependiente Y asociado a un valor dado de la variable independiente X.
Regresión lineal
El modelo de regresión lineal simple es: y =0+1*x1+iEi, donde yi es el valor de la
variable Y para la observación i (i = 1,...,n), cuando la variable X = xi; el parámetro0
corresponde al intercepto (el valor medio de la distribución de probabilidad de Y
cuando xi = O), el parámetro )31 es la pendiente (mide el cambio en Y por unidad de
cambio en X); y el es el error aleatorio o no explicado que se asocia con la observación
i.
Estimaciones para los parámetros del modelo
Necesitamos estimar los parámetros ,β 0 β 1 o2€ (la varianza residual), para determinar la
recta de regresión muestral: yi = b0 +b1* xi, donde Yi es el valor predicho por la recta de
regresión para cada xi, b0 y b1 son las estimaciones muestrales de /30 y )31,
respectivamente. Para realizar estas estimaciones utilizaremos técnicas de mínimos
cuadrados OLS, es decir, los valores estimados serán aquellos que minimicen la suma
de desviaciones cuadradas (SS) entre los valores observados y los valores predichos por
el modelo.
NOTA: el modelo de regresión lineal para variables estandarizadas no
incluye intercepto debido a que la estimación OLS será cero.
Pendiente.
El valor de la pendiente depende de las unidades de X e Y. Por lo tanto, si
queremos comparar las pendientes de distintos conjuntos de datos, podemos
calcular su versión estandarizada b'í = b1 * sx/sy, cuyas unidades son independientes
de X e Y.
Intercepto.
Hay que tener cuidado con su interpretación. Debido al rango de nuestras
observaciones raramente incluye el cero, no deberíamos extrapolar un valor fuera del
rango de observaciones. También debemos pensar si teóricamente tiene sentido que la
recta pase por el origen.
Ejemplo
Volvemos a utilizar los datos del paquete . Primero observamos los datos y
graficamos
En el gráfico de dispersión vemos que algunos puntos escapan del comportamiento
general. Vamos a ajustar una recta por mínimos cuadrados (LS) mediante la
función .
El objeto "fitLS" contiene los resultados del análisis, que observamos con la orden
"summary".
Ajuste global del modelo
Los resultados también nos indican que el modelo es significativo (F(1,22)=9.247,
p=0.006 -ANOVA-), predice el número de llamadas bastante bien o, lo que es lo
mismo, podemos concluir que nuestro modelo resulta en mejores predicciones del
número de llamadas respecto al modelo nulo (i.e. si utilizáramos tan solo la media
de los años como predictor). Sin embargo, el modelo explica tan solo el 29.6% de
la variabilidad de la respuesta (R2). Esto quiere decir que el 70.4% de la variación
en el número de llamadas no puede ser explicado con la información del año
solamente. Por lo tanto, deben existir otras variables que también influyan.
Parámetros del modelo
El ANOVA nos dice que el modelo en general es bueno, sin embargo, no nos dice
nada acerca de la contribución de cada variable o término en el modelo. En los
resultados podemos observar el apartado de "coefficients" que contiene los
parámetros del modelo (los valores )3) y su significación.

Los valores de los parámetros son los siguientes: - b0 = —260.059, lo que
significaría que para el año 1900 (x = 0) el número de llamadas sería y = —
260.059. En este ejemplo esto no tiene sentido y por tanto podríamos plantearnos
un modelo sin intercepto (utilizaríamos y x — 1).
- bl = 5.041 en este caso representa la pendiente del modelo, el cambio en la respuesta
asociado a cada unidad de cambio en el predictor. En este caso por cada año nuestro
modelo predice que habrá 5.041 llamadas extra.
Si nuestros términos tienen un impacto significativo en el resultado, entonces cada b
debe ser diferente de 0. Contrastamos estas hipótesis mediante pruebas t.
Los niveles de probabilidad (p-valor) de la última columna de la tabla
corresponden a las pruebas de hipótesis para los coeficientes del modelo (H0 :
32 = 0). Podemos observar que tanto el intercepto (t(22)=-2.535, p=0.0189)
como la pendiente (t(22)=3.041, p=0.006) son significativos.
Diagnóstico del modelo
Los siguientes gráficos nos permitirán realizar el diagnóstico del modelo a través de los
residuos.
NOTA: los residuos se obtienen con la función "resid", los residuos
estandarizados con la función "rstandard" y los residuos estudentizados
con la función "rstudent". Las distancias de
Cook se obtienen con la función "cook.distance", los DFBeta con
"dfbeta", los DFFit con "dffits" y los valores hat (leverage) con
"hatvalues".
CONCLUCIONES
 R es un lenguaje de alto nivel y un ambiente para el análisis de datos y graficacion,
creado por Ihaka y Robert Gentleman.
 Su diseño sigue sintaxis de S pero el manejo de memoria y la manera de evaluar lo
hace mas eficiente como Scheme.
 En el desarrollo actual de R colaboran investigadores de primer nivel estadístico y
en computación.
 Entre otras razones por las que aprender R se anuncia:
1. Es de excelente calidad
2. Es libre y de código abierto
3. Es un proyecto de colaboración por lo que hay mucho material de apoyo y
ayuda
4. El sistema le ofrece una facilidad para que usted realice procedimientos y
que si así lo considera contribuya con el acervo de R.
5. Ofrece mayor cantidad de ventajas que desventajas.
6. R se enriquece con la colaboración de personas, literalmente, de todo el
mundo.
RECOMENDACIONES
 Para iniciar en R lo primero que se tiene que aprender son las sintaxis y cada uno
las ventanas que proporciona el software ya que de este modo comenzar a
programar se tornara más asequible.
 Tener el domino del inglés también es favorable para aprender R ya que el
programa aporta sugerencias cuando encuentra coincidencias en la escritura del
código, pero solo se presenta en este idioma ingles
 Aprender R como una herramienta que incrementara nuestro conocimiento ya
que a diferencia de los otros programas R presenta una base de datos reales que
a ido acumulando de todas partes del mundo y que nos pueden servir para
cualquier tipo de investigación ya que es de ingreso libre
Referencias
Arriaza Gómez, A. J., Fernández Palacín, F., López Sánchez, M. A., Muñoz Márquez, M., Pérez
Plaza, S., & Sánchez Navas, A. (2008). Estadística Básica con R Y R- Comander. Cáliz:
Servicio de Publicaciones de la Universidad de Cádiz. Obtenido de
http://cms.dm.uba.ar/academico/materias/1ercuat2019/met_no_param/estadistica_
basica_con_R.pdf
Equipo R core. (16 de Mayo de 2000). Introducción a R. Notas sobre R: Un entorno de
programación para Análisis de Datos y Gráficos. Viena, Austria. Obtenido de
https://cran.r-project.org/doc/contrib/R-intro-1.1.0-espanol.1.pdf
Gallego, R. S. (2003). Introducción al análisis de datos experimentales: tratamiento de datos en
bioensayos. Castellón de la Plana: Universidad Jaume I.

José Antonio Ordaz Sanz, M. d. (2010). Metodos estadísticos y econométricos en la empresa y
para finanzas. Sevilla, España: Sevilla, España : Universidad Pablo de Olavide, 2010.
Obtenido de
https://www.upo.es/export/portal/com/bin/portal/upo/profesores/jaordsan/profesor
/1311101268463_mxtodos_estadxsticos_y_economxtricos_en_la_empresa_y_para_fi
nanzas.pdf
Molinero, L. M. (2003). Análisis no paramétrico. El procedimiento Pruebas no paramétricas.
Obtenido de Alce ingeniería:
https://www.alceingenieria.net/bioestadistica/noparame.pdf

R Studio

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

R Studio

Cargado por

Copyright:

Formatos disponibles

UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS

(Universidad del Perú, DECANA DE AMÉRICA)

FACULTAD DE INGENIERÍA INDUSTRIAL

ESCUELA PROFESIONAL DE INGENIERÍA TEXTIL

 PROFESOR: ORTIZ JOSE

 TAMITA HUAYRA NURIA

 FECHA DE ENTREGA: 8 DE SEPTIEMBRE DE 2020

 Conocer las herramientas que nos brinda R para el control de calidad.

 Reforzar el conocimiento adquirido en el curso ejecutando lo aprendido en R.

 Indagar sobre el tema para comprender su funcionamiento y propósito.

 Aplicar estadísticos de control de calidad mediante el lenguaje de programación

 La estadística es un campo de suma importancia en toads las ciencias, olo tanto

apoyarse en un software que sea flexible y adaptable que se puede extender

fácilmente mediante paquetes o librerías o simplemente configurando nuestras

 Mediante la investigación adquirir conocimientos sobre R.

 Conocer todo lo posible relacionado al lenguaje de programación R para

utilizarlas en nuestras futuras investigaciones académicas como laborales.

¿Cómo inició el lenguaje de programación de R? ¿ Quién lo creó? R fue creado en 1993

por Ihaka y Robert Gentleman del departamento de Estadística de la Universidad de

ser utilizado en el curso de introducción a la Estadística, con la característica de la

manipulación de datos y creación de gráficos. Para ello adoptaron la sintaxis del

lenguaje S desarrollado por Bell Laboratories.

La sintaxis de R es similar al lenguaje S, diferenciándose en la semántica, donde es

sensiblemente diferente, sobre todo en los detalles más profundos de la programación.

significa que cualquiera puede descargar y modificar su código de manera gratuita. R se

modificarlo y mejorarlo. Esto forma parte de un proyecto colaborativo, donde la

comunidad de usuarios, integrado por programadores de alto nivel, contribuyen a

logrando que R sea estable y confiable.

Ahora que se conoce la trascendencia de y conceptos generales de R, se puede expresar

cual facilitará el acceso a este software para quién lo desee aprender.

R es un lenguaje de programación entorno al análisis estadístico y gráfico. El término

entorno representa a un sistema totalmente planificado y coherente, en lugar de una

acumulación gradual de herramientas muy específicas y poco flexibles. Es importante

diferencia a R de un sistema estadístico. “Nosotros preferimos describirlo como un

entorno en el que se han implementado muchas técnicas estadísticas, tanto clásicas

como modernas. Algunas están incluidas en el entorno base de R y otras se acompañan

en forma de bibliotecas” [CITATION Equ00 \p 2 \l 10250 ].

Esta diferenciación es parte de una cuestión histórica, en vez de ver a R como un

sistema estadístico, es preferible verlo como un ambiente en el que se aplican técnicas

1.2. Editores de texto

Speaks Statistics, entre otros.

- Características de los editores de R:

claves, variables y símbolos, haciendo más sencilla la creación de código en R.

También presenta la posibilidad de completar el código, por lo que no es necesario

1.3. Cómo funciona R

R es un lenguaje Orientados a Objetos, lo que significa que las variables, datos,

funciones y resultados se guardan en la memoria activa del computador en forma de

través de operadores y funciones.

Ejemplo 1: Al objeto “x”, se le asigna los números 1,2,3.

Si se quiere llamar a este objeto se debe aplicar:

Su lenguaje está basado en vectores, fila o columna de números o caracteres, lo cual

Ejemplo 2: Al objeto del ejemplo 1 se le suma 3 a cada elemento del vector

Fuente: Elaboración propia

1.4. Sintaxis básica

- El signo “>” indica que el usuario realiza alguna entrada.

- El símbolo “#”, sirve para realizar un comentario que no ejecute R.

- El operador de asignación “<-” o el de igualdad “=” permiten crear objetos en R.

diferentes una misma letra en mayúscula y minúscula), y puede incluir dígitos

del 0 al 9 y puntos (.).

- El operador “rm(x1)”, sirve para borrar objetos de la memoria.

- La función “sabe”, nos permite guardar los objetos de un archivo de RData.

- La función “savehistory ()” nos permite guardar le historial de órdenes que se ha