Documentos de Académico
Documentos de Profesional
Documentos de Cultura
SOFTWARE R
CURSO: PROGRAMACION
INTEGRANTE
Lima – Perú
2020-I
ÍNDICE
OBJETIVOS...........................................................................................................................4
ESTADÍSTICA DESCRIPTIVA........................................................................................................14
INTRODUCCIÓN.....................................................................................................................14
Las variables.......................................................................................................................14
TABLAS O DISTRIBUCIÓN DE FRECUENCIAS..........................................................................15
GRÁFICOS...............................................................................................................................15
Variables Cualitativas........................................................................................................15
Diagrama de barras........................................................................................................15
Diagrama de sectores.....................................................................................................15
Variables Cuantitativas Discretas......................................................................................16
Diagrama de barras........................................................................................................16
Diagrama de cajas..........................................................................................................16
Variables Cuantitativas Continuas.....................................................................................16
Histograma.....................................................................................................................16
Polígono de frecuencias.................................................................................................16
Diagrama de cajas..............................................................................................................16
Histograma.........................................................................................................................16
ESTADÍSTICOS........................................................................................................................17
Estadísticos de posición no central: cuantiles...................................................................17
Estadísticos de dispersión..................................................................................................17
Estadísticos de forma.........................................................................................................18
INFERENCIA................................................................................................................................33
PRUEBA DE HIPÓTESIS...........................................................................................................34
ERRORES................................................................................................................................34
TIPOS DE PRUEBAS................................................................................................................34
Pruebas paramétricas:...............................................................................................34
Pruebas no paramétricas...........................................................................................34
Pruebas paramétricas robustas.................................................................................34
PRUEBA DE HOMOGENEIDAD......................................................................................48
1. Comparación entre 2 grupos:......................................................................................48
2. Comparación entre más de 2 grupos...........................................................................48
Prueba de U de Mann Whitney.......................................................................................48
Prueba de Wilcoxon para muestras relacionadas.........................................................51
Ho : µ antes ≤ µ desp ú es................................................................................................51
H1 : µ antes > µ desp ú es..............................................................................51
Prueba de Kruskal - Wallis..............................................................................................53
Prueba de Friedman.........................................................................................................54
Regresión y correlación......................................................................................................57
CONCLUCIONES................................................................................................................77
RECOMENDACIONES.......................................................................................................78
Referencias.................................................................................................................................78
OBJETIVOS
Dar un alcance del programa R que están en tendencia para las investigaciones.
R.
propias funciones.
Auckland, Nueva Zelanda. Su principal intención era realizar un lenguaje didáctico para
Además, R es un software de código abierto, forma parte del proyecto GNU, lo que
distribuye bajo la licencia GNU GPL (General Public License), esta licencia no tiene
restricciones de uso, solo obliga que la distribución sea siempre GLP. Es decir, si
cambias o redistribuyes el código R, esos cambios deben estar disponibles para todo el
público. Por lo que uno de sus beneficios es que puedes acceder a su código,
desarrollar nuevas funciones y paquetes que rápidamente son accesibles a todo público,
Este software obtuvo su nombre a modo de broma, ya que era las iniciales de ambos
creadores; sin embargo, fue el nombre con el que quedó marcado para los amantes de
este lenguaje.
que este trabajo quiere mostrar las estadísticas aplicadas en el control de la calidad
mediante el lenguaje de R, donde se tocará la estadística descriptiva, inferencial y de
relación y correlación. Se debe de tener en cuenta que R está disponible para todos los
sistemas operativos como Windows, Macintosh y sistemas Unix, también permite leer
los datos de otros softwares, entre los más conocidos están SPSS, SAS, Stata y Excel, lo
1. FUNDAMENTOS TEÓRICOS
1.1. Concepto:
estadísticas.
R nos brinda la posibilidad de elegir que editor de texto queremos utilizar junto con R.
Existen varios editores de R disponibles como: RStudio, Tinn-R, Eclipse StatET, Emacs
recordar todos los comandos. También presentar una pantalla de consulta a la ayuda de
R con buscador propio, nos permite observar el listado de variables y valores que
tenemos en nuestra área de trabajo, los paquetes instalados y los gráficos que se vayan
realizando. Además, permite trabajar con archivos como Shiny, Markdown, Sweave,
etc.
Tinn-R: Está disponible para Windows y es sencillo de manejar, pero presenta menos
presentaciones.
Eclipse StatET: Es útil para trabajar con proyectos largos de desarrollo de software.
Emacs Speaks Statistics: Disponible para Linux y Windowa, y es útil por sus atajos de
teclados.
objetos con nombre específico. El usuario puede modificar o manipular este objeto a
Fuente:
Elaboración propia
permite aplicar cálculos a un conjunto de valores a la vez sin necesidad de utilizar una
función bucle.
- El nombre de un objeto debe comenzar con una letra (R toma como objetos
- El operador “rm(list=ls())”, sirve para eliminar todos los objetos del área de
trabajo.
funciones del programa. Los paquetes son una colección de funciones programadas
seleccionar un paquete.
Finalmente, para cualquiera de los dos procesos de descarga, los paquetes deben ser
activados para volverlos disponibles por el programa; esto se realiza desde la barra de
herramientas con Paquetes, Cargar paquete o desde la consola con la función library.
1.6. Operadores
- R como calculadora:
Estas funciones devuelven un solo valor o un vector de longitud 1, a excepción de range () que
retorna un vector de longitud 2, y var(), cov(), y cor() que pueden devolver matrices. Las
3. Funciones de distribución en R:
Figura n: Funciones de distribución. Obtenido de https://cran.r-project.org/doc/contrib/R-intro-1.1.0-
espanol.1.pdf
-Funciones de gráficas
ESTADÍSTICA DESCRIPTIVA
INTRODUCCIÓN
estadístico, esto nos deja tener una idea primera de nuestros datos y de las relaciones entre
Las variables
Para un análisis de los datos es importante saber diferenciar el tipo de variables. Estas
pueden ser cualitativas o cuantitativas. Las últimas pueden ser continuas o discretas,
Una tabla de frecuencias nos permite presentar de forma ordenada las distribuciones de
frecuencia.
el estudio.
- Frecuencia relativa (ni): es la división entre la frecuencia absoluta con el número total
de datos.
obtenemos esta.
Podemos diseñar tablas de frecuencias con datos no agrupados como también con datos
agrupados donde se sugiere agrupar los valores por intervalos para facilitar y de forma
GRÁFICOS
Variables Cualitativas
Diagrama de barras.
Diagrama de sectores.
Diagrama de barras.
Diagrama de cajas.
Polígono de frecuencias.
Diagrama de cajas
Se construye trazando una caja entre los cuartiles superiores e inferiores con una línea
interna que representa la mediana. Las líneas que salen de la caja se denominan bigotes
Histograma
intervalo. A diferencia del diagrama de barras es que en esta es el área de la barra lo que
ESTADÍSTICOS
Después de la tabla de frecuencias y la representación gráfica, podemos utilizar
Dividen un conjunto ordenado de datos en grupos con la misma cantidad. Están los
cuartiles que dividen a la muestra en cuatro partes iguales, deciles en diez partes iguales
Estadísticos de dispersión
Rango.
Varianza.
Desviación estándar.
Error estándar.
Coeficiente de variación.
Estadísticos de forma
izquierda, cero para cuando hay simetría y positiva cuando se da una simetría
hacia la derecha.
Binomial: binom
Poisson: pois
Los nombres anteriores, sin embargo, no son sentencias de R que produzcan una salida
válida. Es necesario anteponerles los prefijos “d”, para la función de masa o función de
probabilidad, “p” para la función de distribución acumulada, “r” para generar valores
> dbinom(4,size=10,prob=0.3)
> dbinom(4,10,0.3)
[1] 0.2001209
Este valor también se podría calcular con la fórmula de la función de masa de una
(nk ¿ pk ( 1− p )n−k
> choose(10,4)*0.3^4*(1-0.3)^6
[1] 0.2001209
es
> pbinom(4,10,0.3)
[1] 0.8497317
La probabilidad de que tome el valor 10 una variable aleatoria de Poisson de parámetro
> dpois(10,lambda=3.52)
[1] 0.002382029
> dpois(10,3.52)
[1] 0.002382029
> ppois(10,3.52)
[1] 0.998933
> rpois(10,3.52)
[1] 4 3 3 3 4 5 4 1 2 1
En primer lugar vamos a simular el lanzamiento de un dado una vez. Para ello
elementos de tamaño especificado entre todos los elementos de un cierto vector. Por
ejemplo, podemos usarla para escoger un número al azar entre los naturales del 1 al 6
> dado<-1:6
> sample(dado,1)
[1] 5
Para simular el lanzamiento más de una vez, por ejemplo 10, evidentemente debemos
> sample(dado,10)
FALSE'
> sample(dado,10,replace=T)
[1] 1 5 3 6 6 4 2 3 2 2
> prdadocarg<-c(0.1,0.1,0.1,0.1,0.1,0.5)
> sample(dado,10,replace=T,prob=prdadocarg)
[1] 5 2 6 4 6 6 5 3 6 2
FUNCIÓN DE DISTRIBUCIÓN
de la variable aleatoria que representa el número de unos y doses que aparecen al lanzar
escalera.
> plot(z,pbinom(z,5,1/3),type="s")
> #Vemos que las probabilidades, a partir de 12 aproximadamente, son muy pequeñas
> x<-0:12
> plot(x,dpois(x,4.32),type="h")
> plot(x,ppois(x,4.32),type="s")
● En la inspección de una tubería se detectaron 3,6 defectos por metro. Obtener y
> #La variable aleatoria X = "nº de defectos en un tramo de 1 m de longitud" sigue una
> x<-0:12
> plot(x,dpois(x,3.6),type="h")
> #Calculamos P(X>2)=1-P(X≤2)
> 1-ppois(2,3.6)
[1] 0. 6972532
La central telefónica de una empresa dispone de 5 líneas, siendo 3 las que están
hora punta estén todas las líneas ocupadas? b) ¿Qué número de líneas sería el
adecuado para garantizar que la probabilidad de que todas las líneas estén ocupadas
> #Sea la variable aleatoria X="nº de líneas ocupadas en hora punta entre 5 líneas". Como
np=3, entonces 5p=3 y p=3/5=0.6 Por tanto, la v.a. X sigue una distribución B(5,0.6)
> dbinom(5,5,0.6)
[1] 0.07776
> #En el apartado b) se trata de determinar el valor de n tal que P(X=n)<=0.01 para una
> dbinom(6,6,3/6)
[1] 0.015625
> dbinom(7,7,3/7)
[1] 0.002655599
Normal: norm
χ 2 : chisq
t de Student: t
Las denominaciones anteriores, igual que para las distribuciones discretas, no son
sentencias de R que produzcan una salida válida. Es necesario anteponerles los prefijos
“d” para la función de densidad, “p” para la función de distribución acumulada, “r” para
distribución).
aleatoria N(-2,4) en una determinada abscisa, valor que por otro lado no tiene ninguna
> dnorm(3,-2,4)
[1] 0.04566227
Este resultado lo podemos obtener así mismo mediante la función de densidad de la variable
aleatoria normal:
> exp(-(1/2)*((3+2)/4)^2)/(4*sqrt(2*pi))
[1] 0.04566227
> pnorm(3,-2,4)
[1] 0.8943502
[1] 0.06559062
FUNCIÓN DE DISTRIBUCIÓN
modelos teóricos, tanto discretos como continuos, a los cuales se van a poder asimilar muchas de
las situaciones de la vida real. El estudio de los modelos teóricos, incluyendo la caracterización a
números aleatorios, van a facilitar enormemente el análisis de estas situaciones reales.[ CITATION
Arr08 \l 3082 ].
Vamos a dibujar ahora la función de distribución de la variable aleatoria normal del ejemplo
anterior:
> curve(pnorm(x,media,destip),from=0,to=100)
encierra en sí mismo unas completas tablas estadísticas que, además, resultan de muy
fácil manejo.
La forma en que el programa R puede ser utilizado como alternativa a las tablas estadísticas
clásicas se resume en el siguiente cuadro (solo se indican los escenarios de uso más
corriente):
EJERCICIOS RESUELTOS
Calcular:
> pnorm(3,2,4)
[1] 0.5987063
> 1-pchisq(5,8)
[1] 0.7575761
3º) F3,5;0.05.
> qf(0.95,3,5)
[1] 5.409451
4º) t5;0.01.
> qt(0.01,5,lower.tail=F)
[1] 3.36493
● Dibujar, superpuestas en un mismo gráfico, las funciones de densidad de las siguientes
> curve(dnorm(x,3,0.75),from=-6,to=6)
> curve(dnorm(x,0,1),add=T)
> curve(dnorm(x,-2,1),add=T)
> curve(dnorm(x,-2,2),add=T)
> #Ahora vamos a obtener las coordenadas de 4 puntos elegidos en el gráfico donde
posteriormente situaremos los rótulos de las curvas. Para ello, una vez ejecutada la
sentencia siguiente, nos colocamos con el ratón sobre los puntos elegidos y pulsamos el
botón izquierdo
> a<-locator(n=4)
$x
> #Colocamos los cuatro rótulos sobre el gráfico en los puntos cuyas coordenadas (x,y)
acabamos de obtener
>text(a$x[1],a$y[1],"N(-2,2)")
>text(a$x[2],a$y[2],"N(-2,1)")
>text(a$x[3],a$y[3],"N(0,1)")
>text(a$x[4],a$y[4],"N(3,0.75)")
> curve(dchisq(x,3),from=0,to=80)
> curve(dchisq(x,10),add=T)
> curve(dchisq(x,30),add=T)
> a<-locator(n=3)
> text(a$x[1],a$y[1],"Ji-cuadrado(3)")
> text(a$x[2],a$y[2],"Ji-cuadrado(10)")
> text(a$x[3],a$y[3],"Ji-cuadrado(30)")
INFERENCIA
imposible o muy costoso estudiar todos y cada uno de los individuos de la población.
PRUEBA DE HIPÓTESIS
Las hipótesis han de especificarse antes de realizar el contraste según la pregunta que se
quiera responder.
ERRORES
Existen dos tipos de errores que podemos cometer al decidir en una prueba de contraste:
TIPOS DE PRUEBAS
Pruebas paramétricas:
Pruebas no paramétricas.
1. Prueba paramétrica
1.1.
considera como una forma de comprobar si dos o más medias muestrales pueden
Aplicación en R
Para aplicar esta prueba en R es necesario tener en cuenta el código para hallar la
Desconocida:
Pchisq(var(y)*(length(y)-1)/sigma0,length(y)-1,lower.tail=var(y)<sigma0)*2
Conocida:
Ejemplo1:
Una empresa de llenado de botellas desea comprobar si su maquinaria rellena las
varianza de la cantidad de líquido que dispensa por botella es mayor a 200 ml para un
nivel de significación del 1%. Para evaluar una máquina se toma una muestra de 40
Planteo de hipótesis:
Ho: ơ=16.3
H1: ơ≠ 16.3
Código:
Resultado:
Fuente: Elaboración propia
Análisis:
- Con un nivel de confianza del 95%, se puede afirmar que la verdadera varianza
Prueba de F: Sirve únicamente para comparar las varianzas de dos muestras que
normal. Es sensible a las desviaciones respecto a la normalidad, ya que suele dar falsos
positivos.
Ejemplo:
Planteamiento de hipótesis:
H1: σ 2ver > σ 2vir ; Versicolor presenta mayor variabilidad en el ancho de sépalo.
Código:
Gráfica.
Análisis:
A través de la gráfica se puede observar que la variabilidad del ancho de sépalo en
versicolor y en viginica parecen similares, por ello, para comprobar la varianza de los
hipótesis Ho.
Ejemplo:
Código:
Resultado:
Fuente: Elaboración propia
Gráfica:
No existe suficiente evidencia para rechazar Ho. Por lo tanto, se asume que la varianza
Para realizar la prueba de Bartlett con dos factores se necesitó especificar la interacción
mediante la función para que calcule adecuadamente los grados de libertad y el p-valor.
2. Pruebas no paramétricas
probabilidad para los datos, además la mayor parte de sus resultados estadísticos se
Mol03 \p 1 \n \y \t \l 10250 ]
La prueba de chi cuadrado para una muestra permite averiguar si la distribución de una
ajuste es diseñada para comparar frecuencias obtenidas en una muestra concreta con las
Ejemplo:
Analizar si las muertes si las muertes en el ejército prusiano debido a las patadas de
caballos o mulas en 200 cuerpos de caballería se producen por puro azar en los distintos
Código:
Resultados:
Gráfica:
Fuente: Elaboración propia
Análisis:
Se observa en la gráfica que las dos últimas frecuencias esperadas son inferiores a 5, por
Como p=0.898, se concluye que no existen evidencias en los datos en contra de que este
Ejemplo:
Los datos del paquete corresponden a porcentajes de alcanzar la base de 438 jugadores
Ho: Los porcentajes de los datos del paquete siguen una distribución normal.
H1: Los porcentajes de los datos del paquete no siguen una distribución normal.
Código:
Resultados:
Fuente: Elaboración propia
Análisis:
Se rechaza la hipótesis Ho, el valor de p es muy pequeño; por lo que se concluye que los
Esta prueba es preferible usarla cuanto se contraste el ajuste de datos de una distribución
normal de una muestra pequeña. En este caso, al igual que en el anterior nos confirmará la
Ejemplo:
Código:
Fuente: Elaboración propia
Resultado:
PRUEBA DE HOMOGENEIDAD
relacionados)
pero se compara medianas no medias. Es útil para casos donde no cumple la normalidad
Ejemplo - aplicado en R:
Utilizaremos datos de la revista MOTOR TREND US que refleja el consumo de
consumo de gasolina según el tipo de transmisión del coche, cómo son los datos
paramétricas.
Solución:
H1: negación de Ho
Código en R
Resultado
Gráfica
Como el valor de p- valor (0,001871) que nos arroja el programa es menor que el 5%,
rechazamos la hipótesis nula y el gráfico nos indica que los coches con trasmisión
Ejemplo - aplicado en R:
una primera (x) y segunda (y) visita luego de iniciar la terapia con la
administración de un tranquilizante.
Ho : µantes ≤ µdesp ú es
Primero, como las muestras son pequeñas es de esperar que no sea normal. Sin embargo,
podemos comprobarlo.
Como no cumple con la normalidad, tiene sentido aplicar pruebas no paramétricas.
Segundo, como son muestras relacionadas no tengo que hacer contraste de varianza (son los
Resultado:
efectivo.
hipótesis nula, que los datos vienen de la misma distribución. Una forma común en que
H1: no todas las muestras tienen la misma distribución (al menos hay diferencias de dos
muestras).
Ejemplo - aplicado en R:
La cañota es una mala hierba como en campos de maíz. Un agrónomo sembró la misma
parcelas a lazar en 4 grupos. Luego eliminó las malas hierbas a mano de manera que se
dejó un determinado número de cañotas por metro lineal de maíz sembrado. Eliminó
todas las restantes malas hierbas. Dejó 0, 1, 3 y 9 cañotas por metro lineal,
hierbas, todas las parcelas se trataron de la misma manera. He aquí los rendimientos
Solución:
α : 0,05
Como mi α (0,05) < p (0,1204) entonces no rechazo Ho, es decir, existe evidencia
Prueba de Friedman
Es una prueba no paramétrica desarrollado por el economista Milton Friedman. Equivalente a
ordenar los datos por filas o bloques, reemplazándolos por su respectivo orden. Al ordenarlos,
Ejemplo - aplicado en R:
Se realiza un experimento para investigar el efecto tóxicos velas de las 3 sustancias químicas,
ratas y cada una de las 3 sustancias se aplica a cada rato. Los cuadros de piel de cada rata se
máxima). Los datos resultantes se dan en la siguiente tabla. ¿Hay suficiente evidencia apoyar la
α=0,10.
RATA A B C
1 3 2 1
2 3 2 1
3 2 3 1
4 1 3 2
5 1 2 3
6 1 3 2
7 2 3 1
8 3 1 3
Solución:
Rechace Ho
Los datos no son normales.
Las hipótesis a plantear son:
• Ho: Existe evidencia estadística de que la irritación en los animales es igual con
Como mi α (0,05) < p (0,3679) entonces no rechazo Ho, es decir, existe evidencia
estadística de que la irritación en los animales no es igual con todos los agentes
químicos.
Regresión y correlación
Correlación
respectivamente.
Correlación simple
disminuye, entonces las dos variables covarían. Si una variable no cambia con el
aumento o disminución de la otra entonces la variables no covarían. Sin embargo si las
lineal de Pearson.
entre dos variables toma valores en el intervalo de [1 , -1] donde un valor negativo
indica relación inversa o negativa, un valor positivo indica relación directa o positiva, y
un valor nulo indica que no existe relación entre ambas variables o que dicha relación
no es lineal. Cuándo más cercano sea el valor a los extremos del intervalo más fuerte es
la relación lineal entre las variables y cuando más cercano sea a 0 más débil será.
Aplicación en R
En todas ellas podemos especificar como considerar los datos permitidos mediante la
opción nar.rm :
por defecto.
use=”all,obs” asume que no existen valores ausentes. Cuando sí existen valores
use=”complete,obs” solo se utilizan los casos que están completos para todas las
variables.
use=”pairwise.complete.obs” solo se utilizan los casos que están completos para todas
las variables.
También podemos decir que tipo de correlación queremos utilizar: pearson o kendall.
Ejemplo:
4 variables.
stack.loss).
Water.Temp y Air.Flow.
Obtenemos una correlación positiva y alta (r = 0.782).
A un nivel de confianza del 95% podemos afirmar que existe una relación lineal
Correlación no paramétrica
bivariada (es decir, cuando alguna de las variables o ambas no son normales), o
donde las transformaciones no nos son útiles (e.g. por interpretación). Para analizar
La hipótesis nula a contrastar es que no existe una relación monotónica entre las
variables X e Y.
Aplicamos en R
argumento method.
Ejemplo:
La correlación parcial de Spearman y la de Kendall ahora es significativa para las
variable restante.
Regresión lineal
funcional entre las mismas. En estos casos, debemos ajustar modelos estadísticos
a los datos.
La regresión lineal nos permite modelar el valor de una variable según una o más
variables, a través de una función lineal monotónica. Es decir, asume que un
el consumo de gasolina sea cual sea su valor de origen (lo mismo es un aumento
predictores.
explicada por su relación con las variables predictoras y qué parte no es explicada
o no.
Parámetros del modelo
Bondad de ajuste R2
determinación R2 que toma valores en el intervalo [0, 1]. La interpretación usual del
explicada por el modelo, por lo que un valor cercano a 1 significa que el modelo es
bastante efectivo.
regresión múltiple se aconseja utilizar el R2 ajustado, que ajusta su valor para dar
Queremos evaluar qué tan bien se ajusta el modelo a los datos observados. Para ello
existen observaciones que puedan ser outliers que tengan una influencia indeseada
1. Leverage.
Es una medida de qué tan extremos es una observación para la variable X. Mide
cuánto xi influye sobre yiSe simboliza con hi debido a que vienen de una matriz
llamada hat, y toman valores en el rango [1/n, 1]. Un criterio útil es considerar que
tal manera que tengan media cero y varianza próxima a 1, para distinguir a los
residuos grandes) y
- los residuos estudentizados (se calculan del mismo modo que lo estandarizados
- Si los mayores valores de Yi se asocian con los residuales de mayor valor, puede
normalidad.
- Si el patrón es en forma de cuña (mayor dispersión para mayores valores de xi o
Yi), indica que aumenta la varianza en el y en yi al aumentar xi. Esto se asocia con
el incumplimiento
la presencia de outliers.
número de observaciones con valores similares para una de las variables (ej. ceros).
3. Distancia de Cook.
lineal y los
el valor de leverage como los residuales de cada observación. Los valores altos
sigue el patrón establecido por el resto de los datos. Es decir, son valores
2 o 3, según el autor.
:: puntos de Leverage, son puntos que están distantes del resto de los
términos de al variable X.
Dado un valor xi, podemos estimar el intervalo de confianza de las predicciones para el
Regresión lineal
i.
Necesitamos estimar los parámetros ,β 0 β 1 o2€ (la varianza residual), para determinar la
recta de regresión muestral: yi = b0 +b1* xi, donde Yi es el valor predicho por la recta de
regresión para cada xi, b0 y b1 son las estimaciones muestrales de /30 y )31,
cuadrados OLS, es decir, los valores estimados serán aquellos que minimicen la suma
de desviaciones cuadradas (SS) entre los valores observados y los valores predichos por
el modelo.
NOTA: el modelo de regresión lineal para variables estandarizadas no
Pendiente.
de X e Y.
Intercepto.
Ejemplo
Volvemos a utilizar los datos del paquete . Primero observamos los datos y
graficamos
En el gráfico de dispersión vemos que algunos puntos escapan del comportamiento
general. Vamos a ajustar una recta por mínimos cuadrados (LS) mediante la
función .
El objeto "fitLS" contiene los resultados del análisis, que observamos con la orden
"summary".
mismo, podemos concluir que nuestro modelo resulta en mejores predicciones del
número de llamadas respecto al modelo nulo (i.e. si utilizáramos tan solo la media
de los años como predictor). Sin embargo, el modelo explica tan solo el 29.6% de
solamente. Por lo tanto, deben existir otras variables que también influyan.
El ANOVA nos dice que el modelo en general es bueno, sin embargo, no nos dice
260.059. En este ejemplo esto no tiene sentido y por tanto podríamos plantearnos
asociado a cada unidad de cambio en el predictor. En este caso por cada año nuestro
corresponden a las pruebas de hipótesis para los coeficientes del modelo (H0 :
Los siguientes gráficos nos permitirán realizar el diagnóstico del modelo a través de los
residuos.
"dfbeta", los DFFit con "dffits" y los valores hat (leverage) con
"hatvalues".
CONCLUCIONES
R es un lenguaje de alto nivel y un ambiente para el análisis de datos y graficacion,
en computación.
1. Es de excelente calidad
ayuda
mundo.
RECOMENDACIONES
Para iniciar en R lo primero que se tiene que aprender son las sintaxis y cada uno
que a diferencia de los otros programas R presenta una base de datos reales que
a ido acumulando de todas partes del mundo y que nos pueden servir para
Referencias
Arriaza Gómez, A. J., Fernández Palacín, F., López Sánchez, M. A., Muñoz Márquez, M., Pérez
Plaza, S., & Sánchez Navas, A. (2008). Estadística Básica con R Y R- Comander. Cáliz:
http://cms.dm.uba.ar/academico/materias/1ercuat2019/met_no_param/estadistica_
basica_con_R.pdf
https://cran.r-project.org/doc/contrib/R-intro-1.1.0-espanol.1.pdf
para finanzas. Sevilla, España: Sevilla, España : Universidad Pablo de Olavide, 2010.
Obtenido de
https://www.upo.es/export/portal/com/bin/portal/upo/profesores/jaordsan/profesor
/1311101268463_mxtodos_estadxsticos_y_economxtricos_en_la_empresa_y_para_fi
nanzas.pdf
https://www.alceingenieria.net/bioestadistica/noparame.pdf