Está en la página 1de 10

INSTRUCCIONES PARA EL PROGRAMA R

 ¿Cómo abrir el programa de R?


1º) Abrir el programa R
2ª) Una vez abierto, escribir “ library (Rcmdr) “
3º) Darle al botón ENTER del teclado del ordenador.
4º) Seguramente con esto sea suficiente, pero si no se abre debemos pinchar en la pestaña
de “paquetes” de la parte superior.
5º) Seleccionar la opción de “instalar paquetes” y elegir el idioma de “español”.
6º) Se abrirá una pestaña y debemos elegir todos los programas que empiecen por “Rcmdr”.
7º) Por último volvemos a escribir “ library ” y nos saldrán varias pestañas informando que
faltan más actualizaciones, seleccionamos el botón de SÍ.

 ¿Cómo exportar los datos a R?


1º) A partir de los datos de Excel, creamos una hoja nueva (en Excel) con los datos que
queremos exportar al programa R y la guardamos.
2º) Podemos cerrar Excel cuando ya hayamos guardado dicha hoja y abrimos el programa R.
3º) Una vez abierto, realizamos el procedimiento para que se abra correctamente el
programa.
4º) Seleccionamos la pestaña de “datos” en la parte superior del programa. Posteriormente
elegimos “importar datos” y finalmente “desde un archivo Excel”
5º) Podemos introducir un nombre del conjunto de datos y pinchamos en aceptar. Este
nombre debe ser escrito sin espacios, ni comas, ni barras.
6º) Luego cuando seleccionemos “aceptar”, se nos abrirá la pestaña para poder buscar el
archivo que queremos exportar

 ¿Cómo guardar lo que hemos hecho?


I)Opción A
1º) Presionamos en “Datos”, seguidamente “Conjunto de datos activo” y por último “Guardar
el conjunto de datos activos”.
De esta forma se nos guardará como un archivo de R
II) Opción B
1º) Cuando pinchemos al botón de cerrar, nos preguntara varias cosas y el que hay que
guardar es el archivo de salida que es el que recoge los cálculos hechos.
De esta forma se nos guardará como un block de notas, pero al profesor le interesa que se lo
demos en un Word, así que podemos copiar los datos y pegarlos en un Word seleccionando un
tipo de letra de tipo ancho, así como “letra Courier”

 ¿Cómo calcular medias, mínimos, máximos, varianzas…?


1
- El programa de R, calcula la desviación típica de la población
- El valor “sd” (que sale al lado de mean); sirve para sacar la varianza de la muestra,
¿Cómo? elevando el dato al cuadrado.
1º) Estadísticos  Resúmenes  conjunto de datos activos (nos saldrá el mínimo, máximo,
mediana, media
2º) Estadísticos Resúmenes Resúmenes numéricos-> Sale un cuadrado y le damos a la
opción de estadísticos y se elige lo que se quiere calcular.

Si queremos resumir por grupos:


1º) Estadísticos Resúmenes Resúmenes numéricos-> Sale un cuadrado y le damos a la
opción de datos a resumir por grupos.

 ¿Cómo dibujar un histograma?


1º) Graficas Histograma Gráfica por grupos y se forma un histograma.

 ¿Cómo comprobamos que son datos normales o no normales?


Tenemos 2 formas.
1º) Podemos observar el histograma a ver si su forma corresponde a una distribución de
tipo normal.
2º) Podemos realizar un test de normalidad (con este comprobaremos de cierto modo si los
datos son normales, además de aplicar las diferentes distribuciones, sobre todo la
distribución “Shapiro-wilk”)

 ¿Cómo realizar un test de normalidad en R?


1º) Seleccionamos en la parte superior la pestaña de “Estadísticos”, seguidamente
pinchamos en “Resúmenes” y finalmente seleccionamos “Test de normalidad” y por ejemplo
elegimos la distribución de “Shapiro-Wilk”.
¿Qué problema hay si usamos la de “Chi cuadrado de Pearson? El problema que nos
encontramos es que n (número de elementos) debe ser mayor a 5.
Distribución de “Shapiro-Wilk”:
“W” es el estadístico
“p-value” es el valor de probabilidad que nos indica si los datos son o no normales ( depende
del intervalo o el rango que nos proporcione el ejercicio, si por ejemplo nos dicen que tiene que salir
una probabilidad>5% aquel “P-value” mayor del 5% será aceptado, sin embargo, aquel “p-value” inferior
del 5% será rechazado)
En el caso del ejercicio 5, nos sale que no es normal.
Alfa= nivel de significación.

 ¿Cómo comparamos por dos grupos?

2
1º) Seleccionamos la pestaña de “Estadísticos” de la parte superior, pinchamos a “Resúmenes”
y luego “Test de normalidad”. Nos saldrá una pestaña y debemos buscar donde ponga
“Resumir por grupos”

Nos saldrán todas las variables con las que queramos trabajar. Pinchamos en las que nos
convengan y pulsamos aceptar.

 ¿Cómo podemos establecer intervalos de confianza?


1º) Pinchamos en la parte superior la pestaña de “Estadísticos”, seguidamente pinchamos en
“Medias” y finalmente “Test T para una muestra”.
2º) El ejercicio nos dará un nivel de confianza que debemos poner en la opción de “Nivel de
confianza”.
En el ejercicio 5)
t = 35.947, df = 129, p-value < 2.2e-16 (nos indica que tiene una probabilidad de 2.2 elevado a -16)
alternative hypothesis: true mean is not equal to 0 (indica que la media no es igual a 0)
95 percent confidence interval:
1003.177 1120.038 (esto quiere decir que tengo una garantía del 95% que su salario este
comprendido entre  (1003,18 ; 1120,04)
sample estimates:
mean of x (esto es la media total de todas las variables)
1061.607

 ¿Cómo podemos separar dos variables?

3
(En el caso del ejercicio 5, separaremos por un lado hombres y por otro lado mujeres)
1ª) Pincharemos en la pestaña de la parte superior “Datos” luego seleccionamos “Conjunto
de datos activo” y finalmente “Filtrar el conjunto de datos activo”
2º) Se nos abrirá una pestaña. En esta aparecerá “Expresión de selección” que deberemos
poner Sexo==”H” (esto que ponemos debe ser ir igual que lo tenemos, mismas mayúsculas, minúsculas…)
3º) Se nos creará como una nueva hoja, que si pinchamos nos aparecerán las hojas creadas.

Podemos calcular los intervalos de confianza de la variable de hombres con el procedimiento


anterior.

Para calcular los intervalos de confianza de las mujeres; Debemos volver a la hoja principal, ya
que esta seleccionada la hoja de hombres (como podemos ver en la imagen aportada).

En este caso, seleccionaremos la de “Prueba”.

 ¿Cómo podemos comparar varianzas?


1º) Seleccionaremos en la parte superior la pestaña de “estadísticos”, posteriormente
pincharemos sobre “varianzas” y por último “Test F para dos varianzas”
(Podemos asegurar que no son las mismas mirando el p-value ya que es menor que el 5%)

 ¿Cómo podemos medir el peso de antes de exámenes y después de exámenes de


Andrea?
Pues iremos a la pestaña de arriba de “estadísticos”, seguidamente seleccionaremos “Medias”
y por último “Test T para una muestra independiente”

La hipótesis nula ¿Son iguales? Si es cierto que son iguales , la probabilidad (p-value)

En el caso del ejc 5 rechazaría con un 95% (que es lo que nos dicen) que los hombres ganan lo
mismo que las mujeres.

La diferencia entre lo que ganan los hombres y lo que ganan las mujeres esta puesto en el
intervalo de confianza para el intervalo de las medias

Para saber cuánto ganan más los hombres que las mujeres, podríamos sacar la media de ese
intervalo.

4
CLASE PRÁCTICA 22/12/2022
Estadísticos Resúmenes Resúmenes numéricos
-Rango intercuartílico: la distancia que hay entre Q3 y
Q1(cuartil 75-cuartil 25). El intervalo de valores en los que esta
comprendido el 50% de mis datos.

-Error típico de la media: S/raíz de n.

Nos calcula la desviación típica de la muestra (divide por n-1)

Coeficiente de variación: desv típica/media


Mean: media
Sd: desviación típica
Se(mean): error típico de la media
Cv: coeficiente de asimetría
Skewness: asimetría
Kurtosis: Curtosis o apuntamiento
Si elegimos los recuentos de frecuencia nos dan una tabla como por ejemplo esta; ha elegido valores de
2 en 2. Aquí tenemos numéricamente el histograma.

Ejercicio 1 de la práctica 2:
1º) Exportamos los datos a R
2º) EstadísticosResúmenes Resúmenes numéricos Resumir por grupos y se nos abrirá
una pestaña con todas las variables cualitativas, en este caso solo tenemos 1 (sexo)
¿Quiénes ganan más interpretando dichos resultados?
Los hombres porque tiene una media mayor
¿Qué salario es más variable?
El de los hombres porque la desviación típica es mayor
El salario de los hombres varía un 35% de la media y el de las mujeres un 13%
¿Asimetría y curtosis?
Son números pequeños.
Las que salen negativas son relativamente aplastadas
La Kurtosis es un número que compara con el apuntamiento de la normal
Negativo Más aplastada que la normal
Positivo Más apuntada que la normal

5
Podemos observar que la distribución de los hombres esta más a la derecha (o que su media
esta más hacia la derecha) y más dispersa que la de las mujeres.

¡!
¿PODEMOS PENSAR QUE LOS HOMBRES Y LAS MUJERES GANAN LO MISMO?

1) Comparar medias de dos poblaciones (hombres y mujeres)


- ¿Son normales las poblaciones?  Test de normalidad
Estadísticos Resumenes Tes de normalidad
Elegimos la variable cuantitativa que queremos; SHAPIRO WILK
Nos sale W = 0.96928, p-value = 0.004779
Miramos si W cae dentro de la zona de aceptación, si cae dentro será normal si cae fuera
diremos que es poco normal.
Rechazaremos la hipótesis de que la muestra procede de una población normal
debido a que el p-value es menor que el 5%
2) Comparamos el test de normalidad para hombres y mujeres por separado
Estadísticos ResumenesTest de normalidad TEST POR GRUPOS
Sexo = H
W = 0.99116, p-value = 0.8537
Sexo = M
W = 0.96696, p-value = 0.1923
Como el p-value es mayor del 5% en ambos casos, podemos aceptar que proceden de
una población normal
3) Comprobamos si la varianza de la primera población es igual a la varianza de
la segunda población.
Usamos la distribución Fisher
Estadisticos Varianza TEST F PARA DOS VARIANZAS
F = 9.4322, num df = 81, denom df = 47, p-value = 2.198e-13
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
5.54584 15.48480
sample estimates:
ratio of variances
9.432207
Si las dos varianzas fueran iguales, su cociente vale 1 por lo que esta fuera del intervalo
de confianza (5.54584 15.48480).
Por lo tanto, rechazaremos la hipótesis.

6
4) Usaremos una distribución T para saber si las medias son iguales.
EstadisticosMediasTest T para muestras independientes

Como ya hemos visto que las varianzas no


son iguales marcamos la opción de NO

Welch Two Sample t-test

data: Ingreso by Sexo


t = 4.6782, df = 106.95, p-value = 0.000008508
alternative hypothesis: true difference in means between group H and group M is not equal
to 0
95 percent confidence interval:
126.5998 312.7916
sample estimates:
mean in group H mean in group M
1142.7255 923.0298

Podemos observar:
-El resultado del test es 4,6782 (la famosa T calculada)
Df: grados de libertad
-P-value: podemos decir que no aceptamos que las medias son iguales, no podemos aceptar
que los hombres estén ganando lo mismo que las mujeres. Debido a que es <5%
-El intervalo de confianza para la diferencia de las medias esta entre 126 y el 312. Lo que
significa que con una seguridad del 95% los hombres en el conjunto de la muestra ganan entre
126 y 312 más que las mujeres.
O de otra forma: yo con un nivel de significación del 5% no puedo rechazar que los hombres
ganan distinto que las mujeres.

NO ENTRA ¿Qué pasaría si el punto 1 y el punto 2 ambos salieran que no son normales?
Estadísticos Test no paramétricosTest Wilkons para dos muestras

Contrastar proporciones (Puede preguntar algo, curiosear)

7
EJERCICIO 3, PRÁCTICA 2

Si quiero elegir una muestra al azar, elegimos una tabla de número aleatorios.
Excel Funciones->Matemáticas->Aleatorio() Es una función sin argumentos
En esa casilla que pongamos la función cada vez nos generara un número aleatorio
Cogemos esos datos, y los pegamos como valores en una hoja nueva para que no se nos
muevan para importarlos a R

GráficasHistograma

Elegimos la uniforme
(vemos en la gráfica que tiene
una forma de una distribución
uniforme)

Elegimos normal
(vemos que se parece más
a una distribución normal)

DistribucionesDistribución continuaDistribución uniformeMuestra de una distribución


uniforme

Le damos aceptar y arriba a visualizar


conjuntos de datos y nos saldrá esta pequeña tabla
con números aleatorios de las 100 observaciones

Si la quisiéramos para una distribución continua: DistribucionesDistribución


continuaDistribución normalMuestra de una distribución normal
Y ya nos saldría, otra tabla con diferentes números aleatorios.
(Podemos elegir 100 filas y 1 columna, y en vez de formato de fila nos saldrá en formato en columna)

8
EJERCICIO 2, PRÁCTICA 2

1º) Copiamos los datos en una hoja nueva en Excel para poder exportarlos a R
2º) Exportamos a R los datos
3º) Me pregunta por la normalidad de los datos Estadísticos->Resúmenes->Test de normalidad
W = 0.96557, p-value = 0.3171
Podemos decir que con una seguridad del 95% esa muestra de semillas es normal.
4º) Sacamos la media y las demás estadísticas Estadísticos->Resúmenes-> Resúmenes numéricos
mean sd se(mean) IQR cv skewness kurtosis
19.48818 3.567004 0.5945006 3.092651 0.1830342 -0.1380253 0.6390203
5º) ¿Puedo aceptar que la población de la que procede esta muestra tiene un peso medio
mayor de 20 gramos? Pues como me ha dado una media de 19,48 es difícil aceptarlo, pero
vamos a comprobarlo.  Me esta preguntando por un test unilateral
1- La normalidad: que ya la hemos visto con el p-value
2- Igualdad de las varianzas: no me hace falta porque solo tengo una muestra
3- Si es una media de una población normal Distribución t
4- Calculamos el valor t  X-u(20g)/error estándar >=20
19,48818-20/0,5945006= 0,860924
5- Estadísticos->Medias-> Test T para una muestra
data: PMG
t = -0.86092, df = 35, p-value = 0.8024
alternative hypothesis: true mean is greater than 20
95 percent confidence interval:
18.48373 Inf
sample estimates:
mean of x
19.48818
Como el P-value es mayor del 5% si que
puedo aceptar que la población procede de una muestra cuya media es mayor de 20
El intervalo de confianza es asimétrico.

1º) Intervalo de confianza para la varianzaDistribución chi cuadrado


2º) EstadísticosVarianza pero no hay ninguna opción activa
Entonces;
EstadísticosMedias Test T para una muestraEn la hipotesis alternativa elegimos la de !
=mu0  Entonces nos sale otro intervalo de confianza 18.28128 20.69508

DistribucionesDistribuciones continuasDistribución Chi cuadradoCuantiles chi cuadrado


Si yo elijo cola izq del 0,6 es lo mismo que el 0,4 con cola derecha
Ponemos en probabilidad 0.975 y grados de libertad 35 y cola izq
Y nos da: 53,20
Ponemos en probabilidad0,975 y grados de libertad 35 y cola der.
Y nos da : 20,56
Que son los dos números que nos hacen falta para establecer el
intervalo de confianza ya que tenemos sd y n

IC del 95% (36-1)*(3.567004)^2 / 53.20335 = 8.370208


(36-1)*(3.567004)^2 / 20.56938 = 21.64981 IC (8,37 ; 21,65)

9
Funciones:
Distrib: z,t,g.l  Distr.T()
Cuantiles: P g l Inv.t()
Tabla dinámica Insertar  en tabla (se abre una pestaña)
De la tabla dinámica copiar como valores
Boton derecho, configuración de campos de valor,
Ordenar, con el filtro
¿Ganan lo mismo o no ganan lo mismo?
¿Normales?  Test de normalidad
-P<0,05 No
-P>0,05 SI  sigma1 al cuadrado=sigma al cuadrado2? Puede se rque si o ono
Ejercicio 3
Tabla de números aleatorios
Ejc 2
data: PMG
t = -0.86092, df = 35, p-value = 0.8024
alternative hypothesis: true mean is greater than 20
95 percent confidence interval:
18.48373 Inf
sample estimates:
mean of x
19.48818
Podemos aceptar la hipótesis ya que el 19,48818 esta dentro del intervalo de confianza
Podemos escribir en la parte superior de R luego para calcularla, podemos darle a ejecutar

10

También podría gustarte