Está en la página 1de 48

ESTADÍSTICA DESCRIPTIVA (PARA AGRARIAS)

UNIDAD 1 - FASE 2 - IDENTIFICACIÓN DE


VARIABLES ESTADÍSTICAS

ELABORADO POR:
DANIEL BELEÑO - CÓDIGO 1110528735

JHON FREDY CARDENAS – CÓDIGO 10967631

LEIDY JOHANA FLOREZ MONTOYA – CÓDIGO 1033336242

WILLIAM DE JESUS DIEZ – CÓDIGO 8462775

VALEIA GUARIN – CÓDIGO

GRUPO - 300046_112

TUTORA
DAMILETH DE ARMAS

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA


INGENIERÍA AMBIENTAL
ECAPMA
OCTUBRE 2020
INTRODUCCION

Para contextualizar nuestro trabajo comenzaremos por hacer un breve


resumen de algunos elementos teóricos que se van a utilizar y que serán parte
de la problemática a estudiar.
Seguidamente daremos un enfoque sistemático de lo que representa la
estadística en la vida cotidiana al momento de una buena toma de decisiones,
y la manera como utilizar el programa R para mejorar el procesamiento de los
datos recolectados.

Para nuestro presente, la estadística nos ha ofrecido un método efectivo para


describir con exactitud los valores de datos ambientales, económicos,
políticos, sociales, psicológicos, biológicos o físicos, esta herramienta nos
ayuda a determinar relaciones y analizar dichos datos disminuyendo las
probabilidades de tipo error mediante tablas o gráficos, que nos facilitan el
proceso de interpretación de las diferentes informaciones obtenidas teniendo
una gran exactitud de un estudio estadístico.
Objetivo general

Elaborar documento de identificación y análisis de variables estadísticas

Objetivos específicos

Definir claramente los conceptos básicos de la estadística descriptiva

Distinguir datos cualitativos y datos cuantitativos

Utilizar herramientas tic para el procesamiento de la información, en este caso


el programa R
1. Resolver las siguientes preguntas:
a) ¿Qué es una variable cuantitativa continua?

Una variable continua es aquella que puede tomar valores comprendidos entre
dos números, es decir puede tomar cualquier valor de un intervalo real.
Ejemplos:

- Estatura de un grupo de personas


-Cantidad de lluvia caída en una región en una época o tiempo determinado
b) ¿Qué es una variable cuantitativa discreta?
En base a (Balzarini, y otros, Estadìstica y Biometrìa, 2013, p. 6) cuando lo
posibles valores de una Variable provienen de un proceso de conteo y son
números enteros, se identifica una Variable Cuantitativa Discreta.

c) ¿Qué es una variable cualitativa nominal?

(Balzarini, y otros, Estadìstica y Biometrìa, 2013, p. 7) Las clases representan


una cualidad sin ningún sentido de orden, respecto a otras clases de Variable;
a lo inmediatamente anterior escrito se le menciona como Variable Cualitativa
Nominal.

d) ¿Qué es una variable cualitativa categórica?

Tomando a (Tablada, Balzarini, & Còrdoba, 2013, p. 15) las frecuencias


individuales pertenecientes a cada clase, son variables que no usan
frecuencias acumuladas relacionándose de mayor o menor careciendo de
sentido entre sus valores o categorías.

e) Cuál es la diferencia entre media poblacional y media muestral.


Definiciones:

Media poblacional: El punto de equilibrio de una distribución se le conoce como


media conforme a (Tablada, Balzarini, & Còrdoba, Anàlisis exploratorio de
datos, 2013, p. 30)

Media muestral. Se usa para estimar la media muestral de una población. Su


formula esta dada por:

𝑛
1 𝑋1 + 𝑋2 + ⋯ 𝑋𝑛
𝑥𝑛 = 𝑇(𝑋1 , 𝑋2 , … , 𝑋𝑛 ) = ∑ 𝑋1 =
𝑛 𝑛
𝑖=1

La diferencia radica en que la media poblacional debe tomar todos los datos
que tiene para realizar un estimado, la media muestral por el contrario toma
solo una muestra que sea relevante.

f) ¿Qué es la varianza de una población?

Cuadrado de la desviación estándar poblacional


g) ¿Qué es desviación estándar?
Se obtiene de la raíz cuadrada de la varianza, conocida también como
desviación típica. Se utiliza para identificar valores extremos
h) ¿Qué es la Regla de Sturges ¿para qué sirve?

La regla de Sturges, es una regla práctica acerca del número de clases que
deben considerar al elaborarse un histograma.

Este número viene dado por la siguiente expresión:

a. c= 1+ log2 ( M ), donde M es el tamaño de la muestra.


Que puede escribirse a partir de logaritmos base 10 de la siguiente forma:

b. c= 1 + log (M) / log (2), donde M es el tamaño de la muestra.

El valor de c (número de clases) es común redondearlo, si tu entero del


resultado previo al redondeo es "par" se redondea al alta y si el entero es
"impar" se redondea a la baja.

i) ¿Qué es frecuencia absoluta?

Frecuencia absoluta: Se denomina frecuencia absoluta al número de veces


que el valor de la variable se repite en un conjunto de datos.

j) ¿Qué es frecuencia relativa?

Es el cociente entre la frecuencia absoluta de un determinado valor y el


número total de datos. La frecuencia relativa se puede expresar en tantos
por ciento y se representa por ni. La suma de las frecuencias relativas es
igual a 1.

k) ¿Qué es frecuencia relativa acumulada?

Es el cociente entre la frecuencia acumulada de un determinado valor y el


número total de datos.

l) ¿Cuál es la diferencia entre una tabla de frecuencias absolutas


de una variable continua y de una discreta?

Tabla de frecuencias de una variable discreta: estas tablas no contienen


intervalos. Solo manejan números reales en la primera columna o en la parte
de la variable
TABLA DE FRECUENCIAS DE VARIABLE CONTINUA: En estas tablas las
variables las vamos a encontrar como intervalos.
En la siguiente grafica encontramos un ejemplo de este tipo de tabla
m) ¿Qué es un Boxplot o diagrama de cajas, para qué sirve?
Box-plot o diagrama de cajas se representa a una distribución señalando,
además de los cuantiles y la presencia de valores extremos o aberrantes, la
posición de la media y de la mediana

n) ¿En qué tipo de variables se usa el histograma?


Un histograma es una representación gráfica de datos agrupados mediante
intervalos. Los datos provienen de unas variables cuantitativas continuas.
o) ¿En qué tipo de variables se usa el gráfico de barras?
El grafico de barras es una forma de representar gráficamente un conjunto de
datos o valores, y está conformado por barras rectangulares de longitudes
proporcionales a los valores representados. Los gráficos de barras son usados
para comparar dos o más valores. Las barras pueden orientarse horizontal o
verticalmente y se utiliza para representar datos de variables cualitativas o
discretas.

2. Con los siguientes datos de la variable cuantitativa continua EDAD

18.4 19.2 19.6 23. 20.


20.4 19.4 21.4 18 24
17 22 15 22 25
Hallar:

a. Media.
Se suma todos los valores de la tabla y se divide por la misma cantidad

𝑥1 + 𝑥2 + 𝑥3 + 𝑥4 + 𝑥5 + ⋯ 𝑛
𝑥=
𝑁
𝐴𝑃𝐿𝐼𝐶𝐴𝑁𝐷𝑂 𝐹𝑂𝑅𝑀𝑈𝐿𝐴

𝑥
18.4 + 19.2 + 19.6 + 23 + 20 + 20.4 + 19.4 + 21.4 + 18 + 24 + 17 + 22 + 15 + 22 + 25
=
15
304.4
= = 20.29
15
b. Mediana.
Cuando el número de datos es impar ordenamos y escogemos el número
del medio
15+17+18+18.4+19.2+19.4+19.6+20+20.4+21.4+22+22+23+24+25
Mediana es 20 edad

c. Moda. Son los datos que más se repiten


15+17+18+18.4+19.2+19.4+19.6+20+20.4+21.4+22+22+23+24+25
Moda es 22 edad

d. Varianza
𝑛 2

𝑖 = 1 (𝑋𝑖 − 𝑋)
𝑁

APLICANDO LA FORMULA.
(18.4 − 20)2 (19.2 − 20)2 (19.6 − 20)2 (27,53. −20)2 (20 − 20)2 (20.4 − 20)2 (19.4 − 20)2 (21.4 − 20)2 (18.
15
(25 − 20)2

2.56 + 0.64 + 0.16 + 9 + 0 + 0.16 + 0.36 + 1.96 + 4 + 16 + 9 + 4 + 25 + 4 + 25


𝑉𝐴𝑅𝐼𝐴𝑁𝑍𝐴
15
101.84
= = 6.78
15

e. Desviación estándar.
£=√6.78=2.60

f. Rango de datos.
15+17+18+18.4+19.2+19.4+19.6+20+20.4+21.4+22+22+23+24+25

RANGO MAX-MIN
25-15=10
RANGO ES 10
g. Indicar el valor de los cuatro cuartiles.
15+17+18+18.4+19.2+19.4+19.6+20+20.4+21.4+22+22+23+24+25

Q1 Q2 Q3

h. Realice el gráfico de frecuencia absoluta utilizando la regla de Sturges:

Ley de sturges :

1. Número de intervalos (K)


𝑘 = 1 + 3,22 ×𝑙𝑜𝑔 𝑙𝑜𝑔 (10)(𝑁 ) , N=15

K= 4,91 = 5 por lo que tendrá 5 intervalos, se aproxima a un entero

2. Cálculo el rango (R), la diferencia entre el valor más grande y el valor


más pequeño de la muestra.
R = 25 – 15 = 10

3. Amplitud del intervalo (R/K)


R/K = 10/5 = 2 por lo que los intervalos van a tener una amplitud de 2
unidades

Intervalos

14,5 – 16,5 = 14,5 - 17

16,5 – 18,5 = 17 - 18,5

18,5 – 20,5 = 18,5 - 20.5

20,5 – 22,5 = 20.5 - 23

22,5 – 24,5 = 23 - 25
INTERVALO ni Ni fi Fi % % ac
[14,5 - 17) 1 1 0,07 0,07 7 7
[17 – 18,5) 3 4 0,20 0,27 20 27
[18,5 – 5 9 0,33 0,60
20,5) 33 60
[20,5 – 23) 3 12 0,20 0,80 20 80
[23 - 25] 3 15 0,20 1,00 20 100
15 (N)

Frecuencia absoluta (ni) : número de datos que tengo en cada intervalo.


Frecuencia absoluta acumulada (Ni): suma de las frecuencias absolutas
de cada intervalo y de los anteriores.
Frecuencia relativa (fi): la relación ni/N= ni/15.
Frecuencia relativa acumulada (Fi): sumando la frecuencia relativa de
cada intervalo y de todos los anteriores, si los cálculos están bien hechos al
final termina en 1.
Porcentaje (%): multiplicar por 100 los datos de la frecuencia relativa (fi)
Porcentaje acumulado (% ac): Multiplicando por 100 la frecuencia relativa
acumulada (Fi).

Información que se obtiene en cada una de las columnas:

ni: numero de datos por intervalo


Ni: para Ni con el valor 9 me esta diciendo que hay 9 personas en la muestra
con edades menos de 20,5, para Ni con valor de 4 me dice que hay 4 personas
en esta muestra con edades menores de 18,5.
%: para la columna de porcentaje de 33% me está diciendo que el 33 % de
las personas de mi muestra tienen una edad de 18,5 incluido hasta 18,5 sin
incluir.
% ac: para el 80% me está diciendo que el 80% de las personas tienen menos
de 23 años o que para el valor de 27% de las personas tienen una edad de
18,5 años.
3. Con los siguientes datos de la variable cuantitativa discreta

“Número de hermanos”

0 1 4 1 2

3 2 3 1 2

0 5 4 3 2

Hallar:
𝑥1+𝑥2+𝑥3+𝑥4+𝑥5+⋯𝑛
a. Media. 𝑥 = 𝑁

𝐴𝑃𝐿𝐼𝐶𝐴𝑁𝐷𝑂 𝐹Ó𝑅𝑀𝑈𝐿𝐴

0 + 0 + 1 + 1 + 1 + 2 + 2 + 2 + 2 + 3 + 3 + 3 + 4 + 4 + 5 + 33
𝑥= = = 2.2
15 15

b. Mediana.

ordenamos los datos

0+0+1+1+1+2+2+2+2+3+3+3+4+4+5

la mediana es 2

c. Moda. los datos que mas se repiten

0+0+1+1+1+2+2+2+2+3+3+3+4+4+5
aquí podría ser 2 y 3 son los que más se repiten

d. Varianza.

APLICANDO LA FORMULA.

(0 − 2)2 (0 − 2)2 (1 − 2)2 (1 − 2)2 (1 − 2)2 (2 − 2)2 (2 − 2)2 (2 − 2)2 (2 − 2)2 (3 − 2)2 (3 − 2)2 (3 − 2)2 (4
=
15

4 + 4 + 1 + 1 + 1 + 0 + 0 + 0 + 0 + 1 + 1 + 4 + 4 + 9 + 30
𝑉𝐴𝑅𝐼𝐴𝑁𝑍𝐴 = =2
15 15

e. Desviación estándar.

£=√2 = 1.414

f. Rango de datos.

Rango = Valor máximo – Valor mínimo

R = Xmax – Xmin

R=5–0=5

g. Indicar el valor de los cuatro cuartiles.


xi ni Ni fi Fi % % ac

0 2 2 0,13 0,13 13,0 13,0

1 3 5 0,20 0,33 20,0 33,0

2 4 9 0,27 0,60 27,0 60,0

3 3 12 0,20 0,80 20,0 80,0

4 2 14 0,13 0,93 13,0 93,0

5 1 15 0,07 1,00 7,0 100,0

15 (N) 1 (suma)

· Xi: Datos

· Frecuencia absoluta (ni) : número de veces que se repite el dato

· Frecuencia absoluta acumulada (Ni): suma de las frecuencias


absolutas y de las anteriores.

· Frecuencia relativa (fi): la relación ni/N= ni/15.

· Frecuencia relativa acumulada (Fi): sumando la frecuencia relativa


de cada intervalo y de todos los anteriores, si los cálculos están bien hechos
al final termina en 1.
· Porcentaje (%): multiplicar por 100 los datos de la frecuencia relativa
(fi)

· Porcentaje acumulado (% ac): Multiplicando por 100 la frecuencia


relativa acumulada (Fi).

De la tabla anterior podríamos concluir:

1. 2 personas no tienen hermanos de las 15 personas en total de la


columna (ni)

2. Y una sola persona tiene 5 hermanos que es el número máximo de


hermanos que puede tener una persona en la muestra total de la columna
(ni)

3. Hay 9 personas que tienen 2 hermanos o menos, o que 2 personas no


tienen hermanos de la columna (Ni)

4. 13% de las personas de la muestra no tienen hermanos o que el 27%


tienen 2 hermanos, de la columna (%)

5. Que el 80% de mi población tiene 3 hermanos o menos, o que el 93%


tiene 4 hermanos o menos.

Para cuartil 1 Q1:

= 1*15/4 = 3.75 redondeando al valor entero superior = 4

n = número de datos = 15 y el 1 que multiplica porque es la posición 1 del


cuartil 1 (Q1) numero 4 es porque son 4 cuartiles
mirando la tabla con la frecuencia absoluta acumulada 4 esta entre 2 y 5 , es
decir es mayor que 2 pero menor que 5.

Entonces el primer cuartil toma un valor de 1

Q1 = 1

Para cuartil 2 Q2:

= 2*15/4 = 7,5 redondeando al valor entero superior = 8

mirando la tabla con la frecuencia absoluta acumulada 8 esta entre 5 y 9 , es


decir es mayor que 5 pero menor que 9.

Entonces el segundo cuartil toma un valor de 2

Para cuartil 3 Q3:

= 3*15/4 = 11,25 redondeando al valor entero superior = 12

mirando la tabla con la frecuencia absoluta acumulada 12 esta entre 9 y 12 ,


es decir es mayor que 9 pero menor o igual que 12.

Entonces el tercer cuartil toma un valor de 3

Q3 = 3

Para cuartil 4 Q4: = 4*15/4 = 15

mirando la tabla con la frecuencia absoluta acumulada 15 esta entre 14 y 15


, es decir es mayor que 14 pero menor o igual que 15.

Entonces el cuarto cuartil toma un valor de 5

Q4 = 5
h. Realice el gráfico de frecuencia absoluta.

Del grafico se puede analizar:

1. Se puede concluir que un mayor porcentaje de la población tiene 2


hermanos que se lee en el gráfico con la barra más alta donde dice el
grafico que 4 personas (frecuencia) en la muestra tienen 2 hermanos, que
coincide con el valor de la tabla 27%

2. Que un porcentaje muy mínimo de la población tiene 5 hermanos, esto


es la barra mas pequeña y que solo 1 sola persona según el eje de
frecuencias tiene 5 hermanos que en la tabla equivale al 7%.

3. También se puede analizar del gráfico que hay una frecuencia que se
repite 2 veces esto es dos personas no tienen hermanos y dos personas
tienen 4 hermanos y a su vez hay 3 personas para las cuales 3 tienen 1
hermano y 3 tienen 3 hermanos.

4. En el eje “y” vertical esta la frecuencia es decir el número de veces que


se repite un dato esto es las veces que se repite que cierto número de
personas tengan a la vez en mismo número de hermanos se puede
observar en la gráfica que 4 es las veces que más se repite el mismo
número de hermanos es decir 2 para cuatro personal.

5. Y finalmente en el eje “x” están las opciones de números de hermanos


que puede tener una persona en la población de estudio o muestra es decir
va de 0 a 5.

6. Esta grafica también hace referencia a una serie de datos


correspondientes a distribuciones con frecuencias algunas acumuladas y no
acumuladas, lo que se evidencia con facilidad en la altura de las barras.

PROGRAMA R
4. Presentar Los gráficos para presentar se deben dividir en tres
secciones:
a. Gráficos de variable cuantitativa continua
i. Histograma con Regla de Sturges variable edad

En el diagrama se puede observar que se crearon 05 clases en el


rango de edad, los intervalos presentados a partir de (17.5,20]
(17.5,20] (17.5,20] (22.5,25] (17.5,20] (20,22.5] (17.5,20],
Mayor frecuencia 5 personas un rango de edad entre 19 y 21 años,
04 personas en un rango de 21 y 23 años, de igual forma 3 rasgos
de edades de 15 a 17, 17 a 19 y 23 a 25 cada uno de dos personas.
La amplitud en este grafico tiene una gran importancia nos facilita
determinar los rangos de variación según el ancho y la altura de
cada barra, y de esta manera la regla de Sturges nos ayuda a
identificar las divisiones que tiene una muestra determinada.
ii. Histograma de la variable continua Edad

En el diagrama se puede observar que se crearon 06 clases en el


rango de edad, Mayor frecuencia 5 personas un rango de edad
entre 18 y 20 años, 04 personas en un rango de 20 y 22 años, de
igual forma 2 rasgos de edades de 16 a 18 y 22 a 24, cada uno
de dos personas, por ultimo 02 clases con rangos de edad entre
14 a 16 y 24 a 26.
De este grafico podemos decir que tenemos una variedad de
datos, por lo que es de gran importancia agruparlos en cada barra
y asi decir que obtenemos una representación por cada rango de
edad.
iii. Boxplot o diagrama de cajas variable continua

En el diagrama de cajas se puede evidencias el cuartil agrupado


de menor a mayor donde la parte inferior cuenta con mayor
espacio debido a que las edades se presentan a partir de
aproximadamente 15 hasta 19, el segundo de forma ascendente
muestra menor espacio debido a que su rango esta de 19 a 20,
el tercer rango más espacioso que el anterior en un rango de 20
a 22 y el ultimo del análisis ubicado en la parte superior con un
rango de 22 a 25 aproximadamente.

b. Gráficos de variable cuantitativa discreta


i. Boxplot o diagrama de cajas variable discreta

En el diagrama de cajas se puede evidencias el cuartil agrupado


de menor a mayor donde la parte inferior cuenta con menor
espacio debido a que el número de hermanos se presentan a partir
0 hasta 1, el segundo de forma ascendente muestra un espacio
igual a partir de 01 a 02 número de hermanos, el tercer espacio
igual 02 a 03 y el ultimo con mayor espacio a partir de 03 a 05
hermanos.
Este tipo de gráficos nos permite identificar valores atípicos y
comparar distribuciones. Además de conocer de una forma
cómoda y rápida como el 50% de los valores centrales se
distribuyen, detetar sus valores es muy rápido.
ii. Diagrama de barras Frecuencia Absoluta

En el diagrama de barras frecuencia absoluta muestra 6 rangos


entre los cuales el de mayor frecuencia presenta 4 personas que
indican tener 2 hermanos, seguido de 2 frecuencias de 03
personas con 1 y 3 hermanos, una frecuencia de 02 personas que
indican tener 0 hermanos y por ultimo 01 personas con 05
hermanos.
iii. Diagrama de barras Frecuencia relativa

En el diagrama de barras frecuencia relativa muestra 6 rangos


entre los cuales el de mayor frecuencia presenta 0,25 personas
que indican tener 2 hermanos, seguido de 2 frecuencias de 0,20
personas con 1 y 3 hermanos, una frecuencia de 0,14 personas
aproximadamente que indican tener 0 hermanos y por ultimo
0,045 personas con 05 hermanos.
iv. Diagrama de barras Frecuencias relativas acumuladas

En el diagrama de barras frecuencia relativa acumuladas muestra


el resultado de la muestra donde 0 es el rango mas bajo hallado
y 05 el mas alto dentro del análisis.
Mínimo de hermanos 0 máximo de hermanos 5.
v. Gráfico de tarta de Hermanos

En la gráfica de torta se muestra los resultados de la frecuencia


relativa y absoluta indicando el valor de cada rango por su
frecuencia.
La tarta es otra representación gráfica que nos muestra los mismo
de la tabla y de las gráficas de frecuencias. Como podemos
observar el número de hermanos que más se repite es el de 2
c. Gráficos de variable cualitativa
i. Diagrama de barras frecuencias absolutas nivel de estudio agricultor

En el diagrama de barras frecuencia obsoluta muestra 04 rangos


entre los cuales el de mayor frecuencia presenta 5 agricultores
que indican tener estudios primarios, seguido de 01 frecuencia de
4 agricultores estudios segundarios, una frecuencia de 3
agricultores que indican tener estudios superiores y por ultimo 2
agricultores sin estudios.
ii. Diagrama de barras frecuencias relativas nivel de estudio de
agricultores

En el diagrama de barras frecuencia relativa muestra 04 rangos entre los


cuales el de mayor frecuencia presenta 0,35 agricultores que indican tener
estudios primarios, seguido de 01 frecuencia de 0,30 agricultores estudios
segundarios, una frecuencia de 0,25 agricultores que indican tener estudios
superiores y por ultimo 0,14 agricultores sin estudios.
CODIGO

R version 4.0.2 (2020-06-22) -- "Taking Off Again"

Copyright (C) 2020 The R Foundation for Statistical Computing

Platform: x86_64-w64-mingw32/x64 (64-bit)

R es un software libre y viene sin GARANTIA ALGUNA.

Usted puede redistribuirlo bajo ciertas circunstancias.

Escriba 'license()' o 'licence()' para detalles de distribucion.

R es un proyecto colaborativo con muchos contribuyentes.

Escriba 'contributors()' para obtener más información y

'citation()' para saber cómo citar R o paquetes de R en publicaciones.

Escriba 'demo()' para demostraciones, 'help()' para el sistema on-line de


ayuda,

o 'help.start()' para abrir el sistema de ayuda HTML con su navegador.

Escriba 'q()' para salir de R.

>
> # CURSO ESTADISTICA DESCRIPTIVA (300046_764) PERIODO
ACADÉMICO 16-4 DE 2020

>

> # CONCEPTOS BÁSICOS DE ESTADÍSTICA DESCRIPTIVA Y MANEJO DEL


CODIGO R UNIDAD 1

>

> # Recuerde que para ejecutar cada una de las líneas del código debe digitar
"Control+r"

> # Recuerde siempre ejecutarlo en orden, de arriba hacia abajo

>

> # Las líneas del código que inician con el símbolo # no son comandos sino
textos explicatorios

>

> # IMPORTANTE: NO MODIFIQUE NINGUNA PARTE DEL CÓDIGO

> # Si lo modifica, le puede aparecer errores

> # Si por error lo modificó, ingrese nuevamente a la carpeta de Google Drive


y descárguelo nuevamente

>

> # En este ejercicio conoceremos los principales tipos de varables que se


manejan en estadística descriptiva:

> # Variable cuantitativa continua

> # Variable cuantitativa discreta


> # Variable cualitativa o categórica

>

> # VARIABLES CUANTITATIVAS CONTINUAS

> # Son variables de mediciones en individuos u objetos como peso, edad,


altura, entre muchas otras.

> # son variables que admiten decimales.

> # En la variable de ejemplo, se le preguntó la edad a 15 estudiantes


universitarios:

> # Tenga presente que la edad es una varible continua, ya que puede admitir
números decimales

> # Por ejemplo, alguien que tenga 15 años y 6 meses, es equivalente a una
edad de 15.5 años.

> edad=c(18.4,19.2,19.6,23,20,20.4,19.4,21.4,18,24,17,22,15,22,25)

> #Presentar en el informe grupal los siguientes resultados en un cuadro,


explicando cada uno de ellos:

> summary(edad)# Resumen estadístico

Min. 1st Qu. Median Mean 3rd Qu. Max.

15.00 18.80 20.00 20.29 22.00 25.00

> mean(edad)#media aritmética

[1] 20.29333

> var(edad)#varianza

[1] 7.182095
> sd(edad)#desviación estándar

[1] 2.679943

> min(edad) #Mínimo

[1] 15

> max(edad)# Máximo

[1] 25

> range(edad) #Rango

[1] 15 25

> median(edad)# Mediana

[1] 20

> length(edad)# Número de datos

[1] 15

> quantile(edad, 0.25)# Cuantil Q1

25%

18.8

> quantile(edad, 0.75)# Cuantil Q3

75%

22

> quantile(edad, 0.5)# Cuantil Q2 que es la mimsa mediana

50%
20

> IQR(edad) #Rango intercuartílico

[1] 3.2

> sort(edad)# Ordenar

[1] 15.0 17.0 18.0 18.4 19.2 19.4 19.6 20.0 20.4 21.4 22.0 22.0 23.0 24.0
25.0

>

> ### Regla de Sturges para creación de histograma en variables continuas

> range(edad,na.rm=TRUE) # incluimos na.rm=TRUE para que ignore la


presencia de valores perdidos

[1] 15 25

> nclass.Sturges(edad)#Número de intervalos

[1] 5

> seq(15,25,length=nclass.Sturges(edad)) # Límites de los intervalos

[1] 15.0 17.5 20.0 22.5 25.0

>
intervalosEdad=cut(edad,breaks=seq(15,25,length=nclass.Sturges(edad)),i
nclude.lowest=TRUE)

> intervalosEdad # Se muestran los intervalos de edad, uno correspondiente


a cada edad observada

[1] (17.5,20] (17.5,20] (17.5,20] (22.5,25] (17.5,20] (20,22.5] (17.5,20]

[8] (20,22.5] (17.5,20] (22.5,25] [15,17.5] (20,22.5] [15,17.5] (20,22.5]


[15] (22.5,25]

Levels: [15,17.5] (17.5,20] (20,22.5] (22.5,25]

> puntos=min(edad)+(0:nclass.Sturges(edad))*(max(edad)-
min(edad))/nclass.Sturges(edad)

>

> #Histograma de la variable edad con la regla de Sturges:

> # Cuando el comando produce la gráfica, lo saca del código y lo dirige a


esta.

> # Para volver al código para seguir ejecutándolo, es importante que ubique
el cursor en la parte superior del marco,

> # en donde se encuentra el nombre del archivo: "Codigo Fase 2 - Variables


Estadísticas.t"

> # Si ubica el cursor dentro del texto del archivo, corre el riesgo de perder
el orden que llevaba al ejecutar el código

> # y le pueden quedar partes del código sin ejecutar.

> hist(edad,main="PERIODO 764 - Histograma con Regla de Sturges variable


edad",breaks=puntos) # este comando crea el gráfico de histograma con la
regla de Sturges

>

> # Instalación libreria "agricolae":

> # Es obligatorio instalar la libreria Agricolae, para poder ejecutar los


siguientes comandos del código

> # Esta es la forma de instalar desde el editor:


> install.packages("agricolae") # Esperar que salga una lista de países y
seleccionar USA(IA)

Warning in install.packages("agricolae") :

'lib = "C:/Program Files/R/R-4.0.2/library"' is not writable

--- Please select a CRAN mirror for use in this session ---

Warning: unable to access index for repository


https://mirror.las.iastate.edu/CRAN/src/contrib:

no fue posible abrir la URL


'https://mirror.las.iastate.edu/CRAN/src/contrib/PACKAGES'

Warning: unable to access index for repository


https://mirror.las.iastate.edu/CRAN/bin/windows/contrib/4.0:

no fue posible abrir la URL


'https://mirror.las.iastate.edu/CRAN/bin/windows/contrib/4.0/PACKAGES'

Warning message:

package ‘agricolae’ is not available (for R version 4.0.2)

> # Damos "OK" y el programa instala el paquete

> # Es una libreria grande, así que hay que tener paciencia y esperar hasta
que esté totalmente instalada

> # Esperar hasta que aparezca el mensaje: "The downloaded binary


packages are in (muestra la carpeta donde se guardaron)"

> # Debe aparecer nuevamente el cursor rojo en la consola de resultados a


la izquierda (R Console)
> # Si la libreria quedó bien instalada, al dar "CONTROL+R" aparece
"library(agricolae)" en color rojo

> library(agricolae)

Error in library(agricolae) : there is no package called ‘agricolae’

>

> ### Gráficos de variables continuas:

> # Histograma de la variable edad

> hist(edad,ylab="Frecuencia",main="PERIODO 764 - Histograma de la


variable continua Edad")

> # Como pueden ver, una vez instalada la libreria "agricolae" no hace falta
realizar todos los pasos que se

> # necesitaron para obtener el histograma por medio de la Regla de Sturges

> boxplot(edad,ylab="Edad (años)",main="PERIODO 764 - Boxplot o


diagrama de cajas variable continua") # Gráfico de diagrama de cajas o
Boxplot

> # El boxplot organiza los datos de menor a mayor y los agrupa en cuatro
cuartiles, donde cada uno tiene la misma

> # cantidad de datos.

>

> # VARIABLES CUANTITATIVAS DISCRETAS

>

> # Variables de conteos, solo toman valores en números enteros como


número de hermanos, de frutos, etc.
> # En la variable de ejemplo, se le preguntó a un curso de 15 estudiantes
cuántos hermanos tenían cada uno de ellos:

>

> Hermanos=c(0,1,4,1,2,3,2,3,1,2,0,5,4,3,2)

>

> #Presentar en el informe grupal los siguientes resultados en un cuadro,


explicando cada uno de ellos:

> summary(Hermanos)# Resumen estadístico

Min. 1st Qu. Median Mean 3rd Qu. Max.

0.0 1.0 2.0 2.2 3.0 5.0

> min(Hermanos) #Mínimo

[1] 0

> max(Hermanos)# Máximo

[1] 5

> range(Hermanos) #Rango

[1] 0 5

> mean(Hermanos)# Media aritmética ## SI HAY DATOS PERDIDOS TOCA


CON SUMMARY

[1] 2.2

> median(Hermanos)# Mediana

[1] 2
> length(Hermanos)# NÚMERO DE DATOS

[1] 15

> sd(Hermanos)# Desviación típica

[1] 1.473577

> quantile(Hermanos, 0.25)# Cuantil Q1

25%

> quantile(Hermanos, 0.75)# Cuantil Q3

75%

> quantile(Hermanos, 0.5)# Cuantil Q2 que es la mimsa mediana

50%

> IQR(Hermanos) #Rango intercuartílico

[1] 2

> sort(Hermanos)# Ordenar

[1] 0 0 1 1 1 2 2 2 2 3 3 3 4 4 5

> ##En este caso las tablas de frecuencias se desarrollan por pasos:

> table(Hermanos) #Tabla de frecuencias absolutas

Hermanos
012345

234321

> fabs=table(Hermanos)##Tabla de frecuencias absolutas

> fabs

Hermanos

012345

234321

> fabsacum<-as.table(cumsum(fabs))#Frecuencias absolutas acumuladas

> fabsacum

0 1 2 3 4 5

2 5 9 12 14 15

> frel=prop.table(table(Hermanos))#Tabla de frecuencias relativas

> frel

Hermanos

0 1 2 3 4 5

0.13333333 0.20000000 0.26666667 0.20000000 0.13333333 0.06666667

> frelacum<-as.table(cumsum(frel))#Frecuencias relativas acumuladas

> frelacum

0 1 2 3 4 5

0.1333333 0.3333333 0.6000000 0.8000000 0.9333333 1.0000000


> # Podemos decir que cero hermanos tiene el 0.133 en proporción ó el 13.3%
de los individuos encuestados.

> # Las proporciones se multiplican por 100 para expresarlas en porcentaje.

>

> ##Gráficos de variables cuantitaivas discretas:

> boxplot(Hermanos,ylab="número de hermanos",main="PERIODO 764 -


Boxplot o diagrama de cajas variable discreta")

> barplot(fabs,xlab="Número de hermanos",ylab="Frecuencias


absolutas",main="PERIODO 764 - Diagrama de barras Frecuencia Absoluta")

> barplot(frel,xlab="Número de hermanos",ylab="Frecuencias


relativas",main="PERIODO 764 - Diagrama de barras Frecuencia relativa")

> barplot(frelacum,xlab="Número de hermanos",ylab="Frecuencias


relativas",main="PERIODO 764 - Diagrama de barras Frecuencias relativas
acumuladas")

> pie(fabs,col=rainbow(6),main=c("PERIODO 764 - Gráfico de tarta de


Hermanos")) #Gráfico de tarta

>

> # VARIABLES CUALITATIVAS

>

> # Son variables atribuibles a espectos cualitativos no numéricos, como el


color, la raza, etc...

> # Pueden ser de tipo nominal, donde cada categoría es independiente de la


otra, como el color o la raza
> # O de tipo categórigo, donde existe algún tipo de estratificación o nivel,
como el nivel de estudios o el estrato socioeconómico.

> # A continuación tomaremos como ejemplo la variable categórica "Nivel de


estudios"

> # de los agricultores pertenecientes a una misma vereda.

> # Para poder codificar lo que cada agricultor respondió, se le asigna un


número a cada nivel de estudio:

> # Nivel de estudios: 0:“Sin estudios”; 1: “Estudios Primarios”; 2: “Estudios


Secundarios”; 3:“Estudios Superiores”

>

> estudios=c(1,2,0,1,0,1,1,2,3,2,3,1,2,3)

>

> # Esto es lo que respondió cada agricultor ya codificado, para poderlo


analizar en el programa R.

>

> # Ahora, hay que explicarle al programa lo que significa cada número

>

> # Se le aclara que nuestra variable tiene 4 categorías, del 0 al 3:

>

> estudios=factor(estudios, levels=c(0,1,2,3),

+
+ # Se indica a qué corresponde cada número, desde el menor grado hasta
el mayor y cuál es su etiqueta:

+ labels=c("Sin estudios","Estudios Primarios","Estudios


Secundarios","Estudios Superiores"))

>

> estudios # Muestra lo que respondió cada agricultor y los cuatro niveles de
la variable:

[1] Estudios Primarios Estudios Secundarios Sin estudios

[4] Estudios Primarios Sin estudios Estudios Primarios

[7] Estudios Primarios Estudios Secundarios Estudios Superiores

[10] Estudios Secundarios Estudios Superiores Estudios Primarios

[13] Estudios Secundarios Estudios Superiores

4 Levels: Sin estudios Estudios Primarios ... Estudios Superiores

>

> # Una vez se ha codificado exitosamente la variable, se puede analizar con


R:

> # Presentar estos resultados en un cuadro y explicar:

>

> summary(estudios)# debe aparecer cada nivel, con el número de


agricultores que se encuentran en cada uno de estos:

Sin estudios Estudios Primarios Estudios Secundarios


2 5 4

Estudios Superiores

> table(estudios) #Tabla de frecuencias absolutas

estudios

Sin estudios Estudios Primarios Estudios Secundarios

2 5 4

Estudios Superiores

>

> # Hay que tener cuidado cuando se va a usar un comando que ya se había
usado antes

> # Es importante cambiarle el nombre, o va a producir los resultados para


los que se creó inicialmente

> # En la variable discreta, ya habíamos usado los comandos "fabs" y "frel"

> # Así que para usarlos nuevamente, les cambiamos el nombre a "fabs1" y
"frel1":

>

> fabs1=table(estudios)# Tabla de frecuencias absolutas

> fabs1 # si no se le cambia el nombre, aparecería el mismo resultado que


produjo en la variable discreta

estudios
Sin estudios Estudios Primarios Estudios Secundarios

2 5 4

Estudios Superiores

> frel1=prop.table(table(estudios))# Tabla de frecuencias relativas

> frel1

estudios

Sin estudios Estudios Primarios Estudios Secundarios

0.1428571 0.3571429 0.2857143

Estudios Superiores

0.2142857

>

> # Podemos decir que el 0.143 de los agricultores encuestados no tienen


estudios o en proporción, el 14.3%

> # Para pasarlo a porcentaje, se multiplica el resultado por 100

>

> ##Gráficos de variables cualitativas

> barplot(fabs1,ylab="Frecuencias absolutas",xlab="Nivel de


estudio",main="PERIODO 764 - Diagrama de barras frecuencias absolutas
nivel de estudio agricultor")
> barplot(frel1,ylab="Frecuencias relativas",xlab="Nivel de
estudio",main="PERIODO 764 - Diagrama de barras frecuencias relativas
nivel de estudio de agricultores")

>

> #Les deseamos éxitos en la ejecución de este ejercicio.

> # Si tiene alguna inquietud, por favor consulte con su respectivo tutor, de
acuerdo al grupo al que pertenece.

> # Preparado por: Luis Alberto Cáceres - Director del curso Estadística
Descriptiva (para ciencias agrarias)
CONCLUSIONES

La Estadística es la ciencia cuyo objetivo es reunir una información cuantitativa


concerniente a individuos, grupos, series de hechos, etc. y deducir de ello
gracias al análisis de estos datos unos significados precisos o unas previsiones
para el futuro.

La estadística, en general, es la ciencia que trata de la recopilación,


organización presentación, análisis e interpretación de datos numéricos con el
fin de realizar una toma de decisión más efectiva.

Se puede concluir que el uso del programa R está estimado como una
herramienta didáctica, contando así con una interfaz amigable, que si se sabe
emplear es bastante efectiva con los resultados utilizados, ahorrando así
tiempo para quien lo opera y aplica.

El programa R, es una herramienta estadística de un método que permite la


mejora continua en el resultado de datos exactos, vimos la aportación que se
logra en cada aplicado.

La interpretación de estos datos tiene una gran importancia en el manejo de


conceptos y variables numéricos, logrando así un análisis certero de las
diferentes informaciones, mediante una metodología que se vuelve
indispensable en el avance de un conocimiento que nos permite tener un
panorama de la actualidad y una continua mejora en diferentes campos.
BIBLIOGRAFÍAS

Balzarini, M. (2013). Estadística y biometría: ilustraciones del uso e


infostat en
problemas de agronomía. Recuperado de
http://bibliotecavirtual.unad.edu.co:2460/lib/unadsp/reader.action?docID=3
22177
5&query=bioestadística

Walpole, R.E.; Myers, R.H.; Myers, S.L. & Ye, K. “Probabilidad y


estadística para ingeniería y ciencias”. Octava Edición. Pearson Prentice-Hall.
México, 2007. V

Material docente de la Unidad de Bioestadística Clínica. URL:


http://www.hrc.es/bioest/M_docente.html

Iniciación a la Estadística. URL:


http://descartes.cnice.mecd.es/Estadistica/iniciacion_estadististica_fjgarcia/
FGG990_UD.htm

Estadística Descriptiva y Probabilidad. URL:


http://thales.cica.es/rd/Recursos/rd99/ed99-0278- 01/indice.html.

También podría gustarte