Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Conceptos
básicos
Organización
de datos CAPÍTULO 1
Una breve
introducción
Organización y resumen de datos.
al R
Distribución
de frecuencias
por intervalos
2016
CAPÍTULO 1
CAPÍTULO 1
Es un conjunto de elementos que poseen al menos un atributo
en común, sobre los cuales se desea investigar una o más
Conceptos
básicos caracterı́sticas. El número de elementos que conforman una
Organización población será denotado por la letra N .
de datos
Son ejemplos de población:
Una breve
introducción
al R
Las bolsas de cemento producidas en un dı́a por una fábrica.
Distribución Los hogares de una región.
de frecuencias
por intervalos Los alumnos que estudian Ingenierı́a Civil en la PUCP.
Una muestra es, por otro lado, un subconjunto de la población.
El número de elementos que conforman una muestra
será denotado por la letra n. Se dirá que una muestra es
aleatoria si sus elementos han sido seleccionados mediante un
procedimiento probabilı́stico.
CAPÍTULO 1
CAPÍTULO 1
Una breve
introducción Bueno Moderado Bueno Malo Moderado Malo
al R Malo Moderado Malo Malo Malo Moderado
Distribución Moderado Moderado Moderado Malo Muy Malo Malo
de frecuencias
por intervalos
Moderado Moderado Malo Moderado Moderado Malo
Malo Moderado Moderado Bueno Moderado Malo
CAPÍTULO 1
Organización
de datos
j Categorı́as Frecuencia Frecuencia relativa Porcentaje
Una breve
introducción nj fj pj
al R
1 Bueno 3 0.10 10
Distribución
de frecuencias 2 Moderado 14 0.467 46.7
por intervalos
3 Malo 12 0.40 40
4 Muy Malo 1 0.033 3.3
Total 30 1 100
Organización Moderado
47%
de datos
Una breve
0.3
Bueno
introducción 10%
al R
Muy Malo
Distribución
0.2
3%
de frecuencias
por intervalos
0.1
Malo
40%
0.0
CAPÍTULO 1
Conceptos
básicos En un cierto distrito durante un mes se registró el número de
Organización accidentes de tránsito por dı́a, estos fueron los resultados:
de datos
Una breve
introducción 1 2 0 3 1 0 1 0 4 2
al R
1 1 2 0 1 1 0 3 1 1
Distribución
de frecuencias 0 2 1 0 4 0 1 2 2 2
por intervalos
CAPÍTULO 1
Una breve
Número de Frecuencia Frecuencia Porcentaje Porcentaje
introducción accidentes nj relativa fj pj acumulado Pj
al R
0 8 0.267 26.7 26.7
Distribución
de frecuencias 1 11 0.367 36.7 63.4
por intervalos
2 7 0.233 23.3 86.7
3 2 0.067 6.7 93.4
4 2 0.067 6.7 100
Total 30 1 100
básicos
Organización
10
de datos
Una breve
8
introducción
al R
Frecuencia
Distribución
de frecuencias
4
por intervalos
2
0
0 1 2 3 4
CAPÍTULO 1
R es un lenguaje computacional de alto nivel y un programa
para realizar análisis estadı́stico y gráficos.
Conceptos
básicos
Permite aplicar una variedad de métodos estadı́sticos básicos
y avanzados.
Organización
de datos Produce gráficos de alta calidad.
Una breve R es un lenguaje de programación; es decir, podemos escribir
introducción
al R
nuevas funciones y extender el uso de R.
Distribución R es un software open source que es mantenido por mu-
de frecuencias
por intervalos chos contribuyentes. El R Core Team está conformado por
unos 17 programadores que son responsables de modificar
el código fuente de R.
El sitio web oficial de R es: http://www.R-project.org
R puede ser instalado libremente (no requiere pago ni regis-
tro alguno) en Windows, Mac o Linux.
CAPÍTULO 1
Para instalar el sistema base, visitar el sitio web de R y
seguir las instrucciones de instalación.
Conceptos
básicos
Adicionalmente al sistema base existen una serie de paque-
Organización
tes adicionales de contribuyentes. Un paquete es una co-
de datos lección de funciones, ejemplos y documentación que usual-
Una breve
introducción
mente están enfocados en realizar una tarea especı́fica.
al R
El sistema base contiene solamente algunos paquetes. Para
Distribución
de frecuencias instalar un paquete adicional, por ejemplo agricolae, se
por intervalos
debe estar conectado en la internet y escribir:
> install.packages("agricolae")
Si no ha sido configurado antes, aparecerá una ventana para
seleccionar el mirror más cercano, luego todo es automático.
Antes de usar un paquete es necesario cargarlo, por ejemplo:
> library(agricolae)
Estadı́stica para Ingenierı́a FACI PUCP 16 / 40
La consola del R
CAPÍTULO 1
En la consola de R es dónde se realizan los cálculos.
Cuando una expresión se introduce en la consola, es poste-
Conceptos
básicos
riormente evaluada. Dependiendo de la expresión, el sistema
Organización puede responder mediante la salida de resultados a la conso-
de datos
la o la creación de un gráfico en una ventana nueva. Luego
Una breve
introducción otra expresión es ingresada y evaluada.
al R
Una sesión en R es la interacción entre el usuario y el siste-
Distribución
de frecuencias ma.
por intervalos
Para obtener la última expresión ingresada usar la techa de
flecha hacia arriba.
Para obtener el valor de la última expresión evaluada tipear
.Last.value.
Presionar Esc para detener la evaluación de la expresión que
se está evaluando.
Estadı́stica para Ingenierı́a FACI PUCP 17 / 40
R cómo calculadora
CAPÍTULO 1
Organización
R contiene todas las formas conocidas de funciones básicas
de datos
como el logaritmo natural (log), raı́z cuadrada (sort), coseno
Una breve
introducción (cos), etc.
al R
Distribución
de frecuencias
> 5/4
por intervalos [1] 1.25
> log(2) ; cos(pi) ; ceiling(3.2)
[1] 0.6931472
[1] -1
[1] 4
CAPÍTULO 1
Comúnmente se crean objetos y aplican funciones a estos
(las funciones se consideran también objetos).
Conceptos Para asignar un nombre x a un objeto usar x < − objecto,
(objecto − > x) ó x = objeto.
básicos
Organización
de datos Llamando una función:
Una breve
introducción
nombrefuncion(argumentos separados por comas)
al R
Toda función tiene un conjunto formal de argumentos con
Distribución
de frecuencias
valores por defecto. Véase la documentación de la función
por intervalos con ?nombrefuncion ó help(nombrefuncion).
El llamado a una función puede incluir cualquier subconjunto
de la lista completa de argumentos.
Para especificar un argumento en particular usar el nombre
del argumento.
Los argumentos pueden no nombrarse si están inscritos en
el orden de la lista de argumentos formales de la función.
R DISTINGUE MAYÚSCULAS DE MINÚSCULAS.
Estadı́stica para Ingenierı́a FACI PUCP 19 / 40
Ejemplo - Asignar Objetos y Llamado de Funciones
CAPÍTULO 1
Supongamos que queremos encontrar la media aritmética de
un conjunto de números (suma de estos números divididos
Conceptos
básicos
entre la cantidad total de ellos). Primero se asigna el vector
Organización
de números con un nombre x. Ello se hace con el comando
de datos
c. Luego se llama a la función mean().
Una breve
introducción > x <- c(0,5,7,9,1,2,8)
al R
> x
Distribución
de frecuencias [1] 0 5 7 9 1 2 8
por intervalos
> mean(x)
[1] 4.571429
> X
Error: object ’X’ not found
Recuerde que lo último ocurre pues R distingue entre minúscu-
las y mayúsculas.
Estadı́stica para Ingenierı́a FACI PUCP 20 / 40
CAPÍTULO 1 Supongamos ahora que se quiere ordenar un vector de tal
manera que los números estén en orden descendente. Por
defecto R ordena de modo ascendente, por lo que se tiene que
Conceptos
básicos cambiar el argumento decreasing por TRUE (el valor por
Organización defecto es FALSE).
de datos
introducción
al R
10
Distribución
de frecuencias
8
por intervalos
Frecuencia
6
4
2
0
0 1 2 3 4
Distribución
12
de frecuencias
por intervalos
10
8
Frecuencia
6
4
2
0
Organización
de datos
Una breve
introducción
al R Bueno
Distribución
de frecuencias
por intervalos
Muy Malo
Moderado
CAPÍTULO 1
Conceptos
Se registró el consumo de electricidad en kWh de 50 hogares
básicos obteniéndose:
Organización
de datos
589 493 531 355 469 432 415 468 617 426
Una breve
introducción 300 439 464 430 403 525 478 392 432 459
al R
398 372 488 481 620 484 509 522 488 502
Distribución
de frecuencias 596 567 466 477 580 555 520 525 425 650
por intervalos
384 497 438 501 521 452 508 462 457 577
CAPÍTULO 1
c = 350/7 = 50 kWh.
Conceptos
básicos Intervalo Marca Frec. Frec. Porcentaje Frec. Frec. Rel.
Organización clase de clase relativa acum. acumulada
de datos
x̂j nj fj pj Nj Fj
Una breve [300, 350] 325 1 0.02 2 1 0.02
(350, 400]
introducción
al R 375 5 0.1 10 6 0.12
Distribución (400, 450] 425 9 0.18 18 15 0.3
de frecuencias (450, 500] 475 16 0.32 32 31 0.62
(500, 550]
por intervalos
525 10 0.2 20 41 0.82
(550, 600] 575 6 0.12 12 47 0.94
(600, 650] 625 3 0.06 6 50 1
Total 50 1 100
Una breve
consumo de electricidad intermedio entre los intervalos 3, 4
introducción
al R
y 5 (de 400 a 550 kWh).
Distribución
Que existen pocos hogares con consumo de electricidad ba-
de frecuencias
por intervalos
jos ó altos. Estos resultados también se pueden observar si
analizamos las frecuencias relativas y los porcentajes.
Otras posibles interpretaciones que podemos hacer son: so-
lamente el 1 % de los hogares tienen consumos por debajo
de los 350 kWh; el 18 % de los hogares tienen consumos
mayores a los 550 kWh. La información contenida en esta
tabla se presenta también en forma gráfica en la siguiente
figura.
Estadı́stica para Ingenierı́a FACI PUCP 35 / 40
intervalos 6 y 7. Esto sugiere que la mayorı́a de los hogares tienen un consumo de electricidad
intermedio entre los intervalos 3, 4 y 5 (de 400 a 550 kW h). Que existen pocos hogares con
consumo de electricidad bajos ó altos. Estos resultados también se pueden observar si analizamos
las frecuencias relativas y los porcentajes. Otras posibles interpretaciones que podemos hacer
son: solamente el 1 % de los hogares tienen consumos por debajo de los 350 kW h; el 18 % de los
hogares tienen consumos mayores a los 550 kW h.
CAPÍTULO 1 La información contenida en esta tabla se presenta tambien en forma gráfica en la Figura 1.3.
1.0
●
15
●
Conceptos ●
0.8
básicos
Frecuencia relativa
10
Organización ●
0.6
Frecuencia
de datos
0.4
Una breve
introducción
5
al R
0.2
●
Distribución
de frecuencias ●
0.0
●
0
por intervalos
300 350 400 450 500 550 600 650 300 350 400 450 500 550 600 650
elect=c(
Conceptos + 589,493,531,355,469,432,415,468,617,426,
básicos
Organización
+ 300,439,464,430,403,525,478,392,432,459,
de datos + 398,372,488,481,620,484,509,522,488,502,
Una breve + 596,567,466,477,580,555,520,525,425,650,
introducción
al R + 384,497,438,501,521,452,508,462,457,577)
Distribución
de frecuencias
helect = hist(elect)
por intervalos
Ella nos da justamente 7 intervalos, según el valor por defecto
(default) de R. En caso que esto último no ocurra; por citar si
desearamos 6 intervalos, podrı́amos escribir:
c = ceiling(diff(range(elect)/6))
b=seq(min(elect),max(elect)+c,by = c)
helect6=hist(elect,breaks=b)
Estadı́stica para Ingenierı́a FACI PUCP 37 / 40
CAPÍTULO 1 Note que helect es un objecto que tiene lo siguiente:
helect
Conceptos $breaks
básicos
[1] 300 350 400 450 500 550 600 650
Organización $counts
de datos
Una breve
[1] 1 5 9 16 10 6 3
introducción $density
al R
[1] 0.0004 0.0020 0.0036 0.0064 0.0040 0.0024 0.0012
Distribución
de frecuencias $mids
por intervalos [1] 325 375 425 475 525 575 625
$xname
[1] "elect"
$equidist
[1] TRUE
attr(,"class")
[1] "histogram"
introducción
100
●
al R ●
Distribución ●
80
de frecuencias
Porcentaje acumulado de hogares
por intervalos
●
60
40
●
20
●
●
0
Consumos en kWh