Está en la página 1de 40

CAPÍTULO 1

Conceptos
básicos

Organización
de datos CAPÍTULO 1
Una breve
introducción
Organización y resumen de datos.
al R

Distribución
de frecuencias
por intervalos

2016

Estadı́stica para Ingenierı́a FACI PUCP 1 / 40


Estadı́stica

CAPÍTULO 1

Es un conjunto de métodos cientı́ficos para la recolección,


Conceptos
organización, análisis e interpretación de datos con la finalidad
básicos de realizar conclusiones y tomar decisiones válidas.
Organización
de datos Estadı́stica Descriptiva: El objetivo de la estadı́stica des-
Una breve
introducción
criptiva es resumir las principales caracterı́sticas de un con-
al R junto de datos a través de tablas, gráficos y medidas numéri-
Distribución
de frecuencias
cas.
por intervalos
Estadı́stica Inferencial: Se encarga del análisis de los datos
con el propósito de realizar conclusiones válidas acerca de
la población de donde originalmente se recolectaron estos
datos. La Estadı́stica inferencial está basada en la teorı́a de
probabilidades.

Estadı́stica para Ingenierı́a FACI PUCP 2 / 40


Población

CAPÍTULO 1
Es un conjunto de elementos que poseen al menos un atributo
en común, sobre los cuales se desea investigar una o más
Conceptos
básicos caracterı́sticas. El número de elementos que conforman una
Organización población será denotado por la letra N .
de datos
Son ejemplos de población:
Una breve
introducción
al R
Las bolsas de cemento producidas en un dı́a por una fábrica.
Distribución Los hogares de una región.
de frecuencias
por intervalos Los alumnos que estudian Ingenierı́a Civil en la PUCP.
Una muestra es, por otro lado, un subconjunto de la población.
El número de elementos que conforman una muestra
será denotado por la letra n. Se dirá que una muestra es
aleatoria si sus elementos han sido seleccionados mediante un
procedimiento probabilı́stico.

Estadı́stica para Ingenierı́a FACI PUCP 3 / 40


Variable

CAPÍTULO 1

Es el resultado de una medición o una caracterı́stica en los


Conceptos
básicos
elementos de la población. Una variable suele ser denotada por
Organización
una letra mayúscula, por ejemplo: X, Y o Z.
de datos Son ejemplos de variable:
X = Peso de una bolsa de cemento de la producción de un
Una breve
introducción
al R
dı́a de una fábrica.
Y = Ingreso mensual de un hogar de una región.
Distribución
de frecuencias
por intervalos

Z = Nivel socioeconómico de un hogar de una región.


Se denominará como dato al valor que toma una variable en un
elemento de la población. Un conjunto de n datos de una
variable X se suele denotar como x1 , x2 , ..., xn .

Estadı́stica para Ingenierı́a FACI PUCP 4 / 40


CAPÍTULO 1 Las variables se pueden clasificar en:
Variables cuantitativas: Si toma valores numéricos con los
que se pueden realizar operaciones aritméticas. Se dividen
Conceptos
básicos en
Organización Discretas: son aquellas variables que toman un número enu-
de datos merable finito o infinito de valores. Usualmente se conside-
Una breve
introducción
ran números enteros.
al R Continuas: son aquellas variables que pueden asumir cual-
Distribución quier valor dentro de un intervalo de valores, por lo que
de frecuencias
por intervalos toman un número no enumerable de valores.
Variables cualitativas: Si toma como valores categorı́as
que representan alguna clasificación en la población. Si bien
estas puedan representarse por números, estos no admiten
operaciones aritméticas. Las variables cualitativas se deno-
minan:
Nominales: si no existe orden entre las categorı́as.
Ordinales: si existe orden entre las categorı́as.
Estadı́stica para Ingenierı́a FACI PUCP 5 / 40
Tablas o distribuciones de frecuencias
CASO CUALITATIVO

CAPÍTULO 1 Si la variable es cualitativa, será de gran utilidad construir una


tabla de frecuencias. Ella está constituida por una lista de las k
Conceptos
posibles categorı́as de la variable acompañadas por el número
básicos de veces que ocurre cada una de ellas. En adelante usaremos la
Organización
de datos
siguiente notación:
Una breve
introducción
nj : frecuencia ó número de veces que ocurre la categorı́a
al R j.
Distribución
de frecuencias
fj : frecuencia relativa o proporción para la categorı́a j,
calculada como fj = nj , siendo n el número total de datos.
por intervalos n

pj : porcentaje de la categorı́a j, dada por: pj = 100 × fj .


Es claro que se cumplen:
k k k
∑ nj = n, ∑ fj = 1 y ∑ pj = 100 %
j=1 j=1 j=1

Estadı́stica para Ingenierı́a FACI PUCP 6 / 40


CAPÍTULO 1

La información contenida en la tabla de frecuencias puede ser


Conceptos
básicos representada a través de gráficos como un:
Organización
de datos
Gráfico de barras: a cada categorı́a se la representa por una
Una breve barra cuya altura es proporcional a la frecuencia con que
introducción
al R ocurre. En este tipo de gráficos se suele dejar un espacio
Distribución entre las barras para indicar que se está presentando infor-
de frecuencias
por intervalos mación de una variable cualitativa.
Gráfico de sectores circulares: a cada categorı́a se la repre-
senta por un sector del cı́rculo con ángulo proporcional a la
frecuencia con que ocurre.

Estadı́stica para Ingenierı́a FACI PUCP 7 / 40


Ejemplo:

CAPÍTULO 1

Conceptos Durante un mes se monitoreo el estado de la calidad del aire en


básicos
una ciudad, estos fueron los resultados:
Organización
de datos

Una breve
introducción Bueno Moderado Bueno Malo Moderado Malo
al R Malo Moderado Malo Malo Malo Moderado
Distribución Moderado Moderado Moderado Malo Muy Malo Malo
de frecuencias
por intervalos
Moderado Moderado Malo Moderado Moderado Malo
Malo Moderado Moderado Bueno Moderado Malo

Obtenga su distribución de frecuencias y los gráficos de barras y de


sectores circulares.

Estadı́stica para Ingenierı́a FACI PUCP 8 / 40


Solución:

CAPÍTULO 1

Es directo obtener la siguiente distribución de frecuencias:


Conceptos
básicos

Organización
de datos
j Categorı́as Frecuencia Frecuencia relativa Porcentaje
Una breve
introducción nj fj pj
al R
1 Bueno 3 0.10 10
Distribución
de frecuencias 2 Moderado 14 0.467 46.7
por intervalos
3 Malo 12 0.40 40
4 Muy Malo 1 0.033 3.3
Total 30 1 100

Estadı́stica para Ingenierı́a FACI PUCP 9 / 40


CAPÍTULO 1 LaORGANIZACI
1.2. información contenida
ÓN DE DATOS en esta tabla se presenta de forma 5

gráfica en siguiente figura.


Conceptos
básicos
0.4

Organización Moderado
47%
de datos

Una breve
0.3

Bueno
introducción 10%
al R
Muy Malo
Distribución
0.2

3%
de frecuencias
por intervalos
0.1

Malo
40%
0.0

Bueno Moderado Malo Muy Malo

Figura : Gráfico de Barras y de Sectores circulares


Figura 1.1: Gráfico de Barras y de Sectores circulares

Estadı́stica para Ingenierı́a FACI PUCP 10 / 40


Tablas o distribuciones de frecuencias
CASO CUANTITATIVO DISCRETO

CAPÍTULO 1 En este caso la tabla de frecuencias esta constituida por una


lista de las posibles valores que puede tomar la variable (de
Conceptos
preferencia ordenadas) acompañadas por el número de veces
básicos
que ocurre cada uno de estos valores. En este caso asumiremos
Organización
de datos que la variable X tiene k valores distintos x1 , ..., xk y
Una breve consideraremos la siguiente notación
introducción
al R
nj : frecuencia ó número de veces que ocurre el valor xj .
fj : frecuencia relativa del valor xj , calculada como fj =
Distribución
de frecuencias

nj /n, siendo n el número total de datos.


por intervalos

pj : porcentaje del valor xj , calculado como pj = 100 × fj .


Esta tabla de frecuencias suele ser resumida a través de un:
Gráfico de bastones: a cada valor posible xj se la representa
por una lı́nea vertical cuya altura es proporcional a la
frecuencia con que ocurre.
Estadı́stica para Ingenierı́a FACI PUCP 11 / 40
Ejemplo:

CAPÍTULO 1

Conceptos
básicos En un cierto distrito durante un mes se registró el número de
Organización accidentes de tránsito por dı́a, estos fueron los resultados:
de datos

Una breve
introducción 1 2 0 3 1 0 1 0 4 2
al R
1 1 2 0 1 1 0 3 1 1
Distribución
de frecuencias 0 2 1 0 4 0 1 2 2 2
por intervalos

Note que la variable número de accidentes de tránsito por dı́a


en un distrito puede tomar los siguientes valores: 0, 1, 2, 3 y 4.

Estadı́stica para Ingenierı́a FACI PUCP 12 / 40


Solución:

CAPÍTULO 1

A continuación presentamos la tabla de frecuencias para este


Conceptos
básicos
conjunto de datos
Organización
de datos

Una breve
Número de Frecuencia Frecuencia Porcentaje Porcentaje
introducción accidentes nj relativa fj pj acumulado Pj
al R
0 8 0.267 26.7 26.7
Distribución
de frecuencias 1 11 0.367 36.7 63.4
por intervalos
2 7 0.233 23.3 86.7
3 2 0.067 6.7 93.4
4 2 0.067 6.7 100
Total 30 1 100

Estadı́stica para Ingenierı́a FACI PUCP 13 / 40


CAPÍTULO 1 La información contenida en esta tabla se presenta en forma
gráfica en la siguiente figura
Conceptos Distribucion de frecuencias del número de accidentes

básicos

Organización
10

de datos

Una breve
8

introducción
al R
Frecuencia

Distribución
de frecuencias
4

por intervalos
2
0

0 1 2 3 4

Figura : Gráfico de bastones

Estadı́stica para Ingenierı́a FACI PUCP 14 / 40


¿Qué es R?

CAPÍTULO 1
R es un lenguaje computacional de alto nivel y un programa
para realizar análisis estadı́stico y gráficos.
Conceptos
básicos
Permite aplicar una variedad de métodos estadı́sticos básicos
y avanzados.
Organización
de datos Produce gráficos de alta calidad.
Una breve R es un lenguaje de programación; es decir, podemos escribir
introducción
al R
nuevas funciones y extender el uso de R.
Distribución R es un software open source que es mantenido por mu-
de frecuencias
por intervalos chos contribuyentes. El R Core Team está conformado por
unos 17 programadores que son responsables de modificar
el código fuente de R.
El sitio web oficial de R es: http://www.R-project.org
R puede ser instalado libremente (no requiere pago ni regis-
tro alguno) en Windows, Mac o Linux.

Estadı́stica para Ingenierı́a FACI PUCP 15 / 40


Instalación de R

CAPÍTULO 1
Para instalar el sistema base, visitar el sitio web de R y
seguir las instrucciones de instalación.
Conceptos
básicos
Adicionalmente al sistema base existen una serie de paque-
Organización
tes adicionales de contribuyentes. Un paquete es una co-
de datos lección de funciones, ejemplos y documentación que usual-
Una breve
introducción
mente están enfocados en realizar una tarea especı́fica.
al R
El sistema base contiene solamente algunos paquetes. Para
Distribución
de frecuencias instalar un paquete adicional, por ejemplo agricolae, se
por intervalos
debe estar conectado en la internet y escribir:
> install.packages("agricolae")
Si no ha sido configurado antes, aparecerá una ventana para
seleccionar el mirror más cercano, luego todo es automático.
Antes de usar un paquete es necesario cargarlo, por ejemplo:
> library(agricolae)
Estadı́stica para Ingenierı́a FACI PUCP 16 / 40
La consola del R

CAPÍTULO 1
En la consola de R es dónde se realizan los cálculos.
Cuando una expresión se introduce en la consola, es poste-
Conceptos
básicos
riormente evaluada. Dependiendo de la expresión, el sistema
Organización puede responder mediante la salida de resultados a la conso-
de datos
la o la creación de un gráfico en una ventana nueva. Luego
Una breve
introducción otra expresión es ingresada y evaluada.
al R
Una sesión en R es la interacción entre el usuario y el siste-
Distribución
de frecuencias ma.
por intervalos
Para obtener la última expresión ingresada usar la techa de
flecha hacia arriba.
Para obtener el valor de la última expresión evaluada tipear
.Last.value.
Presionar Esc para detener la evaluación de la expresión que
se está evaluando.
Estadı́stica para Ingenierı́a FACI PUCP 17 / 40
R cómo calculadora

CAPÍTULO 1

Si se introduce una expresión matemática, el resultado se


Conceptos mostrará en la consola.
básicos

Organización
R contiene todas las formas conocidas de funciones básicas
de datos
como el logaritmo natural (log), raı́z cuadrada (sort), coseno
Una breve
introducción (cos), etc.
al R

Distribución
de frecuencias
> 5/4
por intervalos [1] 1.25
> log(2) ; cos(pi) ; ceiling(3.2)
[1] 0.6931472
[1] -1
[1] 4

Estadı́stica para Ingenierı́a FACI PUCP 18 / 40


Objetos y Funciones

CAPÍTULO 1
Comúnmente se crean objetos y aplican funciones a estos
(las funciones se consideran también objetos).
Conceptos Para asignar un nombre x a un objeto usar x < − objecto,
(objecto − > x) ó x = objeto.
básicos

Organización
de datos Llamando una función:
Una breve
introducción
nombrefuncion(argumentos separados por comas)
al R
Toda función tiene un conjunto formal de argumentos con
Distribución
de frecuencias
valores por defecto. Véase la documentación de la función
por intervalos con ?nombrefuncion ó help(nombrefuncion).
El llamado a una función puede incluir cualquier subconjunto
de la lista completa de argumentos.
Para especificar un argumento en particular usar el nombre
del argumento.
Los argumentos pueden no nombrarse si están inscritos en
el orden de la lista de argumentos formales de la función.
R DISTINGUE MAYÚSCULAS DE MINÚSCULAS.
Estadı́stica para Ingenierı́a FACI PUCP 19 / 40
Ejemplo - Asignar Objetos y Llamado de Funciones

CAPÍTULO 1
Supongamos que queremos encontrar la media aritmética de
un conjunto de números (suma de estos números divididos
Conceptos
básicos
entre la cantidad total de ellos). Primero se asigna el vector
Organización
de números con un nombre x. Ello se hace con el comando
de datos
c. Luego se llama a la función mean().
Una breve
introducción > x <- c(0,5,7,9,1,2,8)
al R
> x
Distribución
de frecuencias [1] 0 5 7 9 1 2 8
por intervalos
> mean(x)
[1] 4.571429
> X
Error: object ’X’ not found
Recuerde que lo último ocurre pues R distingue entre minúscu-
las y mayúsculas.
Estadı́stica para Ingenierı́a FACI PUCP 20 / 40
CAPÍTULO 1 Supongamos ahora que se quiere ordenar un vector de tal
manera que los números estén en orden descendente. Por
defecto R ordena de modo ascendente, por lo que se tiene que
Conceptos
básicos cambiar el argumento decreasing por TRUE (el valor por
Organización defecto es FALSE).
de datos

Una breve > y <- c(4,2,0,9,5,3,10)


introducción
al R > y
Distribución [1] 4 2 0 9 5 3 10
de frecuencias
por intervalos > sort(y)
[1] 0 2 3 4 5 9 10
> sort(y, decreasing=TRUE)
[1] 10 9 5 4 3 2 0
En adelante, para que todos los comandos que escribimos
puedan ser directamente copiados a la consola, omitiremos el
sı́mbolo del cursor >.
Estadı́stica para Ingenierı́a FACI PUCP 21 / 40
Retomando los ejemplos con R

CAPÍTULO 1 Dada la introducción previa, veamos cómo recrear los ejemplos


anteriormente dados en R. El ingreso de los datos lo podemos
Conceptos
hacer directamente en R u otro software (por ejemplo Excel)
básicos para luego importar estos datos a R. Vemos la primera
Organización
de datos
estrategia para el ejemplo con X = número de accidentes.
Una breve En la consola de R escribamos
introducción
al R X = c(1, 2, 0, 3, 1, 0, 1, 0, 4, 2, 1, 1, 2, 0, 1,
Distribución
de frecuencias
1, 0, 3, 1, 1, 0, 2, 1, 0, 4, 0, 1, 2, 2, 2)
por intervalos
La distribución de frecuencias de esta variable se obtiene con el
comando table
tab = table(X)
tab
X
0 1 2 3 4
8 11 7 2 2
Estadı́stica para Ingenierı́a FACI PUCP 22 / 40
CAPÍTULO 1 La distribución de los porcentajes se podrı́a obtener con
100*tab/length(X)
Conceptos
X
básicos
0 1 2 3 4
Organización
de datos 26.666667 36.666667 23.333333 6.666667 6.666667
Una breve
introducción
Si queremos tanto las frecuencias absolutas como relativas en
al R columnas, podemos usar el comando cbind, el cual sirve para
Distribución
de frecuencias
agrupar vectores en columnas.
por intervalos
> cbind(tab,tab/length(x))
tab
0 8 0.26666667
1 11 0.36666667
2 7 0.23333333
3 2 0.06666667
4 2 0.06666667
Estadı́stica para Ingenierı́a FACI PUCP 23 / 40
CAPÍTULO 1 Algo interesante a notar es que la tabla de frecuencias es un
objeto (R es un lenguaje orientado a objetos) que se ha
guardado en la variable tab. Ella tiene un formato de tabla, que
Conceptos
básicos podrı́a convertirse en un vector con el comando
Organización
de datos tab = as.vector(tab)
Una breve tab
introducción
al R [1] 8 11 7 2 2
Distribución
de frecuencias Esto nos podrı́a servir por ejemplo para encontrar las
por intervalos
frecuencias acumuladas mediante
cumsum(tab)
0 1 2 3 4
8 19 26 28 30
El gráfico de bastones asociado a esta distribución de
frecuencias se puede obtener mediante
Estadı́stica para Ingenierı́a FACI PUCP 24 / 40
CAPÍTULO 1
plot(tab,type="h",ylab="Frecuencia")
title("Distribución de frecuencias del número
Conceptos de accidentes")
básicos

Organización Lo que nos da el gráfico siguiente:


de datos

Una breve Distribucion de frecuencias del número de accidentes

introducción
al R
10

Distribución
de frecuencias
8

por intervalos
Frecuencia

6
4
2
0

0 1 2 3 4

Estadı́stica para Ingenierı́a FACI PUCP 25 / 40


CAPÍTULO 1 Veamos ahora el ejemplo para X = Calidad del aire,
considerando que la data la copiamos (copy paste) a Excel
toda en un columna con la primera fila Calidad. Grabando este
Conceptos
básicos archivo en formato csv podemos invocar a
Organización
de datos X = read.csv(file.choose())
Una breve
introducción La opción file.choose() lo direccionará a su PC para que elija el
al R
archivo buscado. Otra posibilidad es colocar entre comillas el
Distribución
de frecuencias nombre del archivo pero este deberı́a de estar en su directorio
por intervalos
de trabajo.
La distribución de frecuencias absolutas vendrá dada por:
table(X)
X
Bueno Malo Moderado Muy Malo
3 12 14 1
Estadı́stica para Ingenierı́a FACI PUCP 26 / 40
CAPÍTULO 1 El gráfico de barras para la distribución de X se obtiene
mediante
Conceptos
barplot(table(X),ylab=#Frecuencia")
básicos
title(# Distribución de frecuencias
Organización
de datos del estado de la calidad del aire")
Una breve
introducción Distribucion de frecuencias del estado de la calidad del aire
al R
14

Distribución
12

de frecuencias
por intervalos
10
8
Frecuencia

6
4
2
0

Bueno Malo Moderado Muy Malo

Estadı́stica para Ingenierı́a FACI PUCP 27 / 40


CAPÍTULO 1 Otra alternativa al gráfico anterior es el gráfico circular el cual
puede obtenerse mediante
Conceptos
> pie(table(x)) Malo
básicos

Organización
de datos

Una breve
introducción
al R Bueno

Distribución
de frecuencias
por intervalos
Muy Malo

Moderado

Estadı́stica para Ingenierı́a FACI PUCP 28 / 40


Tablas o distribuciones de frecuencias
CASO CUANTITATIVO CONTINUO

CAPÍTULO 1 En este caso es necesario agrupar las observaciones en clases.


Considerando las clases como intervalos de igual amplitud,
Conceptos
podemos seguir el siguiente procedimiento:
básicos
Establecer el número de clases k, usualmente entre 5 y
Organización
de datos 10 intervalos aunque ello es subjetivo y depende de la ex-
Una breve periencia. Una sugerencia es seguir la regla de Sturges:
k = 1 + 3.3 log10 (n), donde k se aproxima por exceso.
introducción
al R

Distribución Determinar la amplitud de los datos, A =máx − mı́n.


de frecuencias
A
por intervalos
Determinar el tamaño de la clase, c = donde,, de ser
k
necesario c debe de redondearse por exceso al número de
decimales de los datos.
Usar c para construir los intervalos de cada clase. Aquı́ con-
sideraremos intervalos cerrados por la derecha y abiertos
por la izquierda, con excepción del primero que es cerrado
en ambos lados.
Estadı́stica para Ingenierı́a FACI PUCP 29 / 40
CAPÍTULO 1

Se considera la siguiente notación:


Conceptos
básicos Lj : Extremo derecho de la clase j.
Organización
de datos
x̂j : Marca de clase o punto medio del intervalo de clase j.
Una breve nj : Frecuencia de la clase j.
fj =
introducción
nj
al R
n : Frecuencia relativa de la clase j.
pj = 100 × fj : Porcentaje de la clase j.
Distribución
de frecuencias
por intervalos
Nj = ∑jh=1 nh : Frecuencia acumulada de la clase j.
Fj = ∑jh=1 fh : Frecuencia relativa acumulada de la clase j.
Pj = ∑jh=1 ph : Porcentaje acumulado de la clase j.

Estadı́stica para Ingenierı́a FACI PUCP 30 / 40


CAPÍTULO 1

Esta tabla de frecuencias suele ser representada gráficamente a


Conceptos
través del:
básicos
Histograma: Aquı́ cada clase es representada por una barra
Organización
de datos cuya altura es proporcional a la frecuencia con que ocurre.
Una breve En este tipo de gráficos no se debe dejar espacios entre las
introducción
al R barras para indicar que se está presentando información de
Distribución una variable cuantitativa continua.
de frecuencias
por intervalos
Polı́gono de frecuencias: Es formada uniendo los puntos me-
dios altos de cada barra del histograma.
Gráfico de frecuencias acumuladas u ojiva: Utiliza las fre-
cuencias acumuladas y los limites superiores de cada inter-
valo de clase.

Estadı́stica para Ingenierı́a FACI PUCP 31 / 40


Ejemplo:

CAPÍTULO 1

Conceptos
Se registró el consumo de electricidad en kWh de 50 hogares
básicos obteniéndose:
Organización
de datos
589 493 531 355 469 432 415 468 617 426
Una breve
introducción 300 439 464 430 403 525 478 392 432 459
al R
398 372 488 481 620 484 509 522 488 502
Distribución
de frecuencias 596 567 466 477 580 555 520 525 425 650
por intervalos
384 497 438 501 521 452 508 462 457 577

Construya una distribución de frecuencias y muestre esta


gráficamente.

Estadı́stica para Ingenierı́a FACI PUCP 32 / 40


Solución:

CAPÍTULO 1

De no tener mayor experiencia o no indicarse, usaremos la regla


Conceptos de Sturges con k = 1 + 3.3 log1 0(50) = 6.6 ≈ 7 clases. El valor
básicos
mı́nimo de los datos es 300 kWh y el máximo 650 kWh, por la
Organización
de datos tanto la amplitud es de
Una breve
introducción
al R A = 650 − 300 = 350 kWh.
Distribución
de frecuencias
por intervalos
Ası́, el ancho de cada intervalo de clase será de:

c = 350/7 = 50 kWh.

A partir de estos resultados obtenemos la siguiente tabla de


frecuencias para este conjunto de datos.

Estadı́stica para Ingenierı́a FACI PUCP 33 / 40


CAPÍTULO 1

Conceptos
básicos Intervalo Marca Frec. Frec. Porcentaje Frec. Frec. Rel.
Organización clase de clase relativa acum. acumulada
de datos
x̂j nj fj pj Nj Fj
Una breve [300, 350] 325 1 0.02 2 1 0.02
(350, 400]
introducción
al R 375 5 0.1 10 6 0.12
Distribución (400, 450] 425 9 0.18 18 15 0.3
de frecuencias (450, 500] 475 16 0.32 32 31 0.62
(500, 550]
por intervalos
525 10 0.2 20 41 0.82
(550, 600] 575 6 0.12 12 47 0.94
(600, 650] 625 3 0.06 6 50 1
Total 50 1 100

Estadı́stica para Ingenierı́a FACI PUCP 34 / 40


CAPÍTULO 1 Se puede observar
Que las frecuencias, van cambiando a partir del valor 1 en el
primer intervalo hasta alcanzar los valores de 9, 16 y 10 en
Conceptos
básicos los intervalos 3, 4 y 5 para luego decrecer en los intervalos
Organización 6 y 7. Esto sugiere que la mayorı́a de los hogares tienen un
de datos

Una breve
consumo de electricidad intermedio entre los intervalos 3, 4
introducción
al R
y 5 (de 400 a 550 kWh).
Distribución
Que existen pocos hogares con consumo de electricidad ba-
de frecuencias
por intervalos
jos ó altos. Estos resultados también se pueden observar si
analizamos las frecuencias relativas y los porcentajes.
Otras posibles interpretaciones que podemos hacer son: so-
lamente el 1 % de los hogares tienen consumos por debajo
de los 350 kWh; el 18 % de los hogares tienen consumos
mayores a los 550 kWh. La información contenida en esta
tabla se presenta también en forma gráfica en la siguiente
figura.
Estadı́stica para Ingenierı́a FACI PUCP 35 / 40
intervalos 6 y 7. Esto sugiere que la mayorı́a de los hogares tienen un consumo de electricidad
intermedio entre los intervalos 3, 4 y 5 (de 400 a 550 kW h). Que existen pocos hogares con
consumo de electricidad bajos ó altos. Estos resultados también se pueden observar si analizamos
las frecuencias relativas y los porcentajes. Otras posibles interpretaciones que podemos hacer
son: solamente el 1 % de los hogares tienen consumos por debajo de los 350 kW h; el 18 % de los
hogares tienen consumos mayores a los 550 kW h.
CAPÍTULO 1 La información contenida en esta tabla se presenta tambien en forma gráfica en la Figura 1.3.

1.0

15

Conceptos ●

0.8
básicos

Frecuencia relativa
10

Organización ●

0.6
Frecuencia

de datos

0.4
Una breve
introducción
5

al R

0.2

Distribución
de frecuencias ●

0.0

0

por intervalos
300 350 400 450 500 550 600 650 300 350 400 450 500 550 600 650

Consumo en kWh Consumo en kWh

Figura 1.3: Histograma con polı́gono de frecuencias y gráfico de frecuencias acumuladas


Figura : Histograma con polı́gono de frecuencias y ojiva para el con-
sumo de electricidad en los 50 hogares del distrito.
1.3. Medidas de Tendencia Central
En esta sección estudiaremos estadı́sticas que son utilizadas para representar el centro de
un conjunto de datos. Consideraremos a partir de ahora en las definiciones que contamos con
una muestra de tamaño n denotada por x1 , x2 , ..., xn .
Estadı́stica para Ingenierı́a FACI PUCP 36 / 40
CAPÍTULO 1 En R el histograma anterior se podrı́a obtener mediante

elect=c(
Conceptos + 589,493,531,355,469,432,415,468,617,426,
básicos

Organización
+ 300,439,464,430,403,525,478,392,432,459,
de datos + 398,372,488,481,620,484,509,522,488,502,
Una breve + 596,567,466,477,580,555,520,525,425,650,
introducción
al R + 384,497,438,501,521,452,508,462,457,577)
Distribución
de frecuencias
helect = hist(elect)
por intervalos
Ella nos da justamente 7 intervalos, según el valor por defecto
(default) de R. En caso que esto último no ocurra; por citar si
desearamos 6 intervalos, podrı́amos escribir:
c = ceiling(diff(range(elect)/6))
b=seq(min(elect),max(elect)+c,by = c)
helect6=hist(elect,breaks=b)
Estadı́stica para Ingenierı́a FACI PUCP 37 / 40
CAPÍTULO 1 Note que helect es un objecto que tiene lo siguiente:
helect
Conceptos $breaks
básicos
[1] 300 350 400 450 500 550 600 650
Organización $counts
de datos

Una breve
[1] 1 5 9 16 10 6 3
introducción $density
al R
[1] 0.0004 0.0020 0.0036 0.0064 0.0040 0.0024 0.0012
Distribución
de frecuencias $mids
por intervalos [1] 325 375 425 475 525 575 625
$xname
[1] "elect"
$equidist
[1] TRUE
attr(,"class")
[1] "histogram"

Estadı́stica para Ingenierı́a FACI PUCP 38 / 40


CAPÍTULO 1 Con ello podrı́amos por ejemplo construir la distribución de
frecuencias mediante:
Conceptos
básicos htable = cbind(helect$breaks[-1],helect$mids,
Organización helect$counts)
de datos
colnames(htable) = c("L_j", "x_j","n_j")
Una breve
introducción htable
al R
L_j x_j n_j
Distribución
de frecuencias [1,] 350 325 1
por intervalos
[2,] 400 375 5
[3,] 450 425 9
[4,] 500 475 16
[5,] 550 525 10
[6,] 600 575 6
[7,] 650 625 3

Estadı́stica para Ingenierı́a FACI PUCP 39 / 40


CAPÍTULO 1
Otra aplicación serı́a obtener la ojiva de esta distribución con:
bb=helect$breaks
P = c(0,cumsum(helect$counts/length(elect))*100)
Conceptos plot(bb,P,xlab="Consumos en kWh",ylab="Porcentaje acumulado de ho
básicos
lines(bb,P,col="red")
Organización title("Ojiva para la distribución de electricidad en los hogares"
de datos

Una breve Ojiva para la distribución de electricidad en los hogares

introducción
100


al R ●

Distribución ●
80

de frecuencias
Porcentaje acumulado de hogares

por intervalos

60
40


20



0

300 350 400 450 500 550 600 650

Consumos en kWh

Estadı́stica para Ingenierı́a FACI PUCP 40 / 40

También podría gustarte