Está en la página 1de 56

Temario

Introducción
Qué es el Análisis Exploratorio de datos (AED)?
Variables estadísticas
Distribuciones univariadas
Representación gráfica de variables unidimensionales

ESTADÍSTICA Y PROBABILIDAD 523250.

Profesores: Guillermo Ferreira & Jean Paul Navarrete

August 9, 2022

Profesores: Guillermo Ferreira & Jean Paul Navarrete ESTADÍSTICA Y PROBABILIDAD 523250.
Temario
Introducción
Qué es el Análisis Exploratorio de datos (AED)?
Variables estadísticas
Distribuciones univariadas
Representación gráfica de variables unidimensionales

1 Introducción
Definiciones de estadística, población y muestra
2 Qué es el Análisis Exploratorio de datos (AED)?
AED y el escenario en que se desenvuelve
Conceptos que Ud. usará
3 Variables estadísticas
Tipos de variables
Presentación de datos
4 Distribuciones univariadas
5 Representación gráfica de variables unidimensionales
Variables cualitativas o cuantitativas con pocos valores
distintos
Variables cuantitativas continuas

Profesores: Guillermo Ferreira & Jean Paul Navarrete ESTADÍSTICA Y PROBABILIDAD 523250.
Temario
Introducción
Qué es el Análisis Exploratorio de datos (AED)?
Definiciones de estadística, población y muestra
Variables estadísticas
Distribuciones univariadas
Representación gráfica de variables unidimensionales

Introducción

"La estadística es la ciencia que trata de la recolección,


clasificación y presentación de los hechos sujetos a una
apreciación numérica como base a la explicación, descripción y
comparación de los fenómenos". (Yale y Kendal, 1954).
"La estadística comprende el conjunto de métodos y
procedimientos para obtener, describir e interpretar conjuntos
de datos y para basar decisiones y predecir fenómenos que
pueden expresarse en forma cuantitativa."(Horacio D’Ottone).

Profesores: Guillermo Ferreira & Jean Paul Navarrete ESTADÍSTICA Y PROBABILIDAD 523250.
Temario
Introducción
Qué es el Análisis Exploratorio de datos (AED)?
Definiciones de estadística, población y muestra
Variables estadísticas
Distribuciones univariadas
Representación gráfica de variables unidimensionales

Ciencia que recoge, organiza, presenta, analiza e interpreta


datos con el fin de propiciar una toma de decisiones más eficaz
En conclusión, la estadística es la ciencia que tiene que ver con la;
1 recolección
2 organización
3 presentación
4 análisis
5 e interpretación de datos

Profesores: Guillermo Ferreira & Jean Paul Navarrete ESTADÍSTICA Y PROBABILIDAD 523250.
Temario
Introducción
Qué es el Análisis Exploratorio de datos (AED)?
Definiciones de estadística, población y muestra
Variables estadísticas
Distribuciones univariadas
Representación gráfica de variables unidimensionales

El objetivo de este curso es que conozcas los conceptos y aprendas


a utilizar la Estadística Aplicada. Dividiremos la estadística
aplicada en tres partes:

1. Análisis de Datos: Se refiere a métodos e ideas para organizar


y describir los datos utilizando gráficos, resumen númericos, y
otras técnicas matemáticas más elaboradas. Capitulo 1-2
analizaremos en detalle el modulo de Estadística
descriptiva o exploratoria.

Profesores: Guillermo Ferreira & Jean Paul Navarrete ESTADÍSTICA Y PROBABILIDAD 523250.
Temario
Introducción
Qué es el Análisis Exploratorio de datos (AED)?
Definiciones de estadística, población y muestra
Variables estadísticas
Distribuciones univariadas
Representación gráfica de variables unidimensionales

2. Producción de Datos: Proporciona métodos para producir o


generar bases de datos que pueden dar una clara respuesta a
preguntas especificas. Conceptos básicos de como seleccionar
muestras y diseñar experimentos son quizás las más influyentes
de todas las ideas estadísticas.

Profesores: Guillermo Ferreira & Jean Paul Navarrete ESTADÍSTICA Y PROBABILIDAD 523250.
Temario
Introducción
Qué es el Análisis Exploratorio de datos (AED)?
Definiciones de estadística, población y muestra
Variables estadísticas
Distribuciones univariadas
Representación gráfica de variables unidimensionales

3. Estadśtica Inferencial: La inferencia estadística va más allá de


los datos disponibles para sacar conclusiones sobre un universo
más amplio. La inferencia estadística no solo saca
conclusiones, sino que acompaña esas conclusiones con una
declaración sobre cuán confiables son. La inferencia usa el
lenguaje de la probabilidad, que presentamos en el Capítulo 2.
Los Capítulos 3 y 4 presentan la inferencia tal cómo se usa en
la práctica en varios escenarios simples. Los capítulos 5 y 6
ofrecen breves introducciones a la inferencia en algunos
escenarios más complejos.

Profesores: Guillermo Ferreira & Jean Paul Navarrete ESTADÍSTICA Y PROBABILIDAD 523250.
Temario
Introducción
Qué es el Análisis Exploratorio de datos (AED)? AED y el escenario en que se desenvuelve
Variables estadísticas Conceptos que Ud. usará
Distribuciones univariadas
Representación gráfica de variables unidimensionales

Definiciones Básicas

La estadítica es la ciencia de los datos. Por lo tanto, comenzamos


nuestro estudio de la estadística dominando el arte de examinar
datos.
Definition 1 (Población)
Es la recolección completa de todas las observaciones de interés
para el investigador.

Definition 2 (Muestra)
Es una parte representativa de la población que se selecciona para
ser estudiada ya que la población es demasiado grande como para
analizarla en su totalidad.

Profesores: Guillermo Ferreira & Jean Paul Navarrete ESTADÍSTICA Y PROBABILIDAD 523250.
Temario
Introducción
Qué es el Análisis Exploratorio de datos (AED)? AED y el escenario en que se desenvuelve
Variables estadísticas Conceptos que Ud. usará
Distribuciones univariadas
Representación gráfica de variables unidimensionales

Definiciones Básicas

Example 1 (Proceso de producción)


Un fabricante de tarjetas para computadora desea minimizar los
defectos producidos en la cadena de producción. Un proceso de
muestreo implicaría recolectar información de 50 tarjetas de
computadora tomadas aleatoriamente durante el proceso.

Profesores: Guillermo Ferreira & Jean Paul Navarrete ESTADÍSTICA Y PROBABILIDAD 523250.
Temario
Introducción
Qué es el Análisis Exploratorio de datos (AED)? AED y el escenario en que se desenvuelve
Variables estadísticas Conceptos que Ud. usará
Distribuciones univariadas
Representación gráfica de variables unidimensionales

AED y el escenario en que se desenvuelve

AED es el proceso de examinar y resumir datos para revelar


caracterásticas, patrones y relaciones entre variables de un set
de datos.
Datos pueden explorarse tanto gráfica como numéricamente.
En esta parte del curso, Ud. usará ambas técnicas
intensivamente.
Note que cuando Ud. hace análisis descriptivo de datos (y no
inferencial), las conclusiones que Ud. establezca sólo
pueden referirse a la muestra y no a la población de la
cual provienen sus datos.

Profesores: Guillermo Ferreira & Jean Paul Navarrete ESTADÍSTICA Y PROBABILIDAD 523250.
Temario
Introducción
Qué es el Análisis Exploratorio de datos (AED)? AED y el escenario en que se desenvuelve
Variables estadísticas Conceptos que Ud. usará
Distribuciones univariadas
Representación gráfica de variables unidimensionales

Conceptos que Ud. usará

Gráfico de barras, gráfico de torta.


Histograma, gráfico de tallo y hoja.
Medidas de posición: media, moda, mediana, percentiles.
Medidas de dispersión: varianza, desviación estándar, rango,
rango intercuartil, desviación media absoluta.
Tablas de distribución de frecuencias.
Boxplots.

Profesores: Guillermo Ferreira & Jean Paul Navarrete ESTADÍSTICA Y PROBABILIDAD 523250.
Temario
Introducción
Qué es el Análisis Exploratorio de datos (AED)? Tipos de variables
Variables estadísticas Presentación de datos
Distribuciones univariadas
Representación gráfica de variables unidimensionales

Variables

Cualquier conjunto de datos contiene información sobre algún


grupo de individuos. La información está organizada en variables.
Ambos conceptos se definen a continuación:
Definition 3 (Individuo)
Los individuos son los objetos descritos en el conjunto de datos.
Individuos pueden ser, personas, animales o cosas.

Definition 4 (Variable)
Es una caracterśtica de un individuo. Una variable puede tomar
diferentes valores para diferentes individuos.

Profesores: Guillermo Ferreira & Jean Paul Navarrete ESTADÍSTICA Y PROBABILIDAD 523250.
Temario
Introducción
Qué es el Análisis Exploratorio de datos (AED)? Tipos de variables
Variables estadísticas Presentación de datos
Distribuciones univariadas
Representación gráfica de variables unidimensionales

Example 2
Considere los datos que describen la educación publica en los Estados de Unidos.
State Region Population SAT SAT Percent Dollars Teacher’s
Verbal Math taking per pay
pupil ($1000)
..
.

CA PAC 29.760 419 484 45 4.826 39.6


CO MTN 3.294 456 513 28 4.809 31.8
CT NE 3.287 430 471 74 7.914 43.8
..
.

Profesores: Guillermo Ferreira & Jean Paul Navarrete ESTADÍSTICA Y PROBABILIDAD 523250.
Temario
Introducción
Qué es el Análisis Exploratorio de datos (AED)? Tipos de variables
Variables estadísticas Presentación de datos
Distribuciones univariadas
Representación gráfica de variables unidimensionales

Tipos de variables

Variables cualitativas: describen cualidades y no pueden


operarse numéricamente (aún cuando, en ocasiones, están
representadas por números).
A su vez, éstas se dividen en:
Ordinales: Sus posibles valores admiten un orden.
(Calidad académica de un alumno. Posibles valores:
{Insuficiente, Suficiente, . . . , Muy bueno, Excelente}.
Puntuaciones en test de aptitud).
Nominales: Sus posibles valores no admiten un orden.
(Tipo de sangre. Posibles valores: {A, B, AB, O}. Profesión.
Nacionalidad. Provincia de origen).

Profesores: Guillermo Ferreira & Jean Paul Navarrete ESTADÍSTICA Y PROBABILIDAD 523250.
Temario
Introducción
Qué es el Análisis Exploratorio de datos (AED)? Tipos de variables
Variables estadísticas Presentación de datos
Distribuciones univariadas
Representación gráfica de variables unidimensionales

Tipos de variables

Variables cuantitativas: describen cantidades y sí pueden


operarse numéricamente.
A su vez, éstas se dividen en:
Discretas: Sus posibles valores forman un conjunto finito, o
bien infinito numerable.
(No. de hijos. Posibles valores: {0, 1, 2, . . .}).
Continuas: Sus posibles valores forman un conjunto infinito
no numerable.
(Edad, Altura, Tiempo entre dos llamadas telefónicas).

Profesores: Guillermo Ferreira & Jean Paul Navarrete ESTADÍSTICA Y PROBABILIDAD 523250.
Temario
Introducción
Qué es el Análisis Exploratorio de datos (AED)? Tipos de variables
Variables estadísticas Presentación de datos
Distribuciones univariadas
Representación gráfica de variables unidimensionales

A modo de resumen, las variables se clasifican de la siguiente


manera:

Profesores: Guillermo Ferreira & Jean Paul Navarrete ESTADÍSTICA Y PROBABILIDAD 523250.
Temario
Introducción
Qué es el Análisis Exploratorio de datos (AED)? Tipos de variables
Variables estadísticas Presentación de datos
Distribuciones univariadas
Representación gráfica de variables unidimensionales

Tabla de Frecuencia

La distribución (ó tabla de frecuencia) de una variable nos indica


qué valores toma y con qué frecuencia toma estos valores.
Example 3
La distribución de una varaible categorica enumera las categorías y proporciona el
recuento o el porcentaje de personas que se encuentran en cada categoría. Por
ejemplo, aquí está la distribución del estado civil de todos los estadounidenses mayores
de 18 años.
Marital status Count (millons) Percent
Single 41.8 22.6
Married 113.3 61.1
Widowed 13.9 7.5
Divorced 16.3 8.8
Total 185.3 100

Profesores: Guillermo Ferreira & Jean Paul Navarrete ESTADÍSTICA Y PROBABILIDAD 523250.
Temario
Introducción
Qué es el Análisis Exploratorio de datos (AED)? Tipos de variables
Variables estadísticas Presentación de datos
Distribuciones univariadas
Representación gráfica de variables unidimensionales

(a) (b)
Grafico de barras Grafico de torta
100

Married 61%
80

Divorced 9%
60

Widowed 8%
40
20

Single 23%
0

Divorced Married Single Widowed

Figure: Distribución del estado civil: (a) Histograma o Gráfico de Barra.


(b) Gráfico Circular o de Torta

Profesores: Guillermo Ferreira & Jean Paul Navarrete ESTADÍSTICA Y PROBABILIDAD 523250.
Temario
Introducción
Qué es el Análisis Exploratorio de datos (AED)? Tipos de variables
Variables estadísticas Presentación de datos
Distribuciones univariadas
Representación gráfica de variables unidimensionales

Presentación de variable cualitativa


Example 4
La siguiente Tabla muestra datos simplificados del censo Estadístico de 1980 para una
provincia de España, clasificada por su relación laboral con la empresa en que trabaja.

Relación Laboral Frecuencia Frecuencia %


absoluta relativa
Patrones 4.548 0.033 3.3
Trabajadores autónomos 17.423 0.126 12.6
Cooperativas 2.406 0.017 17
Empleados fijos 61.935 0.448 44.8
Trabajadores eventuales 47.358 0.343 34.3
Trabaja en empresa familiar 3.580 0.026 2.6
Otros 998 0.007 07
Total 138.248 1 100

Table: Población activa de una Provincia 1980 según relación laboral.


Profesores: Guillermo Ferreira & Jean Paul Navarrete ESTADÍSTICA Y PROBABILIDAD 523250.
Temario
Introducción
Qué es el Análisis Exploratorio de datos (AED)? Tipos de variables
Variables estadísticas Presentación de datos
Distribuciones univariadas
Representación gráfica de variables unidimensionales

Presentación de variable cualitativa


Example 5
Se cuenta con información sobre el nivel de estudios de un grupo de
n = 120 individuos. Los resultados de las observaciones se resumen
en la Tabla 2;
Nivel de estudios Frecuencia Frecuencia Frec. Abs. Frec. Rel.
absoluta relativa Acum. Acum.
sin estudios 5 0.042 5 0.042
primaria 30 0.25 35 0.292
secundaria 45 0.375 80 0.667
universitaria 40 0.333 120 1
Total 120 1

Table: Tabla de frecuencia para la variable nivel de estudios.

Profesores: Guillermo Ferreira & Jean Paul Navarrete ESTADÍSTICA Y PROBABILIDAD 523250.
Temario
Introducción
Qué es el Análisis Exploratorio de datos (AED)? Tipos de variables
Variables estadísticas Presentación de datos
Distribuciones univariadas
Representación gráfica de variables unidimensionales

Distribuciones univariadas variable cuantitativa

Example 6
El siguiente conjunto de datos tiene información del salario
diario(en miles de pesos) de n = 50 trabajadores de una empresa de
confecciones. Determine la distribución de frecuencias de la variable
salario.
50 51 51 51 52 52 52 52 52 53
53 53 53 53 53 53 53 53 54 54
54 54 54 54 54 54 54 54 54 54
55 55 55 55 55 55 55 55 55 55
56 56 56 56 56 57 57 57 58 58

Profesores: Guillermo Ferreira & Jean Paul Navarrete ESTADÍSTICA Y PROBABILIDAD 523250.
Temario
Introducción
Qué es el Análisis Exploratorio de datos (AED)? Tipos de variables
Variables estadísticas Presentación de datos
Distribuciones univariadas
Representación gráfica de variables unidimensionales

Cont. Example

Variable Frecuencia Frecuencia Frec. Abs. Frec. Rel.


X absoluta relativa Acum. Acum.
50 1 0.02 1 0.02
51 3 0.06 4 0.08
52 5 0.10 9 0.18
53 9 0.18 18 0.36
54 12 0.24 30 0.60
55 10 0.20 40 0.80
56 5 0.10 45 0.90
57 3 0.06 48 0.96
58 2 0.04 50 1.00
Table: Tabla de frecuencias agrupada sin intervalos de clase.

Profesores: Guillermo Ferreira & Jean Paul Navarrete ESTADÍSTICA Y PROBABILIDAD 523250.
Temario
Introducción
Qué es el Análisis Exploratorio de datos (AED)? Tipos de variables
Variables estadísticas Presentación de datos
Distribuciones univariadas
Representación gráfica de variables unidimensionales

Presentación de datos

Agrupación en intervalos o clases. Facilita la presentación


de datos cuantitativos.
Cuántos intervalos uno debe hacer?
De qué longitud debe ser cada intervalo?
Se recomienda usar entre 5 y 20 (ó 25) intervalos.
Número de clases. Suponga que Ud. tiene n datos.

Alternativa 1: El entero más próximo a k = n.
Alternativa 2: El entero más próximo a k = 1 + 10/3 · log10 n
(fórmula de Sturges).

Profesores: Guillermo Ferreira & Jean Paul Navarrete ESTADÍSTICA Y PROBABILIDAD 523250.
Temario
Introducción
Qué es el Análisis Exploratorio de datos (AED)? Tipos de variables
Variables estadísticas Presentación de datos
Distribuciones univariadas
Representación gráfica de variables unidimensionales

Presentación de datos

Denote por [L0 , L1 ), [L1 , L2 ), . . . , [Lk−1 , Lk ) a los intervalos.


Elementos asociados a las clases o intervalos:
Límites: Li−1 , Li (límite inferior y límite superior,
respectivamente).
Marca de la clase ci = 1/2 · (Li + Li−1 ).
Amplitud de la clase: bi = Li − Li−1 .
El intervalo de clase es el rango de valores encontrados
dentro de una clase
xmax − xmin
IC =
k

Profesores: Guillermo Ferreira & Jean Paul Navarrete ESTADÍSTICA Y PROBABILIDAD 523250.
Temario
Introducción
Qué es el Análisis Exploratorio de datos (AED)?
Variables estadísticas
Distribuciones univariadas
Representación gráfica de variables unidimensionales

Distribuciones univariadas
Denote por n al total de datos en la muestra.
Frec. absoluta de la clase i es el número ni de datos que
están en el i-ésimo intervalo.
Frec. relativa de la clase i es el proporción ni /n de datos que
están en el i-ésimo intervalo.
Si la variable es cuantitativa, uno también define:
Frec. absoluta acumulada hasta la clase i es el número Ni
que se encuentran hasta la clase i.
Ni = n1 + n2 + · · · + ni
Frec. relativa acumulada hasta la clase i es la proporción
Ni /n que se encuentran hasta la clase i.
Ni /n = (n1 + n2 + · · · + ni ) /n
Profesores: Guillermo Ferreira & Jean Paul Navarrete ESTADÍSTICA Y PROBABILIDAD 523250.
Temario
Introducción
Qué es el Análisis Exploratorio de datos (AED)?
Variables estadísticas
Distribuciones univariadas
Representación gráfica de variables unidimensionales

Distribuciones univariadas

Tablas para datos agrupados.

Clases Marca Frecuencia Frecuencia Frec. Abs. Frec. Rel.


de clase absoluta relativa Acum. Acum.
[L0 , L1 ) c1 n1 n1 /n N1 N1 /n
[L1 , L2 ) c2 n2 n2 /n N2 N2 /n
[L2 , L3 ) c3 n3 n3 /n N3 N3 /n
.. .. .. .. .. ..
. . . . . .
[Lk−1 , Lk ] ck nk nk /n Nk Nk /n
Total n 1

Profesores: Guillermo Ferreira & Jean Paul Navarrete ESTADÍSTICA Y PROBABILIDAD 523250.
Temario
Introducción
Qué es el Análisis Exploratorio de datos (AED)?
Variables estadísticas
Distribuciones univariadas
Representación gráfica de variables unidimensionales

Distribuciones univariadas

Example 7
Como estadístico de una aerolínea se le solicita recopilar y agrupar los datos sobre el
número de pasajeros que han decidido viajar con L&P (en miles). Los datos
correspondientes a los últimos 21 días aparecen en la tabla

58 42 51 54 40 39 49
56 58 57 59 63 58 66
70 72 71 69 70 68 64

Para agrupar los datos utilizamos



k = 21 = 4.58 ≈ 5
72 − 39 33
IC = = = 6.6
5 5

Profesores: Guillermo Ferreira & Jean Paul Navarrete ESTADÍSTICA Y PROBABILIDAD 523250.
Temario
Introducción
Qué es el Análisis Exploratorio de datos (AED)?
Variables estadísticas
Distribuciones univariadas
Representación gráfica de variables unidimensionales

Distribuciones univariadas

Clases Marca Frecuencia Frecuencia Frec. Abs. Frec. Rel.


de clase absoluta relativa Acum. Acum.
[39 45, 6) 42,3 3 0,1428 3 0,1428
[45, 6 52, 2) 48,9 2 0,0952 5 0,2381
[52, 2 58, 8) 55,5 6 0,2857 11 0,5238
[58, 8 65, 4) 62,1 3 0,1428 14 0,6667
[65, 4 72] 68,7 7 0,3333 21 ≈1
21 ≈1
La aereolínea rara vez transporto menos de 39.000 pasajeros
En 6 días, ó el 29 % de los días, el número de pasajeros varía entre 52, 2 y 58, 8
miles.
En 14 días, el número de pasajeros es inferior a 65,400.

Profesores: Guillermo Ferreira & Jean Paul Navarrete ESTADÍSTICA Y PROBABILIDAD 523250.
Otra posibilidad a la hora de construir la tabla, y que nos permite
que trabajemos con cantidades más simples a la hora de construir
los intervalos, es aproximar hacia arriba o abajo el intervalo de clase.

k = 21 = 4.58 ≈ 5
72 − 39 33
IC = = = 6.6 ≈ 7
5 5
Clases Marca Frecuencia Frecuencia Frec. Abs. Frec. Rel.
de clase absoluta relativa Acum. Acum.
[38, 45) 41,5 3 0,1428 3 0,1428
[45, 52) 48,5 2 0,0952 5 0,2381
[52, 59) 55,5 7 0,3333 12 0,5714
[59, 66) 62,5 3 0,1428 15 0,7143
[66, 73] 69,5 6 0,2857 21 ≈1
21 ≈1
Temario
Introducción
Qué es el Análisis Exploratorio de datos (AED)?
Variables estadísticas
Distribuciones univariadas
Representación gráfica de variables unidimensionales

Presentación de datos

Example 8
Suponga que Ud. tiene 20 observaciones que representan distancias de frenado (en
metros), en autos conducidos sobre autopista húmeda.
Suponga el mismo automóvil y velocidad en todos los casos.

35.8 30.5 35.9 41.6 35.9


39.2 41.9 38.6 39.2 37.3
35.3 37.3 35.6 38.0 36.7
40.1 36.1 37.0 35.9 38.3

Para agrupar los datos utilizamos

k = 1 + 10/3 · log10 20 = 5.34 ≈ 6


41.9 − 30.5
IC = = 1.83 ≈ 2
6

Profesores: Guillermo Ferreira & Jean Paul Navarrete ESTADÍSTICA Y PROBABILIDAD 523250.
Temario
Introducción
Qué es el Análisis Exploratorio de datos (AED)?
Variables estadísticas
Distribuciones univariadas
Representación gráfica de variables unidimensionales

Cont. Example

Example 9
Agrupación en clases.

Clases Marca Frecuencia Frecuencia Frec. Abs. Frec. Rel.


de clase absoluta relativa Acum. Acum.
[30, 32) 31 1 1/20 1 1/20
[32, 34) 33 0 0 1 1/20
[34, 36) 35 6 6/20 7 7/20
[36, 38) 37 5 5/20 12 12/20
[38, 40) 39 5 5/20 17 17/20
[40, 42] 41 3 3/20 20 1

Profesores: Guillermo Ferreira & Jean Paul Navarrete ESTADÍSTICA Y PROBABILIDAD 523250.
Temario
Introducción
Qué es el Análisis Exploratorio de datos (AED)?
Variables estadísticas
Distribuciones univariadas
Representación gráfica de variables unidimensionales

Distribuciones univariadas

Example 10
El siguiente conjunto de datos tiene información del salario diario(en miles de pesos)
de n = 50 trabajadores de una empresa de confecciones. Determine la distribución de
frecuencias de la variable salario.

50 51 51 51 52 52 52 52 52 53
53 53 53 53 53 53 53 53 54 54
54 54 54 54 54 54 54 54 54 54
55 55 55 55 55 55 55 55 55 55
56 56 56 56 56 57 57 57 58 58

Para agrupar los datos utilizamos



k = 50 = 7.07 ≈ 8
58 − 50
IC = = 1 ≈ 1.1
8

Profesores: Guillermo Ferreira & Jean Paul Navarrete ESTADÍSTICA Y PROBABILIDAD 523250.
Cont. Example

Clases Marca Frecuencia Frecuencia Frec. Abs. Frec. Rel.


de clase absoluta relativa Acum. Acum.
1 [50-51.1) 50.55 4 0.08 4 0.08
2 [51.1-52.2) 51.65 5 0.10 9 0.18
3 [52.2-53.3) 52.75 9 0.18 18 0.36
4 [53.3-54.4) 53.85 12 0.24 30 0.60
5 [54.4-55.5) 54.95 10 0.20 40 0.80
6 [55.5-56.6) 56.05 5 0.10 45 0.90
7 [56.6-57.7) 57.15 3 0.06 48 0.96
8 [57.7-58.8) 58.25 2 0.04 50 1.00

Table: Tabla de frecuencias agrupada con intervalos de clase.


Temario
Introducción
Qué es el Análisis Exploratorio de datos (AED)?
Variables estadísticas
Distribuciones univariadas
Representación gráfica de variables unidimensionales

The R Project for Statistical Computing:


https://www.r-project.org-https://www.rstudio.com
Python : https://jupyter.org-https://www.python.org
Profesores: Guillermo Ferreira & Jean Paul Navarrete ESTADÍSTICA Y PROBABILIDAD 523250.
Temario
Introducción
Qué es el Análisis Exploratorio de datos (AED)? Variables cualitativas o cuantitativas con pocos valores distinto
Variables estadísticas Variables cuantitativas continuas
Distribuciones univariadas
Representación gráfica de variables unidimensionales

Variables cualitativas o cuantitativas con pocos valores distintos

Example 11
Ud. tiene los siguientes datos representando tipos de vehículos:
Ejemplo7 = as.factor(c(rep("Deportivo", 14),
Hola rep("Furgoneta", 9),
Tipo Frec. Abs.
Hola rep("Camion", 11),
Deportivo 14 Hola rep("Moto", 16),
Furgoneta 9 Hola rep("Pequeño", 21),
Camión 11 Hola rep("Tamaño medio", 11)))

Moto 16 n = length(Ejemplo7)
Pequeño 21
Frec.Abs.E7 = table(Ejemplo7)
Tamaño medio 11
Frec.Rel.E7 = table(Ejemplo7)/n

Profesores: Guillermo Ferreira & Jean Paul Navarrete ESTADÍSTICA Y PROBABILIDAD 523250.
Temario
Introducción
Qué es el Análisis Exploratorio de datos (AED)? Variables cualitativas o cuantitativas con pocos valores distinto
Variables estadísticas Variables cuantitativas continuas
Distribuciones univariadas
Representación gráfica de variables unidimensionales

Variables cualitativas o cuantitativas con pocos valores distintos

Example 12 (Example 11: Cont.)


Tipo Frec. Abs. Frec. Rel. Ni .
Deportivo 14 0.17 14
Furgoneta 9 0.11 23
Camión 11 0.13 34
Moto 16 0.20 50
Pequeño 21 0.26 71
Tamaño medio 11 0.13 82
82 ≈1

Profesores: Guillermo Ferreira & Jean Paul Navarrete ESTADÍSTICA Y PROBABILIDAD 523250.
Temario
Introducción
Qué es el Análisis Exploratorio de datos (AED)? Variables cualitativas o cuantitativas con pocos valores distinto
Variables estadísticas Variables cuantitativas continuas
Distribuciones univariadas
Representación gráfica de variables unidimensionales

Variables cualitativas o cuantitativas con pocos valores distintos

Diagrama de barras. Uno construye tantos rectángulos como


atributos o valores de este tipo de variable discreta.
La altura es la frecuencia absoluta o relativa de cada atributo
o posible valor de variables discretas de este tipo.

Tipo Frec. Abs. Frec. Rel.


Deportivo 14 0.17
Furgoneta 9 0.11
Camión 11 0.13
Moto 16 0.20
Pequeño 21 0.26
Tamaño medio 11 0.13
82 ≈1

Profesores: Guillermo Ferreira & Jean Paul Navarrete ESTADÍSTICA Y PROBABILIDAD 523250.
Temario
Introducción
Qué es el Análisis Exploratorio de datos (AED)? Variables cualitativas o cuantitativas con pocos valores distinto
Variables estadísticas Variables cuantitativas continuas
Distribuciones univariadas
Representación gráfica de variables unidimensionales

Código en R

barplot(Frec.Rel.E7,space=0.2, xlab="Tipo de vehiculo",


main="Grafico de barras Ejemplo 7",ylim=c(0,0.3),
col=c("gray20","gray30","gray40","gray50","gray60","gray70"))

Profesores: Guillermo Ferreira & Jean Paul Navarrete ESTADÍSTICA Y PROBABILIDAD 523250.
Temario
Introducción
Qué es el Análisis Exploratorio de datos (AED)? Variables cualitativas o cuantitativas con pocos valores distinto
Variables estadísticas Variables cuantitativas continuas
Distribuciones univariadas
Representación gráfica de variables unidimensionales

Variables cualitativas o cuantitativas con pocos valores distintos

Gráfico de torta (piechart). Uno divide un círculo en tantos


sectores circulares como atributos tenga la variable cualitativa.
Cada sector circular es proporcional a la frecuencia absoluta (o
relativa).

Tipo Frec. Abs. Frec. Rel.


Deportivo 14 0.17
Furgoneta 9 0.11
Camión 11 0.13
Moto 16 0.20
Pequeño 21 0.26
Tamaño medio 11 0.13
82 ≈1

Profesores: Guillermo Ferreira & Jean Paul Navarrete ESTADÍSTICA Y PROBABILIDAD 523250.
Temario
Introducción
Qué es el Análisis Exploratorio de datos (AED)? Variables cualitativas o cuantitativas con pocos valores distinto
Variables estadísticas Variables cuantitativas continuas
Distribuciones univariadas
Representación gráfica de variables unidimensionales

Código en R

slices <- c( 0.13, 0.17, 0.11, 0.20, 0.26, 0.13)


lbls <- c("Camion", "Deportivo", "Furgoneta", "Moto", "Pequeno",
"Tamano medio")
pct <- round(slices/sum(slices)*100)
lbls <- paste(lbls, pct) # add percents to labels
lbls <- paste(lbls,"%",sep="") # ad % to labels
pie(slices,labels = lbls, col=c("gray20","gray30","gray40","gray50",
"gray60","gray70"), main="Grafico de torta Ejemplo 7")

Profesores: Guillermo Ferreira & Jean Paul Navarrete ESTADÍSTICA Y PROBABILIDAD 523250.
Temario
Introducción
Qué es el Análisis Exploratorio de datos (AED)? Variables cualitativas o cuantitativas con pocos valores distinto
Variables estadísticas Variables cuantitativas continuas
Distribuciones univariadas
Representación gráfica de variables unidimensionales

Variables cualitativas o cuantitativas con pocos valores distintos

Gráfico de torta 3D (piechart).

Profesores: Guillermo Ferreira & Jean Paul Navarrete ESTADÍSTICA Y PROBABILIDAD 523250.
Temario
Introducción
Qué es el Análisis Exploratorio de datos (AED)? Variables cualitativas o cuantitativas con pocos valores distinto
Variables estadísticas Variables cuantitativas continuas
Distribuciones univariadas
Representación gráfica de variables unidimensionales

Código en R

install.packages("plotrix")
library(plotrix)
pie3D(slices,labels=lbls,explode=0.1,
main="Grafico de torta Ejemplo 7")

Profesores: Guillermo Ferreira & Jean Paul Navarrete ESTADÍSTICA Y PROBABILIDAD 523250.
Temario
Introducción
Qué es el Análisis Exploratorio de datos (AED)? Variables cualitativas o cuantitativas con pocos valores distinto
Variables estadísticas Variables cuantitativas continuas
Distribuciones univariadas
Representación gráfica de variables unidimensionales

Variables cuantitativas discreta

Ejemplo 8. Sa lanzan tres monedas al aire en 8 ocaciones y


se contabiliza el número de caras, X , obteniendose los
siguientes resultados;

2, 1, 0, 1, 3, 2, 1, 2.

Representar gráficamente el resultado

Profesores: Guillermo Ferreira & Jean Paul Navarrete ESTADÍSTICA Y PROBABILIDAD 523250.
Temario
Introducción
Qué es el Análisis Exploratorio de datos (AED)? Variables cualitativas o cuantitativas con pocos valores distinto
Variables estadísticas Variables cuantitativas continuas
Distribuciones univariadas
Representación gráfica de variables unidimensionales

Variables cuantitativas continuas

Histograma. Se realiza desde datos agrupados en intervalos.


Eje horizontal: Escala de valores de la variable que se mide. Se
marcan los límites de intervalos.
Eje vertical: Escala de alturas.
Sobre cada clase o intervalo se eleva un rectángulo tal que su
área

Ai = {Base} × {Altura} = (Li − Li−1 ) × hi = λ ni

Así, hi = λ ni /(Li − Li−1 ), con λ : constante.


Las categorías no necesariamente deben estar equiespaciadas.

Profesores: Guillermo Ferreira & Jean Paul Navarrete ESTADÍSTICA Y PROBABILIDAD 523250.
Temario
Introducción
Qué es el Análisis Exploratorio de datos (AED)? Variables cualitativas o cuantitativas con pocos valores distinto
Variables estadísticas Variables cuantitativas continuas
Distribuciones univariadas
Representación gráfica de variables unidimensionales

Variables cuantitativas continuas

Histograma. Usando los datos del Ejemplo 4, obtenga el


histograma:

Clases Marca Frecuencia


de clase absoluta
[30, 32) 31 1
[32, 34) 33 0
[34, 36) 35 6
[36, 38) 37 5
[38, 40) 39 5
[40, 42] 41 3

Profesores: Guillermo Ferreira & Jean Paul Navarrete ESTADÍSTICA Y PROBABILIDAD 523250.
Temario
Introducción
Qué es el Análisis Exploratorio de datos (AED)? Variables cualitativas o cuantitativas con pocos valores distinto
Variables estadísticas Variables cuantitativas continuas
Distribuciones univariadas
Representación gráfica de variables unidimensionales

Código en R

Ejemplo4 = c(35.8, 39.2, 35.3, 40.1, 30.5, 41.9, 37.3,


36.1, 35.9, 38.6, 35.6, 37.0, 41.6, 39.2, 38.0, 39.5,
39.5, 37.3, 36.7,38.3)
hist(Ejemplo4, freq=TRUE, right = FALSE,col="gray"
,main = "Histograma para Ejemplo 4",
xlab = "Distancia de frenado (en metros)",
ylab = "Frecuencias relativas")

Profesores: Guillermo Ferreira & Jean Paul Navarrete ESTADÍSTICA Y PROBABILIDAD 523250.
Temario
Introducción
Qué es el Análisis Exploratorio de datos (AED)? Variables cualitativas o cuantitativas con pocos valores distinto
Variables estadísticas Variables cuantitativas continuas
Distribuciones univariadas
Representación gráfica de variables unidimensionales

Variables cuantitativas continuas

Histograma. Usando los datos del Ejemplo 4, obtenga el


histograma:

Clases Marca Frecuencia %


de clase relativa
[30, 32) 31 1/20 5
[32, 34) 33 0 0
[34, 36) 35 6/20 30
[36, 38) 37 5/20 25
[38, 40) 39 5/20 25
[40, 42] 41 3/20 15

Profesores: Guillermo Ferreira & Jean Paul Navarrete ESTADÍSTICA Y PROBABILIDAD 523250.
Temario
Introducción
Qué es el Análisis Exploratorio de datos (AED)? Variables cualitativas o cuantitativas con pocos valores distinto
Variables estadísticas Variables cuantitativas continuas
Distribuciones univariadas
Representación gráfica de variables unidimensionales

Variables cuantitativas continuas

Ejemplo 8: Complete la tabla de distribución de frecuencias y


construya un histograma usando:
Clases Marca Frecuencia
de clase absoluta
[1.5, 4) 2.75 3
[4, 8) 6.00 9
[8, 9) 8.50 1
[9, 12) 10.50 10
[12, 14) 13 5

Profesores: Guillermo Ferreira & Jean Paul Navarrete ESTADÍSTICA Y PROBABILIDAD 523250.
Temario
Introducción
Qué es el Análisis Exploratorio de datos (AED)? Variables cualitativas o cuantitativas con pocos valores distinto
Variables estadísticas Variables cuantitativas continuas
Distribuciones univariadas
Representación gráfica de variables unidimensionales

Variables cuantitativas continuas

Ejemplo 8: Cont. λ = 1
Clases Marca Frecuencia Frecuencia
ni
de clase Li − Li−1 absoluta hi = bi relativa
ci bi ni fi
[1.5, 4) 2.75 3.5 3 0.86 0.11
[4, 8) 6.00 4 9 2.25 0.32
[8, 9) 8.50 1 1 1 0.04
[9, 12) 10.50 3 10 3.33 0.36
[12, 14) 13 2 5 2.5 0.18
28 ≈1

Profesores: Guillermo Ferreira & Jean Paul Navarrete ESTADÍSTICA Y PROBABILIDAD 523250.
Temario
Introducción
Qué es el Análisis Exploratorio de datos (AED)? Variables cualitativas o cuantitativas con pocos valores distinto
Variables estadísticas Variables cuantitativas continuas
Distribuciones univariadas
Representación gráfica de variables unidimensionales

Variables cuantitativas continuas

Polígono de frecuencias acumuladas.


Eje horizontal: Escala de valores de la variable que se mide. Se
marcan los límites de intervalos.
Eje vertical: Escala de frecuencias acumuladas (relativas o
absolutas).

Profesores: Guillermo Ferreira & Jean Paul Navarrete ESTADÍSTICA Y PROBABILIDAD 523250.
Temario
Introducción
Qué es el Análisis Exploratorio de datos (AED)? Variables cualitativas o cuantitativas con pocos valores distinto
Variables estadísticas Variables cuantitativas continuas
Distribuciones univariadas
Representación gráfica de variables unidimensionales

Variables cuantitativas continuas

Usando los datos del Ejemplo 4:


Clases Marca Frec. Rel.
de clase acumulada
[30, 32) 31 0.05
[32, 34) 33 0.05
[34, 36) 35 0.25
[36, 38) 37 0.50
[38, 40) 39 0.85
[40, 42] 41 1

Profesores: Guillermo Ferreira & Jean Paul Navarrete ESTADÍSTICA Y PROBABILIDAD 523250.
Temario
Introducción
Qué es el Análisis Exploratorio de datos (AED)? Variables cualitativas o cuantitativas con pocos valores distinto
Variables estadísticas Variables cuantitativas continuas
Distribuciones univariadas
Representación gráfica de variables unidimensionales

Código en R

n1.E01 = length(Ejemplo4[Ejemplo4>=30 & Ejemplo4<32])


n2.E01 = length(Ejemplo4[Ejemplo4>=32 & Ejemplo4<34])
n3.E01 = length(Ejemplo4[Ejemplo4>=34 & Ejemplo4<36])
n4.E01 = length(Ejemplo4[Ejemplo4>=36 & Ejemplo4<38])
n5.E01 = length(Ejemplo4[Ejemplo4>=38 & Ejemplo4<40])
n6.E01 = length(Ejemplo4[Ejemplo4>=40 & Ejemplo4<42])

limsups = c(32, 34, 36, 38, 40, 42)


frec.rel.acum.E01 = cumsum(c(n1.E01, n2.E01, n3.E01, n4.E01, n5.E01,
n6.E01))/length(Ejemplo4)
plot(limsups, frec.rel.acum.E01, type="l", lwd=2,
main = "Diagrama acumulativo de frecuencias relativas",
ylab = "", xlab="distancia de frenado en mts.")

Profesores: Guillermo Ferreira & Jean Paul Navarrete ESTADÍSTICA Y PROBABILIDAD 523250.
Temario
Introducción
Qué es el Análisis Exploratorio de datos (AED)? Variables cualitativas o cuantitativas con pocos valores distinto
Variables estadísticas Variables cuantitativas continuas
Distribuciones univariadas
Representación gráfica de variables unidimensionales

Variables cuantitativas continuas


Diagrama de tallo y hoja (Stem and leaf).
Se construye como sigue:
(1).Exprese datos en unidades convenientes, redondeando a 2 ó 3
cifras significativas y ordénelos de menor a mayor.
(2).Coloque sus datos con dos columnas separadas por una línea
como sigue:
Para datos con 2 d’igitos, escriba a la izquierda de la línea los
dígitos de las decenas (tallo) y a la derecha los de las unidades
(hojas).
Para datos con tres dígitos, el tallo serán las centenas y
decenas (a la izquierda de la línea) y las hojas serán las
unidades.
(3).Cada tallo define una clase y uno lo escribe sólo una vez; el
número de hojas representa la frecuencia de la clase
correspondiente al tallo.
Profesores: Guillermo Ferreira & Jean Paul Navarrete ESTADÍSTICA Y PROBABILIDAD 523250.
Temario
Introducción
Qué es el Análisis Exploratorio de datos (AED)? Variables cualitativas o cuantitativas con pocos valores distinto
Variables estadísticas Variables cuantitativas continuas
Distribuciones univariadas
Representación gráfica de variables unidimensionales

Variables cuantitativas continuas

Usando los datos del Ejemplo 4 (distancia de frenado):


30 | 5
31 |
32 |
33 |
34 |
35 | 3 6 8 9
36 | 1 7
37 | 0 3 3
38 | 0 3 6
39 | 2 2 5 5
40 | 1
41 | 6 9

Esto se obtiene en R usando stem(Ejemplo4, scale = 3).

Profesores: Guillermo Ferreira & Jean Paul Navarrete ESTADÍSTICA Y PROBABILIDAD 523250.
Resumen

Resumen: Principales Gráficos según el tipo de variable:.


1 Variable Cualitativa: Barras, sectores, pictogramas.
2 Variable Discreta: Gráfico de barras, en escalera.
3 Variable Continua: Histograma, polígono de frecuencias,
diagramas acumulados (ojiva).

También podría gustarte