Está en la página 1de 17

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

net/publication/323366236

Análisis Exploratorio de Datos

Book · February 2018


DOI: 10.2307/j.ctvc5pc9g

CITATION READS
1 1,681

1 author:

Leandro Gonzalez
Universidad de Bogotá Jorge Tadeo Lozano
15 PUBLICATIONS   17 CITATIONS   

SEE PROFILE

Some of the authors of this publication are also working on these related projects:

Proyecto Tadeísta para la retención estudiantil View project

Propuesta metodológica para la enseñanza de la estadística aplicada View project

All content following this page was uploaded by Leandro Gonzalez on 23 February 2018.

The user has requested enhancement of the downloaded file.


Análisis
exploratorio
de datos
Una introducción a la
estadística descriptiva
y probabilidad
González Támara, Leandro
Análisis exploratorio de datos. Una introducción a la estadística descriptiva y probabilidad / Leandro
González Támara. – Bogotá : Universidad de Bogotá Jorge Tadeo Lozano. Facultad de Ciencias Naturales
e Ingeniería. Departamento de Ciencias Básicas y Modelado, 2017.
342 p. : il., grfcas. ; 22 cm.

ISBN 978-958-725-226-2

1. ESTADÍSTICA 2. PROBABILIDADES. I. tit.

CDD519.5

Análisis exploratorio de datos. Una introducción a la estadística descriptiva y probabilidad


ISBN impreso: 978-958-725-226-2
ISBN digital: 978-958-725-227-9

Rectora: Cecilia María Vélez White


Vicerrectora Académica: Margarita María Peña Borrero
Vicerrectora Administrativa: Nohemy Arias Otero
Decano de la Facultad de Ciencias Naturales e Ingeniería:
Isaac Dyner Rezonzew
Director Departamento de Ciencias Básicas y Modelado: Favio Cala Vitery

Editorial Utadeo
Jefe de Publicaciones: Daniel Mauricio Blanco Betancourt
Coordinación gráfica y diseño: Luis Carlos Celis Calderón
Coordinación editorial: Mary Lidia Molina Bernal
Coordinación revistas científicas: Juan Carlos García Sáenz
Distribución y ventas: Sandra Guzmán
Asistente administrativa: Blanca Esperanza Torres

Edición:
Diseño de carátula y pauta gráfica: Juanita Giraldo
Adecuación pauta gráfica: Luis Carlos Celis Calderón
Corrección de estilo: Juan David Ardila Suárez
Coordinación editorial: Mary Lidia Molina Bernal
Diagramación: Francisco Jiménez
2 Impresión: Disonex S.A.
Análisis
exploratorio
de datos
Una introducción a la
estadística descriptiva
y probabilidad
Leandro González Támara
Contenido

Presentación 11

1 Estadística Descriptiva 15

¿Qué es la estadística? 15
Población, muestras y variables 17
Gráficos para resumir datos cualitativos 20
Diagrama de barras y gráfico de sectores 20
Rascacielos 23
Diagrama de barras y mosaicos 24
Gráficos para resumir datos cuantitativos 41
Diagrama de tallo y hojas 41
Diagrama de dispersión y gráfico de puntos 43
Diagrama de líneas 44
Histogramas 46
Pirámides de población 52

2 Estadísticos de centro y variabilidad 65

Estadísticos de centro 65
La media o promedio 65
Estadísticas de orden 68

5
La mediana m 70
La moda 72
Estadísticos de variabilidad 91
El rango 92
La varianza 92
La desviación estándar muestral 93
El coeficiente de variación CV 97
Conclusiones acerca de la distribución de una variable 113
La desigualdad de Chevyshev 113
Regla para las distribuciones acampanadas o regla empírica 116
Otras medidas de localización 124
Percentiles muestrales 124
Cuartiles 127
Análisis exploratorio de datos. Una introducción a la estadística descriptiva y probabilidad

Gráfico de caja 129

3 Correlación y regresión 143

Regresión lineal simple y correlación 144


La covarianza 148
Coeficiente de correlación 149
El modelo de la regresión lineal simple 152
Modelos alternativos a la regresión lineal simple 157

4 Introducción a la probabilidad 179

Experimentos aleatorios 179


Espacio muestral 182
Diagrama de árbol 184

6
Técnicas de conteo 188
Regla de la multiplicación 188

Contenido
Permutaciones 192
Combinaciones 196
Conceptos básicos de probabilidad 202
Probabilidad 205
Cálculo de probabilidades 216
Eventos mutuamente excluyentes 220
Complemento de un evento 221
Probabilidad condicional y teorema de Bayes 227
Independencia 229
Teorema de Bayes 232
Variables aleatorias 242
Variables aleatorias discretas 243
Variables aleatorias continuas 251

5 Distribuciones discretas de probabilidad.


Algunos casos prácticos 263

Distribución de probabilidad binomial 264


Situación inicial: aprobar un examen sin estudiar 264
Características de una distribución de probabilidad binomial 266
Distribución de probabilidad de Poisson 275
Distribución de probabilidad hipergeométrica 281

6 Distribución de probabilidad normal 289

Características de la distribución de probabilidad normal 289


Distribución de probabilidad normal estándar Z. 293
7
Esquema para un proyecto de estadística descriptiva 303

Pruebas de conocimientos 306

Modelo Identificación, Argumentación, Formulación,


Resolución e Interpretación para el análisis e interpretación
de un problema de distribuciones de probabilidad 315

Referencias 321
Análisis exploratorio de datos. Una introducción a la estadística descriptiva y probabilidad

Anexo 1. Código de Buenas Prácticas de las Estadísticas Europeas”


(Eurostat, 2011) 323

Principio 1. Independencia profesional 324


Indicadores 324
Principio 2. Mandato de recogida de datos 324
Indicadores 325
Principio 3. Adecuación de los recursos 325
Indicadores 325
Principio 4. Compromiso de calidad 325
Indicadores 326
Principio 5. Confidencialidad estadística 326
Indicadores 326
Principio 6. Imparcialidad y objetividad 327
Indicadores 327
Principio 7. Metodología sólida 327
Indicadores 327
8
Principio 8. Procedimientos estadísticos adecuados 328
Indicadores 328

Contenido
Principio 9. Una carga para los encuestados que no sea excesiva 329
Indicadores 329
Principio 10. Relación costo-eficacia 329
Indicadores 329
Principio 11. Pertinencia 330
Indicadores 330
Principio 12. Precisión y fiabilidad 330
Indicadores 330
Principio 13. Oportunidad y puntualidad 331
Indicadores 331
Principio 14. Coherencia y comparabilidad 331
Indicadores 331
Principio 15. Accesibilidad y claridad 332
Indicadores 332

Anexo 2. Función de distribución binomial 333

Anexo 3. Función de distribución de Poisson 337

Anexo 4. Función de distribución normal estándar 340

9
Presentación

El libro de Análisis exploratorio de datos es la evolución del libro de Estadística descriptiva y probabilidad
(González, 2013), que ha sido la referencia principal de un curso dirigido a estudiantes de ciencias económico-
administrativas durante cuatro años en la Universidad de Bogotá Jorge Tadeo Lozano. Esta propuesta pone
mayor acento en la exploración de datos y su interpretación. En lugar de hacer un compendio exhaustivo de
la estadística descriptiva y la probabilidad, en el libro se han seleccionado temas generales de estadística des-
criptiva y probabilidad que les permitan a los futuros profesionales producir y comprender un reporte estadís-
tico por medio de la exploración de datos y su interpretación.
Tal como su predecesor, este es el libro guía de un curso universitario introductorio sobre estadística des-
criptiva y probabilidad. Está escrito con un lenguaje sencillo y claro para favorecer el encuentro inicial con los
conceptos básicos y también propone ideas de tipo didáctico a diferentes tipos de profesionales que se dedi-
can a la enseñanza de esta disciplina. Es un libro diseñado para ser seguido en una clase presencial que motive
la discusión de diferentes temáticas; puede ser considerado como texto de transición porque permite acercar
a los estudiantes a los conceptos por medio de aplicaciones, mucho antes de concentrarse en aspectos teó-
ricos. Contiene más de 100 ejemplos solucionados en detalle para guiar a los estudiantes en su aprendizaje
y casi 300 ejercicios prácticos para motivar la discusión de variadas temáticas de estadística y probabilidad.
El libro contiene seis capítulos. El primero, sobre estadística descriptiva, introduce el lenguaje de la esta-
dística y muestra diferentes formas gráficas para resumir datos. El segundo capítulo gira en torno a los es-
tadísticos de centro y dispersión con énfasis en su interpretación. El tercer capítulo hace una introducción al
concepto de regresión y muestra al estudiante cómo puede usar esta técnica. El capítulo cuatro aborda el
concepto de probabilidad como fundamento para el estudio de las variables aleatorias. Las distribuciones de
probabilidad binomial, Poisson e hipergeométrica se tratan en el capítulo cinco. Por último, en el capítulo seis,
se estudia la distribución normal de probabilidad.
Cada capítulo consta de un ejemplo o situación inicial que motiva el estudio de algunos de los conteni-
dos. En lugar de un desarrollo teórico detallado de los temas, se presentan explicaciones breves para que
los detalles sean tema de discusión en las clases. Hay más de un centenar de ejemplos con explicaciones
minuciosas y estrategias para resolver problemas de análisis de datos y de probabilidad, los cuales en su
11
mayoría abordan situaciones de contextos significativos para los estudiantes con el propósito de despertar
su interés. Estos ejemplos también ayudan a quienes de manera individual se acercan al análisis de datos,
pues sirven de modelo para tratar situaciones en las cuales la exploración y la interpretación de datos son
necesarias. Cada concepto tratado se cierra con una sección de ejercicios para afianzar habilidades y para
generar discusión en las clases. Los ejercicios desarrollan en los estudiantes diversas habilidades de análi-
sis estadístico y también pueden ser utilizados por los profesores de un primer curso de estadística y proba-
bilidad para evaluar el aprendizaje. Se espera que los estudiantes puedan realizar la mayoría de los cálculos
aritméticos y gráficas con un programa de computador o una aplicación estadística para teléfono celular,
para que tanto profesores como estudiantes superen con facilidad los procesos de cálculo y puedan enfati-
zar en los significados y las interpretaciones.
Al final del libro se incluye una sección con seis pruebas de conocimiento que son útiles para evaluar
lo aprendido.
Los datos presentados en el libro son en su mayoría reales y fueron obtenidos en páginas web de entida-
Análisis exploratorio de datos. Una introducción a la estadística descriptiva y probabilidad

des reconocidas. Entre ellas se anotan:

• Index Mundi. Disponible en http://www.indexmundi.com


• Instituto Nacional de Estadísticas (España). Disponible en www.ine.es
• Departamento Nacional de Estadísticas (Colombia). Disponible en www.dane.gov.co
• Oficina del Censo de Estados Unidos. Disponible en http://www.census.gov/
• Agencias de Estadísticas Internacionales. Disponible en http://www.census.gov/aboutus/stat_int.
html
• Estadísticas internacionales del U. S. Census Bureau. Disponible en http://www.census.gov/popula-
tion/international/data/idb/country.php
• Bases de datos internacionales de U. S. Census Bureau. Disponible en http://www.census.gov/po-
pulation/international/data/idb/informationGateway.php
• Banco de la República (Colombia). Disponible en http://www.banrep.gov.co/
• Organización Mundial de la Salud. Disponible en http://www.who.int/research/en/
• Estadística de búsquedas de Google. Disponible en http://www.google.com/insights/search/?hl=es#
• Tendencias de Google. Disponible en http://www.google.es/trends

12
Varios ejercicios hacen referencia a bases de datos que se pueden consultar en la plataforma virtual
Avata de la Universidad de Bogotá Jorge Tadeo Lozano. Su tamaño obliga a un procesamiento con un pro-

Presentación
grama de computador.
Se advierte que se sigue la convención de escribir la coma como separador decimal y el punto como se-
parador de miles, utilizada en Centroamérica, Suramérica y Europa. No obstante, el lector encontrará algunas
gráficas en las cuales esto no ocurre porque el software con el que fueron generadas proviene de un país don-
de el punto es el separador decimal.

13
Referencias

Baloto. (2017). Baloto. Recuperado de https://www.baloto.com/


Barragán, S. y González, L. (2017). Hallazgos sobre la educación en Bogotá con base en la Encuesta
Multipropósito 2014. Sophia, 13(2), 13-29.
Cien mujeres dicen. (2017, octubre). Revista Soho. Recuperado de http://www.soho.co/entretenimiento/
articulo/lo-que-piensan-las-mujeres-de-los-hombres-sobre-hombres-depilacion-masculina/32543
Departamento Nacional de Estadística [DANE]. (2017a). Censo General 2005. Recuperado de http://www.dane.
gov.co/index.php/estadisticas-por-tema/demografia-y-poblacion/censo-general-2005-1
Departamento Nacional de Estadística [DANE]. (2017b). Encuesta calidad de vida. Recuperado de http://www.dane.gov.co/
index.php/estadisticas-por-tema/salud/calidad-de-vida-ecv/encuesta-nacional-de-calidad-de-vida-2007-bogota
Departamento Nacional de Estadística [DANE]. (s.f.). Reloj de población. Recuperado de http://www.dane.gov.
co/reloj/
Domain Statistics. (2017). Domain Statistics. Recuperado de https://webhosting.info/domain-name-statistics
Ecopetrol. (2017). Histórico de la acción. Recuperado de http://www.ecopetrol.com.co/wps/portal/es/
ecopetrol-web/historico-de-la-accion
Eurostat. (2011, 28 de septiembre). Eurostat. Recuperado de http://ec.europa.eu/eurostat/quality
Gapminder. (2017). Gapminder. Recuperado de http://www.gapminder.org/
Google. (2017, 20 de septiembre). Google trends. Recuperado de https://trends.google.com/trends/explore
González, L. (2007). Aciertos matemáticos. Bogotá: Educar.
González, L. (2013). Estadística descriptiva y probabilidad. Bogotá: Universidad de Bogotá Jorge Tadeo Lozano.
Gonzalez, L. y Barragán, S. (2017). Simulación de la precisión y el cubrimiento en experimentos con mezclas
con respuesta binomial y poisson analizados bajo modelos lineales generalizados y mínimos cuadrados
ordinarios. Revista Científica Ingeniería y Desarrollo, 35(2), 382-401.

321
Grima, P. (2010). Estadística: enseñar y crear actitudes positivas a través de casos prácticos. Madrid: Revista
Iberoaméricana de Educación Matemática.
Lohr, S. (2010). Sampling: Design and Analysis. Boston: Cengage Learning.
Malinas, G. y Bigelow, J. (2016). Simpson’s Paradox. In E. Zalta (ed.), The Stanford Encyclopedia of Philosophy.
Recuperado de https://plato.stanford.edu/archives/fall2016/entries/paradox-simpson/
Meisel, A., & Vega, M. (2004). La estatura de los colombianos: un ensayo de antropometría histórica 1910-
2002. Cartagena: Banco de la República de Colombia.
Mendenhall, W. (2013). Introduction to Probability and Statistics. Boston: Cengage Learning.
Ministerio de Salud. (2017). Obtenido de https://www.minsalud.gov.co/Paginas/default.aspx
Ministerio de Transporte. (2017). Histórico bases gravables de vehículos comerciales para pago de impuestos.
Recuperado de https://www.mintransporte.gov.co/Publicaciones/atencion_al_ciudadano/servicios_y_
consultas_en_linea/historico_bases_gravables_de_vehiculos_comerciales_para_pago_de_impuestos
Milton, S. (2001). Estadística para biología y ciencias de la salud. Madrid: McGraw-Hill.
Análisis exploratorio de datos. Una introducción a la estadística descriptiva y probabilidad

Montgomery, D. (2013). Introduction to Linear Regression Analysis. New Jersey: Wiley.


Myers, R. (2002). Generalized Linear Models. New York: Wiley.
Organización Mundial de la Salud [OMS]. (2017). Organización Mundial de la Salud. Recuperado de http://www.
who.int/gho/en/
Ross, S. (2014). A First Course in Probability. London: Pearson.
Scheaffer, R. (2007). Elementos de muestreo. Madrid: Thomson.
Secretaría Distrital de Movilidad. (2011). Secretaría Distrital de Movilidad. Recuperado de http://www.
movilidadbogota.gov.co/web/
United States Census Bureau. (2017). United States Census Bureau. Recuperado de https://www.census.gov/
population/international/data/idb/informationGateway.php
Universidad de Bogotá Jorge Tadeo Lozano [Utadeo]. (2015). Valores de matrícula. Recuperado de http://www.
utadeo.edu.co/es/link/pregrado/251987/valores-de- matricula
Universidad Javeriana. (2015). Valores de matrícula del pregrado. Recuperado de http://www.javeriana.edu.co/
dir-financiera/valor-matricula-pregrado
The Holy See. (2017). The Holy See. Recuperado de http://w2.vatican.va/content/vatican/en.html

322
Este libro se terminó de editar en
la Editorial UTADEO en el mes de
diciembre de 2017

View publication stats

También podría gustarte