Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Semana 2
Semana 2
Minería de Datos
Presentado por
Presentado a
Fabio Mendoza
Facultad de Ingeniería
Universidad de la Costa
Cuc
Investigar en que consiste el proceso de preparación de datos
La calidad de los resultados estadísticos depende del cuidado que se pone en la etapa de la
preparación de los datos, con lo cual nos pueden dar conclusiones desviadas las interpretaciones
incorrectas
Son aquellos que no constan debido a cualquier acontecimiento, como por ejemplo errores en la
transcripción de los datos o la ausencia de disposición a responder a ciertas cuestiones de una
encuesta. Los datos pueden faltar de manera aleatoria o no aleatoria.
Los datos faltantes aleatorios pueden perturbar el análisis de datos dado que disminuyen el
tamaño de las muestras y en consecuencia la potencia de las pruebas de contraste de hipótesis.
Los datos faltantes no aleatorios ocasionan, además, disminución de la representatividad de la
muestra.
Investigar ¿qué es un dato atípico?
Un valor atípico es una observación extrañamente grande o pequeña. Los valores atípicos pueden
tener un efecto desproporcionado en los resultados estadísticos, como la media, lo que puede
conducir a interpretaciones engañosas. Por ejemplo, un conjunto de datos incluye los valores: 1, 2,
3, y 34. El valor medio, 10, que es mayor que la mayoría de los datos (1, 2, 3), se ve muy afectado
por el punto extremo de los datos: 34. En este caso, el valor medio hace que parezca que los
valores de los datos son más altos de lo que realmente son. Es necesario investigar los valores
atípicos, porque pueden proporcionar información útil sobre los datos o el proceso. Con
frecuencia, la manera más fácil de identificar los valores atípicos es graficando los datos.
Es una técnica de análisis de información con base estadística y, por ende, matemática. Consiste
en analizar la relación entre, al menos, dos variables - p.e. dos campos de una base de datos o de
un log o raw data-. El resultado debe mostrar la fuerza y el sentido de la relación.
Para analizar la relación entre variables se utilizan los llamados «coeficientes de correlación». Se
realizan sobre sobre variables cuantitativas o cualitativas. Ello determinará si se calcula o bien el
coeficiente de correlación de Pearson, el de Spearman, o el de Kendall. Esto si estamos hablando
de correlaciones bivariadas. Existen otras como pueden ser las correlaciones o las medidas de
distancia o disimilaridad de intervalos, recuentos o binarias (p.e. distancia euclídea, euclídea al
cuadrado, Chebyshev, Bloque, Minkovsky, etc.)
Es una técnica ampliamente documentada, con múltiples fuentes de información abiertas para
que cualquiera pueda acceder a sus principios y realizar sus propios análisis.
Correlación positiva
Se habla de una correlación positiva cuando una relación entre una variable y otra es lineal y
directa, de manera que un cambio en una variable predice el cambio en la otra variable. En ese
caso, se dice que la correlación es positiva perfecta, es decir, ambas variables varían al mismo
tiempo. Este tipo de correlación es directamente proporcional. Hay correlación positiva cuando las
dos variables se correlacionan en sentido directo. Por lo que, a valores altos de una le
corresponden valores altos de la otra e igualmente con los valores bajos.
Correlación negativa
Se habla de una correlación negativa cuando la relación entre una variable y otra es opuesta o
inversa, es decir, cuando una variable cambia, la otra se modifica hacia lo contrario. Entonces,
cuando una posee variable valores altos, la otra posee valores bajos y mientras este valor esté más
cerca de -1, más evidente será esta covariación.
Correlación de Pearson
Rho de Spearman
El coeficiente de correlación de Spearman suele utilizarse para evaluar relaciones con variables
ordinales. Si sus datos son continuos, Minitab jerarquiza los datos sin procesar antes de realizar la
correlación.
https://support.minitab.com/es-mx/minitab/18/help-and-how-to/graphs/supporting-
topics/exploring-data-and-revising-graphs/identifying-outliers/
https://www.certsi.es/blog/correlacion-herramientas-analisis-datos
https://diferencias.eu/entre-correlacion-positiva-y-correlacion-negativa/
https://es.scribd.com/document/241006000/Preparacion-y-Analisis-de-Datos