Está en la página 1de 6

Trabajo de

Minería de Datos

Presentado por

Herneys David Arguelles Serrano

Presentado a

Fabio Mendoza

Facultad de Ingeniería

Universidad de la Costa

Cuc
 Investigar en que consiste el proceso de preparación de datos

La calidad de los resultados estadísticos depende del cuidado que se pone en la etapa de la
preparación de los datos, con lo cual nos pueden dar conclusiones desviadas las interpretaciones
incorrectas

 Investigar ¿qué es un dato faltante?

Son aquellos que no constan debido a cualquier acontecimiento, como por ejemplo errores en la
transcripción de los datos o la ausencia de disposición a responder a ciertas cuestiones de una
encuesta. Los datos pueden faltar de manera aleatoria o no aleatoria.

Los datos faltantes aleatorios pueden perturbar el análisis de datos dado que disminuyen el
tamaño de las muestras y en consecuencia la potencia de las pruebas de contraste de hipótesis.
Los datos faltantes no aleatorios ocasionan, además, disminución de la representatividad de la
muestra.
 Investigar ¿qué es un dato atípico?

Un valor atípico es una observación extrañamente grande o pequeña. Los valores atípicos pueden
tener un efecto desproporcionado en los resultados estadísticos, como la media, lo que puede
conducir a interpretaciones engañosas. Por ejemplo, un conjunto de datos incluye los valores: 1, 2,
3, y 34. El valor medio, 10, que es mayor que la mayoría de los datos (1, 2, 3), se ve muy afectado
por el punto extremo de los datos: 34. En este caso, el valor medio hace que parezca que los
valores de los datos son más altos de lo que realmente son. Es necesario investigar los valores
atípicos, porque pueden proporcionar información útil sobre los datos o el proceso. Con
frecuencia, la manera más fácil de identificar los valores atípicos es graficando los datos.

 Investigar ¿Qué es análisis de correlación? ¿Qué es correlación Positiva? ¿Qué es


correlación negativa?

Que es análisis de correlación

Es una técnica de análisis de información con base estadística y, por ende, matemática. Consiste
en analizar la relación entre, al menos, dos variables - p.e. dos campos de una base de datos o de
un log o raw data-. El resultado debe mostrar la fuerza y el sentido de la relación.

Para analizar la relación entre variables se utilizan los llamados «coeficientes de correlación». Se
realizan sobre sobre variables cuantitativas o cualitativas. Ello determinará si se calcula o bien el
coeficiente de correlación de Pearson, el de Spearman, o el de Kendall. Esto si estamos hablando
de correlaciones bivariadas. Existen otras como pueden ser las correlaciones o las medidas de
distancia o disimilaridad de intervalos, recuentos o binarias (p.e. distancia euclídea, euclídea al
cuadrado, Chebyshev, Bloque, Minkovsky, etc.)

Es una técnica ampliamente documentada, con múltiples fuentes de información abiertas para
que cualquiera pueda acceder a sus principios y realizar sus propios análisis.

Hasta el momento la aplicación de la correlación ha sido amplia y diversa en diferentes campos


como ciencias naturales, economía, psicología, etc. y por supuesto, en investigaciones de todo
tipo. En lo que se refiere al campo de la seguridad de la información los fundamentos son los
mismos, aunque por el momento aún se está desarrollando.

Correlación positiva

Se habla de una correlación positiva cuando una relación entre una variable y otra es lineal y
directa, de manera que un cambio en una variable predice el cambio en la otra variable. En ese
caso, se dice que la correlación es positiva perfecta, es decir, ambas variables varían al mismo
tiempo. Este tipo de correlación es directamente proporcional. Hay correlación positiva cuando las
dos variables se correlacionan en sentido directo. Por lo que, a valores altos de una le
corresponden valores altos de la otra e igualmente con los valores bajos.
Correlación negativa

Se habla de una correlación negativa cuando la relación entre una variable y otra es opuesta o
inversa, es decir, cuando una variable cambia, la otra se modifica hacia lo contrario. Entonces,
cuando una posee variable valores altos, la otra posee valores bajos y mientras este valor esté más
cerca de -1, más evidente será esta covariación.

 Investigar que métodos de correlación existen

Correlación de Pearson

Utilice el coeficiente de correlación de Pearson para examinar la fuerza y la dirección de la relación


lineal entre dos variables continuas. La correlación de Pearson es el método más común de
correlación.

Rho de Spearman

Utilice el coeficiente de correlación de Spearman (también conocido como rho de Spearman)


cuando la relación entre las variables no sea lineal. La correlación de Spearman mide la relación
monótona entre dos variables continuas o dos variables ordinales. En una relación monótona, las
variables tienden a moverse en la misma dirección relativa, pero no necesariamente a un ritmo
constante. En una relación lineal, las variables se mueven en la misma dirección a un ritmo
constante. Para obtener más información, vaya a Relaciones lineales, no lineales y monótonas.

El coeficiente de correlación de Spearman suele utilizarse para evaluar relaciones con variables
ordinales. Si sus datos son continuos, Minitab jerarquiza los datos sin procesar antes de realizar la
correlación.

 Correspondiente a el video para la matriz de correlación de las muestras de datos

Se preparan los datos a forma numérica para hacer la correlación


Calcula

Muestra la coeficiente de correlación de la matriz establecida


Bibliografía

https://support.minitab.com/es-mx/minitab/18/help-and-how-to/graphs/supporting-
topics/exploring-data-and-revising-graphs/identifying-outliers/

https://www.certsi.es/blog/correlacion-herramientas-analisis-datos

https://diferencias.eu/entre-correlacion-positiva-y-correlacion-negativa/

https://es.scribd.com/document/241006000/Preparacion-y-Analisis-de-Datos

También podría gustarte