Está en la página 1de 5

Nombre: Amador Garces Claudia Pamela

Matricula: 001101795

Maestra: Ana Beatriz Medina Ruiz

Materia: Gestión avanzada de bases de datos

Tema: Resumen de Preprocesamiento y


preparación de datos.

Tarea 2
Preprocesamiento y Preparación de Datos

Operaciones sobre los datos


Las operaciones del proceso de datos se denominan varias tareas que se pueden completar, las cuales se pueden
clasificar en :
• Recolección datos: La recopilación de datos se refiere al uso de una amplia variedad de métodos y
herramientas que un analista puede utilizar para desarrollar sistemas de información que puedan ser una
entrevista, encuesta, cuestionario, observación, diagrama de flujo y diccionario de datos. Este estudio
describe en detalle los pasos que deben realizarse en el proceso de recopilación de datos, con métodos ya
asignados.

Verificación de datos: Esto se compone de verificaciones de datos integradas en una computadora.


• Ordenamiento: Este es un grupo de datos para clasificarlo de acuerdo con el sistema que lo usará.
• Sistematización: Estos son una serie de procesos y dispositivos manuales que han sido capacitados para
facilitar el trabajo o los productos.
• Calculo: Estos son una serie de elementos que muestran expresiones bien en forma que ayudan a las
operaciones estadísticas y contables.
• Recuperación: Extraer información almacenada en un entorno físico, como un archivo. Los CD, los
discos duros y otros medios crean una base confiable y segura para el almacenamiento y el uso futuro.
• Reproducción: La información procesada sobre las diferentes medias o canales se debe generar y utilizar
para el proceso.

Problemas en el manejo de datos reales


Encontrar la señal en el ruido
Es difícil obtener información de una gran cantidad de datos. Los datos de IntellectSoft y el autor de la red de la
red de libros sociales para las nuevas empresas argumentan que para su uso. Tan pronto como ingresamos a
nuestro intelecto con respecto a los datos, a veces tenemos que volver a decidir que simplemente no lo medimos
correctamente ni medimos variables incorrectas, porque no podemos encontrar nada aquí.
Por lo tanto, uno de los mayores problemas que enfrentan las empresas cuando procesan macrodatos. Los big data
parecen confusos, y se necesita un enfoque científico de los datos.Tenga cuidado y comience con una hipótesis
para contrastarlo; Si esto falla, será mejor probar más hipótesis.
2. Silos de datos
Los silos de datos son la debilidad de los big data porque almacenan todos estos maravillosos datos que conocer
estos datos se pueden obtener porque simplemente no están integrados. Los silos de datos son la razón por la que
debe procesar los números manualmente para crear un informe de ventas mensual y para los cuales las decisiones
del nivel de gestión se toman lentamente. Son la razón por la cual sus equipos de ventas y marketing simplemente
no se llevan bien y para lo cual los clientes buscan en otra parte.
3. Datos inexactos
El silo de datos no solo es efectivo a nivel de operación, sino también una sopa de cultivo fértil para el mayor
problema de datos: datos incurables. Sé que el 75 % de las empresas creen en la información basada en el informe
los contactos de los clientes están equivocados. Si hay una base de datos llena de información incorrecta
4. La tecnología avanza demasiado rápido
Es más probable que las corporaciones más grandes sean víctimas de los silos de datos, por razones tales como
que prefieren mantener sus bases de datos en las instalaciones y porque la toma de Un ejemplo citado en el informe
de CapGemini es que las empresas de telecomunicaciones y las Este problema fue mencionado por más de 35%
una seria competencia de empresas más pequeñas debido a esto.

Selección de variables
Las variables se seleccionan según su relevancia para alcanzar los objetivos del estudio. Variables que permiten
medir el factor o los factores de estudio, y el criterio o criterios de evaluación Sirven para determinar si un
individuo es candidato para participar en el estudio.
Las variables que se sabe, o se sospecha, que están asociadas tanto al factor de estudio como al criterio de
evaluación, por lo que deben sospechar como posibles factores de confusión. Son el sexo, la edad, la raza, la
religión, el estado civil, la clase social, la ocupación, el nivel de educación, residencia, etc. Las variables que
pueden actuar como modificadoras de efecto, lo que permitirán interpretar con mayor profundidad el efecto
observado.

Muestreo, selección de registros


La representatividad de una muestra, permite extrapolar y por ende generalizar los resultados observados en ésta,
a la población accesible; y a partir de ésta, a la población blanca. Para ello, es fundamental, entre otras cosas
definir los criterios de inclusión (características clínicas, demográficas, temporales y geográficas de los sujetos
que componen la población en estudio) y de exclusión (características de los sujetos que pueden interferir con la
calidad de los datos o la interpretación de los resultados. Por ende, una muestra será representativa o no; sólo si
fue seleccionado al azar, es decir, que todos los sujetos de la población blanca tuvieron la misma posibilidad de
ser seleccionados en esta muestra y por ende ser incluidos en el estudio; y por otro lado, que el número de sujetos
seleccionados representan numéricamente a la población que le dio origen respecto de la distribución de la
variable en estudio en la población, es decir, la estimación o cálculo del tamaño de la muestra.

Análisis de correlación
La consecuencia es una medida de la relación (covariación) lineal entre dos variables cuantitativas continuos (x,
y). Lo interesante del índice 2 de realización es que r es en sí mismo una medida del tamaño del efecto, que
normalmente interprete de la siguiente manera:
• Concordancias despreciables: r < |0.1|
• baja correspondencia: |0.1| < r <= |0.3|
• medianas conexiones : |0.3| < r <= |0.5|
• conexiones fuertes o altas: r > |0.5|
La concordancia es en esencia una medida normalizada de asociación o covariación lineal entre dos
Variables.
Creación de nuevas variables, agregación de variables
Agregar datos agrega grupos de casos en el conjunto de datos activos en casos individuales y crea un archivo
nuevo agregado o variables nuevas en el conjunto de datos activos que contiene los datos agregados. El nombre
de la variable agregada viene seguido de una etiqueta de variable opcional, el nombre de la función de agregación
y el nombre de la variable de origen entre paréntesis. Los casos se agregan en función del valor de cero o más
variables de segmentación (agrupación).
Referencias Bibliográficas
de la Computación e I. A., S. D. C. (n.d.). Preprocesamiento de Datos. Lsi.Us.Es. Retrieved June 4,

2023, from http://www.lsi.us.es/redmidas/IIreunion/trans/prepro.pdf

IT Digital Media Group. (2022). ¿Qué es la preparación de datos? | Modernización de apps |

Discover The New. https://discoverthenew.ituser.es/predictive-analytics/2022/11/que-es-la-

preparacion-de-datos

También podría gustarte