Está en la página 1de 33

Universidad del Quindío

Facultad de Ingeniería ANÁLISIS DE DATOS PARA INGENIERÍA


Programa de Ingeniería Civil Pedro León García Reinoso (IC – MSc)
Análisis Exploratorio
de Datos 2
• Recolección de datos
• Preparación y validación datos
• Estadística descriptiva
• Métodos gráficos
• Análisis global de incertidumbre
• Propagación de errores
2.1 Recolección de datos

Jimenez, J. (2009). Tratamiento de datos experimentales. Universidad Nacional de Colombia. Sede Medellín.
2.1 Recolección de datos
Variables de estudio
Las variables son: el diámetro del orificio y la altura del
agua sobre el orificio. Para cada altura y diámetro se
toma el tiempo que demora en drenar el agua.

Registro de datos
Cada grupo describe detalladamente la forma en que
ejecutó el montaje del sistema y la toma de datos,
compartiendo los datos registrados con los otros grupos.
2.1 Recolección de datos
Variables de estudio
Las variables son: el diámetro del orificio y la altura del
agua sobre el orificio. Para cada altura y diámetro se
toma el tiempo que demora en drenar el agua.

Registro de datos
Cada grupo describe detalladamente la forma en que
ejecutó el montaje del sistema y la toma de datos,
compartiendo los datos registrados con los otros grupos.
2.1 Recolección de datos
Variables de estudio
Las variables son: el diámetro del orificio y la altura del
agua sobre el orificio. Para cada altura y diámetro se
toma el tiempo que demora en drenar el agua.

Registro de datos
Cada grupo describe detalladamente la forma en que
ejecutó el montaje del sistema y la toma de datos,
compartiendo los datos registrados con los otros grupos.
2.1 Recolección de datos

Tipo de registros

Registro primario: El valor es medido directamente


desde el instrumento: temperatura, profundidad de
lluvia, tiempo de vaciado, esfuerzo a compresión,
etc. Se mide dato a dato desde el instrumento.

Medida derivada: Se calcula usando una o más


medidas. Esta acción puede ocurrir de forma directa
en el aparato o durante el procesamiento de la
información.
2.1 Recolección de datos

Tipo de registros

Datos Estacionarios: No cambian con el tiempo. El


área de drenaje de un techo y el diámetro de una
varilla. Si la medida se repite, su resultado podría
estar dentro de los límites de incertidumbre.

Datos dependientes del tiempo: Su valor cambia


con el tiempo. La concentración de contaminación
en la atmósfera y la temperatura de una ciudad.
Serie de tiempo toma lecturas regulares.
2.2 Preparación y validación de datos

Los aspectos de recopilación, depuración, validación y transformación de datos


son cruciales. Estos aspectos no son ampliamente tratados en la mayoría de los
libros de texto, en parte porque su tratamiento exige métodos específicos que
satisfacen las condiciones del problema estudiado, y también porque no se
considera de mucho interés académico (no es un campo digno de esfuerzo
científico). No se trata de una serie de trucos, sino más bien un proceso de
evaluación, exploración y prueba que se adquiere por experiencia.

La validación de datos es la comprobación de la coherencia de los datos con el


propósito de detectar y eliminar errores graves durante el proceso de registro. Es
extremadamente importante ejecutar este proceso antes de hacer de intentar
cualquier tipo de análisis de datos.
Control de limites
Afortunadamente, muchas de las
mediciones realizadas en ingeniería
tienen límites identificables. Los límites
permiten establecer una base para la
instrumentación, para identificar
técnicas adecuadas de medición,
rechazar observaciones, etc. Las
mediciones se pueden comparar con
uno o más de los siguientes límites:

Límites físicos. Existen límites físicos


apropiados para comprobar los datos
tanto en bruto como posprocesados.
Bajo ninguna circunstancia las
observaciones pueden exceder límite.
Control de limites
Afortunadamente, muchas de las
mediciones realizadas en ingeniería
tienen límites identificables. Los límites
permiten establecer una base para la
instrumentación, para identificar
técnicas adecuadas de medición,
rechazar observaciones, etc. Las
mediciones se pueden comparar con
uno o más de los siguientes límites:

Límites esperados. En todo experimento


se espera la presencia de un límite
superior e inferior para cada variable
medida. Hace parte del diseño. Valores
sospechosos: constantes – por fuera.
Control de limites
Afortunadamente, muchas de las
mediciones realizadas en ingeniería
tienen límites identificables. Los límites
permiten establecer una base para la
instrumentación, para identificar
técnicas adecuadas de medición,
rechazar observaciones, etc. Las
mediciones se pueden comparar con
uno o más de los siguientes límites:

Límites esperados. En todo experimento


se espera la presencia de un límite
superior e inferior para cada variable
medida. Hace parte del diseño. Valores
sospechosos: constantes – por fuera.
Control de limites
Afortunadamente, muchas de las
mediciones realizadas en ingeniería
tienen límites identificables. Los límites
permiten establecer una base para la
instrumentación, para identificar
técnicas adecuadas de medición,
rechazar observaciones, etc. Las
mediciones se pueden comparar con
uno o más de los siguientes límites:

Límites teóricos. Están relacionados con


propiedades de las sustancias: punto de
congelamiento de un fluido. Si un dato
excede el valor teórico, se debe revisar
para establecer su validez y fiabilidad.
Verificaciones independientes
Es normal utilizar verificaciones independientes para establecer la
viabilidad de los datos una vez que se hayan realizado el control de
límites. Las verificaciones independientes incluyen la comparación
de valores medidos (o calculados) con los de otros investigadores
(informados en la literatura publicada) y comparaciones intra-
experimento que implican la recopilación de datos y la aplicación
principios de conservación de masa o energía.
Rechazo de valores atípicos

Esta fase se lleva a cabo después


del control de límites y verificación
independiente. A menos que haya
una razón definida para sospechar
que una observación en particular
no es válida, no se recomienda el
rechazo indiscriminado de valores
atípicos. Un criterio de rechazo de
uso común es eliminar los datos
que están fuera de 3 .
Rechazo de valores atípicos por medios visuales

Algunos analistas sugieren por


hacer primero un filtrado gráfico
cuando se trata de datos bivariados
correlacionados, con gráficos de
dispersión dado que permiten
detectar valores atípicos con
relativa facilidad mediante el
escrutinio visual.
Datos faltantes
Es probable que la información faltante
ocurra en la mayoría de los monitoreos
sistemas, y puede surgir por una
variedad de razones. Existen varios
enfoques para procesar datos faltantes.
Pero siempre se insiste en un examen de
los datos antes de decidir completar los
datos faltantes. Algunos enfoques son:

• Utilizar observaciones con datos


completos solamente. Este es el más
simple y más obvio, y se adopta en la
mayoría de los análisis.
Datos faltantes
Es probable que la información faltante
ocurra en la mayoría de los monitoreos
sistemas, y puede surgir por una
variedad de razones. Existen varios
enfoques para procesar datos faltantes.
Pero siempre se insiste en un examen de
los datos antes de decidir completar los
datos faltantes. Algunos enfoques son:

• Rechazar variables: En caso de que


algunas fuentes indiquen altos niveles
de datos faltantes, enfoque adecuado
es eliminar estas variables.
Datos faltantes
Es probable que la información faltante
ocurra en la mayoría de los monitoreos
sistemas, y puede surgir por una
variedad de razones. Existen varios
enfoques para procesar datos faltantes.
Pero siempre se insiste en un examen de
los datos antes de decidir completar los
datos faltantes. Algunos enfoques son:

• Adoptar un método de imputación:


Implica la estimación de los valores
faltantes basado en uno de los
siguientes métodos: sustituir valores faltantes por una constante, sustituir los valores
faltantes por el valor medio de los datos observados o emplear interpolación univariada.
2.3 Estadística Descriptiva
Medidas de tendencia central

En general, para resumir o presentar los datos Media aritmética, obtenida con la
obtenidos de un proyecto de investigación suma de todos los valores individuales
inicialmente se debe tratar de ubicar cómo se entre el número total de valores;
distribuyen, lo cual se realiza de acuerdo con representa el punto de equilibrio de la
la escala de medición de cada variable. distribución de los datos.

Mediana, representa la cifra o valor que


Escala cuantitativa divide la muestra en dos mitades, es
Algunos datos deben resumirse en un decir, el valor donde 50% de la población
estimador de promedio y otros en uno de está por debajo o arriba del mismo.
dispersión. El estimador de promedio indica la
tendencia central que representa mejor el Moda, es el valor más frecuentemente
valor de la muestra. encontrado en las mediciones.
Medidas de tendencia central

En general, para resumir o presentar los datos


obtenidos de un proyecto de investigación
inicialmente se debe tratar de ubicar cómo se
distribuyen, lo cual se realiza de acuerdo con
la escala de medición de cada variable.

Escala cuantitativa
Algunos datos deben resumirse en un
estimador de promedio y otros en uno de
dispersión. El estimador de promedio indica la
tendencia central que representa mejor el
valor de la muestra.
Medidas de tendencia central

En general, para resumir o presentar los datos


obtenidos de un proyecto de investigación
inicialmente se debe tratar de ubicar cómo se
distribuyen, lo cual se realiza de acuerdo con
la escala de medición de cada variable.

Escala cuantitativa
Algunos datos deben resumirse en un
estimador de promedio y otros en uno de
dispersión. El estimador de promedio indica la
tendencia central que representa mejor el
valor de la muestra.
Medidas de tendencia central

En general, para resumir o presentar los datos


obtenidos de un proyecto de investigación
inicialmente se debe tratar de ubicar cómo se
distribuyen, lo cual se realiza de acuerdo con
la escala de medición de cada variable.

Escala cuantitativa
Algunos datos deben resumirse en un
estimador de promedio y otros en uno de
dispersión. El estimador de promedio indica la
tendencia central que representa mejor el
valor de la muestra.
Medidas de tendencia central

En general, para resumir o presentar los datos


obtenidos de un proyecto de investigación
inicialmente se debe tratar de ubicar cómo se
distribuyen, lo cual se realiza de acuerdo con
la escala de medición de cada variable.

Escala cuantitativa
Algunos datos deben resumirse en un
estimador de promedio y otros en uno de
dispersión. El estimador de promedio indica la
tendencia central que representa mejor el
valor de la muestra.
Medidas de tendencia central

En general, para resumir o presentar los datos


obtenidos de un proyecto de investigación
inicialmente se debe tratar de ubicar cómo se
distribuyen, lo cual se realiza de acuerdo con
la escala de medición de cada variable.

Escala cuantitativa
Algunos datos deben resumirse en un
estimador de promedio y otros en uno de
dispersión. El estimador de promedio indica la
tendencia central que representa mejor el
valor de la muestra.
Medidas de tendencia central

En general, para resumir o presentar los datos


obtenidos de un proyecto de investigación
inicialmente se debe tratar de ubicar cómo se
distribuyen, lo cual se realiza de acuerdo con
la escala de medición de cada variable.

Escala cuantitativa
Algunos datos deben resumirse en un
estimador de promedio y otros en uno de
dispersión. El estimador de promedio indica la
tendencia central que representa mejor el
valor de la muestra.
Medidas de tendencia central

En general, para resumir o presentar los datos


obtenidos de un proyecto de investigación
inicialmente se debe tratar de ubicar cómo se
distribuyen, lo cual se realiza de acuerdo con
la escala de medición de cada variable.

Escala cuantitativa
Algunos datos deben resumirse en un
estimador de promedio y otros en uno de
dispersión. El estimador de promedio indica la
tendencia central que representa mejor el
valor de la muestra.
Medidas de dispersión

Todas permiten entender cómo se alejan los


datos del promedio y la distribución dentro
de los límites medidos. Las medidas de
dispersión para las variables cuantitativas son
tres: la desviación estándar, los rangos
intercuartílicos y los valores mínimo-máximo.
Desviación estándar
Es la medida de dispersión más común, que
indica qué tan dispersos están los datos con
respecto a la media. Es un promedio de las
desviaciones individuales de cada observación
con respecto a la media de una distribución.
Medidas de dispersión

Todas permiten entender cómo se alejan los


datos del promedio y la distribución dentro
de los límites medidos. Las medidas de
dispersión para las variables cuantitativas son
tres: la desviación estándar, los rangos
intercuartílicos y los valores mínimo-máximo.
Desviación estándar
Es la medida de dispersión más común, que
indica qué tan dispersos están los datos con
respecto a la media. Es un promedio de las
desviaciones individuales de cada observación
con respecto a la media de una distribución.
Medidas de dispersión

Todas permiten entender cómo se alejan los


datos del promedio y la distribución dentro
de los límites medidos. Las medidas de
dispersión para las variables cuantitativas son
tres: la desviación estándar, los rangos
intercuartílicos y los valores mínimo-máximo.
Rangos intercuartílicos
En los cuartiles suele informarse el Q1 (cuartil
1) y el Q3 (cuartil 3); el primero equivale al
percentil 25 y el segundo, al percentil 75. Los
valores que se encuentran en el intervalo de
Q1 y Q3 dan cuenta de 50% de los datos de la
distribución más cercanos a la mediana.
Medidas de dispersión

Todas permiten entender cómo se alejan los


datos del promedio y la distribución dentro
de los límites medidos. Las medidas de
dispersión para las variables cuantitativas son
tres: la desviación estándar, los rangos
intercuartílicos y los valores mínimo-máximo.
Valores Máximo - Mínimo
El concepto es muy útil como medida de
dispersión sencilla para apreciar rápidamente
la variabilidad de los datos, pues indica la
extensión o longitud del intervalo donde se
hallan estos. Sólo usa los valores extremos.
Pedro León García Reinoso
pedrogarcia@uniquindio.edu.co

Centro de Estudios e Investigaciones de la Facultad de Ingeniería - CEIFI


Grupo de Investigación, Desarrollo y Estudio del Recurso Hídrico y el Ambiente
Carrera 15 Calle 12 N – Universidad del Quindío – Bloque de Ingeniería – Piso 3
Tel. 57-6-7359300 (103)

También podría gustarte