Está en la página 1de 21

MTODOS Y TCNICAS DE

ANLISIS DE DATOS

Michael Arias Fajardo; cdigo 20172197014


Buscan evaluar un supuesto basado en el marco terico e hiptesis del
estudio, mediante la codificacin de datos en categoras conformadas a
partir de unidades de anlisis (etiquetas). Las unidades de anlisis se
agruparn en temas, de deben atender las posibles interrelaciones. Las
tcnicas de anlisis pueden tener un carcter:

Cualitativo: se desarrolla a partir de una previa estructuracin de


datos, se realiza una reduccin de informacin separndola en
unidades relevantes, luego de una sntesis, se dispone y transforma
para presentar la informacin discriminada en factores (ambientales,
situacionales y fenomenolgicos) para una final interpretacin de la
informacin.

Cuantitativo: parte de una depuracin de datos (inconsistencias e


innecesarios), eliminacin de atpicos, continua con el establecimiento
de pruebas estadsticas (descriptivas, inferencial), la aplicacin de
programa estadstico, para una final interpretacin de datos.
Para un correcto anlisis es importante
seleccionar el optimo tipo de anlisis en base a
informacin como: Qu datos se necesitarn?,
cules de ellos responden a las preguntas claves,
de cuales se disponen (ejecucin,
comunicaciones, estadsticas de organismos), en
qu forma se recolectarn los datos: siendo estos
aplicables al proyecto por tiempo, calidad,
capacidad y financiacin, la forma de muestreo
de los datos (probabilstico, intencional,
conveniencia) y los mtodos de seleccin.
Las principales clases de anlisis son:
Anlisis descriptivo individual de preguntas, Anlisis individual
de preguntas porcentualizando las respuestas, Anlisis de
respuesta a las preguntas abiertas que tiene 2 o ms
prioridades, Anlisis descriptivo general enfocado en las
facetas del problema, Anlisis dinmico para evaluar la
influencia de diversos factores en la problemtica.

Los principales tipos de anlisis son:


Anlisis de correlaciones, Anlisis de regresin, Visualizacin
de datos, Anlisis de escenarios, Data mining o big data para
patrones e informacin relevante, Anlisis de sentimiento,
Anlisis semnticos de textos, Anlisis de patentes y literatura
cientfica, Simulacin de Monte Carlo riesgo de que un hecho
tenga lugar, Programacin y optimizacin matemtica,
Prediccin matemtica, Redes neuronales, Anlisis de
imgenes, video y voz.
ANLISIS DE ESCENARIOS
El anlisis de escenarios consiste en analizar una variedad
determinada de eventos futuros con resultados alternativos o
situaciones hipotticas (mtodo de valoracin mediante opciones
reales) otorgando a cada una de ellas diferentes probabilidades. Un
escenario no es una prediccin, sino una descripcin de lo que podra
suceder lo posible, estos reflejan distintos supuestos sobre la
evolucin de las tendencias actuales, la influencia de incertidumbres
crticas y la definicin de factores nuevos.

Su uso formal se remonta a la segunda posguerra para el anlisis de


juegos de guerra. Se entiende su utilidad en la toma de decisin o al
identificar el curso de accin a seguir, tambin en empresas con
futuro incierto. Cumpliendo propsitos tales como: ayudar a
reconocer seales dbiles de cambios medioambientales;
adelantarse al futuro; discutir los mapas mentales; entender mejor
el mundo; sensibilizar; probar la solidez de las estrategias mediante
preguntas tipo qu pasara si...?; disponer de un lenguaje comn,
y estimular el debate y el pensamiento creativo.
PASOS:
Aclarar el propsito y la estructura del ejercicio de desarrollar
escenarios:
a. Determinar la naturaleza y el alcance de los escenarios. b.
Identificar partes interesadas y seleccionar participantes. c.
Identificar temas, objetivos, indicadores y posibles polticas.
Sentar las bases de los escenarios:
d. Identificar fuerzas motrices. e. Seleccionar incertidumbres
crticas. f. Crear un marco de escenarios.
Desarrollar y probar los escenarios generados :
g. Redactar las narrativas de los escenarios. h. Realizar el anlisis
cuantitativo. i. Explorar las polticas pblicas.
EJEMPLO: ESCENARIOS MUNDIALES DE LARGO
PLAZO: PANEL INTERGUBERNAMENTAL DE
EXPERTOS SOBRE EL CAMBIO CLIMTICO (IPCC)
A fin de proporcionar
panoramas factibles de las
futuras emisiones de gases de
efecto invernadero, el IPCC
desarroll cuatro grupos de
escenarios con base en una
amplia evaluacin de la
literatura sobre el tema, seis
enfoques alternativos para la
construccin de modelos y un
proceso abierto que solicit
la participacin y
retroalimentacin de muy
diversos grupos y personas.
Las cuatro narrativas bsicas son:
A1. Un mundo futuro de crecimiento econmico vertiginoso, explosin
demogrfica que alcanza su punto mximo a mediados de la dcada de
2100 y despus disminuye, y de rpida introduccin de tecnologas
nuevas y ms eficaces. Los principales temas subyacentes son la
convergencia entre regiones, el desarrollo de capacidades y ms
interacciones culturales y sociales, con una reduccin sustancial en las
diferencias regionales en cuanto al ingreso per cpita.
A2. Surge un mundo muy heterogneo; el tema subyacente es la
autosuficiencia y la preservacin de las identidades locales. Los patrones
de fertilidad entre las regiones convergen con gran lentitud, lo que se
traduce en un incremento continuo de la poblacin mundial. El
desarrollo econmico tiene una orientacin bsica regional y el
crecimiento econmico per cpita y los cambios tecnolgicos son ms
fragmentados y lentos que en otras narrativas.
B1. Un mundo convergente con las mismas tendencias demogrficas de
la narrativa A1, pero con cambios rpidos en la estructura econmica
hacia una economa de servicios e informacin, reducciones en la
intensidad material y la introduccin de tecnologas limpias y eficaces
en funcin de los recursos. El nfasis est en las soluciones mundiales
para la sostenibilidad econmica, social y medioambiental, e incluso en
mayor equidad, pero sin iniciativas climticas adicionales.
B2. Un mundo en el que el nfasis se coloca en soluciones locales para
la sostenibilidad econmica, social y medioambiental. Se trata de un
mundo cuya poblacin se incrementa continuamente, aunque con un
ndice menor al registrado en A2, hay niveles intermedios de desarrollo
econmico y cambios tecnolgicos menos rpidos y ms diversos que
en las narrativas B1 y A1.
REDES NEURONALES
Esta tal vez sea una de las tcnicas de anlisis de
datos ms complejas que existen. Las redes
neuronales tratan de simular el proceso de decisin
e informacin del cerebro o grupos de neuronas. El
objetivo de estas redes es simular el proceso de
aprendizaje de un cerebro humano en una
computadora para facilitar la toma de decisiones en
inteligencias artificiales.
EJEMPLO clasificacin SPAMBASE DATA
SET, bajo modelo basado en los mapas
autoorganizados de Kohonen (SOM) y LVQ,
para clasificar correctamente los correos
como spam.
El conjunto de datos est compuesto por 4601 instancias que representan a mensajes
de correo que pueden ser spam o correos vlidos. Cada dato consta de 57 atributos
reales o enteros y la clase a la que pertenece (siendo estas de tipo continuos reales:
48 miden la frecuencia en el uso de palabras (gratis, crdito, t, negocio), 6 miden le
frecuencia en el uso de caracteres ($, #, !), 1 mide la longitud promedio de letras
capitales dentro del texto, de tipo continuos integradores:1 que mide la ms larga
longitud de letras capitales presentes en el texto, 1 el nmero total de letras
capitales usadas en el mensaje, y de tipo nominales: 1 que clasifica si se considera
spam). De las 4601 instancias totales, 2788 corresponden a correos vlidos (clase 0) y
1813 a spam (clase 1). Es decir aproximadamente el 60.6% de correos vlidos frente al
39.4% de correos spam.
Para el anlisis es importante desordenar o aleatorizar los datos, a estos
se asignaran variables de entrada normalizando cada atributo entre 0 y 1,
y se separa una porcin del conjunto de datos para realizar el test.
Clasificacin con LVQ: El algoritmo LVQ es un mtodo de clasificacin
supervisado que determina la localizacin de una serie de prototipos (o
centros, o centroides) que representen a cada una de las clases. Se
variar el nmero de prototipos a utilizar y se obtendrn los porcentajes
de acierto para los conjuntos de entrenamiento y test proporcionados.
El proceso inicia con la inicializacin de los centros o prototipos, luego se
realizar el entrenamiento con LVQ para ajustar estos prototipos de forma
supervisada, a continuacin se obtiene la tasa de aciertos con el fichero
de test, y por ltimo se generar el fichero con los patrones clasificados.
Clasificacin con SOM: SOM es un algoritmo no supervisado
orientado principalmente a la obtencin de clusters o grupos en los
datos, para ello se debe construir un mapa con los datos de entrada
del conjunto de entrenamiento, asignando a cada neurona del mapa
(prototipo) una de las clases que aparecen en el conjunto de datos
mediante un entrenamiento, la clase de la neurona ser la clase
mayoritaria del conjunto de patrones asignados, cada patrn de test
se clasifica en la neurona del mapa (prototipo) ms cercana, luego se
calcula el porcentaje de acierto sobre el conjunto de test para
calibrar el mapa y finalmente usar herramientas de monitorizacin y
visualizacin de los mapas.
Anlisis o de patentes y
literatura cientfica:
Esta tcnica de anlisis de datos utiliza los meta datos de
publicaciones cientficas y patentes para extraer
informacin sobre tendencias y relaciones entre estudios,
autores o propiedad intelectual. Es una de las tcnicas
ms usadas en la vigilancia de tendencias tecnolgicas.

El anlisis de literatura cientfica tambin permite


establecer las relaciones entre tcnica y ciencia, el
procedimiento ms frecuentemente es indicar las citas
que las patentes hacen de los artculos cientficos. Esto
permite establecer tres indicadores:
1. Nmero de artculos citados por las patentes: cuanto mayor es, ms intensa se
supone que resulta la relacin entre ciencia y tecnologa.
2. 2. Lapso de tiempo medio que transcurre entre la publicacin de los artculos
citados y las patentes. Cuanto ms corto es, ms intensa es la interaccin
ciencia-tecnologa.
3. 3. Identificacin de las revistas en las que aparecen los artculos y especialidades
con las que estn relacionadas. Permite calificar o describir el contenido de los
conocimientos movilizados por las patentes.

Ventajas: Contienen la informacin ms reciente, Tienen un formato uniforme a


nivel mundial, Son fuentes de informacin no solamente de lo nuevo (la invencin),
sino tambin de lo que ya se conoce (el estado de la tcnica), Suelen contener
informacin que no se divulgan en otro tipo de publicaciones, Contiene en su
prctica la totalidad de las tecnologas aplicadas por la industria a nivel mundial,
Describen la tecnologa de forma exhaustiva, uso de smbolos de clasificacin que
permiten un acceso selectivo y preciso a la informacin, Contienen un resumen,
Indican habitualmente el nombre y direccin del solicitante, e/inventor o titular,
Alto grado de informatizacin.
Una bsqueda debe cubrir los siguientes objetivos:
Conocimiento del entorno tecnolgico en el que se
mueve la empresa, vigilancia de la capacidad de avance
tecnolgico de la competencia, planificacin de la
innovacin tecnolgica, resolucin de un problema
tcnico concreto, Anlisis de la patentabilidad de los
desarrollos propios, Anlisis de riesgos de infraccin de
patentes, Valoracin de la tecnologa sobre la que se
discute un contrato de licencia.
Ejemplo: Informes de Vigilancia
Tecnolgica sobre Medio Ambiente
(perodo enero-diciembre 1993)

Recoge la evolucin mundial del nmero de patentes en


subsectores como de Reciclado de Plsticos, la
contaminacin de aguas, o las solicitudes de comunidades
autnomas.

Esta informacin de muestra como un indicador clsico de


productividad en este caso el estudio bibliomtrico
corresponde al ncleo de autores (en este caso, empresas
solicitantes) ms productivos en una distribucin tipo
Bradford.