Documentos de Académico
Documentos de Profesional
Documentos de Cultura
1era Parte
Segunda Parte
3era Parte
FROM Orders
;
SELECT Employee.Id, Employee.FirstName, Employee.LastName, Employee.Title,
Employee.ReportsTo
FROM Employee
1. Entidades fuertes: Convertir entidad fuerte en relación que incluyan los atributos. En el
ejercicio anterior:
EMPLEADO (CC, NOMBRE, SEXO,
DEPARTAMENTO (NUM, Nombre,
PROYECTO (NUMP, nombre, monto,
2. Entidades débiles: Convertir entidad débil en relación que incluya los atributos,
incluyendo llave primaria de la entidad fuerte con la que se identifica (llave compuesta).
EMPLEADO (CC, NOMBRE, SEXO,
DEPARTAMENTO (NUM, Nombre,
PROYECTO (NUMP, nombre, monto,
INFORME (NUMP, FECHA, TÍTULO, RESUMEN,
3. Relaciones M:M:, incluir las relaciones mucho a mucho incluyendo las llaves primarias de
las entidades participantes y atributos de la relación.
EMPLEADO (CC, NOMBRE, SEXO,
DEPARTAMENTO (NUM, Nombre,
PROYECTO (NUM, nombre, monto,
INFORME (NUM, FECHA, TÍTULO, RESUMEN,
PARTICIPA (CC, NUMP, HORAS)
4. Relaciones 1:M: Se le pone la llave primaria de la otra entidad al que tiene la M (Llave
ajena)
EMPLEADO (CC, NOMBRE, SEXO, NUM,
DEPARTAMENTO (NUM, Nombre,
PROYECTO (NUM, nombre, monto,
INFORME (NUM, FECHA, TÍTULO, RESUMEN,
PARTICIPA (CC, NUMP, HORAS
5. Relaciones 1:1:
a. Si la cardinalidad mínima de ambas es 0, entonces crear una relación que incluya las
llaves de ambas entidades y los atributos de la relación.
1er Paso:
Crear contenedor: Database Add database Símbolo (+) poner nombre y guardar ok
Tools import copio nombre next Selecciono el archivo con ese nombre –> Chulear
First line representa rótulos ver si el separador es correcto finish
En SQ Lite AAAA- MM – DD
Doble click atributo primary key chulo verde para hacer permanente la llave OK
CONSULTAS SQL
SELECT
Se utiliza para establecer la relación entre las tablas que se utilizan en el FROM
OC
2. CROSS JOIN
As significa “alias”
3. OUTER JOIN
LEFT or RIGHT , relativo.
WHERE
GROUP BY
Es necesario el count
HAVING
SUBCONSULTAS SQL
SUBCONSULTAS
Podemos reemplazar un left outer join por NOT IN
Calendario gregoriano
PONER 0
ORANGE
ANALÍTICA DE IMÁGENES
Rank:
Identifica las variables más importantes del modelo (según el total que se deseen)
Data Sampler:
Muestrea los datos según la proporción dada para entrenamiento y predicción (normalmente
70/30)
Modelos:
AUC: Según este indicador, el Random Forest tiene una capacidad de predicción más
confiable que la regresión logística, pero la diferencia es muy mínima.
CA: Según este indicador, el Random Forest tiene mejor desempeño en sus predicciones
que la regresión logística, pero ambas son excelentes, ya que están cercanas a 1.
F1: Al obtener un valor mayor (cercano a 1) en el “Random Forest”, se puede decir que
este modelo analiza mejor la relación de los datos verdaderos positivos con respecto a los
falsos positivos (precisión) y a los falsos negativos (recall) con respecto al modelo logístico
que también tiene un valor cercano a 1, y por lo tanto lo hace excelente.
Precisión: Se obtuvo un mayor valor (cercano a 1) en el bosque, por esto se concluye que
este modelo analiza mejor la relación de los datos verdaderos positivos, únicamente con
respecto a los falsos positivos, en relación con el modelo logístico que también tiene un
valor cercano a 1, y por lo tanto lo hace excelente.
Recall: Se obtuvo un mayor valor (cercano a 1) en el bosque, por esto se concluye que este
modelo analiza mejor la relación de los datos verdaderos positivos, únicamente con
respecto a los falsos negativos, en relación con el modelo logístico que también tiene un
valor cercano a 1, y por lo tanto lo hace excelente.
MATRIZ DE CONFUSIÓN:
Interpretación: lo que está en rojo son los errores cometidos por el modelo en cada uno de los
modelos.
LIFT CURVE:
IMPORTANT: S se da doble click en la línea y se chulea remaining data, ya que no se puede utilizar
la data entrenada
Se ve la predicción del modelo para comparar con la realidad con los datos restantes, los que no se
entrenaron.
Comparar las calificaciones del predictor con las que si se entrenaron (están abajo)
Si baja mucho, el modelo se sobreentrenó y con datos nuevos no puede mantener el buen
desempeño.
SEGUNDO PREDICTIONS:
K-MEANS:
DIAGRAMA DE DISPERSIÓN (SCATTER PLOT):
ASOCIACIÓN
Association Rules:
Buscar valores por encima de 1 en el lift, mayor el valor más fuerte la asociación no importa si es
negativo o positivo.
Apoyar la confianza con el soporte, ya que una confianza alta con soporte pequeño significa que se
hizo el análisis con muy poca evidencia, si hay poco soporte la probabilidad en el fondo no me dice
nada.
MINERÍA DE TEXTO
WORD CLOUD:
BAG OF WORDS:
DISTANCES:
Es mejor utilizar modelos con nomogramas para predecir (como en este ejemplo logistic
regression)
NOMOGRAM
Nomograma: Solo funciona para regresión logística y naive bayes. Muestra un score (0-5),
las palabras más importantes. Total, y probabilidades así se lee con la probabilidad y el
total que pertenezca a ese grupo o clúster.
Twitter
SENTIMENT ANALYSIS:
SELECT COLUMNS
MAPA DE CALOR:
CORPUS VIEWER:
OTROS PROCESOS DE ANALÍTICA EN ORANGE
PREPROCESS:
Para datos faltantes con el promedio y más frecuente
MERGE DATA:
KNIME
File reader:
JOINER:
NORMALIZE:
El apply no se cambia nada
MISSING VALUE:
En el apply nada
PARTITIONING:
Solo se cambia el porcentaje de entrenamiento según el enunciado
NOTA: en el partioning la flecha de arriba va para los learner y la de abajo para los predictor.
NAIVE BAYES
Plantilla