Resumen Final

Solución Parcial 2020-2
1era Parte
Segunda Parte
3era Parte
SELECT Territory.TerritoryDescription, Region.RegionDescription
FROM Territory LEFT OUTER JOIN EmployeeTerritory ON

Territory.Id=EmployeeTerritory.TerritoryId
INNER JOIN Region ON Region.Id=Territory.RegionId
WHERE EmployeeTerritory.EmployeeId IS NULL
SELECT Orders.ShipCity, Orders.ShipCountry,ROUND(SUM(Orders.Freight),2) As TotalFletes
FROM Orders
GROUP BY Orders.ShipCity, Orders.ShipCountry
HAVING Orders.Shipcity is 'Seattle' OR Orders.ShipCity LIKE 'L%'
SELECT Orders.Id, Customer.CompanyName,Orders.OrderDate
FROM Orders INNER JOIN Customer ON Customer.Id=Orders.CustomerId
WHERE Orders.OrderDate BETWEEN '2013-07-01' AND '2013-10-30'
ORDER BY Orders.OrderDate DESC
;
SELECT Employee.Id, Employee.FirstName, Employee.LastName, Employee.Title,
Employee.ReportsTo
FROM Employee
WHERE Employee.Id = Employee.ReportsTo
SQL BASE DE DATOS

MODELO ENTIDAD RELACIÓN E/R
MODELO RELACIONAL
Pasos para transformar en Relacional
1. Entidades fuertes: Convertir entidad fuerte en relación que incluyan los atributos. En el
ejercicio anterior:
EMPLEADO (CC, NOMBRE, SEXO,
DEPARTAMENTO (NUM, Nombre,
PROYECTO (NUMP, nombre, monto,
2. Entidades débiles: Convertir entidad débil en relación que incluya los atributos,
incluyendo llave primaria de la entidad fuerte con la que se identifica (llave compuesta).
PROYECTO (NUMP, nombre, monto,
INFORME (NUMP, FECHA, TÍTULO, RESUMEN,
3. Relaciones M:M:, incluir las relaciones mucho a mucho incluyendo las llaves primarias de
las entidades participantes y atributos de la relación.
PROYECTO (NUM, nombre, monto,
INFORME (NUM, FECHA, TÍTULO, RESUMEN,
PARTICIPA (CC, NUMP, HORAS)
4. Relaciones 1:M: Se le pone la llave primaria de la otra entidad al que tiene la M (Llave
ajena)
EMPLEADO (CC, NOMBRE, SEXO, NUM,
PROYECTO (NUM, nombre, monto,
INFORME (NUM, FECHA, TÍTULO, RESUMEN,
PARTICIPA (CC, NUMP, HORAS
5. Relaciones 1:1:
a. Si la cardinalidad mínima de ambas es 0, entonces crear una relación que incluya las
llaves de ambas entidades y los atributos de la relación.
b. Si la cardinalidad mínima de ambas es 1, se pone la llave de una de las entidades en la

otra entidad (llave extranjera).
c. Si la cardinalidad mínima de una es 1 y de la otra 0. Se pone la llave del que tiene 1 en

la entidad que tiene 0.
EMPLEADO (CC, NOMBRE, SEXO, NUM)

DEPARTAMENTO (NUM, Nombre, bidir)
PROYECTO (NUM, nombre, monto)
INFORME (NUM, FECHA, TÍTULO, RESUMEN)
PARTICIPA (CC, NUMP, HORAS)
6. Relaciones n-árias(>=ternarias): las relaciones se convierten en el modelo relacional, no se

puede repetir la combinación de las 3 llaves extranjeras en la relación.
7. Especialización/Generalización: Se le pone la llave primaria de la generalización a las
especializaciones.
Poner cardinalidad en una relación ternario:
Se forman parejas y se evalúa la entidad que queda.

PASOS DENTRO DE SQLITE
PASAMOS A SQL
1er Paso:
Crear contenedor: Database  Add database  Símbolo (+)  poner nombre y guardar ok
Connect to DataBase ícono extremo izquierdo
Carpeta con varios archivos csv, importar:
Tools  import  copio nombre  next  Selecciono el archivo con ese nombre –> Chulear
First line representa rótulos  ver si el separador es correcto  finish
Las fechas cambian en notaciones, formato dd/mm/aaaa no funciona bien en SQ Lite.
En SQ Lite  AAAA- MM – DD
Llave primaria de la entidad
Doble click atributo  primary key  chulo verde para hacer permanente la llave  OK
CONSULTAS SQL
 SELECT
Si no se específica ascendente o descendente, asume ascendente.
Tipos de Join en sentencia SELECT
1. Combinación interna (INNER JOIN)
Se utiliza para establecer la relación entre las tablas que se utilizan en el FROM
OC
2. CROSS JOIN
Produce el producto cartesiano. No se utilizará mucho
As  significa “alias”
area as a  ya podemos teclear solo a para llamar area, facilita codificación.
3. OUTER JOIN
LEFT or RIGHT , relativo.
En ejemplo profesor es a la izquierda, la consulta devuelve todas las filas de la tabla

del profesor, y el outer join relaciona las otras con las del área (NULL).
WHERE
Define la condición que se debe cumplir para que se devuelvan filas.

LIKE
IN
NOT IN
ORDER BY
GROUP BY
Es necesario el count
Agrupa los datos
HAVING
Es parecido al where. Especifica una condición de búsqueda. Normalmente va con un

group by.
Llave compuesta abajo en constraint primary key
SUBCONSULTAS SQL
SUBCONSULTAS
Podemos reemplazar un left outer join por NOT IN
Calendario gregoriano
CAST ES LA TRANSFORMACIÓN DE UN TIPO DE DATO A OTRO.
UNION QUEDAR DE LAS MISMAS COLUMNAS
PONER 0
Fecha en ISO 8601

Una sola tabla  UNION
ORANGE
ANALÍTICA DE IMÁGENES
 En Distances dejar Cosine

 En hierarchical clustering dejar Ward
ANALÍTICA DE DATOS
Rank:
Identifica las variables más importantes del modelo (según el total que se deseen)
Data Sampler:
Muestrea los datos según la proporción dada para entrenamiento y predicción (normalmente
70/30)
Modelos:
 SVM (Máquina de Vector Soporte)

 Tree (árbol de decisión): Chulear induce binary tree
 Logistic Regression
 Random Forest (Bosque aleatorio)
 Neuronal Network
Test and Score:

Interpretaciones indicadores:
 AUC: Según este indicador, el Random Forest tiene una capacidad de predicción más
confiable que la regresión logística, pero la diferencia es muy mínima.
 CA: Según este indicador, el Random Forest tiene mejor desempeño en sus predicciones
que la regresión logística, pero ambas son excelentes, ya que están cercanas a 1.
 F1: Al obtener un valor mayor (cercano a 1) en el “Random Forest”, se puede decir que
este modelo analiza mejor la relación de los datos verdaderos positivos con respecto a los
falsos positivos (precisión) y a los falsos negativos (recall) con respecto al modelo logístico
que también tiene un valor cercano a 1, y por lo tanto lo hace excelente.
 Precisión: Se obtuvo un mayor valor (cercano a 1) en el bosque, por esto se concluye que
este modelo analiza mejor la relación de los datos verdaderos positivos, únicamente con
respecto a los falsos positivos, en relación con el modelo logístico que también tiene un
valor cercano a 1, y por lo tanto lo hace excelente.
 Recall: Se obtuvo un mayor valor (cercano a 1) en el bosque, por esto se concluye que este
modelo analiza mejor la relación de los datos verdaderos positivos, únicamente con
respecto a los falsos negativos, en relación con el modelo logístico que también tiene un
valor cercano a 1, y por lo tanto lo hace excelente.
MATRIZ DE CONFUSIÓN:
Interpretación: lo que está en rojo son los errores cometidos por el modelo en cada uno de los
modelos.
LIFT CURVE:
Se interpretan por cada agrupación o categoría de la variable objetivo.

Interpretación: Según el gráfico, en la agrupación “1” de los vinos el modelo logístico y el bosque
son igual de efectivos (muy efectivos cercanos a 1) casi todo el modelo, a excepción de un
pequeño intervalo en el cual es mejor el bosque.
PRIMER PREDICTIONS:
Se conecta con la data y el MEJOR MODELO SEGÚN LOS INDICADORES.
IMPORTANT: S se da doble click en la línea y se chulea remaining data, ya que no se puede utilizar
la data entrenada
Se ve la predicción del modelo para comparar con la realidad con los datos restantes, los que no se
entrenaron.
En un 80% es la Y, 20% N, pero en realidad es N.
Comparar las calificaciones del predictor con las que si se entrenaron (están abajo)
Si baja mucho, el modelo se sobreentrenó y con datos nuevos no puede mantener el buen
desempeño.
SEGUNDO PREDICTIONS:
Se ingresan datos nuevos sin la variable objetivo y se conectan al predictions, además el

predictions se conecta al modelo ya entrenado (el MEJOR).
Arroja la predicción para cada una de las filas de los datos nuevos.
VALIDACIÓN CRUZADA K-MEANS
Datos de entrada (Paint Data):

Clusteriza según la distribución de los puntos en el gráfico con base en la desviación estándar
K-MEANS:
DIAGRAMA DE DISPERSIÓN (SCATTER PLOT):
ASOCIACIÓN
El archivo debe estar en formato .tab, no hay target value
Association Rules:
Hay que presionar find rules

Nos indica el número de reglas encontradas y filtradas, por ser significativa la asociación
estadísticamente,
Supporte, conf y lift la más importantes
Buscar valores por encima de 1 en el lift, mayor el valor más fuerte la asociación no importa si es
negativo o positivo.
Apoyar la confianza con el soporte, ya que una confianza alta con soporte pequeño significa que se
hizo el análisis con muy poca evidencia, si hay poco soporte la probabilidad en el fondo no me dice
nada.
Qué decisiones se pueden tomar: ponerlos juntos o separados.

Frequent itemsets:
Presionar Fin Itemsets
Nos da la frecuencia de cada uno de los ítems con su probabilidad frecuentista
MINERÍA DE TEXTO
WORD CLOUD:
Me dice las palabras que más se repiten en los textos

PREPROCESS TEXT:
Meter en Filtering un archivo de texto con las palabras más comunes pero poco significativas que
se visualizan en el Word cloud.
BAG OF WORDS:
DISTANCES:
Es mejor utilizar modelos con nomogramas para predecir (como en este ejemplo logistic
regression)
NOMOGRAM
Nomograma: Solo funciona para regresión logística y naive bayes. Muestra un score (0-5),
las palabras más importantes. Total, y probabilidades así se lee con la probabilidad y el
total que pertenezca a ese grupo o clúster.
Twitter
SENTIMENT ANALYSIS:
SELECT COLUMNS
MAPA DE CALOR:
CORPUS VIEWER:
OTROS PROCESOS DE ANALÍTICA EN ORANGE
PREPROCESS:
Para datos faltantes con el promedio y más frecuente
MERGE DATA:
KNIME
File reader:
JOINER:
NORMALIZE:
El apply no se cambia nada
MISSING VALUE:
En el apply nada
PARTITIONING:
Solo se cambia el porcentaje de entrenamiento según el enunciado
NOTA: en el partioning la flecha de arriba va para los learner y la de abajo para los predictor.
Se utiliza el mejor modelo y se predice con los datos ya entrenados.
NAIVE BAYES
Plantilla

Resumen Final

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Resumen Final

Cargado por

Copyright:

Formatos disponibles

Solución Parcial 2020-2

SELECT Territory.TerritoryDescription, Region.RegionDescription

FROM Territory LEFT OUTER JOIN EmployeeTerritory ON

INNER JOIN Region ON Region.Id=Territory.RegionId

WHERE EmployeeTerritory.EmployeeId IS NULL

SELECT Orders.ShipCity, Orders.ShipCountry,ROUND(SUM(Orders.Freight),2) As TotalFletes

GROUP BY Orders.ShipCity, Orders.ShipCountry

HAVING Orders.Shipcity is 'Seattle' OR Orders.ShipCity LIKE 'L%'

SELECT Orders.Id, Customer.CompanyName,Orders.OrderDate

FROM Orders INNER JOIN Customer ON Customer.Id=Orders.CustomerId

WHERE Orders.OrderDate BETWEEN '2013-07-01' AND '2013-10-30'

ORDER BY Orders.OrderDate DESC

WHERE Employee.Id = Employee.ReportsTo

SQL BASE DE DATOS

b. Si la cardinalidad mínima de ambas es 1, se pone la llave de una de las entidades en la

c. Si la cardinalidad mínima de una es 1 y de la otra 0. Se pone la llave del que tiene 1 en

EMPLEADO (CC, NOMBRE, SEXO, NUM)

6. Relaciones n-árias(>=ternarias): las relaciones se convierten en el modelo relacional, no se

Se forman parejas y se evalúa la entidad que queda.

Connect to DataBase ícono extremo izquierdo

Carpeta con varios archivos csv, importar:

Las fechas cambian en notaciones, formato dd/mm/aaaa no funciona bien en SQ Lite.

Llave primaria de la entidad

Si no se específica ascendente o descendente, asume ascendente.

Tipos de Join en sentencia SELECT

1. Combinación interna (INNER JOIN)

Produce el producto cartesiano. No se utilizará mucho

area as a  ya podemos teclear solo a para llamar area, facilita codificación.

En ejemplo profesor es a la izquierda, la consulta devuelve todas las filas de la tabla

Define la condición que se debe cumplir para que se devuelvan filas.

Agrupa los datos

Es parecido al where. Especifica una condición de búsqueda. Normalmente va con un

CAST ES LA TRANSFORMACIÓN DE UN TIPO DE DATO A OTRO.

UNION QUEDAR DE LAS MISMAS COLUMNAS

Fecha en ISO 8601

 En Distances dejar Cosine

 SVM (Máquina de Vector Soporte)

Test and Score:

Se interpretan por cada agrupación o categoría de la variable objetivo.

Se conecta con la data y el MEJOR MODELO SEGÚN LOS INDICADORES.

En un 80% es la Y, 20% N, pero en realidad es N.

Se ingresan datos nuevos sin la variable objetivo y se conectan al predictions, además el

VALIDACIÓN CRUZADA K-MEANS

Datos de entrada (Paint Data):

El archivo debe estar en formato .tab, no hay target value

Hay que presionar find rules

Supporte, conf y lift la más importantes

Qué decisiones se pueden tomar: ponerlos juntos o separados.

Presionar Fin Itemsets

Nos da la frecuencia de cada uno de los ítems con su probabilidad frecuentista

Me dice las palabras que más se repiten en los textos

Se utiliza el mejor modelo y se predice con los datos ya entrenados.

También podría gustarte