Está en la página 1de 49

Solución Parcial 2020-2

1era Parte
Segunda Parte
3era Parte

SELECT Territory.TerritoryDescription, Region.RegionDescription

FROM Territory LEFT OUTER JOIN EmployeeTerritory ON


Territory.Id=EmployeeTerritory.TerritoryId

INNER JOIN Region ON Region.Id=Territory.RegionId

WHERE EmployeeTerritory.EmployeeId IS NULL

SELECT Orders.ShipCity, Orders.ShipCountry,ROUND(SUM(Orders.Freight),2) As TotalFletes

FROM Orders

GROUP BY Orders.ShipCity, Orders.ShipCountry

HAVING Orders.Shipcity is 'Seattle' OR Orders.ShipCity LIKE 'L%'

SELECT Orders.Id, Customer.CompanyName,Orders.OrderDate

FROM Orders INNER JOIN Customer ON Customer.Id=Orders.CustomerId

WHERE Orders.OrderDate BETWEEN '2013-07-01' AND '2013-10-30'

ORDER BY Orders.OrderDate DESC

;
SELECT Employee.Id, Employee.FirstName, Employee.LastName, Employee.Title,
Employee.ReportsTo

FROM Employee

WHERE Employee.Id = Employee.ReportsTo

SQL BASE DE DATOS


MODELO ENTIDAD RELACIÓN E/R
MODELO RELACIONAL
Pasos para transformar en Relacional

1. Entidades fuertes: Convertir entidad fuerte en relación que incluyan los atributos. En el
ejercicio anterior:
EMPLEADO (CC, NOMBRE, SEXO,
DEPARTAMENTO (NUM, Nombre,
PROYECTO (NUMP, nombre, monto,
2. Entidades débiles: Convertir entidad débil en relación que incluya los atributos,
incluyendo llave primaria de la entidad fuerte con la que se identifica (llave compuesta).
EMPLEADO (CC, NOMBRE, SEXO,
DEPARTAMENTO (NUM, Nombre,
PROYECTO (NUMP, nombre, monto,
INFORME (NUMP, FECHA, TÍTULO, RESUMEN,
3. Relaciones M:M:, incluir las relaciones mucho a mucho incluyendo las llaves primarias de
las entidades participantes y atributos de la relación.
EMPLEADO (CC, NOMBRE, SEXO,
DEPARTAMENTO (NUM, Nombre,
PROYECTO (NUM, nombre, monto,
INFORME (NUM, FECHA, TÍTULO, RESUMEN,
PARTICIPA (CC, NUMP, HORAS)
4. Relaciones 1:M: Se le pone la llave primaria de la otra entidad al que tiene la M (Llave
ajena)
EMPLEADO (CC, NOMBRE, SEXO, NUM,
DEPARTAMENTO (NUM, Nombre,
PROYECTO (NUM, nombre, monto,
INFORME (NUM, FECHA, TÍTULO, RESUMEN,
PARTICIPA (CC, NUMP, HORAS
5. Relaciones 1:1:
a. Si la cardinalidad mínima de ambas es 0, entonces crear una relación que incluya las
llaves de ambas entidades y los atributos de la relación.

b. Si la cardinalidad mínima de ambas es 1, se pone la llave de una de las entidades en la


otra entidad (llave extranjera).

c. Si la cardinalidad mínima de una es 1 y de la otra 0. Se pone la llave del que tiene 1 en


la entidad que tiene 0.

EMPLEADO (CC, NOMBRE, SEXO, NUM)


DEPARTAMENTO (NUM, Nombre, bidir)
PROYECTO (NUM, nombre, monto)
INFORME (NUM, FECHA, TÍTULO, RESUMEN)
PARTICIPA (CC, NUMP, HORAS)

6. Relaciones n-árias(>=ternarias): las relaciones se convierten en el modelo relacional, no se


puede repetir la combinación de las 3 llaves extranjeras en la relación.
7. Especialización/Generalización: Se le pone la llave primaria de la generalización a las
especializaciones.
Poner cardinalidad en una relación ternario:

Se forman parejas y se evalúa la entidad que queda.


PASOS DENTRO DE SQLITE
PASAMOS A SQL

1er Paso:

Crear contenedor: Database  Add database  Símbolo (+)  poner nombre y guardar ok

Connect to DataBase ícono extremo izquierdo

Carpeta con varios archivos csv, importar:

Tools  import  copio nombre  next  Selecciono el archivo con ese nombre –> Chulear
First line representa rótulos  ver si el separador es correcto  finish

Las fechas cambian en notaciones, formato dd/mm/aaaa no funciona bien en SQ Lite.

En SQ Lite  AAAA- MM – DD

Llave primaria de la entidad

Doble click atributo  primary key  chulo verde para hacer permanente la llave  OK

CONSULTAS SQL

 SELECT

Si no se específica ascendente o descendente, asume ascendente.

Tipos de Join en sentencia SELECT

1. Combinación interna (INNER JOIN)

Se utiliza para establecer la relación entre las tablas que se utilizan en el FROM
OC

2. CROSS JOIN

Produce el producto cartesiano. No se utilizará mucho

As  significa “alias”

area as a  ya podemos teclear solo a para llamar area, facilita codificación.

3. OUTER JOIN
LEFT or RIGHT , relativo.

En ejemplo profesor es a la izquierda, la consulta devuelve todas las filas de la tabla


del profesor, y el outer join relaciona las otras con las del área (NULL).

WHERE

Define la condición que se debe cumplir para que se devuelvan filas.


LIKE
IN
NOT IN
ORDER BY

GROUP BY

Es necesario el count

Agrupa los datos

HAVING

Es parecido al where. Especifica una condición de búsqueda. Normalmente va con un


group by.
Llave compuesta abajo en constraint primary key

SUBCONSULTAS SQL
SUBCONSULTAS
Podemos reemplazar un left outer join por NOT IN
Calendario gregoriano

CAST ES LA TRANSFORMACIÓN DE UN TIPO DE DATO A OTRO.

UNION QUEDAR DE LAS MISMAS COLUMNAS

PONER 0

Fecha en ISO 8601


Una sola tabla  UNION

ORANGE
ANALÍTICA DE IMÁGENES

 En Distances dejar Cosine


 En hierarchical clustering dejar Ward
ANALÍTICA DE DATOS

Rank:
Identifica las variables más importantes del modelo (según el total que se deseen)

Data Sampler:
Muestrea los datos según la proporción dada para entrenamiento y predicción (normalmente
70/30)

Modelos:

 SVM (Máquina de Vector Soporte)


 Tree (árbol de decisión): Chulear induce binary tree
 Logistic Regression
 Random Forest (Bosque aleatorio)
 Neuronal Network

Test and Score:


Interpretaciones indicadores:

 AUC: Según este indicador, el Random Forest tiene una capacidad de predicción más
confiable que la regresión logística, pero la diferencia es muy mínima.
 CA: Según este indicador, el Random Forest tiene mejor desempeño en sus predicciones
que la regresión logística, pero ambas son excelentes, ya que están cercanas a 1.
 F1: Al obtener un valor mayor (cercano a 1) en el “Random Forest”, se puede decir que
este modelo analiza mejor la relación de los datos verdaderos positivos con respecto a los
falsos positivos (precisión) y a los falsos negativos (recall) con respecto al modelo logístico
que también tiene un valor cercano a 1, y por lo tanto lo hace excelente.

 Precisión: Se obtuvo un mayor valor (cercano a 1) en el bosque, por esto se concluye que
este modelo analiza mejor la relación de los datos verdaderos positivos, únicamente con
respecto a los falsos positivos, en relación con el modelo logístico que también tiene un
valor cercano a 1, y por lo tanto lo hace excelente.
 Recall: Se obtuvo un mayor valor (cercano a 1) en el bosque, por esto se concluye que este
modelo analiza mejor la relación de los datos verdaderos positivos, únicamente con
respecto a los falsos negativos, en relación con el modelo logístico que también tiene un
valor cercano a 1, y por lo tanto lo hace excelente.

MATRIZ DE CONFUSIÓN:
Interpretación: lo que está en rojo son los errores cometidos por el modelo en cada uno de los
modelos.

LIFT CURVE:

Se interpretan por cada agrupación o categoría de la variable objetivo.


Interpretación: Según el gráfico, en la agrupación “1” de los vinos el modelo logístico y el bosque
son igual de efectivos (muy efectivos cercanos a 1) casi todo el modelo, a excepción de un
pequeño intervalo en el cual es mejor el bosque.
PRIMER PREDICTIONS:

Se conecta con la data y el MEJOR MODELO SEGÚN LOS INDICADORES.

IMPORTANT: S se da doble click en la línea y se chulea remaining data, ya que no se puede utilizar
la data entrenada
Se ve la predicción del modelo para comparar con la realidad con los datos restantes, los que no se
entrenaron.

En un 80% es la Y, 20% N, pero en realidad es N.

Comparar las calificaciones del predictor con las que si se entrenaron (están abajo)

Si baja mucho, el modelo se sobreentrenó y con datos nuevos no puede mantener el buen
desempeño.

SEGUNDO PREDICTIONS:

Se ingresan datos nuevos sin la variable objetivo y se conectan al predictions, además el


predictions se conecta al modelo ya entrenado (el MEJOR).
Arroja la predicción para cada una de las filas de los datos nuevos.

VALIDACIÓN CRUZADA K-MEANS

Datos de entrada (Paint Data):


Clusteriza según la distribución de los puntos en el gráfico con base en la desviación estándar

K-MEANS:
DIAGRAMA DE DISPERSIÓN (SCATTER PLOT):
ASOCIACIÓN

El archivo debe estar en formato .tab, no hay target value

Association Rules:

Hay que presionar find rules


Nos indica el número de reglas encontradas y filtradas, por ser significativa la asociación
estadísticamente,

Supporte, conf y lift la más importantes

Buscar valores por encima de 1 en el lift, mayor el valor más fuerte la asociación no importa si es
negativo o positivo.

Apoyar la confianza con el soporte, ya que una confianza alta con soporte pequeño significa que se
hizo el análisis con muy poca evidencia, si hay poco soporte la probabilidad en el fondo no me dice
nada.

Qué decisiones se pueden tomar: ponerlos juntos o separados.


Frequent itemsets:

Presionar Fin Itemsets

Nos da la frecuencia de cada uno de los ítems con su probabilidad frecuentista

MINERÍA DE TEXTO
WORD CLOUD:

Me dice las palabras que más se repiten en los textos


PREPROCESS TEXT:
Meter en Filtering un archivo de texto con las palabras más comunes pero poco significativas que
se visualizan en el Word cloud.

BAG OF WORDS:

DISTANCES:

Es mejor utilizar modelos con nomogramas para predecir (como en este ejemplo logistic
regression)

NOMOGRAM
Nomograma: Solo funciona para regresión logística y naive bayes. Muestra un score (0-5),
las palabras más importantes. Total, y probabilidades así se lee con la probabilidad y el
total que pertenezca a ese grupo o clúster.
Twitter

SENTIMENT ANALYSIS:

SELECT COLUMNS
MAPA DE CALOR:
CORPUS VIEWER:
OTROS PROCESOS DE ANALÍTICA EN ORANGE
PREPROCESS:
Para datos faltantes con el promedio y más frecuente

MERGE DATA:
KNIME

File reader:
JOINER:
NORMALIZE:
El apply no se cambia nada

MISSING VALUE:

En el apply nada

PARTITIONING:
Solo se cambia el porcentaje de entrenamiento según el enunciado

NOTA: en el partioning la flecha de arriba va para los learner y la de abajo para los predictor.

Se utiliza el mejor modelo y se predice con los datos ya entrenados.

NAIVE BAYES
Plantilla

También podría gustarte