Tema 6

Tema 6: Organización, estructuración y despliegue de los datos: etapas, metodologías y riesgos.
Recoger todas las cosas

Imagine que está implementando un nuevo proceso de pago en un sitio web. Querrá saber exactamente cómo se está
desempeñando en relación con sus métricas, querrá hacer un seguimiento de la conversión, el tamaño de la cesta, etc., pero
también será instructivo y perspicaz para comprender cómo se está utilizando. Por ejemplo, en algunos sitios, agregar al carrito
es un clic simple e indoloro, por lo que un patrón de comportamiento del cliente podría ser agregar un montón de artículos al
carrito como área de espera y luego reducirlos a sus elecciones finales antes de hacer clic en la opción de pago, botón de
enviar. En otros sitios, sin embargo, agregar al carrito puede involucrar varios clics o eliminar elementos es más difícil o
ambiguo; en resumen, hay más fricción, por lo que los clientes esencialmente deben tomar su decisión final antes de agregar al
carrito. Puede ver por qué la instrumentación del proceso de compra lo más posible puede llevar a una comprensión más
profunda de la característica y puede generar ideas para adiciones o mejoras de funciones y pruebas adicionales.
Nunca se sabe lo que podría necesitar, a menudo solo tiene una oportunidad para recopilar los datos, y luego se lamentará
cuando lo necesite y ya no esté disponible. Cuantos más datos recopile, mayor será la posibilidad de que tenga que modelar y
comprender el comportamiento de los usuarios (como en el ejemplo de pago) y, lo que es más importante, su contexto: el
contexto es el rey. Es decir, cuanto más entiende una organización sobre los usuarios individuales, sus gustos, intenciones y
deseos, más puede mejorar la experiencia del usuario a través de la personalización, la recomendación o servicios más
detallados que llegan hasta ser una "cola larga“.
Al desarrollar productos en línea, recopilar todo es muy fácil. Es un origen de datos que usted controla, y un clic en una
característica puede usar el mismo mecanismo de recopilación o un clic en otra característica. Es decir, puede hacer uso de
patrones comunes, flujos de datos y mecanismos de almacenamiento. Sin embargo, es probable que una organización
fuertemente impulsada por los datos piense mucho más que esto:
• marketing impulsado por los datos,
• ventas impulsadas por los datos,
• servicio al cliente basado en los datos,
• cadena de suministro impulsada por los datos,
• recursos humanos impulsados por los datos.
Si cada uno de ellos tiene un conjunto de fuentes de datos internas y externas con diferentes formatos, latencia,
problemas de calidad de los datos, requisitos de seguridad y cumplimiento, etc., esto comienza a convertirse en
una tarea desalentadora para el equipo de datos. Ahí es cuando "recoger todo" suena muy bien en la práctica, pero
produce un gran dolor de cabeza.
Además, no es gratis. Si los datos son mejores pueden tener un precio considerable. Cuesta dinero construir
caminos para absorber, limpiar, transformar y almacenar esos datos. Existe un coste para mantener esos sistemas,
hacer una copia de seguridad de los datos e integrar esas fuentes de datos para proporcionar una visión holística
de la empresa. También puede haber un costo descendente significativo para proporcionar herramientas de
calidad para que los analistas hagan un buen uso de fuentes de datos dispares. Necesita todo eso para obtener los
datos correctos en manos de los analistas.
La motivación principal del equipo de datos debe ser satisfacer las necesidades de las unidades de negocios y sus
analistas y ayudar a proporcionar un impacto en la organización.
Es probable que cada equipo o unidad tenga un conjunto de datos "básicos". Para un equipo de servicio al cliente,
eso podría significar las diversas formas de datos de interacción, como correos electrónicos, llamadas telefónicas,
redes sociales, tal vez datos de mensajes instantáneos, datos de casos y datos de pedidos de ventas. Con eso,
pueden realizar su función principal, brindar un servicio al cliente increíble, pero pueden combinar estas fuentes
para producir una visión completa del conjunto de interacciones por caso, pueden ver las métricas de alto nivel
sobre la productividad del equipo, como el promedio y pueden analizar el tipo de interacciones por fuente.
Los equipos tienen que tener sus datos básicos. Sin embargo, además, podrían tener otro conjunto de datos que
aumentaría sus datos centrales. Por ejemplo, esto podría ser datos de tasa de defectos de fabricación o datos de
prueba A / B que podrían resaltar dónde los clientes se confunden con una nueva función. Esos podrían ayudar al
equipo a predecir la tasa y los temas de los casos que se espera que lleguen. Es probable que esas otras fuentes de
datos sean valiosas e impactantes, pero no cruciales.
Pero donde podemos encontrar datos de fuentes externas:
• Los informes anuales resumen datos sobre la rentabilidad de las empresas y la cuota de mercado, tanto en forma numérica como en
tablas y gráficos para comunicarse con accionistas.
• Los auditores realizan auditorías para determinar si las cifras reportadas en una firma, como el balance, se representa de manera
justa los datos reales al examinar muestras (es decir, subconjuntos) de datos contables, tales como cuentas por cobrar.
• Los analistas financieros recopilan y analizan una variedad de datos para comprender la contribución que una empresa proporciona a
sus accionistas. Estos incluyen típicamente rentabilidad, crecimiento de ingresos, retorno de la inversión, utilización de activos,
márgenes operativos, ganancias por acción, valor económico agregado, valor para los accionistas, y otras medidas pertinentes.
• Los economistas utilizan los datos para ayudar a las empresas a comprender y predecir las tendencias de la población, tipo de
interés, desempeño de la industria, gasto del consumidor y comercio internacional. Dichos datos a menudo se obtienen de fuentes
externas como Standard & Poor´s , o a través de su aplicación Compustat, asociaciones comerciales de la industria, o bases de datos
gubernamentales.
• Los investigadores de marketing recopilan y analizan datos extensos de los clientes. Estos datos a menudo constan de datos
demográficos, preferencias y opiniones, transacciones y pagos, historia, comportamiento de compra, y mucho más. Dichos datos
pueden ser recolectados por encuestas, entrevistas personales, grupos focales o tarjetas de fidelización de compradores.
• Los gerentes de operaciones usan datos sobre el rendimiento de producción, calidad de fabricación, los tiempos de entrega, la
precisión del pedido, el rendimiento del proveedor, la productividad, los costes y el cumplimiento medioambiental para gestionar sus
operaciones.
• Los gerentes de recursos humanos miden la satisfacción de los empleados, los costes de capacitación, la rotación, innovación en el
mercado, efectividad de la capacitación y desarrollo de habilidades.
Dichos datos pueden recopilarse de fuentes primarias, como los registros internos de la empresa y transacciones comerciales, equipos
automatizados de captura de datos o encuestas de mercado de clientes y de fuentes secundarias tales como fuentes de datos
gubernamentales y comerciales, aduanas proveedores de investigación, y la investigación en línea.
Quizás la fuente de datos más importante hoy en día son los datos obtenidos de la Web. Con la tecnología actual, los profesionales de
marketing recopilan amplia información sobre los comportamientos de la Web, como el número de páginas vistas, el país del visitante, la hora
de visualización, la duración del tiempo, el origen y el destino, rutas, productos que buscaron y vieron, productos que compraron, y opiniones
que leen, y muchos otros.
Usando el análisis, los profesionales de marketing pueden aprender qué contenido está siendo visto con más frecuencia, en qué anuncios se
hizo clic, quiénes son los visitantes más frecuentes y qué tipos de visitantes navegan pero no compran. No solo los vendedores pueden
entender lo que los clientes han hecho, pero pueden predecir mejor lo que intentarán hacer en el futuro. Por ejemplo, si un banco sabe que un
cliente ha buscado las tasas de hipoteca y el seguro, pueden dirigirse al cliente con préstamos de vivienda en lugar de tarjetas de crédito o
préstamo de automóviles. Los datos web tradicionales ahora se están mejorando con datos de redes sociales de Facebook, teléfonos celulares e
incluso dispositivos de juegos conectados a Internet.
Como ejemplo, un minorista de muebles para el hogar quiso aumentar la tasa de ventas para los clientes que navegan por su sitio web.
Desarrollaron un gran conjunto de datos que cubría más de 7.000 atributos de comportamiento demográfico, web, catálogo y venta minorista
para cada cliente. Utilizaron el análisis predictivo para determinar como de bien respondería un cliente a diferentes ofertas de marketing por
correo electrónico y promociones personalizadas para clientes individuales. Esto no sólo les ayudó a determinar dónde gastar más
efectivamente los recursos de marketing, pero duplicó la tasa de respuesta en comparación con las campañas de marketing anteriores, con una
proyección incremento multimillonario en las ventas.
Datos y bases de datos

Un conjunto de datos es simplemente una colección de datos. Las respuestas de la encuesta de marketing, una tabla de histórico precios de las
acciones y una colección de medidas de dimensiones de un artículo manufacturado. Son ejemplos de conjuntos de datos.
Una base de datos es una colección de archivos relacionados que contienen registros en personas, lugares o cosas. Las personas, lugares o cosas
para los que almacenamos y mantenemos la información se denomina entidades. Una base de datos para un minorista en línea que vende
libros de fitness y los DVD, por ejemplo, podrían consistir en un archivo para tres entidades: editores a partir de la cual se compran los bienes,
las transacciones de venta al cliente y el inventario de productos.
Una base de datos, generalmente, se organiza en una tabla bidimensional, donde las columnas corresponder a cada elemento individual de
datos (campos llamados o atributos), y las filas representar registros de elementos de datos relacionados. Una característica clave de las bases
de datos computarizadas es la capacidad de relacionar rápidamente un conjunto de archivos a otro.
Las bases de datos son importantes en el análisis de negocios para acceder a los datos, hacer consultas y otras actividades de gestión de datos e
información.
Métrica y clasificación de datos
Una métrica es una unidad de medida que proporciona una manera de cuantificar objetivamente el rendimiento. Por ejemplo, los gerentes
senior podrían evaluar el desempeño general del negocio usando métricas como el beneficio neto, el rendimiento de la inversión, la
participación en el mercado y la satisfacción del cliente. Un gerente de planta podría monitorear tales métricas como la proporción de piezas
defectuosas producidas o el número de inventarios como rota cada mes. Para un minorista basado en la web, algunas métricas útiles son el
porcentaje de pedidos completados con precisión y el tiempo necesario para llenar un cliente orden. La medición es el acto de obtener datos
asociados con una métrica. Las medidas son valores numéricos asociados a una métrica.
Las métricas pueden ser discretas o continuas. Una métrica discreta es aquella que se deriva. de contar algo. Por ejemplo, una entrega es
puntual o no; un el pedido está completo o incompleto; o una factura puede tener uno, dos, tres o cualquier número de errores. Algunas
métricas discretas asociadas con estos ejemplos serían la proporción de entregas a tiempo; el número de pedidos incompletos cada día, y el
número de errores por factura. Las métricas continuas se basan en una escala de medición continua. Cualquier métrica que incluya dólares,
longitud, tiempo, volumen o peso, por ejemplo, es continuo.
Otra clasificación de datos es por el tipo de escala de medición. Los datos pueden ser clasificados. en cuatro grupos:
1. Datos categóricos (nominales), que se clasifican en categorías de acuerdo con características especificadas. Por ejemplo, los clientes de una
empresa podrían ser clasificados por su región geográfica (América del Norte, América del Sur, Europa, y Pacífico); los empleados pueden ser
clasificados como gerentes, supervisores y asociados. Las categorías no tienen relación cuantitativa entre sí, pero por lo general, asignamos un
número arbitrario a cada categoría para facilitar el proceso de la gestión de los datos y las estadísticas informáticas. Los datos categóricos suelen
ser contados o expresados como proporciones o porcentajes.
2. Datos ordinales, que pueden ordenarse o clasificarse según alguna relación. Las clasificaciones del futbol colegial o baloncesto son ordinales;
una mayor el ranking significa un equipo más fuerte pero no especifica ninguna medida numérica de fuerza. Los datos ordinales son más
significativos que los datos categóricos porque los datos se pueden comparar entre sí. Un ejemplo común en los negocios son los datos desde
escalas de encuesta, por ejemplo, calificar un servicio como malo, medio, bueno, muy bueno, o excelente. Dichos datos son categóricos pero
también tienen un orden natural. (excelente es mejor que muy bueno) y, en consecuencia, son ordinales.
Sin embargo, los datos ordinales no tienen unidades de medida fijas, por lo que no podemos hacer que tengan sentido
afirmaciones numéricas sobre las diferencias entre categorías. Así, nosotros no podemos decir que la diferencia entre
excelente y muy buena sea la misma como entre buena y media, por ejemplo. Del mismo modo, un equipo clasificado
número 1º puede ser muy superior al equipo número 2º, mientras que puede haber poca diferencia entre los equipos
clasificados 9º y 10º.
3. Datos de intervalo. Son ordinales pero tienen diferencias constantes entre las observaciones y no tienen puntos arbitrarios.
Ejemplos comunes son el tiempo y la temperatura. El tiempo es relativo a la ubicación global, y los calendarios tienen un inicio
arbitrario fechas (comparar, por ejemplo, el calendario gregoriano estándar con el calendario chino). Las escalas Fahrenheit y
Celsius representan una medida específica de la distancia (grados) pero tienen puntos cero arbitrarios. Por lo tanto no podemos
tomar relaciones significativas; por ejemplo, no podemos decir que 50 grados es dos veces más caliente que 25 grados. Sin
embargo, podemos comparar diferencias. Otro ejemplo es SAT o las puntuaciones del GMAT. Las puntuacioens pueden usarse
para clasificar a los estudiantes, pero solo las diferencias entre las puntuaciones proporcionan información sobre cuánto fue
mejor un estudiante sobre otro; las proporciones tienen poco sentido. En contraste con los datos ordinales, los datos de
intervalo permite una comparación significativa de rangos, promedios y otras estadísticas.
En los negocios, los datos de escalas de encuestas, mientras que, técnicamente son ordinales, a menudo son se tratan como
datos de intervalo cuando las escalas numéricas están asociadas con las categorías (por ejemplo, 1 = malo, 2 = medio, 3 =
bueno, 4 = muy bueno, 5 = excelente). Estrictamente hablando, esto no es correcto porque la "distancia" entre categorías
puede no ser percibido como lo mismo (los encuestados pueden percibir una brecha más grande entre malo y promedio que
entre bueno y muy bueno, por ejemplo). Sin embargo, muchos usuarios de datos de encuestas los tratan como intervalo al
analizar los datos, especialmente cuando solo se utiliza una escala numérica sin etiquetas descriptivas.
4. Datos de relación, que son continuos y tienen un cero natural. La mayoría de los negocios y los datos económicos, como
dólares y tiempo, entran en esta categoría. Por ejemplo, la medida en dólares tiene un cero absoluto. Las razones de las cifras
en dólares son significativas. Por ejemplo, sabiendo que la región de Madrid vendió 12 millones en marzo mientras que la
región de Murcia vendió 6 millones significa que Madrid vendió el doble que Murcia.
Esta clasificación es jerárquica en que cada nivel incluye todo el contenido de información de quien lo precede. Por ejemplo, los
datos ordinales también son categóricos, y la información de relación se puede convertir a cualquiera de los otros tipos de
datos. La información de intervalo puede convertirse a datos ordinales o categóricos, pero no se puede convertir a datos de
relación sin conocer el punto de cero absoluto. Por lo tanto, una escala de relación es la forma más fuerte de medición.
Datos maestros
La mayoría de los sistemas de gestión crean listas de datos que son compartidos y utilizados por las diversas aplicaciones que
componen un sistema. A cada uno de estos conjuntos o lista de datos se le llama datos maestros. Por ejemplo, un ERP típico
tendrá como mínimo un maestro de clientes, un maestro de artículos y un maestro de cuentas. Estos datos maestros son a
menudo los activos más importantes de una empresa.
Algunos datos maestros son muy sencillos de comprender y fácilmente identificables, como los datos maestros de cliente y
producto. De hecho, mucha gente define los datos maestros simplemente nombrando una lista de estos conjuntos de datos
maestros comúnmente acordados, tales como: clientes, productos, localizaciones, empleados y activos. Sin embargo hay que
hacer un análisis mas profundo para clasificar que datos son maestros.
Esencialmente existen 5 tipos de datos en cualquier organización:
• No estructurados. Son datos que se encuentran en correos electrónicos, documentos en PDF, white papers, artículos de
revistas, portales de una intranet corporativa, especificaciones de productos, información de marketing, etc.
• Transaccionales. Se trata de datos relacionados con ventas, entregas, facturas, tickets de asistencia, reclamaciones y otras
interacciones monetarias y no monetarias.
• Metadatos. Son datos sobre otros datos y pueden residir en un repositorio formal o en otras diferentes formas como
documentos XML, definiciones de informes, descripciones de columnas en una base de datos, ficheros log, conexiones y
ficheros de configuración.
• Datos jerárquicos. Los datos jerárquicos almacenan las relaciones entre otros datos. Pueden ser almacenados como parte de
un sistema contable o por separado como descripciones de las relaciones del mundo real, como estructuras organizativas de
la empresa o líneas de productos. Los datos jerárquicos a veces se consideran un súper dominio del MDM, porque es crítico
de entender y a veces descubrir las relaciones entre los datos maestros.
• Maestros. Los datos maestros son los datos críticos de un negocio y caen generalmente dentro de 4 grupos: personas, cosas,
lugares y conceptos.
• Otras categorizaciones dentro de esas agrupaciones se denominan áreas temáticas, áreas de dominio o tipos de entidad.
• dentro del grupo de personas hay clientes, empleados y vendedores.
• dentro de cosas hay productos, piezas, tiendas y activos.
• dentro de los conceptos hay cosas como contratos, garantías y licencias, y por último,
• dentro de los lugares hay oficinas y divisiones geográficas. Algunas de estas áreas de dominio pueden dividirse.
El cliente puede seguir segmentando basado en incentivos e historia. Una compañía puede tener clientes normales pero
también puede tener clientes preferentes y premium. El producto puede también estar segmentado por sector e industria. Los
requisitos tales como el ciclo de vida de un producto son muy diferentes de una industria a otra.
Debido a que son utilizados por múltiples aplicaciones, un error en los datos maestros puede causar errores en todas las
aplicaciones que lo utilizan. Por ejemplo, una dirección incorrecta en el maestro de clientes puede significar que los pedidos,
las facturas y la información de marketing, se envíen a la dirección incorrecta. Del mismo modo, un precio incorrecto en un
maestro de artículos puede conducir a un desastre en las ventas.
Una historia típica de error en datos maestros que provoca un desastre puede ser esta: un cliente de tarjetas de crédito que se
traslada de una dirección a otra. El cliente llama a la empresa y cambia su dirección de facturación inmediatamente. Sin
embargo pasan los meses y no recibe ninguna factura. Un día el cliente recibe una llamada telefónica amenazadora del
departamento de facturación de tarjetas de crédito preguntándole por qué no paga las facturas. El cliente verifica si tienen la
nueva dirección y el departamento de facturación verifica que la dirección en sus sistemas es la correcta. El cliente solicita una
copia de las facturas para liquidar su cuenta. Pero después de 2 semanas más sin que le llegue la factura, el cliente llama de
nuevo y se encuentra con que su cuenta ha pasado al departamento de reclamaciones por vía legal. Además se entera de que, a
pesar de que la dirección en el sistema es correcta, la dirección de facturación tiene un error en uno de sus números y que por
lo tanto están enviando las facturas a una dirección equivocada. Después de un montón de llamadas telefónicas más y cartas
entre abogados, la factura se resuelve y la compañía de tarjetas de crédito pierde un cliente para siempre. En este caso la copia
maestra de los datos era exacta pero otra copia de ella era defectuosa. Los datos maestros deben ser siempre correctos y
consistentes.
Pero incluso si los datos maestros no tienen errores, pocas organizaciones tienen solo un conjunto de datos maestros. Muchas
empresas crecen mediante fusiones y adquisiciones. Cada compañía que adquiere viene con su propio maestro de clientes,
maestro de artículos y así sucesivamente. Esto no sería malo si pudieras unir los nuevos datos maestros con tus datos maestros
actuales, pero a menos que la empresa adquirida se encuentre en un negocio completamente diferente, en un país lejano, hay
muchas posibilidades de que algunos clientes y productos aparezcan en ambos conjuntos de datos maestros con diferentes
formatos y diferentes claves de base de datos. Si ambas empresas utilizan el mismo identificador de cliente, descubrir cuáles
registros de clientes son el mismo es un asunto sencillo, pero esto rara vez sucede. En la mayoría de los casos, el número de
cliente es asignado por el software que crea los registros maestros por lo que las posibilidades de que el mismo cliente o el
mismo producto tengan el mismo identificador en ambas bases de datos es bastante remota.
Combinar datos maestros puede ser muy difícil. El mismo cliente puede tener diferentes nombres, números de cliente,
direcciones y números de teléfono, en diferentes bases de datos. Por ejemplo, Francisco Jiménez podría aparecer como Fran
Jiménez, Francisco Giménez o Fran Giménez. Las combinaciones de base de datos y búsquedas no podrán resolver esas
diferencias. Puede que sea necesaria una herramienta sofisticada que entienda los apodos, las ortografías alternativas y los
errores de mecanografía. Esa herramienta probablemente también tendrá que reconocer que se pueden resolver diferentes
variaciones de un nombre si todos vienen en una misma dirección o tienen el mismo número de teléfono. Aunque la creación
de un fichero de datos maestros limpio puede ser un desafío desalentador, son muchos los beneficios de crear un fichero
maestro común:
• Una sola factura consolidada ahorra dinero y mejora la satisfacción del cliente.
• Enviar varias veces la misma información de marketing a un cliente que aparece en múltiples bases de datos es perder dinero
e irritar al cliente.
• Antes de enviar una cuenta de cliente a una compañía de gestión de cobros sería bueno saber si debe más dinero en otras
partes de la empresa, o lo que es más importante, si resulta ser el cliente más importante de otra división o delegación.
• Almacenar el mismo artículo con diferentes part numbers no sólo puede llevar a un desperdicio de dinero y espacio en los
estantes sino que puede conducir potencialmente a una escasez artificial.
Algunas veces una petición puede ir a una cola ya que hay un
Prioridad Razón Explicación cliente que se queja, o una API que de forma sencilla lleva los
datos arriba y abajo. Si la fuente de los datos te deja KO por la
Los datos son tarde, durante un día o dos, y tienen un valor demonstrable,
verdaderamente Si es una necesidad genuine para los negocios, es Media Fácil Pull-Down puedde ser lo peor que te pase.
Alta urgentes necesario servir a los clients internos lo antes possible.
Si el ROI es elevado, estos datospueden elevar lso Buenas APIs que

te permiten Si no se necesitan los datos con urgencia, y siempre sabemos
Los datos tendrán alto ingresos o reducer los gastos, por lo que tendrían alta
acceder a datos que podemos recuperarlos, entonces iremos a datos de mas
Alta valor prioridad
Media históricos. prioridad.
Equipos multiples de la
empresa necesitan los El ROI puede ser elevado si podemos satisfacer a los
Alta datos distintos negocios de forma simultanea. Los analistas Si los analistas tienen algún tipo de acceso a los datos, y si es
tienen acceso a atraves de sitios inusuales como un cliente, exportandolos a un
Algunos datos transmitidos de las redes sociales, algunos datos y csv, entonces no tienen mucha prioridad. La empresa debería
Los datos son efímeros o mediante APIs o aparatos hardaware, solo nos permiten Baja una solución tener acceso a otros datos que aporten valor.
Alta transmitidos una vez ver una ventana de tiempo, y si no los datos se pierden.
Datos de baja Si hay poca confianza en la calidad de los datos, tendrán poco
Baja calidad valor y serán inproductivos.
Aumentan los datos Hay nuevos datos que aumentan los existentes y que
Media existen generando valor aumentan el valor del conjunto. Las copias de pantalla es una forma de tener información de la
web, aunque los propietarios de las webs cambian
Los ingenieros de datos Si el equipo tiene alguna familiarización con los datos, o si Los datos tienden constantemente sus pantallas, no son estructurados, su proceso
pueden reutilizer los sus APIs pueden reutilizarse, pueden tener menos a elimianarse de es complejo, son frágiles y requieren muchos gasto de
Media datos ya procesados desconocimentos y sorpresas. Baja pantalla almacenamiento.
Baja probabilidad
de que se usen los
Baja datos Si no aportan nada al ROI, está claro.
Fiabilidad y validez de los datos
Si los datos son malos las decisiones que se tomen serán malas.
En una situación, el diseño de un modelo de un sistema de distribución se hace con datos obtenidos de un departamento de finanzas
corporativas. Los costes del transporte se obtuvieron mediante una formula en función de la longitud y latitud de las delegaciones y los clientes.
Pero cuando se presentó el resultado del sistema de información geográfico , un cliente estaba en medio del océano atlántico. Por lo tanto los
datos y fórmulas o algoritmos que se utilicen necesitan ser fiables y válidos.
Fiabilidad del dato significa que tiene precisión
Validez del dato significa que esté correctamente medido y su medida sea real
Por ejemplo, si las lecturas de un sistema de medida de presión de neumáticos, mide decenas de psi por debajo del valor real, sus medidas no
son fiables, aunque esté haciendo su cometido bien.
Por ejemplo, el número de llamadas a un cliente se puede medir de forma correcta, y es un dato fiable, pero no será valido si es para seguir
quejas de los clientes donde algunas llamadas pueden ser simples consultas.
Finalmente, una pregunta de una encuesta que pide a los clientes valorar la calidad de la comida de un restaurante, puede no ser fiable, porque
los clientes pueden tener distintos gustos y percepciones, y tampoco es válida, si la satisfacción del cliente puede incluir la valoración del
servicio de los camareros o el local.
Incertidumbre y Riesgo
Como todos sabemos, el futuro siempre es incierto. Así, muchos modelos predictivos incorporan incertidumbre y hay que ayudar a los
tomadores de decisiones a analizar los riesgos asociados con sus decisiones. Incertidumbre es un conocimiento imperfecto de lo que sucederá.
El riesgo está asociado con las consecuencias y la probabilidad de lo que pueda pasar. Por ejemplo, el cambio en el precio de las acciones de
Apple al día siguiente en la bolsa es incierto. Sin embargo, si posee acciones de Apple, entonces corre el riesgo de perder dinero si el precio de
las acciones cae. Si no posee ninguna acción, el precio aún es incierto, aunque No tiene ningún riesgo.
El riesgo es evaluado por la magnitud de las consecuencias y la probabilidad de que se produjeran. Por
ejemplo, una caída del 10% en el precio de las acciones incurriría en un mayor riesgo si tenemos 1
millón, que si solo fuera dueño de 1.000. Del mismo modo, si las posibilidades de una caída del 10% eran
1 en 5, el riesgo sería mayor que si las probabilidades fueran solo de 1 en 100.
La importancia del riesgo en los negocios ha sido reconocida mucho tiempo. Peter Drucker, observó en
1974: “tratar de eliminar el riesgo en las empresas es inútil. El riesgo es inherente al compromiso. De los
recursos actuales a las expectativas futuras. De hecho, el progreso económico puede definirse como la
capacidad de asumir mayores riesgos. El intento de eliminar riesgos, incluso tratar de minimizarlos, solo
puede hacerlos irracionales e insoportables. Solo puede que el resultado sea mayor riesgo de todos: la
rigidez.La consideración del riesgo es un elemento vital en la toma de decisiones. Por ejemplo, lo harías,
probablemente, no elegir una inversión simplemente en función del rendimiento que pueda esperar,
porque, normalmente, los rendimientos más altos están asociados con un mayor riesgo. Por lo tanto,
tienes que haga una compensación entre los beneficios de mayores recompensas y los riesgos de
pérdidas potenciales. Los modelos analíticos pueden ayudar a evaluar esto.
La medida del riesgo
Habiendo ya identificado y clasificados los riesgos de los datos, pasamos a realizar el análisis de los
mismos, es decir, se estudian la posibilidad y las consecuencias de cada factor de riesgo con el fin de
establecer el nivel de riesgo de nuestro proyecto.
El análisis de los riesgos determinará cuáles son los factores de riesgo que potencialmente tendrían un
mayor efecto sobre nuestro proyecto y, por lo tanto, deben ser gestionados por un experto con mucha
experiencia en datos.
La incertidumbre
La evolución económica se halla en un contexto cambiante y las decisiones que se tienen que tomar son cada vez más complejas como
consecuencia de la “incertidumbre” en el transcurso de los acontecimientos.
Se puede afirmar que:
• Las leyes cambian constantemente las reglas del juego.
• Las influencias económicas externas modifican las expectativas de las empresas.
• La tecnología exige variar cada vez con mayor rapidez los sistemas productivos y de distribución en las empresas.
Estos y más elementos hacen que las técnicas de gestión están modificándose a mayor velocidad para adaptarse a la nueva
situación del entorno económico.
El hecho de hacer una formulación que tenga una visión restringida, para medir la incertidumbre, obliga a elegir entre realizar desde el
inicio una selección de elementos a considerar para poder operar después con un instrumento preciso, o bien captar la realidad con
toda la imprecisión y operar con estas informaciones “borrosas”, sabiendo que los resultados obtenidos serán de manera imprecisa. La
decisión se reduce a elegir entre un modelo preciso pero que no refleja totalmente la realidad y un modelo vago pero más preciso a la
realidad.
La principal herramienta matemática para el tratamiento de la incertidumbre es la teoría de lo borroso y de la valuación con sus
muchas variantes, mientras que la relativa al azar es la teoría de las probabilidades.
Se pueden utilizar las palabras azar, aleatorio, estocástico… para aquellas situaciones en las que se dispone y son aceptables las leyes de
la probabilidad. En caso contrario, será necesario utilizar las palabras de incierto, incertidumbre, imprecisión, o borrosidad. Pero, el azar
es la incertidumbre estructurada, medible a través de un razonamiento lógico y / o estadístico.
Ahora bien, en los problemas reales se encuentra datos blandos y datos duros, es decir, lo borroso y lo aleatorio. Sabemos asociar
perfectamente, aunque desde hace relativamente poco tiempo, estos datos de naturaleza distinta.
Nos podemos preguntar por qué ahora existe un mayor interés por el tratamiento de la incertidumbre. La respuesta es porque resulta
cada vez más difícil obtener secuencias de datos suficientemente estables, estacionarios e incluso significativos.
Se puede considerar cinco tipos de modelos relativos a los distintos niveles de información:
• Modelo no determinista con estados desconocidos.
• Modelo no determinista con estados conocidos pero con eventos no valuables.
• Modelo no determinista con estados conocidos y eventos valuables pero no medibles.
• Modelo no determinista con estados conocidos y con eventos medibles.
• Modelo determinista.
En los estudios realizados de gestión, se realizan procesos de modelización intentando llegar del nivel 1 al nivel 5, pero la
situación económica, hace que los estudios debían pararse en niveles bajos. Es por esto que se ha recurrido a la más general de
las teorías capaces de describir ambientes inciertos “la teoría de los subconjuntos borrosos”. La formalización de la
incertidumbre, tomando la partida en los conceptos borrosos, ha dado lugar a distintas maneras de pensar que reúne el
razonamiento secuencial y la riqueza de la imaginación, asociando las posibilidades secuenciales de las máquinas con las
posibilidades del cerebro humano.
El subconjunto borroso
El significado de la palabra conjunto es simple. Se trata de un grupo de objetos, físicos o mentales, diferentes los unos de los
otros, los cuales están especificados. Tomando como referencia un conjunto se puede considerar una casi infinita cantidad de
subconjuntos. Un subconjunto de un conjunto no comprende forzosamente la totalidad de sus objetos aunque, en ciertas
ocasiones, se admite que un conjunto es un subconjunto de sí mismo. Al conjunto de referencia se le acostumbra a denominar
“conjunto referencial”.
A modo coloquial, estos conceptos básicos, vamos a verlos sus posibles significados. Por ejemplo, el grupo de personas que
forman un mercado potencial para los productos de una empresa constituyen el conjunto de posibles compradores. A partir de
ahora, todo cuanto estudia nuestra empresa tiene como referencia estos posibles compradores, a este conjunto se le puede
llamar “conjunto referencial”.
C. Conjunto de consumidores potenciales Pedro, Paula, Óscar, David, Isabel, Marta, Ana e Ignacio.
Conjunto de referencia E=(Pedro, Paula, Óscar, David, Isabel, Marta, Ana, Ignacio)
De este conjunto se pueden hacer subconjuntos, que representen alguna cualidad o singularidad, por
ejemplo, uno que se r para altas rentas, y otro que sea p para propietarios de inmuebles:
R=(Pedro, David, Ignacio, Isabel, Ana)
P=(Pedro, Marta, Ignacio, Ana)
Ahora establecemos un conjunto de características que tengan que ver con el objeto a determinar: riqueza,
propiedad inmobiliaria, estatura, laboriosidad, belleza, e inteligencia.
Este nuevo conjunto de características será C=(riqueza, propiedad inmobiliaria, estatura, laboriosidad, belleza,
inteligencia)
Ahora podemos tomar un elemento de E y ver posee de C:
Pedro, P=(riqueza, propiedad inmobiliaria, estatura, inteligencia) o
Marta, M= (propiedad inmobiliaria, laboriosidad, belleza, e inteligencia)
Ahora, podríamos asignar valores de tiene, 1, o no tiene, 0, para ver si un miembro tiene o no una
característica de C o ver que tiene cada miembro
p pa o d i m a i
riqueza
1 0 1 0 1 1 0 1
r pi e l b i
pedro 1 1 0 0 0 1
Vemos que podríamos hacer muchos subconjuntos, pero ahora vamos a matizar los valores extremos de 0 y 1, a
valores mas reales y muestren mejor esa relación
p pa o d i m a i
riqueza 0,8 0,2 0,7 0,1 0,8 0,9 0,3 0,8
p pa o d i m a i
pro. Inmob 0,5 0 0,9 0,3 0,7 0,8 0,2 0,7
Y también:
r pi e l b i
pedro
0,5 0,7 0,3 0,2 0,4 0,9
r pi e l b i
paula 0,6 0,5 0,2 0,1 0,2 0,8
Ahora aplicamos la distancia de Hamming, haciendo la diferencia entre los niveles de lo que uno
u otro posee, ya que trata de ver si dos personas tienen parecido dentro del grupo, como son
distancias lo hacemos en valor absoluto:
d(P,Pa)= (0,5-0,6)+(0,7-0,5)+(0,3-0,2)+(0,2-0,1)+(0,4-0,2)+(0,9-0,8)= 0,8
Este valor no es muy representativo porque está influenciado por las características que hemos
elegido, entonces tenemos que hacer la distancia relativa de Hamming, que se hace dividiendo
la distancia total por el número de elementos considerados:
dist rel= 0,8/6= 0,13
0,13 es la distancia que hay entre Pedro y Paula, pero si lo que queremos ver es la proximidad
haríamos 1-0,13= 0,87, es decir son personas que están muy próximas.
La distancia de Hamming se denomina así gracias a su inventor Richard Hamming, profesor de la
Universidad de Nebraska, que fue el que introdujo el término para establecer una métrica capaz
de establecer un código para la detección y auto-corrección de códigos. Se emplea en la
transmisión de información digitalizada para contar el número de desvíos en cadenas de igual
longitud y estimar el error, por esto se denomina a veces como distancia de señal.
Se ha adaptado a la lógica difusa de datos, pudiendo utilzarla, como hemos hecho, para
establecer relaciones entre datos.
El análisis y las hojas de cálculo
Imaginemos que sólo necesitamos presentar algunos tablas de porcentajes y algunos gráficos de las
ventas de los últimos 5 años. Fácil, ¿verdad? O por el contrario, necesitas construir modelos predictivos
capaces de predecir las subidas de stocks en los próximos 10 días según históricos de datos de 10 años.
Estaremos de acuerdo, que la dificultad de este segundo caso es mucho mayor que la del primer caso.
Por lo tanto las aplicaciones de software no son igualmente útiles dependiendo del propósito de cálculo
y presentación de los resultados.
Según la dificultad y complejidad de los problemas podemos dividirlos en tres:
1. Caso General: el informe rápido y resumen de datos (hojas de cálculo)
Podemos utilizar hojas de cálculo para poder tabular los resultados y presentar sencillos gráficos descriptivos.
• Representar gráficos
• Crear tablas resumen
• Pequeños cálculos
• Informes rápidos
Por ejemplo, tablas y gráficos de las ventas de los últimos 5 años. Mostrarás qué producto es el más vendido. En qué región estás vendiendo
mas. La tendencia de las ventas a lo largo del tiempo.
Algunas gráficas y tablas bastarán para lograr el objetivo.
Hay dos herramientas que creo que te pueden ayudar en todo esto: Excel y Power BI.
2. Los estudios científicos
Se trata de poder analizar los datos de estudios del mundo de la salud, biólogía, análisis de mercados, etc. Disciplinas científicas que requieran
solucionar problemas como por ejemplo la comparación entre datos de dos, o mas, empresas, de grupos de clientes, explicar fenómenos causa-
efecto etc. Algunas de las características de los estudios científicos.
• Relativamente pocos datos
• Análisis simples sin necesidad de modelos personalizados
• No es necesario la iteración o replicar el cálculo muchas veces
• Son la mayoría de artículos científicos
Por ejemplo, quieres comprobar si el nuevo tratamiento del dolor lumbar con combinación de manipulación estructural y medicación es más
efectivo que el tratamiento sólo con medicación. Se trata de recoger datos de 50 pacientes de cada tratamiento con característica similares y
comprar el efecto antes y después. Ver cuál está funcionando mejor y por qué. En este caso no necesitas demasiados cálculos a realizar.
Solamente los realizarás una vez. Y no necesitas personalizar el cálculo por la dificultad en los datos o el gran volumen. Requieren programas
estadísticos típicos. Son sencillos de manejar. La clave es entender los resultados y qué técnicas aplicar en cada caso. En el mercado existen
herramientas como: SPSS, minitab, RCommander, etc.
3. La ciencia de datos
Son aplicaciones con mayor complejidad. Requieren técnicas avanzadas y generalmente grandes
volúmenes de datos. Es muy importante que seas más flexible y con capacidad para programar.
La repetición de la lectura y/o el cálculo también puede ser crítico. Aquí algunas características
de este tipo de aplicaciones:
• Puede trabajar con grandes volúmenes de datos
• Lectura de datos sea robusta y automatizada(no se introduce a mano)
• Análisis personalizados
• Necesidad de automatizarlos y robustez en el cálculo
• Flexibilidad
Por ejemplo, imagina que quieres analizar los clientes que poseen una tableta y conseguir
clasificarlos en grupos según su intensidad de uso en función de la marca. Las características
que vas a utilizar como por ejemplo el consumo de internet, en diferentes regiones, y por
usuarios diferentes requiere programas de última generación.
Has recogido 650 encuestas y quieres desarrollar un método para encontrar los grupos según el
uso. Es un problema de clustering o segmentación muy interesante.
La ciencia de datos te permite abordar problemas de mayor complejidad y adaptarte muy bien a
los objetivos que te marques.
Herramientas de ciencia de datos: RStudio, Python, Matlab, etc.
Softwares de informes y manejo de datos – reporting rápido
Puedes utilizar o Excel o Power BI.
Excel: es un software con mucho potencial. Es capaz de ayudarte a crear gráficos de forma
rápida y sencilla. Te permite realizar algún que otro cálculo estadístico pero en muchas
ocasiones es limitado. Cuando la complejidad del problema aumenta tienes que recorrer a
utilizar visual basic (programación) que es poco eficiente. Para ordenar datos, crear gráficos
sencillos y filtrar y retocar datos es una herramienta muy potente. Requiere licencia comercial
pero todo el mundo la tiene.
Power BI: es un paso más avanzado que Excel. Es capaz de leer datos de muchas aplicaciones a
tiempo real. El volumen de datos puede ser mucho mayor que Excel. El hacer el informe y la
visualización de resultados es sencillo y flexible pero su complejidad de manejo es mayor pero
las posibilidades son muy grandes. No tiene, por si solo, cálculos estadísticos. Puedes acoplar R
o Python para poder calcular análisis estadísticos. Lo bueno, es que es gratuito.
Para estudios científicos
Se Puede utilizar SPSS, RDeducer, RCommander y Minitab.
• SPSS: es un software verdaderamente excelente. Por su sencillez y posibilidades que brinda. Es muy utilizado
para el mundo de la salud, biología, estudios de mercado e incluso para aplicaciones de ingeniería. Problema,
necesitas licencia comercial.
• RCommander: R es el lenguaje por excelencia de estadística. El problema es que el manejo de R es complejo. De
hecho, el lenguaje R es aplicable a la ciencia de datos. Necesitas aprender a programar y la curva de aprendizaje
es difícil. Para los que no quieran programar y no lo necesiten pueden utilizar RCommander. Una interfaz de
usuario que te ayudará a utilizar muchas de las funcionalidades de R. Puedes adaptar opciones e incluso
personalizar cálculos. El problema es que no es tan “bonito” y intuitivo como SPSS. La parte positiva es gratuita y
trabaja con un lenguaje libre muy potente. Si no tienes licencia de SPSS, es la opción que te recomendada.
• Minitab: es un software al estilo de SPSS. Está por debajo las capacidades con respecto a SPSS.
Para ciencia de datos
Se puede utilizar RStudio, Python y Matlab.
• RStudio: es un verdadero lujo de esta herramienta. Permite utilizar R con una interfaz de usuario que está muy
bien. Además la carga de paquetes de funciones es muy sencilla y fácil de realizar. Las posibilidades de RStudio
son muy grandes. Permite trabajar con R creando scripts de programación para tus datos. Permite trabajar con
fast reporting con RMarkdown y paquetes muy potentes de visualización con plotly y Shiny. Es gratuito y el
universo de científicos que envuelve R es enorme y cada vez con mayor posibilidades.
• Python: dicen los expertos que es la herramienta por excelencia en machine learning. La complejidad es mayor
que R. El uso de la programación es complejo pero muy potente.
• Matlab: una herramienta comercial muy potente, gracias a los paquetes de funcionalidades. Tienes mucha
potencia es muchos campos. Se está extendiendo su uso en grandes empresas en el desarrollo de aplicaciones
en ingeniería. Es especialmente bueno en la disciplina de dinámica de sistemas. No tiene todo el potencial de
técnicas de machine learning y de estadística que se requiere.
En resumen
Técnicas de muestreo de datos
Las técnicas de muestreo son un conjunto de técnicas estadísticas que estudian la forma de seleccionar una muestra
representativa de una población, es decir, que represente lo más fielmente posible a la población a la que se pretende
extrapolar o inferir los resultados de la investigación, asumiendo un error mesurable y determinado. Cuando queremos estudiar
alguna característica de una población para obtener el máximo de información veraz, se nos plantea un problema relacionado
con la elección de los individuos. Puesto que no podemos estudiar a toda la población por varias razones (proceso largo y coste
elevado, entre otros), debemos elegir estudiar una muestra que sea representativa y que nos permita extrapolar los resultados
que obtengamos a la población de referencia.
Sin embargo, debemos considerar que el empleo de técnicas de muestreo implica una serie de ventajas y limitaciones. Entre las
ventajas se incluyen una mayor eficiencia en términos económicos y mayor rapidez de obtención de resultados. Por ejemplo, si
para realizar nuestro estudio necesitamos una muestra de ‘x’ pacientes, considerando que ésta sea representativa de la
población de estudio, y recogemos información acerca de ‘x + 100’, estamos derrochando más dinero y tiempo del necesario. Si
empleamos sólo el tamaño muestral necesario, seleccionando la muestra de manera que represente lo más fielmente posible a
la población, podremos obtener también mayor validez, puesto que el tiempo y dinero ahorrados se podrán emplear en recoger
la información o variables del estudio con mayor precisión y fiabilidad, implicando una mayor validez interna final del estudio.
Por otra parte, entre las limitaciones de las técnicas de muestreo se incluyen los errores que se pueden cometer, como son el
error aleatorio y el error sistemático o sesgo.
Técnicas de muestreo
Como ya hemos mencionado, para que las conclusiones obtenidas a partir de una muestra sean válidas para una población, la
muestra debe haberse seleccionado de forma que sea representativa de la población a la que se pretende aplicar la conclusión.
Sin embargo, no existe un método de muestreo que garantice plenamente que una muestra sea representativa de la población
que sometemos a estudio.
La mejor forma de asegurar la validez de las inferencias es seleccionar la muestra mediante una técnica aleatoria. A este tipo de
muestreo se le denomina muestreo probabilístico y puede definirse como aquel en que todos los datos de la población tienen
una probabilidad de entrar a formar parte de la muestra (normalmente equiprobable, es decir, con la misma probabilidad).
Los diseños en que interviene el azar producen muestras representativas la mayoría de las veces, aunque no garantizan la
representatividad de la población que sometemos a estudio. Aunque en muchos estudios no es posible obtenerla
rigurosamente de esta forma, es importante seleccionarla intentando que sea lo más parecida posible a la población de interés.
En este caso, el muestreo no probabilístico utiliza métodos en que no interviene el azar y por lo tanto, se desconoce la
probabilidad asociada a cada dato para formar parte de la muestra. Normalmente estos métodos se utilizan en estudios
exploratorios o intencionales, en los cuales no es necesario proyectar los resultados. El inconveniente de este método es que no
puede asegurarse la representatividad de la muestra.
Tipos de muestreos
Muestreo aleatorio simple
Se caracteriza porque cada elemento de la población tiene la misma probabilidad de ser escogido para formar parte de la
muestra. Una vez censado el marco de la población, se asigna un número a cada individuo o elemento y se elige
aleatoriamente. La aleatorización puede realizarse mediante listas de números aleatorios generados por ordenador,
aplicándolas para escoger de la población los individuos o sujetos que coincidan con los números obtenidos. Este tipo de
muestreo se caracteriza por su simplicidad y fácil comprensión, aunque también posee algunas limitaciones, ya que no siempre
es posible disponer de un listado de todos los individuos que componen la población, generalmente cuando son poblaciones
grandes. Si se seleccionan muestras pequeñas mediante este método pueden aparecer errores aleatorios, no representando la
muestra adecuadamente a la población. Un ejemplo de muestreo aleatorio simple sería la elección de los individuos a través de
la elección realizada totalmente al azar de un cierto número de DNI.
Muestreo estratificado
En este tipo de muestreo la población de estudio se divide en subgrupos o estratos, escogiendo posteriormente una muestra al
azar de cada estrato. Esta división suele realizarse según una característica que pueda influir sobre los resultados del estudio.
Por ejemplo, en el caso de seleccionar una muestra para evaluar la altura, dada la heterogeneidad entre hombres y mujeres, la
variable de género podría ser una variable de estratificación. Si la estratificación se realiza respecto un carácter se denomina
muestreo estratificado simple, y si se realiza respecto dos o más características se denomina muestreo estratificado compuesto.
Si tenemos constancia o suponemos a priori que la población de estudio presenta variabilidad de respuesta con respecto a
alguna característica propia, deberemos tener en cuenta este tipo de muestreo, dado que se producen estimaciones más
precisas cuanto más homogéneos sean los elementos del estrato y más heterogeneidad exista entre estratos. Así pues, entre las
ventajas de este tipo de muestreo es que tiende a asegurar que la muestra represente adecuadamente a la población en
función de la variable de estratificación seleccionada, sin embargo, debe conocerse la distribución de la población en las
variables de estratificación, clara desventaja de este muestreo.
Para obtener la muestra en cada uno de los estratos pueden aplicarse diferentes fracciones de muestreo, pudiendo ser
proporcional al tamaño en relación a la población, es decir, la distribución se realiza de acuerdo con el peso o tamaño de la
población de cada estrato. Por ejemplo, si de los 5 millones de hipertensos españoles hay un 35% de pacientes que fuman,
podemos estratificar de manera que en nuestra muestra queden representados al igual que en el total de la población, la
misma proporción de hipertensos fumadores (35%) y de no fumadores (65%).
Muestreo sistemático
El muestreo sistemático es muy similar al muestreo aleatorio simple. La diferencia se obtiene en que en este tipo de muestreo
se divide el total de la población de estudio entre el tamaño de la muestra, obteniendo una constante de muestreo (k). La
primera unidad que formará parte de la muestra debe estar entre 1 y k y se elige al azar; a partir de esta unidad se van
seleccionando sistemáticamente uno de los k individuos siguiendo un orden determinado. Por ejemplo, si obtenemos un valor
de k=10 y seleccionamos al azar el número 6, deberíamos elegir todas los casos en que finalizaran en «6»: «006», «016», «026»
.... Es un método de muestreo muy sencillo de realizar y que cuando la población esta ordenada siguiendo una tendencia
conocida, asegura una cobertura de unidades de todos los tipos. La principal limitación es que si la constante se asocia al
fenómeno de interés puede cometerse un sesgo.
Muestreo en etapas múltiples
Consiste en empezar a muestrear por algo que no constituye el objeto de la investigación (unidades primarias), y obtener una
muestra dentro de cada una de ellas (unidades secundarias). Pueden utilizarse sucesivamente tantas etapas como sean
necesarias, y en cada una de ellas, una técnica de muestreo diferente. Este método de muestreo se utiliza cuando la población
de referencia es muy amplia y dispersa, ya que facilita la realización del estudio. Principalmente, el muestreo en etapas
múltiples se utiliza en estudios multicéntricos, donde debemos elegir primero los hospitales y después de haberlos
seleccionado, realizamos el muestreo de pacientes dentro del mismo.
Ventajas y desventajas
Cálculo del tamaño muestral
Para determinar el tamaño muestral necesario para que los resultados de un estudio sean extrapolables a toda la población se deben
considerar diferentes situaciones, en función del objetivo de nuestro estudio: determinación de parámetros y contraste de hipótesis.
En la determinación de parámetros nuestro objetivo será determinar mediante una muestra valores de nuestra población de interés,
por ejemplo, determinar la proporción de pacientes con insuficiencia renal aguda; mientras que en el contraste de hipótesis nuestro
objetivo estará encaminado a evaluar el resultado obtenido en nuestra muestra con respecto a hipótesis previas establecidas, por
ejemplo, si la respuesta de un tratamiento nuevo es igual a la asociada a un tratamiento ya conocido. Veamos dos de las situaciones
más comunes en el cálculo del tamaño muestral.
Determinación de parámetros
Supongamos que se desea hacer inferencia sobre un valor de la población como puede ser una proporción (por ejemplo: la prevalencia
de diabetes en la población) o una media (ejemplo: la media de colesterol en la población).
• Para estimar una proporción
Para estimar una proporción debemos tener una idea aproximada del parámetro que queremos medir. Se puede obtener a partir de
estudios pilotos o una revisión de la literatura. Generalmente, ante la imposibilidad de disponer de información de referencia se utiliza
el valor de 0,5 (50%), proporción con la que se obtiene el tamaño muestral máximo necesario (llamado el criterio de la máxima
indeterminación). Cuando queremos estimar una proporción, debemos elegir la precisión (e) que se quiere obtener para determinar el
parámetro que queremos medir, de manera que ésta sea la oscilación mínima del valor a estimar, o lo que es lo mismo, decir su
intervalo de confianza. El tamaño muestral necesario para la estimación de una proporción se obtendría como:
Cuanto mayor es la precisión deseada, mayor es el tamaño muestral necesario para la estimación del parámetro. En el caso que
la población que se desea estudiar sea finita y con un tamaño conocido (N) se utiliza la fórmula:
Veamos un ejemplo. Pretendemos estudiar la prevalencia de Diabetes Mellitus 2 y no conocemos el valor aproximado de la
proporción de diabéticos en la población. Considerando un nivel de confianza al 95% y una precisión deseada del 6%, la
muestra necesaria para nuestro objetivo sería de:
Si la población de la que pretendemos estudiar la prevalencia de DM en una cierta ciudad, donde viven 20000 habitantes
(población finita), con el mismo nivel de confianza y precisión deseados que en el ejemplo anterior, necesitaríamos una muestra
de:
• Para estimar una media
En el caso de la estimación de una media, como puede ser el media del colesterol, se debe tener una idea de la
varianza (S2 ) de la distribución de la variable. Para la estimación de una media se calcula el tamaño muestral
como:
infinitas finitas
Contraste de hipótesis
En el caso de analizar la muestra mediante un contraste de hipótesis, se precisa conocer la magnitud de la
diferencia a detectar, que tenga un interés relevante (se pueden comparar dos proporciones o dos medias), una
idea aproximada de los parámetros de la variable que se quiere estudiar, el nivel de significación (riesgo de
cometer un error tipo I), el poder estadístico (1- el riesgo de cometer un error tipo II) y la dirección de la hipótesis
alternativa (unilateral o bilateral).
Veamos un ejemplo para la comparación de dos proporciones. Se pretende evaluar un nuevo tratamiento para el
alivio del dolor. Sabemos por datos previos que la eficacia del tratamiento habitual está alrededor del 70% y se
considerará el nuevo fármaco clínicamente relevante si alivia el dolor en un 90%. Fijamos el riesgo en 0,05 y
deseamos un poder estadístico del 80%

Tema 6

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Tema 6

Cargado por

Copyright:

Formatos disponibles

Tema 6: Organización, estructuración y despliegue de los datos: etapas, metodologías y riesgos.

Recoger todas las cosas

Datos y bases de datos

Si el ROI es elevado, estos datospueden elevar lso Buenas APIs que

También podría gustarte