Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Combinar datos maestros puede ser muy difícil. El mismo cliente puede tener diferentes nombres, números de cliente,
direcciones y números de teléfono, en diferentes bases de datos. Por ejemplo, Francisco Jiménez podría aparecer como Fran
Jiménez, Francisco Giménez o Fran Giménez. Las combinaciones de base de datos y búsquedas no podrán resolver esas
diferencias. Puede que sea necesaria una herramienta sofisticada que entienda los apodos, las ortografías alternativas y los
errores de mecanografía. Esa herramienta probablemente también tendrá que reconocer que se pueden resolver diferentes
variaciones de un nombre si todos vienen en una misma dirección o tienen el mismo número de teléfono. Aunque la creación
de un fichero de datos maestros limpio puede ser un desafío desalentador, son muchos los beneficios de crear un fichero
maestro común:
• Una sola factura consolidada ahorra dinero y mejora la satisfacción del cliente.
• Enviar varias veces la misma información de marketing a un cliente que aparece en múltiples bases de datos es perder dinero
e irritar al cliente.
• Antes de enviar una cuenta de cliente a una compañía de gestión de cobros sería bueno saber si debe más dinero en otras
partes de la empresa, o lo que es más importante, si resulta ser el cliente más importante de otra división o delegación.
• Almacenar el mismo artículo con diferentes part numbers no sólo puede llevar a un desperdicio de dinero y espacio en los
estantes sino que puede conducir potencialmente a una escasez artificial.
Algunas veces una petición puede ir a una cola ya que hay un
Prioridad Razón Explicación cliente que se queja, o una API que de forma sencilla lleva los
datos arriba y abajo. Si la fuente de los datos te deja KO por la
Los datos son tarde, durante un día o dos, y tienen un valor demonstrable,
verdaderamente Si es una necesidad genuine para los negocios, es Media Fácil Pull-Down puedde ser lo peor que te pase.
Alta urgentes necesario servir a los clients internos lo antes possible.
Equipos multiples de la
empresa necesitan los El ROI puede ser elevado si podemos satisfacer a los
Alta datos distintos negocios de forma simultanea. Los analistas Si los analistas tienen algún tipo de acceso a los datos, y si es
tienen acceso a atraves de sitios inusuales como un cliente, exportandolos a un
Algunos datos transmitidos de las redes sociales, algunos datos y csv, entonces no tienen mucha prioridad. La empresa debería
Los datos son efímeros o mediante APIs o aparatos hardaware, solo nos permiten Baja una solución tener acceso a otros datos que aporten valor.
Alta transmitidos una vez ver una ventana de tiempo, y si no los datos se pierden.
Datos de baja Si hay poca confianza en la calidad de los datos, tendrán poco
Baja calidad valor y serán inproductivos.
Aumentan los datos Hay nuevos datos que aumentan los existentes y que
Media existen generando valor aumentan el valor del conjunto. Las copias de pantalla es una forma de tener información de la
web, aunque los propietarios de las webs cambian
Los ingenieros de datos Si el equipo tiene alguna familiarización con los datos, o si Los datos tienden constantemente sus pantallas, no son estructurados, su proceso
pueden reutilizer los sus APIs pueden reutilizarse, pueden tener menos a elimianarse de es complejo, son frágiles y requieren muchos gasto de
Media datos ya procesados desconocimentos y sorpresas. Baja pantalla almacenamiento.
Baja probabilidad
de que se usen los
Baja datos Si no aportan nada al ROI, está claro.
Fiabilidad y validez de los datos
Si los datos son malos las decisiones que se tomen serán malas.
En una situación, el diseño de un modelo de un sistema de distribución se hace con datos obtenidos de un departamento de finanzas
corporativas. Los costes del transporte se obtuvieron mediante una formula en función de la longitud y latitud de las delegaciones y los clientes.
Pero cuando se presentó el resultado del sistema de información geográfico , un cliente estaba en medio del océano atlántico. Por lo tanto los
datos y fórmulas o algoritmos que se utilicen necesitan ser fiables y válidos.
Fiabilidad del dato significa que tiene precisión
Validez del dato significa que esté correctamente medido y su medida sea real
Por ejemplo, si las lecturas de un sistema de medida de presión de neumáticos, mide decenas de psi por debajo del valor real, sus medidas no
son fiables, aunque esté haciendo su cometido bien.
Por ejemplo, el número de llamadas a un cliente se puede medir de forma correcta, y es un dato fiable, pero no será valido si es para seguir
quejas de los clientes donde algunas llamadas pueden ser simples consultas.
Finalmente, una pregunta de una encuesta que pide a los clientes valorar la calidad de la comida de un restaurante, puede no ser fiable, porque
los clientes pueden tener distintos gustos y percepciones, y tampoco es válida, si la satisfacción del cliente puede incluir la valoración del
servicio de los camareros o el local.
Incertidumbre y Riesgo
Como todos sabemos, el futuro siempre es incierto. Así, muchos modelos predictivos incorporan incertidumbre y hay que ayudar a los
tomadores de decisiones a analizar los riesgos asociados con sus decisiones. Incertidumbre es un conocimiento imperfecto de lo que sucederá.
El riesgo está asociado con las consecuencias y la probabilidad de lo que pueda pasar. Por ejemplo, el cambio en el precio de las acciones de
Apple al día siguiente en la bolsa es incierto. Sin embargo, si posee acciones de Apple, entonces corre el riesgo de perder dinero si el precio de
las acciones cae. Si no posee ninguna acción, el precio aún es incierto, aunque No tiene ningún riesgo.
El riesgo es evaluado por la magnitud de las consecuencias y la probabilidad de que se produjeran. Por
ejemplo, una caída del 10% en el precio de las acciones incurriría en un mayor riesgo si tenemos 1
millón, que si solo fuera dueño de 1.000. Del mismo modo, si las posibilidades de una caída del 10% eran
1 en 5, el riesgo sería mayor que si las probabilidades fueran solo de 1 en 100.
La importancia del riesgo en los negocios ha sido reconocida mucho tiempo. Peter Drucker, observó en
1974: “tratar de eliminar el riesgo en las empresas es inútil. El riesgo es inherente al compromiso. De los
recursos actuales a las expectativas futuras. De hecho, el progreso económico puede definirse como la
capacidad de asumir mayores riesgos. El intento de eliminar riesgos, incluso tratar de minimizarlos, solo
puede hacerlos irracionales e insoportables. Solo puede que el resultado sea mayor riesgo de todos: la
rigidez.La consideración del riesgo es un elemento vital en la toma de decisiones. Por ejemplo, lo harías,
probablemente, no elegir una inversión simplemente en función del rendimiento que pueda esperar,
porque, normalmente, los rendimientos más altos están asociados con un mayor riesgo. Por lo tanto,
tienes que haga una compensación entre los beneficios de mayores recompensas y los riesgos de
pérdidas potenciales. Los modelos analíticos pueden ayudar a evaluar esto.
La medida del riesgo
Habiendo ya identificado y clasificados los riesgos de los datos, pasamos a realizar el análisis de los
mismos, es decir, se estudian la posibilidad y las consecuencias de cada factor de riesgo con el fin de
establecer el nivel de riesgo de nuestro proyecto.
El análisis de los riesgos determinará cuáles son los factores de riesgo que potencialmente tendrían un
mayor efecto sobre nuestro proyecto y, por lo tanto, deben ser gestionados por un experto con mucha
experiencia en datos.
La incertidumbre
La evolución económica se halla en un contexto cambiante y las decisiones que se tienen que tomar son cada vez más complejas como
consecuencia de la “incertidumbre” en el transcurso de los acontecimientos.
Se puede afirmar que:
• Las leyes cambian constantemente las reglas del juego.
• Las influencias económicas externas modifican las expectativas de las empresas.
• La tecnología exige variar cada vez con mayor rapidez los sistemas productivos y de distribución en las empresas.
Estos y más elementos hacen que las técnicas de gestión están modificándose a mayor velocidad para adaptarse a la nueva
situación del entorno económico.
El hecho de hacer una formulación que tenga una visión restringida, para medir la incertidumbre, obliga a elegir entre realizar desde el
inicio una selección de elementos a considerar para poder operar después con un instrumento preciso, o bien captar la realidad con
toda la imprecisión y operar con estas informaciones “borrosas”, sabiendo que los resultados obtenidos serán de manera imprecisa. La
decisión se reduce a elegir entre un modelo preciso pero que no refleja totalmente la realidad y un modelo vago pero más preciso a la
realidad.
La principal herramienta matemática para el tratamiento de la incertidumbre es la teoría de lo borroso y de la valuación con sus
muchas variantes, mientras que la relativa al azar es la teoría de las probabilidades.
Se pueden utilizar las palabras azar, aleatorio, estocástico… para aquellas situaciones en las que se dispone y son aceptables las leyes de
la probabilidad. En caso contrario, será necesario utilizar las palabras de incierto, incertidumbre, imprecisión, o borrosidad. Pero, el azar
es la incertidumbre estructurada, medible a través de un razonamiento lógico y / o estadístico.
Ahora bien, en los problemas reales se encuentra datos blandos y datos duros, es decir, lo borroso y lo aleatorio. Sabemos asociar
perfectamente, aunque desde hace relativamente poco tiempo, estos datos de naturaleza distinta.
Nos podemos preguntar por qué ahora existe un mayor interés por el tratamiento de la incertidumbre. La respuesta es porque resulta
cada vez más difícil obtener secuencias de datos suficientemente estables, estacionarios e incluso significativos.
Se puede considerar cinco tipos de modelos relativos a los distintos niveles de información:
• Modelo no determinista con estados desconocidos.
• Modelo no determinista con estados conocidos pero con eventos no valuables.
• Modelo no determinista con estados conocidos y eventos valuables pero no medibles.
• Modelo no determinista con estados conocidos y con eventos medibles.
• Modelo determinista.
En los estudios realizados de gestión, se realizan procesos de modelización intentando llegar del nivel 1 al nivel 5, pero la
situación económica, hace que los estudios debían pararse en niveles bajos. Es por esto que se ha recurrido a la más general de
las teorías capaces de describir ambientes inciertos “la teoría de los subconjuntos borrosos”. La formalización de la
incertidumbre, tomando la partida en los conceptos borrosos, ha dado lugar a distintas maneras de pensar que reúne el
razonamiento secuencial y la riqueza de la imaginación, asociando las posibilidades secuenciales de las máquinas con las
posibilidades del cerebro humano.
El subconjunto borroso
El significado de la palabra conjunto es simple. Se trata de un grupo de objetos, físicos o mentales, diferentes los unos de los
otros, los cuales están especificados. Tomando como referencia un conjunto se puede considerar una casi infinita cantidad de
subconjuntos. Un subconjunto de un conjunto no comprende forzosamente la totalidad de sus objetos aunque, en ciertas
ocasiones, se admite que un conjunto es un subconjunto de sí mismo. Al conjunto de referencia se le acostumbra a denominar
“conjunto referencial”.
A modo coloquial, estos conceptos básicos, vamos a verlos sus posibles significados. Por ejemplo, el grupo de personas que
forman un mercado potencial para los productos de una empresa constituyen el conjunto de posibles compradores. A partir de
ahora, todo cuanto estudia nuestra empresa tiene como referencia estos posibles compradores, a este conjunto se le puede
llamar “conjunto referencial”.
C. Conjunto de consumidores potenciales Pedro, Paula, Óscar, David, Isabel, Marta, Ana e Ignacio.
Conjunto de referencia E=(Pedro, Paula, Óscar, David, Isabel, Marta, Ana, Ignacio)
De este conjunto se pueden hacer subconjuntos, que representen alguna cualidad o singularidad, por
ejemplo, uno que se r para altas rentas, y otro que sea p para propietarios de inmuebles:
R=(Pedro, David, Ignacio, Isabel, Ana)
P=(Pedro, Marta, Ignacio, Ana)
Ahora establecemos un conjunto de características que tengan que ver con el objeto a determinar: riqueza,
propiedad inmobiliaria, estatura, laboriosidad, belleza, e inteligencia.
Este nuevo conjunto de características será C=(riqueza, propiedad inmobiliaria, estatura, laboriosidad, belleza,
inteligencia)
Ahora podemos tomar un elemento de E y ver posee de C:
Pedro, P=(riqueza, propiedad inmobiliaria, estatura, inteligencia) o
Marta, M= (propiedad inmobiliaria, laboriosidad, belleza, e inteligencia)
Ahora, podríamos asignar valores de tiene, 1, o no tiene, 0, para ver si un miembro tiene o no una
característica de C o ver que tiene cada miembro
p pa o d i m a i
riqueza
1 0 1 0 1 1 0 1
r pi e l b i
pedro 1 1 0 0 0 1
Vemos que podríamos hacer muchos subconjuntos, pero ahora vamos a matizar los valores extremos de 0 y 1, a
valores mas reales y muestren mejor esa relación
p pa o d i m a i
riqueza 0,8 0,2 0,7 0,1 0,8 0,9 0,3 0,8
p pa o d i m a i
pro. Inmob 0,5 0 0,9 0,3 0,7 0,8 0,2 0,7
Y también:
r pi e l b i
pedro
0,5 0,7 0,3 0,2 0,4 0,9
r pi e l b i
paula 0,6 0,5 0,2 0,1 0,2 0,8
Ahora aplicamos la distancia de Hamming, haciendo la diferencia entre los niveles de lo que uno
u otro posee, ya que trata de ver si dos personas tienen parecido dentro del grupo, como son
distancias lo hacemos en valor absoluto:
d(P,Pa)= (0,5-0,6)+(0,7-0,5)+(0,3-0,2)+(0,2-0,1)+(0,4-0,2)+(0,9-0,8)= 0,8
Este valor no es muy representativo porque está influenciado por las características que hemos
elegido, entonces tenemos que hacer la distancia relativa de Hamming, que se hace dividiendo
la distancia total por el número de elementos considerados:
dist rel= 0,8/6= 0,13
0,13 es la distancia que hay entre Pedro y Paula, pero si lo que queremos ver es la proximidad
haríamos 1-0,13= 0,87, es decir son personas que están muy próximas.
La distancia de Hamming se denomina así gracias a su inventor Richard Hamming, profesor de la
Universidad de Nebraska, que fue el que introdujo el término para establecer una métrica capaz
de establecer un código para la detección y auto-corrección de códigos. Se emplea en la
transmisión de información digitalizada para contar el número de desvíos en cadenas de igual
longitud y estimar el error, por esto se denomina a veces como distancia de señal.
Se ha adaptado a la lógica difusa de datos, pudiendo utilzarla, como hemos hecho, para
establecer relaciones entre datos.
El análisis y las hojas de cálculo
Imaginemos que sólo necesitamos presentar algunos tablas de porcentajes y algunos gráficos de las
ventas de los últimos 5 años. Fácil, ¿verdad? O por el contrario, necesitas construir modelos predictivos
capaces de predecir las subidas de stocks en los próximos 10 días según históricos de datos de 10 años.
Estaremos de acuerdo, que la dificultad de este segundo caso es mucho mayor que la del primer caso.
Por lo tanto las aplicaciones de software no son igualmente útiles dependiendo del propósito de cálculo
y presentación de los resultados.
Según la dificultad y complejidad de los problemas podemos dividirlos en tres:
1. Caso General: el informe rápido y resumen de datos (hojas de cálculo)
Podemos utilizar hojas de cálculo para poder tabular los resultados y presentar sencillos gráficos descriptivos.
• Representar gráficos
• Crear tablas resumen
• Pequeños cálculos
• Informes rápidos
Por ejemplo, tablas y gráficos de las ventas de los últimos 5 años. Mostrarás qué producto es el más vendido. En qué región estás vendiendo
mas. La tendencia de las ventas a lo largo del tiempo.
Algunas gráficas y tablas bastarán para lograr el objetivo.
Hay dos herramientas que creo que te pueden ayudar en todo esto: Excel y Power BI.
2. Los estudios científicos
Se trata de poder analizar los datos de estudios del mundo de la salud, biólogía, análisis de mercados, etc. Disciplinas científicas que requieran
solucionar problemas como por ejemplo la comparación entre datos de dos, o mas, empresas, de grupos de clientes, explicar fenómenos causa-
efecto etc. Algunas de las características de los estudios científicos.
• Relativamente pocos datos
• Análisis simples sin necesidad de modelos personalizados
• No es necesario la iteración o replicar el cálculo muchas veces
• Son la mayoría de artículos científicos
Por ejemplo, quieres comprobar si el nuevo tratamiento del dolor lumbar con combinación de manipulación estructural y medicación es más
efectivo que el tratamiento sólo con medicación. Se trata de recoger datos de 50 pacientes de cada tratamiento con característica similares y
comprar el efecto antes y después. Ver cuál está funcionando mejor y por qué. En este caso no necesitas demasiados cálculos a realizar.
Solamente los realizarás una vez. Y no necesitas personalizar el cálculo por la dificultad en los datos o el gran volumen. Requieren programas
estadísticos típicos. Son sencillos de manejar. La clave es entender los resultados y qué técnicas aplicar en cada caso. En el mercado existen
herramientas como: SPSS, minitab, RCommander, etc.
3. La ciencia de datos
Son aplicaciones con mayor complejidad. Requieren técnicas avanzadas y generalmente grandes
volúmenes de datos. Es muy importante que seas más flexible y con capacidad para programar.
La repetición de la lectura y/o el cálculo también puede ser crítico. Aquí algunas características
de este tipo de aplicaciones:
• Puede trabajar con grandes volúmenes de datos
• Lectura de datos sea robusta y automatizada(no se introduce a mano)
• Análisis personalizados
• Necesidad de automatizarlos y robustez en el cálculo
• Flexibilidad
Por ejemplo, imagina que quieres analizar los clientes que poseen una tableta y conseguir
clasificarlos en grupos según su intensidad de uso en función de la marca. Las características
que vas a utilizar como por ejemplo el consumo de internet, en diferentes regiones, y por
usuarios diferentes requiere programas de última generación.
Has recogido 650 encuestas y quieres desarrollar un método para encontrar los grupos según el
uso. Es un problema de clustering o segmentación muy interesante.
La ciencia de datos te permite abordar problemas de mayor complejidad y adaptarte muy bien a
los objetivos que te marques.
Herramientas de ciencia de datos: RStudio, Python, Matlab, etc.
Softwares de informes y manejo de datos – reporting rápido
Puedes utilizar o Excel o Power BI.
Excel: es un software con mucho potencial. Es capaz de ayudarte a crear gráficos de forma
rápida y sencilla. Te permite realizar algún que otro cálculo estadístico pero en muchas
ocasiones es limitado. Cuando la complejidad del problema aumenta tienes que recorrer a
utilizar visual basic (programación) que es poco eficiente. Para ordenar datos, crear gráficos
sencillos y filtrar y retocar datos es una herramienta muy potente. Requiere licencia comercial
pero todo el mundo la tiene.
Power BI: es un paso más avanzado que Excel. Es capaz de leer datos de muchas aplicaciones a
tiempo real. El volumen de datos puede ser mucho mayor que Excel. El hacer el informe y la
visualización de resultados es sencillo y flexible pero su complejidad de manejo es mayor pero
las posibilidades son muy grandes. No tiene, por si solo, cálculos estadísticos. Puedes acoplar R
o Python para poder calcular análisis estadísticos. Lo bueno, es que es gratuito.
Para estudios científicos
Se Puede utilizar SPSS, RDeducer, RCommander y Minitab.
• SPSS: es un software verdaderamente excelente. Por su sencillez y posibilidades que brinda. Es muy utilizado
para el mundo de la salud, biología, estudios de mercado e incluso para aplicaciones de ingeniería. Problema,
necesitas licencia comercial.
• RCommander: R es el lenguaje por excelencia de estadística. El problema es que el manejo de R es complejo. De
hecho, el lenguaje R es aplicable a la ciencia de datos. Necesitas aprender a programar y la curva de aprendizaje
es difícil. Para los que no quieran programar y no lo necesiten pueden utilizar RCommander. Una interfaz de
usuario que te ayudará a utilizar muchas de las funcionalidades de R. Puedes adaptar opciones e incluso
personalizar cálculos. El problema es que no es tan “bonito” y intuitivo como SPSS. La parte positiva es gratuita y
trabaja con un lenguaje libre muy potente. Si no tienes licencia de SPSS, es la opción que te recomendada.
• Minitab: es un software al estilo de SPSS. Está por debajo las capacidades con respecto a SPSS.
Para ciencia de datos
Se puede utilizar RStudio, Python y Matlab.
• RStudio: es un verdadero lujo de esta herramienta. Permite utilizar R con una interfaz de usuario que está muy
bien. Además la carga de paquetes de funciones es muy sencilla y fácil de realizar. Las posibilidades de RStudio
son muy grandes. Permite trabajar con R creando scripts de programación para tus datos. Permite trabajar con
fast reporting con RMarkdown y paquetes muy potentes de visualización con plotly y Shiny. Es gratuito y el
universo de científicos que envuelve R es enorme y cada vez con mayor posibilidades.
• Python: dicen los expertos que es la herramienta por excelencia en machine learning. La complejidad es mayor
que R. El uso de la programación es complejo pero muy potente.
• Matlab: una herramienta comercial muy potente, gracias a los paquetes de funcionalidades. Tienes mucha
potencia es muchos campos. Se está extendiendo su uso en grandes empresas en el desarrollo de aplicaciones
en ingeniería. Es especialmente bueno en la disciplina de dinámica de sistemas. No tiene todo el potencial de
técnicas de machine learning y de estadística que se requiere.
En resumen
Técnicas de muestreo de datos
Las técnicas de muestreo son un conjunto de técnicas estadísticas que estudian la forma de seleccionar una muestra
representativa de una población, es decir, que represente lo más fielmente posible a la población a la que se pretende
extrapolar o inferir los resultados de la investigación, asumiendo un error mesurable y determinado. Cuando queremos estudiar
alguna característica de una población para obtener el máximo de información veraz, se nos plantea un problema relacionado
con la elección de los individuos. Puesto que no podemos estudiar a toda la población por varias razones (proceso largo y coste
elevado, entre otros), debemos elegir estudiar una muestra que sea representativa y que nos permita extrapolar los resultados
que obtengamos a la población de referencia.
Sin embargo, debemos considerar que el empleo de técnicas de muestreo implica una serie de ventajas y limitaciones. Entre las
ventajas se incluyen una mayor eficiencia en términos económicos y mayor rapidez de obtención de resultados. Por ejemplo, si
para realizar nuestro estudio necesitamos una muestra de ‘x’ pacientes, considerando que ésta sea representativa de la
población de estudio, y recogemos información acerca de ‘x + 100’, estamos derrochando más dinero y tiempo del necesario. Si
empleamos sólo el tamaño muestral necesario, seleccionando la muestra de manera que represente lo más fielmente posible a
la población, podremos obtener también mayor validez, puesto que el tiempo y dinero ahorrados se podrán emplear en recoger
la información o variables del estudio con mayor precisión y fiabilidad, implicando una mayor validez interna final del estudio.
Por otra parte, entre las limitaciones de las técnicas de muestreo se incluyen los errores que se pueden cometer, como son el
error aleatorio y el error sistemático o sesgo.
Técnicas de muestreo
Como ya hemos mencionado, para que las conclusiones obtenidas a partir de una muestra sean válidas para una población, la
muestra debe haberse seleccionado de forma que sea representativa de la población a la que se pretende aplicar la conclusión.
Sin embargo, no existe un método de muestreo que garantice plenamente que una muestra sea representativa de la población
que sometemos a estudio.
La mejor forma de asegurar la validez de las inferencias es seleccionar la muestra mediante una técnica aleatoria. A este tipo de
muestreo se le denomina muestreo probabilístico y puede definirse como aquel en que todos los datos de la población tienen
una probabilidad de entrar a formar parte de la muestra (normalmente equiprobable, es decir, con la misma probabilidad).
Los diseños en que interviene el azar producen muestras representativas la mayoría de las veces, aunque no garantizan la
representatividad de la población que sometemos a estudio. Aunque en muchos estudios no es posible obtenerla
rigurosamente de esta forma, es importante seleccionarla intentando que sea lo más parecida posible a la población de interés.
En este caso, el muestreo no probabilístico utiliza métodos en que no interviene el azar y por lo tanto, se desconoce la
probabilidad asociada a cada dato para formar parte de la muestra. Normalmente estos métodos se utilizan en estudios
exploratorios o intencionales, en los cuales no es necesario proyectar los resultados. El inconveniente de este método es que no
puede asegurarse la representatividad de la muestra.
Tipos de muestreos
Muestreo aleatorio simple
Se caracteriza porque cada elemento de la población tiene la misma probabilidad de ser escogido para formar parte de la
muestra. Una vez censado el marco de la población, se asigna un número a cada individuo o elemento y se elige
aleatoriamente. La aleatorización puede realizarse mediante listas de números aleatorios generados por ordenador,
aplicándolas para escoger de la población los individuos o sujetos que coincidan con los números obtenidos. Este tipo de
muestreo se caracteriza por su simplicidad y fácil comprensión, aunque también posee algunas limitaciones, ya que no siempre
es posible disponer de un listado de todos los individuos que componen la población, generalmente cuando son poblaciones
grandes. Si se seleccionan muestras pequeñas mediante este método pueden aparecer errores aleatorios, no representando la
muestra adecuadamente a la población. Un ejemplo de muestreo aleatorio simple sería la elección de los individuos a través de
la elección realizada totalmente al azar de un cierto número de DNI.
Muestreo estratificado
En este tipo de muestreo la población de estudio se divide en subgrupos o estratos, escogiendo posteriormente una muestra al
azar de cada estrato. Esta división suele realizarse según una característica que pueda influir sobre los resultados del estudio.
Por ejemplo, en el caso de seleccionar una muestra para evaluar la altura, dada la heterogeneidad entre hombres y mujeres, la
variable de género podría ser una variable de estratificación. Si la estratificación se realiza respecto un carácter se denomina
muestreo estratificado simple, y si se realiza respecto dos o más características se denomina muestreo estratificado compuesto.
Si tenemos constancia o suponemos a priori que la población de estudio presenta variabilidad de respuesta con respecto a
alguna característica propia, deberemos tener en cuenta este tipo de muestreo, dado que se producen estimaciones más
precisas cuanto más homogéneos sean los elementos del estrato y más heterogeneidad exista entre estratos. Así pues, entre las
ventajas de este tipo de muestreo es que tiende a asegurar que la muestra represente adecuadamente a la población en
función de la variable de estratificación seleccionada, sin embargo, debe conocerse la distribución de la población en las
variables de estratificación, clara desventaja de este muestreo.
Para obtener la muestra en cada uno de los estratos pueden aplicarse diferentes fracciones de muestreo, pudiendo ser
proporcional al tamaño en relación a la población, es decir, la distribución se realiza de acuerdo con el peso o tamaño de la
población de cada estrato. Por ejemplo, si de los 5 millones de hipertensos españoles hay un 35% de pacientes que fuman,
podemos estratificar de manera que en nuestra muestra queden representados al igual que en el total de la población, la
misma proporción de hipertensos fumadores (35%) y de no fumadores (65%).
Muestreo sistemático
El muestreo sistemático es muy similar al muestreo aleatorio simple. La diferencia se obtiene en que en este tipo de muestreo
se divide el total de la población de estudio entre el tamaño de la muestra, obteniendo una constante de muestreo (k). La
primera unidad que formará parte de la muestra debe estar entre 1 y k y se elige al azar; a partir de esta unidad se van
seleccionando sistemáticamente uno de los k individuos siguiendo un orden determinado. Por ejemplo, si obtenemos un valor
de k=10 y seleccionamos al azar el número 6, deberíamos elegir todas los casos en que finalizaran en «6»: «006», «016», «026»
.... Es un método de muestreo muy sencillo de realizar y que cuando la población esta ordenada siguiendo una tendencia
conocida, asegura una cobertura de unidades de todos los tipos. La principal limitación es que si la constante se asocia al
fenómeno de interés puede cometerse un sesgo.
Muestreo en etapas múltiples
Consiste en empezar a muestrear por algo que no constituye el objeto de la investigación (unidades primarias), y obtener una
muestra dentro de cada una de ellas (unidades secundarias). Pueden utilizarse sucesivamente tantas etapas como sean
necesarias, y en cada una de ellas, una técnica de muestreo diferente. Este método de muestreo se utiliza cuando la población
de referencia es muy amplia y dispersa, ya que facilita la realización del estudio. Principalmente, el muestreo en etapas
múltiples se utiliza en estudios multicéntricos, donde debemos elegir primero los hospitales y después de haberlos
seleccionado, realizamos el muestreo de pacientes dentro del mismo.
Ventajas y desventajas
Cálculo del tamaño muestral
Para determinar el tamaño muestral necesario para que los resultados de un estudio sean extrapolables a toda la población se deben
considerar diferentes situaciones, en función del objetivo de nuestro estudio: determinación de parámetros y contraste de hipótesis.
En la determinación de parámetros nuestro objetivo será determinar mediante una muestra valores de nuestra población de interés,
por ejemplo, determinar la proporción de pacientes con insuficiencia renal aguda; mientras que en el contraste de hipótesis nuestro
objetivo estará encaminado a evaluar el resultado obtenido en nuestra muestra con respecto a hipótesis previas establecidas, por
ejemplo, si la respuesta de un tratamiento nuevo es igual a la asociada a un tratamiento ya conocido. Veamos dos de las situaciones
más comunes en el cálculo del tamaño muestral.
Determinación de parámetros
Supongamos que se desea hacer inferencia sobre un valor de la población como puede ser una proporción (por ejemplo: la prevalencia
de diabetes en la población) o una media (ejemplo: la media de colesterol en la población).
• Para estimar una proporción
Para estimar una proporción debemos tener una idea aproximada del parámetro que queremos medir. Se puede obtener a partir de
estudios pilotos o una revisión de la literatura. Generalmente, ante la imposibilidad de disponer de información de referencia se utiliza
el valor de 0,5 (50%), proporción con la que se obtiene el tamaño muestral máximo necesario (llamado el criterio de la máxima
indeterminación). Cuando queremos estimar una proporción, debemos elegir la precisión (e) que se quiere obtener para determinar el
parámetro que queremos medir, de manera que ésta sea la oscilación mínima del valor a estimar, o lo que es lo mismo, decir su
intervalo de confianza. El tamaño muestral necesario para la estimación de una proporción se obtendría como:
Cuanto mayor es la precisión deseada, mayor es el tamaño muestral necesario para la estimación del parámetro. En el caso que
la población que se desea estudiar sea finita y con un tamaño conocido (N) se utiliza la fórmula:
Veamos un ejemplo. Pretendemos estudiar la prevalencia de Diabetes Mellitus 2 y no conocemos el valor aproximado de la
proporción de diabéticos en la población. Considerando un nivel de confianza al 95% y una precisión deseada del 6%, la
muestra necesaria para nuestro objetivo sería de:
Si la población de la que pretendemos estudiar la prevalencia de DM en una cierta ciudad, donde viven 20000 habitantes
(población finita), con el mismo nivel de confianza y precisión deseados que en el ejemplo anterior, necesitaríamos una muestra
de:
• Para estimar una media
En el caso de la estimación de una media, como puede ser el media del colesterol, se debe tener una idea de la
varianza (S2 ) de la distribución de la variable. Para la estimación de una media se calcula el tamaño muestral
como:
infinitas finitas
Contraste de hipótesis
En el caso de analizar la muestra mediante un contraste de hipótesis, se precisa conocer la magnitud de la
diferencia a detectar, que tenga un interés relevante (se pueden comparar dos proporciones o dos medias), una
idea aproximada de los parámetros de la variable que se quiere estudiar, el nivel de significación (riesgo de
cometer un error tipo I), el poder estadístico (1- el riesgo de cometer un error tipo II) y la dirección de la hipótesis
alternativa (unilateral o bilateral).
Veamos un ejemplo para la comparación de dos proporciones. Se pretende evaluar un nuevo tratamiento para el
alivio del dolor. Sabemos por datos previos que la eficacia del tratamiento habitual está alrededor del 70% y se
considerará el nuevo fármaco clínicamente relevante si alivia el dolor en un 90%. Fijamos el riesgo en 0,05 y
deseamos un poder estadístico del 80%