Está en la página 1de 46

HOGAR | ENTREGAR

| PREGUNTAS MÁS FRECUENTES


| BLOG | ALERTAS / RSS
| ACERCA DE | CANALES

Buscar 
Búsqueda Avanzada

bioRxiv publica muchos documentos relacionados con COVID19. Un recordatorio: no han sido revisados ​
formalmente por pares y no deben guiar el comportamiento relacionado con la salud ni informarse en la
prensa como concluyentes.

Nuevos resultados Siga esta preimpresión

Las neuronas in vitro aprenden y exhiben sensibilidad cuando se encarnan en un


mundo de juego simulado

 Brett J. Kagan , Andy C. Cocina , Nhi T. Tran , Bradyn J. Parker , Anjali Bhat , Ben Rollo , Adeel Razi
, Karl J. Friston
doi: https://doi.org/10.1101/2021.12.02.471005
Ahora publicado en Neuron doi: 10.1016/j.neuron.2022.09.001

0 0 0 0  75 0  307

Abstracto Texto completo Información/Historia Métrica

Previsualizar
PDF

Abstracto

La integración de neuronas en sistemas digitales para aprovechar su inteligencia innata puede permitir
un rendimiento que no es factible solo con silicio, además de proporcionar información sobre el origen
celular de la inteligencia. Desarrollamos DishBrain , un sistema que exhibe inteligencia natural al
aprovechar la computación adaptativa inherente de las neuronas en un entorno estructurado. Las redes
neuronales in vitro de origen humano o de roedores se integran con in silicocomputación a través de una
matriz multielectrodo de alta densidad. A través de la estimulación y el registro electrofisiológicos, las
culturas se integraron en un mundo de juego simulado, imitando el juego de arcade 'Pong'. Aplicando
una teoría de inferencia activa previamente no comprobable a través del Principio de energía libre,
descubrimos que el aprendizaje era evidente dentro de los cinco minutos de juego en tiempo real, no
observado en condiciones de control. Otros experimentos demuestran la importancia de la
retroalimentación estructurada de circuito cerrado para obtener aprendizaje a lo largo del tiempo. Las
culturas muestran la capacidad de autoorganizarse de una manera dirigida a un objetivo en respuesta a
la escasa información sensorial sobre las consecuencias de sus acciones.
Aprovechar el poder computacional de las neuronas vivas para crear inteligencia biológica sintética
(SBI), antes confinada al ámbito de la ciencia ficción, ahora está tentadoramente al alcance de la
innovación humana. La superioridad de la computación biológica ha sido ampliamente reconocida con
los intentos de desarrollar hardware compatible con la computación neuromórfica 1 . Sin embargo,
ningún sistema fuera de las neuronas biológicas es capaz de soportar al menos una complejidad de
tercer orden que es necesaria para recrear la complejidad de una red neuronal biológica (BNN) 1 , 2 . Esto
plantea desafíos importantes para cualquier intento de generar modelos neuronales in silico para
predecir la función de los sistemas BNN 3 . Aquí nuestro objetivo es establecer funcionesredes in vitro
de células corticales de roedores embrionarios y células madre pluripotentes inducidas por humanos
(hiPSC) en conjuntos de electrodos múltiples de alta densidad (HD-MEA) para demostrar que estos
cultivos neuronales pueden exhibir inteligencia biológica, como lo demuestra el aprendizaje en un
entorno de juego simulado. en tiempo real ( Figura 1). Ser capaz de interactuar con éxito con los SBI
permitiría investigaciones en áreas que antes no se podían probar. Esto incluiría, entre otras, respuestas
pseudocognitivas como parte de la detección de drogas, cerrando la brecha entre los enfoques de
codificación de una sola célula y de población para comprender la neurobiología, comprender mejor
cómo los BNN calculan para informar los enfoques de aprendizaje automático y potencialmente dar
lugar a silico -plataformas informáticas biológicas que superan el rendimiento del hardware de silicio
solo existente. De hecho, algunos proponentes sugieren que la SBI generalizada puede llegar antes que
la inteligencia artificial general (AGI) debido a la eficiencia inherente y la ventaja evolutiva de los
sistemas biológicos 4 .
Figura 1

Sistema DishBrain y esquema del protocolo experimental.


Los cultivos neuronales derivados de células madre pluripotentes inducidas por humanos (iPSC) a través de la inhibición
Dual SMAD, la diferenciación dirigida por el lentivirus NGN2 o las células corticales primarias de embriones de ratón E15.5
se sembraron en chips HD-MEA y se incrustaron en un mundo de juego estimulado de 'pong' a través del sistema DishBrain .
Se utilizaron diferentes entornos de DishBrain para demostrar: (1 y 2) sistema de retroalimentación de circuito cerrado de baja
latencia (estimulación (STIM) y tratamiento silencioso (SIL)); (3) Sistema sin retroalimentación (NF) para demostrar una
configuración de retroalimentación de bucle abierto; y (4) configuración de reposo (RST) para demostrar un sistema en el
que la información sensorial (rayo amarillo) está ausente. Un visualizador interactivo con jugabilidad está disponible en
https://bit.ly/3DSi4Eg

Este sistema que llamamos DishBrain, puede aprovechar la propiedad inherente de las neuronas para
compartir un "lenguaje" de actividad eléctrica (sináptica) entre sí para vincular los sistemas de silicio y
BNN a través de la estimulación eléctrica y el registro. Dada la compatibilidad del hardware y las células,
el software húmedo, existen dos procesos interrelacionados que se requieren para el comportamiento
consciente en un sistema inteligente. En primer lugar, el sistema debe aprender cómo los estados
externos influyen en los estados internos, a través de la percepción, y cómo los estados internos
influyen en los estados externos, a través de la acción. En segundo lugar, el sistema debe inferir de sus
estados sensoriales cuándo debe adoptar un comportamiento particular. En resumen, debe ser capaz
de predecir cómo sus acciones influirán en el medio ambiente. Para abordar el primer imperativo, Se
desarrollaron controladores de software personalizados para crear sistemas de retroalimentación de
bucle cerrado de baja latencia que simulaban el intercambio con un entorno para BNN a través de la
estimulación eléctrica. Los sistemas de circuito cerrado ofrecen una'encarnación' de cultivo in vitro al
proporcionar retroalimentación sobre el efecto causal del comportamiento del cultivo celular. La
encarnación requiere una separación de los estados internos y externos, donde está disponible la
retroalimentación del efecto de la acción en un entorno dado. Trabajos anteriores, tanto in vitro como in
silico, han demostrado que los sistemas de retroalimentación electrofisiológicos de circuito cerrado
generan una plasticidad de red significativa y una posible adaptación del comportamiento más allá de lo
que se puede lograr con los sistemas de circuito abierto 5 , 6 . Se encuentra más apoyo para el vínculo
entre la realización y el comportamiento funcional in vivo.donde la interrupción de un sistema de circuito
cerrado al desacoplar la retroalimentación visual y las salidas motoras interrumpe el desarrollo
funcional del procesamiento visual en la corteza visual primaria en ratones 7 . Esto apoya firmemente el
vínculo vital entre la retroalimentación y el eventual desarrollo del comportamiento funcional en las
redes neuronales biológicas.

Para abordar el segundo requisito, el sistema se puede utilizar para probar teorías clave sobre cómo
puede surgir el comportamiento inteligente. Una proposición de cómo puede surgir un comportamiento
inteligente en un sistema inteligente incorporado en un entorno se encuentra en la teoría de la inferencia
activa a través del Principio de Energía Libre (FEP) 8 . El trabajo anterior ha establecido que las neuronas
pueden realizar una separación de fuente ciega a través de una plasticidad de Hebbian dependiente del
estado que es consistente con el FEP 9 , 10 . La FEP sugiere que cualquier sistema autoorganizado
separado de su entorno busca minimizar su energía libre variacional 11 – 13. Esto significa que sistemas
como el cerebro, en todas las escalas espaciotemporales, pueden participar en una inferencia activa
mediante el uso de un modelo generativo interno para predecir entradas sensoriales que representan el
mundo externo 11-13
. La brecha entre las predicciones del modelo y las sensaciones observadas ("sorpresa"
o "error de predicción") se puede minimizar de dos maneras: optimizando las creencias probabilísticas
(bayesianas) sobre el entorno para hacer que las predicciones se parezcan más a las sensaciones, o
actuando sobre el entorno para hacer que las sensaciones se ajusten a sus predicciones. Esto implica
una función objetivo común para la acción y la percepción que puntúa el ajuste entre un modelo interno
y el entorno externo.

Bajo esta teoría, las BNN tienen 'creencias' sobre el estado del mundo, donde el aprendizaje implica
actualizar estas creencias para minimizar su energía libre variacional o cambiar el mundo, mediante la
acción, para hacerlo menos sorprendente 13 , 14 . Si es cierto, esto implica que debería ser posible
moldear el comportamiento de BNN simplemente presentando comentarios ruidosos e impredecibles
después del comportamiento 'incorrecto'. Si a las BNN se les presenta una retroalimentación
impredecible, deben adoptar acciones que eviten los estados que dieron como resultado esta entrada.
Al desarrollar un sistema que permite que las culturas neuronales se incorporen en un mundo de juego
simulado, no solo podemos probar si estas células son capaces de participar en el aprendizaje dirigido
a objetivos en un entorno dinámico, sino que podemos investigar un fundamental base de la
inteligencia.

RESULTADOS
Crecimiento de 'wetware' neuronal para computación

Las neuronas se pueden cultivar o recolectar de numerosas maneras. Las células corticales de las
cortezas diseccionadas de embriones de roedores se pueden cultivar en MEA en un medio rico en
nutrientes y mantenerse durante los meses 15 , 16 . Estos cultivos desarrollarán una morfología
complicada, con numerosas conexiones axonales y dendríticas, que darán lugar a BNN funcionales 17 ,
18 . Reproducimos con éxito el desarrollo de estos cultivos a partir de embriones de ratón de día
embrionario 15.5 (E15.5), con un cultivo representativo que se muestra en la Figura 2A . También
diferenciamos células madre pluripotentes inducidas por humanos (hiPSC) en monocapas de neuronas
corticales heterogéneas activas que han demostrado mostrar propiedades funcionales maduras 19 - 21.
Usando una inhibición dual de SMAD como se describió previamente 21 , 22 , desarrollamos neuronas
corticales a largo plazo que formaron conexiones densas con células gliales de soporte ( Figura 2B - 2C
). Finalmente, deseamos ampliar nuestro estudio utilizando un método diferente de diferenciación de
hiPSC, la reprogramación directa de NGN2, que se utilizó en la parte final de este estudio. Trabajos
anteriores han demostrado que los fibroblastos humanos se pueden convertir directamente en células
neuronales inducidas que expresan un fenotipo cortical 23 , 24 . Este método de alto rendimiento se
replicó en este trabajo con células que muestran marcadores panneuronales ( Figura S1A, S1B ). Estas
células suelen mostrar una alta proporción de células glutamatérgicas excitatorias, cuantificadas
mediante qPCR que se muestra en la Figura 1D . La integración de estas células en HD-MEA se confirmó
mediante microscopía electrónica de barrido (SEM) donde las células se habían mantenido durante > 3
meses. Las imágenes SEM de rutina revelaron un agrupamiento denso de neuronas, con un claro
contraste entre la célula y la superficie MEA ( Figura 2E ). Se pudieron observar redes dendríticas
densamente interconectadas en cultivos neuronales que formaban redes entrelazadas que abarcaban el
área MEA ( Figura 2F ). Estos cultivos neuronales rara vez parecían seguir la topografía del MEA y era
más probable que formaran grandes grupos de células conectadas con densas redes dendríticas (
Figura 2G, 2H). Esto probablemente se deba al gran tamaño de un electrodo individual dentro del MEA;
sin embargo, también existen efectos quimiotácticos que pueden contribuir a contrarrestar el efecto de
la topografía del sustrato en las proyecciones de neuritas 25 .
Figura 2

Las células corticales forman densas redes interconectadas.


Barras de escala como se muestra en el panel. A) y B) muestran células corticales recolectadas de roedores embrionarios y
diferenciadas de hIPSC respectivamente. DAPI en azul tiñe todas las células, NeuN en verde muestra las neuronas, BIII
marca los axones, mientras que MAP2 marca las dendritas. Una caracterización adicional en C) con GFAP muestra células
de astrocitos de apoyo, críticas para el funcionamiento a largo plazo, junto con un marcador para células específicas de la
corteza, TBR1. Un riesgo con el uso de IPSC es que las células no están completamente especificadas y pueden continuar
dividiéndose agresivamente, la tinción para Ki67, un marcador de células en división, muestra que esto no es un problema
con estos cultivos. D)Los estudios de expresión génica durante 28 días demostraron una mayor expresión del marcador
neural glutamatérgico, transportador de glutamato vesicular 1 (vGLUT1). Estos datos demuestran que las células
producidas por la diferenciación de NGN2 se componen de células neuronales excitatorias sinápticamente activas. E) – G)
Neuronas mantenidas en MEA durante > 3 meses. Las flechas blancas muestran regiones de contracción dentro de los
cultivos, las flechas rojas muestran haces de axones, las matrices azules muestran extensiones de neuritas individuales.
Tenga en cuenta las conexiones complejas y extensas entre las células, la cobertura densa sobre HD-MEA y las conexiones
superpuestas que se extienden desde el soma neuronal presente en todos los cultivos, lo que muestra que las células
superponen múltiples electrodos. H) tiene coloración falsa para resaltar los electrodos HD-MEA debajo de las celdas.

Las células neurales muestran potenciales de acción espontáneos bien caracterizados que se desarrollan
con el tiempo.

Mapeamos el desarrollo in vitro de la actividad electrofisiológica en sistemas neuronales a alta


resolución espacial y temporal. Se encontró actividad robusta en células corticales primarias de
roedores E15.5 en días in vitro (DIV)14 ( Figura 3A, 3E ) donde se observaron regularmente ráfagas de
actividad sincronizada como se demostró previamente 17 , 18 . Por el contrario, si bien es similar a
informes anteriores, no se observó actividad de explosión sincronizada en células corticales de un
fondo hiPSC diferenciado mediante el protocolo de inhibición dual SMAD (DSI) hasta DIV 73 ( Figura 3A,
3F ) 19. Las hiPSC diferenciadas mediante la reprogramación directa de NGN2 mostraron actividad
mucho antes, normalmente entre los días 14 y 24 ( Figura 3A, 3G ). También se realizaron exploraciones
diarias de actividad electrofisiológica. Si bien la tasa de activación máxima generalmente aumentó y se
mantuvo relativamente estable con el tiempo para todos los tipos de células durante el período de
prueba ( Figura 3B ) , se observaron cambios tanto en la tasa de activación media ( Figura 3C ) como en
la variación de la tasa de activación ( Figura 3D ) a lo largo de los días. de prueba En particular, las
hiPSC diferenciadas mediante el método de reprogramación directa de NGN2 mostraron un aumento
considerable en la tasa de activación media y la variación en la activación a lo largo de los días.
Fig. 3

Las células corticales muestran actividad electrofisiológica espontánea.


Error sombreado = intervalos de confianza del 95 %. A) La barra de escala a la derecha indica la frecuencia de disparo en
Hz. Muestra la tasa de activación en un cultivo representativo cultivado a partir de células corticales primarias de roedores
E15.5, células hIPSC diferenciadas en neuronas corticales mediante la inhibición dual de SMAD (DSI) y células hIPSC
diferenciadas en células corticales mediante la diferenciación directa NGN2. Tenga en cuenta que, si bien todos los cultivos
muestran una activación sustancial en la mayor parte del área de ensayo, lo hacen en diferentes momentos. El
entrenamiento comenzó cuando las células mostraron una activación constante con una media superior a 0,7 Hz y continuó
durante aproximadamente 14 días, como se ve en B)la activación máxima se mantuvo consistentemente diferente entre las
células corticales de una fuente primaria y las células corticales diferenciadas de hIPSC. De interés, sin embargo, como se
ve en C) es que la actividad media entre las hIPSC diferenciadas usando DSI y los cultivos corticales primarios fue
generalmente similar, mientras que las hIPSC diferenciadas usando el método NGN2 continuaron aumentando. Esto se
refleja en D) , donde los dos primeros tipos de células mostraron cambios mínimos en la variación de la activación dentro de
un cultivo, mientras que el último aumentó la variación con el tiempo. E) , F) y G)Muestra gráficos de trama de más de 50
segundos, donde cada punto es una neurona que dispara un potencial de acción. Tenga en cuenta las diferencias entre las
células corticales en etapa media de un cultivo primario de roedores DIV14 ( E ) en comparación con las células corticales
humanas DIV73 más maduras ( F ) diferenciadas de iPSC utilizando la inhibición dual de SMAD y el enfoque de neuronas
diferenciadas directas NGN2 ( G ) descrito en el texto, en términos de actividad sincronizada y patrones de disparo estables.
Si bien todos muestran actividad sincronizada, hay una diferencia en los niveles generales de actividad representados en B -
D.

Construcción de una plataforma modular en tiempo real para aprovechar la computación neuronal

Desarrollamos el sistema DishBrain para aprovechar la computación neuronal e interactuar con las
neuronas en un entorno incorporado ( Texto complementario 1 ; Figura 4A ). El entorno de DishBrain es
un sistema en tiempo real de baja latencia que interactúa con el software del proveedor MaxOne, lo que
permite que se utilice de maneras que amplían sus funciones originales ( Figura 4B ) . Este sistema puede
registrar la actividad eléctrica en un cultivo neuronal y proporcionar estimulación eléctrica externa (no
invasiva) de manera comparable a la generación de potenciales de acción por estimulación eléctrica
interna 26. Usando los esquemas de codificación descritos en los métodos, las estimulaciones
eléctricas externas transmiten una variedad de información: predecible, aleatoria o sensorial ( Figura 5A
). Esta configuración permite no solo 'leer' información de una cultura neuronal, sino también 'escribir'
datos sensoriales en una. La prueba inicial del principio con DishBrain fue simular el clásico juego de
arcade 'pong' mediante la entrega de entradas a un área sensorial predefinida. De manera similar, se
reunió la actividad electrofisiológica de regiones motoras predefinidas, en tiempo real, para mover una
'pala'. Las investigaciones preliminares compararon diferentes configuraciones de regiones motoras
utilizando un algoritmo EXP3 ( Texto complementario 2 ; Figura S3). Esto tuvo como objetivo identificar
si las culturas neuronales tenían una actividad que fue más exitosa en configuraciones específicas al
elegir configuraciones que resultaron en una tasa de aciertos más alta. Los cultivos experimentales
mostraron preferencias significativamente diferentes por las configuraciones en comparación con los
controles de solo medios ( Figura 5B ). Si bien los controles solo de medios mostraron una preferencia
por las configuraciones que maximizaron el sesgo, donde la estimulación sensorial por sí sola podría
dirigir el juego hacia un mayor rendimiento (cegado completamente más tarde), las culturas
experimentales mostraron una preferencia por la configuración que permitía la inhibición lateral ( Figura
5C ) .
Figura 4

Esquemas del software utilizado para DishBrain .


A) Resumen esquemático de la configuración de DishBrain. B)Componentes de software y flujo de datos en el sistema de
circuito cerrado DishBrain. Las muestras de voltaje fluyen desde el MEA al entorno 'pong', y la información sensorial fluye de
regreso al MEA, formando un circuito cerrado. Los rectángulos azules marcan piezas de hardware patentadas de MaxWell,
mientras que el MXWServer verde se usa para configurar MEA y Hub. Los rectángulos rojos marcan los componentes del
programa 'DishServer', un programa de alto rendimiento que consta de cuatro componentes diseñados para ejecutarse de
forma asíncrona. La ejecución de un entorno virtual en un circuito cerrado impone estrictos requisitos de rendimiento, y el
procesamiento de señales digitales es el principal cuello de botella de este sistema. El componente 'Interfaz LAN' almacena
el estado de la red, para comunicarse con el concentrador, y produce matrices de valores de voltaje para su procesamiento.
Los valores de voltaje se pasan al componente 'Detección de picos', que almacena valores de retroalimentación y recuentos
de picos, y pasa los comandos de recalibración a la interfaz LAN. Cuando el entorno pong está listo para ejecutarse,
actualiza el estado de la paleta en función de los recuentos de picos, actualiza el estado de la pelota en función de su
velocidad y las condiciones de colisión, y reconfigura el secuenciador de estimulación en función de la posición relativa de
la pelota y estado actual del juego. El secuenciador de estimulación almacena y actualiza índices y cuentas regresivas
relacionadas con los estímulos que debe producir y los convierte en comandos cada vez que la cuenta regresiva
correspondiente llega a cero, que finalmente se devuelven a la Interfaz LAN, para enviar al sistema MEA, cerrando el ciclo.
Operaciones numéricas en el componente de detección de picos en tiempo real del Cuando el entorno pong está listo para
ejecutarse, actualiza el estado de la paleta en función de los recuentos de picos, actualiza el estado de la pelota en función
de su velocidad y las condiciones de colisión, y reconfigura el secuenciador de estimulación en función de la posición
relativa de la pelota y estado actual del juego. El secuenciador de estimulación almacena y actualiza índices y cuentas
regresivas relacionadas con los estímulos que debe producir y los convierte en comandos cada vez que la cuenta regresiva
correspondiente llega a cero, que finalmente se devuelven a la Interfaz LAN, para enviar al sistema MEA, cerrando el ciclo.
Operaciones numéricas en el componente de detección de picos en tiempo real del Cuando el entorno pong está listo para
ejecutarse, actualiza el estado de la paleta en función de los recuentos de picos, actualiza el estado de la pelota en función
de su velocidad y las condiciones de colisión, y reconfigura el secuenciador de estimulación en función de la posición
relativa de la pelota y estado actual del juego. El secuenciador de estimulación almacena y actualiza índices y cuentas
regresivas relacionadas con los estímulos que debe producir y los convierte en comandos cada vez que la cuenta regresiva
correspondiente llega a cero, que finalmente se devuelven a la Interfaz LAN, para enviar al sistema MEA, cerrando el ciclo.
Operaciones numéricas en el componente de detección de picos en tiempo real del y reconfigura el secuenciador de
estimulación en función de la posición relativa de la pelota y el estado actual del juego. El secuenciador de estimulación
almacena y actualiza índices y cuentas regresivas relacionadas con los estímulos que debe producir y los convierte en
comandos cada vez que la cuenta regresiva correspondiente llega a cero, que finalmente se devuelven a la Interfaz LAN,
para enviar al sistema MEA, cerrando el ciclo. Operaciones numéricas en el componente de detección de picos en tiempo
real del y reconfigura el secuenciador de estimulación en función de la posición relativa de la pelota y el estado actual del
juego. El secuenciador de estimulación almacena y actualiza índices y cuentas regresivas relacionadas con los estímulos
que debe producir y los convierte en comandos cada vez que la cuenta regresiva correspondiente llega a cero, que
finalmente se devuelven a la Interfaz LAN, para enviar al sistema MEA, cerrando el ciclo. Operaciones numéricas en el
componente de detección de picos en tiempo real del cerrando el ciclo. Operaciones numéricas en el componente de
detección de picos en tiempo real del cerrando el ciclo. Operaciones numéricas en el componente de detección de picos en
tiempo real delEl sistema de circuito cerrado de DishBrain se muestra a continuación, incluidos varios filtros IIR.
Figura 5

Esquemas, selección de configuración EXP3 y pruebas con densidad de información creciente.


A) Presenta un esquema que muestra las diferentes fases de estimulación que brinda información sobre el medio ambiente
al cultivo, en línea con esto es el voltaje de entrada correspondiente y cómo aparece ese voltaje en el gráfico de trama
durante 100 segundos. La apariencia de estimulación aleatoria después de que falta una pelota frente a la estimulación
predecible de todo el sistema después de un golpe exitoso es evidente en las tres representaciones. Esto corresponde a las
imágenes de la derecha que muestran la posición de la pelota en los ejes X e Y en relación con la paleta y la pared trasera
en % de la distancia total que se muestra en la misma escala de tiempo. B) Muestra las diferencias de distribución relativas
a la probabilidad en porcentaje de que una configuración de motor fue elegida por el algoritmo EXP3 ( χ2 = 35690.93,
p<0,0001) para cultivos de control y experimentales. La configuración del motor 0 se seleccionó con mayor frecuencia para
el control de medios, mientras que la configuración del motor 3 se seleccionó con mayor frecuencia para la
experimentación. C) Esquema final del diseño de electrodos para el juego DishBrain pong-world. D) * = p < 0,05, *** = p <
0,001, barras de error = IC del 95 %, muestra la duración media del peloteo en tres rondas de experimentos distintas durante
el diseño de DishBrain pong-world donde cada experimento subsiguiente proporcionó información de mayor densidad sobre
la posición de la pelota que el anterior.

El aumento de la densidad de entrada de información sensorial conduce a un mayor rendimiento

El protocolo DishBrain se perfeccionó en una serie de estudios piloto, que se pueden agrupar en tres
amplios experimentos, cada uno de los cuales aumenta la densidad de la información sensorial. El
primer experimento operó con una estimulación de 4 Hz que estaba puramente codificada por
frecuencia. El experimento dos incluyó la configuración basada en EXP3. El Experimento 3 eliminó la
configuración basada en EXP3, bloqueó el diseño en la Figura 5C y cambió a la tasa combinada (4 - 40
Hz) y colocó el método de codificación de entrada de datos. En particular, el mayor aumento se produjo
entre el segundo y el tercer experimento con la introducción de la codificación de velocidad de la
posición de la pelota para complementar el enfoque de codificación puramente de velocidad utilizado
anteriormente. Se comparó la jugabilidad de los últimos quince minutos para cada tipo de cultura (
Figura 5D ; Tabla S1 ). Las culturas mostraron un aumento significativo en el rendimiento entre la
segunda y última sesión y la primera y última sesión. Entre cultivos, las células corticales humanas
(hCC) tenían longitudes de reunión promedio significativamente más largas que los cultivos con células
corticales de ratones (mCC) ( Tabla S2 ) . Esto es interesante porque sugiere que, a nivel neuronal, las
células corticales de origen humano, en este caso de hiPSC, pueden superar a las células de un ratón
embrionario, incluso cuando el número total de células es comparable. En general, la magnitud de este
cambio respalda que el aumento de la información sensorial mejoró sucesivamente el rendimiento,
incluso cuando las características del cultivo celular se mantuvieron constantes.

Las redes neuronales biológicas aprenden con el tiempo cuando se incorporan en un entorno de juego.

Para probar la teoría de la inferencia activa a través de FEP ( Figura 6A ), utilizando los parámetros
descritos en Métodos , se compararon células corticales, mCC y hCC con controles solo de medios
(CTL), sesiones de descanso, donde los cultivos activos controlaron la paleta pero no recibió
información sensorial (RST), y a controles in-silico que imitaban todos los aspectos del juego, pero el
paddle fue impulsado por ruido aleatorio (IS), más de 399 sesiones de prueba (80-CTL, 42-RST, 38-IS,
101-mCC, 138-hCC). La duración promedio del peloteo (número total de intercepciones exitosas de la
pelota con la paleta) mostró una interacción significativa ( Figura 6B ; Tabla S1), con diferencias que se
producen en función de una combinación de grupo y tiempo (primeros cinco y últimos quince minutos).
Solo los cultivos mCC y hCC mostraron evidencia de aprendizaje a lo largo del tiempo, con longitudes de
rally significativamente mayores en el segundo punto de tiempo en comparación con el primero.
Además, se encontró que durante los primeros cinco minutos de juego se observaron diferencias
significativas clave ( Tabla S1 ) . El grupo hCC se desempeñó significativamente peor que los grupos
mCC, CTL e IS ( Tabla S2 ). Esto sugiere que los hCC parecen funcionar peor que los controles cuando
se incorporan por primera vez en un entorno, lo que sugiere un control inicialmente desadaptativo de la
paleta. En particular, en el último punto de tiempo esta tendencia se invirtió, el grupo hCC superó
significativamente a todos los grupos de control junto con una diferencia leve pero significativa sobre el
grupo mCC ( Tabla S1 ) . Asimismo, el grupo mCC superó significativamente a todos los grupos de
control ( Tabla S2 ) . Estos datos replican nuestro hallazgo anterior sobre las diferencias entre células de
ratón y humanas, además de demostrar inequívocamente un efecto de aprendizaje significativo en
ambos grupos experimentales que estuvo ausente en los grupos de control (Película S1 ) .
Figura 6

Las neuronas corticales incorporadas muestran un rendimiento significativamente mejorado en Pong cuando se
incorporan en un mundo de juego virtual.
Las barras de significación muestran las diferencias dentro del grupo indicadas con *. Los símbolos muestran las
diferencias entre los grupos en el punto de tiempo dado: # = vs HCC; % = vs MCC; ^^ = frente a CTL; @ = frente a ES. El
número de símbolos indica el corte del valor p, donde 1 = p < 0,05, 2 = p < 0,01, 3 = p < 0,001 y 4 = p < 0,0001. Los diagramas
de caja muestran el rango intercuartílico, con barras que muestran un rango intercuartílico de 1,5X, la línea marca la
mediana y ▴ marca la media. A)Esquema de cómo las neuronas pueden participar en el mundo del juego bajo inferencia
activa. Esta ilustración adopta una formulación de codificación predictiva (también conocida como filtro de Kalman) de
minimización de energía libre variacional, en la que la dinámica neuronal se lee como flujos de gradiente y los gradientes de
energía libre se leen como errores de predicción. Desde este punto de vista, los errores de predicción pueden considerarse
como impulsores de la actividad neuronal, que implícitamente parametriza un modelo generativo o directo, y las respuestas
motoras, a través de la minimización de los errores de predicción propioceptivos (sintéticos). BD) compara grupos
experimentales según dos puntos de tiempo: punto de tiempo 1: primeros 5 minutos de juego (0-5 minutos), punto de
tiempo 2: últimos 15 minutos de juego (6-20 minutos). B) Rendimiento promedio entre grupos a lo largo del tiempo, donde
solo experimental (MCC: t= 6,15, p = 5,27 -08 y HCC: t = 10,44, p = 3,91 -19 ) mostró una mejora significativa y un mayor
rendimiento frente a todos los grupos de control en el segundo punto de tiempo. C) Promedio de aces entre grupos y en el
tiempo, solo MCC ( t = 2.67, p = 0.008) y HCC ( t = 5.95, p = 2.13 -08) difieren significativamente a lo largo del tiempo. El
grupo RST tuvo significativamente más ases en comparación con los grupos CTL, IS, MCC y HCC en el punto de tiempo uno
y en comparación con CTL, MCC y HCC en el punto de tiempo 2. Solo MCC y HCC mostraron disminuciones significativas en
la cantidad de ases a lo largo del tiempo. indicando aprendizaje. En el último punto de tiempo, también mostraron menos
ases en comparación con el grupo IS, pero solo el grupo HCC fue significativamente menor que CTL. D) Número medio de
peloteos largos (>3) realizados en una sesión. En el punto de tiempo 1, el grupo HCC tuvo significativamente menos rallies
largos en comparación con todos los grupos de control (CTL, IS y RST). Sin embargo, tanto el MCC ( t = 5,55, p = 2,36 -07 )
como el HCC ( t = 10,38, p = 5,27-19 ) los grupos mostraron significativamente más rallies largos a lo largo del tiempo. Como
tal, en el punto de tiempo 2, el grupo HCC mostró rallies significativamente más largos en comparación con el grupo IS. El
grupo HCC también mostró rallies significativamente más largos en comparación con todos los grupos de control CTL, IS y
RST. E) Correlación negativa significativa ( r = -0,34, p < 0,001) entre el % de aces y el % de peloteos largos para cultivos
experimentales en los últimos 15 minutos. F) La distribución de la frecuencia de la media de aciertos sumados por minuto
entre los grupos muestra diferencias evidentes.

Los matices entre cómo ocurre el aprendizaje exhiben diferencias entre los tipos de células
Para determinar cómo surgió el aprendizaje anterior, se examinaron más a fondo las características
clave del juego. Para estos datos se calculó el número de veces que la paleta falló en interceptar la
pelota en el servicio inicial (aces; Figura 6C ) y el número de rallies largos (> 3 golpes consecutivos;
Figura 6D ). Al igual que con la duración promedio de los peloteos, se encontraron interacciones
significativas entre los grupos y el tiempo tanto para los saques directos como para los peloteos largos
( Tabla S1 ) . Sólo los grupos mCC y hCC mostraron significativamente menos aces en el último punto
de tiempo en comparación con el primero ( Tabla S2 ) . Del mismo modo, solo los grupos mCC y hCC
mostraron rallies significativamente más largos en el último punto de tiempo en comparación con el
primero (Tabla S2 ) . Esto muestra que ambas culturas experimentales mejoraron el rendimiento no solo
al reducir la frecuencia con la que fallaban el servicio inicial, sino también al lograr más golpes
consecutivos. De manera similar, se encontró una diferencia significativa entre los grupos tanto para
ases como para peloteos largos ( Tabla S1 ) . En el primer punto de tiempo para los ases, se encontró
que la condición RST tenía significativamente más ases que los grupos CTL y mCC ( Tabla S2 ). Es difícil
determinar exactamente por qué permitir que la paleta sea controlada por células no estimuladas daría
como resultado más ases inicialmente que otros grupos. Tal vez haya un grado de comportamiento
esporádico con el que se involucran las células cuando se introducen inicialmente en el período de
descanso del juego que da como resultado este comportamiento, posiblemente similar a lo que se
observó en la duración promedio de la jugada por los hCC anteriores. Cuando se investigó el número de
rallies largos en este momento, se encontró que solo HCC tenía significativamente menos rallies largos
en comparación con todos los grupos ( Tabla S2 ) . Esto es consistente con el hallazgo de que hCC
muestra un peor desempeño en el primer punto de tiempo en general y explica por qué se puede
observar esto.

También se encontraron diferencias significativas entre los grupos en el último punto de tiempo tanto
para ases como para peloteos largos ( Tabla S1 ) . En particular, el grupo HCC mostró significativamente
menos ases en comparación con los grupos CTL, RST e IS ( Tabla S1 ) . El grupo mCC también mostró
significativamente menos ases en comparación con los grupos RST e IS, sin embargo, no el grupo CTL (
Tabla S2 ) . Por el contrario, para los rallies largos, el grupo mCC mostró significativamente más que los
grupos CTL, RST e IS ( Tabla S2 ) . Sin embargo, el grupo hCC solo mostró rallies significativamente más
largos en comparación con el grupo IS, pero no RST o CTL ( Tabla S2 ). Además, aquí se encontró una
correlación negativa significativa, lo que sugiere que el rendimiento no se debió a un comportamiento
desadaptativo, como fijar la paleta en una sola esquina ( Figura 6E ). Holísticamente, Figura 6Fenfatiza
que aunque tanto mCC como hCC mostraron menos ases y más rallies largos en los últimos puntos de
tiempo en comparación con el primero, los tipos de células mostraron matices en su comportamiento,
destacando las diferencias entre los tipos de células. Los datos también sugieren que un cultivo no
estimulado que todavía controle la paleta tendrá un rendimiento significativamente más bajo que los
controles en los que la paleta se mueve en función del ruido. Esto sugiere un control sistemático que es
difícil de interpretar a partir de estos datos, pero indica el potencial de una encarnación duradera una
vez que cesa la estimulación.

Las redes neuronales biológicas requieren retroalimentación para el aprendizaje

Para investigar la importancia del tipo de retroalimentación para el aprendizaje, las culturas se probaron
en tres condiciones, durante tres días, con tres sesiones por día, lo que resultó en 483 sesiones. La
condición 1 (estímulo) imitaba la utilizada anteriormente, en la que se administraban estímulos
predecibles e impredecibles cuando los cultivos se comportaban de manera deseable o no,
respectivamente. La condición 2 (silencio) implicó que la retroalimentación del estímulo se reemplazara
con un período de tiempo coincidente en el que se retuvo toda la estimulación. La condición 3 (sin
retroalimentación) eliminó el reinicio después de una falla. Cuando la paleta no interceptaba con éxito la
pelota, la pelota rebotaba y continuaba sin interrupción: aún se proporcionaba el estímulo que
informaba la posición de la pelota. La diferencia entre estas condiciones se enfatiza en la Figura 7A. La
actividad del período de descanso también se utilizó para normalizar el rendimiento por sesión para
tener en cuenta las diferencias en la actividad no estimulada.
figura 7

La importancia de la retroalimentación en el aprendizaje.


Las barras de significación muestran las diferencias dentro del grupo indicadas con *. Los símbolos muestran las
diferencias entre los grupos en el punto de tiempo dado: # = vs Estímulo; % = frente a Silencio. El número de símbolos indica
el corte del valor p, donde 1 = p < 0,05, 2 = p < 0,01, 3 = p < 0,001 y 4 = p < 0,0001. Los diagramas de caja muestran el rango
intercuartílico, con barras que muestran un rango intercuartílico de 1,5X, la línea marca la mediana y ▴ marca la media.
Bandas de errores = 1 SE. A)Esquema que muestra la estimulación de los 8 electrodos sensoriales durante 40 segundos del
mismo juego para cada una de las tres condiciones. La barra debajo codifica con colores qué fase de estimulación se está
administrando. Donde la estimulación aleatoria sigue a un fallo y la estimulación predecible sigue a un acierto en la
condición de Estímulo. Nótese la ausencia correspondiente de cualquier estimulación en la condición Silenciosa y la de
cualquier cambio en la estimulación sensorial en la condición Sin retroalimentación. B) muestra la probabilidad de que
ocurra un cierto número de aciertos en un grupo en un minuto específico. C) Usando diferentes programas de
retroalimentación, la condición de retroalimentación de estímulo mostró un aprendizaje significativo (como en la Figura 5A ;
t = 7.48, p = 1.58 -12) y superó la duración promedio de los rallyes Silent y No-feedback, Silent feedback también mostró un
mayor rendimiento en comparación con estos grupos en el punto de tiempo 2. D) muestra esta diferencia a lo largo del día.
E) Muestra diferencias similares frente al rendimiento de descanso para los aces en todas las condiciones, donde el grupo
Estímulo mostró significativamente menos aces a lo largo del tiempo ( t = 3,21, p = 0,002) F) muestra estos datos a lo largo
del día. G) muestra que la condición de Estímulo mostró un aumento significativo ( t = 3.21, p = 0.002) a lo largo de los
puntos de tiempo, sin embargo, como en H), no se encontraron diferencias a lo largo del tiempo para rallies largos.

Stimulus and Silent conditions showed overall higher performance compared to Rest and No-feedback
conditions (Figure 7B). When testing for differences between groups in the percentage increase of
average rally length over matched rest controls, a significant interaction was found (Figure 7C; Table
S1). Only the Stimulus condition showed a significant increase in average rally length over time. While no
differences were found for the first timepoint, a significant main effect of group was found at the second
timepoint, where the Stimulus condition performed significantly higher than the Silent and No-feedback
conditions (Table S2). Interestingly, the Silent condition also significantly outperformed the No-feedback
conditions, although with less magnitude (Table S2). Importantly, this demonstrates that information
alone is not sufficient; feedback is required to form a closed loop learning system. When followed up at
the level of day for the second timepoint (Figure 7D) no significant differences over time were observed,
but the between group differences were still observed. This trend was replicated when looking at aces
both summed (Figure 7E) and across days of testing (Figure 7F). For long rallies the Stimulus group at
timepoint 1 showed significantly fewer long-rallies compared to the Silent and No-feedback condition,
being reversed at timepoint 2 with the Stimulus group showing significant more long rallies compared to
the No-feedback condition (Figure 7G). No difference was found when this was followed up across day
(Figure 7H). We also demonstrate that this learning is not seen in electrically inactive non-neural cells
(Figure S4). Collectively this data establishes that adaptive behaviour seen in cortical cells altering
activity to manipulate the environment can be an emergent property of engaging with—and implicitly
modelling—the environment.

Electrophysiological symmetry in latent activity is linked with higher performance

To determine whether spontaneous action potentials correlated with performance exploratory


uncorrected Pearson’s correlations were computed for key activity metrics and average rally length in the
last 15 minutes of gameplay. A significant positive correlation between mean firing and performance
(Figure 8A) was found indicating a higher mean firing was associated with better performance, although
max firing (Figure 8B) did not significantly correlate. This suggests that having well balanced higher
activity was related to better performance, although the correlation was notably moderate. To further
investigate whether the topographical distribution of activity correlated with performance, the absolute
values of four discrete cosine transform (DCT) coefficients normalised to mean activity, was used to
summarise spatial modes of spontaneous activity and assess symmetry of activity (Figure 8C). DCT
(0,2) which shows difference between activity on the lateral edges and the lateral centre (Figure 8E) was
significantly negatively correlated with performance. However, DCT (0,1) which measures activity across
the horizontal plane (Figure 8C), DCT (1,0) which measures activity across the vertical plane (Figure 8F),
and DCT (2,0) which measures activity on the horizontal edges vs the horizontal centre, did not
significantly correlate. These correlations indicate that symmetrical activity across cultures underwrites
better performance, but max activity does not. Given the distribution of the motor regions and sensory
information, this finding is very coherent, as if there are no active cells in an area to either record signal
from or deliver stimulation too, it would result in a dysfunctional system.
Fig 8

Relationship Between Latent Electrophysiological Activity for Higher Performance and the Importance of Feedback in
Learning.
A) A significant positive correlation between mean firing and performance was found (r = 0.17, p < 0.001) indicating a higher
mean firing was associated with better performance. B) No significant relationship was found between max firing and
performance. C) Absolute DCT values were calculated to determine whether there was a link between the layout of activity
and performance. This shows how these DCT values were calculated for each type of score D) No significant relationship
was found between DCT (0,1), F) DCT (1,0), or G) DCT (2,0). However, E) shows DCT 0,2 which mesures the difference
between activity on the lateral edges and the lateral centre was significantly negatively correlated (r = -0.17, p < 0.001) with
performance.

DISCUSSION

Aquí presentamos un sistema, Dishbrain , que es capaz de incorporar neuronas, de cualquier origen, en
un entorno virtual y medir sus respuestas a estímulos en tiempo real. La capacidad de las neuronas,
especialmente en ensamblajes, para responder a estímulos externos de manera adaptativa está bien
establecida in vivo . Sin embargo, este trabajo es el primero en establecer este comportamiento
fundamental in vitro . Pudimos utilizar este ensayo silicobiológico para investigar los fundamentos de la
computación neuronal. En resumen, demostramos el primer dispositivo SBI que muestra un
comportamiento adaptativo en tiempo real. El sistema en sí ofrece oportunidades para expandirse
sobre anteriores in silicomodelos de comportamiento neuronal, como cuando se probaron modelos de
células hipocampales y entorrinales para resolver problemas espaciales y no espaciales (Sanders et al.,
2020; Whittington et al., 2020). Variaciones menores en la plataforma DishBrain y el tipo de célula
seleccionado permitirían una prueba in vitro para obtener datos sobre cómo las células procesan y
calculan información que antes era inalcanzable.

Un ejemplo de esto se puede ver en los resultados contrastantes entre diferentes fuentes de células. Los
cultivos corticales activos, tanto de origen humano como de células de ratón, mostraron patrones de actividad
sincrónica, en línea con investigaciones anteriores 17-19 , 27 . Sin embargo, lo que es más importante, se
observaron diferencias significativas entre las fuentes de células, ya que las células corticales humanas
siempre superaron a las células corticales de ratón con matices en las características del juego. Aunque
se requiere más trabajo, este es el primer trabajo que encuentra evidencia empírica que respalda la
hipótesis de que las neuronas humanas tienen una capacidad de procesamiento de información
superior a las neuronas de roedores 28 , 29. Se ha propuesto que esta diferencia inherente entre las
fuentes celulares se debe a árboles dendríticos más densos y largos en las neuronas humanas, en
comparación con el ratón, lo que produciría diferentes propiedades de entrada y salida y, por lo tanto,
podría explicar las diferentes capacidades computacionales 30. Anteriormente no era posible separar la
estructura neuroanatómica de diferentes especies de la estructura microscópica de las neuronas en
términos de poder computacional. Nuestro trabajo demuestra que incluso cuando todas las
características clave se mantienen constantes (número de células, entrada sensorial, salida motora,
etc.), existen diferencias clave entre las neuronas corticales humanas y de roedores. Esto proporciona la
primera evidencia empírica de las diferencias en el poder computacional entre las neuronas de
diferentes especies, lo que ofrece una interesante vía para futuras investigaciones. Otro hallazgo de este
trabajo se relaciona con la organización celular innata, vista en la definición de las regiones motoras.
Anteriormente, las regiones motoras se mapeaban a partir de un enfoque de codificación de población
que incorporaba información espacial luego de un escaneo de actividad de red 5. Si bien nuestros
primeros estudios piloto fueron similares, nos enfocamos en la medida en que la autoorganización se
adaptaría si las regiones motoras se fijaran entre culturas. Cuando se utilizó el algoritmo EXP3,
encontramos que los cultivos experimentales mostraron preferencias significativas por diseños que
pudieran aprovechar procesos biológicos como la inhibición lateral. Esto es consistente con trabajos
anteriores que encuentran que se requiere retroalimentación entre el entorno y la acción para un
desarrollo neuronal adecuado 7. Sin embargo, sugiere además que tal vez este desarrollo ocurra en base
a propiedades inherentes al nivel de la célula. Este sistema brinda la oportunidad de explorar la
dinámica de la red para comprender mejor este aspecto de la autoorganización. A nivel técnico, este
sistema es fácilmente adaptable para incluir investigaciones sobre la organización estructural de redes
neuronales tanto en un sentido físico como computacional.

Lo más significativo es que este trabajo representa un avance técnico sustancial en la creación de
entornos de ciclo cerrado para BNN 5 , 6 , 31. Here, we have emphasised the requirement for embodiment
in neural systems for learning to occur. This is seen most significantly in the relative performance over
experiments, where richer information and better feedback resulted in increased performance. Likewise,
when no-feedback was provided yet information on ball position was available, cultures showed
significantly poorer performance and no learning. Of particular interest was the finding that when
stimulatory feedback was removed and replaced with silent feedback (i.e., the removal of all stimuli),
cultures were still able to outperform those with no feedback as in the open-loop condition, albeit at a
lesser extent. One interpretation is that playing ’pong’ generates more predictable outcomes than not
playing ’pong’. Despite the outcome of a ‘failure’ not being unpredictable stimulation, given that the ball
resets and the direction of the next movement is itself also unpredictable, this likely results in increased
informational entropy, albeit to a far less extent. This is coherent with our results, as the more
unpredictable an outcome, the greater the observed learning effect. However, the action of the BNN
must have an outcome observable by the system. Therefore, it is coherent that the open-loop condition,
which is by its nature the most predictable condition, did not result in learning. Stimulus alone is not
sufficient to drive learning, there must be a motivation for the learning where altered behaviour can
influence the future observable stimulus. When faced with unpredictable stimulus following
unsuccessful performance, playing ’pong’ successfully acts as a free energy minimising solution. This
offers a rather deflationary account of all goal-directed behaviour as the goal is just to minimise
surprise. A key aspect of active inference is the selection of actions that minimise free energy expected
following that action.

On this mechanistic level, we sought to demonstrate the utility of the DishBrain by testing base principles
behind the idea of active inference via the FEP for intelligence, finding robust support for it. The closest
previous work included studies of blind source separation in neural cultures9,10. However, this study did
not offer physiologically plausible training environments and the system effectively existed in an open-
loop environment. This makes any interpretation that the system in these studies was operating under
the FEP difficult as changes in the external environment was not related back to the internal system of
the neuronal cultures. Our work here demonstrates that when supplying unpredictable (random) sensory
input following an ’undesirable’ outcome—and providing predictable input following a ’desirable’ one, we
were able to significantly shape the behaviour of neural cultures in real time. The predictable stimulation
could also be read as a stabilising synaptic weights in line with previous research32,33—or, in a
complementary fashion, destabilising connectivity by destroying ’undesirable’ free energy minima. This
may be a potential mechanism behind the FEP account of biological self-organisation, sometimes
discussed in terms of autovitiation (i.e. self-organised instability by the destruction of self-induced but
surprising fixed points of attraction)8. Crucially, expected free energy13,34 corresponds to uncertainty
(i.e., informational entropy). This means that uncertainty minimising behaviour will have a natural
curiosity, in the sense that it is necessarily information seeking. This is closely related to artificial
curiosity in machine learning35–37 and intrinsic motivation in robotics38.

Due to current hardware limitations, the sensory stimulation is magnitudes coarser compared to that for
in vivo organisms. Additionally, it was infeasible to meaningfully implement mechanisms that would be
crucial for an in vivo organism attempting a comparable task, such as proprioception. Moreover, the
relatively small number of cells embedded in a monolayer format means the neural architecture driving
this behaviour is incredibly simple, in terms of the number of possible connections available compared
to even small organisms that have a 3D brain structure. Nonetheless, using only simple patterns of
predictable and unpredictable stimulation, this system was able to shape behaviour in an order of
minutes. While within session learning was well established, between session learning over multiple
days was not observed so robustly. Cultures appeared to relearn associations, with each new session.
Given that cortical cells were selected, this is to be expected. In vivo cortical cells are not known to be
specialised for long-term memory39 . El trabajo futuro con este sistema puede investigar el uso de otros
tipos de células neuronales y/o estructuras biológicas más complejas.

Conclusión

Usando este sistema DishBrain , hemos demostrado que una sola capa de in vitrolas neuronas corticales
pueden autoorganizarse y mostrar un comportamiento inteligente y consciente cuando se incorporan a
un mundo de juego simulado. Hemos demostrado que incluso sin un filtrado sustancial de la actividad
celular, se pueden observar diferencias estadísticamente sólidas a lo largo del tiempo y frente a los
controles en el comportamiento de los cultivos neuronales para adaptarse a tareas dirigidas a objetivos.
Estos hallazgos brindan una demostración convincente del sistema basado en SBI para aprender con el
tiempo de una manera orientada a objetivos dirigida por la entrada. El sistema proporciona la capacidad
para un modelo de aprendizaje completamente visualizado, donde se pueden desarrollar entornos
únicos para evaluar los cálculos reales que realizan las BNN. Esto es algo buscado desde hace mucho
tiempo y se extiende más allá de lo puramente in silico.modelos o predicciones de rutas moleculares
solo (Karr et al., 2012; Whittington et al., 2020; Yu et al., 2018). Por lo tanto, este trabajo proporciona
evidencia empírica que puede usarse para apoyar o desafiar las teorías que explican cómo el cerebro
interactúa con el mundo y la inteligencia en general 11 , 40 . En última instancia, aunque obviamente
todavía se requiere una ingeniería sustancial de hardware, software y software húmedo para mejorar el
sistema DishBrain , este trabajo demuestra el poder computacional de las neuronas vivas para aprender
de forma adaptativa en intercambio activo con su sensorio. Esto representa el paso más grande hasta la
fecha para lograr una sensibilidad sintética capaz de una verdadera inteligencia generalizada.
MÉTODOS

Declaración de Ética

Todos los procedimientos experimentales se realizaron de acuerdo con la Declaración Nacional


Australiana sobre Conducta Ética en la Investigación Humana (2007) y el Código Australiano para el
Cuidado y Uso de Animales con Fines Científicos (2013), según se requiera. El trabajo con animales se
realizó con la aprobación ética E/1876/2019/M del Comité de Ética Animal B de Alfred Research
Alliance. Los experimentos se realizaron en la Universidad de Monash, Alfred Hospital Prescient con las
licencias y aprobaciones personales y de proyectos correspondientes. El trabajo realizado con hiPSC se
realizó de acuerdo con el acuerdo de transferencia de material descrito a continuación.

Procedimientos experimentales

No statistical methods were used to predetermine sample size. As all work was conducted within
controlled environments uninfluenced by experimenter bias, experiments were not randomized, and
investigators were not blinded to experimental condition. However, conditions were blinded before final
analysis to prevent bias during analysis. Figure S5A presents a schematic of the overall experimental
setup.

Animal Breeding and maintenance

BL6/C57 mice were mated at Monash Animal Research Platform (MARP). Upon confirmation of
pregnancy animals were transported via an approved carrier to the Alfred Medical Research and
Education Precinct (AMREP). Pregnant animals were housed in individually ventilated cages until the
date when they were humanely killed, and primary cells were harvested.

Primary Cell Culturing

Las células corticales se disociaron de las cortezas de embriones de ratón E15.5. Se decapitaron los
embriones y con la ayuda de un microscopio estereotáctico se extrajo la piel, el hueso y las meninges, y
se diseccionó la parte anterior de la corteza. Se sembraron aproximadamente 800.000 células en cada
HD-MEA preparado previamente. Los cultivos comenzaron a regular positivamente la actividad
espontánea y mostraron disparos sincronizados alrededor de DIV 10, momento en el que se utilizaron
para la experimentación.

Líneas de células madre

El trabajo inicial se realizó utilizando una línea hiPSC de control suministrada por la Instalación de
edición de genes en el Instituto de Investigación Infantil Murdoch (ATCC ® PCS-201-010) de un fondo
ATCC PCS-201-010 y transferida bajo un Acuerdo de Transferencia de Material. El trabajo posterior
involucró líneas hiPSC utilizadas en este trabajo que expresan constitutivamente indicadores
fluorescentes bajo el control del promotor de gliceraldehído 3-fosfato deshidrogenasa (GAPDH) (las
líneas celulares fueron generadas por el profesor Edouard G. Stanley y colegas del Murdoch Children's
Research Institute y proporcionadas bajo un Acuerdo de Transferencia de Material) 41. El gen GAPDH
codifica una proteína fundamental en la vía glucolítica, mediante la cual se sintetiza ATP a partir de la
glucosa. Como esta función está altamente conservada en múltiples tipos de células, GAPDH se
expresa de manera ubicua en niveles elevados en múltiples tipos de células, lo que lo convierte en un
gen adecuado para basar un sistema de expresión génica 42 . Este sistema de expresión de transgenes,
denominado GAPTrap, implica la inserción del gen informador específico en el locus GAPDH en hiPSC
utilizando tecnología de edición de genes 41 . Para este estudio, se utilizó RM3.5 GT-GFP-01 que expresa
de forma constitutiva la proteína verde fluorescente bajo el promotor GAPDH. La línea RM3.5 hiPSC se
derivó inicialmente de fibroblastos de prepucio humano y se reprogramó usando el vector lentiviral de
cuatro factores hSTEMCCAloxP como se informó anteriormente43 . Todos los procedimientos descritos
a continuación se aplicaron a ambas líneas celulares. Ambas líneas se mantuvieron en un estado
pluripotente indiferenciado en un sistema sin alimentador utilizando medio E8 (StemCell Technologies,
Canadá) complementado con una solución de penicilina/estreptomicina a 5 µl/ml. Las células se
colocaron en placas en matraces Falcon con ventilación azul T25 353108 (Corning, Durham, EE. UU.)
que se recubrieron aproximadamente 1 hora antes con la matriz extracelular vitronectina (Thermo Fisher
Scientific, Carlsbad, EE. UU.).

Mantenimiento de células madre

Todos los procedimientos se llevaron a cabo utilizando técnicas estériles. Antes del pase, se registró la
confluencia celular y se determinó la relación de división requerida. Se aspiró el medio de las células y
se lavaron las células con 5 ml de PBS -/- antes de pasarlas para eliminar las células desprendidas y
otros desechos. Se usaron 3 ml de EDTA 0,05 µM en PBS -/- para la disociación y paso de hiPSC como
agregados sin selección o raspado manual, se agregaron a las células y se dejaron incubar a 37 °C
durante aproximadamente 3,5 minutos. Después de que el examen visual utilizando un microscopio 10X
indicó que las células habían perdido suficiente adherencia, se aspiró EDTA y se aplicó un traumatismo
cerrado a la base del matraz T25 para desalojar las células. Las células se suspendieron en 2 ml de E8 y
se transfirieron a un tubo falcon de 15 ml. Como se describió anteriormente, Se prepararon matraces
T25 recubiertos con vitronectina y se aspiraron antes de añadir 5 ml de solución E8. Se añadió
aproximadamente 1:10 de suspensión celular uniformemente distribuida al matraz T25 preparado.
Luego, el matraz se agitó suavemente para garantizar una distribución uniforme antes de incubarlo
durante la noche a 37 °C. Los medios se cambiaron diariamente.
Diferenciación dual SMAD de células madre

La diferenciación celular siguió un protocolo de inhibición de SMAD dual titulado para la generación de
células corticales a partir de células pluripotentes establecido por el grupo de Livesey con ajustes
menores como se representa en la Figura S5B 19. Las células se sembraron en placas de 24 pocillos
recubiertas con laminina humana H521. Cuando las células alcanzaron una confluencia de ≈80 %, se
inició la inducción neural utilizando el medio base de mantenimiento neural estándar (N2B27) con 100
ng/ml de LDN193189 (Stemcell Technologies Australia, Melbourne, Australia) y 10 µm SB431542
(Stemcell Technologies Australia, Melbourne, Australia) . El medio se cambió todos los días desde el día
0 hasta el día 12. Después de la aparición de rosetas neurales y pases iniciales, se utilizó medio N2B27
estándar con FGF2 20 ng/ml desde el día 12 hasta el día 17 para lograr un patrón de prosencéfalo
dorsal. Luego, las células se expandieron y se consideraron listas para sembrarse en MEA o
portaobjetos según la morfología aproximadamente a los 30 a 33 días. El día del trasplante, las células
se separaron con Accutase (Stemcell Technologies Australia, Melbourne,g . El sedimento celular se
resuspendió a 10.000 células/µl en medios de mantenimiento neural BrainPhys (Stemcell Technologies
Australia, Melbourne, Australia) con Rho Kinase Inhibitor IV (Stemcell Technologies Australia, Melbourne,
Australia; dilución 1:50) con aproximadamente 106 células sembradas en cada MEA. Las células
comenzaron a mostrar una actividad espontánea temprana pero generalizada alrededor de DIV 80,
momento en el que estaban listas para la experimentación.

Diferenciación directa NGN2 de células madre

Las neuronas excitatorias corticales se generaron mediante la expresión de NGN2 en iPSC. Los IPSC se
colocaron en placas a 25 000 células/cm 2en una placa de 24 pocillos recubierta con 15 µg/ml de
laminina humana (Sigma, EE. UU.). Al día siguiente, las células se transdujeron con lentivirus NGN2 (que
contiene un promotor controlado por tetraciclina junto con un casete de selección de puromicina) en
combinación con un lentivirus para el rtTA (transactivador controlado por tetraciclina inversa). La
expresión del gen NGN2 se activó mediante la adición de 1 µg/ml de doxiciclina (Sigma, Australia), esto
se denominó día 0 de diferenciación. (todos los reactivos de Thermofisher, EE. UU.) B27 (n.º 17504-044),
N2 (17502-048), Glutamax (n.º 35050-060), NEAA (n.º 11140-050), β-mercaptoetanol, ITS-A (n.º 51300-
044) y penicilina/estreptomicina (#15140-122). El día 1, 1,0 µg/ml de puromicina (Sigma, Australia)
durante 3 días, momento en el que las neuronas se complementaron con 10 µg/ml de BDNF (Peprotech,
EE. UU.) y se levantaron con accutase, en preparación para la siembra en chips HD-MEA. Los chips HD-
MEA se pretrataron con 100 µg/ml de PDL (Sigma, EE. UU.) y 15 µg/ml de laminina (Sigma, EE. UU.). Por
cada pocillo 1×10Se combinaron 5 neuronas inducidas por NGN2 en DD4 con 2,5 x 104 astrocitos humanos primarios
(ScienceCell, EE. UU.) en cada pocillo de la placa MEA. Para detener la división celular de los astrocitos,
se añadió hidrocloruro de Ara-C 2,5 µM (Sigma, EE. UU.) el día 5 durante 48 horas. Las células se
mantuvieron en medios neuronales suplementados con BDNF y los medios se cambiaron al menos 1
día antes de las grabaciones.

Configuración y preparación de MEA

MaxOne Multielectrode Arrays (MEA; Maxwell Biosystems, AG, Switzerland) were used for this research.
The MaxOne is a high-resolution electrophysiology platform featuring 26,000 platinum electrodes
arranged over an 8 mm2. The MaxOne system is based on complementary meta-oxide-semiconductor
(CMOS) technology and allows recording from up to 1024 channels and stimulation from up to 32 units.
MEAs and chambered glass slides are coated with either polyethylenimine (PEI) in borate buffer for
primary culture cells or Poly-D-Lysine for cells from an iPSC background before being coated with either
10 µg/ml mouse laminin or 5 µg/ml human 521 Laminin (Stemcell Technologies Australia, Melbourne,
Australia) respectively to facilitate cell adhesion.

Plating and Maintaining Cells on MEA

Approximately 106 cells were plated on MEA after preparation via method already described. Cells were
allowed approximately one hour to adhere to MEA surface before the well was flooded. The day after
plating, cell culture media was changed to BrainPhys™ Neuronal Medium (Stemcell Technologies
Australia, Melbourne, Australia) supplemented with 1% penicillin-streptomycin. Cultures were maintained
in a low O2 incubator kept at 5% CO2, 5% O2, 36°C and 80% relative humidity. Every two days, half the
media from each well was removed and replaced with free media. Media changes always occurred after
all recording sessions.

Measuring of Electrophysiological Activity

Licenced MaxLab Live Scope V20.1 software was used to run activity scans. Checkerboard assays
consisting of 14 configurations at 15 seconds of spike only record time were run daily immediately
preceding the running of the DishBrain software. Gain was set to 512x with a 300 Hz high pass filter.
Spike threshold was set to be a signal six sigma greater than background noise as per recommended
software settings. Mean, max and variance of both amplitudes and firing rates was extracted from these
assays and mapped using custom software: the first nine components of discrete cosine transform
basis functions of space were used to summarise the spatial profile of spiking activity. The ensuing
coefficients were then used in subsequent correlation analyses.

DishBrain software platform

Las plataformas actuales de DishBrain están configuradas como un sistema de control MEA en tiempo
real y de baja latencia con software de detección y registro de picos en línea. Consulte la Figura S3 y el
Texto complementario 1 . El software DishBrain funciona a 20 000 Hz y permite grabar en esta escala
de tiempo increíblemente fina. Al trabajar en estrecha colaboración con MaxWell Biosystems,
habilitamos capacidades que no están disponibles con el software del proveedor nativo. La API
existente se usaba solo para cargar configuraciones. El código de bajo nivel se escribió en C para
permitir latencias de procesamiento mínimas, por lo que la latencia de procesamiento de paquetes era
típicamente <50 µs. El código de alto nivel, incluidos los ajustes de configuración e instrucciones más
amplias para la configuración del juego, se implementaron en Python. Figura S5Cmuestra una imagen
del visualizador del juego y una versión interactiva en tiempo real está disponible en
https://spikestream.corticallabs.com/. Esto permitió una latencia de pico a estímulo de
aproximadamente 5 ms, con un retraso sustancial debido al almacenamiento en búfer de hardware
inflexible integrado en el hardware de MaxOne. En su caso, se utilizó el algoritmo de aprendizaje
automático EXP3 para muestrear dos regiones motoras predefinidas para seleccionar la mejor
configuración para interpretar los comandos de movimiento de la paleta. Cuando el sistema no pudo
mover la 'paleta' a la posición correcta (para hacer contacto con la pelota), se aplicó un estímulo
aleatorio al cultivo a 5 Hz y 150 mV. Después de un retraso de 1 s, para permitir que el cultivo se
recuperara, se reanudó el juego. El software de detección de picos en línea se desarrolló utilizando un
detector basado en umbral adaptativo. El umbral se fijó normalmente en 6 sigmas por encima de las
estimaciones de ruido. Establecimos este uso de una estimación de la desviación media absoluta
(MAD), que se multiplicó por un factor de corrección.

Configuración de entrada

La estimulación se entrega a un Hz y un voltaje determinados, como se describe en el texto principal, a


electrodos clave en un área sensorial, como se muestra en la Figura 4B . Los experimentos iniciales
entregaron estimulación puramente codificada por lugares, donde la distancia desde el centro del área
sensorial se interpretó como la distancia desde el centro de la paleta alineada con la pelota. Como se
describe en el texto principal, los experimentos posteriores adoptaron un esquema de codificación
mixta, en el que la codificación de lugar se combinó con una codificación de frecuencia que generaba
estímulos a 4 Hz cuando la pelota estaba más cerca de la pared contraria y aumentaba a un máximo de
40 Hz a medida que aumentaba la frecuencia. pelota llegó a la pared de paddle.

Configuración de salida

Inicialmente se definieron dos regiones motoras predefinidas en el MEA. La actividad se midió sobre
estas dos regiones, donde la región con mayor actividad movería la paleta en la dirección
correspondiente. Se encontró que esto era extremadamente sensible a las características del cultivo,
donde la actividad de picos espontáneos asimétricos en los cultivos haría que la paleta se moviera
rápidamente en una sola dirección. Para contrarrestar esto, se implementó una función de ganancia, que
midió la actividad en ambas regiones y agregó un multiplicador a un objetivo de 20 Hz. La actividad >20
Hz se ponderó con un factor de corrección >1, mientras que la actividad <20 Hz se ponderó con un
factor de corrección <1. Se implementó un algoritmo EXP3 para seleccionar las diferentes opciones de
configuración ilustradas en la Figura S3 44. Descubrimos que los cultivos experimentales preferían la
configuración 3, mientras que los cultivos de control de medios preferían la configuración 0. Como tal,
se seleccionó la configuración 3 porque ofrecía la posibilidad de características biológicamente
relevantes, como la inhibición lateral, y minimizaba la posibilidad de un desempeño aparentemente
exitoso a través del sesgo. solo, ya que excluye una relación directa entre la estimulación de entrada y el
registro de actividad de salida.

Algoritmo EXP3

Inicialmente se utilizó un algoritmo de peso exponencial para exploración y explotación (EXP3) para la
selección adaptativa de diseños de electrodos, con el objetivo de optimizar el rendimiento del juego 45 .
Este algoritmo se implementó para mantener una lista de pesos para cada acción y se diseñó para
minimizar el arrepentimiento al dar preferencia a las configuraciones de electrodos que estaban
asociadas con una mayor probabilidad de que se devolviera la pelota. Esto se describe en detalle en el
Texto Suplementario 2 .

Inmunocitoquímica

Las células se lavaron tres veces con PBS estéril y luego se fijaron con PFA al 4 % durante 20 minutos.
Después de lavar, las células se bloquearon con Triton-X al 0,3 % y suero de cabra al 1 % en PBS durante
1 h. Anticuerpos primarios específicos para Synapsin1 (1:500; ab254349; Rabbit; Abcam, Cambridge,
MA, EE. UU.), NeuN (1:500; ab104225; Rabbit; Abcam, Cambridge, MA, EE. UU.), Beta-III Tubulin (1:500 ;
MAB1637, Ratón; Kenilworth, NJ, EE. UU.), MAP2 (1:1000; Pollo; ab5392; Abcam, Cambridge, MA, EE.
UU.), TBR1 (1:200; ab183032; Conejo; Abcam, Cambridge, MA, EE. UU.), GFAP (1:500; ab4674; pollo;
Abcam, Cambridge, MA, EE. UU.) y KI67 (1:500; ab245113; ratón; Abcam, Cambridge, MA, EE. UU.) se
aplicaron durante la noche. Después del lavado, los anticuerpos secundarios (pollo 555, conejo 488,
ratón 647; Abcam, Cambridge, MA, EE. UU.) se incubaron durante 2 horas. Esto fue seguido por 10
minutos de solución de tinción DAPI en PBS (1:1000, ab228549,Microscopía electrónica de barrido. En
varios puntos finales designados, los medios se aspiraron de los pocillos MEA y las células se fijaron
con glutaraldehído al 2,5 % (Electron Microscopy Sciences, PA, EE. UU.) y paraformaldehído al 2 %
(Electron Microscopy Sciences, PA, EE. 1 hora Luego se lavaron tres veces en tampón de cacodilato de
sodio 1 M antes de fijarlos posteriormente con OsO 4 al 1 % en un tampón de cacodilato de sodio 1 M
durante 1 hora. OsO 4se eliminó y las células fijadas se lavaron tres veces con agua milliQ y se
deshidrataron mediante un intercambio de gradiente de etanol (30 %, 50 %, 70 %, 90 %, 100 %, 100 % v/v)
durante 15 minutos cada una. Después de la deshidratación, las células se secaron mediante
intercambio de hexametildisilazano (Sigma Aldrich, St. Louis, MO, EE. UU.) (3 x 10 min) y luego se
dejaron evaporar durante 5-10 min. Luego, los chips MEA se fijaron a un trozo de aluminio con cinta de
carbono y se recubrieron con una capa de oro de 30 nm usando un recubrimiento de oro BAL-TEC SCD-
005. Todos los procedimientos se realizaron a temperatura ambiente. A continuación, se tomaron
imágenes de los chips MEA revestidos utilizando un FEI Nova NanoSEM 450 FEGSEM que funciona con
un voltaje de aceleración de 10 kV y una distancia de trabajo de 12 mm. Luego, las imágenes se
analizaron con ImageJ v. 1.52k y se colorearon en falso con Adobe Photoshop.

Microscopía de fluorescencia de campo amplio

Las imágenes se capturaron utilizando un microscopio de luz vertical Nikon Ti-E equipado con una
platina motorizada. Todas las imágenes de campo amplio se capturaron con un objetivo de 20X.

Análisis de los datos

Los datos se analizaron utilizando código personalizado escrito en Python. Las barras de error se
describen en los títulos, excepto cuando los gráficos son diagramas de caja y bigotes, donde la línea es
la mediana, el cuadro indica el cuartil inferior al cuartil superior y las barras de error muestran el resto de
la distribución excluyendo los valores atípicos. Los datos ilustrativos proporcionados en el texto y las
figuras incluyen medias y desviaciones estándar. Se adoptó un alfa de p < 0,05 para establecer la
significación estadística, proporcionando un 5 % de probabilidad de un error de falso positivo. Cuando se
cumplieron los supuestos adecuados, se utilizaron estadísticas frecuentistas inferenciales para
determinar si existían diferencias estadísticamente significativas entre los grupos. Todas las pruebas
fueron pruebas de dos colas para la significación estadística. Para muestras relacionadas pruebas t o T
independiente-los valores alfa de las pruebas de significación se corrigieron mediante el método de
Bonferroni. Para el análisis de varianza unidireccional (ANOVA) y el ANOVA multivariante de medidas
repetidas 2 x 3 cuando se encontró una interacción significativa o un efecto principal, se siguió con
pruebas post hoc de Games-Howell por parejas con corrección de Tukey para comparaciones múltiples.
Esto se adoptó porque siempre hubo diferencias entre los tamaños de muestra y la varianza debido a la
inclusión de controles in-silico. Como se ve en la Figura S5D , se usaron cuatro funciones básicas de
DCT para resumir los modos espaciales de actividad espontánea. Las correlaciones de Pearson por
pares se utilizaron para probar la relación entre las puntuaciones resultantes, junto con el tiempo (s) y
las tasas de disparo máximas y medias (Hz), con la duración promedio del peloteo.

Acceso a los datos

Todos los datos que no se consideran material patentado están disponibles para compartir previa
solicitud razonable al autor correspondiente para ayudar con la reproducibilidad.
Acceso a código personalizado

Todos los códigos personalizados que no se consideran material patentado están disponibles para
compartir previa solicitud razonable al autor correspondiente para ayudar con la reproducibilidad.

Conflicto de intereses

Los autores BJK y AK son empleados de CCLabs Pty Ltd, que opera como Cortical Labs, una empresa
emergente sin ingresos que investiga la inteligencia biológica y tiene interés en las patentes
relacionadas con estos hallazgos. Ningún autor ha recibido ningún incentivo financiero específico o de
otro tipo para la publicación de este manuscrito. No hay otros intereses en competencia.

Contribuciones de autor

Conceptualización, BJK, AK, ARKJF; metodología, BJK, AK; software: AK, BJK; validación, BJK, NTT, BJP;
análisis formal, BJK; cultivo celular, BJK, NTT, BJP, BR; investigación, BJK, NTT, BJP; curación de datos,
BJK, AK; redacción—preparación del borrador original, BJK; redacción: revisión y edición, BJK, KJF, AR,
AB, NTT, BJP, BR; visualización, BJK, NTT, BJP, BR; administración de proyectos, BJK; supervisión, BJK

Texto complementario

Texto complementario 1: Desarrollo de la plataforma modular en tiempo real DishBrain para aprovechar la
computación neuronal

El MaxOne MEA no solo es capaz de medir los cambios en la actividad eléctrica provocados por los
potenciales de acción, sino también de estimular las células en un rango de voltajes, de una manera que
es relativamente no invasiva para las células, y provoca efectivamente potenciales de acción o
respuestas en de manera comparable a la estimulación eléctrica interna 26 . Con el esquema de
codificación apropiado, los estímulos eléctricos externos pueden transmitir una variedad de
información, brindando la capacidad no solo de 'leer' información de una cultura neuronal, sino también
de 'escribir' datos en una. Nos propusimos construir un sistema, llamado ' DishBrain' (Fig, S2A ), lo que
nos permitiría integrar estos dos principios en un circuito cerrado, con la esperanza de permitir que las
neuronas logren encarnación y agencia en un entorno virtual, con efectos de aprendizaje demostrables.
El sistema DishBrain está controlado por un software de baja latencia en tiempo real llamado '
DishServer', que reemplaza y amplía una pieza correspondiente del software del proveedor MaxWell
llamada 'MXWServer'. DishServer es capaz de recibir lecturas de voltaje del hardware del proveedor
MaxOne, procesar estas lecturas, simular un entorno virtual, codificar los resultados como comandos de
electrodos MaxOne y enviar estos comandos al hardware MaxOne. Cuando se ejecuta en una
computadora con acceso a una configuración de hardware MaxOne con una cultura en vivo, el sistema
actúa como un circuito cerrado que podemos configurar y registrar para su análisis. El sistema también
se adapta fácilmente a otros entornos virtuales y de hardware MEA, que podrían exhibir diferentes
efectos de aprendizaje y encarnación si se prueban.

Hasta ahora, el uso principal de DishBrain ha sido incorporar culturas neuronales en una simulación del
clásico juego de arcade 'pong', con actividad neuronal leída de múltiples 'regiones motoras' definidas
por distintos subconjuntos de MEA e información sensorial codificada como estimulación. en
cualquiera de los ocho sitios de estimulación distintos colocados frente a esas regiones motoras.
MaxOne MEA está configurado para leer hasta 1024 de sus 26 400 electrodos, a una velocidad de 20
000 muestras por segundo. Como se muestra en la Figura S2B, estas muestras se registran
opcionalmente tal cual, para un análisis posterior, pero también se ejecutan a través de una secuencia
de filtros de respuesta de impulso infinito (IIR) computacionalmente eficientes para calcular los niveles
de ruido y actividad, que se comparan para detectar picos. Las muestras entrantes se filtran con un filtro
Bessel de paso alto de segundo orden con un corte de 100 Hz, el valor absoluto luego se suaviza
usando un filtro Bessel de paso bajo de primer orden con un corte de 1 Hz, el umbral de pico es
proporcional a este valor absoluto suavizado . Los picos se registran opcionalmente y, de cualquier
manera, se cuentan durante un período de 10 milisegundos (200 muestras), momento en el que el
entorno del juego recibe la cantidad de picos detectados en cada uno de los electrodos configurados, y
estos recuentos de picos se interpretan como actividad motora según la región motora en la que
ocurrieron los picos, moviendo la paleta hacia arriba o hacia abajo. En cada uno de estos intervalos de
10 ms, el juego de pong también se actualiza, con una pelota moviéndose alrededor de un área de juego
a una velocidad fija, 'rebotando' en los bordes del área de juego y fuera de la paleta, hasta que golpea el
borde del área de juego. detrás de la paleta, que marca el final de un 'rally' de pong. Durante cada jugada,
la ubicación de la pelota en relación con la paleta se codifica como estimulación en uno de los ocho
sitios de estimulación, que se rastrea en un módulo interno de 'secuenciador de estimulación'. El
secuenciador de estimulación se actualiza 20.000 veces por segundo, una vez cada vez que se recibe
una muestra del MEA, y una vez que el lote anterior de comandos MEA debería haber terminado,
construye otra secuencia de comandos MEA basada en el código de lugar y el código de tasa.
información que ha sido configurado para transmitir. Los estímulos toman la forma de un pulso bifásico
cuadrado corto que es un voltaje positivo, luego un voltaje negativo. Un convertidor de digital a
analógico (o DAC) en el MEA leerá y aplicará esta secuencia de pulsos al electrodo dado. Para
interactuar con la API de Maxwell,DishBrain usa primero un valor DAC negativo porque corresponde a un
voltaje positivo en la API de MaxWell. Al final del rally, el entorno del juego configurará el secuenciador
de estimulación para aplicar estimulación en sitios aleatorios, durante un período de cuatro segundos,
seguido de un período de descanso configurable de hasta cuatro segundos, seguido por el siguiente
rally. Finalmente, la detección de picos también es capaz de 'cegarse', lo que se espera que ocurra
después de cada estimulación; Para evitar que la estimulación DAC se interprete como actividad
neuronal, los 1024 canales se ignoran para un número configurable de muestras, después de detectar
actividad anómala directamente o después de recibir el reconocimiento del MEA de que se ha ejecutado
un comando DAC.

Dada la multitud de posibles variaciones inherentes a un sistema como este, fue necesario fijar algunos
parámetros y probar empíricamente otros. La estimulación se entrega en ubicaciones, frecuencia y
voltaje específicos a los electrodos clave de una manera topográficamente consistente en el área
sensorial en relación con la posición actual de la paleta ( Figura S3 : Configuración 0). Esto fue diseñado
para imitar las representaciones topográficas y retinotópicas que se encuentran comúnmente en casi
todos los sistemas neuronales para representar el mundo externo 46 , 47. Otros parámetros, como el
voltaje, se determinaron mediante pruebas empíricas. Se realizaron pruebas iniciales para evaluar en
qué condiciones sobrevivirían los cultivos celulares. Se encontró que el tiempo de prueba era un
parámetro muy sensible, ya que las células no toleraban tiempos de prueba >1,5 horas. Cuando se
tomaron las medidas, se llegó a la conclusión de que esto probablemente se debía al aumento de la
temperatura en el pocillo en el que se sembraron las células debido a la actividad y al aumento
resultante de la evaporación y los cambios en la osmolaridad. Para sorpresa de los investigadores, las
células sobrevivieron a la administración de estimulación de hasta 3000 mV durante una hora, que fue el
tiempo máximo de prueba considerado dados los hallazgos anteriores. Si bien esto creó un exceso de
ruido al registrar la actividad celular en el MEA durante el período de estimulación, no hubo cambios
significativos en la actividad espontánea en los cultivos celulares antes y después del período de
administración de estímulos. Dado que las células parecían resistentes a la estimulación con voltaje, se
tomó la decisión de basar los niveles de voltaje en la evidencia existente de función neurológica. Para
evitar forzar el disparo de las células hiperpolarizadas, se eligió 75 mV a 4 Hz como el voltaje de
estimulación sensorial que se relacionaría con la posición de la pelota en relación con la paleta. Con el
fin de agregar un estímulo externo impredecible al sistema, cuando el cultivo no logra alinear la pala
para conectarse con la pelota, el estímulo de "castigo" se fijó en un voltaje de 150 mV y 5 Hz. Se planteó
la hipótesis de que este voltaje más alto sería suficiente para forzar potenciales de acción en las células
sometidas a la estimulación, independientemente del estado en el que se encontrara la célula. siendo
así aún más perjudicial para la cultura. Inicialmente, se definieron dos áreas distintas como "regiones
motoras", donde la actividad en la región motora 1 movía la paleta "a la izquierda" y la actividad en la
región motora 2 movía la paleta "a la derecha". Debido a la dificultad técnica de cultivar neuronas que
mostraban una actividad perfectamente simétrica en ambas regiones, se encontró que era necesario
agregar 'ganancia' a nuestro sistema. Estos tomaron un valor en tiempo real basado en el disparo medio
en cada región motora y lo multiplicaron para lograr un valor objetivo de 20 Hz en toda la región. Esto
permitiría que los cambios en la actividad en cada región determinada influyan en la posición de las
paletas, incluso si muestran una actividad espontánea latente diferente. donde la actividad en la región
motora 1 movió la paleta 'izquierda' y la actividad en la región motora 2 movió la paleta 'derecha'. Debido
a la dificultad técnica de cultivar neuronas que mostraban una actividad perfectamente simétrica en
ambas regiones, se encontró que era necesario agregar 'ganancia' a nuestro sistema. Estos tomaron un
valor en tiempo real basado en el disparo medio en cada región motora y lo multiplicaron para lograr un
valor objetivo de 20 Hz en toda la región. Esto permitiría que los cambios en la actividad en cada región
determinada influyan en la posición de las paletas, incluso si muestran una actividad espontánea latente
diferente. donde la actividad en la región motora 1 movió la paleta 'izquierda' y la actividad en la región
motora 2 movió la paleta 'derecha'. Debido a la dificultad técnica de cultivar neuronas que mostraban
una actividad perfectamente simétrica en ambas regiones, se encontró que era necesario agregar
'ganancia' a nuestro sistema. Estos tomaron un valor en tiempo real basado en el disparo medio en cada
región motora y lo multiplicaron para lograr un valor objetivo de 20 Hz en toda la región. Esto permitiría
que los cambios en la actividad en cada región determinada influyan en la posición de las paletas,
incluso si muestran una actividad espontánea latente diferente. Estos tomaron un valor en tiempo real
basado en el disparo medio en cada región motora y lo multiplicaron para lograr un valor objetivo de 20
Hz en toda la región. Esto permitiría que los cambios en la actividad en cada región determinada
influyan en la posición de las paletas, incluso si muestran una actividad espontánea latente diferente.
Estos tomaron un valor en tiempo real basado en el disparo medio en cada región motora y lo
multiplicaron para lograr un valor objetivo de 20 Hz en toda la región. Esto permitiría que los cambios en
la actividad en cada región determinada influyan en la posición de las paletas, incluso si muestran una
actividad espontánea latente diferente.

Texto complementario 2: El desarrollo de un algoritmo EXP3 para evaluar diferentes diseños de registro de
regiones motoras y un mayor refinamiento de los protocolos de cegamiento

Después de la prueba piloto inicial del DishBrainsistema, se identificaron dos caminos para modificar el
rendimiento: la codificación de la información y la decodificación de la actividad. El enfoque inicial fue
mejorar este último. Se planteó la hipótesis de que el sistema de decodificación simplificado para medir
la actividad en dos regiones motoras que eran congruentes donde se estimulaba la actividad podría no
solo ser ineficiente sino también propenso a sesgos. Para investigar esto más a fondo, se utilizó un
algoritmo de aprendizaje automático EXP3 para muestrear dos regiones motoras predefinidas para
seleccionar la mejor configuración de seis configuraciones posibles e interpretar los comandos de
movimiento para esta paleta. El algoritmo EXP3 se utilizó para la selección adaptativa de los diseños de
electrodos, con el objetivo de aumentar la cantidad esperada de veces que una cultura puede golpear la
pelota en cada jugada de pong. EXP3 es robusto a los cambios en la distribución subyacente de
rendimientos; esto es importante porque las neuronas también están aprendiendo al mismo tiempo y su
comportamiento cambia con el tiempo. Optimizar todas las asignaciones posibles de electrodos a
acciones requeriría un conjunto prohibitivamente grande de opciones, por lo que se utilizó un conjunto
representativo de diseños equilibrados. EXP3 es un algoritmo de optimización en línea para el problema
del "bandido armado múltiple". Selecciona entre varias opciones discretas, en una serie de rondas. Cada
elección discreta produce una pérdida estocástica observable. La mejor opción nunca se revela, ni
siquiera post-hoc. La calidad de las elecciones solo puede inferirse de retornos ruidosos; la exploración
y la explotación deben estar equilibradas. En este trabajo, se eligió en cada ronda uno de un conjunto
discreto de mapeos de acción de electrodos llamados "diseños de motor". La pérdida a minimizar se
calcula utilizando la siguiente ecuación: y su comportamiento cambia con el tiempo. Optimizar todas las
asignaciones posibles de electrodos a acciones requeriría un conjunto prohibitivamente grande de
opciones, por lo que se utilizó un conjunto representativo de diseños equilibrados. EXP3 es un algoritmo
de optimización en línea para el problema del "bandido armado múltiple". Selecciona entre varias
opciones discretas, en una serie de rondas. Cada elección discreta produce una pérdida estocástica
observable. La mejor opción nunca se revela, ni siquiera post-hoc. La calidad de las elecciones solo
puede inferirse de retornos ruidosos; la exploración y la explotación deben estar equilibradas. En este
trabajo, se eligió en cada ronda uno de un conjunto discreto de mapeos de acción de electrodos
llamados "diseños de motor". La pérdida a minimizar se calcula utilizando la siguiente ecuación: y su
comportamiento cambia con el tiempo. Optimizar todas las asignaciones posibles de electrodos a
acciones requeriría un conjunto prohibitivamente grande de opciones, por lo que se utilizó un conjunto
representativo de diseños equilibrados. EXP3 es un algoritmo de optimización en línea para el problema
del "bandido armado múltiple". Selecciona entre varias opciones discretas, en una serie de rondas. Cada
elección discreta produce una pérdida estocástica observable. La mejor opción nunca se revela, ni
siquiera post-hoc. La calidad de las elecciones solo puede inferirse de retornos ruidosos; la exploración
y la explotación deben estar equilibradas. En este trabajo, se eligió en cada ronda uno de un conjunto
discreto de mapeos de acción de electrodos llamados "diseños de motor". La pérdida a minimizar se
calcula utilizando la siguiente ecuación: Optimizar todas las asignaciones posibles de electrodos a
acciones requeriría un conjunto prohibitivamente grande de opciones, por lo que se utilizó un conjunto
representativo de diseños equilibrados. EXP3 es un algoritmo de optimización en línea para el problema
del "bandido armado múltiple". Selecciona entre varias opciones discretas, en una serie de rondas. Cada
elección discreta produce una pérdida estocástica observable. La mejor opción nunca se revela, ni
siquiera post-hoc. La calidad de las elecciones solo puede inferirse de retornos ruidosos; la exploración
y la explotación deben estar equilibradas. En este trabajo, se eligió en cada ronda uno de un conjunto
discreto de mapeos de acción de electrodos llamados "diseños de motor". La pérdida a minimizar se
calcula utilizando la siguiente ecuación: Optimizar todas las asignaciones posibles de electrodos a
acciones requeriría un conjunto prohibitivamente grande de opciones, por lo que se utilizó un conjunto
representativo de diseños equilibrados. EXP3 es un algoritmo de optimización en línea para el problema
del "bandido armado múltiple". Selecciona entre varias opciones discretas, en una serie de rondas. Cada
elección discreta produce una pérdida estocástica observable. La mejor opción nunca se revela, ni
siquiera post-hoc. La calidad de las elecciones solo puede inferirse de retornos ruidosos; la exploración
y la explotación deben estar equilibradas. En este trabajo, se eligió en cada ronda uno de un conjunto
discreto de mapeos de acción de electrodos llamados "diseños de motor". La pérdida a minimizar se
calcula utilizando la siguiente ecuación: EXP3 es un algoritmo de optimización en línea para el problema
del "bandido armado múltiple". Selecciona entre varias opciones discretas, en una serie de rondas. Cada
elección discreta produce una pérdida estocástica observable. La mejor opción nunca se revela, ni
siquiera post-hoc. La calidad de las elecciones solo puede inferirse de retornos ruidosos; la exploración
y la explotación deben estar equilibradas. En este trabajo, se eligió en cada ronda uno de un conjunto
discreto de mapeos de acción de electrodos llamados "diseños de motor". La pérdida a minimizar se
calcula utilizando la siguiente ecuación: EXP3 es un algoritmo de optimización en línea para el problema
del "bandido armado múltiple". Selecciona entre varias opciones discretas, en una serie de rondas. Cada
elección discreta produce una pérdida estocástica observable. La mejor opción nunca se revela, ni
siquiera post-hoc. La calidad de las elecciones solo puede inferirse de retornos ruidosos; la exploración
y la explotación deben estar equilibradas. En este trabajo, se eligió en cada ronda uno de un conjunto
discreto de mapeos de acción de electrodos llamados "diseños de motor". La pérdida a minimizar se
calcula utilizando la siguiente ecuación: la exploración y la explotación deben estar equilibradas. En este
trabajo, se eligió en cada ronda uno de un conjunto discreto de mapeos de acción de electrodos
llamados "diseños de motor". La pérdida a minimizar se calcula utilizando la siguiente ecuación: la
exploración y la explotación deben estar equilibradas. En este trabajo, se eligió en cada ronda uno de un
conjunto discreto de mapeos de acción de electrodos llamados "diseños de motor". La pérdida a
minimizar se calcula utilizando la siguiente ecuación:

Donde loss_i es la pérdida al final del rally i y score_i es el número de rebotes durante ese rally. Durante
el i-ésimo rally, se utiliza layout_i y se fija durante todo el rally. Al final de la jugada, EXP3 elige layout_i+1
para la siguiente jugada y el juego continúa. Cuando se utiliza EXP3, el sistema puede optimizar el
rendimiento de forma adaptativa eligiendo entre un conjunto fijo de diseños de motor alternativos (
Figura S3 ). Al mismo tiempo, se implementó un nuevo método de cegamiento (consenso ciego) basado
en el cegamiento de todas las señales cuando se detectaron >15 picos grandes simultáneos (>75 mV)
para bloquear la estimulación proporcionada por el sistema para que no se registrara como actividad
celular. Se planteó la hipótesis de que la falta de cegamiento de las señales administradas puede
contribuir al rendimiento aparente observado en los controles de nuestro estudio piloto. Como se
describe en el texto principal y se muestra en la Tabla S3 , se encontró que los chips experimentales con
configuraciones que permitirían la inhibición lateral se seleccionaron significativamente más en
comparación con otras configuraciones, lo que resultó en una distribución equitativa ( χ2 = 35690.93,
p<0.0001), incluidos aquellos que fueron más simplificados como el que se usó en el piloto donde la
actividad de la izquierda movió la paleta hacia la izquierda y viceversa ( Figura S3 : Configuración 0 ) y
sería más fácilmente influenciable por varias fuentes de sesgo. Este comportamiento se ha observado
en experimentos que involucran múltiples funciones neurológicas humanas y de ratones 48 – 50 . Cuando
se compararon las tablas de frecuencia de estas dos distribuciones, también se encontró que eran
significativamente diferentes ( χ2 = 15229.323, p <0.0001). Teniendo en cuenta estas diferencias, no es
válido comparar grupos experimentales y de control, ya que operan con diferentes tipos de
configuraciones.

Dada la aparente preferencia por configuraciones que permitirían que se produjeran procesos como la
inhibición lateral en chips experimentales, junto con la preocupación de tener diferentes grupos
operando desde diferentes configuraciones, se decidió seleccionar la configuración 3 para todas las
culturas en el futuro, ya que se eligió más frecuentemente por el algoritmo EXP3. Además, si el
cegamiento por consenso se comportó como se esperaba, los chips de control tampoco deberían
mostrar preferencia. Esto nos llevó a sospechar que el cegamiento por consenso era ineficaz y en una
investigación más profunda, particularmente cuando se usaba una frecuencia más alta y variable de
estimulación sensorial, descubrimos más evidencia de fallas en el cegamiento por consenso de lo que
revelaron nuestras pruebas anteriores. Para contrarrestar esto, se implementó un nuevo método de
cegamiento, que se denominó "cegamiento de recuento de comandos". Este método cegó nuestra
lectura de toda la actividad motora cuando se envió un comando para generar cualquier forma de
estimulación. Durante las pruebas, se encontró que esto era significativamente más sólido que el
cegamiento de consenso utilizado anteriormente y nos permitió continuar con el aumento de la
densidad y la variabilidad de la estimulación sensorial. También se implementó un segundo método de
recopilación de datos de control mediante la recopilación de datos durante los períodos de "descanso",
mediante el cual el juego continuaría con todos los eventos todavía registrados, pero no se administró
estimulación a la cultura.
Figura S1.

Las neuronas corticales se pueden obtener a través de múltiples métodos.


Barras de escala como se muestra en la figura. A) Las neuronas corticales primarias de ratón muestran una expresión
diversa de synapsin1 que marca las vesículas sinápticas y los filamentos de actina a través de redes neuronales de largo
alcance. B) - F) Muestra que usando una línea celular RM3.5 se pueden generar cultivos corticales comparables usando el
protocolo de inhibición dual SMAD descrito en Métodos. B) Muestra la expresión endógena de GFP, axones marcados con
BIII y falta de Ki67, lo que sugiere que no hay células en división, C) muestra adicionalmente que estas células expresan
GFAP para apoyar a las células gliales Más imágenes en D)muestran una estructura de neuroesfera característica, las
neuronas a menudo se forman espontáneamente cuando se colocan en placas a alta densidad, una pseudo esfera
tridimensional densa con conexiones densas de neuronas y axones en todas partes. E) y F) muestran hIPCS diferenciadas
en neuronas utilizando el método NGN2 y neuronas corticales primarias de ratón, respectivamente, ambas en placas de HD-
MEA y se dejan madurar antes de la tinción. Estas celdas muestran todos los marcadores descritos anteriormente, pero
debido al material reflectante del chip CMOS, no es factible obtener imágenes fluorescentes de alta resolución de las celdas
en los chips, lo que lleva a la adopción de imágenes SEM que se muestran en el texto principal. G) y H) también muestran
hIPCS diferenciadas a neuronas utilizando el método NGN2; GRAMO)Tinción de cultivos de monocapa neuronal madura con
la mayoría de las células que expresan NeuN que marca las células neuronales, MAP2 marca las dendritas y β3-tubulina que
marca los axones de largo alcance. H) La tinción adicional muestra que, junto con la β3-tubulina, estas células expresan el
marcador presináptico synapsin1 a través del soma y las proyecciones celulares.
Figura S2

Esquemas del software utilizado para DishBrain .


A)Componentes de software y flujo de datos en el sistema de circuito cerrado DishBrain. Las muestras de voltaje fluyen
desde el MEA al entorno 'pong', y la información sensorial fluye desde el entorno 'pong' de regreso al MEA, formando un
circuito cerrado. Los rectángulos azules marcan piezas de hardware patentadas de MaxWell, incluido el pozo MEA, que
puede contener un cultivo vivo de neuronas. El MXWServer verde es una pieza de software proporcionada por MaxWell que
se usa para configurar MEA y Hub, usando una API privada directamente a través de la red. Los rectángulos rojos marcan
los componentes del programa 'DishServer', un programa de alto rendimiento que consta de cuatro componentes diseñados
para ejecutarse de forma asíncrona, a pesar de ejecutarse en un solo subproceso de CPU. El componente 'Interfaz LAN'
almacena el estado de la red, para comunicarse con el concentrador, y produce matrices de valores de voltaje para su
procesamiento. Los valores de voltaje se pasan al componente 'Detección de picos', que almacena valores de
retroalimentación y recuentos de picos, y pasa los comandos de recalibración a la interfaz LAN. Cuando el entorno pong
está listo para ejecutarse, actualiza el estado de la paleta en función de los recuentos de picos, actualiza el estado de la
pelota en función de su velocidad y las condiciones de colisión, y reconfigura el secuenciador de estimulación en función de
la posición relativa de la pelota y estado actual del juego. El secuenciador de estimulación almacena y actualiza índices y
cuentas regresivas relacionadas con los estímulos que debe producir y los convierte en comandos cada vez que la cuenta
regresiva correspondiente llega a cero, que finalmente se devuelven a la Interfaz LAN, para enviar al sistema MEA, cerrando
el ciclo.th actualización, cortocircuito de lo contrario. Además, se lanzan hasta tres procesos de trabajo en paralelo, según
las partes del sistema que se deban registrar. Reciben datos del subproceso principal a través de la memoria compartida y
los escriben en un archivo, lo que permite que el subproceso principal continúe procesando datos sin tener que pasar el
control al sistema operativo y viceversa. B) Operaciones numéricas en el componente de detección de picos en tiempo real
de DishBrainsistema de bucle cerrado, incluidos múltiples filtros IIR. La ejecución de un entorno virtual en un circuito cerrado
impone estrictos requisitos de rendimiento, y el procesamiento de señales digitales es el principal cuello de botella de este
sistema, con cerca de 40 MiB de datos para procesar cada segundo. Se aplican secuencias simples de filtros digitales IIR a
los datos entrantes, almacenando múltiples matrices de 1024 valores de retroalimentación entre cada muestra. En primer
lugar, los picos en los datos entrantes se detectan mediante la aplicación de un filtro de paso alto para determinar la
desviación de la actividad y compararla con la MAD, que a su vez se calcula con un filtro de paso bajo posterior. Luego, se
aplica un filtro de paso bajo a los datos originales para determinar si es necesario recalibrar el hardware MEA, lo que
afectará a las muestras futuras.
Figura S3

Representación de las configuraciones específicas de la plataforma DishBrain.


La estimulación se entrega a un área sensorial predefinida y la actividad se mide en las regiones motoras para determinar
cómo se moverá la paleta. La retroalimentación se proporciona a través del área sensorial en función del resultado de la
actividad de la región motora. Tenga en cuenta las diferentes configuraciones en las que se puede haber interpretado la
actividad motora. La configuración 0 se adoptó inicialmente como la opción inicial, sin embargo, cuando se usó el algoritmo
EXP3 para controlar la selección de todas las opciones anteriores, las culturas experimentales adoptaron una preferencia
por la configuración 3, que luego se adoptó en el futuro.
Higo S4

Las células no neuronales eléctricamente inactivas tampoco muestran aprendizaje a lo largo del tiempo y funcionan a
niveles de control de medios en comparación con las células corticales.
Las barras de significación muestran las diferencias dentro del grupo indicadas con *. Los símbolos muestran las
diferencias entre los grupos en el punto de tiempo dado: # = frente a las células corticales. El número de símbolos indica el
corte del valor p, donde 1 = p < 0,05, 2 = p < 0,01, 3 = p < 0,001 y 4 = p < 0,0001. Los diagramas de caja muestran el rango
intercuartílico, con barras que muestran un rango intercuartílico de 1,5X, la línea marca la mediana y ▴ marca la media. A) Al
observar el % de cambio en la duración del peloteo en comparación con los controles de descanso del partido, la condición
de las células corticales mostró un rendimiento significativo t = 8,22, p = 1,15 -15 ) y superó a las células HEK293T y a los
grupos de control de medios en el punto de tiempo 2, que no mostró cambios con el tiempo ( Tabla S2 ). B)Muestra
diferencias similares frente al rendimiento en reposo para los ases en todas las condiciones, donde el grupo de células
corticales mostró un porcentaje significativamente menor de ases a lo largo del tiempo ( t = 3,21, p = 0,002) junto con
significativamente menos ases que los grupos de control HEK y Media en ambos puntos de tiempo ( Tabla S2 ). C)
diferencias frente al rendimiento en reposo para el % de rallies largos en todas las condiciones, donde el grupo de células
corticales mostró rallies significativamente más largos a lo largo del tiempo ( t = 3,40, p = 0,0007) junto con
significativamente menos aces que los grupos de control HEK y Media en el segundo punto de tiempo ( Tabla S2 ).
Figura S5

Métodos clave utilizados en este estudio.


A) Ilustración esquemática de la configuración experimental central que impulsó la investigación en este proyecto. B)
Ilustración del protocolo de inhibición Dual SMAD para diferenciar células pluripotentes en células corticales. C) Posición
inicial de paleta y pelota como se visualiza en la plataforma DishBrain . Desde la perspectiva de las culturas neuronales, es
más exacto imaginar que ven este mundo desde la perspectiva de la paleta que mira la pelota en oposición a la perspectiva
de arriba hacia abajo que se presenta aquí. D) Las funciones base de la Transformación discreta del coseno (DCT)
utilizadas para resumir la simetría de la actividad electrofisiológica espontánea.

Tabla S1.

Pruebas estadísticas multivariadas y todos los resultados de las pruebas realizadas.

Tabla S2.

Follow up post-hoc tests for multivariate tests with exact p-values.

Table S3.

Percentage configurations selected (in bold) by EXP3 algorithm for control and experimental groups.

Movie S1.

Representative video of a paddle being controlled by the activity of living neurons to play a simulated game of
pong. It is of particular interest to note how frequently after a successful hit the paddle leads where the ball
will eventually end up on the return, even before the ball hits the backwall.

Movie S2.

Representative video of a paddle being controlled by the activity of living neurons to play a simulated game of
pong in the SpikeStream interactive visualizer. This is also available live in real time from any active culture in
the DishBrain system.

Acknowledgements

The authors wish to acknowledge and thank Professor Anthony N. Burkitt, Professor David Walker,
Professor Adeel Razi, Dr Chris French and Dr Alberto Roselló-Díez for their advice and comments on the
manuscript. The authors acknowledge and thank Professor Edouard G. Stanley and Professor Andrew
Elefanty from the Murdoch Children’s Research Institute (MCRI) for their provision of RM3.5 cells along
with Dr Ana Antonic-Baker for their assistance. The authors acknowledge the use of instruments and
assistance at the Monash Ramaciotti Centre for Cryo-Electron Microscopy, a Node of Microscopy
Australia. The authors acknowledge the use of instruments and Monash Micro Imaging (MMI) Facility
and the associated assistance of Dr Stephen H. Cody and Dr Chad Johnson.

REFERENCES

1.↵Kumar, S., Williams, R. S. & Wang, Z. Third-order nanocircuit elements for neuromorphic engineering. Nature 585,
518–523 (2020). Google Scholar

2.↵Izhikevich, E. M. Dynamical Systems in Neuroscience: The Geometry of Excitability and Bursting. (The MIT Press,
2006). doi:10.7551/mitpress/2526.001.0001. CrossRef Google Scholar

3.↵Whittington, J. C. R. et al. The Tolman-Eichenbaum Machine: Unifying Space and Relational Memory through
Generalization in the Hippocampal Formation. Cell 183, 1249–1263.e23 (2020). Google Scholar

4.↵Buchanan, M. Organoids of intelligence. Nat. Phys . 14, 634 (2018). Google Scholar

5.↵Bakkum, D. J., Chao, Z. C. & Potter, S. M. Spatio-temporal electrical stimuli shape behavior of an embodied cortical
network in a goal-directed learning task. J. Neural Eng. 5, 310–323 (2008). CrossRef PubMed Web of Science
Google Scholar

6.↵Chao, Z. C., Bakkum, D. J. & Potter, S. M. Shaping Embodied Neural Networks for Adaptive Goal-directed Behavior.
PLOS Comput. Biol. 4, e1000042 (2008). PubMed Google Scholar

7.↵Attinger, A., Wang, B. & Keller, G. B. Visuomotor Coupling Shapes the Functional Development of Mouse Visual
Cortex. Cell 169, 1291–1302.e14 (2017). Google Scholar
8.↵Friston, K., Breakspear, M. & Deco, G. Perception and self-organized instability. Front. Comput. Neurosci. 6, (2012).
Google Scholar

9.↵Isomura, T., Kotani, K. & Jimbo, Y. Cultured Cortical Neurons Can Perform Blind Source Separation According to the
Free-Energy Principle. PLOS Comput. Biol. 11, e1004643 (2015). Google Scholar

10.↵Isomura, T. & Friston, K. In vitro neural networks minimise variational free energy. Sci. Rep. 8, (2018).
Google Scholar

11.↵Friston, K. The free-energy principle: a unified brain theory? Nat. Rev. Neurosci. 11, 127–138 (2010). CrossRef
PubMed Web of Science Google Scholar

12.Palacios, E. R., Razi, A., Parr, T., Kirchhoff, M. & Friston, K. On Markov blankets and hierarchical self-organisation. J.
Theor. Biol . 486, 110089 (2020). Google Scholar

13.↵Parr, T. & Friston, K. J. Generalised free energy and active inference. Biol. Cybern. 113, 495–513 (2019).
Google Scholar

14.↵Parr, T. & Friston, K. J. The Discrete and Continuous Brain: From Decisions to Movement—And Back Again. Neural
Comput. 30, 2319–2347 (2018). CrossRef PubMed Google Scholar

15.↵Bardy, C. et al. Neuronal medium that supports basic synaptic functions and activity of human neurons in vitro.
Proc. Natl. Acad. Sci . 112, E2725–E2734 (2015). Abstract/FREE Full Text Google Scholar

16.↵Lossi, L. & Merighi, A. The Use of ex Vivo Rodent Platforms in Neuroscience Translational Research With Attention
to the 3Rs Philosophy. Front. Vet. Sci . 5, 164 (2018). Google Scholar

17.↵Wagenaar, D., Pine, J. & Potter, S. An extremely rich repertoire of bursting patterns during the development of
cortical cultures. BMC Neurosci . 7, 11 (2006). CrossRef PubMed Google Scholar

18.↵Kamioka, H., Maeda, E., Jimbo, Y., Robinson, H. P. C. & Kawana, A. Spontaneous periodic synchronized bursting
during formation of mature patterns of connections in cortical cultures. Neurosci. Lett . 206, 109–112 (1996). CrossRef
PubMed Web of Science Google Scholar

19.↵Shi, Y., Kirwan, P. & Livesey, F. J. Directed differentiation of human pluripotent stem cells to cerebral cortex neurons
and neural networks. Nat. Protoc. 7, 1836–1846 (2012). CrossRef PubMed Google Scholar

20.Denham, M. & Dottori, M. Signals involved in neural differentiation of human embryonic stem cells. NeuroSignals 17,
234–241 (2009). CrossRef PubMed Google Scholar

21.↵Denham, M. et al. Neurons derived from human embryonic stem cells extend long-distance axonal projections
through growth along host white matter tracts after intra-cerebral transplantation. Front. Cell. Neurosci. 6, 11 (2012).
CrossRef PubMed Google Scholar

22.↵Bhatia, M.Fattahi, F., Studer, L. & Tomishima, M. J. Neural Crest Cells from Dual SMAD Inhibition: Neural Crest Cells
from Dual SMAD Inhibition. in Current Protocols in Stem Cell Biology (eds. Bhatia, M. et al.) 1H.9.1–1H.9.9 (John Wiley &
Sons, Inc., 2015). doi:10.1002/9780470151808.sc01h09s33. CrossRef Google Scholar
23.↵Zhang, Y. et al. Rapid Single-Step Induction of Functional Neurons from Human Pluripotent Stem Cells. Neuron 78,
785–798 (2013). CrossRef PubMed Web of Science Google Scholar

24.↵Pak, C. et al. Rapid generation of functional and homogeneous excitatory human forebrain neurons using
Neurogenin-2 (Ngn2). Protoc. Exch. (2018) doi:10.1038/protex.2018.082. CrossRef Google Scholar

25.↵Mattotti, M. et al. Inducing functional radial glia-like progenitors from cortical astrocyte cultures using
micropatterned PMMA. Biomaterials 33, 1759–1770 (2012). CrossRef PubMed Web of Science Google Scholar

26.↵Ruaro, M. E., Bonifazi, P. & Torre, V. Toward the neurocomputer: image Processing and pattern recognition with
neuronal cultures. IEEE Trans. Biomed. Eng. 52, 371–383 (2005). CrossRef PubMed Google Scholar

27.↵Sakaguchi, H. et al. Self-Organized Synchronous Calcium Transients in a Cultured Human Neural Network Derived
from Cerebral Organoids. Stem Cell Rep. S2213671119301973 (2019) doi:10.1016/j.stemcr.2019.05.029. CrossRef
Google Scholar

28.↵Beaulieu-Laroche, L. et al. Enhanced Dendritic Compartmentalization in Human Cortical Neurons. Cell 175, 643–
651.e14 (2018). CrossRef PubMed Google Scholar

29.↵Mihaljević, B., Larrañaga, P., Benavides-Piccione, R., DeFelipe, J. & Bielza, C. Comparing basal dendrite branches in
human and mouse hippocampal CA1 pyramidal neurons with Bayesian networks. Sci. Rep. 10, 18592 (2020).
Google Scholar

30.↵Poirazi, P. & Papoutsi, A. Illuminating dendritic function with computational models. Nat. Rev. Neurosci. 21, 303–
321 (2020). Google Scholar

31.↵Wagenaar, D. A., Pine, J. & Potter, S. M. Effective parameters for stimulation of dissociated cultures using multi-
electrode arrays. J. Neurosci. Methods 138, 27–37 (2004). CrossRef PubMed Web of Science Google Scholar

32.↵Zhu, G., Liu, Y., Wang, Y., Bi, X. & Baudry, M. Different Patterns of Electrical Activity Lead to Long-term Potentiation
by Activating Different Intracellular Pathways. J. Neurosci . 35, 621–633 (2015). Abstract/FREE Full Text Google Scholar

33.↵Pariz, A. et al. High frequency neurons determine effective connectivity in neuronal networks. NeuroImage 166,
349–359 (2018). CrossRef Google Scholar

34.↵Schwartenbeck, P. et al. Computational mechanisms of curiosity and goal-directed exploration. eLife 8, e41703
(2019). Google Scholar

35.↵Schmidhuber, J. Formal Theory of Creativity, Fun, and Intrinsic Motivation (1990–2010). IEEE Trans. Auton. Ment.
Dev . 2, 230–247 (2010). Google Scholar

36.Schaul, T., Sun, Y., Wierstra, D., Gomez, F. & Schmidhuber, J. Curiosity-driven optimization. in 2011 IEEE Congress of
Evolutionary Computation (CEC) 1343–1349 (IEEE, 2011). doi:10.1109/CEC.2011.5949772. CrossRef Google Scholar

37.↵Barto, A., Mirolli, M. & Baldassarre, G. Novelty or Surprise? Front. Psychol. 4, (2013). Google Scholar

38.↵Oudeyer, P.-Y. What is intrinsic motivation? A typology of computational approaches. Front. Neurorobotics 1, (2007).
Google Scholar
39.↵Rolls, E. T. The storage and recall of memories in the hippocampo-cortical system. Cell Tissue Res. 373, 577–604
(2018). CrossRef Google Scholar

40.↵Schwartz, A. B. Movement: How the Brain Communicates with the World. Cell 164, 1122–1135 (2016). CrossRef
PubMed Google Scholar

41.↵Kao, T. et al. GAPTrap: A Simple Expression System for Pluripotent Stem Cells and Their Derivatives. Stem Cell Rep.
7, 518–526 (2016). Google Scholar

42.↵Barber, R. D., Harmer, D. W., Coleman, R. A. & Clark, B. J. GAPDH as a housekeeping gene: analysis of GAPDH mRNA
expression in a panel of 72 human tissues. Physiol. Genomics 21, 389–395 (2005). CrossRef PubMed Web of Science
Google Scholar

43.↵Somers, A. et al. Generation of transgene-free lung disease-specific human induced pluripotent stem cells using a
single excisable lentiviral stem cell cassette. Stem Cells 28, 1728–1740 (2010). CrossRef PubMed Web of Science
Google Scholar

44.↵Seldin, Y., Szepesvári, C., Auer, P. & Abbasi-Yadkori, Y. Evaluation and Analysis of the Performance of the EXP3
Algorithm in Stochastic Environments. 14. Google Scholar

45.↵Yang, L., Hajiesmaili, M. H., Talebi, M. S., Lui, J. C. S. & Wong, W. S. Adversarial Bandits with Corruptions: Regret
Lower Bound and No-regret Algorithm. 11. Google Scholar

46.↵Shlens, J. et al. The Structure of Multi-Neuron Firing Patterns in Primate Retina. J. Neurosci . 26, 8254–8266
(2006). CrossRef PubMed Web of Science Google Scholar

47.↵Baranes, K. Topographic cues of nano-scale height direct neuronal growth pattern.


doi:https://doi.org/10.1002/bit.24444. Google Scholar

48.↵Fan, L. Z. et al. All-Optical Electrophysiology Reveals the Role of Lateral Inhibition in Sensory Processing in Cortical
Layer 1. Cell 180, 521–535.e18 (2020). Google Scholar

49.Obermayer, J. et al. Lateral inhibition by Martinotti interneurons is facilitated by cholinergic inputs in human and
mouse neocortex. Nat. Commun. 9, 4101 (2018). CrossRef Google Scholar

50.↵Espinoza , C. , Guzmán , SJ , Zhang , X. & Jonas , P. _ Las interneuronas de parvalbúmina+ obedecen reglas de
conectividad únicas y establecen un potente microcircuito de inhibición lateral en la circunvolución dentada . Nat.
común _ 9 , 4605 ( 2018 ). Referencia cruzada Google Académico

Volver arriba
 Anterior Próximo 

Publicado el 03 de diciembre de 2021.

 Descargar PDF  Correo electrónico


 Opciones de impresión/guardado  Compartir
 Material suplementario  Herramientas de citas
 Codigo de DATOS
 Resumen de revisión

Tweet

Preprints de COVID-19 SARS-CoV-2 de


medRxiv y bioRxiv
Área temática

Biología sintética

Áreas Temáticas

Todos los artículos


Comportamiento y cognición animal

Bioquímica

Bioingeniería

Bioinformática

Biofísica

biología del cáncer

Biología Celular

Ensayos clínicos*

Biología del desarrollo

Ecología

Epidemiología*

Biología evolucionaria

Genética

genómica

Inmunología

Microbiología

Biología Molecular

neurociencia

Paleontología

Patología

Farmacología y Toxicología

Fisiología

biología vegetal

Comunicación Científica y Educación


Biología sintética

Biologia de sistemas

Zoología

* Las categorías de temas de Ensayos clínicos y Epidemiología ahora están


cerradas a nuevas presentaciones luego de la finalización del proyecto piloto de
investigación clínica de bioRxiv y el lanzamiento del servidor dedicado a las
ciencias de la salud medRxiv (submit.medrxiv.org) . Los nuevos documentos que
informen los resultados de los ensayos clínicos ahora deben enviarse a medRxiv.
La mayoría de los artículos nuevos de Epidemiología también deben enviarse a
medRxiv, pero si un artículo no contiene información relacionada con la salud, los
autores pueden optar por enviarlo a otra categoría de temas de bioRxiv (p. ej.,
Genética o Microbiología).

También podría gustarte