Uso de algoritmos de aprendizaje automático para proporcionar información profunda sobre la composición de subconjuntos celulares
Objetivo
Presenta un panel de 20 marcadores adecuado para la adquisición en el citómetro de flujo CytoFLEX LX. Se explorará la visualización de los datos utilizando viSNE, FlowSOM y SPADE en la plataforma Cytobank. Se mostrará una estrategia de selección manual utilizando el análisis Kaluza y se comparará con los subconjuntos identificados por la agrupación no supervisada con FlowSOM en la plataforma Cytobank.1,2 La naturaleza no supervisada de muchos de estos algoritmos reduce el sesgo que se puede introducir mediante la selección manual de subpoblaciones conocidas y permite al investigador identificar fenotipos inesperados. La reducción del tiempo de trabajo necesario para lograr un análisis exhaustivo de conjuntos de datos de alta dimensión utilizando algoritmos de aprendizaje automático en comparación con la selección manual representa una ventaja adicional.
Para generar los datos utilizados en esta Nota de aplicación, las muestras de sangre se tiñeron con un cóctel de anticuerpos de 20 colores descrito a continuación (Tabla 1) antes de la lisis de eritrocitos utilizando Versalyse de acuerdo con el procedimiento estándar (Número de pieza IM3648). Las muestras teñidas se adquirieron en un citómetro de flujo CytoFLEX LX de 6 láseres. La configuración del filtro descrita a continuación se ha aplicado para garantizar la detección óptima de cada colorante.
Tabla 1. Composición del panel para inmunofenotipado de 20 marcadores con el citómetro de flujo CytoFLEX LX.

La compensación y transformación de datos mediante escalamiento lógico se realizó mediante el software de análisis Kaluza y se exportaron datos transformados a logicle (biexponencial) a la plataforma Cytobank mediante el complemento Kaluza Cytobank. El análisis Kaluza también se utilizó para la selección biaxial y la identificación manual de la población.
Como preparación para el análisis de datos asistido por aprendizaje automático, se eliminan los residuos, los dobletes y, a menudo, también las células muertas u otros eventos no deseados. Estos eventos no añaden información al análisis posterior, podrían afectar negativamente la visualización de los datos y confunden los resultados estadísticos si no se identifican y excluyen adecuadamente. Dependiendo de la visualización de los datos deseados y de las preguntas de investigación, puede ser útil preseleccionar la población de interés para un análisis posterior (Figura 1).

Figura 1. Limpieza de datos en el análisis Kaluza. Los dobletes se excluyeron en función del área de la señal de dispersión frontal frente a la altura, seguida de la selección en los leucocitos en función de las características de dispersión frontal y lateral. Las células negativas para ViaKrome 808 (Número de pieza C36628) se identificaron como viables y se clasificaron adicionalmente como leucocitos en función de la expresión de CD45. Los datos se analizaron con el software de análisis Kaluza. Los gráficos solo tienen fines ilustrativos.
Para la identificación manual de subconjuntos celulares en muestras de sangre periférica humana, se estableció una estrategia de selección basada en el conocimiento publicado previamente de los patrones de expresión de marcadores utilizando el software de análisis Kaluza.3
Figura 2. Identificación basada en el conocimiento de los principales subconjuntos de leucocitos. Los datos se analizaron con el software de análisis Kaluza. Los gráficos solo tienen fines ilustrativos.
El uso de herramientas de aprendizaje automático permite identificar subconjuntos celulares sin sesgos e independientemente de los conocimientos previos. Los algoritmos de reducción de dimensionalidad como viSNE pueden visualizar la información contenida en un conjunto de datos de alta dimensión en un único gráfico 2D 1. Los algoritmos de agrupamiento como FlowSOM pueden identificar y agrupar automáticamente células similares en función de las similitudes en la expresión del marcador.2
Para el análisis posterior de los conjuntos de datos, se utilizó viSNE para la reducción de la dimensionalidad para todos los marcadores de selección utilizados también en los pasos de selección manual descritos en la Figura 2. Esto permite la visualización de la información contenida en estos 11 marcadores (CD45, CRTH2, CD123 CD15, CD14, CD16, CD56, CD3, CD4, CD8 y CD19) en un único gráfico 2D. viSNE es un método para reducir los datos de alta dimensión a dos dimensiones y, por lo tanto, permitir un análisis rápido exploratorio de los datos y la visualización de resultados complejos. Para los datos de citometría, esto puede ayudar con la categorización de eventos/células en poblaciones biológicas. Las células fenotípicamente similares estarán próximas entre sí y formarán una isla. En la figura 3A se muestra un gráfico de contorno del mapa viSNE resultante.
Tras la reducción de la dimensionalidad, se realizó un análisis FlowSOM para agrupar automáticamente las células en 12 llamados metagrupos. La ejecución de FlowSOM en los marcadores que definen la población y la visualización de los datos de agrupación resultantes superpuestos en el mapa viSNE pueden facilitar la evaluación de calidad. Si se necesitan más ajustes iterativos de la configuración del proceso del algoritmo para optimizar los resultados, esta visualización puede ayudar a comparar diferentes procesos y proporciona un punto de partida para el análisis de los datos de agrupación.
En el conjunto de datos analizados aquí se puede observar una buena correlación entre las islas viSNE y los metagrupos FlowSOM (Figura 3 B). Para identificar rápidamente el fenotipo de cada metagrupo, puede ser útil crear una vista de mapa de calor de los metagrupos de FlowSOM mediante la agrupación (Figura 3C).
Figura 3. Identificación del subconjunto mediante viSNE, FlowSOM y una pantalla de mapa de calor. A) Gráfico de contorno del mapa viSNE B) Mapa viSNE con metagrupos FlowSOM como dimensiones de figura superpuestas C) Visualización del mapa de calor de la expresión del marcador mediante el metagrupo FlowSOM. Los datos se compensaron y se transformaron a logicle (biexponencial) utilizando el software de análisis Kaluza y se cargaron en la plataforma Cytobank a través del complemento Kaluza Cytobank. viSNE se ejecutó en 11 marcadores de definición de población de 3 muestras con 3000 iteraciones, perplejidad 30 y 0,5 theta. Los ajustes de FlowSOM son 12 metagrupos y 121 grupos con agrupamiento de consenso jerárquico. Los gráficos solo tienen fines ilustrativos.
Los gráficos de puntos coloreados por la funcionalidad del canal, que colorea cada evento en el mapa viSNE de acuerdo con su intensidad en un canal dentro del conjunto de datos, se pueden utilizar para mostrar por qué los puntos en el mapa están próximos entre sí o qué patrón de expresión de marcadores son similares entre los eventos dentro de una isla viSNE. La figura 4 ilustra la expresión del marcador para CD19, CD4 y CD8 en el mapa viSNE y en comparación con el metaagrupamiento FlowSOM.

Figura 4. Niveles de expresión de marcadores de subpoblación en el mapa viSNE. A) Expresión CD19 B) Expresión CD4 C) Expresión CD8 D) Mapa viSNE con metagrupos FlowSOM como dimensiones de figura superpuestas. Los datos se compensaron y se transformaron a logicle (biexponencial) utilizando el software de análisis Kaluza y se cargaron en la plataforma Cytobank a través del complemento Kaluza Cytobank. viSNE se ejecutó en el complemento Cytobank en 11 poblaciones que definían marcadores de 3 muestras con 3000 iteraciones, perplejidad 30 y 0,5 theta. Los ajustes de FlowSOM son 12 metagrupos y 121 grupos con agrupamiento de consenso jerárquico. Los gráficos solo tienen fines ilustrativos.

Figura 5. Comparación de 3 muestras. A) La agrupación de FlowSOM superpuesta en el mapa viSNE indica el metagrupo 1, el asterisco indica el metagrupo 12 B) La expresión CD16 C) La expresión de CD56. Los datos se compensaron y se transformaron a logicle (biexponencial) utilizando el software de análisis Kaluza y se cargaron en la plataforma Cytobank a través del complemento Kaluza Cytobank. viSNE se ejecutó en el Cytobank en 11 marcadores de definición de población, viSNE se ejecutó en todos los CD45+ de 3 muestras con 3000 iteraciones, perplejidad 30 y 0,5 theta. Los ajustes de FlowSOM son 12 metagrupos y 121 grupos con agrupamiento de consenso jerárquico. Los datos se compensaron y se transformaron a logicle (biexponencial) utilizando el software de análisis Kaluza y se cargaron en la plataforma Cytobank a través del complemento Kaluza Cytobank. Se realizaron análisis de datos adicionales en la plataforma Cytobank. Los gráficos solo tienen fines ilustrativos.
La combinación de viSNE y FlowSOM permite comparaciones cualitativas entre muestras que pueden mejorarse visualizando la expresión de marcadores específicos en el mapa viSNE (Figura 5). La comparación muestra que la población CD16+ identificada como metagrupo 1 (Figura 5 A, azul, flecha) es prominente en la muestra G, pero prácticamente ausente en las muestras B y F. También muestra una abundancia de células brillantes CD56 en el metagrupo 12 para la muestra F (Figura 5 A, rojo; asterisco).
Otro algoritmo no supervisado que puede utilizarse para la identificación de grupos de células similares es SPADE. SPADE significa “Análisis de la progresión de los eventos normalizados por densidad de todo el árbol” (Spanning-tree Progression Analysis of Density-normalized Events) 4. El SPADE agrupa células fenotípicamente similares en una jerarquía que permite el análisis multidimensional de alto rendimiento de muestras heterogéneas (Figura 6). Se pueden añadir burbujas para asignar umbrales de población definidos por el usuario a las diversas poblaciones computacionales (grupos) que se encuentran mediante el SPADE.

Figura 6. Comparación de 2 muestras, árboles de SPADE coloreados por expresión CD16. Los datos se compensaron y se transformaron a logicle (biexponencial) utilizando el software de análisis Kaluza y se cargaron en la plataforma Cytobank a través del complemento Kaluza Cytobank. El SPADE se ejecutó en 11 poblaciones definidas con un muestreo descendente del 10 % y 50 ganglios. Los gráficos solo tienen fines ilustrativos.
Se puede obtener un inmunoperfil más profundo de las poblaciones de leucocitos respectivas ampliando la estrategia de selección manual. De nuevo, esto generalmente se basa en el conocimiento previo de los patrones de expresión. Se proporciona un ejemplo para el subconjunto de linfocitos T CD4 en la Figura 7.

Figura 7. Identificación impulsada por el conocimiento de los linfocitos T reguladores y sus subconjuntos. (A) Subconjuntos de memoria de linfocitos T CD4 seleccionados para linfocitos T CD4+ excluyendo los subconjuntos de memoria de Tregs (B) y linfocitos T CD8+. Los datos se analizaron con el software de análisis Kaluza. Los gráficos solo tienen fines ilustrativos.
Las comparaciones entre muestras se pueden realizar comparando gráficos o resultados estadísticos y utilizando funcionalidades de superposición o el gráfico de comparación de Kaluza (Figura 8). Este enfoque también suele guiarse por suposiciones sobre diferencias probables.

Figura 8. Comparación de subconjuntos Treg entre muestras. A) Gráficos de puntos individuales por muestra. B) Hoja de información con resultados estadísticos por muestra y subconjunto. C) Superposición de gráfico de puntos de dos muestras. D) Gráfico de comparación que visualiza el % de ventanas de selección por subconjunto y muestra. Los datos se analizaron con el software de análisis Kaluza. Los gráficos solo tienen fines ilustrativos.
Para la identificación no supervisada de subconjuntos de linfocitos T, se realizó un análisis viSNE utilizando linfocitos T CD3+ como población de entrada. La Figura 9 A muestra la expresión de CD4 y CD8 en el mapa viSNE. Siguiendo el mismo enfoque de selección manual que antes (consulte la figura 7), se identificaron diferentes patrones de expresión de CD45RA y CD62L utilizando una selección de cuadrante en las linfocitos pan-T y se visualizaron en el mapa viSNE (Figura 9 B). Por último, se realizó un agrupamiento de consenso jerárquico utilizando FlowSOM para identificar 10 metagrupos (Figura 9 C). Tanto la selección manual como la agrupación no supervisada dan lugar a la identificación de poblaciones similares.

Figura 9. Análisis no supervisado de subconjuntos de linfocitos T. (A) viSNE se realizó en la plataforma Cytobank con 2000 iteraciones y se visualiza una perplejidad de 50 y una expresión de CD4 (izquierda) y CD8 (derecha) en el gráfico viSNE resultante (B) Los patrones de expresión CD62L y CD45RA (izquierda), así como los linfocitos T reguladores (centro) se identificaron utilizando la selección manual y las poblaciones superpuestas en el mapa viSNE. (C) La agrupación de FlowSOM se realizó utilizando la agrupación jerárquica en datos normalizados para detectar 100 grupos y 10 metagrupos. Los metagrupos se muestran en el mapa viSNE. Los datos se compensaron y se transformaron a logicle (biexponencial) utilizando el software de análisis Kaluza y se cargaron en la plataforma Cytobank a través del complemento Kaluza Cytobank. Se realizaron análisis de datos adicionales en la plataforma Cytobank. Los gráficos solo tienen fines ilustrativos.
La figura 10 muestra la comparación de la identificación del subconjunto de memoria CD8+ mediante selección manual y agrupación sin supervisión con FlowSoM.

Figura 10. Comparación de subconjuntos de memoria de linfocitos T CD8+ identificados mediante selección manual. (A) y FlowSOM (B). Los datos se compensaron y se transformaron a logicle (biexponencial) utilizando el software de análisis Kaluza y se cargaron en la plataforma Cytobank a través del complemento Kaluza Cytobank. Se realizaron análisis de datos adicionales en la plataforma Cytobank. Los gráficos solo tienen fines ilustrativos.
Resumen
Se utilizaron los datos de tres donantes obtenidos mediante un panel de 20 marcadores adquirido en un CytoFLEX LX para mostrar una estrategia de selección manual para identificar subconjuntos de leucocitos, así como un análisis más profundo de subconjuntos de linfocitos T. Se mostró el uso de viSNE para visualizar datos de alta dimensión en un mapa viSNE 2D y se analizó el uso de viSNE y SPADE para comparar muestras. Por último, la identificación automática de grupos mediante FlowSOM se comparó con los resultados de la selección manual. Las herramientas de aprendizaje automático como viSNE, FlowSOM y SPADE pueden ser útiles para visualizar datos de parámetros altos y en la identificación imparcial de subconjuntos celulares.
Consejos para tener éxito
Para obtener instrucciones detalladas sobre el uso del software de análisis Kaluza, consulte las Instrucciones de uso de Kaluza C10986. Se pueden consultar instrucciones detalladas sobre el uso de la plataforma Cytobank en support.cytobank.org. Este documento no sustituye a las Instrucciones de uso.
En las Notas técnicas “Aprovechar la potencia combinada de Kaluza y la plataforma Cytobank” se puede encontrar un análisis más en profundidad de los análisis realizados aquí.
Referencias
- Amir ED, Davis KL, Tadmor MD, et al. viSNE enables visualization of high dimensional single-cell data and reveals phenotypic heterogeneity of leukemia. Nature Biotechnology. 2013;31(6):545-552. doi:10.1038/nbt.2594.
- Van Gassen S, Callebaut B, Van Helden MJ, et al. FlowSOM: Using self-organizing maps for visualization and interpretation of cytometry data: FlowSOM. Cytometry. 2015;87(7):636-645. doi:10.1002/cyto.a.22625.
- Ortolani C. Antigens. En: Flow Cytometry of Hematological Malignancies. John Wiley & Sons, Ltd; 2011:1-157. doi:10.1002/9781444398069.ch1.
- Qiu P, Simonds EF, Bendall SC, et al. Extracting a cellular hierarchy from high-dimensional cytometry data with SPADE. Nature Biotechnology. 2011;29(10):886-891. doi:10.1038/nbt.1991.
Solo para uso en investigación. No se debe utilizar en procedimientos con fines diagnósticos.