MX2011004604A

MX2011004604A - Clasificacion genomica de melanoma maligno con base en patrones de alteraciones de numero de copias de gene.

Info

Publication number: MX2011004604A
Application number: MX2011004604A
Authority: MX
Inventors: Dimitri Semizarov; Xin Lu; Ke Zhang; Rick R Lesniewski
Original assignee: Abbott Lab
Priority date: 2008-10-31
Filing date: 2009-10-28
Publication date: 2011-05-25
Also published as: US20100145897A1; US8498821B2; JP5608169B2; CN102203789B; WO2010051319A9; CA2739461A1; CN102203789A; WO2010051319A2; EP2359284A2; JP2012507799A

Abstract

La invención es dirigida a métodos y kits que permiten la clasificación de células de melanoma maligno de acuerdo con perfiles genómicos, y métodos para diagnosticar, predecir resultados clínicos y estratificar poblaciones de pacientes para pruebas clínicas y tratamiento usando los mismos.

Description

CLASIFICACIÓN GENÓMICA DE MELANOMA MALIGNO CON BASE EN PATRONES DE ALTERACIONES DE NÚMERO DE COPIAS DE GENE Referencia cruzada a solicitudes relacionadas Esta solicitud reclama la prioridad de la solicitud estadounidense no. 61 /1 10, 308 presentada el 31 de octubre de 2008, cuyos contenidos son incorporados en la presente por referencia.

Esta solicitud también incorpora por referencia la solicitud titulada MÉTODOS PARA ENSAMBLAR PANELES DE LÍNEAS DE CÉLU LAS DE CÁNCER PARA USO PARA PROBAR LA EFICACIA DE UNA O MAS COMPOSICIONES FARMACÉUTICAS, (Dimitri Semizarov, Xin Lu, Ke Zhang, y Rick Lesniewski, inventores; presentada el 28 de octubre de 2009; la cual reclama prioridad a la solicitud estadounidense no. 61 /1 10,281 presentada el 31 de octubre de 2008).

Declaración con respecto a investigación o desarrollo federalmente patrocinada No aplicable.

Referencia a material en un disco compacto No aplicable.

Antecedentes de la invención Campo de la invención La presente invención se refiere a métodos para definir subgrupos genómicos de tumores, líneas de células de cáncer y muestras presentes relacionadas a melanoma maligno (MM). La presente invención también se refiere a métodos para ensamblar paneles de tumores, líneas de células de cáncer y muestras presentes de acuerdo con subgrupos genómicos para usarse para probar la eficacia de una o más intervenciones terapéuticas para administrar a un sujeto.

Descripción de técnica relacionada El cáncer es una enfermedad del genoma caracterizado por variabilidad substancial en el curso clínico, resultado y respuesta a terapias. El factor principal subyacente a esta variabilidad es la heterogeneidad genética de cánceres humanos. Tumores individuales del mismo subtipo histopatológico portan diferentes aberraciones en su DNA celular.

El melanoma maligno cutáneo es un tipo extremadamente agresivo de cáncer de piel con incidencia creciente en el mundo occidental (Tucker y Goldstei, 2003). El melanoma es una enfermedad heterogénea con un curso clínico impredecible y un potencial para crecimiento agresivo y resistencia a los regímenes quimioterapéuticos existentes. Es difícil predecir el resultado clínico en pacientes individuales de melanoma debido al espectro de cambios clínicos, morfológicos y citológicos y una falta de etapas discretas (Onken et al., 2004; Weyers et al. , 1 999).

Mejoras en la clasificación de cáncer son cruciales para descubrimiento de medicamento anti-cáncer. Actualmente, los modelos pre-clínicos son seleccionados con base en su disponibilidad, adaptabilidad a formación de tumor en ratones y crecimiento en cultivo y otros parámetros, pero no representan la heterogeneidad genética del tumor padre. Esto conduce a una pobre respuesta en ensayos clínicos para agentes, los cuales han mostrado excelente respuesta en modelos pre-cl ínicos.

La diversidad fenotípica de tumores de melanoma es acompañada mediante una diversidad correspondiente en patrones de aberración de número de copias de gene. Las aberraciones cromosómicas son eventos perjudiciales asociados con una variedad de enfermedades en desarrollo y cáncer. Las amplificaciones y supresiones de regiones cromosómicas en células somáticas se creen uno de los principales factores que conducen a cáncer. El examen sistemático de patrones de número de copias en melanoma maligno pudiera servir entonces como una base para una taxonom ía molecular con base de genómica de melanomas malignos. La aberración cromosómica recurrente de significancia pronostica puede ser detectada individualmente mediante análisis citogenético clásico o hibridación in situ fluorescente (FISH) (Levsky y Singer, 2003). Sin embargo, el análisis de FISH no puede detectar el espectro completo de anormalidades genéticas ya que solo interroga un conjunto limitado de lugares cromosómicos definidos por el panel de sonda aplicado. U na herramienta diagnóstica más ventajosa se basaría en una clasificación refinada de la enfermedad . Permitiría la selección de paciente racional para tratamiento con base en el estado genético de un MM del sujeto.

Breve descripción de la invención En un aspecto, la presente invención se refiere a métodos para obtener una base de datos de subgrupos genómicos de melanoma maligno, comprendiendo el método los pasos de: (a) obtener una pl uralidad de m uestras m com prendiendo al menos u na célula de MM , en donde las muestras comprenden líneas de células o tumores; (b) adquirir un conjunto de datos comprendiendo información de alteración de número de copias desde al menos un sitio de cada cromosoma a partir de cada muestra obtenida en el paso (a); (c) identificar en las m uestras de conjunto de datos, contaminadas por células normales y eliminar las muestras contaminadas del conjunto de datos, en donde la identificación y eliminación comprende: (1 ) aplicar un algoritmo de aprendizaje de máquina sintonizado a parámetros que representan las diferencias entre muestras de tumor y normales a los datos; (2) asignar una calificación de probabilidad para contaminación de células normales a cada m uestra como es determinado por el algoritmo de aprendizaje de máquina; (3) eliminar los datos a partir del conjunto de datos para cada muestra calificando 50% o mayor probabilidad de contener células normales; (d) estimar un número de subgrupos, r, en el conjunto de datos al aplicar un algoritmo de agrupamiento no supervisado usando un algoritmo de disimilitud lineal de Pearson al conjunto de datos; (e) asignar cada muestra en el conjunto de datos a al menos un agrupamiento usando un algoritmo de factorización de matriz no negativa genómica (gNM F) modificada, en donde el algoritmo de gNMF modificado comprende: (1 ) calcular la divergencia del algoritmo después de cada 100 pasos de actualización multiplicativa usando la fórmula: y D(V ||FH) =??^. log~§---^ HWH)¡}) en donde ½ es la iésima fila y la jiésima columna de matriz V, (WH)¡j es la iésima fila y la jiésl a columna de matriz (W*H), i corre desde 1 hasta n y n es el número de segmentos en el conjunto de datos, y j corre desde 1 hasta m y m es el número de muestras en el conjunto de datos. (2) detener el algoritmo si la divergencia calculada en el paso (e) (1 ) no disminuye por más de aproximadamente 0.001 % cuando se compara con la divergencia calculada para los 100 pasos previos de la actualización multiplicativa del algoritmo; (3) repetir aleatoriamente el algoritmo por un número seleccionado de corridas y calculando una matriz de coeficiente de correlación de Pearson de H para cada una de las corridas del algoritmo usando la fórmula: en donde C es la matriz de correlación, Cu es la iés,ma fila y la jésima columna en la matriz C, Ht¡ y H son el iésimo y jésimo vector de columna en la matriz H, p(Hi HJ es el coeficiente de correlación de Pearson entre H: ¡ y H , i y j corren desde 1 hasta m y m es el número de muestras en el conjunto de datos, k corre desde 1 hasta r y r es el número de subgrupos del paso (d); (4) promediar las matrices de coeficiente de correlación de Pearson para cada corrida del algoritmo obtenido del paso (e)(3) para llegar a una matriz de correlación promedio; (5) asignar líneas de células y tumores en el conjunto de datos en subgrupos r al aplicar un algoritmo de agrupamiento no supervisado usando 1 menos la matriz de correlación promedio determinada en el paso (e)(4) y cortar un dendrograma en agrupamientos r; (f) aplicar una correlación Cofenética, criterio de información Bayesiano o una combinación de los mismos para proporcionar un número final de agrupamientos del conjunto de datos, en donde cada agrupamiento final define un subgrupo genómico para cada muestra de línea de células de cáncer o tumor; y (g) opcionalmente evaluar la estabilidad del número final de agrupamientos seleccionado en el paso (f) usando u na prueba de estabilidad de diez veces.

En un segundo aspecto, la invención se dirige a métodos para clasificar un tumor o línea de cél ulas de MM , que comprende: (a) proporcionar una base de datos, desarrol lada a través de un método que comprende: (i) obtener una pluralidad de muestras m comprendiendo al menos una línea de célula o tumor de MM; (ii) adquirir un primer conjunto de datos comprendiendo información de alteración de número de copias desde al menos un sitio de cada cromosoma a partir de cada muestra obtenida en el paso (i) ; (iii) identificar en las muestras de primer conjunto de datos, contam inadas por células normales y eliminar las muestras contaminadas del primer conj unto de datos, en donde la identificación y eliminación comprende: ( 1 ) aplicar un algoritmo de aprendizaje de máquina sintonizado a parámetros que representan las diferencias entre m uestras de tumor y normales a los datos; (2) asignar una calificación de probabilidad para contaminación de células normales a cada muestra como es determinado por el algoritmo de aprendizaje de máq uina; (3) eliminar los datos a partir del primer conjunto de datos para cada m uestra calificando 50% o mayor probabilidad de contener células normales; (iv) estimar un número de subgrupos, r, en el conjunto de datos al aplicar un algoritmo de agrupamiento no supervisado usando un algoritmo de disimilitud lineal de Pearson al conjunto de datos; (v) asignar cada muestra en el conjunto de datos a al menos un agrupamiento usando un algoritmo de factorización de matriz no negativa genómica (gNMF) modificada, en donde el algoritmo de gNMF modificado comprende: (1 ) calcular la divergencia del algoritmo después de cada 100 pasos de actualización multiplicativa usando la fórmula: en donde V¡¡ es la iésima fila y la j!ésima columna de matriz V, (WH)U es la iéslma fila y la ésima columna de matriz (W*H), i corre desde 1 hasta n y n es el número de segmentos en el conjunto de datos, y j corre desde 1 hasta m y m es el número de muestras en el conjunto de datos. (2) detener el algoritmo si la divergencia calculada en el paso (v) (1 ) no disminuye por más de aproximadamente 0.001 % cuando se compara con la divergencia calculada para los 100 pasos previos de la actualización multiplicativa del algoritmo; (3) repetir aleatoriamente el algoritmo por un número seleccionado de corridas y calculando una matriz de coeficiente de correlación de Pearson de H para cada una de las corridas del algoritmo usando la fórmula: en donde C es la matriz de correlación, Cltj es la ¡éslma fila y la ¡6sima columna en la matriz C, H,, y H son el iésimo y jésimo vector de columna en la matriz H, p(H , HJ es el coeficiente de correlación de Pearson entre Ht¡ y Htj, i y j corren desde 1 hasta m y m es el número de muestras en el conjunto de datos, k corre desde 1 hasta r y r es el número de subgrupos del paso (iv); (4) promediar las matrices de coeficiente de correlación de Pearson para cada corrida del algoritmo obtenido del paso (v)(3) para llegar a una matriz de correlación promedio; (5) asignar muestras en subgrupos r al aplicar un algoritmo de agrupamiento no supervisado usando 1 menos la matriz de correlación promedio determinada en el paso (v)(4) y cortar un dendrograma en agrupamientos r; (vi) aplicar una correlación Cofenética, criterio de información Bayesiano o una combinación de los mismos para proporcionar un número final de agrupamientos del conjunto de datos, en donde cada agrupamiento final define un subgrupo genómico para cada muestra de línea de células de cáncer o tumor; y (vii) opcionalmente evaluar la estabilidad del número final de agrupamientos seleccionado en el paso (vi) usando una prueba de estabilidad de diez veces; (b) proporcionar una muestra que se sospecha contiene células de MM, (c) adquirir un segundo conjunto de datos, muestra V, comprendiendo información de alteración de número de copias a partir del mismo al menos un sitio del paso (i¡); y (d) clasificar la muestra de muestra V, al comparar la muestra V con los agrupamientos determinados en los pasos (i)-(vii).

En un tercer aspecto, la invención se dirige a métodos para clasificar una intervención terapéutica para detener o matar células de melanoma maligno (MM), comprendiendo: (a) a partir de un panel de células de MM clasificadas de acuerdo con subgrupos genómicos, seleccionado al menos una línea de células de MM de cada subgrupo, en donde el panel es ensamblado a partir de un método que comprende: (i) obtener una pluralidad de muestras m comprendiendo células de MM; (ii) adquirir un primer conjunto de datos comprendiendo información de alteración de número de copias desde al menos un sitio de cada cromosoma a partir de cada muestra obtenida en el paso (i); (¡ii) identificar en las muestras de primer conjunto de datos, contaminadas por células normales y eliminar las muestras contaminadas del primer conjunto de datos, en donde la identificación y eliminación comprende: (1 ) aplicar un algoritmo de aprendizaje de máquina sintonizado a parámetros que representan las diferencias entre muestras de tumor y normales a los datos; (2) asignar una calificación de probabilidad para contaminación de células normales a cada muestra como es determinado por el algoritmo de aprendizaje de máquina; (3) eliminar los datos a partir del primer conjunto de datos para cada muestra calificando 50% o mayor probabilidad de contener células normales; (iv) estimar un número de subgrupos, r, en el conjunto de datos al aplicar un algoritmo de agrupamiento no supervisado usando un algoritmo de disimilitud lineal de Pearson al conjunto de datos; (v) asignar cada muestra en el conjunto de datos a al menos un agrupamiento usando un algoritmo de factorización de matriz no negativa genómica (gNMF) modificada, en donde el algoritmo de gN F modificado comprende: (1 ) calcular la divergencia del algoritmo después de cada 100 pasos de actualización multiplicativa usando la fórmula: ? D(V I WH) =??(Vy log-^ -V, + (WH)y) m en donde V¡¡ es la iésima fila y la jiés!ma columna de matriz V, {WH)H es la iésima fila y la jiésima columna de matriz (W*H), i corre desde 1 hasta n y n es el número de segmentos en el conjunto de datos, y j corre desde 1 hasta m y m es el número de muestras en el conjunto de datos; (2) detener el algoritmo si la divergencia calculada en el paso (v) (1 ) no disminuye por más de aproximadamente 0.001 % cuando se compara con la divergencia calculada para los 1 00 pasos previos de la actualización multiplicativa del algoritmo; (3) repetir aleatoriamente el algoritmo por un número seleccionado de corridas y calculando una matriz de coeficiente de correlación de Pearson de H para cada una de las corridas del algoritmo usando la fórmula: en donde C es la matriz de correlación, C es la iésima fila y la jésima columna en la matriz C, H y ,¡ son el i**""0 y jésimo vector de columna en la matriz H, p(Ht„ HJ es el coeficiente de correlación de Pearson entre H y H , i y j corren desde 1 hasta m y m es el número de muestras en el conjunto de datos, k corre desde 1 hasta r y r es el número de subgrupos del paso (iv); (4) promediar las matrices de coeficiente de correlación de Pearson para cada corrida del algoritmo obtenido del paso (v)(3) para llegar a una matriz de correlación promedio; (5) asignar muestras en subgrupos r al aplicar un algoritmo de agrupamíento no supervisado usando 1 menos la matriz de correlación promedio determinada en el paso (v)(4) y cortar un dendrograma en agrupamientos r; (vi) aplicar una correlación Cofenética, criterio de información Bayesiano o una combinación de los mismos para proporcionar un número final de agrupamientos del conjunto de datos, en donde cada agrupamiento final define un subgrupo genómico para cada muestra; y (vii) opcionalmente evaluar la estabilidad del número final de agrupamientos seleccionado en el paso (vi) usando una prueba de estabilidad de diez veces; (viii) seleccionar al menos una célula de MM de cada agrupamiento seleccionado en el paso (vi) y ensamblar en paneles definidos de acuerdo con subgrupos genómicos. (b) contactar la al menos una célula de M de cada subgrupo con la intervención terapéutica; (c) ensayar la efectividad de la intervención terapéutica para detener o matar la al menos una célula de MM de cada subgrupo; (d) clasificar la intervención terapéutica de acuerdo con la efectividad de la intervención terapéutica para detener o matar la al menos una célula de MM de cada subgrupo, en donde detener o matar la al menos una célula de MM de un subgrupo, pero no otra indica especificidad de la intervención terapéutica para detener o matar células de MM de ese subgrupo. La intervención terapéutica puede ser quimioterapia, modificadores de respuesta biológica, inmunoterapia de vacuna o bioquimioterapia. Si la intervención terapéutica es un modificador de respuesta biológica, puede ser una composición farmacéutica comprendiendo un agente activo, tal como interferón, ¡nterleucina-2, anticuerpos monoclonales y factor alfa de necrosis de tumor o combinaciones de los mismos.

En un cuarto aspecto, la invención se dirige a métodos para ensamblar un panel de sonda para clasificar una célula de MM de una muestra, que comprende: (a) ensamblar una base de datos, que comprende: (i) obtener una pluralidad de muestras m comprendiendo al menos una célula de MM; (ii) adquirir un primer conjunto de datos comprendiendo información de alteración de número de copias desde al menos un sitio de cada cromosoma a partir de cada muestra obtenida en el paso (i); (iii) identificar en las muestras de primer conjunto de datos, contaminadas por células normales y eliminar las muestras contaminadas del primer conjunto de datos, en donde la identificación y eliminación comprende: (1 ) aplicar un algoritmo de aprendizaje de máquina sintonizado a parámetros que representan las diferencias entre muestras de tumor y normales a los datos; (2) asignar una calificación de probabilidad para contaminación de células normales a cada muestra como es determinado por el algoritmo de aprendizaje de máquina; (3) eliminar los datos a partir del primer conjunto de datos para cada muestra calificando 50% o mayor probabilidad de contener células normales; (iv) estimar un número de subgrupos, r, en el conjunto de datos al aplicar un algoritmo de agrupamiento no supervisado usando un algoritmo de disimilitud lineal de Pearson ai conjunto de datos; (v) asignar cada muestra en el conjunto de datos a al menos un agrupamiento usando u n algoritmo de factorización de matriz no negativa genómica (gNMF) modificada, en donde el algoritmo de gNMF modificado comprende: (1 ) calcular la divergencia del algoritmo después de cada 100 pasos de actualización multiplicativa usando la fórmula: y D(V II WH) =?¾. 106--JL- - V, + (WH tJ) (1 1 } l l/> tt )y en donde Vu es la iésima fila y la jíésima columna de matriz V, (WH)U es la iésima fila y la jiés!ma columna de matriz (W*H), i corre desde 1 hasta n y n es el número de segmentos en el conjunto de datos, y j corre desde 1 hasta m y m es el número de muestras en el conjunto de datos; (2) detener el algoritmo si la divergencia calculada en el paso (v) (1 ) no disminuye por más de aproximadamente 0.001 % cuando se compara con la divergencia calculada para los 100 pasos previos de la actualización multiplicativa del algoritmo; (3) repetir aleatoriamente el algoritmo por un número seleccionado de corridas y calculando una matriz de coeficiente de correlación de Pearson de H para cada una de las corridas del algoritmo usando la fórmula: en donde C es la matriz de correlación, Cu es la iés!ma fila y la y'ésíma columna en la matriz C, H ,· y H son el ¡ésimo y jés!m° vector de columna en la matriz H, p(H , Htj) es el coeficiente de correlación de Pearson entre H , y H , i y j corren desde 1 hasta m y m es el número de muestras en el conjunto de datos, k corre desde 1 hasta r y r es el número de subgrupos del paso (iv); (4) promediar las matrices de coeficiente de correlación de Pearson para cada corrida del algoritmo obtenido del paso (v)(3) para llegar a una matriz de correlación promedio; (5) asignar muestras en subgrupos r al aplicar un algoritmo de agrupamiento no supervisado usando 1 menos la matriz de correlación promedio determinada en el paso (v)(4) y cortar un dendrograma en agrupamientos r; (vi) aplicar una correlación Cofenética, criterio de información Bayesiano o una combinación de los mismos para proporcionar un número final de agrupamientos del conjunto de datos, en donde cada agrupamiento final define un subgrupo genómico para cada muestra de línea de células de cáncer o tumor; y (vii) opcionalmente evaluar la estabilidad del número final de agrupamientos seleccionado en el paso (v¡) usando una prueba de estabilidad de diez veces; (viii) seleccionar al menos una muestra de cada agrupamiento seleccionado en el paso (vi) y ensamblar en paneles definidos de acuerdo con subgrupos genómicos; (b) analizar la base de datos del paso (a) para determinar anormalidades de número de copias características para cada subgrupo; (c) diseñar una pluralidad de sondas con base en las anormalidades de número de copias características determinadas para cada subgrupos y asignar cada sonda a un subgrupo genómico.

En un quinto aspecto, la invención se dirige a kits comprendiendo un panel de sonda para clasificar una muestra de tumor de MM. Las sondas en el panel de sonda pueden ser, por ejemplo, sondas de FISH.

En un sexto aspecto, la invención es dirigida a kits para clasificar una muestra de tumor de MM, comprendiendo: (a) instrucciones para ensamblar una base de datos, comprendiendo instrucciones para: (i) obtener una pluralidad de muestras m comprendiendo al menos una célula de MM; (ii) adquirir un primer conjunto de datos comprendiendo información de alteración de número de copias desde al menos un sitio de cada cromosoma a partir de cada muestra obtenida en el paso (i); (iii) identificar en las muestras de primer conjunto de datos, contaminadas por células normales y eliminar las muestras contaminadas del primer conjunto de datos, en donde la identificación y eliminación comprende: (1 ) aplicar un algoritmo de aprendizaje de máquina sintonizado a parámetros que representan las diferencias entre muestras de tumor y normales a los datos; (2) asignar una calificación de probabilidad para contaminación de células normales a cada muestra como es determinado por el algoritmo de aprendizaje de máquina; (3) eliminar los datos a partir del primer conjunto de datos para cada muestra calificando 50% o mayor probabilidad de contener células normales; (iv) estimar un número de subgrupos, r, en el conjunto de datos al aplicar un algoritmo de agrupamiento no supervisado usando un algoritmo de disimilitud lineal de Pearson al conjunto de datos; (v) asignar cada muestra en el conjunto de datos a al menos un agrupamiento usando un algoritmo de factorización de matriz no negativa genómica (gN F) modificada, en donde el algoritmo de gNMF modificado comprende: (1 ) calcular la divergencia del algoritmo después de cada 100 pasos de actualización multiplicativa usando la fórmula: en donde Vt¡ es la ies,ma fila y la es""a columna de matriz V, (WH)U es la iésima fila y la jiésima columna de matriz (WH), i corre desde 1 hasta n y n es el número de segmentos en el conjunto de datos, y j corre desde 1 hasta m y m es el número de muestras en el conjunto de datos; (2) detener el algoritmo si la divergencia calculada en el paso (v) (1 ) no disminuye por más de aproximadamente 0.001 % cuando se compara con la divergencia calculada para los 100 pasos previos de la actualización multiplicativa del algoritmo; (3) repetir aleatoriamente el algoritmo por un número seleccionado de corridas y calculando una matriz de coeficiente de correlación de Pearson de H para cada una de las corridas del algoritmo usando la fórmula: en donde C es la matriz de correlación, C(J es la ies""a fila y la jes""a columna en la matriz C, H,¡ y H,¡ son el ¡ésimo y jés!mo vector de columna en la matriz H, p(H,¡, H es el coeficiente de correlación de Pearson entre H_¡ y H , i y j corren desde 1 hasta m y m es el número de muestras en el conjunto de datos, k corre desde 1 hasta r y r es el número de subgrupos del paso (¡v); (4) promediar las matrices de coeficiente de correlación de Pearson para cada corrida del algoritmo obtenido del paso (v)(3) para llegar a una matriz de correlación promedio; (5) asignar muestras en subgrupos r al aplicar un algoritmo de agrupamiento no supervisado usando 1 menos la matriz de correlación promedio determinada en el paso (v)(4) y cortar un dendrograma en agrupamientos r; (vi) aplicar una correlación Cofenética, criterio de información Bayesiano o una combinación de los mismos para proporcionar un número final de agrupamientos del conjunto de datos, en donde cada agrupamiento final define un subgrupo genómico para cada muestra de línea de células de cáncer o tumor; y (vii) opcionalmente evaluar la estabilidad del número final de agrupamientos seleccionado en el paso (vi) usando una prueba de estabilidad de diez veces; y (b) opcionalmente, una primera, segunda, tercera, cuarta, quinta y sexta línea celular, o DNA genómico aislado del mismo, en donde la primera línea de células es seleccionada del grupo que consiste de SKMEL1 19, HS944, WM 1366 y WM88; la segunda línea de células es WM3248; la tercera línea de células es 1205LU; la cuarta línea de células es seleccionada de! grupo que consiste de 451 LU , SKMEL19, SKMEL28, SKMEL30, SKMEL63, WM35, WM983 y WM983C; la quinta línea de células es seleccionada del grupo que consiste de WM321 1 , M14, MEWO, SKMEL2, SKMEL5, UACC257, UACC62, WM 122, W 13662, WM239A, WM321 12, WM32482, W 793B y 501 EL, y la sexta línea de células es MALME3M o WM882.

En todos los aspectos de la invención, el algoritmo de agrupamiento no supervisado puede ser agrupamiento jerárquico, correlación Cofenética o Criterio de información bayesiano pueden ser usados, independientemente o juntos para proporcionar un número final de agrupamientos a partir del conjunto de datos.

En todos los aspectos de la invención, la pluralidad de muestras, m, puede comprender una primera, segunda, tercera, cuarta, quinta y sexta línea de células, en donde la primera línea de células es seleccionada del grupo que consiste de SKMEL1 19, HS944, WM1 366 y WM88; la segunda línea de células es WM3248; la tercera línea de células es 1205LU; la cuarta l ínea de células es seleccionada del grupo que consiste de 451 LU, S MEL19, SKMEL28, SKMEL30, SK EL63, WM35, WM983 y WM983C; la quinta línea de células es seleccionada del grupo que consiste de WM321 1 , M14, MEWO, SKMEL2, SKMEL5, UACC257, UACC62, WM 122, WM 13662, WM239A, WM321 12, WM32482, WM793B y 501 MEL, y la sexta línea de células es ALME3M o WM882.

En algunos aspectos de la invención, las células de MM son de líneas de células.

Breve descripción de las figuras La FIG. 1 muestra un esquema del procedimiento de clasificación de tumor basado en genómica.

La Figura 2 muestra un dendrograma de un conjunto de datos de melanoma con el fin de derivar el número posible de agrupamientos al usar agrupamiento jerárquico.

La Figura 3 muestra un mapa de calor de datos de CGH de líneas de células y tumor de MM clasificados en 6 agrupamientos. Cada fila representa una muestra y cada columna representa un sitio de SNPs; colores rojo, blanco y azul indican números de copias alto, normal y bajo, respectivamente; líneas negras horizontales separan agrupamientos diferentes; espacios verticales separan cromosomas 1 a 22; las líneas celulares son resaltadas por círculos verdes.

Descripción detallada La invención proporciona valoración, clasificación y estratificación de tumores de MM, así como evaluación de eficacia de intervención terapéutica para tumores de MM. La invención explora técnicas de hibridación genómica comparativa basada en microarreglo para detectar anormalidades de número de copias de gene en una escala amplia de genoma, proporcionando así una vista de genoma entero de aberraciones cromosómicas acompañadas por un cambio en el número de copias de DNA. A diferencia de esquemas de clasificación basados en histopatología, los métodos de la invención indagan la heterogeneidad de células de MM, el principal factor detrás de la variabilidad observada en intervenciones clínicas.

Los métodos de la invención permiten el sub-agrupamiento genómico de MM para facilitar el descubrimiento y desarrollo de terapias enfocadas contra MM, así como para definir poblaciones de pacientes discretas quienes alojan MMs que serían susceptibles a estas terapias. Esta estratificación de grupos de pacientes también es extraordinariamente útil en diseño de ensayo clínico.

Los subgrupos definidos por el procedimiento de agrupamiento de la invención portaron distintos patrones de aberraciones genómicas, implicando diferentes orígenes y mecanismos tumorigénicos. Esta observación sugiere que los diferentes subgrupos manifestarán distintos comportamientos clínicos y sensibilidades a intervenciones terapéuticas, característicos de cada subgrupo. Tal ha sido observado previamente con otras aberraciones de número de copias, tal como, amplificación de HER2 en cáncer de pecho, amplificación de EGFR en cáncer de pulmón y amplificación de MYCN en neuroblastoma. (Ver, por ejemplo Anand et al. , 2003; Hirsch et al. , 2006; Seeger et al. , 1985; Vogel et al. , 2002).

Los métodos de la presente invención, hechos posibles mediante un novedoso algoritmo computacional, se basan en el análisis de patrones de genoma amplio complejos de alteraciones de número de copias. Los métodos de la invención proporcionan caracterización completa de subtipos genómicos de MM y generan correlaciones más precisas de comportamiento clínico e intervenciones terapéuticas.

La taxonomía genómica propuesta es válida para la población entera de sujetos de MM debido a que (i) el conjunto de muestras fue suficientemente grande (~1 10 muestras), y (ii) las muestras fueron adquiridas a partir de una variedad de fuentes, eliminando así la posibilidad de desviación.

En un aspecto, entonces, la invención proporciona métodos para perfilar muestras de MM usando hibridación genómica comparativa (CGH) de alta resolución y métodos para clasificar los perfiles de número de copias usando algoritmos estadísticos acostumbrados. La clasificación resultante de MMs puede ser usada para predecir la respuesta de pacientes a medicamentos y seleccionar modelos pre-clínicos.

Los métodos de la invención permiten la clasificación de MM con base en patrones de anormalidades genómicas, determinando así subgrupos moleculares de la enfermedad.

En otro aspecto, la presente invención explota un algoritmo computacional único que puede ser usado para definir o clasificar subgrupos genómicos de células de MM. En general, el algoritmo computacional comprende los siguientes pasos: 1 . Aplicar un algoritmo de aprendizaje de máquina (tal como Bosques Aleatorios) para identificar y eliminar muestras con contaminación significativa por células normales; 2. Usar agrupamiento no supervisado (tal como agrupamiento jerárquico) para estimar los números posibles de agrupamientos antes de ajustar los datos con un modelo de Factorización de matriz no negativa genómica (gNMF); 3. Usar inicios aleatorios múltiples de gNMF seguido por la aplicación de la correlación de matriz H resultando de gNMF como la matriz de distancia para clasificar muestras; 4. Clasificar tumores y líneas de células de cáncer en varios números posibles de agrupamiento usando el algoritmo de gNMF, seguido por el uso del coeficiente de correlación Cofenética y Criterio de información Bayesiano (BIC) para seleccionar el mejor modelo y determinar el número final de agrupamientos; y 5. Opcionalmente, aplicar una prueba de estabilidad de 10 veces para evaluar la estabilidad de los agrupamientos.

En una modalidad, la invención clasifica células de MM, comprendiendo los pasos de (1 ) extraer DNA genómico (gDNA) a partir de muestras de células de MM; (2) hibridar el gDNA a microarreglos, y analizar los microarreglos para adquirir la señal cruda para cada sonda manchada sobre el microarreglo; (3) determinar el número de copias de cada sitio y detectar las regiones de alteración de número de copias; (4) realizar el control de calidad de datos; (5) suavizar los datos de número de copias y reducir la dimensionalidad usando un algoritmo de segmentación; (6) clasificar los datos suavizados usando gNMF con un número estimado de agrupamientos estimado mediante agrupamiento jerárquico; (7) seleccionar el mejor modelo de clasificación usando correlación Cofenética y/o Criterio de información bayesiano; y (8) opcionalmente, probar la estabilidad de la clasificación de gNMF.

Los métodos de la presente invención facilitan la selección racional de modelos de prueba pre-clínica y mejoran la previsibilidad de pruebas pre-clínicas al proporcionar una representación más completa de tumores padres en los paneles de modelos de prueba pre-clínica. Aunque no se desea ligar a una teoría, el principio fundamental de la presente invención es como sigue. Los patrones de alteraciones de número de copias (CNAs) han mostrado determinar los fenotipos de tumores humanos. Así, si los subgrupos de poblaciones de tumor son definidos por patrones de CNAs y entonces al menos una línea celular es seleccionada para igualar cada subgrupo, un panel de líneas celulares puede ser desarrollado que representa la diversidad de la población de células de MM de manera más adecuada que los conjuntos actualmente disponibles de modelos de tumor. Estos paneles de líneas de células pueden usarse para probar intervenciones terapéuticas. Adicionalmente, estas bases de datos permiten que los tumores de MM de pacientes sean clasificados de manera más fina, permitiendo la prescripción refinada de intervenciones terapéuticas que tienen una mayor probabilidad de tratar de manera efectiva el cáncer.

Los métodos de la presente invención facilitan la selección racional de intervenciones terapéuticas y modelos de prueba preclínicos.

Definiciones Un perfil de número de copias de genoma amplio, o "número de copias", es una medición de número de copias de DNA de más de un sitio genético. U n perfil de número de copias puede valorar si una célula es esencialmente de tipo natural, en donde cada sitio genético está presente en dos copias (debido a que es diploide, excepto por cromosomas sexuales), o desviación del tipo natural, es decir, conteniendo amplificaciones y supresiones de sitios genéticos. Las amplificaciones y supresiones pueden afectar una parte de un elemento, y elemento entero, o muchos elementos de manera simultánea. Un perfil de número de copias no determina necesariamente el número exacto de amplificaciones o supresiones, pero identifica esas regiones que contienen las anormalidades genéticas, y si la anormalidad es una supresión o amplificación.

En algunas modalidades, un genoma "tipo natural", cuando se usa en el contexto de la determinación de genotipo de una muestra, no necesariamente significa que la muestra de tipo natural es estrictamente dipolide. En el contexto de la presente invención , un genoma de "tipo natural" es uno que es tomado de una célula que no expresa, o no va a expresar, un estado de enfermedad particular, tal como MM. Por ejemplo, un genoma de tipo natural puede ser provisto por un sujeto a partir de células normales, saludables, y comparado con las mismas células de MM del sujeto.

"Criterio de información Bayesiano" o "B IC" se refiere a un método paramétrico, el cual es usado como un criterio estad ístico para selección de modelo. BIC fue descrito por (Schwarz, 1978). BIC es defin ido por la sig uiente fórmu la ( 1 ): BIC = -2*ln(L)+ k \n(n) (1 ) en donde L es la probabilidad la cual mide qué tan bien se aproxima a los datos el modelo, k es el número de parámetros usados en el modelo y n es el número de muestras. El segundo término, k*\n(n) , sirve como una penalidad sobre el n ú mero de parámetros usado en el modelo para evitar sobreaj uste.

"Coeficiente de correlación Cofenética" o "Correlación cofenética" , usado de manera intercambiable en la presente, se refiere a algoritmos que son usados para medir qué tan fielmente un dendrograma usado para derivar el resultado de ag rupamiento final conserva las distancias por parejas entre los puntos de datos no modelados originales. Para usarse en la presente invención, si se supone que los datos originales X¡ han sido modelados por un dendrograma T¡, las medidas de distancia son definidas por la fórmula (2) : la distancia entre las muestras iésima y jésima y t(i,j) = la distancia dendrogramática entre los puntos de modelo T¡ y T¡, donde la distancia es la altura del nodulo en el cual estos dos puntos se unen primero.

Entonces, si x es el promedio de x(i,j), y t es el promedio de t(i,j), el coeficiente de correlación Cofenética c es definido por la fórmula (3): Conforme r aumenta, la correlación Cofenética disminuirá dramática a un cierto punto, correspondiendo así al mejor número de agrupamientos (Carrasco et al. , 2006; Maher et al. , 2006).

"Análisis de agrupamiento", también conocido como "segmentación de datos", se refiere al agrupamiento o segmentación de una colección de objetos (también llamados observaciones, individuos, casos o filas de datos), en subconjuntos, subgrupos o "agrupamientos", de manera que aquéllos dentro de cada agrupamiento están relacionados más estrechamente unos a otros que objetos asignados a diferentes agrupamientos. Fundamental para todos los objetivos de análisis de agrupamiento es la noción de grado de similitud (o disimilitud) entre los objetos individuales siendo agrupados. Ejemplos de tipos de agrupamiento son agrupamiento jerárquico y agrupamiento de k promedio.

"Agrupamiento jerárquico" se refiere a la construcción (aglomerativa) o ruptura (divisiva), de una jerarquía de agrupamientos. La representación tradicional de esta jerarquía es un dendrograma, con elementos individuales en un extremo o un agrupamiento simple conteniendo cada elemento al otro. Los algoritmos aglomeratívos comienzan en las hojas del árbol, mientras que los algoritmos divisivos comienzan en la raíz. Los métodos para realizar agrupamiento jerárquico son bien conocidos en la técnica.

Los métodos de agrupamiento jerárquico han sido ampliamente usados para agrupar muestras biológicas con base en sus patrones genómicos y derivan estructuras de subgrupo en poblaciones de muestras en investigación biomédica (Ver, Bhattacharjee et al. , 2001 ; Hedenfalk et al. , 2003; Sotiriou et al. , 2003; Wilhelm et al. , 2002). Por ejemplo, el agrupamiento jerárquico fue usado para agrupar 64 líneas de células de tumor humanas en varios agrupamientos basados en el patrón de expresión de 1 161 genes seleccionados y derivar las firmas moleculares de diferentes agrupamientos (Ross et al. , 2000).

"Aprendizaje de máquina" se refiere a sub-campo de inteligencia artificial que se refiere al diseño y desarrollo de algoritmos y técnicas que permite que computadoras "enseñar". En general, existen dos tipos de aprendizaje: inductivo y deductivo. Los métodos de enseñanza de máquina inductiva extraen reglas y patrones de conjuntos de datos. El foco principal de investigación de aprendizaje de máquina es extraer información a partir de datos automáticamente, mediante métodos computacionales y estadísticos. Una variedad de algoritmos de aprendizaje de máquina, los cuales son organizados en taxonomías, con base en el resultado deseado del algoritmo, es conocida para expertos en la técnica. Estos incluyen: (1 ) aprendizaje supervisado (por ejemplo, Bosques aleatorios); (2) aprendizaje no supervisado (por ejemplo, análisis componentes principales, cuantificación de vectores, etc.); (3) aprendizaje semi-supervisado; (4) aprendizaje de refuerzo; (5) transducción; y (6) aprendizaje para aprender.

"Factorización de matriz no negativa" (NMF) se refiere a un algoritmo para encontrar representaciones lineales, basadas en partes, de datos no negativos. Factorización de matriz no negativa fue desarrollada originalmente como una herramienta matemática para uso en análisis de imágenes (Lee y Seung, 1 999; Lee y Seung, 2001 ). NMF fue adoptada en genómica para análisis de datos de expresión de gene (Brunet et al. , 2004). De manera específica, NMF fue adaptada para usarse en el análisis de datos de números de copias de genes, la variación del método usado para análisis de número de copias de genes es referido como Factorización de matriz no negativa genómica (gNMF) (Carrasco et al. , 2006; Maher et al., 2006). Dada una matriz V de n x m de datos de números de copias suavizados para un conjunto de muestras, donde n es el número de segmentos y m es el número de muestras, el algoritmo de gNMF factoriza la matriz V en una matriz W de n x r y una matriz H de r x m como se m uestra en la siguiente fórmula (4): V = W*H + e (4) en donde W puede observarse como el modelo estándar para cada subgrupo; H como pesos relativos de cada m uestra perteneciente a cada subgrupo; e representa los residuos de ajuste de modelo, y r es el n úmero de subgrupos a ser agrupados (el cual es usualmente mucho más pequeño que m) . Dados r y V como entradas , el algoritmo de g NMF fija primero aleatoriamente el valor inicial de W y H y entonces actualiza iterativamente W y H usando reglas de actualización multiplicativas de conformidad con las fórmulas a continuación (5 y 6): H„„ <— H '„— (5) k ?Ha i l{WH)lu Wia ^ Wla " ?fí (6) v en donde a corre desde 1 hasta r, µ corre desde 1 hasta m e corre desde 1 hasta n.

" Disimilitud lineal de Pearson" se refiere a la fórmula (7): 1— tj) en donde y )' son dos vectores con longitud n, P{*>y) es la correlación lineal de Pearson la cual tiene la fórmula (8): í^)— n-l^ sx ^ sy (8) en donde la desviación estándar de muestra sx y sy tienen la fórmula (9): y en donde el promedio de muestra promedio tiene la fórmula (10): X =z~?x . ¦ (10) "Bosques aleatorios" se refiere a un algoritmo de aprendizaje supervisado que usa una combinación de tres predictores de manera que cada árbol depende de los valores de un vector aleatorio muestreado de manera independiente y con la misma distribución para todos los árboles en el bosque (Breiman, 2001).

Los bosques aleatorios cultivan muchos árboles de clasificación. Para clasificar un nuevo objetivo de un vector de entrada, ponen el vector de entrada abajo de cada uno de los árboles en el árbol. Cada árbol da una clasificación y se dice que el árbol "vota" para esa clase. El bosque elige la clasificación teniendo la mayoría de los votos (sobre todos los árboles en el bosque). Cada árbol es cultivado como sigue: 1 . Si el número de casos en el conjunto de entrenamiento es N, la muestra N casos en aleatorio - pero con reemplazo, de los datos originales. Esta muestra será el conjunto de entrenamiento para cultivar el árbol. 2. Si existen variable de entrada N, un número m«M es especificado de manera que en cada nodulo, m variables sean seleccionadas de manera aleatoria de M y las mejores divididas en estas variables m son usadas para dividir el nodulo. El valor de m es sostenido constante durante el cultivo de bosque. 3. Cada árbol es cultivado al grado más grande posible. No existe poda.

La tasa de error de bosque depende de dos factores: 1 . La correlación entre cualquiera de dos árboles en bosque.

Incrementar la correlación aumenta la tasa de error del bosque. 2. La fuerza de cada árbol individual en el bosque. Un árbol con una tasa de error baja es un clasificador más fuerte. Aumentar la fuerza de los árboles individuales disminuye la tasa de error de bosque.

Un "oligonucleótido" o "polinucleótido" es un ácido nucleico que varía desde al menos 2, de preferencia al menos 8, y más preferiblemente al menos 20 nucleótidos de longitud o un compuesto que híbrida específicamente a un polinucleótido. Los polinucleótidos incluyen ácido desoxiribonucleico (DNA) o ácido ribonucleico (RNA). Un ejemplo adicional de un polinucleótido es ácido nucleico de péptido (PNA).

Una "sonda" es una molécula inmovilizada en superficie que puede ser reconocida por un objetivo particular.

"Soporte sólido", "soporte" y "substrato" son usados de manera intercambiable y se refieren a un material o grupo de materiales teniendo superficie o superficies rígidas o semi-rígidas.

"Hibridación" se refiere a la formación de complejos entre secuencias de ácido nucleico, las cuales son suficientemente complementarias para formar complejos vía emparejado de base de Watson-Crick o emparejado de base no canónica. Por ejemplo, cuando un iniciador "híbrida" con una secuencia objetivo (plantilla), tales complejos (o híbridos) son suficientemente estables para servir la función de iniciación requerida mediante, por ejemplo, la DNA polimerasa, para iniciar la síntesis de DNA. Las secuencias de hibridación no necesitan tener complementariedad perfecta para proporcionar híbridos estables. En muchas situaciones, híbridos estables se forman donde menos de aproximadamente 1 0% de las bases son desajustes. Como se usa en la presente, el término "complementario" se refiere a un oligonucleótido que forma un duplo estable con su complemento bajo condiciones de ensayo, generalmente donde existe aproximadamente 80%, aproximadamente 81 %, aproximadamente 82%, aproximadamente 83%, aproximadamente 84%, aproximadamente 85%, aproximadamente 86%, aproximadamente 87%, aproximadamente 88%, aproximadamente 89%, aproximadamente 90%, aproximadamente 91 %, aproximadamente 92%, aproximadamente 93%, aproximadamente 94%, aproximadamente 95%, aproximadamente 96%, aproximadamente 97%, aproximadamente 98% o aproximadamente 99% de homología mayor. Aquéllos expertos en la técnica entienden cómo estimar y ajustar la severidad de condiciones de hibridación, de manera que las secuencias teniendo al menos un nivel deseado de complementariedad hibridarán establemente, mientras que aquéllas teniendo menor complementariedad no. Ejemplos de condiciones de hibridación y parámetros son bien conocidos (Ausubel, 1987; Sambrook y Russell, 2001 ).

Un arreglo de ácido nucleico ("arreglo") comprende sondas de ácido núcleo unidas a un soporte sólido. Los arreglos normalmente comprenden una pluralidad de diferentes sondas de ácido nucleico que son acopladas a una superficie de un substrato en diferentes ubicaciones conocidas. Estos arreglos, también descritos como microarreglos, "chips" han sido descritos de manera general en la técnica, por ejemplo, las patentes estadounidenses nos. 5, 143,854, 5,445,934, 5,744,305, 5,667, 195, 6,040, 193, 5,424, 186 y (Fodor et al. , 1991 ). Estos arreglos pueden ser producidos de manera general usando métodos de síntesis mecánica o métodos de síntesis dirigida por luz que incorporan una combinación de métodos fotolitográficos y métodos de síntesis de fase sólida. Técnicas para la síntesis de arreglos usando síntesis mecánica son descritas en, por ejemplo, la patente estadounidense no. 5,384,261 . Aunque se prefiere una superficie de arreglo plana, el arreglo puede ser fabricado sobre una superficie de virtualmente cualquier forma o incluso una multiplicidad de superficies. Los arreglos pueden ser ácidos nucleicos en perlas, geles, superficies poiiméricas, fibras tales como fibra óptica, vidrio o cualquier otro substrato apropiado; por ejemplo, como se describe en las patentes estadounidenses nos. 5, 770,358, 5, 789, 162, 5,708, 153, 6,040, 1 93 y 5,800,992. Los arreglos pueden ser empacados en una manera tal para permitir el diagnóstico u otra manipulación de un dispositivo inclusive, ver por ejemplo, las patentes estadounidenses nos. 5,856, 174 y 5,922,591 .

Los arreglos pueden ser diseñados para cubrir un genoma usando polimorfismos de nucleótidos simples (SNPs). Por ejemplo, un arreglo puede cubrir 1 16,204 sitios de polimorfismo de nucleótidos simples (SNP) en el genoma humano con una distancia inter-marcadora promedio de sitios de SNP de 23.6 kb.

"Etiquetado" y "etiquetado con etiqueta detectable (o agente o porción)" son usados de manera intercambiable y especifican que una entidad (por ejemplo, un fragmento de DNA, un iniciador o una sonda) pueden ser visualizados, por ejemplo, siguiendo la unión a otra entidad (por ejemplo, un producto de amplificación). La etiqueta detectable puede ser seleccionada de manera que genera una señal la cual puede ser medida y cuya intensidad está relacionada con (por ejemplo, proporcional a) la cantidad de entidad unida. Una amplia variedad de sistemas para etiquetar y/o detectar moléculas de ácido nucleico, tal como iniciador y sondas, son bien conocidos en la técnica. Los ácidos nucleicos etiquetados pueden ser preparados al incorporar o conjugar una etiqueta que es directa o indirectamente detectable mediante medios espectroscópicos, fotoquímicos, bioquímicos, inmunoquímicos, eléctricos, ópticos, químicos u otros medios. Agentes detectables adecuados incluyen radionúclidos, fluoróforos, agentes quimioluminiscentes, micropartículas, enzimas, etiquetas colorimétricas, etiquetas magnéticas, haptenos y similares.

"Sonda" se refiere a un oligonucleótido diseñado para usarse en conexión con un microarreglo de CGH , un microarreglo de SNPs o cualquier otro microarreglo conocido en la técnica que son capaces de hibridar selectivamente a al menos una porción de una secuencia objetivo bajo condiciones apropiadas. En general, una secuencia de sonda es identificada como que es ya sea "complementaria" (es decir, complementaria al filamento de codificación o sentido (+))" o "complementaria inversa" (es decir complementaria al filamento de anti-sentido (-)). Las sondas pueden tener una longitud de aproximadamente 10-100 nucleótidos, de preferencia aproximadamente 15-75 nucleótidos, muy preferiblemente desde aproximadamente 1 5-50 nucleótidos.

"Composición farmacéutica" o "medicamento", usado de manera intercambiable, se refiere a cualquier agente, ya sea una molécula pequeña (por ejemplo, un medicamento conteniendo un agente activo, normalmente uno no peptídico) o biológico (por ejemplo, un medicamento basado en péptido, proteína o anticuerpo, incluyendo cualquier modificación, tal como PEGilación) que puede usarse para tratar un sujeto o paciente que sufre de al menos un tipo de cáncer.

Una "célula" puede venir de un tumor, línea de células o un sujeto.

Una "terapia" o "régimen terapéutico" se refiere a un curso de tratamiento pretendido para reducir o eliminar las afecciones o síntomas de una enfermedad o para prevenir la progresión de una enfermedad de un estado a un segundo estado más perjudicial. Un régimen terapéutico puede comprender un medicamento prescrito, cirugía o tratamiento de radiación. El perfil de número de copias de un tumor de sujeto también puede impactar efectos laterales y eficacia de una terapia seleccionada. En la presente invención, el perfil de número de copias de un tumor de sujeto puede usarse para determinar una terapia o régimen terapéutico que es probable que sea más efectivo.

"Sujeto" o "paciente" abarca mamíferos y no mamíferos. Ejemplos de mamíferos incluyen: humanos, otros primates, tales como chimpancés y otros simios y especies de mono; animales de granja, tales como ganado, caballos, borregos, cabras, cerdos; animales domésticos tales como conejos, perros y gatos; animales de laboratorio incluyendo roedores, tales como ratas, ratones y conejillos de Indias. Ejemplos de no mamíferos incluyen aves y peces.

"Tratar, "tratando" y "tratamiento" significan aliviar, abatir o mejorar una enfermedad o síntomas de condición , prevenir síntomas adicionales, mejorar o prevenir las causas metabólicas subyacentes de síntomas, inhibir la enfermedad o condición , por ejemplo, detener el desarrollo de la enfermedad o condición, aliviar la enfermedad o condición , provocar la regresión de la enfermedad o condición, aliviar una condición provocada por la enfermedad o condición, o detener los síntomas de la enfermedad o condición ya sea de manera profiláctica y/o terapéutica.

Práctica de la invención En los métodos de la invención , una base de datos de referencia de perfiles de número de copias es creada, en donde el número de copias genómico en una pluralidad (m) de muestras comprendiendo cél ulas de MM es determinada (donde m es un entero desde 1 hasta 5, 000, 000. Por ejemplo, una pluralidad de muestras puede ser dos (2) , cinco (5), diez (10) , quince (15) , veinte (20) , veintici nco (25) , cincuenta (50), cien (1 00), doscientos (200), quinientos (500) , mil (1 , 000), diez mil (1 0,000), cincuenta mil (50, 000), cien mil m uestras ( 1 00, 000) , doscientos cincuenta mil muestras (250, 000), quinientos mil (500, 000), un millón (1 ,000,000) de muestras, etc.). Las células de M M son clasificadas entonces en subgrupos genóm icos de acuerdo con los patrones de número de copias, el perfil de número de copias. Cada uno de estos subgrupos representa no solo una clasificación basada en genotipo, sino que se espera que muestre respuesta característica a varias intervenciones terapéuticas. Por ejemplo, un subgrupo puede ser más susceptible a radiación, mientras que otro es más susceptible a intervenciones farmacéuticas, tal como quimioterapia.

Las alteraciones de número de copias son detectadas en células de MM que pueden ser obtenidas de sujetos que sufren de, o están en riesgo de sufrir de, MM. Tales células pueden ser obtenidas usando técnicas de rutina. Por ejemplo, los tumores pueden ser disecados quirúrgicamente a partir de un sujeto que sufre o que se sospecha que sufre de cáncer y entonces congelarse inmediatamente, tal como a -80°C.

Para desarrollar una base de datos de diferentes subgrupos que permita la clasificación de un sujeto, tumores de MM y líneas de células de cáncer pueden obtenerse comercialmente o de fuentes públicas. Un conjunto útil de líneas de células es mostrado en la Tabla 1 . En la tabla, ATTC American Type Culture Collection, (Manassus, VA) CLS, Cell Line Service (Alemania) y DSMZ, Deutsche Sammlung von Mikroorganismen und Zellkulturen GmbH (Braunschweig, Alemania).

Información de número de copias y alteración de número de copias adicional de células de MM y líneas de células de cáncer puede ser obtenida de una variedad de fuentes comercial o públicamente disponibles, tales como del Gene Expression Omnibus (GEO), el cual está disponible del National Center for Biotechnology Information (NCBI), en línea del Broad Institute/Dana Farber Cáncer Institute Melanoma Portal, en l ínea del Dana Farber Cáncer I nstitute web site, etc.

Tabla 1 Células y fuentes Línea de células Fuente de datos No. de Referencia catálogo de ATCC SKMEL19 Broad Institute/Dana (Lin et al., 2008) Farber Cáncer Institute (Broad) SKMEL30 Broad (Lin et al., 2008) SKMEL63 Broad (Lin et al., 2008) SKMEL119 Broad (Lin et al., 2008) HS944 Broad CRL-7693 (Lin et al., 2008) WM1366 Gene Expression (Greshock et al., 2007) Omnibus (GEO) WM88 GEO (Greshock et al., 2007) WM3248 GEO (Greshock et al., 2007) 1205LU GEO CRL-2812 (Greshock et al., 2007) WM35 GEO CRL-2807 (Greshock et al., 2007) WM983 GEO (Greshock et al., 2007) WM3211 GEO (Greshock et al., 2007) M14 GEO (Greshock et al., 2007) Malme-3M GEO HTB-64 (Greshock et al., 2007) MeWo GEO HTB-65 (Greshock et al., 2007) SKMEL2 GEO (Greshock et al., 2007) SKMEL28 GEO (Greshock et al., 2007) SK EL5 GEO (Greshock et al., 2007) UACC257 GEO (Greshock et al., 2007) UACC62 GEO (Greshock et al., 2007) W 122 GEO (Greshock et al., 2007) WM 13662 GEO (Greshock et al., 2007) WM239A GEO (Greshock et al., 2007) W 32112 GEO (Greshock et al., 2007) WM32482 GEO (Greshock et al., 2007) WM793B GEO CRL-2806 (Greshock et ai., 2007) W 882 GEO (Greshock et al., 2007) W 983C GEO (Greshock et al., 2007) 451 Lu GEO CRL-28 3 (Greshock et al., 2007) 501 MEL GEO (Greshock et al., 2007) Una vez que las líneas de células de cáncer y tumores requeridas son obtenidas, el DNA genómico (gDNA) es extraído a partir de cada uno de los tumores o líneas de células usando técnicas de rutina, tales como, extracción con fenol-cloroformo, desalado, extracción libre de digestión o mediante el uso de kits comercialmente disponibles, tales como los kits DNEasy o QlAamp disponibles de (Qiagen, Valencia, CA). El gDNA obtenido de cada uno de los tumores o líneas de células puede ser modificado o alterado entonces para facilitar el resto del análisis. Por ejemplo, las secuencias de iniciador o adaptador pueden ligarse al DNA genómico usando técnicas de rutina. Por ejemplo, el gDNA puede ser digerido primero con la endonucleasa de restricción, tal como, Hind II I o Xbal . Una vez digerido, una o más secuencias de iniciador o adaptador pueden ser ligadas al gDNA digerido. De preferencia, los adaptadores usados son aquéllos que reconocen cuatro pares de bases cohesivas sobresalientes.

El DNA aislado es amplificado usando métodos de rutina. Los métodos de amplificación de ácido nucleico útiles incluyen la Reacción en cadena de polimerasa (PCR). PCR es descrita en una variedad de referencias (Innis, 1990; Innis et al. , 1995; McPherson et al. , 1991 ; Saiki et al., 1986; Sninsky et al. , 1999); y patentes estadounidenses nos. 4,683, 1 95, 4,683,202 y 4,889,818, cada una de las cuales es incorporada en la presente por referencia. Variaciones de PCR incluyendo ensayos basados en TAQ AN® (Holland et al. , 1 991 ) y reacción en cadena de polimerasa de transcriptasa inversa (RT-PCR; descrita en, por ejemplo, patentes estadounidenses nos. 5,322,770 y 5,31 0, 652, cada una de las cuales es incorporada por referencia).

En general, un par de iniciadores es adicionado al gDNA aislado para hibridar a los filamentos complementaros del ácido nucleico objetivo. Si el gDNA obtenido de los tumores o líneas de células de cáncer es digerido y ligado a secuencias de iniciador o adaptador, entonces se prefiere que uno de los iniciadores usados en el método de amplificación reconozca las secuencias de adaptador. También se prefiere que los iniciadores usados en el método de amplificación amplifiquen fragmentos en el rango de tamaño de pares de bases de 250 hasta 2000.

Sobre la terminación de la amplificación, el DNA amplificado resultante puede ser purificado, usando técnicas de rutina, tal como sistema MINELUTE® 96 UF PCR Purificaron (Qiagen). Después de la purificación, el DNA amplificado es fragmentado entonces usando técnicas de rutina, tal como mediante sonicación o digestión enzimática, tal como DNase I . Después de la fragmentación, el DNA es etiquetado con una etiqueta detectable. Los métodos para etiquetar DNA y fragmentos de DNA son bien conocidos.

Cualquiera de una variedad de etiquetas detectables puede ser usada. Etiquetas detectables adecuadas incluyen, pero no están limitadas a, varios ligandos, radionúclidos (por ejemplo, 32P, 3SS, 3H, 1 C, 125l , 31 l y similares); tintes fluorescentes; agentes quimioluminiscentes (por ejemplo, ésteres de acridinio, dioxetanos estabilizados y similares); nanocristales de semiconductores fluorescentes inorgánicos espectralmente resolvibles (por ejemplo, puntos de quantum), nanopartículas de metal (por ejemplo, oro, plata, cobre y platino) o nanoagrupamientos; enzimas (por ejemplo, peroxidasa de rábano picante, beta-galactosidasa, luciferasa, fosfatasa alcalina); etiquetas colorimétricas (por ejemplo, tintes, oro coloidal y similares); etiquetas magnéticas (por ejemplo, DynabeadsM R); y biotina, dioxigenina y otros haptenos y proteínas.

Una vez amplificado, el DNA fragmentado es etiquetado con una etiqueta detectable, es hibridado a un microarreglo usando técnicas de rutina conocidas. El microarreglo puede contener oligonucleótidos, genes o clones genómicos que pueden ser usados en Hibridación genómica comparativa (CGH) para buscar ganancias y pérdidas genómicas. De manera alternativa, el microarreglo puede contener oligonucleótidos o clones genómicos que detectan mutaciones o polimorfismos, tales como polimorfismos de nucleótidos simples (SNPs). Los microarreglos pueden hacerse usando técnicas de rutina conocidas en la técnica. De manera alternativa, pueden usarse microarreglos comercialmente disponibles. Ejemplos de microarreglos que pueden ser usados son el arreglo de SNP de AFFYMETRIX GENECHIP® Mapping 100K Set (Matsuzaki et al. , 2004) (Affimetrix, Inc. , Santa Clara, CA), el Agilent Human Genome aCGH Microarray 44B (Agilent Technologies, Inc. , Santa Clara, CA), microarreglos lllumina (lllumina, Inc. , San Diego, CA), microarreglos Nimblegen aCGH (Nimblegen, Inc. , Madison, Wl), etc.

Después de la hibridación, el microarreglo es lavado usando técnicas de rutina para remover ácidos nucleicos no hibridados. Después del lavado, el microarreglo es analizado en un lector o explorador. Ejemplos de lectores o exploradores incluyen GENECHIP® Scanner 3000 G7 (Affymetrix, Inc.), el Agilent DNA Microarray Scanner (Agilent Technologies, Inc.), GENEPIX® 4000B (Molecular Devices, Sunnyvale, CA), etc. Señales reunidas de las sondas contenidas en el microarreglo pueden ser analizadas usando programa de cómputo comercialmente disponible, tal como aquéllas provistas por Affymetrix o Agilent Technologies. Por ejemplo, si el GENECHIP® Scanner 3000 G7 de Affymetrix es usado, puede usarse el AFFYMETRIX GENECHIP® Operating Software. El AFFYMETRIX GENECHIP® Operating Software recolecta y extrae los datos crudos o de característica (señales) de los Affymetrix GeneChip® Scanners, los cuales detectan las señales de todas las sondas. Los datos crudos o característicos pueden ser almacenados electrónicamente en uno de cualquiera de los formatos de archivo adecuados, tales como pero no limitados a, como un archivo CEL (el formato del archivo CEL es un archivo de texto ASCI I similar al formato Windows IN I), un archivo CHP, un archivo CNT, un archivo de ajuste de metasonda o incluso como un archivo de texto simple.

Los datos recolectados y extraídos del microarreglo son procesados para determinar el número de copias en cada sitio en cada cromosoma y para definir regiones de alteraciones de número de copias. Tal procesamiento puede hacerse usando algoritmos conocidos, tales como Segmentación circular binaria (Olshen et al. 2004), Análisis de ganancia y pérdida de DNA (GLAD) (Hupe et al. , 2004), aproximaciones basadas en modelo escondido de Markov (Fridlyand et al. , 2004; Zhao et al. , 2004), o métodos basados en agrupamiento (Wang et al. , 2005), etc. De manera alternativa, puede usarse un programa de cómputo comercialmente disponible, tal como el programa de cómputo PARTEK® GENOMIC SUITEMR, tal como versión 6.08.01 03 (disponible de Partek, St. Louis, MO), GenePattern (disponible en línea; (Reich et al. , 2006)), y dChip (disponible en línea; (Li et al, 2001 ).

Por ejemplo, si el programa de cómputo PARTEK® GENOMIC SUITEMR, tal como versión 6.08.0103 es usado, archivos CEL conteniendo las señales de todas las sondas en el microarreglo detectadas por los exploradores pueden ser cargadas en el programa de cómputo. Los números de copias son calculados al comparar las intensidades de señal para las muestras de línea de células de cáncer o tumor determinadas a partir del microarreglo a aquéllas en una referencia o control después de la corrección a una línea de base prefijada (el número usado para establecer la línea de base prefijada no es crítico y es un entero (n), donde n es 1 a 100. Por ejemplo, la línea de base prefijada puede ser 2). La referencia o control usada puede ser un conjunto de muestras de tejido normal o tejidos normales emparejados de los mismos pacientes como las muestras de tumor medidas mediante la misma plataforma de de microarreglo. La referencia o control puede comprender al menos 5 muestras, al menos 10 muestras, al menos 1 5 muestras, al menos 20 muestras, al menos 25 muestras, a I menos 30 muestras, al menos 35 muestras, al menos 40 muestras, al menos 45 muestras, al menos 50 muestras, al menos 75 muestras, al menos 1 00 muestras, al menos 150 muestras, al menos 200 muestras, etc.

Los datos de números de copias resultantes son segmentados entonces y regiones de alteración de números de copias son detectadas en cada muestra. La segmentación y detección de regiones de alteración de número de copias puede ser obtenida usando los siguientes parámetros de control: (i) una región de número de copias debe contener al menos 100 sondas; (ii) el valor p comparando el número de copias promedio de la región de número de copias versus las regiones de número de copias adyacentes deben ser menores que 0.00001 , y (iii) la proporción de señal/ruido de la transición debe ser mayor que 0.1 .

Las regiones de alteración de número de copias pueden ser detectadas cuando los números de copias promedio en estas regiones son estadísticamente menores que 1 .65 (supresión) o mayores que 2.65 (ganancia) con valores P por debajo de 0.01 .

Debido a que las muestras de tumor pueden contener un porcentaje significativo de células normales las cuales pueden diluir la señal de una alteración de número de copias, un algoritmo de aprendizaje de máquina puede ser usado para capturar la diferencia entre los patrones de número de copias de muestras de líneas de células de cáncer y tumor y aquéllas de muestras normales. Tal algoritmo puede ser usado para identificar y eliminar muestras de tumor contaminadas por células normales de análisis adicional. De esta manera, el algoritmo de aprendizaje de máquina sirve como un control de calidad de datos para el conjunto de datos es referido en la presente como un "algoritmo de control de calidad de datos".

El algoritmo de control de calidad de datos involucra seleccionar un subconjunto de muestras con el número de regiones de alteración de número de copias más alto a partir de las muestras de líneas de células de cáncer y tumor como se describe previamente en la presente (de aquí en adelante el "primer conjunto de muestras"). Un conjunto normal de muestras también es seleccionado (de aquí en adelante "el segundo conjunto de muestras"). Estos conjuntos de muestra primera y segunda son usados como un conjunto de entrenamiento para desarrollar un algoritmo de aprendizaje de máquina para clasificar muestras como ya sea muestras "normales" o "tumor" al sintonizar los parámetros del algoritmo para representar mejor la diferencia entre el primer y segundo conjunto de muestras. El clasificador entrenado es aplicado a las muestras de líneas de células de cáncer o tumor restantes para asignar una calificación a cada muestra. Esta calificación de probabilidad representa la probabilidad de cada muestra que está contaminada por células normales. Las muestras teniendo una probabilidad de contaminación sobre 50% son excluidas del análisis de agrupamiento subsecuente. Algoritmos de aprendizaje de máquina que pueden usarse para este fin, incluyen Bosques aleatorios (RF) (Breiman, 2001 ), Máquina de vector de soporte (SVM) (Vapinik, 1 995), Recursive-SVM (Zhang et al. , 2006), Regresión de ángulos mínimos (LARS) (Efron et al. , 2004), etc.

Debido a que los datos de número de copias obtenidos a partir de los microarreglos tienden a ser altamente densos y ruidosos, los datos de números de copias pueden ser suavizados para disminuir el nivel de ruido y reducir la dimensionalidad (también referidos como "reducción de dimensión") y la complejidad de datos. El suavizado de datos puede hacerse al detectar primero regiones de números de copias significativamente ganadas o suprimidos en cada muestra usando técnicas de rutina. Una vez que tales regiones son identificadas, regiones adyacentes pueden ser fusionadas si tienen cambios de números de copias similares y si las distancias entre estas regiones son menores que 500 kilobases. Entonces el genoma entero puede ser segmentado entonces usando la unión de puntos de ruptura de todas las muestras en un conjunto de datos y el número de copias de cada segmento puede ser calculado al promediar el número de copias de sondas de SNPs dentro de cada segmento (Carrasco et al. , 2006). El suavizamiento de datos puede dar mejor resolución de las ganancias y supresiones de número de copias de cada muestra.

Después del suavizamiento de datos y reducción de dimensión, el conjunto de datos es sometido a un método de agrupamiento no supervisado para obtener una revisión de la similitud relativa entre cada una de las muestras de líneas de células de cáncer y tumor y obtener un estimado (por ejemplo, un estimado aproximado) del número de subgrupos (el cual también es referido en la presente como r subgrupos) que existen en los datos hasta ahora. Después del suavizamiento de datos y reducción de dimensión, los métodos de agrupamiento no supervisado usando el algoritmo de disimilitud lineal personal son aplicados al conjunto de datos de número de copias de líneas de células y tumor suavizados, los cuales son referidos como el "Conjunto de datos" o V. Los patrones de agrupamiento pueden ser graficados y visualmente inspeccionados para derivar un rango de posibles n úmeros de subgrupos, r, en el Conjunto de datos (el rango de posible números de subgrupos en el Conjunto de datos será un entero (n) desde 1 hasta 100). Ejemplos de métodos de agrupamiento no supervisados que pueden usarse incluyen, pero no están limitados a, agrupamiento jerárquico, Análisis de componentes principales (PCA) (Pearson, 1 901 ) o Multidimensional Scaling (MDS) (Borg y Groenen, 2005). Los números de subgrupos (los cuales son referidos cada uno como "valor r", donde cada valor r es un entero desde 1 hasta 100) son usados entonces como entrada en el análisis de agrupamiento usando factorización de matriz no negativa genómica ("gNMF").

En aplicaciones previas de gNMF para agrupar datos de CGH (Carrasco et al. , 2006; Maher et al. , 2006), el algoritmo fue detenido cuando las asignaciones de subgrupo de muestras de líneas de células de cáncer y tumores no cambian después de un número pre-definido de pasos (por ejemplo, 1 00). Con base en las pruebas con datos simulados así como datos de CGH reales, se cree que este criterio detiene (por ejemplo, termina) el algoritmo de gNMF demasiado pronto. Por lo tanto, el algoritmo de gNMF puede ser modificado de manera que después de una variedad seleccionada de pasos (donde el número seleccionado de pasos no es crítico y es un entero (n) desde 1 hasta 1000, tales como, por ejemplo, 5 pasos, 10 pasos, 25 pasos, 50 pasos, 100 pasos, 200 pasos, etc.) de actualización multiplicativa, la divergencia del algoritmo del Conjunto de datos es calculado usando la fórmula anterior (1 1 ): en donde Vu es la iésima fila y la j'ésima columna de matriz V, (WH)tJ es la /'és/ma fila y la jiésima columna de matriz (W*H), i corre desde 1 hasta n y n es el número de segmentos en el conjunto de datos, y j corre desde 1 hasta m y m es el número de muestras en el conjunto de datos.

Usando la fórmula anterior, el algoritmo iterativo detiene (también referido en la presente como el "criterio de paro") si la divergencia calculada antes no disminuye por más de aproximadamente 0.001 % cuando se compara con la divergencia calculada para el número de pasos seleccionado previo o anterior (por ejemplo, 100) de actualización multiplicativa para el algoritmo. Esta modificación al algoritmo de gNMF ha sido encontrada por mejorar significativamente la precisión del agrupamiento.

Debido a que gNMF es un procedimiento estocástico, el algoritmo puede generar diferentes resultados cuando se inicia a partir de diferentes valores iniciales. Para mejorar adicionalmente el desempeño del algoritmo de agrupamiento, se desarrolló una nueva estrategia de iniciación múltiple. Para cada Conjunto de datos, la estrategia involucra usar el criterio de paro descrito antes de iniciar o repetir aleatoriamente el algoritmo de gN F para un número seleccionado de corridas (el número de corridas seleccionado que el algoritmo puede ser iniciado o repetido aleatoriamente y es un entero (n) desde 1 hasta 1000, tal como por ejemplo, 1 , 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 1 00, 125, 150, 175, 200, 225, 250, 275, 300, 350, etc.). Una vez que el algoritmo ha completado su número de corridas aleatoriamente seleccionado, la matriz de coeficiente de correlación de Pearson de H para cada una de estas corridas es calculada usando la siguiente fórmula (12): en donde C es la matriz de correlación, C¡j es la ies,ma fila y la jes,ma columna en la matriz C, H,¡ y H,¡ son el iésimo y jésimo vector de columna en la matriz H, p(H¡ H¿) es el coeficiente de correlación de Pearson entre /-/ ,· y H¿, i y j corren desde 1 hasta m y m es el número de muestras en el conjunto de datos, k corre desde 1 hasta r y r es el número de subgrupos (determinado previamente en la presente). Una vez que la matriz de coeficiente de correlación de Pearson de H para cada corrida es determinada, las matrices de correlación son promediadas. El resultado de agrupamiento final puede ser derivado al correr un método de agrupamiento no supervisado (por ejemplo, tal como un algoritmo de agrupamiento jerárquico) usando 1 menos la matriz de correlación promedio como la matriz de distancia y cortar el dendrograma en r subgrupos.

Por ejemplo, si el algoritmo de gNMF es corrido aleatoriamente 200 veces, después de las 200 corridas, la matriz de coeficiente de correlación de Pearson de H de la salida de cada una de las 200 corridas de gNMF aleatorias es calculada usando la fórmula descrita antes. Entonces, las matrices de correlación sobre las 200 corridas son promediadas entonces. El resultado de agrupamiento final puede ser derivado al correr un algoritmo de agrupamiento jerárquico usando 1 menos la matriz de correlación promedio como la matriz de distancia y cortar el dendrograma en r subgrupos.

Una vez que el resultado de agrupamiento final es obtenido, el coeficiente de correlación Cofenética, Criterio de información Bayesiano (BIC) o una combinación de la correlación Cofenética y BIC se usa entonces para seleccionar el mejor modelo (a saber, el mejor número de agrupamientos y la mejor asignación de cada muestra hacia uno de los agrupamiento) que refleja más la distribución de los patrones genéticos de estas muestras de línea de células y tumor. La distribución de logaritmo normal puede ser usada en este análisis conforme es usada ampliamente para ajustar los números de copias de DNA (Hodgson et al. , 2001 ). Para calcular la probabilidad, puede asumirse que muestras en cada agrupamiento viene de la misma distribución multi-logarítmica normal, donde el número de copias promedio de cada segmento siguió una distribución de logaritmo normal. Si la correlación entre segmentos es débil, puede asumirse independencia entre segmentos en el cálculo. En este caso, la fórmula de probabilidad logarítmica resultante es mostrada a continuación en la fórmula (13): en donde r es el número de agrupamientos, n¡ es el número de muestras en el agrupamiento /, m es el número de muestras de los segmentos, y¡jt es el logaritmo de número de copias transformadas del segmento tésimo de la muestra jéslma en el agrupamiento iésimo, µ? es el promedio de logaritmo de números de copia transformadas del segmento tési 0 en el agrupamiento ¡6simo i y s? es la desviación estádnar de logaritmo de números de copias transformadas del segmento tésÍmo en el agrupamiento iesim°. Entonces el número de parámetros, k, en el modelo especificado sería 2xrxm.

Muchas veces, cuando se usa tanto coeficiente de correlación Cofenética y BIC como un criterio para seleccionar el mejor modelo en agrupamiento no supervisado, estos dos algoritmos frecuentemente seleccionarán el mismo modelo.

Un procedimiento de prueba de estabilidad de 10 veces puede ser usado para valorar la estabilidad de los resultados de agrupamiento. La prueba de estabilidad de 1 0 veces puede ser realizada como sigue. Después de correr gNMF sobre el conjunto de datos y asignar las muestras a agrupamientos, al menos aproximadamente 10% de las muestras de línea de células de cáncer y tumor son dejadas fuera y el algoritmo de gNMF modificado descrito antes es corrido una segunda vez sobre el 90% restante de las muestras de líneas de células de cáncer y tumor (si al menos aproximadamente 1 5% de las muestras de líneas de células de cáncer y tumor son dejadas fuera entonces del algoritmo de gNMF descrito antes serían corridas una segunda vez sobre el 85% restante de las muestras de línea de células de cáncer y tumor, etc.). El número de muestras asignadas a un diferente agrupamiento como un resultado de esta permutación es calculado entonces. La prueba es repetida un número seleccionado de veces (la prueba puede ser repetida de 1 a 1 000 veces. Por ejemplo, la prueba puede ser repetida, 1 vez, 20 veces, 25 veces, 50 veces, 100 veces, 200 veces, 500 veces, 750 veces, 1 000 veces, etc.) para derivar una velocidad de error usando técnicas de rutina conocidas en la técnica. Esta tasa de error representa la estabilidad del resultado de agrupamiento con respecto a la permutación de las muestras de líneas de células de cáncer y tumor. Esta prueba de estabilidad de 10 veces puede ser usada sobre métodos de agrupamiento no supervisados (por ejemplo, agrupamiento jerárquico) usando los mismos conjuntos de datos (las muestras de líneas de células de cáncer y tumor).

Usando estos métodos, los tumores que alojan células de MM y líneas de células de MM pueden ser clasificadas en subgrupos genómicos. Primero, un número suficiente de tumores de MM y líneas de células de MM son agrupados en distintos subgrupos usando la metodología descrita antes. A partir de cada uno de estos subgrupos, al menos una línea celular para cada uno de los subgrupos es seleccionada y adicionada al panel, con cada panel comprendiendo así un subgrupo genómico. El panel resultante representa así de manera adecuada todos los subtipos genómicos de M . Este panel puede ser usado como modelos pre-clínicos para composición farmacéutica o prueba de medicamento para MM, proporcionando así cobertura extensa de la diversidad genómica del tipo de tumor bajo consideración.

Aplicaciones Tener un panel diagnóstico ensamblado permite sensibilidad incrementada para diagnóstico de MM. No solo puede un sujeto ser diagnosticado ahora para MM, sino que el sujeto también puede ser diagnosticado para un "tipo genómico" de MM con base en la clasificación del genotipo de MM del sujeto en el panel de clasificación. En esta forma, las intervenciones terapéuticas enfocadas pueden ser administradas aumentando el éxito de tratamiento y mejorando la calidad de vida de un sujeto.

En métodos diagnósticos de la invención, una muestra que se sospecha contiene al menos una célula de MM es obtenida. Las células en la muestra son sometidas entonces a análisis de microarreglo, usando las mismas sondas y parámetros que son usados para establecer el panel diagnóstico original, o cualquier otro conjunto de sondas y parámetros que pueden detectar alteraciones de número de copias y el conjunto de datos de los análisis de microarreglo es procesado con el fin de determinar cual subgrupo se asemeja al genotipo de MM del sujeto. El genotipo de MM del sujeto es asignado entonces a ese subgrupo.

A partir de la información del subgrupo, la intervención terapéutica y ensayos pueden ser diseñados. Por ejemplo, conforme los datos se vuelven disponibles sobre éxito de tratamiento como se refiere a genotipos de MM, un sujeto puede ser administrado a aquéllos tratamientos que tienen la más alta probabilidad de tratar MM con base en el genotipo de MM del sujeto y clasificación de subgrupo. En esta forma, el tratamiento de prueba-y-error es enormemente disminuido, ya que la dependencia de los tratamientos más invasivos (cirugías), y el sujeto tiene una mejor probabilidad tanto de remisión como de mayor calidad de vida durante el tratamiento. La calidad de vida del sujeto mejora debido a que los periodos de tratamiento y el número de intervenciones terapéuticas son disminuidos.

Si los tratamientos no son establecidos, pueden determinarse intervenciones terapéuticas al usar los datos de panel de células. Por ejemplo, si las líneas de células, S, K, I y N caen en un solo subgrupo, pueden ser sometidas a pruebas in vitro de varias opciones terapéuticas para potencial eficacia. Esas intervenciones terapéuticas que son efectivas para tener un efecto adverso en la mayoría de líneas de células en un agrupamiento representan esas intervenciones más probablemente para tratar de manera efectiva al sujeto.

Las intervenciones terapéuticas para MM incluyen para esos melanomas que no se han esparcido más allá del sitio en el cual se desarrollaron, su excisión quirúrgica con márgenes proporciones a la microetapa de la lesión primaria; la mayoría de las lesiones 2 mm o menos en espesor, esto significa márgenes de re-excisión radial de 1 cm.

Tratamiento de melanomas con un espesor de Breslow de 2 mm o más es excisión usualmente quirúrgica con márgenes con base en espesor de Breslow y ubicación anatómica. Para la mayoría de los melanomas de más de 2 mm hasta 4 mm de espesor, esto significa márgenes de excisión radial de 2 cm a 3 cm. Los sujetos con melanomas que tienen un espesor de Breslow de más de 4 mm usualmente son considerados para terapia auxiliar con interferón de alta dosis.

Algunos melanomas que se han esparcido a nodulos linfáticos regionales pueden ser tratados con excisión local amplia del tumor primario y remoción de los nodulos linfáticos regionales involucrados. El interferón de alta dosis auxiliar puede incrementar la supervivencia. La quimioterapia auxiliar actualmente disponible no mejora usualmente la supervivencia.

El melanoma que se ha esparcido a sitios distantes es difícil de tratar con terapia estándar, aunque interleucina-2 (IL-2) de alta dosis puede prod ucir respuestas en algunos sujetos. Otros tratamientos incluyen quimioterapia de combinación, modificadores de respuesta biológica (tales como anticuerpos monoclonales específicos, interferones, IL-2, o factor alfa de necrosis de tumor), inmunoterapia de vacuna o bioquimioterapia (quimioinmunoterapia).

Muestras de tumor y líneas de células representativas pueden ser sometidas a una prueba in vitro que valora la capacidad de una intervención terapéutica para tratar MM. Por ejemplo, las líneas de células pueden ser ensayadas por su susceptibilidad a los diversos agentes de quimioterapia, solos y en combinaciones. Cuando una pluralidad de líneas de células responde de manera similar a una o más intervenciones, entonces aquéllas son seleccionadas para administración al sujeto. Así, los paneles de células pueden ser aumentados mediante datos de tratamiento in vitro, y eventualmente del mundo real, proporcionando una matriz terapéutica basada en los perfiles de número de copias de MM.

En otra modalidad, los métodos de la invención son dirigidos para ensamblar un panel de sonda para clasificar células de MM. La base de datos de sub-grupos genómicos es analizada para la mayoría de anormalidades de número de copias características para cada subgrupo y las sondas son diseñadas para detectar aquellas regiones. Las sondas pueden ser un subconjunto de las sondas usadas en el procedimiento de análisis de microarreglo original, o diseñadas y optimizadas para características particulares. En una modalidad, tales sondas son sondas de FISH. En otra modalidad, tales paneles de sonda son provistos en kits.

En otras modalidades, los kits son provistos para clasificar una célula de MM que contiene, por ejemplo, instrucciones para ensamblar una base de datos que clasifica células de MM mediante subgrupo genómico y al menos una primera, segunda, tercera, cuarta, quinta y sexta línea de células, o DNA genómico aislado de la misma, en donde cada línea de células o gDNA representa un subgrupo genómico. Por ejemplo, la primera línea de células o gDNA puede ser SKMEL1 19, HS944, WM 1 366 y WM88; la segunda línea de células puede ser W 3248; la tercera línea de células puede ser 1205LU; la cuarta línea de células puede ser 451 LU, SKMEL19, SKM EL28, SKMEL30, SKMEL63, WM35, WM983 o WM983C; la quinta línea de células puede ser WM321 1 , M14, MEWO, SKMEL2, SKMEL5, UACC257, UACC62, WM122, WM 13662, W 239A, W 321 12, WM32482, W 793B o 501 MEL, y la sexta línea de células es MALME3M o WM882.

Los kits pueden incluir paneles de sonda, así como líneas de células de control o gDNA que son células de M normales o no.

Ejem plos Los siguientes ejemplos son para fines ilustrativos solamente y no deberían ser interpretados como limitaciones de la invención reclamada. Existe una variedad de técnicas y procedimientos alternativos disponibles para aquellos de habilidad en la técnica, los cuales le permitirían a uno de manera similar realizar la invención pretendida.

Los métodos de la invención dirigidos a clasificación de MM son resumidos en la FIG. 1 .

Ejemplo 1 : Datos de CGH de muestras de tejido de tumor y líneas de células Los inventores se reunieron datos de CGH para 30 líneas de células de melanoma y 109 cultivos de corto plazo de melanoma de varias fuentes publicadas (Greshock et al. , 2007; Lin et al. , 2008) para establecer el modelo de clasificación de melanoma. Las fuentes de las líneas de células usadas en este estudio son listadas en la Tabla 1 . Estos datos han sido adquiridos usando arreglos de STY SNP de GENECH IP® Mapping 250K de Affymetrix, siguiendo las instrucciones del fabricante.

Los datos de número de copias también pueden ser adquiridos usando otras plataformas de microarreglo de SNPs o CGH, tales como otras versiones de microarreglos de AFFYMETRIX® SNPs, microarreglos Agilent aCGH (Agilent, Inc. , Santa Clara, CA), microarreglos I LLUMINA® (lllumina, Inc. , San Diego, CA) y microarreglos N IMBLEGEN® aCHG (Nimblegen, Inc. , Madison, Wl).

Ejemplo 2: Paso 2: Determinación de número de copias y detección de alteraciones de número de copias El programa de cómputo Partek® Genomic SuiteM R (versión 6.08.01 03) (Partek; St. Louis, MO) fue usado para procesamiento de bajo nivel de los datos para determinar los números de copias de cada sitio y definir regiones de alteración de número de copias. Los archivos CEL conteniendo señales para todas las sondas de SNPs fueron cargadas en el programa de cómputo y los números de copias fueron calculados al comparar las intensidades de señales para muestras de líneas de células o tumor a aquéllas para un conjunto de referencia de 48 muestras de tejido femenino normal, corregidos a una línea de base de 2. El conjunto de referencia también puede consistir de otros conjuntos de muestras normales, o tejidos normales emparejados de los mismos pacientes de las muestras de tumor, medidas mediante la misma plataforma de microarreglo.

Los datos de números de copias de nivel de sonda resultante fueron segmentados y las regiones de alteración de número de copias fueron detectadas en cada muestra. De manera específica, los números de copias de nivel de sonda fueron segmentados en regiones usando los siguientes parámetros de control: (i) una región debe contener al menos 100 sondas, (ii) el valor p comparando el número de copias promedio de la región versus las regiones adyacentes debe ser menor que 0.00001 , y (¡ii) la proporción de señal/ruido de la transición debe ser mayor que 0.1 . Las regiones de alteración de número de copias fueron detectadas cuando los números de copias promedio en estas regiones fueron estadísticamente menores que 1 .65 (supresión) o mayores que 2.65 (ganancia) con valores P por debajo de 0.01 .

La segmentación de número de copias y detección de alteraciones de número de copias también puede ser logrado por otros algoritmos, tal como la segmentación circular binaria (OIshen et al. , 2004), Análisis de ganancia y pérdida de DNA (GLAD) (Hupe et al, 2004), aproximaciones basadas en modelo escondido de Markov (Fridlyand et al. , 2004) (Zhao et al. , 2004) o métodos de agrupamiento (Wang et al . , 2005), etc. Estos métodos han sido implementados en varios paquetes de prog rama de cómputo tal como GenePattern (Reich et al. , 2006) y dChip (Li y Hung Wong , 2001 ; Li y Wong, 2001 ) .

Ejem plo 3: Paso 3: Control de calidad de datos Las m uestras de tumor pueden contener un porcentaje sign ificativo de células normales, que diluyen la señal de alteración de número de copias presente en las células de tumor. U n algoritmo de aprendizaje de máquina para captu rar la diferencia entre los patrones de número de copias de muestras normales y de tumor fue desarrollado y entonces se usó para identificar y eliminar m uestras contaminadas normales de análisis adicionales. Primero, un subconj unto de m uestras con el número más alto de regiones de alteración de número de copias y un conjunto de muestras normales fue seleccionado. Estos dos grupos de muestras fueron usados como un conj unto de entrenamiento para entrenar un algoritmo de aprendizaje de máquina (Random Forest: RF (Breiman, 2001 )) para clasificar m uestras de tumor y normales al sintonizar los parámetros para representar mejor la diferencia entre muestras normales y de tumor. Segundo, el algoritmo clasificador entrenado fue aplicado al resto de las muestras; el clasificador asignó una calificación a cada m uestra, donde la calificación representó la probabilidad de la muestra de ser contaminada por células normales. Las muestras que tuvieron calificación de probabilidad sobre 50% de contaminación de células normales fueron excluidas del análisis de agrupamiento.

Ejemplo 4: Paso 4: Suavizado de datos y reducción de dimensiones La densidad de datos de número de copias obtenida mediante microarreglos de S N Ps fue alta y h ubo una cantidad significativa de ruido. En consecuencia, los datos de n úmero de copia fueron suavizados para reducir el ruido, dimensionalidad y complejidad del anál isis de agru pamiento. Después de detectar regiones significativamente ganadas y suprimidas en cada muestra, las regiones adyacentes fueron fusionadas si tuvieron cambios de n úmero de copias sim ilares y la distancia entre el las fue menor que 500 kb. Los segmentos de DNA fueron formados al usar la unión de puntos de ruptura de todas las m uestras en un conjunto de datos. El número de copias promedio de sondas dentro de cada segmento fue usado para análisis adicional. Este paso permitió una resolución más clara de ganancias y supresiones de DNA en un análisis de alto rendimiento.

Ejemplo 5: Paso 5. Análisis de agrupamiento piloto usando agrupamiento jerárquico para determinar el n úmero posible de subgrupos Para cada conj unto de datos, los inventores agruparon jerárquicamente los datos de CG H de líneas de células y tumor usando disimilitud de Pearson (definida como (1 - r)/2, donde r es la correlación de Pearson). Los patrones de agrupamiento jerárquico fueron graficados e inspeccionados visualmente para derivar un rango de posibles números de subgrupos en el conjunto de datos. Estos números fueron usados entonces como entrada en el análisis de agrupamiento usando Factorización de matriz no negativa.

Ejemplo 6: Paso 6: Agrupamiento de gNMF de los datos de CGH de línea de células y tumor El algoritmo de gNMF fue usado para clasificar los datos de CGH de línea de células de tumor, usando el rango de números de agrupamiento determinado en el paso 5. Con cada número de agrupamiento, el algoritmo de gNMF fue corrido 200 veces usando el criterio de paro que desarrollamos. Los modelos de clasificación fueron derivados entonces mediante agrupamiento jerárquico en 1 menos el promedio de matriz de correlación de H .

Ejemplo 7: Paso 7: Selección usando correlación Cofenética y Criterio de información bayesiano (BIC) El procedimiento de gNMF anterior fue corrido con varios valores r posibles (número de subgrupos) elegidos en el análisis de agrupamiento jerárquico inicial y varios modelos con diferentes números de subgrupos fueron construidos. El Criterio de información bayesiano (BIC) fueron usados entonces para seleccionar el mejor modelo (el número de subgrupos y la asignación de cada muestra en uno de los subgrupos) que reflejó mejor la distribución de los patrones genéticos de las m uestras de l ínea de célula y tumor.

B I C se usó como un criterio para seleccionar el modelo que mejor reflejó la distribución de los patrones genéticos de las muestras de línea de célula y tu mor en el agrupamiento no supervisado. Después de elegir el mejor modelo , cada una de las m uestras de tumor de melanoma y líneas de células fueron asignadas a u no de los subg rupos genóm icos con base en el modelo seleccionado. M uestras de tumor de melanoma adicionales perfiladas en el futuro también pueden ser asignadas a uno de los subgrupos con base en su patrón genóm ico.

Ejem plo 8 : Paso 8: Prueba de estabilidad de diez veces de estabilidad de agrupamiento U n procedim iento de prueba de estabilidad de 1 0 veces fue desarrollado para valorar la estabilidad de los resultados de clasificación. Después de correr gNMF en un conjunto de datos y asignar muestras de línea de célula y tumor a subgrupos, 1 0% de muestras fueron dejadas aleatoriamente afuera y el mismo procedimiento fue aplicado al 90% restante de las muestras. El n úmero de m uestras que fue asignado a un diferente subgrupo med iante esta perm utación fue calculado. Esta prueba de dejar fuera fue repetida 200 veces para derivar una tasa de error, la cual representa la estabilidad del resultado de agrupamiento con respecto a la permutación de muestras. La estabilidad de agrupamiento jerárquico usando el mismo procedimiento para los mismos conjuntos de datos tam bién fue valorada y se encontró que era siempre mucho mayor que aquélla de ag rupamiento de g NMF.

Ejem plo 9 : Resultados Pasos 1 -2. Los datos de CGH de las 139 muestras de línea de célula y tumor de MM fueron procesados como se describe en los Ejemplos 1 y 2. Un total de 5616 segmentos con un número de copia significativamente alterado fueron detectados.

Paso 3. El procedimiento de control de calidad de datos fue aplicado a los datos de MM CG H . Veintinueve muestras de tumor fueron encontradas significativamente contaminadas por células normales. Las 80 muestras de tumor no contami nadas restantes y las 30 líneas de células fueron usadas para análisis subsecuente.

Paso 4. La dimensionalidad de los datos de CGH fue reducida a 4637 segmentos.

Paso 5. El agrupamiento jerárquico fue usado como u n análisis inicial sobre el conjunto de datos de MM para estimar el número de agrupamientos. El dendrograma del agrupamiento es mostrado en la F IG. 2. I nspección visual del dendrograma sugirió la existencia de 2-7 agrupamientos principales en los datos.

Paso 6. El algoritmo de gNMF fue usado para clasificar los datos de CG H de línea de células y tumores, usando los números de agrupamiento en el rango de 2-7. Con cada número de agrupamiento, el algoritmo de g NMF fue corrido 200 veces usando el criterio de paro q ue desarrollamos. Los modelos de clasificación fueron derivados entonces mediante ag rupamiento jerárquico en 1 menos el promedio de la matriz de correlación de H.

Paso 7. B IC para el modelo de gN MF fue ajustado en el paso 6. Los resultados en la Tabla 2, donde r denota el n úmero de agrupamientos en cada modelo. A partir de la Tabla 2, los inventores encontraron que el modelo con 6 agrupam ientos tuvo el B IC más pequeño. El mapa de calor de la salida de g N MF con 6 agrupamientos es mostrado en la FIG. 3.

Tabla 2 B IC para modelos usando diferentes miembros de agrupam iento Las 80 muestras de tumor de M fueron clasificadas en 6 subgrupos con base en su patrón de alteraciones de número de copias, y las l íneas de célu las fueron asignadas a subgrupos apropiados. Los n úmeros de m uestras de tumor y las identidades de líneas de células para cada agrupamiento son listados en la Tabla 3.

Tabla 3. Los números de tumores de MM y las identidades de líneas de células en cada subgrupo de MM.

Tabla 3 Números de tumores de MM y las identidades de líneas de células en cada subgrupo de MM Paso 8. La prueba de estabilidad de 1 0 veces fue aplicada al modelo de gNMF con 4 agrupamientos. La prueba de 10 veces de estabilidad de agrupamiento. La tasa de error fue 26.42%. Como una comparación, el dendrograma de agrupamiento jerárquico derivado usando los datos de número de copias suavizados en el paso 5 fue cortado en 2-7 agrupamientos y la estabilidad de los agrupamientos fue probada usando la misma prueba de 10 veces. Las tasas de error fueron 17.94% - 32.14%.

Los seis grupos definidos por el procedimiento de agrupamiento realizó distintas aberraciones de patrones genómicos, implicando diferentes orígenes, mecanismos tumorigénicos y sugiriendo que manifestarán distintos comportamientos clínicos y sensibilidades a intervenciones terapéuticas, característicos de cada subgrupo.

Referencias Anand, S. , S. Penrhyn-Lowe, y A. R. Venkitaraman. 2003. AURORA-A amplification overrides the mitotic spindle assembly checkpoint, inducing resistance to Taxol. Cáncer Cell 3:51 -62.

Ausubel, F. M. 1987. Current protocols in molecular biology.

Greene Publishing Associates; J. Wiley, order fulfillment, Brooklyn, N Y Media, Pa 2 v (loose-leaf) pp.

Bhattacharjee, A. , W. G. Richards, J. Staunton, C. Li, S. Monti, P. Vasa, C. Ladd, J. Beheshti, R. Bueno, M. Gillette, M. Loda, G. Weber, E.J. Mark, E.S. Lander, W. Wong, B.E. Johnson, T.R. Golub, D.J. Sugarbaker, y M. Meyerson. 2001 Classification of human lung carcinomas by mRNA expression profiling reveáis distinct adenocarcinoma subclasses. Proc Nati Acad Sci USA 98: 13790-5.

Borg, I, and P. Groenen, 2005. Modern Multidimensional Scaling: theory and applications. Springer, New York.

Breiman, L. 2001 . Random Forests. Machine !earning. 45:5-32.

Brunet, J. P., P. Tamayo, T. R. Go!ub, y J.P. Mesirov. 2004. Metagenes and molecular pattern discovery using matrix factorization. Proc Nati Acad Sci US. 101 :4164-9.

Carrasco, D.R., G. Tonon, Y. Huang, Y. Zhang, R Sinha, B. Feng, J.P. Stewart, F. Zhan, D. Khatry, M. Protopopova, A. Protopopov, K. Sukhdeo, I. Hanamura, O. Stephens, B. Barlogie, K. C. Anderson, L. Chin, J.D. Shaughnessy, Jr. , C. Brennan, y R.A. Depinho. 2006 High-resolution genomic profiles define distinct clinico-pathogenetic subgroups of múltiple myeloma patients. Cáncer Cell. 9:313-25.

Efron, B. , T Hastie, I. Johnstone, and R. Tibshirani. 2004. Least angle regression. Annals of Statistics. 32:407-499.

Fodor, S.P., J.L. Read, M.C. Pirrung, L. Stryer, A.T. Lu, y D. Solas. 1991 . Light-directed, spatially addressable parallel Chemical synthesis. Science. 251 :767-73.

Fridlyand, J. , A.M. Smjders, D. Pinkel, D.G. Albertson, y A.N. Jain. 2004. Hidden Markov models approach to the analysis of array CGH data. Journal of Multivariate Analysis 90: 132-153.

Greshock, J., B. Feng, C. Nogueira, E. lvanova, I. Perna, K. Nathanson, A. Protopopov, B.L. Weber, y L. Chin. 2007. A comparison of DNA copy number profiling platforms. Cáncer Res. 67: 10 73-80.

Hedenfalk, I., M. Ringner, A. Ben-Dor, Z. Yakhini, Y. Chen, G. Chebil, R. Ach, N. Loman, H. Olsson, P. Meltzer, A. Borg, y J. Trent. 2003. Molecular classification of familial non-BRCAI/BRCA2 breast cáncer. Proc Nati Acad Sci US. 100:2532-7.

Hirsch, F. R., M Varella-Garcia, P.A. Bunn, Jr. , W.A. Franklin, R. Dziadziuszko, N. Thatcher, A. Chang, P. Parikh, J.R. Pereira, T. Ciuleanu, J. von Pawel, C. Watkins, A. Flannery, G. Ellison, E. Donald, L. Knight, D. Parums, N. Botwood, y B. Holloway. 2006. Molecular predictors of outcome with gefitinib in a phase III placebo-controlled study in advanced non-small-cell lung cáncer. J Clin Oncol. 24:5034-42.

Hodgson, G. , J .H. Hager, S. Volik, S. Hariono, M. Wernick, D. oore, N. Nowak, D.G. Albertson, D. Pinkel, C. Collins, D. Hanahan, y J.W. Gray. 2001 . Genome scanning with array CGH delineates regional alterations in mouse islet carcinomas. Nat Genet 29:459-64 Holland, P.M. , R. D. Abramson, R. atson, y D. H. Gelfand. 1991. Detection of specific polymerase chain reaction product by utilizing the 5' — 3' exonuclease activity of Thermus aquaticus DNA polymerase. Proc Nati Acad Sci US 88:7276-80.

Hupe, P., N. Stransky, J.P. Thiery, F. Radvanyi, y E. Barillot. 2004 Analysis of array CGH data: from signal ratio to gain and loss of DNA regions. Bioinformatics. 20:3413-22.

Innis, M.A. 1990. PCR protocols: a guide to methods and applications Academic Press, San Diego, xviii, 482 p. pp.

Innis, M.A. , D. H. Gelfand, y J.J. Sninsky. 1995. PCR strategies.

Academic Press, San Diego, xv, 373 p. pp.

Lee, D.D., y H.S. Seung. 1999. Learning the parts of objects by non-negative matrix factorization. Nature 401 :788-91 .

Lee, D.D., y H.S. Seung. 2001 . Algorithms for Non-negative Matrix Factorization Advances In Neural Information Processing Systems. 14:556-562.

Levsky, J.M., y R.H. Singer. 2003. Fluorescence in situ hybridization: past, present and future. J Cell Sci. 16:2833-8.

L¡, C, y W. Hung Wong 2001 Model-based analysis of oligonucleotide arrays: model validation, design issues and standard error application. Genome Biol. 2:RESEARCH0032.

Li, C, y W. H. Wong. 2001 . Model-based analysis of oligonucleotide arrays: expression index computation and outlier detection. Proc Nati Acad Sci US 98:31-6.

Lin, W.M., A.C. Baker, R. Beroukhim, W. winclker, W. Feng, J.M Marmion, E. Laine, H. Greulich, H. Tseng, C. Gates, F.S. Hodi, G. Dranoff, W.R. Sellers, R.K. Thomas, . Meyerson, T. R. Golub, R. Dummer, M. Herlyn G. Getz y L.A. Garraway. 2008. Modeling genomíc diversity and tumor dependency in malignant melanoma. Cáncer Res. 68:664-73.

Maher, E.A. , C. Brennan, P.Y. Wen, L. Durso, K.L. Ligón, A. Richardson, D. Khatry, B. Feng, R Sinha, D.N. Louis, J Quackenbush, P.M. Black, L. Chin, y R.A. DePinho. 2006. Marked genomic differences characterize primary and secondary glioblastoma subtypes and identify two distinct molecular and clinical secondary glioblastoma entities. Cáncer Res. 66: 1 1502-1 3.

Matsuzaki, H., S. Dong, H. Loi, X. Di, G. Liu, E. Hubbeil, J. Law, T. Berntsen, M. Chadha, H. Hin, G. Yang, G.C. Kennedy, T.A. Webster, S. Cawley, P.S. Walsh, K.W. Jones, S.P. Fodor, and R. Mei. 2004. Genotyping over 100,000 SNPs on a pair of oligonucleotide arrays. Nat ethods. 1 : 109-1 1 .

McPherson, M.J., G. . Taylor, y P. Quirke. 1991 . PCR, a practical approach. IRL Press en Oxford University Press, Oxford; Nueva York. xx¡, 253 p. pp.

Olshen, A. B., E.S. Venkatraman, R. Lucito, y . Wigler. 2004.

Circular binary segmentaíion for the analysis of array-based DNA copy number data. Biostatistics. 5:557-72.

Onken, M. , L. Worley, J. Ehlers, y J. Harbour. 2004. Gene expression profiling in uveal melanoma reveáis two molecular classes and predicts metastatic death. Cáncer Res. 15:7205-7209.

Pearson, K. 1901 . On Lines and Planes of Closest Fit to Systems of Points in Space. Philosophical Magazine. 2:559-572.

Reich, M. , T. Liefeld, J. Gould, J. Lerner, P. Tamayo, y J.P. Mesirov. 2006. GenePattern 2.0 Nat Genet. 38:500-1 .

Ross, D.T., U. Scherf, M. B. Eisen, C.M. Perou, C. Rees, P.

Spellman, V. lyer, S.S. Jeffrey, M. Van de Rijn, M. Waltham, A. Pergamenschikov, J.C. Lee, D. Lashkari, D. Shalon, T.G. yers, J.N. Weinstein, D. Botstem, y P.O. Brown. 2000. Systematic variation in gene expression patterns in human cáncer cell lines. Nat Genet. 24:227-35.

Saiki, R.K., T.L. Bugawan, G.T. Horn, K.B. Mullís, y H.A. Erlich. 1986 Analysis of enzymatically amplified beta-globin and HLA-DQ alpha DNA with allele-specific oligonucleotide probes. Nature. 324:163-6.

Sambrook, J. , y D.W. Russell. 2001 . Molecular cloning: a laboratory manual. Cold Spring Harbor Laboratory Press, Cold Spring Harbor, N.Y.

Schwarz, G. 1978. Estimating the dimensión of a model. Annals of Statistics. 6:461-464.

Seeger, R.C. , G.M. Brodeur, H. Sather, A. Dalton, S.E. Siegel, K.Y. Wong, y D. Hammond. 1985. Association of múltiple copies of the N-myc oncogene with rapid progression of neuroblastomas. N Engl J Med. 313:1 1 1 1 -6.

Sninsky, J.J. , M.A. Innis, y D.H. Gelfand. 1999. PCR appiications: protocols for functional genomics. Academic Press, San Diego, xviii, 566 p, [3] p. of plates pp.

Sotiriou, C , S.Y. Neo, L.M. McShane, E.L. Korn, P.M. Long, A.

Jazaeri, P. Martiat, S.B. Fox, A.L. Harris, y E.T. Liu. 2003. Breast cáncer classification and prognosis based on gene expression profiies from a population-based study. Proc Nati Acad Sci US. 100:10393-8.

Tucker, M., y A. Goldstein. 2003. Melanoma etiology: where are we? Oncogene. 22:3042-3052.

Vapnik, V. 1995. The nature of statistical learning theory. Springer-Verlag, Nueva York.

Vogel, C L , M A Cobleigh, D. Tripathy, J.C. Gutheil, L.N. Harris, L. Fehrenbacher, D.J. Slamon, M. Murphy, W.F. Novotny, . Burchmore, S. Shak, S.J. Stewart, y M. Press. 2002. Efficacy and safety of trastuzumab as a single agent in first-line treatment of HER2-overexpressing metastatic breast cáncer. J Clin Oncol. 20: 1 19-26.

Wang, P. , Y. Kim, J. Pollack, B. Narasimhan, y R. Tibshirani. 2005. A method for calling gains and losses in array CGH data. Biostatistics. 6:45-58.

Weyers, W. , M. Euler, C. Diaz-Cascajo, W. Schill y M. Bonczkowits. 1 999. Classification of cutaneous malignant melanoma: a reassessment of histopathologic criteria for the distinction of different types. Cáncer (Phila). 86:288-99.

Wilhelm, . , J.A. Veltman, A.B. Olshen, A.N. Jain, D. H. Moore, J.C. Prestí, Jr. , G. Kovacs, y F.M. Waldman. 2002. Array-based comparative genomic hybridization for the differential diagnosis of renal cell cáncer Cáncer Res. 62:957-60.

Zhang, X., X. Lu, Q. Shi, X.Q. Xu, H.C. Leung, L.N. Harris, J.D. Iglehart, A. Mirón, J .S. Liu, y W.H. Wong. 2006. Recursive SVM feature selection and sample classification for mass-spectrometry and microarray data. BMC Bioinformatics. 7:197.

Zhao, X. , C. Li, J.G. Paez, K. Chin, P.A. Janne, T.H. Chen, L. Girard, J. Minna, D. Christiani, C. Leo, J.W. Gray, W.R. Sellers, y M. Meyerson. 2004. An integrated view of copy number and allelic alterations in the cáncer genome using single nucleotide polymorphism arrays. Cáncer Res. 64:3060-71 .

Claims

REIVINDICACIONES

1 . Un método para obtener una base de datos de subgrupos genómicos de melanoma maligno, comprendiendo el método los pasos de: (a) obtener una pluralidad de muestras m comprendiendo al menos una célula de MM; (b) adquirir un conjunto de datos comprendiendo información de alteración de número de copias desde al menos un sitio de cada cromosoma a partir de cada muestra obtenida en el paso (a); (c) identificar en las muestras de conjunto de datos, contaminadas por células normales y eliminar las muestras contaminadas del conjunto de datos, en donde la identificación y eliminación comprende: (1 ) aplicar un algoritmo de aprendizaje de máquina sintonizado a parámetros que representan las diferencias entre muestras de tumor y normales a los datos; (2) asignar una calificación de probabilidad para contaminación de células normales a cada muestra como es determinado por el algoritmo de aprendizaje de máquina; (3) eliminar los datos a partir del conjunto de datos para cada muestra calificando 50% o mayor probabilidad de contener células normales; (d) estimar un número de subgrupos, r, en el conjunto de datos al aplicar un algoritmo de agrupamiento no supervisado usando un algoritmo de disimilitud lineal de Pearson al conjunto de datos; (e) asignar cada muestra en el conjunto de datos a al menos un agrupamiento usando un algoritmo de factorización de matriz no negativa genómica (gN F) modificada, en donde el algoritmo de gNMF modificado comprende: (1 ) calcular la divergencia del algoritmo después de cada 100 pasos de actualización multiplicativa usando la fórmula: en donde Vu es la ieslma fila y la j'esima columna de matriz V, (WH),¡ es la iésima fila y la j!ésima columna de matriz (W*H) , i corre desde 1 hasta n y n es el número de segmentos en el conjunto de datos, y j corre desde 1 hasta m y m es el número de muestras en el conjunto de datos; (2) detener el algoritmo si la divergencia calculada en el paso (e) (1 ) no disminuye por más de aproximadamente 0.001 % cuando se compara con la divergencia calculada para los 100 pasos previos de la actualización multiplicativa del algoritmo; (3) repetir aleatoriamente el algoritmo por un número seleccionado de corridas y calculando una matriz de coeficiente de correlación de Pearson de H para cada una de las corridas del algoritmo usando la fórmula: en donde C es la matriz de correlación, Cu es la /ésíma fila y la jésima columna en la matriz C, H,¡ y Hj son el iésimo y jésimo vector de columna en la matriz H, p(Ht¡, H ) es el coeficiente de correlación de Pearson entre /- ,· y H , i y j corren desde 1 hasta m y m es el número de muestras en el conjunto de datos, k corre desde 1 hasta r y r es el número de subgrupos del paso (d); (4) promediar las matrices de coeficiente de correlación de Pearson para cada corrida del algoritmo obtenido del paso (e)(3) para llegar a una matriz de correlación promedio; (5) asignar muestras en subgrupos r al aplicar un algoritmo de agrupamiento no supervisado usando 1 menos la matriz de correlación promedio determinada en el paso (e)(4) y cortar un dendrograma en agrupamientos r; (f) aplicar una correlación Cofenética, criterio de información Bayesiano o una combinación de los mismos para proporcionar un número final de agrupamientos del conjunto de datos, en donde cada agrupamiento final define un subgrupo genómico para cada muestra de línea de células de cáncer o tumor; y (g) opcionalmente evaluar la estabilidad del número final de agrupamientos seleccionado en el paso (f) usando una prueba de estabilidad de diez veces.

2. Un método para clasificar una línea de células o tumor de , comprendiendo: (a) proporcionar una base de datos, desarrollada a través de un método que comprende: (i) obtener una pluralidad de muestras m comprendiendo al menos una línea de célula o MM; (ii) adquirir un primer conjunto de datos comprendiendo información de alteración de número de copias desde al menos un sitio de cada cromosoma a partir de cada muestra obtenida en el paso (i); (¡Ii) identificar en las muestras de primer conjunto de datos, contaminadas por células normales y eliminar las muestras contaminadas del primer conjunto de datos, en donde la identificación y eliminación comprende: (1 ) aplicar un algoritmo de aprendizaje de máquina sintonizado a parámetros que representan las diferencias entre muestras de tumor y normales a los datos; (2) asignar una calificación de probabilidad para contaminación de células normales a cada muestra como es determinado por el algoritmo de aprendizaje de máquina; (3) eliminar los datos a partir del primer conjunto de datos para cada muestra calificando 50% o mayor probabilidad de contener células normales; (iv) estimar un número de subgrupos, r, en el conjunto de datos al aplicar un algoritmo de agrupamiento no supervisado usando un algoritmo de disimilitud lineal de Pearson al conjunto de datos; (v) asignar cada muestra en el conjunto de datos a al menos un agrupamiento usando un algoritmo de factorización de matriz no negativa genómica (gNMF) modificada, en donde el algoritmo de gNMF modificado comprende: (1 ) calcular la divergencia del algoritmo después de cada 100 pasos de actualización multiplicativa usando la fórmula: en donde V¡¡ es la iesima fila y la j'es,ma columna de matriz V, (WH)¡j es la ¡ésima fila y la jiés¡ma columna de matriz (W*H), i corre desde 1 hasta n y n es el número de segmentos en el conjunto de datos, y j corre desde 1 hasta m y m es el número de muestras en el conjunto de datos; (2) detener el algoritmo si la divergencia calculada en el paso (v) (1 ) no disminuye por más de aproximadamente 0.001 % cuando se compara con la divergencia calculada para los 100 pasos previos de la actualización multiplicativa del algoritmo; (3) repetir aleatoriamente el algoritmo por un número seleccionado de corridas y calculando una matriz de coeficiente de correlación de Pearson de H para cada una de las corridas del algoritmo usando la fórmula: en donde C es la matriz de correlación, C(J es la i s!ma fila y la jésima columna en la matriz C, H,¡ y HtJ son el ¡ésimo y jésim° vector de columna en la matriz H, p(Hi H es el coeficiente de correlación de Pearson entre H,¡ y H , i y j corren desde 1 hasta m y m es el número de muestras en el conjunto de datos, k corre desde 1 hasta r y r es el número de subgrupos del paso (iv); (4) promediar las matrices de coeficiente de correlación de Pearson para cada corrida del algoritmo obtenido del paso (v)(3) para llegar a una matriz de correlación promedio; (5) asignar muestras en subgrupos r al aplicar un algoritmo de agrupamiento no supervisado usando 1 menos la matriz de correlación promedio determinada en el paso (v)(4) y cortar un dendrograma en agrupamientos r; (vi) aplicar una correlación Cofenética, criterio de información Bayesiano o una combinación de los mismos para proporcionar un número final de agrupamientos del conjunto de datos, en donde cada agrupamiento final define un subgrupo genómico para cada muestra de línea de células de cáncer o tumor; y (vii) opcionalmente evaluar la estabilidad del número final de agrupamientos seleccionado en el paso (vi) usando una prueba de estabilidad de diez veces; (b) proporcionar una muestra que se sospecha contiene células de MM, (c) adquirir un segundo conjunto de datos, muestra V, comprendiendo información de alteración de número de copias a partir del mismo al menos un sitio del paso (i¡); y (d) clasificar la muestra de muestra V, al comparar la muestra V con los agrupamientos determinados en los pasos (i)-(vii).

3. El método de la reivindicación 1 o 2, en donde el algoritmo de agrupamiento no supervisado es un agrupamiento jerárquico.

4. El método de la reivindicación 1 o 2, en donde la correlación Cofenética es usada para proporcionar un número final de agrupamientos a partir del conjunto de datos.

5. El método de la reivindicación 1 o 2, en donde el Criterio de información bayesiano es usado para proporcionar un número final de agrupamientos a partir del conjunto de datos.

6. El método de la reivindicación 1 o 2, en donde la correlación Cofenética y Criterio de información bayesiano se usan para proporcionar un número final de agrupamientos a partir del conjunto de datos.

7. El método de la reivindicación 1 o 2, en donde la pluralidad de muestras, m, comprende una primera, segunda, tercera, cuarta, quinta y sexta línea de células, en donde la primera línea de células es seleccionada del grupo que consiste de SKMEL1 19, HS944, WM1366 y W 88; la segunda línea de células es WM3248; la tercera línea de células es 1205LU; la cuarta l ínea de células es seleccionada del grupo que consiste de 451 LU , SKMEL1 9, SKMEL28, SKMEL30, SKMEL63, W 35, WM983 y WM983C; la quinta línea de células es seleccionada del grupo que consiste de WM321 1 , M 14, MEWO, SK EL2, SKMEL5, UACC257, UACC62, WM122, WM13662, WM239A, WM321 12, WM32482, WM793B y 501 MEL, y la sexta línea de células es MALME3M o WM882.

8. El método de la reivindicación 1 o 2, en donde la pluralidad de muestras, m, consiste de líneas de células SKMEL1 19, HS944, WM1366, WM88; WM3248; 1205LU; 451 LU , SKMEL19, SKMEL28, SKMEL30, SK EL63, W 35, WM983, WM983C, WM321 1 , M14, MEWO, SKMEL2, SKMEL5, UACC257, UACC62, WM122, WM13662, WM239A, WM321 12, WM32482, WM793B, 501 MEL, MALME3M y WM882.

9. Un método para clasificar una intervención terapéutica para detener o matar células de melanoma maligno (MM), que comprende: (a) a partir de un panel de células de MM clasificadas de acuerdo con subgrupos genómicos, seleccionado al menos una línea de células de MM de cada subgrupo, en donde el panel es ensamblado a partir de un método que comprende: (i) obtener una pluralidad de muestras m comprendiendo células de MM; (ii) adquirir un primer conjunto de datos comprendiendo información de alteración de número de copias desde al menos un sitio de cada cromosoma a partir de cada muestra obtenida en el paso (i); (iii) identificar en las muestras de primer conjunto de datos, contaminadas por células normales y eliminar las muestras contaminadas del primer conjunto de datos, en donde la identificación y eliminación comprende: (1 ) aplicar un algoritmo de aprendizaje de máquina sintonizado a parámetros que representan las diferencias entre muestras de tumor y normales a los datos; (2) asignar una calificación de probabilidad para contaminación de células normales a cada muestra como es determinado por el algoritmo de aprendizaje de máquina; (3) eliminar los datos a partir del primer conjunto de datos para cada muestra calificando 50% o mayor probabilidad de contener células normales; (iv) estimar un número de subgrupos, r, en el conjunto de datos al aplicar un algoritmo de agrupamiento no supervisado usando un algoritmo de disimilitud lineal de Pearson al conjunto de datos; (v) asignar cada muestra en el conjunto de datos a al menos un agrupamiento usando un algoritmo de factorización de matriz no negativa genómica (gNMF) modificada, en donde el algoritmo de gNMF modificado comprende: (1 ) calcular la divergencia del algoritmo después de cada 100 pasos de actualización m ultiplicativa usando la fórmula: ? D V II WH) =??(ViJ -^ -V, + (WH),) (11 ) en donde Vu es la /'és''ma fila y la jiésima columna de matriz V, (WH)U es la iésima fila y la jiésima columna de matriz (W*H), i corre desde 1 hasta n y n es el número de segmentos en el conjunto de datos, y j corre desde 1 hasta m y m es el número de muestras en el conjunto de datos; (2) detener el algoritmo si la divergencia calculada en el paso (v) (1 ) no disminuye por más de aproximadamente 0.001 % cuando se compara con la divergencia calculada para los 100 pasos previos de la actualización multiplicativa del algoritmo; (3) repetir aleatoriamente el algoritmo por un número seleccionado de corridas y calculando una matriz de coeficiente de correlación de Pearson de H para cada una de las corridas del algoritmo usando la fórmula: en donde C es la matriz de correlación, C, es la iésima fila y la jés¡ma columna en la matriz C, H,¡ y ,¡ son el iésim° y jésim0 vector de columna en la matriz H, p(Hi Hj) es el coeficiente de correlación de Pearson entre H,¡ y H , i y j corren desde 1 hasta m y m es el número de muestras en el conjunto de datos, k corre desde 1 hasta r y r es el número de subgrupos del paso (iv); (4) promediar las matrices de coeficiente de correlación de Pearson para cada corrida del algoritmo obtenido del paso (v)(3) para llegar a una matriz de correlación promedio; (5) asignar muestras en subgrupos r al aplicar un algoritmo de agrupamiento no supervisado usando 1 menos la matriz de correlación promedio determinada en el paso (v)(4) y cortar un dendrograma en agrupamientos r; (vi) aplicar una correlación Cofenética, criterio de información Bayesiano o una combinación de los mismos para proporcionar un número final de agrupamientos del conjunto de datos, en donde cada agrupamiento final define un subgrupo genómico para cada muestra de línea de células de cáncer o tumor; y (vii) opcionalmente evaluar la estabilidad del número final de agrupamientos seleccionado en el paso (vi) usando una prueba de estabilidad de diez veces; (viii) seleccionar al menos una célula de MM de cada agrupamiento seleccionado en el paso (vi) y ensamblar en paneles definidos de acuerdo con subgrupos genómicos. (b) contactar la al menos una célula de MM de cada subgrupo con la intervención terapéutica; (c) ensayar la efectividad de la intervención terapéutica para detener o matar la al menos una célula de MM de cada subgrupo; (d) clasificar la intervención terapéutica de acuerdo con la efectividad de la intervención terapéutica para detener o matar la al menos una célula de MM de cada subgrupo, en donde detener o matar la al menos una célula de MM de un subgrupo, pero no otra indica especificidad de la intervención terapéutica para detener o matar cél ulas de MM de ese subgrupo.

1 0. El método de la reivindicación 9, en donde el algoritmo de agrupamiento no supervisado es un ag rupamiento jerárquico.

1 1 . El método de la reivindicación 9, en donde la correlación Cofenética es usada para proporcionar un n úmero final de agrupamientos a partir del conj unto de datos.

12. El método de la reivindicación 9, en donde el Criterio de información bayesiano es usado para proporcionar u n número final de agrupamientos a partir del conj unto de datos.

1 3. El método de la reivindicación 9, en donde la correlación Cofenética y Criterio de información bayesiano se usan para proporcionar un n úmero final de agrupam ientos a partir del conjunto de datos.

14. El método de la reivindicación 9, en donde las cél ulas de MM son a partir de una línea de células.

1 5. El método de la reivindicación 9, en donde la pluralidad de muestras, m, comprende una primera, segunda y tercera línea de células, en donde la primera línea de células es seleccionada del grupo que consiste de S KMEL1 1 9, HS944, WM 1366 y WM88; la segunda línea de células es WM3248; la tercera línea de células es 1205LU; la cuarta l ínea de células es seleccionada del grupo que consiste de 451 LU, SKMEL19, SKMEL28, SKMEL30, SKMEL63, WM35, WM983 y WM983C; la quinta línea de células es seleccionada del grupo que consiste de WM3211, M14, MEWO, SKMEL2, SKMEL5, UACC257, UACC62, WM122, WM13662, WM239A, WM321 2, WM32482, WM793B y 501 MEL, y la sexta línea de células es MALME3M o WM882.

16. El método de la reivindicación 9, en donde la pluralidad de muestras, m, consiste de líneas de células SKMEL 9, HS944, WM1366, WM88; WM3248; 1205LU; 451LU, SKMEL19, SKMEL28, SK EL30, SKMEL63, WM35, WM983, WM983C, WM3211, M14, MEWO, SKMEL2, SKMEL5, UACC257, UACC62, WM122, WM13662, WM239A, WM32112, WM32482, WM793B, 501MEL, MALME3M y WM882.

17. El método de la reivindicación 9, en donde la invención terapéutica comprende quimioterapia, modificadores de respuesta biológica, ¡nmunoterapia o bioquimioterapia.

18. El método de la reivindicación 17, en donde la intervención terapéutica es un modificador de respuesta biológica, y el modificador de respuesta biológica comprende administrar al menos una composición farmacéutica comprendiendo un agente activo seleccionado del grupo que consiste de interferón, interleucina-2, anticuerpos monoclonales y factor alfa de necrosis de tumor.

19. El método de la reivindicación 18, en donde el modificador de respuesta biológica comprende administrar dos o más agentes activos.

20. Un método para ensamblar un panel de sonda para clasificar una célula de M a partir de una muestra, comprendiendo: (a) ensamblar una base de datos, que comprende: (i) obtener una pluralidad de muestras m comprendiendo al menos una célula de MM; (ii) adquirir un primer conjunto de datos comprendiendo información de alteración de número de copias desde al menos un sitio de cada cromosoma a partir de cada muestra obtenida en el paso (i); (iii) identificar en las muestras de primer conjunto de datos, contaminadas por células normales y eliminar las muestras contaminadas del primer conjunto de datos, en donde la identificación y eliminación comprende: (1 ) aplicar un algoritmo de aprendizaje de máquina sintonizado a parámetros que representan las diferencias entre muestras de tumor y normales a los datos; (2) asignar una calificación de probabilidad para contaminación de células normales a cada muestra como es determinado por el algoritmo de aprendizaje de máquina; (3) eliminar los datos a partir del primer conjunto de datos para cada muestra calificando 50% o mayor probabilidad de contener células normales; (iv) estimar un número de subgrupos, r, en el conjunto de datos al aplicar un algoritmo de agrupamiento no supervisado usando un algoritmo de disimilitud lineal de Pearson al conjunto de datos; (v) asignar cada muestra en el conjunto de datos a al menos un agrupamiento usando un algoritmo de factorización de matriz no negativa genómica (gNMF) modificada, en donde el algoritmo de gNMF modificado comprende: (1 ) calcular la divergencia del algoritmo después de cada 100 pasos de actualización multiplicativa usando la fórmula: en donde V¡¡ es la iésima fila y la jiésima columna de matriz V, (WH)l7 es la ¡ésima fila y la j¡ésima columna de matriz (W*H), i corre desde 1 hasta n y n es el número de segmentos en el conjunto de datos, y j corre desde 1 hasta m y m es el número de muestras en el conjunto de datos; (2) detener el algoritmo si la divergencia calculada en el paso (v) (1 ) no disminuye por más de aproximadamente 0.001 % cuando se compara con la divergencia calculada para los 100 pasos previos de la actualización multiplicativa del algoritmo; (3) repetir aleatoriamente el algoritmo por un número seleccionado de corridas y calculando una matriz de coeficiente de correlación de Pearson de H para cada una de las corridas del algoritmo usando la fórmula: en donde C es la matriz de correlación, C es la /és/ma fila y la jéslma columna en la matriz C, H,, y H son el /és""° y jésimo vector de columna en la matriz H, p(Ht¡, Hj) es el coeficiente de correlación de Pearson entre Ht¡ y H , i y j corren desde 1 hasta m y m es el número de m uestras en el conj unto de datos, k corre desde 1 hasta r y r es el número de subgrupos del paso (iv); (4) promediar las matrices de coeficiente de correlación de Pearson para cada corrida del algoritmo obtenido del paso (v)(3) para llegar a una matriz de correlación promedio; (5) asignar muestras en subg rupos r al aplicar un algoritmo de agrupamiento no supervisado usando 1 menos la matriz de correlación promedio determinada en el paso (v)(4) y cortar un dendrograma en agrupamientos r; (vi) aplicar una correlación Cofenética, criterio de información Bayesiano o una combinación de los mismos para proporcionar un número final de agrupamientos del conj unto de datos, en donde cada agrupam iento final define un subgrupo genómico para cada m uestra de línea de células de cáncer o tumor; y (vii) opcionalmente evaluar la estabilidad del número final de agrupamientos seleccionado en el paso (vi) usando una prueba de estabilidad de diez veces; (viii) seleccionar al menos una muestra de cada agrupamiento seleccionado en el paso (vi) y ensamblar en paneles definidos de acuerdo con subgrupos genómicos; (b) analizar la base de datos del paso (a) para determinar anormalidades de número de copias características para cada subgrupo; (c) diseñar una pluralidad de sondas con base en las anormalidades de número de copias características determinadas para cada subgrupos y asignar cada sonda a un subgrupo genómico.

21 . Un kit comprendiendo el panel de sonda de la reivindicación 20.

22. El kit de la reivindicación 21 , en donde cada sonda es una sonda de FISH.

23. Un kit para clasificar una muestra de tumor de MM o una línea de células, comprendiendo: (a) instrucciones para ensamblar una base de datos, comprendiendo instrucciones para: (i) obtener una pluralidad de muestras m comprendiendo al menos una célula de MM; (ii) adquirir un primer conjunto de datos comprendiendo información de alteración de número de copias desde al menos un sitio de cada cromosoma a partir de cada muestra obtenida en el paso (i); (iii) identificar en las muestras de primer conjunto de datos, contaminadas por células normales y eliminar las muestras contaminadas del primer conjunto de datos, en donde la identificación y eliminación comprende: (1 ) aplicar un algoritmo de aprendizaje de máquina sintonizado a parámetros que representan las diferencias entre muestras de tumor y normales a los datos; (2) asignar una calificación de probabilidad para contaminación de células normales a cada muestra como es determinado por el algoritmo de aprendizaje de máquina; (3) eliminar los datos a partir del primer conjunto de datos para cada muestra calificando 50% o mayor probabilidad de contener células normales; (iv) estimar un número de subgrupos, r, en el conjunto de datos al aplicar un algoritmo de agrupamiento no supervisado usando un algoritmo de disimilitud lineal de Pearson al conjunto de datos; (v) asignar cada muestra en el conjunto de datos a al menos un agrupamiento usando un algoritmo de factorización de matriz no negativa genómica (gNMF) modificada, en donde el algoritmo de gNMF modificado comprende: (1 ) calcular la divergencia del algoritmo después de cada 1 00 pasos de actualización multiplicativa usando la fórmula: y D(V || WH) = log—^ - Vi} + (WH),) (11) M t (Wti )¡j en donde VtJ es la iésima fila y la jiésima columna de matriz V, (WH) es la iéslma fila y la jiés¡ma columna de matriz (W*H), i corre desde 1 hasta n y n es el número de segmentos en el conjunto de datos, y j corre desde 1 hasta m y m es el número de muestras en el conjunto de datos; (2) detener el algoritmo si la divergencia calculada en el paso (v) (1 ) no disminuye por más de aproximadamente 0.001 % cuando se compara con la divergencia calculada para los 100 pasos previos de la actualización multiplicativa del algoritmo; (3) repetir aleatoriamente el algoritmo por un número seleccionado de corridas y calculando una matriz de coeficiente de correlación de Pearson de H para cada una de las corridas del algoritmo usando la fórmula: en donde C es la matriz de correlación, C(J es la és ma fila y la jésima columna en la matriz C, H,, y Hj son el iésimo y jésimo vector de columna en la matriz H, p(Ht¡, HJ es el coeficiente de correlación de Pearson entre H y Hj, i y j corren desde 1 hasta m y m es el número de muestras en el conjunto de datos, k corre desde 1 hasta r y r es el número de subgrupos del paso (iv); (4) promediar las matrices de coeficiente de correlación de Pearson para cada corrida del algoritmo obtenido del paso (v)(3) para llegar a una matriz de correlación promedio; (5) asignar muestras en subgrupos r al aplicar un algoritmo de agrupamiento no supervisado usando 1 menos la matriz de correlación promedio determinada en el paso (v)(4) y cortar un dendrograma en agrupamientos r; (vi) aplicar una correlación Cofenética, criterio de información Bayesiano o una combinación de los mismos para proporcionar un número final de agrupamientos del conjunto de datos, en donde cada agrupamiento final define un subgrupo genómico para cada muestra de línea de células de cáncer o tumor; y (vii) opcionalmente evaluar la estabilidad del número final de agrupamientos seleccionado en el paso (vi) usando una prueba de estabilidad de diez veces; y (b) opcionalmente, una primera, segunda, tercera, cuarta, quinta y sexta línea celular, o DNA genómico aislado del mismo, en donde la primera línea de células es seleccionada del grupo que consiste de SKMEL1 1 9, HS944, WM 1366 y WM88; la segunda línea de células es WM3248; la tercera línea de células es 1205LU; la cuarta línea de células es seleccionada del grupo que consiste de 451 LU , SK EL19, SKMEL28, SKMEL30, SKMEL63, WM35, WM983 y WM983C; la quinta línea de células es seleccionada del grupo que consiste de WM321 1 , M14, MEWO, SKMEL2, SKMEL5, UACC257, UACC62, WM122, WM 13662, WM239A, WM321 12, WM32482, WM793B y 501 MEL, y la sexta línea de células es MAL E3M o WM882.