MXPA02009001A

MXPA02009001A - Aparato y metodo para analisis confuso de evidencia.

Info

Publication number: MXPA02009001A
Application number: MXPA02009001A
Authority: MX
Inventors: Yuan Yan Chen
Original assignee: Yuan Yan Chen
Priority date: 2000-03-16
Filing date: 2001-03-15
Publication date: 2004-10-15
Also published as: AU2001259025A1; WO2001069410A1; CN1423781A; EP1279109A1; US20020010691A1; CA2402916A1; JP2003527686A

Abstract

Se describen un aparato y un metodo para efectuar procesamiento distribuido paralelo. Una pluralidad de nodos estan conectados con conexiones de peso (figuras 1 y 12). Las conexiones de peso son actualizadas sobre la base de una funcion de probabilidad de los nodos asociados (30). Tambien, las entradas a los nodos estan arregladas utilizando funciones norma de t (306), o conorma de t, con salidas que representan las medidas de posibilidad y confianza (308).

Description

APARATO Y METODO PARA ANALISIS CONFUSO DE EVIDENCIA ESTADISTICA CAMPO DE LA INVENCION Esta invención se relaciona de manera general con un aparato y un método para efectuar el análisis confuso de evidencia estadística (FASE) utilizando el conjunto confuso y la teoría estadística para resolver problemas de clasificación de patrón y descubrimiento de conocimiento. Varias características del FASE son similares a las del juicio humano. Este aprende de la información de datos, la incorpora en el conocimiento de confianzas y actualiza las confianzas con nueva información. La invención también se relaciona con lo que será referido como Redes Neurales Plausibles (PLANN) .

ANTECEDENTES DE LA INVENCION Las máquinas distribuidas paralelas analógicas, o redes neurales, calculan la lógica confusa, la cual incluye mediciones de posibilidad, confianza y probabilidad. Lo que la lógica confusa es para una máquina analógica es lo que la lógica Bouleana es para una computadora digital. Utilizando la lógica Bouleana, uno puede utilizar una computadora digital para efectuar pruebas de teoremas, jugar ajedrez, o muchas otras aplicaciones que tengan reglas precisas o de conocimiento. Igualmente, basándose en la lógica confusa, puede emplearse una lógica analógica para efectuar un razonamiento aproximado, razonamiento plausible y juicio de confianza, donde las reglas sean intrínsecas, inciertas o contradictorias. El juicio de confianza es representado por la medición de posibilidad y confianza, en tanto que la lógica Bouleana es un caso especial o predeterminado. El análisis confuso de evidencia estadística (FASE) puede ser calculado de manera más eficiente por una máquina distribuida, paralela, analógica. Además, puesto que el FASE puede extraer reglas de confusión/confianza, también puede servir como enlace para el procesamiento distribuido y el proceso simbólico . Existe una búsqueda continua de algoritmos de aprendizaje de máquina para clasificación de patrones que ofrezcan mayor precisión y un cálculo más rápido. Sin embargo debido a la inconsistencia de la evidencia de datos disponibles, insuficiente información proporcionada por los atributos, y la construcción del límite de clase, los algoritmos de aprendizaje de máquina (y aún expertos humanos) no siempre hacen la clasificación correcta. Si existe incertidumbre en la clasificación de un caso particular, puede ser necesaria información adicional para aclararla. Esto ocurre con frecuencia en diagnóstico médico, evaluaciones de crédito, y muchas otras aplicaciones . De este modo seria deseable tener un método para actualizar la confianza con nueva información de atributos sin reconversión o perfeccionamiento de la muestra de datos. Tal método ofrecerá el beneficio de agregar evidencia (atributos; adicional sin al resultado de costos de cálculo altos. Otro problema con los métodos de clasificación actuales es la aceptación difundida de la llamada suposición Ingenua Bayesiana. La actualización de confianza de Bayesian depende de la multiplicación de valeres de atributo que requiere la suposición de que cualquier nuevo atributo es independiente de los atributos anteriores o puede ser estimada la probabilidad condicional. La suposición generalmente no es cierta, haciendo que el nuevo atributo tenga un efecto mayor que el apropiado sobre el resultado.

SUMARIO DE LA INVENCION Para superar esas dificultades, la presente invención ofrece un método de clasificación basada en la medición de posibilidad y agregar información el atributo utilizando una función norma de t de la teoría del conjunto confuso. El método es describo aquí, y referido como análisis confuso de evidencia estadística (FASE) . El proceso de aprendizaje de una máquina puede ser considerado como el razonamiento de la muestra de aprendizaje de la población, la cual es una inferencia inductiva. Cerno se observa en Y. Y. Chen, BernoulJ.i Triáis: Desde un Punco de Vista de la Medición de Confusión. J. Math. Anal. Appl . , yol. 175, p . 392-4C4, .1993 y Y. Y. Chen, Inferencia Estadística en las Mediciones de Posibilidad y Confianza, Trans. Amer. Math. Soc, vol. 347, pp. 1855-1863, 1995, las cuales se incorporan aquí como referencia, es más ventajoso medir la confianza inductiva por las mediciones de posibilidad y confianza que por la medición de probabilidad. El FASE tiene varias propiedades deseables. Es tolerante al ruido y capaz de manejar valores perdidos, y de este modo permite la consideración de numerosos atributos. Esto es importante, puesto que muchos patrones se vuelven separables cuando se incrementa la dimensionalidad de los datos. El FASE también es ventajoso para descubrimientos de conocimiento además de la clasificación. Los patrones estadísticos extraídos de los datos pueden ser representados por el conocimiento de confianzas, las cuales a su vez son proposiciones de un sistema experto. Esas proposiciones pueden ser conectacas por reglas de inferencia. De este modo, del conocimiento de la máquina de sistemas expertos, el FASE proporciona un enlace mejorado de razonamiento inductivo a razonamiento deductivo. Además se proporciona una Red Neural Plausible (PLANN) la cual incluye conexiones de peso las cuales se actualizan sobre la base de función de probabilidad de las neuronas conectacas. Las entradas a las neuronas son agregadas de acuerde a la función conorma de t, y las salidas representan mediciones de posibilidad y confianza .

BREVE DESCRIPCION DE LOS DIBUJOS Las modalidades preferidas de esta invención son descritas con detalle más adelante, con referencia a las figuras de los dibujos, donde: La Figura 1 ilustra la relación entre la información mutua y conexiones neuronales; La Figura 2 ilustra la interconexión de una pluralidad de neuronas de atributo y neuronas de clase; La Figura 3 representa el juicio de probabilidad en una red neural. La Figura 4 es un diagrama de flujo que muestra el cálculo de actualizaciones de peso entre dos neuronas; La Figura 5 describe ' las distribuciones de probabilidad de ancho de pétalo. La Figura 6 describe la curva del factor de certidumbre para la clasificación como función del ancho de pétalo; La Figura 7 describe la comunidad de confusión para el ancho de pétalo grande; La Figura 8 es un diagrama de bloques funcional de un sistema para efectuar el análisis confuso de evidencia estadística; La Figura 9 es un diagrama de flujo que muestra el proceso cognoscitivo del juicio de confianza; La Figura 10 es un diagrama de flujo que muestra el proceso cognoscitivo de aprendizaje supervisado; La Figura 11 es un diagrama de flujo que muestra el proceso cognoscitivo del descubrimiento de conocimiento ; La Figura 12 es un diagrama de una red neural de dos capas de acuerdo a la presente invención; y La Figura 13 es un diagrama de un ejemplo de una Red Neural de Bayesian y una Red Neural Posibilística en uso.

DESCRIPCION DETALLADA DE LAS MODALIDADES PREFERIDAS 1. Metodologías y propiedades del FASE Sea C la variable de clase y Ki...,An las variables de atributo; y sea Pos las mediciones de posibilidad. Sobre la base de la inferencia estadística desarrollada en Y. Y. Chen, Ensayos de Bernoulli: Desde Un Punto de Vista de Medición de Confusión, J. Math. Anal. Appl., Vol . 175, pp. 392-404, 1993, tenemos Pos (CIAi, ... , An)=Pr(Ai, ...,An|C)/supc Pr(Ai, ..., An|C), (l) si la confianza anterior no es informativa. Bel (C I Ai, ... , An) =l-Pos (C I A:, ... , An) es la medición de confianza o factor de certidumbre (CF) de que un caso pertenece a la clase C. La diferencia entre la ecuación (1) y la fórmula de Bayes es simplemente la diferencia de la constante de normalización. En la medición de posibilidad la norma superior es 1, mientras que en la medición de probabilidad la norma aditiva (integraciones 1) . Para la asignación de clase, el clasificador Bayesiano se basa en la probabilidad a posterior! máxima, la cual es nuevamente equivalente a la posibilidad máxima. En el aprendizaje de máquina, debido a la limitación de la muestra de aprendizaje y/o el gran número de atributos, la probabilidad de unión Pr (Ai,..., ?p I C) con mucha frecuencia no es estimada directamente de los datos. Este problema es similar al curso de dimensionalidad . Si se estima la probabilidad condicional Pr (Ai | C) o Pr (Ailf..., Alk | C) por separado, donde íii,.--, , forma una partición de {1,.-., n}, entonces es necesaria una operación adecuada para combinarlas juntas. A continuación damos una definición de las funciones norma de t, las cuales son utilizadas con frecuencia para la conjugación de conjuntos confusos. Una intersección de confusión/norma de t es una operación binaria T: [0, 1] x [0, 1] —> [0, 1], la cual es comunicativa y asociativa, y satisface las siguientes condiciones (véase [5]) : (i) T (a, 1) = a, para toda a, y (ii) T (a, b) < T (c, d) cuando a < c, b = d. (2) Los siguientes son ejemplos de normas de t que on frecuentemente utilizadas en la literatura: Mínimo: M (a, b) = min (a, b) Producto: ? (a, b) = ab. Diferencia unida: W (a, b) = max (0, a + b - 1) .

Aunque generalmente las relaciones entre atributos son desconocidas, puede ser empleada una norma de t entre ? y M para una actualización de confianza. De este modo puede ser elegida una norma de t que compense más estrechamente los diferentes grados de dependencia entre atributos, sin necesidad de conocer la dependencia real. Para mayor simplicidad, limitemos nuestra atención al modelo que agrega todos los atributos con una norma de t común ® como sigue: Pos (C I ??, .. ,An) = ® i = l, ...,n Pos (C I A /supc 1, ... ,n Pos (C I At) , (5) que incluye el clasificador ingenuo de Bayesian como un caso especial, es decir, cuando es igual al producto ?. Como se muestra en Y. Y. Chen, Inferencia Estadística Basada en las Mediciones de Posibilidad y Confianza, Trans . Amer . Math. Soc. vol. 347, pp. 1555-1863, 1995, la regla de producto implica agregar los pesos de evidencia. Este sobrecompensará el peso de las evidencias, si los atributos son dependientes. Las siguientes son algunas propiedades características del FASE: (a) Para cualquier norma de t, si ei atributo Ai no es informativo, es decir Pos (C = Cj | Ai) = 1, Vj , entonces : Pos (C I Ai, ... ,An)=?os (C I .¾!, ..., Ai-i, Ai+; ... , An) (6) .

Esto se mantiene, puesto que T (a, 1) = a. La ecuación (6) indica que un atributo no informativo no contribuirá a ninguna evidencia de clasificación total, y esto sucede cuando un caso Ai está ausente o Ai es una constante. De manera similar, si Ai es ruido blanco, entonces proporciona poca información para la clasificación, puesto que Pos (C = Cj | Ai) ¾1, Vj . De este modc, el FASE no es tolerante al ruido. (b) Para cualquier norma de t, si Pos (C | AL) = 0 para alguna i, entonces: Pos (C I ¾,...,¾! = 0 (7) Esto se mantiene puesto que T (a, 0) = 0. La ecuación (7) indica que el proceso de actualizar la confianza es eliminando las clases/hipótesis menos plausibles, es decir Pos (C | A¿) « O, sobre la base de evidencias. El que sobrevive del proceso se vuelve verdad. (c) Para la clasificación binaria, si Bel (C = Cj I Ai)=a, Bel (C ? Cj, | A2) = b, y 0 < b < a, entonces: Bel (C = c3 I Alr A2) = (a - b)/(l - b) (8) Dado que (a - b)/(l - b) < a, la ecuación (8) implica que la evidencia conflictiva hará disminuir nuestra confianza de las confianzas previas; sin embargo, el cálculo es el mismo sin importar cual norma de t sea utilizada. Si la evidencia señala hacia la misma dirección, es decir, Bel (C = c-j | Ai) = a, y Bel (C = j I A2) = b < a, b < 1, entonces nuestro nivel de confianza se incrementará. La medición de confianza Bel (C = Cj I Ai, A2) fluctúa de max (a, b) a a+b-ab, para funciones de la norma de t entre M (mínimo) y ? (producto) . A mayor la norma de t, más débil el peso de la evidencia que se reconoce con esta. Esta propiedad puede ser referida como la fuerza de la norma de t. De este modo, si empleamos diferentes normas de t para combinar atributos, los cálculos son muy similares entre sí. Esto también explica porque el clasificador ingenuo de Bayesian puede funcionar adecuadamente, aún cuando la suposición de evidencia sea violada con mucha frecuencia . 2. Redes Neurales Plausibles En el razonamiento humano, existen dos modos de pensamiento: expectativa y probabilidad. La expectativa es utilizada para planear o predecir el estado verdadero del futuro. La probabilidad es utilizada para juzgar la verdad de un estado actual. Los dos modos de pensamiento no son exclusivos, sino que interactúan entre si. Por ejemplo, necesitamos reconocer nuestro ambiente para tomar una decisión. Un modelo de inferencia estadística que hace interactuar esos dos modos de pensamiento fue discutido en Chen (1993), el cual es un híbrido de las mediciones de probabilidad y posibilidad. La relación entre las inferencias estadísticas y las redes neurales en el aprendizaje de máquina y reconocimiento de patrones han atraído una considerable atención de la investigación. Las conexiones previas se discutieron en términos de la inferencia de Bayesian (véase, por ejemplo, Kononenko I. (1989) Redes Neurales Bayesianas, Bioloaical Cybernetics 61:361-370; y MacKay D. J. C, Una Estructura Bayesiana Práctica para Redes de Retropropagación . Neural Computation 4, 448-472, 1992; o teoría de aprendizaje estadístico de Vapnik V., Stadistical Learníng Theory, iley, N. Y . , 1998J . Las redes neurales Bayesianas requieren la asignación de confianza anterior sobre las distribuciones de peso de ia red. Desafortunadamente, esto hace el cálculo de redes a gran escala casi imposible. La teoría del aprendizaje estadístico no tiene la medición de incertidumbre de la inferencia, de modo que no puede ser actualizado con nueva información sin reconvertir la variable. De acuerdo a la presente invención, por cada variable X existen dos significados distintos. Uno es P(X) , el cual considera la población de distribución de X, y el otro es Pr(X), el cual es una muestra aleatoria basada en la población. Si la población P(X) es conocida, esta pueda ser considerada como una variable confusa o una función confusa (la cual es referida como una variable estacionaria o proceso estacionario en Chen (1993) ) . Sobre la base de las estadísticas de la muestra, podemos tener un estimado de probabilidad de P(X) . La ventaja de utilizar la medición de posibilidad soore una población, es que tiene un antecedente vacío universal, de este modo el antecedente no necesita ser considerado como lo es en la inferencia Bayesiana. De acuerdo a la presente invención, X es una variable binaria que representa una neurona. En cualquier tiempo dado, X = 1, representa la activación de 1{?12 nyl ,-y) (e 2 -f 12),?-?,-G0 1- 2 +ß 12) j, 1 ff2-,'(l-T 2) ' ) (10).

Esto se basa en el principio de extensión de la teoría del conjunto confuso. Cuando una sinapsis con una memoria de x, y (basada en el peso de ?12) recibe nueva información xt, yt, la función de probabilidad de peso es actualizada por la regla de probabilidad: 1(?12 I x, y, xt, yt) = 1(0,12 I x y)l(CJ12 | xl, y) /suP(ülziri2 I x, ?)1(?12 | xt, yt) (Ha) Aquellos expertos en la técnica reconocerán que la ecuación (lia) representa la regla de Hehb. La investigación de redes neurales actual usa todas las formas de los métodos de aproximación. La inferencia Bayesiana necesita una suposición previa y la medición de probabilidad no es invariablemente escalar bajo la transformación. La ecuación (lia) puede ser utilizada para diseñar un dispositivo electrónico para controlar los pesos de sinapsis en una máquina de cálculo distribuida, paralela. Para el análisis de datos, una medición de confianza para col2 es representada por el conjunto de ccrte a o el intervalo de probabilidad 1-a, el cual es descrito en Y. Y. Chen, Inferencia Estadística Basada en una de las Mediciones de Posibilidad y Confianza, Trans. Amer. Math. Soc, Vol. 347, pp. 1855-1863, 1995. Esto es necesario solamente si el tamaño de la muestra de aprendizaje es pequeña. Si el tamaño de la muestra es suficientemente grande, la estimación de probabilidad máxima de t12 será suficiente, la cual puede ser calculada de la estimación de probabilidad máxima de T1, 2 y e12. Puesto que 9\ = i xií n , 92 = ? i yi l n , ?\ 1 = i xiyi!n , tenemos w 12 = log(«^ i xiyi I^ i i i y i) , ! 1 Ib ) Ambas Ecuaciones (lia) y (11b) pueden ser utilizadas en una red neural plausible (PLANN) para actualizar pesos. La ecuación (11b) es utilizada para el análisis de datos. La ecuación (lia) puede ser utilizada en una máquina distribuida paralela o una red neural simulada. Como se ilustra en la Figura 1, de la ecuación (9) podemos ver que ?12 > 0 si X e Y están correlacionadas positivamente , ?12 < O si X e Y están correlacionadas negativamente, (a12 = 0 si y solo si X e Y son estadísticamente independientes . Si la neurona X y la neurona Y están cerca de ser independientes, es decir, col2 « 0, sus conexiones pueden ser eliminadas, puesto que no afectarán el cálculo de la red total. De este modo, una red que esté inicí lmente completamente conectada, puede convertirse en una red pobremente conectada con algunas estructuras jerárquicas después de la reconversión. Esto es ventajoso debido a que las neuronas puede liberar la conexión de peso para ahorrar energía y hacer crecer la conexión de peso para propósitos de procesar más información . Una red neural plausible (PLANN) de acuerdo a la presente invención, es una red completamente conectada con las conexiones de peso dadas por información mutua. Esta es usualmente llamada red recurrente. La simetría de las conexiones de peso asegura el estado estable de la red (Hopfield, J. J. , Algoritmo de Aprendizaje y Distribuciones de Probabilidad en Redes de Alimentación Anticipada y Retroalimentación, Proceedings at the National Academy of Science, E.U.A., Ó429-8433 (1985)) . Xj es el conjunto de neuronas que están conectadas con, y que activan la neurona Xi. La activación de Xi está dada por Xi = s (®j ?±] j) , (12) La función de señal puede ser determinística o estocástica, y la función de transferencia puede ser el umbral sigmoide o binario. Cada una representa un tipo diferente de máquina. La presente invención se enfoca sobre la función sigmoide estocástica, debido a- que está más cerca de un cerebro biológico. El modelo sigmoide estocástico con activación aditiva, es equivalente a una máquina de Boltzmann descrita en Ackley, D. H. , Hinton, G. E . , y T. J. Sejnowski, Un Algoritmo de Aprendizaje para Boltzmann, Cognitive Sci, 9, pp. 147-169 (1985) . Sin embargo, el algoritmo de aprendizaje de la PLANN de la presente invención es mucho más rápido que la máquina de Boltzmann, debido a que cada neurona de información de datos recibida es agregada automáticamente al peso de la sinapsis por la ecuación (lia) . De este modo, el método de aprendizaje de la presente invención modela más estrechamente el comportamiento de neuronas biológicas. La presente invención tiene la capacidad para efectuar un razonamiento de plausibilidad . Una red neural con esta capacidad es ilustrada en la Figura 2. La red neural emplea la aplicación de confusión de evidencia estadística (FASE) como se describió anteriormente. Como se observa en la Figura 2, la modalidad mostrada es una red neural de una sola capa 1, con una pluralidad de neuronas de atributo 2 conectadas a una pluralidad de neuronas de clase 4. Las neuronas de atributo 2 están conectadas a las neuronas de clase 4, con conexiones de peso 6. Cada neurona de clase, agrega las entradas de las neuronas de atributo 2. Bajo la transformación de señal y la función de la conorma de t se vuelve una norma de t, de este modo, FASE agrega una información con una norma de t. Las neuronas de atributo son estadísticamente independientes de una neurona de clase que no tienen conexión de peso a la neurona de clase. De este modo, las neuronas independientemente estadísticas, no contribuyen a ninguna evidencia para la clase particular. Por ejemplo, en la Figura 2, no existe conexión entre la neurona de atributo A2 y la neurona de clase Cj.. De manera similar, no existe conexión entre la neurona de atributo A3 y la neurona de clase C2. Las señales enviadas a las neuronas de clase 4 son posibiliaades . Las neuronas de clase 4 son interconectadas con pesos de exhibición 8. En una naturaleza competitiva, la energía en cada neurona de clase hace disminuir la salida de las otras neuronas de clase. La diferencia entre las posibilidades es la medición de confianza. De este modo, si dos neuronas de clase tienen mediciones de posibilidad muy similares, la medición de confianza será baja. La energía de confianza baja representa baja confianza real de que la neurona de clase particular es la salida correcta. Por otro lado, si la medición de posibilidad de una neurona de clase es mucho mayor que la de cualquier otra neurona de clase, la medición de confianza será alta, indicando mayor confianza que la neurona de clase correcta que ha sido seleccionada . En el ejemplo de la Figura 2, no se estimaron las conexiones de peso entre las neuronas de atributo. Sin embargo, la relación verdadera entre los atributos puede tener diferentes tipos de inhibición y pesos de exhibición entre las neuronas de atributo. De este modo, la energía de las neuronas de atributo cancelaría la energía de otras neuronas de atributo. La norma de t promedio funciona mejor. En las Bayes ingenuas comúnmente utilizadas, la suposición es que todos los atributos son independientes entre sí. De este modo, no existen pesos de conexión entere las neuronas de atributo. Bajo este esquema, las neuronas de clase reciben información/energía sobrecargada, y las confianzas se convierten rápidamente en aproximadamente 0 ó 1. El FASE es más exacto y robusto, debido a que los pesos entere las neuronas de atributo son tomados en consideración, presentando de este modo de manera más exacta la interdependencia de las neuronas de atributo. Aquellos expertos en la técnica apreciarán el amplío alcance de aplicación de la presente invención. Cada señal de la neurona de salida puede ser una clase confusa, y su significado depende del contexto. Para la calificación las salidas significarán posibilidad y confianza. Para la predicción, la salida significará probabilidad. Se apreciará que también son posibles otros significados, y serán descubiertos dada la investigación adicional . Como se discutió anteriormente, existen dos modos de pensamiento humano: expectativa y probabilidad. La expectativa puede ser modelada en una red neurai de ida. La probabilidad puede ser modelada en una red neurai de regreso. De manera preferible, la red neurai es una red completamente conectada, y si la red trabaja hacia atrás o hacia adelante es determinado por la temporización de los eventos. En una red neurai de ida la energía se dispersa, lo cual no es reforzado por la información de datos, y la medición de probabilidad es pequeña. Una red neural de regreso recibe energía, y de este modo la posibilidad es grande. Si varias neuronas tienen posibilidades aproximadamente iguales, sus conexiones de exhibición hacen disminuir sus actividades, únicamente las neuronas con niveles de energía mayores permanecen activas. La Figura 3 ilustra una red neural para efectuar reconocimiento de imágenes. La red 10 comprende una primera capa 12 y una segunda capa 14 de nodos o neuronas. Esta red también tiene una tercera capa 16. En esta ilustración, la red recibe información de imagen degradada en la capa de entrada 12. Los nodos de entrada activan a las neuronas de la segunda capa 14, y la abuela y el abuelo reciben la más alta agregación de entradas. La confianza de que la imagen representa una u otra, sin embargo, es muy pequeña, debido a que los valores de posibilidad estaban muy cercanos. De este modo, la red sabe que la imagen es de la abuela o abuelo, pero no tiene confianza de lo que sabe. Esta información es agregada adicionalmente, sin embargo, en un valor de posibilidad y confianza muy alto para una neurona que representa una "persona vieja" 16. De este modo, si las neuronas de atributo representan entradas a una red de reconocimiento de imágenes, una imagen degradada puede ser eventualmer.te clasificada como una persona vieja. Este es un ejemplo de una red de ida. Las redes de ida pueden interactuar con redes de regreso. Un diseño como este se discute en ART (Grossberg S., Tha Adaptative Brain, 2 Vol . Amsterdam: Elsevier (1987)) , Este tipo de red puede ser interpretado como la interacción de probabilidad y posibilidad, se convierten en la medición de. plausibilidad como se discute en Chen (1993) . Una red neural plausible de acuerdo a la presente invención calcula y actualiza conexiones de peso como se ilustra en la Figura 4. Los datos son alimentados en la red en el paso 20. Para una conexión de peso particular que conecta las neuronas X y Y, se efectúan tres cálculos de probabilidad. La función de probabilidad es calculada de acuerdo a la ecuación (10) anterior. La función de probabilidad es calculada para el parámetro ?; 22, el parámetro ?2 24 , y el parámetro ??2 26. A continuación, se calcula la función de probabilidad de la conexión de peso por medio de la transformación logarítmica y optimización 28. Finalmente, la regla de probabilidad descrita anteriormente es utilizada para actualizar la memoria de la conexión de peso 30. Ahora será descrita la codificación de datos en una red neural. Sea cada neurona una función indicadora que representa si existe o no un valor de datos particular. Con información más cerca de la relación entre los valores de datos, pueden ser agregadas muchas arquitecturas de red a la conexión de la neurona. Si una variable es discreta con k escalas de categoría, esta puede ser representada por = (Xi, X?, ... , Xk) , la cual es el esquema de codificación binaria común. Sin embargo, si esas categorías son mutuamente exclusivas, entonces se asignan conexiones de inhibición a cualquier par de neuronas para hacerlas competitivas. Si la variable es de escala ordinal, entonces arreglamos XL, X2, . ¦ . ; Xk en su orden apropiado con la conexión de inhibición débil entre las neuronas adyacentes y la inhibición fuerte entre las neuronas distantes. Si la variable es continua, las Xi, '¿t ¦ ¦ · r Xk son funciones indicadoras de un intervalo o bandeja con el orden apropiado. Asignamos conexiones de exhibición entre neuronas vecinas y conexiones vecinas y conexiones de inhibición para neuronas distantes. Una buena candídata es la arquitectura de la red de Kohonen. Puesto que una variables continua puede únicamente ser medida con cierto grado de exactitud, un vector binario con una longitud finita es suficiente. Este método también convierte la codificación del conjunto confuso, puesto que las categorías confusas son usualmente de escala ordinal.

Para problemas de clasificación de patrón, la solución es conectar una red de clase, la cual es competitiva, a una reo de atributo. Dependiendo de la información proporcionada en las marcas de clase de las muestras de aprendizaje, tal red puede efectuar aprendizaje supervisado, aprendizaje semisupervisado, o simplemente aprendizaje no supervisado. Pueden ser consideradas variedades de esquemas de clasificación. La variable de clase puede ser continua, y las categorías de clase pueden ser claras o confusas. Diseñando las conexiones de peso entre las neuronas de clase, las clases pueden ser arregladas como una jerarquía o pueden no estar relacionadas. Para problemas de predicción, tales como predicción del tiempo o predicción del mercado de valores, la PLANN hace predicciones con mediciones de íncer: idumbre . Puesto que esta está constantemente aprendiendo, la predicción es actualizada constantemente. Es importante reconocer que el mecanismo de aprendizaje de la neurona es universal. Los procesos de razonamiento plausibles son aquellos que son superficiales a nivel de la conciencia. Para un problema de aprendizaje robótico, el proceso de la PLANN acelera el proceso de aprendizaje para el robot.

La PLANN es el proceso de aprendizaje de máquina más rápido conocido. Este tiene una fórmula exacta para actualizar el peso, y el cálculo únicamente implica estadísticas de primer y segundo orden. La PLANN es principalmente utilizada para el cálculo de datos a gran escala. (i) Aprendizaje de la PIANN para Máquinas Distribuidas Paralelas Una máquina distribuida paralela de acuerdo a la presente invención puede ser construida como sigue. La máquina distribuida paralela es construida con muchas unidades de procesamiento, y un dispositivo para calcular pesos se actualiza como se describe en la ecuación (lia) . La máquina es programada para utilizar la función de activación aditiva. Los datos de aprendizaje son introducidos a la máquina de la red neural. Los pesos son actualizados con cada dato procesado. Los datos son alimentados hasta que la máquina funciona como se desee. Finalmente, una vez que la máquina esté funcionando como se desee, los pesos son congelados para que la máquina continúe efectuando la tarea especifica. De manera alternativa, puede dejarse que los pesos se actualicen continuamente para un proceso de aprendizaje interactivo. (ii) Aprendizaje de la PLANN para Redes Neurales Simuladas Una red neural simulada puede ser construida de acuerdo a la presente invención como sigue. Sea (XL/ X2, ... , XN) la representación de las neuronas en la red, y sea Oij la conexión de peso entre Xi y Xj . Los pesos pueden ser asignados aleatoriamente. Son alimentados los datos y contabilizadas las estadísticas de primer y segundo orden. La información estadística es registrada en un registro. Si los registros de datos son de dimensiones mayores, pueden ser separados en datos dimensionales mayores, de modo que la información mutua sea baja. Entonces son contabilizadas las estadísticas por separado para los datos dimensionales menores. Pueden ser alimentados y almacenados más datos en el registro. El peso (Oij es actualizado periódicamente calculando las estadísticas de los datos alimentados sobre la base de la ecuación (11) . Entonces puede ser probado el desempeño. Como un ejemplo, considérense datos de ladrido de perro. Para un aprendizaje más lento, los datos de ladrido de perro en sí pueden ser alimentados repetidamente sin información de conexión de peso. Los pesos se desarrollarán con más y más datos alimentados. Puede ser seleccionado un esquema de codificación de datos apropiado para diferentes tipos de variables. Los datos son alimentados hasta que la red funciona como se desee . (iii) PLANN para Análisis de Datos Para utilizar la PLANN para analizar datos, los datos son reducidos preferiblemente a secciones con dimensiones más pequeñas. Entonces pueden ser calculadas estadísticas de primer y segundo orden de cada sección. Se utiliza una conorma de t/norma de t moderada para agregar información. Se promedia la relación verdadera entre las variables . La presente invención enlaza las teorías de inferencia estadística, física, biología y de información dentro de una sola estructura. Cada una puede ser explicada por la otra. McCulloch, W. S. y Pitts, Un Cálculo Lógico de Ideas Inmanentes en Actividad Neuronal, Bulletin of Mathematical Biology 5, pp . 115-113, 1943 muestra que las neuronas pueden hacer cálculos universales con una señal de umbral binario. La presente invención efectúa el cálculo universal por medio de neuronas de conexión con la función de peso dada en la ecuación (lia) . Aquellos expertos en la técnica reconocerán que con diferentes funciones de señal, puede ser descrita y construida una máquina de cálculo analógica universal, una máquina de cálculo digital universal e híbridos de les dos tipos de máquinas. 3. Cálculo de FASE y Resultados Experimentales Será evidente a un experto en la técnica que el FASE se aplica con igual éxito a atributos confusos y/o continuos que implican clasificaciones, así como, clases confusas y/o continuas. Para atributos continuos, empleamos el estimador del núcleo D. W. Scott, Estimación de Densidad Multivariada : Teoría, Práctica y Visualización . , John Wxley & Sons r 1992, capítulo 6, pp . 125 para la estimación de la densidad P(x) = 1/nh ?? K{ (x-xi) /h) , (13) donde K se elige de modo que sea uniforme para mayor simplicidad. Para atributos discretos utilizamos estimados de probabilidad máxima. Las probabilidades estimadas de cada atributo son normalizadas en posibilidades y a continuación combinadas por una norma de t como en la ecuación (12) . Examinamos las siguientes dos familias de normas de t para agregar la información de atributos, puesto que esas normas de t contienen una amplía gama de operadores confusos. Üno es el propuesto por M. J. Frank, Kpl, p2)= ?x(pl (x) -p2 (x) ) log (pl (x) /p2 (x) ) . (16) El FASE no requiere consideración de los antecedentes. Sin embargo, si multiplicamos los antecedentes, en términos de las mediciones de probabilidad, por la probabilidad, entonces discontinua la evidencia de ciertas clases. En un sentido holgado, los antecedentes también pueden ser considerado como un tipo de evidencia. Los conjuntos de datos utilizados en nuestros experimentos provienen del depósito UCI C. L. Blake, y C. J. Merz, Depósito UCI de Bases de Datos de Aprendizaje de Máquina [http://www.ics.uci.edu/~mlearn/MLRepository. html], 1998. Se utilizó un método de validación cruzada cinco veces (véase R. A. Kohavi, Estudio de Validación Cruzada y Oreja para Estimación Exacta y Selección de Modelo, Proceedings of the Fourteenth International Joint Conference for Artificial Intelligence, Morgan Kaufmann, San Francisco, pp. 1137-1143, 1995) para la exactitud de predicción. Este cálculo se basó en todos los registros, incluyendo aquéllos con valores ausentes o perdidos. En el conjunto de aprendizaje aquellos valores no ausentes proporcionan aún información útil para la estimación del modelo. Si un caso tiene valores ausentes o perdidos, los cuales son asignados como confianzas nulas, su clasificación se basa en un número menor de atributos. Pero, muy frecuente no se requiere que ** Parámetros de la norma de t que funcionan bien para el conjunto de datos. s-Farámetro de Frank, parámetro de Sche eizer y Sklar. Las normas de t más fuerte que el producto son menos interesantes y no funcionan tan bien, de modo que no están incluidas. La regla min refleja la evidencia más fuerte entre los atributos. Esta no funciona bien si necesitamos agregar un gran número de atributes independientes, tales como los datos de ADN. Sin embargo funciona mejor si los atributos son fuertemente dependientes entre si, tal como los datos de voto. En algunos conjuntos de datos, la clasificación es insensible a cual norma de t fue utilizada. Esto puede ser explicado por las ecuaciones (2) y (3) . Sin embargo, una norma de t más débil usualmente proporciona un estimado más razonable de mediciones de confianza, especialmente si el número de atributos es grande. Aunque aquellas no sean las mediciones de confianza verdadera, un CF menor usualmente indica que existen atributos conflictivos . De este modo, ofrecerán aún información esencial para la clasificación. Por ejemplo los datos en crx, el clasificador de FASE, con s=.l, es aproximadamente 85% exacco. Si se consideran aquellos 35 datos con una confianza mayor,' por ejemplo CF >.9, entonces puede lograrse una exactitud de más de 95%. 4. Descubrimiento de Conocimiento y Reglas de Inferencia Sobre la base de la información de datos de atributos de clase, pueden ser extraídas reglas similares a las del sistema experro empleando la metodología FASE. Ilustramos esto con los datos del- iris de Fisher, por sus antecedentes históricos y su conocimiento común en la literatura : Las Figuras 5-7 ilustran la transformación de posibilidades de clase a factores de certidumbre de clase y conjuntos confusos. La Figura 5 muestra distribuciones de probabilidad de ancho de pétalo para tres especies, la Figura 6 muestra la curva del factor de certidumbre (CF) para la clasificación común como función del ancho del pétalo, y la Figura 7 muestra la comunidad de confusión para un ancho de pétalo "grande". Las Figuras 5-7 muestran distribuciones de probabilidad de clase y su transformación en ediciones de confianza, las cuales son representadas como factores de certidumbre (CF) . Se supone que el CF es positivo, pero es conveniente representar la desconfirmación de una hipótesis por un número negativo.

Vel(C|A) puede ser interpretada como "Si A entonces C con el factor de certidumbre CF" . Aquellos expertos en la técnica apreciarán que A puede ser un solo valor, un conjunto, o un conjunto confuso. En general, el factor de certidumbre puede ser calculado como sigue: donde µ(?(?) ) es la comunidad confusa de Á.

Si se considera µ(?(?)) = Bel (C=Virgínica |x) como el conjunto confuso "grande" para el ancho de pétalo, corto se muestra en la Figura 7, entonces tenemos una regla como "Si el ancho de pétalo es grande entonces la especie de iris es Virgínica" . El factor de certidumbre de esta proposición coincide cor. la verdad de la premisa xeÁ, esto no necesita ser especificado. De este modo, bajo la metodología FASE, pueden derivarse ob etivamente conjuntos confusos y proposiciones confusas de los datos. Cada declaración de confianza es una proposición de que confirma C, desconfirma C, o ninguna de las dos. Si el CF de una proposición es bajo, este no tendrá mucho efecto sobre la confianza combinada y puede ser despreciado. Únicamente aquellas proposiciones con un alto grado de confianza son extraídas y utilizadas como reglas del sistema experto. La regla de inferencia para combinar factores de certidumbre de las proposiciones se basa en la norma de t como se da en la ecuación (3) . Ha sido demostrado en C.L. Blake, y C.J. Merz, depósito UCI de bases de datos de aprendizaje de maquina . [http : / /www. ies . uci . edu/~mlearn/MLRepository . html] , 1998 que el modelo de CF MYCIN puede ser considerado como un caso especial del FASE, y su regla de combinación (véase E.H. Shortliffe y B.G. Buchanan, Un Modelo de Razonamiento Inexacto en Medicina, Mathematical Bioscences, Mol. 23, p . 351-379, 1975) es equivalente a la regla de producto bajo las mediciones de posibilidad. De este modo, las inferencias del MYCIN asumen inconscientemente la independencia de las proposiciones. La confianza combinada Bel (C ' Ai, A ) puede ser interpretada como "Si Ai y A2 entonces C con ciertos factores CF" . Sin embargo, muy frecuentemente no colocamos tal proposición como una regla a menos que ambos atributos sean necesarios para lograr un alto grado de confianza, por ejemplo, problemas XOR. Esto requiere la estimación de las probabilidades de unión y conversión en las medidas de posibilidad y confianza. En la descripción anterior, hemos introducido una estructura general de metologías FASE para la clasificación de patrones y descubrimiento de conocimiento. Para experimentos limitamos nuesira investigación a un modelo simple' de agregar información de atributos con una norma de t común. El premio de tal modelo es que es más rápido en cuanto al cálculo y su descubrimiento descubierto es fácil de enfatizar. Este puede funcionar bien si los atributos de clase individuales proporcionan información discriminada para la información, tal como se muestra en las Figura 5-7. En aquellas situaciones un modelo de. confianza preciso no es muy crucial. Si los problemas de clasificación dependen de las relaciones de unión de los atributos, tales como problemas XCR, este modelo no será exitoso. De manera preferible, se desearía estimar la probabilidad de unión de todos los atributos de clase, pero con el efecto combinado existe siempre una limitación. Además, si la dimensión de la estimación de probabilidad es alta, el conocimiento extraído será menos lento. Es deseable un método para utilizar la confianza con información de atributos . La Figura 8 es un diagrama de bloques de un sistema 100 el cual puede ser utilizado para llevar a cabo la FASE de acuerdo a la presente invención. El sistema 100 puede incluir una computadora, que incluye un dispositivo de entrada de usuario 102, un dispositivo de salida 104, y una memoria 106 conectada a un procesador 108. El dispositivo de salida 104 puede ser un 39 dispositivo de representación visual tal como un monitor C T o un monitor LCD, un proyector y pantalla, una impresora, o cualquier otro dispositivo que permita a un usuario observar visualmente imágenes. La memoria 106 preferiblemente almacena tanto un conjunto de instrucciones 110 como de datos 112 a ser operadas. Aquellos expertos en la técnica por supuesto apreciarán que también podrían ser utilizadas memorias separadas para almacenar las instrucciones 110 y los datos 112. La memoria 106 es preferiblemente implementada utilizando una rama estática o dinámica. Sin embargo, la memoria también puede ser implementada utilizando un disco flexible y su unidad de disco, un disco óptico escribible y su unidad de disco, una unidad de disco duro, memoria instantánea o similar. El dispositivo de entrada del usuario 102, puede ser un teclado, un dispositivo de señalización tal como un ratón, una pantalla sensible al tacto, una interconexión visual, una interconexión de audio tal como un micrófono y un convertidor de audio analógico a digital, un dispositivo de exploración, un lector de cinta, o cualquier otro dispositivo que permita a un usuario alimentar información al sistema. El procesador 108 es implementado preferiblemente en una computadora para propósitos generales programadle . Sin embargo, come será comprendido por aquellos expertos en la técnica, el procesador 108 también pueden ser implementado en una computadora para propósitos especiales, un microprocesador programable o un microcontrolador o elemento de circuitos integrados periféricos, un ASIC u otro circuito integrado, un procesador de señales digitales, un dispositivo electrónico alámbrico o circuito lógico tal como un circuito de elementos discretos, un dispositivo lógico programable tal como un PLD, PLA, FPGA o PAL, o similar. En general, puede ser utilizado cualquier dispositivo capaz de implementar los pasos mostrados en las Figuras 9-11 para implementar el procesador 108. En la modalidad preferida, el sistema para efectuar el análisis confuso de evidencia estadística es un programa de computadora instalado en una máquina distribuida, paralela analógica o red neural. Será comprendido por un experto en la técnica que el programa de computadora podrá ser instalado y e ecutado en muchos tipos diferentes de computadora, incluyendo computadoras personales, microcomputadoras y computadoras grandes, que tengan diferentes arquitecturas de procesador, tanto digitales como analógicas, incluyendo, por ejemplo, computadoras basadas en el procesador XS6, Macintosh G3 Motorola, y estaciones de trabajo basadas en arquitectura 42 competitiva de las actividades neuronales para formar hipótesis. Muchos otros principios del aprendizaje de máquina, por ejemplo los algoritmos E-M, también pueden ser interpretados por la interacción de las mediciones de probabilidad (expectativa) y posibilidad (probabilidad máxima) . Las Figuras 9-11 son diagramas de flujo que ilustran el análisis confuso de evidencia estadística para analizar información alimentada o tomada de una base de datos. El método preferido de clasificación basado en el juicio de posibilidad y confianza se ilustra en la Figura 9. El método mostrado en la Figura 9 puede ser efectuado por un sistema de computadora como un sistema de computadora 100 como se ilustra en la Figura 8, y como será fácilmente comprendido por aquellos familiarizados con la técnica también podría ser efectuado por una máquina distribuida analógica o neural. La siguiente descripción ilustrará los métodos de acuerdo a la presente invención utilizando atributos discretos. Sin embargo, como será apreciado por aquellos expertos en la técnica, los métodos de la presente invención pueden ser aplicados igualmente bien utilizando atributos continuos de atributos confusos. De manera similar, los métodos de la presente invención se aplican igualmente bien a clases continuas o confusas, aunque la presente modalidad se 43 ilustra utilizando clases discretas para propósitos de simplicidad. En el paso 200, los datos correspondientes a un caso de un punto a ser clasificado son recuperados de una base de datos 112 y transmitidos al proceso 108 para su procesamiento. Este caso particular de datos tendrá una pluralidad de datos asociados con la pluralidad de atributos. En el paso 202, los datos de atributo son procesados por cada una de las N clases posibles. Será apreciado en una máquina distribuida analógica o red neural que los datos de atributo para cada una de las clases pueden ser procesados simultáneamente, aunque en una computadora digital típica los datos de atributo pueden tener que ser procesados secuencialmente para cada una de las posibles clases. En el paso 204, los datos de atributo son agregados por cada una de las fases de acuerdo a la norma de t seleccionada, la cual es preferiblemente una de las normas de t descritas anteriormente. En el paso 206, cada uno de los valores de agregación para cada una de las clases es comparado con el valor de agregación más alto según se seleccione. En el paso 208, se calculan los mensajes de posibilidad y confianza para la clase asociada con el valor de agregación seleccionado. Los valores de posibilidad son calculados dividiendo un valor de agregación particular asociado con una clase particular por los valores de 44 agregación más altos que fueron seleccionados en el paso 206. Las mediciones de confianza calculadas sustrayendo el valor de posibilidad para la clase particular del siguiente valor de posibilidad mas alto. Debido a que la clase que corresponde al valor de agregación más alto en el paso 204 siempre verá como resultado una posibilidad de 1, la medición de confianza para la clase seleccionada se reduce a (1-a) donde a es el segundo valor de posibilidad más alto. En el paso 10, la confianza o verdad de la hipótesis de que el caso particular pertenezca a la clase seleccionada por el valor de posibilidad más alto es la salida en el dispositivo de representación visual 104. La Figura 10 ilustra un método preferido de aprendizaje supervisado de acuerdo a la presente invención. En el paso 300 los datos de aprendizaje son prescindidos de la base de datos 112. Los datos de aprendizaje incluyen una pluralidad de valores de atributo, asi como una marca de clase por cada registro. En el paso 302, se efectúa la estimación de probabilidad por cada registro de los datos de aprendizaje. En el paso 304, los datos de atributo para cada registro son pasados a la vez para probar la hipótesis de que el registro particular pertenece a cada una de las posibles clases. En el paso 306, por cada una de las clases son asignados datos de atributo utilizando una función de la norma de t seleccionada. En el paso 308, el valor agregado de los atributos en convertido en valores de posibilidad. Finalmente, en el paso 310, por cada registro procesado los pesos atribuidos a cada atributo son actualizados de acuerdo a que tanta información útil en la clasificación se obtuvo de cada atributo. Por cada registro de los datos de aprendizaje la clasificación resuelta por la máquina es comparada por la marca de clase disponible y se incrementan los pesos donde se hizo la clasificación correcta, y se hacen disminuir donde ocurrió una clasificación fallida. A este respecto, ajustando apropiadamente los pasos a ser distribuidos a cada atributo, la máquina es capaz de aprender a clasificar dates futuros los cuales no tendrán la marca de clase disponible . La Figura 11 ilustra el método preferido de descubrimiento de conocimiento que utiliza la presente invención. En el paso 400, los datos de aprendizaje son recuperados de la base de datos 112. La estimación de probabilidad es efectuada en el paso 402. En el paso 404, cada uno de los registros es probado por cada una de las clases. En el paso 406, son agregados los atributos para cada una de las clases de acuerdo a la función de la norrr.a t sel ccionada. En el paso 408 , les valores agregados son convertidos en posibilidades. En el paso 410, los valores de confianza son calculados de las posibilidades generadas en el paso 408. Finalmente, en el paso 412, son seleccionados los valores de confianza de cada una de las clases con la confianza más alta correspondiendo al conocimiento útil. De este modo, utilizando el método ilustrado en la Figura 11, pueden ser identificados los atributos más útiles. De este modo, puede reducirse la sobrecarga de cálculo de clasificaciones posterior, eliminando lo último del uso de atributos de procesamiento. La Figura 12 ilustra una red neural de acuerdo a la presente invención. La red neural comprende una pluralidad de nodos de entrada 450. Los nodos de entrada 450 están conectados a cada uno de la pluralidad de nodos de salida 452 por ccnectores 454. Cada uno de los nodos de salida 452 a su vez produce una salida 456, la cual es recibida por el nodo del factor de confianza 458. La Figura 13 ilustra una red neural Bayesiana, la cual efectúa cálculos probabilísticos , y compara estos contra una red neural probabilí stica de acuerdo a la presente invención. Ambas redes neurales tienen una pluralidad de puertas de entrada 500, así como una capa intermedia de puertos 502. La salida de una capa intermedia es calculada de manera diferente en una red 48 más se sumen a l. De este modo, la red probabilistica es al menos tan efectiva en la clasificación como lo es en la red neural Bayesiana, con el beneficio adicional de un factor de confianza, y menores costos computacionales . Aunque han sido elegidas modalidades ventajosas para ilustrar la invención, será comprendido por aquellos expertos en la técnica que pueden hacerse varios cambios y modificaciones a ella sin apartarse del alcance de la invención . Se hace constar que con relación a esta fecha, el mejor método conocido por la solicitante para llevar a la práctica la citada invención, es el que resulta claro de la presente descripción de la invención.

Claims

49 REIVINDICACIONES Habiéndose descrito la invención como antecede, se reclama como propiedad lo contenido en las siguientes reivindicaciones .

1. Un método para clasificar una cosa como miembro de una o más de una pluralidad de clases, la cosa tiene una pluralidad de atributos asociados con ella, el método se caracteriza porque comprende los pasos de: (a) para cada una de la pluralidad de clases, asignar valores de atributo basados en cada uno de los atributos, cada valor de atributo representativo de una posibilidad relativa de que la cosa sea miembro de la clase asociada sobre la base del atributo, (b) para cada una de la pluralidad de clases, agregar los valores de atributo utilizando una función de la norma de t, (c) seleccionar un valor agregado más alto, (d) determinar que la cosa pertenece a la clase asociada con el valor agregado más alto, y (e) determinar un factor de confianza basado en la magnitud relativa del valor agregado más altos y un segundo valor agregado más alto. 5C

2. El método de ' conformidad con la reivindicación 1, caracterizado porque comprende además: (f) normalizar los valores de atributo sobre la base de la información relativa proporcionada por cada atributo .

3. Un método de aprendizaje en una máquina para clasificar una cosa como miembro de una o más de una pluralidad de clases, el método se caracteriza porque comprende los pasos de: (a) proporcionar datos de aprendizaje a la máquina, los dates de aprendizaje comprenden una pluralidad de registros, cada registro tiene datos de atributo asociados con él, los datos de atributo comprenden valores asociados con una pluralidad de posibles atributos, cada registro tiene un valor de clase asociado con este, indicando la clase a la cual pertenece el registro, (b) por cada uno de los posibles atributos, normalizar los datos de arributo por cada registro sobre la base de la distribución de valores presentes para el atributo en sustancialmente todos los registros, (c) por cada uno de los registros, efectuar una operación de la norma de t sobre los datos de atributo disponibles, y generar un valor de posibilidad por cada una de las posibles clases, correspondiendo los 51 valores de posibilidad a la posibilidad relativa de que los registros pertenezcan a una de las clases particulares, (d) por cada una de la pluralidad de clases, agregar sustancialmente todos los registros que tengan un valor de clase asociado con la clase, y generar pesos por cada uno de los atributos de acuerdo al grado que corresponde a cada atributo con una determinación correcta de la clase. 4, El método de conformidad con la reivindicación 3, caracterizado porque comprende además los pasos de: (e) por cada uno de los registros, generar valores de confianza para una o más clases que tengan los valores de posibilidad más altos, el valor de confianza representa la diferencia entre el valor de posibilidad de la clase, y el siguiente valor de posibilidad más alto, y (f) generar una lista de atributos informativos de los atributos asociados con los registros para los cuales se generaron valores de confianza por encima de un valor umbral. 5. Un articulo de manufactura adaptado para ser utilizado por una computadora, caracterizado porque comprende : 52 un medio de memoria' en el cual están almacenadas instrucciones de máquina que implementan una pluralidad de funciones útiles para clasificar un articulo como un miembro de una o más de una pluralidad de clases, la cosa tiene una pluralidad de atributos asociados con ella, donde las instrucciones de la máquina son ejecutadas por una computadora, la función incluye: (a) por cada una de La pluralidad de clases, asignar valores de atributo sobre la base de cada uno de los atributos, cada valor de atribute representativo de una probabilidad relativa de que la cosa sea miembro de la clase asociada sobre la base del atributo, (b) por cada una de la pluralidad de clases, agregar los valores de atributo utilizando una función de la norma de t, (c.) seleccionar un valor de agregado más alto, (d) determinar que la cosa pertenece a la clase asociada con el valor agregado más alto, y (e) determinar el factor de confianza sobre la base de la magnitud relativa del valor agregado más altos y un segundo valor agregado más alto. 6. Un articulo de manufactura adaptado para ser utilizado por una computadora, caracterizado porque comprende : 53 un medio de memoria' en el cual están almacenadas instrucciones de máquina que implementan una pluralidad de funciones útiles para enseñar a una máquina a clasificar una cosa como miembro de una o más de una pluralidad de clases, la función incluye: (a) proporcionar datos de aprendizaje a la computadora, los datos de aprendizaje comprenden una pluralidad de registros, cada registro tiene datos de atributo asociados con este, los datos de atributo comprenden valores asociados con una pluralidad de posibles atributos, cada registro tiene además un valor de clase asociado con este, que indica la clase a la cual pertenece el registro, (b) por cada uno de los posibles atributos, normalizar los datos de atributo por cada registro sobre la base de la distribución de valores presentes para el atributo en sustancialmente todos los registros, (c) por cada uno de los registros, efectuar una operación de la norma de t sobre los datos de atributo disponibles, y generar un valor de posibilidad por cada una de las posibles clases, correspondiendo los valores de posibilidad a la posibilidad relativa de que el registro pertenezca a una ce las clases particulares, (d) por cada una de la pluralidad de clases, agregar sustancialmente todos los reqistros que tengan el 54 valor de clase asociado con la clase, y generar pesos por cada une de ios atributos de acuerdo al grado en que cada atributo corresponda a una determinación correcta de la clase. 7. El articulo de conformidad con la reivindicación 6, caracterizado porque las funciones incluyen además: (e) por cada uno de los registros, generar valores de confianza para una o más clases que tengan los valores de posibilidad más altos, representando el valor de confi re el valor de posibilidad de la clase, y el siguiente valor de posibilidad más alto (f) generar una lista de atributos informativos de los atributos asociados con registros para los cuales se generaron valores de confianza por encima de un valor umbral . 8. Un aparate adaptado para clasificar una cosa como miembro de una o más de una pluralidad de clases, la cosa tiene una pluralidad de atributos asociados con ésta, el aparato se caracteriza porque comprende: un dispositivo de salida y un dispositivo de entrada, un procesador, y una memoria que tiene instrucciones ejecutables en una máquina para efectuar una serie de funciones almacenadas en ella, y adaptada para recibir y almacenar una serie de registros ae datos, las funciones incluyen: (a) recibir en el dispositivo de entrada un registre de datos correspondiente a la cosa que se pretende clasificar, el registro de datos comprende valores de atributos correspondientes a los atributos de la cosa, (b) por cada una de la pluralidad de clases, generar un valor agregado agregando los valores de atributo utilizando una función de la norma de t, (c) seleccionar un valor agregado más alto de les valores agregados, (d) determinar una clase más posible de entre la pluralidad de clases sobre la base del valor agregado más alto, (e) determinar un factor de confianza sobre la base de la magnitud relativa del valor agregado más alto y un segundo valor agregado más alto, y (f) enviar la clase más posible y el factor de confianza al dispositivo de salida. 9. Un aparato adaptado para ser enseñado a clasificar una cosa como miembro de una o más de una pluralidad de clases, la cosa tiene una pluralidad de atributos asociados con ella, la máquina se caracteriza porque comprende: 57 (d) por cada una de la pluralidad de clases, agregar sustancíalmente todos los registros que tengan el valor de clase asociado con la clase, y generar pesos por cada uno de los atributos de acuerdo al grado en que cada atributo corresponda a una determinación correcta de la clase . 10. El aparato de conformidad con la reivindicación 9, caracterizado porque las funciones comprenden además: (e) por cada uno de los registros, generar valores de confianza para una o más clases que tengan los valores de posibilidad más altos, representando el valor de confianza entre el valor de posibilidad para la clase, y el siguiente valor de posibilidad más alto, y (f) generar una lista de atributos informativos de los atributos asociados con registros para los cuales se generaron valores de confianza por encima de un valor umbral . 11. El aparato de conformidad con la reivindicación 10, caracterizado porque las funciones comprenden además: (g) enviar los valores de confianza y la lista a través del dispositivo de salida. 12. Una red neural, caracterizada porque comprende : 58 al menos una capa de 'entrada y una capa de salida, la capa de entrada tiene una pluralidad de nodos de entrada, la capa de salida tiene una pluralidad de nodos de entrada, de modo que cada uno de los nodos de salida recibe la entrada ponderada de cada uno de los nodos de entrada representativa de la posibilidad de que el nodo de salida particular represente la salida correcta, donde los nodos de salida agregan la entrada de cada uno de los nodos de salida de acuerdo a una función de norma de t, y producen la salida representativa del resultado de la función de la norma de t. 13. Una red neural, caracterizada porque comprende : al menos una capa de entrada, una capa de salida, y al menos un nodo de factor de confianza, la capa de entrada tiene una pluralidad de nodos de entrada, la capa de salida tiene una pluralidad de nodos de salida, de modo que cada uno de los nodos de salida recibe la entrada ponderada de cada uno de los nodos de entrada representativa de que la posibilidad de que el nodo de salida particular represente la salida correcta, y el nodo de factor de confianza recibe la entrada de cada uno de los nodos de salida, 59 donde ios nodos de salida agregan la entrada de cada uno de los nodos de entrada de acuerdo a una función de la norma de t, y producen una salida representativa del resultado de la función de la norma de t, y donde el nodo del factor de confianza produce una salida representativa de la diferencia entre la salida más alta de los nodos de salida y 'la segunda salida más alta de los nodos de salida. 1

4. La red neural de conformidad con la reivindicación 13, caracterizada porque la red incluye una pluralidad de nodos de factor de confianza, recibiendo cada uno la alimentación de cada uno de los nodos de salida, y la salida de cada nodo de factor de confianza representativa de la diferencia de la salida de los n nodos de salida más altos y la siguiente salida más alta de los nodos de salida. 1

5. Una máquina de cálculo distribuida paralela universal, caracterizada porque comprende: al menos una capa de entrada y una capa de salida, la capa de entrada tiene una pluralidad de neuronas de entrada, la capa de salida tiene una pluralidad de neuronas de salida, de modo que cada una de las neuronas tiene una conexión de peso a al menos otra neurona , 60 donde la conexión de peso representa información mutua, y la información mutua es representada por una función de probabilidad de peso. 1

6. La máquina de conformidad con la reivindicación 15, caracterizada porque el valor de las conexiones de peso es determinada multiplicando las funciones de probabilidad para dos neuronas asociadas, y normalizando el resultado. 1

7. La máquina de conformidad con la reivindicación 15, caracterizada porque la máquina es una máquina distribuida, paralela, analógica. 1

8. La máquina de conformidad con la reivindicación 15, caracterizada porque la máquina es una máquina distribuida, paralela digital. 1

9. La máquina de conformidad con la reivindicación 15, caracterizada porque la máquina es una máquina distribuida paralela digital y analógica híbrida. 20. Un método para enseñar a una red neural que comprende una capa de entrada que tiene una pluralidad de neuronas de entrada y una capa de salida que tiene una pluralidad de neuronas de salida, cada una de las neuronas tiene una conexión de peso a al menos otra neurona, el método se caracteriza porque comprende los pasos de: 61 (a) proporcionar datos' de aprenaizaje a la máquina, los datos de aprendizaje comprenden una pluralidad de registros, cada registro tiene al menos una neurona asociada con él, de modo que el registro hace que la neurona asociada active una señal para las neuronas conectadas , (b) actualizar los pesos de las conexiones de peso utilizando una regla de probabilidad, la regla basada en la probabilidad de que cada neurona conectada se active y que ambas neuronas se activen juntas, (c) agregar las señales en cada neurona conectada con una operación de la conorma de t, (d) evaluar el desempeño de la máquina, y (e) repetir los pasos (a) -(d) .