PE20161166A1 - Metodo de caracterizacion de documento - Google Patents
Metodo de caracterizacion de documentoInfo
- Publication number
- PE20161166A1 PE20161166A1 PE2016001498A PE2016001498A PE20161166A1 PE 20161166 A1 PE20161166 A1 PE 20161166A1 PE 2016001498 A PE2016001498 A PE 2016001498A PE 2016001498 A PE2016001498 A PE 2016001498A PE 20161166 A1 PE20161166 A1 PE 20161166A1
- Authority
- PE
- Peru
- Prior art keywords
- document
- class
- multiclass
- text
- contents
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Creation or modification of classes or clusters
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/12—Computing arrangements based on biological models using genetic models
- G06N3/126—Evolutionary algorithms, e.g. genetic algorithms or genetic programming
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Entrepreneurship & Innovation (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Business, Economics & Management (AREA)
- Economics (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Marketing (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Tourism & Hospitality (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Character Discrimination (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
La presente invencion describe un metodo de caracterizacion automatica de documento, el cual recibe un documento dado de entrada y sin estructurar y da como resultado la asignacion automatica de una o mas clases o categorias de documentos, con los cuales se relacionan los contenidos; la determinacion automatica de una lista de nombres de personas naturales o juridicas encontradas en el texto, la determinacion automatica de otra informacion relevante en el texto y la fecha de emision del documento, que se relaciona con la clase o multiclase del documento. Este metodo es mas rapido, mas completo y mas preciso que la caracterizacion manual o la descripcion manual realizada por personal tecnico legal. El metodo comprende los siguientes pasos o etapas: al recibir un documento digital, de un usuario conectado a una aplicacion Web, desde su propio computador, procesar dicho documento con una aplicacion de Reconocimiento Optico de Caracteres (OCR, por su sigla en ingles); ejecutar un proceso de caracterizacion automatica de documento dentro de la aplicacion y procesar el texto del documento recibido desde el usuario (sobre la base de reglas), asignar una clase o multiclase; reconocer nombres de personas y organizaciones en los contenidos del documento y en conformidad con el texto; reconocer y extraer informacion relevante en funcion de la definicion hecha de clase o multiclase y el conjunto de reglas definidas para esa clase o multiclase; reconocer fechas Relevantes en el documento y asignar un puntuacion a cada una de ellas segun la clase previamente definida, utilizar las reglas establecidas de la misma clase o multiclase; y revisar los contenidos del documento, reconociendo diferentes patrones de texto, tal como una combinacion de palabras claves, sinonimos o terminos equivalentes, dentro de los mismos contenidos del documento, a traves de medios de deteccion.
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US201461941002P | 2014-02-18 | 2014-02-18 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| PE20161166A1 true PE20161166A1 (es) | 2016-10-26 |
Family
ID=53877689
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| PE2016001498A PE20161166A1 (es) | 2014-02-18 | 2015-02-18 | Metodo de caracterizacion de documento |
Country Status (3)
| Country | Link |
|---|---|
| CL (1) | CL2016002090A1 (es) |
| PE (1) | PE20161166A1 (es) |
| WO (1) | WO2015125088A1 (es) |
Families Citing this family (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US11017221B2 (en) | 2018-07-01 | 2021-05-25 | International Business Machines Corporation | Classifying digital documents in multi-document transactions based on embedded dates |
| US11003889B2 (en) | 2018-10-22 | 2021-05-11 | International Business Machines Corporation | Classifying digital documents in multi-document transactions based on signatory role analysis |
Family Cites Families (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US6957384B2 (en) * | 2000-12-27 | 2005-10-18 | Tractmanager, Llc | Document management system |
| US7284191B2 (en) * | 2001-08-13 | 2007-10-16 | Xerox Corporation | Meta-document management system with document identifiers |
| JP2007233913A (ja) * | 2006-03-03 | 2007-09-13 | Fuji Xerox Co Ltd | 画像処理装置及びプログラム |
| US8520979B2 (en) * | 2008-08-19 | 2013-08-27 | Digimarc Corporation | Methods and systems for content processing |
-
2015
- 2015-02-18 WO PCT/IB2015/051239 patent/WO2015125088A1/en not_active Ceased
- 2015-02-18 PE PE2016001498A patent/PE20161166A1/es not_active Application Discontinuation
-
2016
- 2016-08-18 CL CL2016002090A patent/CL2016002090A1/es unknown
Also Published As
| Publication number | Publication date |
|---|---|
| CL2016002090A1 (es) | 2016-12-30 |
| WO2015125088A1 (en) | 2015-08-27 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Luke et al. | Limits on lexical prediction during reading | |
| CL2019003535A1 (es) | Sistema y método para emitir un préstamo a un consumidor que se ha determinado con solvencia crediticia. | |
| DOP2019000065A (es) | Dispositivo de entrada de caracteres multilingüe | |
| MX367096B (es) | Discriminacion de expresiones ambiguas para mejorar la experiencia del usuario. | |
| MX2019001112A (es) | Sistema y metodo para la implementacion de contenedores que extraen y aplican conocimiento de pagina de semantica. | |
| ECSP18067575A (es) | Sistema y método para la verificación de la autenticidad de la información de documentos | |
| BR112018003372A2 (pt) | método para fornecer recomendações de barbeamento em estágios, programa de computador executável em uma unidade de processamento, sistema de cuidados pessoais, e aparelho de barbeamento | |
| CO2017011036A2 (es) | Proceso y sistema para generar documentos de arquitectura funcional y documentos de especificación de análisis y de diseño de software de manera automática | |
| BR112017003650A2 (pt) | desambiguação de entrada de teclado | |
| CO2019005833A2 (es) | Sistemas y métodos para realizar autentificación del usuario a base de huellas dactilares usando imágenes capturadas usando dispositivos móviles | |
| GB2542288A (en) | Enhancing reading accuracy, efficiency and retention | |
| Gomaa et al. | Automatic scoring for answers to Arabic test questions | |
| MX2016009297A (es) | Plantillas de busqueda por el cliente para redes sociales en linea. | |
| CO2017007037A2 (es) | Métodos para el entendimiento de consulta de lenguaje natural incompleta | |
| PE20201181A1 (es) | Procedimiento para identificar un objeto dentro de una imagen y dispositivo movil para ejecutar el procedimiento | |
| BR112017019015A2 (pt) | sistema que facilita o uso de palavras-chave inseridas pelo usuário para buscar conceitos clínicos relacionados, e método para facilitar o uso de palavras-chave inseridas pelo usuário para buscar conceitos clínicos relacionados | |
| MX2022001419A (es) | Clusterización de segmentos emparejados para determinar el enlace del conjunto de datos en una base de datos. | |
| BR112016017972A8 (pt) | Método para modificação de fluxo de comunicação | |
| MX2018000863A (es) | Sistema y metodo para validar la autoria de una sesion de firma electronica. | |
| AR093815A1 (es) | Metodo y dispositivos para conversion de libro plano a libro enriquecido en lectores electronicos | |
| AR113680A1 (es) | Sistemas y métodos para identificar usuarios en base a los datos de voz y datos de consumo de medios | |
| Araque et al. | Aspect Based Sentiment Analysis of Spanish Tweets. | |
| JP2015153013A5 (es) | ||
| BR112019000188A2 (pt) | método implementado por computador, meio não transitório, legível por computador e sistema implementado por computador | |
| PE20161166A1 (es) | Metodo de caracterizacion de documento |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| FD | Application declared void or lapsed |