[go: up one dir, main page]

PE20161166A1 - Metodo de caracterizacion de documento - Google Patents

Metodo de caracterizacion de documento

Info

Publication number
PE20161166A1
PE20161166A1 PE2016001498A PE2016001498A PE20161166A1 PE 20161166 A1 PE20161166 A1 PE 20161166A1 PE 2016001498 A PE2016001498 A PE 2016001498A PE 2016001498 A PE2016001498 A PE 2016001498A PE 20161166 A1 PE20161166 A1 PE 20161166A1
Authority
PE
Peru
Prior art keywords
document
class
multiclass
text
contents
Prior art date
Application number
PE2016001498A
Other languages
English (en)
Inventor
Hargous Juan Ignacio Saa
Marin Jose Manuel Jimenez
Urrich Rodrigo Andres Sandoval
Original Assignee
Servicios Digitales Webdox Spa
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=53877689&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=PE20161166(A1) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Servicios Digitales Webdox Spa filed Critical Servicios Digitales Webdox Spa
Publication of PE20161166A1 publication Critical patent/PE20161166A1/es

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Creation or modification of classes or clusters
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Marketing (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Tourism & Hospitality (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Character Discrimination (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

La presente invencion describe un metodo de caracterizacion automatica de documento, el cual recibe un documento dado de entrada y sin estructurar y da como resultado la asignacion automatica de una o mas clases o categorias de documentos, con los cuales se relacionan los contenidos; la determinacion automatica de una lista de nombres de personas naturales o juridicas encontradas en el texto, la determinacion automatica de otra informacion relevante en el texto y la fecha de emision del documento, que se relaciona con la clase o multiclase del documento. Este metodo es mas rapido, mas completo y mas preciso que la caracterizacion manual o la descripcion manual realizada por personal tecnico legal. El metodo comprende los siguientes pasos o etapas: al recibir un documento digital, de un usuario conectado a una aplicacion Web, desde su propio computador, procesar dicho documento con una aplicacion de Reconocimiento Optico de Caracteres (OCR, por su sigla en ingles); ejecutar un proceso de caracterizacion automatica de documento dentro de la aplicacion y procesar el texto del documento recibido desde el usuario (sobre la base de reglas), asignar una clase o multiclase; reconocer nombres de personas y organizaciones en los contenidos del documento y en conformidad con el texto; reconocer y extraer informacion relevante en funcion de la definicion hecha de clase o multiclase y el conjunto de reglas definidas para esa clase o multiclase; reconocer fechas Relevantes en el documento y asignar un puntuacion a cada una de ellas segun la clase previamente definida, utilizar las reglas establecidas de la misma clase o multiclase; y revisar los contenidos del documento, reconociendo diferentes patrones de texto, tal como una combinacion de palabras claves, sinonimos o terminos equivalentes, dentro de los mismos contenidos del documento, a traves de medios de deteccion.
PE2016001498A 2014-02-18 2015-02-18 Metodo de caracterizacion de documento PE20161166A1 (es)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US201461941002P 2014-02-18 2014-02-18

Publications (1)

Publication Number Publication Date
PE20161166A1 true PE20161166A1 (es) 2016-10-26

Family

ID=53877689

Family Applications (1)

Application Number Title Priority Date Filing Date
PE2016001498A PE20161166A1 (es) 2014-02-18 2015-02-18 Metodo de caracterizacion de documento

Country Status (3)

Country Link
CL (1) CL2016002090A1 (es)
PE (1) PE20161166A1 (es)
WO (1) WO2015125088A1 (es)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11017221B2 (en) 2018-07-01 2021-05-25 International Business Machines Corporation Classifying digital documents in multi-document transactions based on embedded dates
US11003889B2 (en) 2018-10-22 2021-05-11 International Business Machines Corporation Classifying digital documents in multi-document transactions based on signatory role analysis

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6957384B2 (en) * 2000-12-27 2005-10-18 Tractmanager, Llc Document management system
US7284191B2 (en) * 2001-08-13 2007-10-16 Xerox Corporation Meta-document management system with document identifiers
JP2007233913A (ja) * 2006-03-03 2007-09-13 Fuji Xerox Co Ltd 画像処理装置及びプログラム
US8520979B2 (en) * 2008-08-19 2013-08-27 Digimarc Corporation Methods and systems for content processing

Also Published As

Publication number Publication date
CL2016002090A1 (es) 2016-12-30
WO2015125088A1 (en) 2015-08-27

Similar Documents

Publication Publication Date Title
Luke et al. Limits on lexical prediction during reading
CL2019003535A1 (es) Sistema y método para emitir un préstamo a un consumidor que se ha determinado con solvencia crediticia.
DOP2019000065A (es) Dispositivo de entrada de caracteres multilingüe
MX367096B (es) Discriminacion de expresiones ambiguas para mejorar la experiencia del usuario.
MX2019001112A (es) Sistema y metodo para la implementacion de contenedores que extraen y aplican conocimiento de pagina de semantica.
ECSP18067575A (es) Sistema y método para la verificación de la autenticidad de la información de documentos
BR112018003372A2 (pt) método para fornecer recomendações de barbeamento em estágios, programa de computador executável em uma unidade de processamento, sistema de cuidados pessoais, e aparelho de barbeamento
CO2017011036A2 (es) Proceso y sistema para generar documentos de arquitectura funcional y documentos de especificación de análisis y de diseño de software de manera automática
BR112017003650A2 (pt) desambiguação de entrada de teclado
CO2019005833A2 (es) Sistemas y métodos para realizar autentificación del usuario a base de huellas dactilares usando imágenes capturadas usando dispositivos móviles
GB2542288A (en) Enhancing reading accuracy, efficiency and retention
Gomaa et al. Automatic scoring for answers to Arabic test questions
MX2016009297A (es) Plantillas de busqueda por el cliente para redes sociales en linea.
CO2017007037A2 (es) Métodos para el entendimiento de consulta de lenguaje natural incompleta
PE20201181A1 (es) Procedimiento para identificar un objeto dentro de una imagen y dispositivo movil para ejecutar el procedimiento
BR112017019015A2 (pt) sistema que facilita o uso de palavras-chave inseridas pelo usuário para buscar conceitos clínicos relacionados, e método para facilitar o uso de palavras-chave inseridas pelo usuário para buscar conceitos clínicos relacionados
MX2022001419A (es) Clusterización de segmentos emparejados para determinar el enlace del conjunto de datos en una base de datos.
BR112016017972A8 (pt) Método para modificação de fluxo de comunicação
MX2018000863A (es) Sistema y metodo para validar la autoria de una sesion de firma electronica.
AR093815A1 (es) Metodo y dispositivos para conversion de libro plano a libro enriquecido en lectores electronicos
AR113680A1 (es) Sistemas y métodos para identificar usuarios en base a los datos de voz y datos de consumo de medios
Araque et al. Aspect Based Sentiment Analysis of Spanish Tweets.
JP2015153013A5 (es)
BR112019000188A2 (pt) método implementado por computador, meio não transitório, legível por computador e sistema implementado por computador
PE20161166A1 (es) Metodo de caracterizacion de documento

Legal Events

Date Code Title Description
FD Application declared void or lapsed