RU2253893C2 - Method for automated lexicological documents synthesis - Google Patents
Method for automated lexicological documents synthesis Download PDFInfo
- Publication number
- RU2253893C2 RU2253893C2 RU2003123844/09A RU2003123844A RU2253893C2 RU 2253893 C2 RU2253893 C2 RU 2253893C2 RU 2003123844/09 A RU2003123844/09 A RU 2003123844/09A RU 2003123844 A RU2003123844 A RU 2003123844A RU 2253893 C2 RU2253893 C2 RU 2253893C2
- Authority
- RU
- Russia
- Prior art keywords
- document
- information
- variable
- lexicological
- unified
- Prior art date
Links
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 27
- 238000000034 method Methods 0.000 title claims abstract description 23
- 238000003786 synthesis reaction Methods 0.000 title claims abstract description 9
- 239000000203 mixture Substances 0.000 claims description 23
- 239000012634 fragment Substances 0.000 claims description 19
- 238000009472 formulation Methods 0.000 claims description 17
- 238000004321 preservation Methods 0.000 claims description 2
- 229910052702 rhenium Inorganic materials 0.000 claims 1
- WUAPFZMCVAUBPE-UHFFFAOYSA-N rhenium atom Chemical compound [Re] WUAPFZMCVAUBPE-UHFFFAOYSA-N 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 2
- 239000000126 substance Substances 0.000 abstract 1
- 238000002575 gastroscopy Methods 0.000 description 4
- 238000010276 construction Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000001225 therapeutic effect Effects 0.000 description 3
- 241000234282 Allium Species 0.000 description 2
- 235000002732 Allium cepa var. cepa Nutrition 0.000 description 2
- 208000037062 Polyps Diseases 0.000 description 2
- 208000025865 Ulcer Diseases 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 210000003238 esophagus Anatomy 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 239000000523 sample Substances 0.000 description 2
- 210000002784 stomach Anatomy 0.000 description 2
- 231100000397 ulcer Toxicity 0.000 description 2
- 206010039509 Scab Diseases 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000003872 anastomosis Effects 0.000 description 1
- 230000000740 bleeding effect Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 208000000718 duodenal ulcer Diseases 0.000 description 1
- 238000009297 electrocoagulation Methods 0.000 description 1
- 230000003628 erosive effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 210000001035 gastrointestinal tract Anatomy 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 210000000936 intestine Anatomy 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Landscapes
- Document Processing Apparatus (AREA)
Abstract
Description
Изобретение относится к способам автоматизированного синтеза (формирования, создания) текстовых документов.The invention relates to methods for automated synthesis (formation, creation) of text documents.
Документ представляет собой сложную информационную совокупность, характеризующуюся множеством различных параметров (состав реквизитов, их содержание, формат, тип носителя, правила расположения информации по полю документа и т.д.), каждый из которых может быть принят за объект унификации. Несмотря на огромное число разнотипных документов с множеством параметров, в каждом из них различают форму и содержание. Полноценный процесс унификации документа предполагает наличие двух составляющих: унификацию формы и унификацию содержания документа.A document is a complex information set, characterized by many different parameters (composition of details, their contents, format, type of medium, rules for the location of information on the document field, etc.), each of which can be taken as an object of unification. Despite the huge number of different types of documents with many parameters, each of them distinguishes between form and content. The full-fledged process of document unification presupposes the presence of two components: unification of the form and unification of the content of the document.
Известен способ формирования текстовых документов [Е.К.Губская, О.П.Дорофеева. Стенография. Компьютерная машинопись. Делопроизводство. - РнД, 2001] вводом информации с клавиатуры путем прямого набора текста. В этом случае трудозатраты на формирование документов оказываются весьма существенными. Кроме того, набору текста часто сопутствует появление орфографических и синтаксических ошибок, вызванных, например, техническими погрешностями или недостаточно высоким уровнем грамотности исполнителя документа.A known method of forming text documents [E.K. Gubskaya, O.P. Dorofeeva. Shorthand. Computer typescript. Paperwork. - RND, 2001] by entering information from the keyboard by direct typing. In this case, labor costs for the formation of documents are very significant. In addition, the typing is often accompanied by the appearance of spelling and syntactic errors caused, for example, by technical errors or insufficiently high literacy level of the document executor.
Известен типизационный способ формирования текстовых документов [ГОСТ 6.15.1-75 ″Унифицированные системы документации. Система организационно-распорядительной документации. Общие положения″] путем создания сборников типовых текстов, на основе которых формируется текст конкретного документа.Known typification method of forming text documents [GOST 6.15.1-75 ″ Unified documentation systems. The system of organizational and administrative documentation. General Provisions ″] by creating collections of typical texts, on the basis of which the text of a specific document is formed.
Наиболее близким к предлагаемому является способ формирования текстовых документов путем унификации (трафаретизации) форм и текстов документов [Л.А.Ковш и др. Унификация текстов управленческих документов: Методические рекомендации. - Москва, ВНИИДАД, 1998], в котором выделяют постоянную и переменную информацию. При этом постоянная информация является общей темой, известной автору и адресату, и вносится в бланк документа при его изготовлении, а переменная информация конкретизирует тему, обозначенную постоянной частью текста, и вносится в бланк в процессе составления конкретного документа.Closest to the proposed one is a method of forming text documents by unifying (stencilizing) the forms and texts of documents [L.A. Kovsh et al. Unification of texts of management documents: Methodological recommendations. - Moscow, VNIIDAD, 1998], in which constant and variable information is distinguished. In this case, constant information is a common topic known to the author and addressee, and is entered in the form of the document at its production, and variable information specifies the topic indicated by the constant part of the text, and is entered into the form in the process of compiling a specific document.
Недостатком известного способа также являются достаточно большие трудозатраты, необходимые для формирования текстовых документов, и большая вероятность появления в них ошибок.The disadvantage of this method is also the relatively large labor required for the formation of text documents, and a high probability of errors in them.
Задачей предлагаемого изобретения является снижение вероятности появления ошибок и сокращение трудозатрат, необходимых для формирования текстовых документов.The task of the invention is to reduce the likelihood of errors and reduce the labor required for the formation of text documents.
Поставленная задача решается тем, что в предлагаемом способе автоматизированного лексикологического синтеза (создания, формирования) документов, включающем создание и сохранение унифицированной формы документа, классификацию содержания документа путем выделения унифицированной постоянной информации и переменной информации, сохранения постоянной информации в базах данных, внесения постоянной информации в унифицированную форму документа и введения переменной информации в документ, в переменной информации выделяют переменную унифицированную информацию, связанную с устойчивыми формулировками, переменную вводимую информацию, представляющую собой конкретизирующие сведения, и переменную неунифицированную информацию, содержащую свободные формулировки, причем переменную унифицированную информацию выделяют путем формирования совокупности опорных слов, однозначно определяющих конкретные формулировки в документе и составляющих лексикологический скелет документа, и сохраняют в виде базы данных с избытком по отношению к отдельно взятому экземпляру документа, формируют лексикологическое дерево документа путем определения взаимозависимости отдельных опорных слов и затем формируют информационный контур управления документом путем установления способа внедрения формулировок переменной унифицированной и неунифицированной информации в зависимости от характера связи опорного слова с фрагментом документа, после чего, при автоматизированном формировании документа, последовательно проходя по установленным ветвям лексикологического дерева документа, выбирают необходимые опорные слова для внедрения нужных формулировок в формируемый документ.The problem is solved in that in the proposed method of automated lexicological synthesis (creation, formation) of documents, including the creation and preservation of a unified form of a document, classification of the content of a document by highlighting unified constant information and variable information, storing constant information in databases, entering permanent information into unified form of the document and the introduction of variable information into the document, the variable unif is allocated in the variable information cited information related to stable formulations, variable input information representing concretizing information, and variable non-standardized information containing free formulations, and variable standardized information is distinguished by forming a set of support words that uniquely identify specific formulations in the document and constitute the lexicological skeleton of the document, and save in the form of a database in excess in relation to a single copy of the document, forms the lexicological tree of the document is determined by determining the interdependence of the individual supporting words and then the document management information loop is formed by establishing a method for introducing the formulations of the variable of unified and unified information depending on the nature of the relationship between the supporting word and the document fragment, after which, when the document is generated automatically, sequentially following established branches of the lexicological tree of the document, select the necessary support words for implementation of the necessary wording in the generated document.
Поставленная задача решается также тем, что переменную неунифицированную информацию вводят в документ прямым набором с клавиатуры.The problem is also solved by the fact that variable non-standardized information is entered into the document by direct typing from the keyboard.
Поставленная задача решается также тем, что информационный контур управления документом формируют с помощью специальной программы.The task is also solved by the fact that the information contour of document management is formed using a special program.
Сущность изобретения поясняется фиг.1-6.The invention is illustrated figure 1-6.
На фиг.1 - блок-схема последовательности операций, иллюстрирующая подготовку документа к автоматизированному лексикологическому синтезу в соответствии с изобретением;Figure 1 is a flowchart illustrating the preparation of a document for automated lexicological synthesis in accordance with the invention;
фиг.2 - блок-схема последовательности операций, иллюстрирующая собственно процесс автоматизированного лексикологического синтеза (формирования) документа в соответствии с изобретением;figure 2 is a flowchart illustrating the actual process of automated lexicological synthesis (formation) of a document in accordance with the invention;
фиг.3 - схема моделей формирования документа;figure 3 is a diagram of a model for forming a document;
фиг.4 - пример лексикологического дерева документа;4 is an example of a lexicological tree of a document;
фиг.5 - пример информационного контура управления документом;5 is an example of a document management information loop;
фиг.6 - пример процедуры автоматизированного формирования документа.6 is an example of a procedure for automated document generation.
Предлагаемый способ осуществляют следующим образом.The proposed method is as follows.
В соответствии с решаемыми в данной сфере деятельности задачами устанавливают совокупность реквизитов, расположенных в определенной последовательности, и определяют местоположение в документе каждого элемента информации. Это позволяет разработать формуляры документов или формуляры-образцы (унифицировать форму документа). Таким образом, определяют модель построения документа, устанавливают основной набор реквизитов официального письменного документа, размеры полей, требования к формату документа. Определяют зоны унифицированной формы документа, предназначенные для закрепления ее в технических средствах хранения документов, а также для нанесения специальных изображений. Определяют набор реквизитов, необходимых и достаточных для идентификации автора официального документа, которые в дальнейшем в целях экономии времени постоянно вносятся в бланк документа программными средствами. В бланк входит, как правило, та информация, которая постоянно присутствует в служебном документе: наименование автора документа, вид документа, дата создания, регистрационный номер, место составления или издания. После проведения унификации формы документа производят ее сохранение предпочтительно в базе данных компьютера, содержащей все унифицированные формы документов, подлежащих автоматизированному формированию.In accordance with the tasks to be solved in this field of activity, a set of details is established, located in a certain sequence, and the location in the document of each element of information is determined. This allows you to develop document forms or sample forms (to unify the form of the document). Thus, they determine the model for constructing the document, establish the basic set of details of the official written document, the size of the fields, the requirements for the format of the document. The zones of the unified form of the document are determined, intended for fixing it in the technical means of storing documents, as well as for applying special images. A set of details is determined that are necessary and sufficient to identify the author of the official document, which in the future, in order to save time, is constantly entered into the document form by software. The form usually includes the information that is constantly present in the official document: name of the author of the document, type of document, date of creation, registration number, place of compilation or publication. After the unification of the document forms, it is preferably stored in a computer database containing all the unified forms of documents subject to automated generation.
Классификацию содержания документа производят на основе результатов унификации содержания документа. Унификацию содержания документов проводят по трем направлениям: составу информации, структуре текста, языковым средствам представления информации.The classification of the content of the document is based on the results of the unification of the content of the document. The unification of the content of documents is carried out in three areas: the composition of the information, the structure of the text, language means of presenting information.
Унификация состава текста документа состоит в установлении необходимой и достаточной информации для решения конкретной проблемы, то есть устанавливается минимальный перечень показателей, которые должны быть включены в документ для того, чтобы этот документ мог участвовать в реализации задачи.The unification of the text of the document consists in establishing the necessary and sufficient information to solve a specific problem, that is, the minimum list of indicators that must be included in the document is established so that this document can participate in the implementation of the task.
При унификации устанавливают дублирующие и неиспользуемые показатели, вносят отсутствующие ранее показатели, упрощают состав показателей на основе установления состава информации в целом по задаче. Унификацию текста по составу информации сопровождают компрессией (сжатием, сокращением при сохранении основного смыслового значения). На семантическом уровне она заключается в опущении менее существенной части информации, а также в выделении из текста документа информации в виде реквизитов, характеризующих его в пространстве и во времени, подтверждающих его юридическую силу.During unification, duplicate and unused indicators are established, previously absent indicators are introduced, the composition of indicators is simplified based on the establishment of information in general for the task. The unification of the text by the composition of information is accompanied by compression (compression, reduction while maintaining the main semantic meaning). At the semantic level, it consists in omitting a less significant part of information, as well as in extracting information from the text of a document in the form of details characterizing it in space and in time, confirming its legal force.
Текстовая часть реквизитов, показатели в документе располагаются с учетом логической последовательности их заполнения, обработки, считывания, перенесения информации на машинный носитель, с рациональным использованием площадей поля документа. Таким образом, унификация состава информации решает вопросы синтезирования, сжатия, достижения оптимальной полноты, а также отсутствия дублирования и избыточности информации в содержании документа.The text part of the details, the indicators in the document are arranged taking into account the logical sequence of their filling, processing, reading, transferring information to computer media, with the rational use of the document field areas. Thus, the unification of the composition of information solves the issues of synthesizing, compressing, achieving optimal completeness, as well as the lack of duplication and redundancy of information in the content of the document.
Таким образом, унификация содержания текста документа является источником определения оптимального объема информации, необходимого для формирования документа. Унификацию структуры текстов проводят в целях выбора расположения смысловых компонентов текста, наиболее отвечающей назначению документа. Объектом анализа на этой стадии являются возможные формулировки, совокупность которых, собранная в определенной последовательности, образует текст документа. Для этого проводят анализ различных текстов документа одного вида. В результате анализа и обобщения установленных закономерностей в структуре построения текста документа, его содержательной части делают вывод о необходимости и возможности применения единых, общих или типовых формулировок, присутствующих в документах подобного вида и связанных с определенной управленческой ситуацией.Thus, the unification of the content of the text of the document is a source of determining the optimal amount of information necessary for the formation of the document. The unification of the structure of the texts is carried out in order to select the location of the semantic components of the text that is most suitable for the purpose of the document. The object of analysis at this stage are possible formulations, the totality of which, assembled in a certain sequence, forms the text of the document. For this, an analysis of various texts of a document of the same type is carried out. As a result of the analysis and generalization of the established patterns in the structure of the construction of the text of the document, its substantive part, they conclude that it is necessary and possible to use uniform, general or standard formulations that are present in documents of this kind and related to a specific management situation.
Далее проводят классификацию информации, которая впоследствии будет использоваться при автоматизированном формировании документа. Анализ информации, используемой при формировании документа, позволяет объединить используемые сведения в информационные потоки различной структуры. Подобная классификация позволяет подготовить необходимую информационную базу, состоящую из потоков информации, каждый из которых несет определенную функциональную нагрузку. Кроме того, при классификации информации должна учитываться возможность минимизации ручного ввода информации с клавиатуры.Next, a classification of information is carried out, which will subsequently be used in the automated generation of the document. Analysis of the information used in the formation of the document allows you to combine the information used in the information flows of various structures. Such a classification allows you to prepare the necessary information base, consisting of information flows, each of which carries a certain functional load. In addition, the classification of information should take into account the possibility of minimizing manual input of information from the keyboard.
Классификацию содержания документа проводят, выделяя при этом из текста документа следующие типы информации:The classification of the content of the document is carried out, highlighting the following types of information from the text of the document:
- постоянную унифицированную информацию, содержащую редко изменяемые формулировки, которые позже будут внедряться в текст документа автоматически (компьютерной системой);- constant unified information containing rarely changed wording, which will later be automatically incorporated into the text of the document (computer system);
- переменную унифицированную информацию, связанную с устойчивыми формулировками, которые позже будут привязываться к опорным словам;- variable unified information related to stable formulations that will later be tied to supporting words;
- переменную вводимую информацию, представляющую конкретизирующие сведения (например, табличные данные, отдельные фамилии);- variable input information representing specific information (for example, tabular data, individual surnames);
- переменную неунифицированную информацию, содержащую свободные формулировки.- variable non-standardized information containing free language.
В случае затруднения при определении полного набора формулировок текстовых фрагментов целесообразно обеспечение возможности ввода свободных формулировок прямым набором текста. В качестве свободных формулировок, однозначно связанных с каждым опорным словом, используют слова, или словосочетания, или фразы, или текстовые фрагменты.In case of difficulty in determining the complete set of wording of text fragments, it is advisable to provide the ability to enter free wording by direct typing. As free formulations, uniquely associated with each key word, use words, or phrases, or phrases, or text fragments.
Постоянную и переменную унифицированную информацию сохраняют в устройстве массовой памяти.Constant and variable unified information is stored in a mass storage device.
В заранее унифицированных текстах документов переменная информация может принадлежать предопределенному множеству вариантов, которое предварительно, путем экспертной оценки, собирают воедино, группируя документы по смысловому признаку.In pre-standardized texts of documents, variable information may belong to a predetermined set of options, which are preliminarily, by expert evaluation, assembled together, grouping documents by meaning.
В ходе унификации документов по содержанию формируют набор (по возможности - полный, т.е. предусматривающий все возможные варианты) формулировок, которые могут присутствовать в различных вариантах документов конкретного вида. При этом необходимо учитывать разнообразие информации, которая может содержаться в каждом отдельном формируемом документе. Следовательно, по отношению к отдельно взятому документу сформированный набор формулировок, относящийся к унифицированной переменной информации, может быть и должен быть избыточным, то есть содержать даже большее количество фрагментов текста, чем это необходимо при составлении отдельно взятого единичного экземпляра документа. Сформированный набор формулировок сохраняют в упорядоченном виде индексированной совокупности элементов (например, в виде базы данных или массива) в компьютере.During the unification of documents according to the content, a set is formed (if possible - complete, that is, providing for all possible options) of wording that may be present in various versions of documents of a particular type. In this case, it is necessary to take into account the variety of information that may be contained in each individual document being generated. Therefore, in relation to a single document, the generated set of formulations related to a unified variable of information can and should be redundant, that is, contain even more fragments of text than is necessary when compiling a single single copy of the document. The generated set of formulations is stored in an ordered form of an indexed collection of elements (for example, in the form of a database or an array) in a computer.
Каждой формулировке ставится в соответствие основное слово, выбор которого однозначно определяет наличие конкретной формулировки в документе. Такие слова называются опорными и из них составляют лексикологический скелет формируемого документа. Взаимная зависимость опорных слов в совокупности определяет последовательность обхода маршрута формирования документа. На основе анализа структуры документа выявляются основные разделы, которые должны или могут присутствовать в документе. Условные наименования таких разделов составляют основу синтезируемой совокупности опорных слов. В рамках каждого зафиксированного раздела документа выявляют составные элементы, которые должны или могут входить в состав раздела (слово, фраза, текстовый фрагмент). Для каждого подобного составного элемента определяют опорное слово (или их совокупность), выбор которого в последующем однозначно будет определять внедрение в документ соответствующего компонента. Если фрагмент текста документа содержит значительное количество строк и всегда присутствует в документе в строго определенной последовательности построения предложений, то данный фрагмент текста определяется одним опорным словом. Однако в случаях, когда текст документа формируется из предложений, не фиксированных в строго определенной последовательности, и в каждом заново создаваемом документе наблюдаются вариации построения текста, опорных слов будет столько, сколько необходимо для однозначного определения каждого конкретного предложения или словосочетания.Each wording is associated with a main word, the choice of which uniquely determines the presence of a particular wording in the document. Such words are called supporting and of them make up the lexicological skeleton of the document being formed. The interdependence of support words in the aggregate determines the sequence of bypassing the document formation route. Based on the analysis of the structure of the document, the main sections that should or may be present in the document are identified. Conditional names of such sections form the basis of the synthesized set of support words. Within each recorded section of the document, the constituent elements that should or may be part of the section (word, phrase, text fragment) are identified. For each such composite element, a reference word (or their combination) is determined, the choice of which in the future will uniquely determine the implementation of the corresponding component in the document. If a fragment of the text of a document contains a significant number of lines and is always present in a document in a strictly defined sequence of constructing sentences, then this fragment of text is determined by one key word. However, in cases where the text of the document is formed from sentences that are not fixed in a strictly defined sequence, and in each newly created document there are variations in the construction of the text, there will be as many support words as necessary to uniquely identify each specific sentence or phrase.
Полный перечень опорных слов с учетом их взаимосвязей образует лексикологическое дерево документа, ″прохождение″ по ветвям которого обеспечит выбор формулировок, используемых в документе. При этом выбор тех или иных опорных слов будет означать необходимость внедрения в документ совершенно конкретных вариантов текстовых фрагментов. Фактически, текст документа формируют путем выбора необходимых заготовок из числа сохраненных формулировок. Структура лексикологического дерева сходна с композицией текста документа. Степень ветвления лексикологического дерева зависит от объема множества вариаций текста документа, определяемых его сложностью и различием документируемых ситуаций. В качестве опорного слова могут выступать различные части речи, определяющие сущность предписываемого действия. При генерации лексикологического дерева следует соблюдать критерии управления лексическими конструкциями. Опорное слово должно быть уникальным для конкретной конструкции, а при необходимости - уточняться другими опорными словами, иначе выбор требуемого текстового фрагмента может быть определен неверно. Уточнение одного опорного слова другим образует их иерархическую подчиненность в структуре лексикологического дерева. Проведение цикла выбора определенной последовательности опорных слов означает формирование экземпляра документа конкретного видаA complete list of support words, taking into account their interconnections, forms the lexicological tree of the document, ″ passage ″ along the branches of which will provide a choice of formulations used in the document. At the same time, the choice of certain support words will mean the need to introduce completely specific versions of text fragments into the document. In fact, the text of the document is formed by selecting the necessary blanks from among the saved wordings. The structure of the lexicological tree is similar to the composition of the text of the document. The degree of branching of the lexicological tree depends on the volume of many variations of the text of the document, determined by its complexity and the difference in documented situations. Various parts of speech that define the essence of the prescribed action can act as a reference word. When generating a lexicological tree, the criteria for managing lexical constructions should be observed. The reference word must be unique for a particular design, and if necessary, be specified by other support words, otherwise the choice of the required text fragment may be determined incorrectly. The refinement of one reference word by another forms their hierarchical subordination in the structure of the lexicological tree. Conducting a cycle of selecting a certain sequence of support words means the formation of an instance of a document of a specific type
где φ - текущее опорное слово, Iв - количество опорных слов для документа Дв конкретного вида, i - условный номер (индекс) текущего опорного слова, ψв - множество опорных слов документа данного вида.where φ is the current support word, I в is the number of support words for the document D in a particular type, i is the conditional number (index) of the current support word, ψ in is the set of support words of a document of this type.
Следует отметить, что последовательный цикл выбора опорных слов без отсечения, справедлив лишь для случая обязательного прямого выбора (Фиг.3, а) всей последовательности опорных слов документа. В этом случае все опорные слова документа должны быть в обязательном порядке выбраны. Именно это обстоятельство определяет наличие логической производящей функции в выражении (1). Тем не менее, более общим случаем является вариант выбора опорных слов с отсечением (Фиг.3, б), когда выбор очередного опорного слова зависит от того, какое опорное слово было выбрано на предыдущем шаге цикла. При этом для конкретного экземпляра документа формируется определенный маршрут выбора опорных слов, отсекающий ряд боковых ветвей. Модель формирования документа подобного типа может иметь видIt should be noted that a sequential cycle of selecting support words without clipping is valid only for the case of mandatory direct selection (Figure 3, a) of the entire sequence of support words of the document. In this case, all supporting words of the document must be selected without fail. It is this circumstance that determines the presence of a logical generating function in expression (1). However, a more general case is the option of selecting support words with clipping (Figure 3, b), when the choice of the next support word depends on which support word was selected at the previous step of the cycle. At the same time, for a specific copy of the document, a certain route for selecting support words is formed, cutting off a number of side branches. A model for generating a document of this type can take the form
где логическим суммированием, характеризующим образование конкатенации текстовых фрагментов документа, учтено, что выбираются не все опорные слова, а лишь некоторые из них, хотя все они, безусловно, принадлежат множеству опорных слов документа данного вида.where the logical summation characterizing the formation of concatenation of text fragments of a document takes into account that not all support words are selected, but only some of them, although all of them certainly belong to the set of support words of a document of this type.
Пример фрагмента лексикологического дерева, синтезированный для автоматизированного формирования протокола осмотра пациента при проведении гастроскопии, изображен на фиг.4. На лексикологическом дереве, например, показано, что при выборе лечебной гастроскопии необходимо далее выбирать нужные манипуляции, при выборе из которых варианта ″обкалывание краев язвы″ следует выбрать только необходимый отдел ″пищевод″, ″желудок″, ″луковица″, ″12-перстная кишка″.An example of a fragment of a lexicological tree synthesized for the automated formation of a protocol for examining a patient during gastroscopy is shown in Fig. 4. On the lexicological tree, for example, it is shown that when choosing a therapeutic gastroscopy, it is necessary to further select the necessary manipulations, when choosing from which the option об chipping the edges of an ulcer ’, only the necessary department ″ esophagus ″, ″ stomach ″, ″ onion ″, ″ 12-fingered intestine".
В случае же выбора варианта операции ″электроэксцизия полипа″ далее потребуется уточнить отдел, после чего вариант проведения электроэксцизии ″одномоментная″, ″поэтапная″, ″кускованием″. Далее требуется определить характеристики струпа ″хороший″, ″глубокий″, ″нестойкий″, указать характеристику кровотечения ″отсутствует″, ″незначительное″, ″обильное″, ″профузное″, после чего определить состояние полипа ″извлечен″, ″не извлечен″, ″потерян″.If you select the option of surgery ″ polyelectric excision ″ then you will need to clarify the department, after which the variant of electroexcision ″ simultaneous ″, ″ phased ″, ″ lumping ″. Next, you need to determine the characteristics of the scab ″ good ″, ″ deep ″, ″ unstable ″, indicate the bleeding characteristic ″ absent ″, ″ insignificant ″, ″ profuse ″, ″ profuse ″, and then determine the state of the polyp ″ extracted ″, ″ not extracted ″, ″ Lost ″.
Выбор варианта лечебной гастроскопии ″облучение лучами лазера″ потребует указания объекта облучения ″язвы″, ″эрозии″ и последующий выбор отдела пищеварительного тракта ″пищевод″, ″желудок″, ″луковица″, ″12-перстная кишка″.The choice of therapeutic gastroscopy ″ laser irradiation ″ will require an indication of the irradiation object ″ ulcers ″, ″ erosion ″ and the subsequent selection of the digestive tract ″ esophagus ″, ″ stomach ″, ″ onion ″, ″ 12 duodenal ulcer ″.
В том случае, если выбираются варианты лечебной гастроскопии ″электрокоагуляция полипа″, ″блокирование анастомоза″, ″установка зонда″, ″удаление инородного тела″, ″проведение струны″, дополнительных конкретизаций, как видно из лексикологического дерева, не требуется, и производится последующий обход сформированного дерева.In the event that the options for therapeutic gastroscopy are selected ″ electrocoagulation of the polyp ″, ″ blocking the anastomosis ″, ″ installation of the probe ″, ″ removal of a foreign body ″, ″ holding the string ″, additional concretization, as can be seen from the lexicological tree, is not required, and the subsequent traversal of the formed tree.
В зависимости от характера информации, связанной с тем или иным опорным словом, устанавливают различные виды связей. От вида связи зависит способ внедрения фрагмента информации в формируемый документ. Так, например, унифицированная постоянная информация внедряется в документ автоматически программными средствами, а унифицированная переменная информация - путем выбора требуемой формулировки из приведенного перечня. Отображение способа внедрения фрагмента производят в информационном контуре управления документом.Depending on the nature of the information associated with a particular reference word, various types of relationships are established. The method of embedding a piece of information in the generated document depends on the type of communication. So, for example, unified constant information is automatically incorporated into the document by software, and unified variable information is selected by selecting the required wording from the above list. The mapping of the implementation of the fragment is performed in the information loop of the document management.
В связи с этим осуществляют формирование информационного контура управления документом. Данный этап необходим для установления способа внедрения формулировок (автоматически, путем выбора из предлагаемой совокупности, прямым вводом информации с клавиатуры).In this regard, carry out the formation of the information loop document management. This stage is necessary to establish a way of introducing formulations (automatically, by choosing from the proposed combination, by directly entering information from the keyboard).
Пример информационного контура управления для документа ″Акт готовности кафедры к новому учебному году″, сформированный для автоматизированного формирования в высшем учебном заведении, изображен на фиг.5. Левый столбец представляет собой формулировки, которые, по структуре документа, должны быть дополнены определенным объемом информации, определяемой дополнительными опорными словами, с указанием способа внедрения информации. Так, например, название документа ″Акт готовности к учебному году″ дополняется данными о конкретном учебном годе, которые внедряются прямым вводом с клавиатуры. Раздел документа ″Основание″ составления акта дополняется фрагментом с формулировкой ″приказ″, ″распоряжение″, ″указание″, ″директива″, которая выбирается из предлагаемого перечня и, в свою очередь, дополняется вводимой информацией о номере и дате документа-основания. При формировании раздела документа ″Выводы″ внедрение информации производят в зависимости от результатов выбора варианта:An example of an informational control loop for the document ″ Act of the department’s readiness for the new academic year ″, formed for automated formation in a higher educational institution, is shown in FIG. 5. The left column represents the wording, which, according to the structure of the document, should be supplemented by a certain amount of information, defined by additional support words, indicating the method of implementation of the information. So, for example, the title of the document ″ Act of readiness for the school year ″ is supplemented by data on a specific school year, which are implemented by direct input from the keyboard. The section of the document ″ Ground ″ of the drawing up of the act is supplemented by a fragment with the wording ″ order ″, ″ order ″, ″ instruction ″, ″ directive ″, which is selected from the proposed list and, in turn, is supplemented by the entered information about the number and date of the base document. When forming the section of the document ″ Conclusions ″ the implementation of information is carried out depending on the results of the choice of option:
а) если выбирается вариант готовности кафедры, то фрагмент дополняется повторно используемыми сведениями о конкретном учебном годе и наименовании кафедры;a) if the department’s readiness option is selected, then the fragment is supplemented with reused information about the particular academic year and the department’s name;
б) если выбирается вариант неготовности кафедры, то, помимо дополнения повторно используемыми сведениями о конкретном учебном годе и наименовании кафедры, в раздел внедряются необходимые формулировки недостатков, выбираемые из предлагаемого перечня, а также пункты рекомендаций, формируемые прямым вводом с клавиатуры.b) if the option of the department’s unavailability is selected, then, in addition to supplementing with reused information about a particular academic year and the name of the department, the necessary wordings of the shortcomings selected from the proposed list, as well as points of recommendations formed by direct input from the keyboard, are introduced into the section.
Далее проводят лексикологический синтез, т.е. формируют текстовые фрагменты с помощью компьютерной системы путем создания фраз на основе использования набора опорных (ключевых) слов, комплектуемого по результатам предварительно проведенной содержательной унификации документа, с автоматическим связыванием фрагментов и отдельных слов текста в соответствии с правилами орфографии и лексикологии. Необходимую связь между словами в используемых фразах, путем некоторого изменения отдельных слов в формулировках в целях их согласованного применения (с точки зрения правил синтаксиса), обеспечивают программные средства.Next, lexicological synthesis is carried out, i.e. form text fragments using a computer system by creating phrases based on the use of a set of support (keywords) words, completed by the results of a previously conducted meaningful unification of the document, with automatic linking of fragments and individual words of the text in accordance with the rules of spelling and lexicology. The necessary connection between the words in the phrases used, by some modification of individual words in the formulations for the purpose of their coordinated application (in terms of syntax rules), is provided by software.
Автоматизированное формирование документа осуществляется с использованием специализированной программы и стандартного компьютера. Формирование документа ведется в диалоговом режиме с автоматическим пошаговым ″наращиванием″ объема текста за счет внедрения конкретных формулировок, связанных с выбранными пользователем опорными словами. Унифицированная постоянная информация внедряется в документ автоматически.Automated document generation is carried out using a specialized program and a standard computer. The formation of the document is carried out in a dialogue mode with automatic step-by-step ″ escalation ″ of the text volume due to the introduction of specific formulations associated with the user-selected anchor words. Unified persistent information is embedded in the document automatically.
Последовательность операций, выполняемых при автоматизированном формировании документа, изображена на фиг.6 на примере ″Акта готовности кафедры к новому учебному году″, создаваемого каждой кафедрой высших учебных заведений.The sequence of operations performed during the automated formation of the document is shown in Fig.6 on the example of the “Act of readiness of the department for the new academic year ″ created by each department of higher educational institutions.
Сначала производят считывание сохраненной унифицированной постоянной информации. Затем формируют заголовок документа с внедрением считанной постоянной информации, организуют цикл выбора опорных слов для прохождения по лексикологическому дереву формируемого документа. В рамках этого цикла пользователь производит выбор требуемого опорного слова. Затем производят проверку, предусмотрена ли в числе сохраненных формулировка, относящаяся к выбранному опорному слову. Если формулировка не предусмотрена, т.е. ответ на вопрос НЕТ, то пользователь вводит содержание свободной формулировки. Затем в текст формируемого документа внедряют очередную формулировку. Далее производят переход к следующему шагу цикла, который повторяют до исчерпания опорных слов в лексикологическом дереве документа. Затем формируют раздел подписей документа, для которого используют считанную ранее постоянную информацию. Для проверки выполненной работы предусмотрено отображение сформированного документа на экране монитора.First, the stored unified permanent information is read. Then form the title of the document with the implementation of the read constant information, organize a cycle of selecting support words for passing through the lexicological tree of the document being formed. As part of this cycle, the user selects the desired reference word. Then check whether the wording relating to the selected reference word is provided in the number of saved ones. If the wording is not provided, i.e. the answer to the question is NO, then the user enters the contents of the free wording. Then, the next wording is introduced into the text of the document being generated. Next, go to the next step of the cycle, which is repeated until the exhaustion of support words in the lexicological tree of the document. Then form a section of the document signatures, for which they use previously read permanent information. To verify the work performed, a generated document is displayed on the monitor screen.
Анализ результатов экспериментальной проверки предлагаемого способа автоматизированного лексикологического синтеза (создания) документов при формировании документов различного вида (актов, приказов, договоров, контрактов и других) показывает, что объем информации, вводимой прямым набором с клавиатуры, для конкретных экземпляров документов не превышает 7-10% от общего объема документа. Эффективность использования предлагаемого способа обусловлена существенным снижением трудозатрат персонала при формировании текстовых документов. Так, например, время, необходимое для составления типового трудового контракта, сокращается в 5-7 раз при использовании предлагаемого способа. Значительный выигрыш во времени сопровождается, помимо всего, повышением качества документа, которое проявляется в большой детализации текста при внедрении описательных фрагментов и невозможности "пропуска" отдельных фрагментов документа, обеспечивая последовательность и логику изложения текста.An analysis of the results of an experimental verification of the proposed method for automated lexicological synthesis (creation) of documents during the formation of documents of various types (acts, orders, agreements, contracts and others) shows that the amount of information entered by direct typing from the keyboard for specific copies of documents does not exceed 7-10 % of the total volume of the document. The effectiveness of the proposed method is due to a significant reduction in staff costs in the formation of text documents. So, for example, the time required to draw up a standard labor contract is reduced by 5-7 times when using the proposed method. A significant time gain is accompanied, among other things, by an increase in the quality of the document, which manifests itself in great detail of the text when introducing descriptive fragments and the inability to “skip” individual fragments of the document, ensuring the consistency and logic of the text.
Claims (3)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2003123844/09A RU2253893C2 (en) | 2003-08-01 | 2003-08-01 | Method for automated lexicological documents synthesis |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2003123844/09A RU2253893C2 (en) | 2003-08-01 | 2003-08-01 | Method for automated lexicological documents synthesis |
Publications (2)
Publication Number | Publication Date |
---|---|
RU2003123844A RU2003123844A (en) | 2005-02-10 |
RU2253893C2 true RU2253893C2 (en) | 2005-06-10 |
Family
ID=35208374
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2003123844/09A RU2253893C2 (en) | 2003-08-01 | 2003-08-01 | Method for automated lexicological documents synthesis |
Country Status (1)
Country | Link |
---|---|
RU (1) | RU2253893C2 (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2331104C1 (en) * | 2006-12-01 | 2008-08-10 | Борис Васильевич Черников | Automated method of making documents with protected information when transferring them on communication lines |
RU2413985C2 (en) * | 2009-03-05 | 2011-03-10 | Борис Васильевич Черников | Method of converting weakly-formalised documents in order to minimise volume thereof during storage |
RU2665915C1 (en) * | 2017-06-16 | 2018-09-04 | Акционерное общество "Лаборатория Касперского" | System and method for definition of text containing confidential data |
RU2692972C1 (en) * | 2018-07-10 | 2019-06-28 | Федеральное государственное казенное военное образовательное учреждение высшего образования "Краснодарское высшее военное училище имени генерала армии С.М. Штеменко" Министерство обороны Российской Федерации | Method for automatic classification of electronic documents in an electronic document management system with automatic generation of resolution props of a manager |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2136038C1 (en) * | 1992-09-04 | 1999-08-27 | Катерпиллар Инк. | Computer system and method for preparing texts in source language and their translation into foreign languages |
US6199034B1 (en) * | 1995-05-31 | 2001-03-06 | Oracle Corporation | Methods and apparatus for determining theme for discourse |
RU2166211C2 (en) * | 1999-04-15 | 2001-04-27 | Халин Евгений Васильевич | Computer-aided technique for training and certifying personnel of manufacturing enterprises in safety precautions |
US20020100016A1 (en) * | 2000-06-02 | 2002-07-25 | Sun Microsystems, Inc. | Interactive software engineering tool with support for embedded lexical contexts |
US20030004706A1 (en) * | 2001-06-27 | 2003-01-02 | Yale Thomas W. | Natural language processing system and method for knowledge management |
-
2003
- 2003-08-01 RU RU2003123844/09A patent/RU2253893C2/en not_active IP Right Cessation
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2136038C1 (en) * | 1992-09-04 | 1999-08-27 | Катерпиллар Инк. | Computer system and method for preparing texts in source language and their translation into foreign languages |
US6199034B1 (en) * | 1995-05-31 | 2001-03-06 | Oracle Corporation | Methods and apparatus for determining theme for discourse |
RU2166211C2 (en) * | 1999-04-15 | 2001-04-27 | Халин Евгений Васильевич | Computer-aided technique for training and certifying personnel of manufacturing enterprises in safety precautions |
US20020100016A1 (en) * | 2000-06-02 | 2002-07-25 | Sun Microsystems, Inc. | Interactive software engineering tool with support for embedded lexical contexts |
US20030004706A1 (en) * | 2001-06-27 | 2003-01-02 | Yale Thomas W. | Natural language processing system and method for knowledge management |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2331104C1 (en) * | 2006-12-01 | 2008-08-10 | Борис Васильевич Черников | Automated method of making documents with protected information when transferring them on communication lines |
RU2413985C2 (en) * | 2009-03-05 | 2011-03-10 | Борис Васильевич Черников | Method of converting weakly-formalised documents in order to minimise volume thereof during storage |
RU2665915C1 (en) * | 2017-06-16 | 2018-09-04 | Акционерное общество "Лаборатория Касперского" | System and method for definition of text containing confidential data |
RU2692972C1 (en) * | 2018-07-10 | 2019-06-28 | Федеральное государственное казенное военное образовательное учреждение высшего образования "Краснодарское высшее военное училище имени генерала армии С.М. Штеменко" Министерство обороны Российской Федерации | Method for automatic classification of electronic documents in an electronic document management system with automatic generation of resolution props of a manager |
Also Published As
Publication number | Publication date |
---|---|
RU2003123844A (en) | 2005-02-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Salmona et al. | Qualitative data analysis strategies | |
US11921985B2 (en) | Method and system for configuring automatic generation of narratives from data | |
Richards | Data alive! The thinking behind NVivo | |
Bazeley et al. | The NVivo qualitative project book | |
US5327341A (en) | Computerized file maintenance system for managing medical records including narrative reports | |
US5729751A (en) | Document assembly system with assembly logic | |
JP2003522991A (en) | Interactive application generation system and text processing system | |
US20020061506A1 (en) | Authoring and delivering training courses | |
NZ288971A (en) | Structuring and selection system for medical text: text generated by selection of appropriate phrases in database. | |
Cropper et al. | Keeping sense of accounts using computer-based cognitive maps | |
Cunningham et al. | Developing language processing components with GATE | |
Gulliksen et al. | Domain‐specific design of user interfaces | |
MacFarland et al. | Student’s t-test for independent samples | |
RU2253893C2 (en) | Method for automated lexicological documents synthesis | |
US20200193085A1 (en) | Non-transitory computer-readable storage medium, electronic file generation method | |
Luo et al. | Comparison among four prominent text processing tools | |
Meurs et al. | Semantic Frame Annotation on the French MEDIA corpus. | |
Layzell et al. | DOCKET: program comprehension-in-the-large | |
Mirel et al. | Collaboration between writers and graphic designers in documentation projects | |
JP2009245232A (en) | Dedicated rule editor for generating rule definition of problem extraction from free description sentence of medical observation document | |
RU2413985C2 (en) | Method of converting weakly-formalised documents in order to minimise volume thereof during storage | |
Khan et al. | NeuroScholar's electronic laboratory notebook and its application to neuroendocrinology | |
Humble | Computer-assisted qualitative data analysis software (CAQDAS) and ethnographic health research | |
Duquenne et al. | Comparison of dual orderings in time | |
Solhaug et al. | Systematic searches: A new area of cooperation between the library and the social sciences |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
MM4A | The patent is invalid due to non-payment of fees |
Effective date: 20200802 |