KR20010067853A - Slang Filtering system using syllable connecting infomation. - Google Patents
Slang Filtering system using syllable connecting infomation. Download PDFInfo
- Publication number
- KR20010067853A KR20010067853A KR1020010017530A KR20010017530A KR20010067853A KR 20010067853 A KR20010067853 A KR 20010067853A KR 1020010017530 A KR1020010017530 A KR 1020010017530A KR 20010017530 A KR20010017530 A KR 20010017530A KR 20010067853 A KR20010067853 A KR 20010067853A
- Authority
- KR
- South Korea
- Prior art keywords
- syllable
- vulgar
- lecherous
- syllables
- slang
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
Landscapes
- Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer And Data Communications (AREA)
Abstract
Description
본 발명은 한국어의 음절 결합 원리를 이용하여 웹상의 문서들의 내용을 필터링해 주는 것으로서, 특히 대화방이나 웹게시판의 문서 내용 중 음란어나 비속어들을 자동으로 필터링해 주는 것에 관한 것이다.The present invention is to filter the content of the documents on the web using the syllable combining principle of the Korean language, and more particularly, to automatically filter pornographic or profanity in the document content of chat rooms or web bulletin boards.
현재 인터넷 대화는 문자언어를 넘어서 음성언어와 화상을 이용한 채팅 기술까지 급속도로 발전하였다. 채팅이 음성, 화상을 통하여 이루어지지만, 이들 모두 문자라는 기호 매체를 기본으로 의사소통을 하기 때문에 문자를 통한 채팅은 아무리 채팅 기술이 발전하더라도 유지될 수밖에 없다. 그러나 이러한 채팅을 통하여 많은 사회적인 문제들을 초래하고 있음은 주지의 사실이다.Currently, internet conversation has rapidly developed beyond text language to chat technology using voice language and video. Although the chat is performed through voice and video, all of them communicate based on a symbol medium called text, so the chat through the text is inevitably maintained even if the chat technology is advanced. However, it is well known that such chatting causes many social problems.
또한 웹게시판에 보면 그 사이트를 비판하는 글들이 많이 올라온다. 그러나글의 내용을 보면 사이트 비판의 차원을 넘어서 개인과 단체의 인격과 품위를 손상시키는 저속한고 음란한 표현들이 무수히 많이 올라오는 것을 볼 수 있다.Also on the bulletin board, there are many articles that criticize the site. However, the content of the article goes beyond the critique of the site and shows a myriad of vulgar and lewd expressions that damage the personality and dignity of individuals and organizations.
따라서 개인과 집단의 인격과 명예를 보호하며, 무절제하고 무방비 상태에 노출된 채팅이나 웹게시판을 관리자들이 어느 선에서 조절할 필요성이 대두된다. 하지만 관리와 표현의 자유는 서로 상치되는 부분으로서 이 두 가지를 넘어서지 않는 선에서 적절하게 채팅과 게시판을 관리할 수 있는 가장 바람직한 방법으로는 사용자들에게 건전한 말들을 사용하도록 유도하는 것이다.Therefore, there is a need for administrators to control the personality and honor of individuals and groups, and to control chats or web boards that are exposed to restraint and defenselessness. However, freedom of management and expression are in conflict with each other, and the best way to properly manage chat and bulletin boards is to encourage users to use sound words.
만일 사용자들이 채팅이나 게시판 상에 음란한 말이나 저속한 비속어를 사용하였을 경우, 본 발명품은 이들을 자동적으로 여과하거나 차단해 준다. 따라서 인터넷 사용자들에게 웹서핑의 즐거움을 줄 뿐 아니라, 웹사이트 운영자들에게 쏟아지는 저속한 욕설들을 방지할 수 있다.If users use obscene or vulgar language on chat or bulletin boards, the present invention automatically filters or blocks them. This not only gives Internet users the pleasure of surfing the web, but also prevents the swear words that are poured on website operators.
이렇게 사회적인 문제로 대두되는 채팅이나 게시판의 문제점을 해결하고 그 본연의 기능을 되살리며, 사용자들에게 건전하고 즐거운 인터넷 사용을 권장하는 것을 목적으로 음란/비속어 필터기는 발명되었다.The obscene / slang filter has been invented for the purpose of solving problems of chats and bulletin boards that are emerging as social problems, reviving their original functions, and encouraging users to use a healthy and enjoyable Internet.
종래에 비속어를 차단하는 소프트웨어들은 주로 게임사이트의 대화창이나 채팅사이트에 장착되어 운영되었다. 그러나 이들의 비속어 차단기는 단어 매칭 방식이기 때문에 음란어나 비속어를 약간 변형시키면 비속어를 차단해 주지 못할 뿐 아니라, 중의적인 어휘에 대해서도 무조건 차단하기 때문에 비속어가 아닌 경우에도 상당수 차단하는 오류를 범하고 있다. 따라서 사용자들의 불편을 초래하고 있을 뿐 아니라, 제대로 차단하지 못하기 때문에 사용자들의 표현의 자유를 침해한다고 할 수도 있다.In the past, software that blocks slang is mainly operated in a chat window or a chat site of a game site. However, because these slang blockers are word-matching methods, slightly altering obscene words or slang words does not block slang words, and also blocks unconditional words. Therefore, not only does it cause inconvenience to users, but also can be said to infringe users' freedom of expression because it is not properly blocked.
따라서 기존의 비속어 차단기의 문제점들을 해결하여, 사용자들과 운영자들의 만족도를 배가시키는 것이 본 발명의 기술적인 목표이다. 본 발명에서는 단어 매칭의 한계를 극복하기 위해서 자연어처리(Natural Language Processing) 기술을 응용하여 음절들의 결합 특성을 이용한다. 본 발명에서 이룩하고자 하는 기술은 자연어처리를 이용한 한국어의 음절 결합 정보를 기본 원리로 하여, 중의적인 음란/비속어들의 적절한 필터 기능, 문체에 따른 음란/비속어 차단, 비정상적으로 결합된 비속어들의 정확한 필터링과 더불어 차단기의 실행 속도를 실시간으로 빠르게 구축하는 것이다.Therefore, it is a technical goal of the present invention to solve the problems of the existing slang breaker, to double the satisfaction of users and operators. In the present invention, in order to overcome the limitation of word matching, natural language processing technology is used to use the coupling characteristics of syllables. The technique to be achieved in the present invention is based on the syllable combination information of Korean using natural language processing, the proper filter function of the indecent obscene / slang words, the blocking of slang / slang words according to the style, the exact filtering of abnormally combined slang words and In addition, the breaker runs quickly in real time.
도면에서 보면 음란/비속어 차단기는 크게 5 가지의 주요 단계를 거쳐 음란어와 비속어를 차단한다.In the drawing, the lewd / profanity blocker blocks obscene words and profanity through five main steps.
도1의 1번 그림은 문자열을 문장 단위로 분리하는 작업이다. 게시판과 같이 다수의 문장이 입력된 문자열은 문장으로 반드시 분리하여야 한다.Figure 1 of Figure 1 is a task for separating the character string by sentence unit. Like a bulletin board, a string containing multiple sentences must be separated into sentences.
2번 그림은 분리된 문장에서 중심음절을 선정하는 과정으로 3번 그림의 음란/비속어 DB의 탐색을 통해서 중심음절을 선정한다.Figure 2 is the process of selecting the central syllables from the separated sentences, and selects the central syllables by searching the pornographic / slang DB of Figure 3.
3번 그림의 음란/비속어 DB에는 음절 결합 정보와 조건에 맞게 음란어와 비속어가 저장되어 있는 데이타베이스이다.The lewd / pronounced DB shown in Figure 3 is a database that stores pronouns and pronouns according to syllable combining information and conditions.
4번 그림은 중심음절이 선정되면 음란 비속어의 음절 결합 조건을 탐색하는 루틴이다.Figure 4 is a routine to search the syllable combination condition of obscene profanity when the central syllable is selected.
5번 그림은 4번에서 음절 결합 조건을 탐색한 것을 바탕으로 음란/비속어 여부를 결정하는 단계이다.Figure 5 is a step for determining whether it is obscene or slang based on the search for syllable combining condition in No. 4.
본 발명에서 이루고자 하는 기술의 개발을 위해서 다음과 같이 자연어처리 기술을 응용할 것이다.In order to develop the technology to achieve in the present invention will be applied to natural language processing techniques as follows.
1. 음절결합정보 이용1. Using syllable combination information
기본의 비속어 차단기들의 검색 원리는 단어 매칭 방식인데, 이 방법은 일치되는 어휘만 차단해 줄 수 있다. 따라서 본 발명에서는 단어 매칭이 아닌 한국어의 음절 결합 특성를 이용하여 음란 비속어 여부를 결정한다. 음절 결합 특성이란 한국어에서 어떤 한 음절에 결합될 수 있는 음절은 특정음절에 제한되는 것도 있고, 무한히 다양한 음절과 결합하는 특성이 있다는 것이다. 예를 들어 '개'라는 어휘는 실제 집에서 기르는 가축을 가리키는 일반유정명사이다. 그러나 이 '개'가 비속어에 사용되면 마치 접두사의 기능을 하면서 수많은 비속어를 파생시킨다. 따라서 '개'로 파생되는 비속어들은 '개'를 중심음절로 잡아서 그 뒤에 결합되는 음절들의 조건을 결정해서 비속어 여부를 결정한다.The basic principle of slang blockers is the word matching method, which can only block the matched vocabulary. Therefore, the present invention determines whether or not promiscuous profanity is used by using syllable coupling characteristics of Korean rather than word matching. The syllable combining characteristic is that the syllables that can be combined in a syllable in Korean are limited to specific syllables, and there is an infinite combination of syllables. For example, the vocabulary of 'dog' is a general oil noun that actually refers to domestic animals. However, when this 'dog' is used in slang, it acts as a prefix and derives numerous slang words. Therefore, the slang derived from 'dog' is determined whether the slang is made by catching 'dog' as the central syllable and determining the condition of the syllables that are combined afterward.
이러한 음절 결합 정보를 이용하면 기존의 단어 매칭 방식의 비속어 차단 방식에서 보다 소량의 DB로 다량의 비속어들을 차단할 수 있다.By using the syllable combining information, it is possible to block a large amount of slang words with a smaller amount of DB than in the conventional word matching method.
2. 중의적인 음란/비속어 구별2. The distinctive obscene / slang distinction
중의적인 비속어란 동일한 어휘가 비속어가 되는 경우와 비속어가 되지않는 경우를 말한다(예:"년"). 본 발명에서는 이러한 중의적인 비속어도 음절 및 문맥의 조건 검색을 통하여 90% 이상을 정확하게 구별해 낼 수 있다.A double slang refers to the case where the same vocabulary becomes a slang and not a slang (eg "year"). In the present invention, such a heavy slang word can be distinguished more than 90% accurately through the conditional search of syllables and contexts.
3. 비정상적인 음절결합형 처리3. Abnormal syllable combined treatment
요즘 네티즌들이 한글을 입력할 때, 정상적인 한글 문자 입력방법에 맞지 않게 입력한다(예:"ㄱ ㅐ ㅅ ㅐ ㄲ ㅣ"). 마치 하나의 음소를 하나의 음절로 취급하여 문자를 입력하는 방식이다. 이렇게 입력된 비속어들은 기존의 비속어 차단기에서는 전혀 처리가 불가능하였다. 그러나 본 발명에서는 이렇게 비정상적인 음절결합형 음란/비속어들도 각각 하나의 음절로 취급하여 음절결합 정보로 검색하여 정확하게 차단한다.When netizens input Korean characters these days, they do not match the normal Korean character input method (eg "ㄱ ㅐ ㅅ ㅐ ㄲ ㅣ"). It's as if a phoneme is treated as a syllable and a character is input. These slang words could not be processed by the existing slang breaker. However, in the present invention, such abnormal syllable-combination obscene / pronouns are treated as one syllable, respectively, and searched with syllable-combination information to block correctly.
4. 구어체와 문어체 구별4. Differentiation between spoken and written forms
본 발명에서는 대화방용 차단기와 게시판용 차단기 두 가지 구성된다. 일반적으로 대화할 때(구어체)와 장문의 글을 쓸 때(문어체)와는 서로 문체가 달라지기때문에 차단의 효율을 높이기 위해서 각각 문체의 특성에 맞게 구성한다.In the present invention, two types of breakers for chat rooms and breakers for bulletin boards are provided. Generally speaking, the styles are different from each other when speaking (spoken) and when writing long sentences (written), so that they are configured according to the characteristics of each style to increase the efficiency of blocking.
5. 실시간 검색 속도5. Real time scan speed
본 발명은 문장의 수나 길이에 관계없이 실시간으로 검색, 차단하여 주기 위해서 음란/비속어의 음절 결합 정보를 저장하고 있는 데이타베이스를 속도가 빠른 Unix DBM 포맷 방식의 버클리DB를 사용한다. 버클리DB는 용량이 적고 속도가 빠르기 때문에 본 음란/비속어 차단기가 장착되지 않았을 때와 동일한 속도에서 인터넷을 사용할 수가 있다.The present invention uses a fast Unix DBM format Berkeley DB for a database that contains syllable / profanity syllable combination information to search and block in real time regardless of the number or length of sentences. Berkeley DB's small capacity and high speed allow you to use the Internet at the same speed as without this lewd / swear circuit breaker.
본 발명의 시스템 구성은 다음과 같다.The system configuration of the present invention is as follows.
1. 입력된 문자열을 문장 단위로 분리한다.1. Split the input string into sentence units.
2. 분리된 문장을 음절별로 검색하여 중심음절을 탐색한다.2. Search the central syllable by searching the separated sentences by syllable.
3. 중심음절을 음란/비속어 DB에서 탐색한다.3. Search for syllables in the obscene / slang database.
4. 음란/비속어 DB는 음란어와 비속어들이 음절결합 방법에 의해서 서로 조합되어 데이타베이스화 되어 있다.4. The obscene and profanity DB is a database of obscene words and pronouns combined with each other by syllable combining method.
5. 탐색된 DB에서 음절결합 정보 조건을 검색한다.5. Search syllable combining information condition in searched DB.
6. 검색된 조건에 따라 해당 음절의 음란/비속 여부를 결정한다.6. The syllable determines whether the syllable is indecent or non-verbal based on the searched condition.
7. 음란/비속어로 판단되면 후작업을 중단하고, 아니면 후작업을 계속 수행한다.7. If it is determined that it is obscene / profanity, stop the post-production, or continue the post-production.
본 발명은 각종 채팅사이트나 게임사이트에 적용하여 채팅 이용자들의 음란어나 비속어들의 사용을 억제할 수 있다. 그러므로 해서 채팅이나 게임의 주이용 연령대인 청소년들의 건전한 언어 생활을 유도할 수 있을 뿐더러, 채팅 상에서 거래되는 원조교제나 윤락 알선 등을 원초적으로 차단할 수 있다.The present invention can be applied to various chat sites or game sites to suppress the use of pornographic and profanity words of chat users. Therefore, it is possible to induce healthy language life of teenagers who are the main age groups of chatting and games, and also to block out interpersonal fellowship and prostitution in chat.
또한 각종 웹 게시판 등에 적용하면 사이트 운영 단체들이나 개인들에 대한 비난의 욕설 등을 미연에 방지할 뿐만 아니라, 그 사이트에 대한 정당한 비판의 여론을 수렴할 수가 있다.In addition, when applied to various web bulletin boards, it is possible not only to prevent abusive criticism of site management organizations or individuals, but also to gather public opinions of the criticism of the site.
본 발명은 이러한 단기적인 파급 효과뿐 아니라 장기적으로는 청소년들의 언어 순화 교육에도 동참한다. 저속한 음란어나 건전치 못한 비속어들의 사용을 원천적으로 방지하기 때문에 자연적으로 청소년들로 하여금 웹상에서 건전하고 아름다운 우리 말을 사용하도록 유도하게 된다. 따라서 우리 말 언어 순화 운동을 자연적으로 이끌어 나아가게 된다.The present invention participates not only in this short-term ripple effect but also in the long term in the language education of the youth. It naturally prevents the use of vulgar or unhealthy slang words, which naturally induces youth to use sound and beautiful words on the web. Therefore, we will naturally lead the movement of Korean language verbalization.
Claims (1)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020010017530A KR20010067853A (en) | 2001-04-03 | 2001-04-03 | Slang Filtering system using syllable connecting infomation. |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020010017530A KR20010067853A (en) | 2001-04-03 | 2001-04-03 | Slang Filtering system using syllable connecting infomation. |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20010067853A true KR20010067853A (en) | 2001-07-13 |
Family
ID=19707779
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020010017530A Ceased KR20010067853A (en) | 2001-04-03 | 2001-04-03 | Slang Filtering system using syllable connecting infomation. |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20010067853A (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006065108A1 (en) * | 2004-12-17 | 2006-06-22 | Nhn Corporation | System and method for filtering message |
KR100889728B1 (en) * | 2007-03-08 | 2009-03-24 | 한국전자통신연구원 | Method and device for filtering user search terms to prevent illegal sharing of copyrighted information |
WO2018124495A1 (en) * | 2016-12-30 | 2018-07-05 | (주)엠더블유스토리 | Illegal content search system and method thereof |
-
2001
- 2001-04-03 KR KR1020010017530A patent/KR20010067853A/en not_active Ceased
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006065108A1 (en) * | 2004-12-17 | 2006-06-22 | Nhn Corporation | System and method for filtering message |
US7725550B2 (en) | 2004-12-17 | 2010-05-25 | Nhn Corporation | System and method for filtering message |
KR100889728B1 (en) * | 2007-03-08 | 2009-03-24 | 한국전자통신연구원 | Method and device for filtering user search terms to prevent illegal sharing of copyrighted information |
WO2018124495A1 (en) * | 2016-12-30 | 2018-07-05 | (주)엠더블유스토리 | Illegal content search system and method thereof |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5897240B2 (en) | Customer service system and conversation server | |
Brown | No homo | |
Robertson | He's more katakana than kanji: Indexing identity and self‐presentation through script selection in Japanese manga (comics) | |
Nortier | Language and identity practices among multilingual Western European youths | |
Gross | Intentionality and the markedness model in literary codeswitching | |
Koto | A publicly available Indonesian corpora for automatic abstractive and extractive chat summarization | |
Chan et al. | Social and emotional correlates of capitalization on Twitter | |
Vaicekauskienė et al. | Russian and English as socially meaningful resources for mixed speech styles of Lithuanians | |
Cahayany et al. | English code-switching in Indonesian magazine articles | |
Klein et al. | Emojinize: enriching any text with emoji translations | |
Bratten | Online zealotry: La France du peuple virtuel | |
Aini | Code Mixing in Suhay Salim Beauty Vlogger | |
KR20010067853A (en) | Slang Filtering system using syllable connecting infomation. | |
Dent et al. | Through the Twitter Glass: Detecting Questions in Micro-Text. | |
Tanaka et al. | Relation analysis between speech balloon shapes and their serif descriptions in comic | |
Akbari | A preliminary linguistic analysis of Romanized Persian SMS messages | |
Lee | Language in Society | |
Duskaeva et al. | Humour as izdevka (gibe) 1 | |
Syahputra et al. | An analysis of slang words found in the movie script of “the fast and the furious” by rob cohen | |
Fägersten | 10. A corpus approach to discursive construction of hip-hop identity | |
Bočková | The use of punctuation, emoji and emoticons in YouTube abusive comments | |
Sugiyama et al. | Open-domain utterance generation using phrase pairs based on dependency relations | |
Ewing | The kalau framing construction in Indonesian comics | |
Kalima | The effect of topic on word formation and the frequency of neologism use on Internet forums | |
Garley | Crossing the lexicon: Anglicisms in the German hip hop community |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20010403 |
|
PA0201 | Request for examination | ||
PG1501 | Laying open of application | ||
E902 | Notification of reason for refusal | ||
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20031029 Patent event code: PE09021S01D |
|
E601 | Decision to refuse application | ||
PE0601 | Decision on rejection of patent |
Patent event date: 20040130 Comment text: Decision to Refuse Application Patent event code: PE06012S01D Patent event date: 20031029 Comment text: Notification of reason for refusal Patent event code: PE06011S01I |