ES2993367T3

ES2993367T3 - Botnet domain name family detecting method, device, and storage medium

Info

Publication number: ES2993367T3
Application number: ES19903904T
Authority: ES
Inventors: Fan Yan; Zhenyang Zhao; Liang Gu
Original assignee: Forenova Tech BV
Current assignee: Forenova Tech BV
Priority date: 2018-12-24
Filing date: 2019-06-27
Publication date: 2024-12-27
Anticipated expiration: 2039-06-27
Also published as: EP3905624A1; EP3905624C0; EP3905624B1; EP3905624A4; CN111355697B; WO2020133986A1; SG11202106429VA; CN111355697A

Abstract

Un método de detección de una familia de nombres de dominio de botnet, un aparato, un dispositivo y un medio de almacenamiento legible por ordenador. Dicho método comprende: adquirir nombres de dominio sospechosos; construir un gráfico de asociación espaciotemporal de nombres de dominio sobre la base de asociaciones entre varios nombres de dominio sospechosos en diferentes dimensiones; tomar cada nombre de dominio sospechoso como un nodo en el gráfico de asociación espaciotemporal de nombres de dominio, dos nombres de dominio que tienen al menos una asociación formando un borde entre ellos, y la asociación entre los dos nombres de dominio que sirve como un valor de atributo del borde; y de acuerdo con índices de determinación de un grado de compacidad entre varios nodos en el cálculo del gráfico, determinar nombres de dominio estrechamente asociados en el gráfico de asociación espaciotemporal de nombres de dominio, y tomar un conjunto de los nombres de dominio correspondientes como una familia de nombres de dominio de botnet. La presente solicitud muestra las asociaciones entre nombres de dominio en varias dimensiones diferentes de manera uniforme en forma de un gráfico de asociación, y tiene una capacidad de detección más fuerte. Además, la invención es capaz de detectar una familia de nombres de dominio de botnet rápidamente, y es ampliamente aplicable. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN

Método de detección de familia de nombres de dominio de red de robots, dispositivo y medio de almacenamiento

Esta solicitud reivindica prioridad con respecto a la solicitud de patente china n.° 201811584694.2, titulada “MÉTODO DE DETECCIÓN DE FAMILIA DE NOMBRES DE DOMINIO DE RED DE ROBOTS, APARATO, DISPOSITIVO Y MEDIO DE ALMACENAMIENTO” (con título en inglés, “BOTNET DOMAIN NAME FAMILY DETECTING METHOD, APPARATUS, DEVICE, AND STORAGE MEDIUM”), presentada el 24 de diciembre de 2018 en la Administración Nacional de propiedad intelectual China (CNIPA).

Campo técnico

La presente divulgación se refiere en general al campo técnico de la seguridad de la información, y particularmente, a un método y un dispositivo para detectar una familia de nombres de dominio de una red de robots, y un medio de almacenamiento legible por ordenador.

Antecedentes

Una red de robots plantea una seria amenaza para la seguridad de la red. Un criminal usa la red de robots para lanzar ataques de denegación de servicio distribuido (DDoS), realizar minería maliciosa, robar información y enviar correo no deseado, lo que pone en peligro seriamente los intereses de países, empresas, organizaciones e individuos. Es muy significativo identificar de manera rápida y precisa las comunicaciones de la red de robots y bloquearlas a tiempo. Un gran número de redes de robots envían información de mando y control (CyC) para comunicarse con un anfitrión de bot basándose en un protocolo de sistema de nombres de dominio (DNS).

Un método general para detectar una familia de nombres de dominio de una red de robots incluye principalmente detección basada en una característica gramatical y detección basada en tráfico de virus.

La detección de la familia de nombres de dominio de la red de robots basada en la característica gramatical considera que los nombres de dominio que pertenecen a la misma familia de red de robots tienen similitud en las características gramaticales. Los nombres de dominio de la misma familia de red de robots a menudo se generan usando el mismo algoritmo de generación de dominios (DGA). Se genera una gran cantidad de nombres de dominio aleatorios con características gramaticales similares para escapar de la detección de lista negra. Los nombres de dominio generados por diferentes algoritmos de DGA pueden distinguirse extrayendo características en el nombre de dominio tal como proporción de consonantes en un nombre de dominio, la longitud significativa más larga y n-grama (distribución de n palabras consecutivas en un texto o idioma), descubriendo de ese modo nombres de dominio que pertenecen a la misma familia de red de robots. Recientemente, también está usándose una red neuronal recurrente (RNN) en la detección de los nombres de dominio de DGA. Los nombres de dominio de DGA que pertenecen a la misma familia de red de robots se encuentran mediante características de aprendizaje de secuencias de caracteres formadas por los nombres de dominio a través de una RNN. Sin embargo, no todas las familias de red de robots usan solo el algoritmo de DGA para generar nombres de dominio de CyC. Una vez que los nombres de dominio de CyC de la misma familia no tienen similitud obvia en las características gramaticales, este algoritmo de detección de la familia de nombres de dominio de la red de robots no puede lograr un buen rendimiento.

La detección de la familia de nombres de dominio de la red de robots se basa en agrupaciones (del inglés,clusters)de tráfico de virus y detecta nombres de dominio de CyC por familia a través de información de familia de archivos maliciosos. Si dos nombres de dominio pertenecen a la misma familia de red de robots, pueden analizarse analizando nombres de dominio a los que acceden archivos maliciosos que pertenecen a la misma familia de virus. Aunque este método no se basa simplemente en las características gramaticales de los nombres de dominio, está restringido por el número de muestras de virus. Además, un virus interfiere con este método accediendo a algunos nombres de dominio legítimos, lo que conduce a ciertos falsos positivos. Algunos estudios muestran que el tiempo activo de una gran cantidad de dominios de CyC son varias semanas o incluso varios meses antes del momento en que se obtiene una muestra de virus correspondiente, lo que da como resultado un cierto retraso en el método basado en el tráfico de virus, y es imposible detectar y eliminar la amenaza de inmediato.

El documento “GMAD: Graph-based Malware Activity Detection by DNS traffic analysis” da a conocer un método en el que GMAS utiliza una secuencia de consultas de DNS para lograr robustez contra técnicas de evasión. GMAD usa un gráfico que expresa secuencias de consulta de DNS para detectar clientes infectados y nombres de dominio maliciosos. GMAD aplica agrupación de nombres de dominio usando la estructura de gráfico y determina agrupaciones maliciosas haciendo referencia a listas negras públicas.

La patente US 9922190B2 da a conocer un sistema y un método para detectar un algoritmo de generación de dominios (DGA), que comprende: realizar el procesamiento asociado con la agrupación, utilizar un módulo de agrupación de características basado en nombres que accede a la información de una base de datos electrónica de información de dominios NX, los nombres de dominio generados aleatoriamente basándose en la similitud en la composición de los nombres de dominio generados aleatoriamente; realizar el procesamiento asociado con la agrupación, utilizar un módulo de agrupación de gráficos, los nombres de dominio generados aleatoriamente basándose en los grupos de activos que consultaron los nombres de dominio generados aleatoriamente; realizar el procesamiento asociado con la determinación, utilizar un módulo de correlación de agrupación diaria y un módulo de correlación de agrupación temporal, cuyos nombres de dominios generados aleatoriamente agrupados están altamente correlacionados en el uso diario y en el tiempo; y realizar el procesamiento asociado con la determinación del DGA que generó los nombres de dominio agrupados generados aleatoriamente.

El documento “DGA Botnet Detection Utilizing Social Network Analysis” propone un mecanismo de detección de red de robots de DGA que utiliza las características basadas en rasgos de las redes sociales. La eficacia de este mecanismo se midió implementándolo en un entorno de red de campus y observándolo durante dieciocho meses. El hallazgo más interesante de este experimento es una nueva clase de red de robots de DGA con un patrón de consulta que no se ha detectado anteriormente, los resultados muestran que el mecanismo propuesto tiene la capacidad de detectar de manera precisa y eficaz redes de robots de DGA maliciosos tanto bien conocidos como nuevos en redes del mundo real.

Sumario

Un objeto de la presente divulgación es proporcionar un método, dispositivo y aparato para detectar una familia de nombres de dominio de una red de robots, y un medio de almacenamiento legible por ordenador, para solucionar problemas de una sola dimensión de detección, dependencia excesiva de la recogida de muestras de virus y mala detección en tiempo real en la detección convencional de la familia de nombres de dominio de la red de robots. La invención se expone en el conjunto de reivindicaciones adjuntas.

El método para detectar la familia de nombres de dominio de la red de robots obtiene nombres de dominio sospechosos; construye un gráfico de correlación espacio-tiempo de nombres de dominio basándose en correlaciones entre nombres de dominio sospechosos en diferentes dimensiones, donde, en el gráfico de correlación espacio-tiempo de nombres de dominio, cada nombre de dominio sospechoso se toma como un nodo, se forma un borde entre dos nombres de dominio que tienen al menos una correlación, y la correlación entre los dos nombres de dominio se toma como un valor de atributo del borde; y determina nombres de dominio que están correlacionados de manera cercana en el gráfico de correlación espacio-tiempo de nombres de dominio según un índice de determinación de la compacidad de cada nodo en el cálculo de gráfico, y toma un conjunto de los nombres de dominio correspondientes como la familia de nombres de dominio de la red de robots. En comparación con el método de detección de familia basándose en características gramaticales que solo se ocupa de un cierto nivel de correlación, la presente divulgación puede expresar uniformemente las correlaciones entre diferentes dimensiones y entre nombres de dominio en forma del gráfico de correlación, teniendo de ese modo una capacidad de detección más fuerte. Además, la detección de la presente divulgación no depende del tráfico de virus y puede detectar la familia de nombres de dominio de red de robots más rápidamente y procesarla a tiempo, reduciendo de ese modo diversas pérdidas causadas y teniendo una aplicabilidad más amplia. Además, el dispositivo, aparato y medio de almacenamiento legible por ordenador para detectar la familia de nombres de dominio de la red de robots con las ventajas técnicas anteriores se proporcionan adicionalmente en la presente divulgación.

Breve descripción de los dibujos

Para explicar más claramente las realizaciones de la presente invención o las soluciones técnicas en la técnica anterior, los dibujos usados en la descripción de las realizaciones o la técnica anterior se presentarán brevemente a continuación. Obviamente, los dibujos en la siguiente descripción son meramente algunas realizaciones de la presente divulgación. Para los expertos en la técnica, pueden obtenerse otros dibujos según los dibujos proporcionados sin realizar trabajo creativo.

La figura 1 es un diagrama de flujo de una implementación específica de un método para detectar una familia de nombres de dominio de una red de robots según la presente divulgación;

la figura 2 es un diagrama de flujo de un proceso de eliminación de un gráfico secundario anómalo y un nodo anómalo en un gráfico de correlación espacio-tiempo de nombres de dominio en la presente divulgación; y

la figura 3 es un diagrama de bloques estructural de un dispositivo para detectar una familia de nombres de dominio de una red de robots según una realización de la presente divulgación.

Descripción detallada

Para que los expertos en la técnica entiendan mejor las soluciones técnicas de la presente solicitud, la presente solicitud se describirá adicionalmente en detalle junto con dibujos y realizaciones a continuación en el presente documento. Es obvio que las realizaciones descritas son solo una parte de las realizaciones según la presente solicitud, en lugar de todas las realizaciones. Todas las demás realizaciones obtenidas por los expertos en la técnica basándose en las realizaciones en la presente solicitud sin ningún trabajo creativo pertenecen al alcance de protección de la presente solicitud.

En la figura 1 se ilustra un diagrama de flujo de una implementación específica de un método para detectar una familia de nombres de dominio de una red de robots según la presente divulgación. El método incluye las etapas S101 a S103.

En la etapa S101, se obtienen nombres de dominio sospechosos.

Un nombre de dominio sospechoso se refiere a un nombre de dominio que se ha excluido de un nombre legítimo que es obviamente normal y tiene al menos un comportamiento anómalo detectado, por ejemplo, una característica gramatical del nombre de dominio es particularmente como un nombre de dominio de DGA, o el tiempo activo del nombre de dominio siempre se concentra en las primeras horas del día. Puede usarse tecnología de lista blanca para excluir el nombre de dominio que es obviamente normal, tal como añadir nombres de dominio con clasificaciones de Alexa más altas a la lista blanca, y considerar que es poco probable que estos nombres de dominio de clasificación más alta sean nombres de dominio de CyC de la red de robots.

En la etapa S102, se construye un gráfico de correlación espacio-tiempo de nombres de dominio basándose en correlaciones entre los nombres de dominio sospechosos en diferentes dimensiones, donde, en el gráfico de correlación espacio-tiempo de nombres de dominio, cada nombre de dominio sospechoso se toma como un nodo, se forma un borde entre dos nombres de dominio que tienen al menos una correlación, y la correlación entre los dos nombres de dominio se toma como un valor de atributo del borde.

Estos nombres de dominio sospechosos pueden analizarse después de obtenerse en la etapa S101, para obtener las correlaciones de los nombres de dominio sospechosos en diferentes dimensiones. Como modo de implementación específico, la correlación entre nombres de dominio puede expresarse en forma de un triplete, tal como (nombre de dominio 1, nombre de dominio 2, un índice de correlación). El índice de correlación en el triplete incluye una dimensión de la medida de correlación y similitud de los dos nombres de dominio en esta dimensión. Para diferentes dimensiones de correlación, pueden establecerse diferentes índices de medición seleccionados como objetivo para medir la similitud de dos nombres de dominio en esta dimensión. Dos nombres de dominio pueden tener similitudes en múltiples dimensiones de características, lo que significa que, en el triplete, el índice de correlación puede estar representado por una matriz.

La correlación entre las diferentes dimensiones incluye cualquier combinación de las siguientes características: similitud en las características gramaticales de los nombres de dominio, similitud en la correlación entre los nombres de dominio y el virus, similitud en direcciones IP resueltas a partir de los nombres de dominio y similitud en los tráficos de acceso de los nombres de dominio. Por supuesto, la correlación no se limita a las categorías anteriores. Pueden seleccionarse tantas dimensiones exhaustivas como sea posible para analizar la correlación de los nombres de dominio, incluyendo todos los aspectos del comportamiento de nombre de dominio. Si se encuentra una correlación en una nueva dimensión, el análisis de características de esta dimensión puede añadirse al análisis, que tiene una fuerte expansibilidad.

En esta realización, puede usarse una base de datos de gráficos para construir y almacenar el gráfico de correlación espacio-tiempo basándose en el triplete, y la posterior expansión del gráfico de correlación espacio-tiempo con el avance del tiempo también puede hacerse funcionar convenientemente basándose en la base de datos de gráficos. El gráfico de correlación espacio-tiempo de nombres de dominio representa correlaciones de los nombres de dominio en tiempo y espacio. Una correlación espacial se refiere a correlaciones en diversas dimensiones. Una correlación temporal se refiere a la relación de nombres de dominio a lo largo del tiempo. Los nombres de dominio que no se correlacionaron originalmente pueden correlacionarse en ciertas dimensiones a medida que avanza el tiempo y se producen ciertos incidentes de seguridad.

En el gráfico de correlación espacio-tiempo de nombres de dominio construido, cada nombre de dominio sospechoso se toma como nodo, y el borde se forma entre dos nombres de dominio que tienen al menos una correlación, y la correlación entre los dos nombres de dominio se toma como un valor de atributo del borde. Un borde puede tener múltiples atributos, y cada atributo corresponde a la correlación de una dimensión, que puede incluir el tiempo cuando el nombre de dominio se detecta como sospechoso, o si el nombre de dominio puede resolverse con éxito para obtener la dirección IP. Por ejemplo, si el nombre de dominio 1 y el nombre de dominio 2 están correlacionados, entonces, en el gráfico de correlación espacio-tiempo de nombres de dominio, el nombre de dominio 1 y el nombre de dominio 2 están conectados por un borde. En otras palabras, solo los dominios que están correlacionados en al menos una dimensión tienen un borde conectado. Tomar la correlación entre nombres de dominio, tales como (dimensión de correlación A, el grado de similitud correspondiente a la dimensión de correlación A; dimensión de correlación B, el grado de similitud correspondiente a la dimensión de correlación B; dimensión de correlación C, el grado de similitud correspondiente a la dimensión de correlación C...) como atributo del borde.

En la etapa S103, los nombres de dominio que están correlacionados de manera cercana en el gráfico de correlación espacio-tiempo de nombres de dominio se determinan según un índice de determinación de la compacidad de cada nodo en el cálculo de gráfico, y un conjunto de los nombres de dominio correspondientes se toman como la familia de nombres de dominio de la red de robots.

La conectividad, es decir, la compacidad de cada nodo, puede tener múltiples métricas, y diferentes métricas tienen un mejor rendimiento en diferentes escenarios. La dispersión y el grado de agrupación promedio son dos índices relativamente adecuados para medir la conectividad de gráficos secundarios. La dispersión se define como una razón del número de bordes en el gráfico con respecto al número de bordes de gráfico completamente conectados formados por nodos en el gráfico. El grado de agrupación promedio se define como un promedio de una razón del número de triángulos alrededor del nodo con respecto al número de posibles triángulos. El índice de dispersión puede medir con precisión la compacidad del gráfico cuando el número de nodos es pequeño, y el grado de agrupación promedio puede medir con precisión la compacidad del gráfico cuando el número de nodos es grande. Por lo tanto, la combinación de dispersión y grado de agrupación promedio puede medir con mayor precisión la compacidad o conectividad del gráfico. Como modo de implementación específico, la presente divulgación puede determinar y obtener nombres de dominio que están correlacionados de manera cercana en el gráfico de correlación espacio-tiempo de nombres de dominio basándose en la dispersión y el grado de agrupación promedio.

El método para detectar la familia de nombres de dominio de la red de robots obtiene nombres de dominio sospechosos; construye un gráfico de correlación espacio-tiempo de nombres de dominio basándose en correlaciones entre nombres de dominio sospechosos en diferentes dimensiones, donde, en el gráfico de correlación espacio-tiempo de nombres de dominio, cada nombre de dominio sospechoso se toma como un nodo, se forma un borde entre dos nombres de dominio que tienen al menos una correlación, y la correlación entre los dos nombres de dominio se toma como un valor de atributo del borde; y determina nombres de dominio que están correlacionados de manera cercana en el gráfico de correlación espacio-tiempo de nombres de dominio según un índice de determinación de la compacidad de cada nodo en el cálculo de gráfico, y toma un conjunto de los nombres de dominio correspondientes como la familia de nombres de dominio de la red de robots. En comparación con el método de detección de familia basándose en características gramaticales que solo se ocupan de un cierto nivel de correlación, la presente divulgación puede expresar uniformemente las correlaciones entre diferentes dimensiones y entre nombres de dominio en forma de gráfico de correlación, teniendo de ese modo una capacidad de detección más fuerte. Además, la detección de la presente divulgación no depende del tráfico de virus, y puede detectar la familia de red de robots más rápidamente y procesarla a tiempo, reduciendo de ese modo diversas pérdidas causadas, y teniendo una aplicabilidad más amplia.

La presente divulgación puede considerar exhaustivamente la similitud entre nombres de dominio en cada dimensión, construir el gráfico de correlación espacio-tiempo de nombres de dominio, excluir gráficos secundarios anómalos en el gráfico basándose en el cálculo de gráfico y excluir nodos anómalos en los gráficos secundarios normales, dejando solo los nombres de dominio correlacionados más cercanos para constituir la familia de red de robots. Finalmente, la presente divulgación toma la familia de red de robots o un gráfico secundario compacto como una unidad, y analiza adicionalmente la familia de red de robots a partir de dimensiones tales como el tráfico de virus, las características gramaticales de los nombres de dominio, para eliminar posibles falsos positivos.

En una realización de la presente divulgación, determinar los nombres de dominio que están correlacionados de manera cercana en el gráfico de correlación espacio-tiempo de nombres de dominio según el índice de determinación de la compacidad de cada nodo en el cálculo de gráfico puede ser específicamente: eliminar un gráfico secundario anómalo y un nodo anómalo en el gráfico de correlación espacio-tiempo de nombres de dominio para determinar los nombres de dominio que están correlacionados de manera cercana en el gráfico de correlación espacio-tiempo de nombres de dominio. Con referencia a la figura 2, un proceso de eliminación del gráfico secundario anómalo y el nodo anómalo en el gráfico de correlación espacio-tiempo de nombres de dominio en la presente divulgación puede incluir específicamente las etapas S201-S203.

En la etapa S201, el gráfico de correlación espacio-tiempo de nombres de dominio se descompone en gráficos secundarios compuestos por una pluralidad de componentes conectados según la conectividad, y se elimina un gráfico secundario anómalo que no cumple con un primer índice de conectividad preestablecido.

El primer índice de conectividad preestablecido puede ser que el número de nodos en un gráfico secundario sea mayor que un umbral preestablecido y la conectividad sea fuerte. Cuando el número de nodos en el gráfico secundario es demasiado pequeño, significa que se recoge demasiado poca información para el nombre del dominio de red de robots de la familia, por lo que es difícil analizar con precisión la correlación entre los nombres de dominio de la familia, por lo que se descartan los gráficos secundarios con menos nodos, y esperan un análisis adicional después de recoger suficiente información. De esta manera, los gráficos secundarios con un número suficiente de nodos y conectividad fuerte pueden analizarse adicionalmente, y los gráficos secundarios restantes pueden descartarse.

Debe indicarse que la conectividad en esta etapa no solo incluye una métrica específica, sino que también incluye las métricas de compacidad de múltiples gráficos.

En esta etapa, dado que el gráfico de correlación espacio-tiempo inicial contiene todas las familias de red de robots que es necesario analizar, la naturaleza de tratar con el almacenamiento masivo estructurado en gráficos al realizar el descubrimiento de componentes conectados requiere una gran cantidad de memoria y potencia de cálculo, por lo que se requiere un procesamiento distribuido. Cuando se calcula la conectividad de los gráficos secundarios formados por componentes conectados, pueden seleccionarse una o más métricas según los requisitos, y se excluyen los gráficos secundarios que no están conectados de manera cercana.

En la etapa S202, los gráficos secundarios restantes después de eliminar el gráfico secundario anómalo se dividen mediante el uso de un algoritmo de descubrimiento de comunidad para obtener comunidades compuestas por una pluralidad de componentes conectados, y se elimina una comunidad anómala que no cumple con un segundo índice de conectividad preestablecido.

Una comunidad se refiere a una estructura de grupo con conexiones internas cercanas y externas dispersas. El algoritmo de descubrimiento de comunidad puede descubrir tal estructura de grupo midiendo la correlación entre nodos. El algoritmo de descubrimiento de comunidad se usa para dividir un gráfico secundario compuesto por componentes con conectividad fuerte en varias comunidades con conectividad más fuerte, y descartar comunidades con menos conectividad. El gráfico secundario obtenido por el algoritmo de descubrimiento de comunidad tiene una compacidad más fuerte, por lo que la posibilidad de pertenecer a la misma familia de red de robots es mayor, y la posibilidad de falsos positivos es menor.

Debe indicarse que el segundo índice de conectividad en la presente divulgación debe ser más estricto que el primer índice de conectividad en cuanto a índices de conectividad, porque la compacidad del gráfico secundario formado por las comunidades es más fuerte que la conectividad del gráfico secundario formado por los componentes conectados donde se ubica la comunidad.

Cuando se selecciona el algoritmo de descubrimiento de comunidad en esta etapa, es necesario considerar exhaustivamente la precisión y la complejidad temporal del algoritmo. Algunos algoritmos con buen rendimiento de división de comunidades a menudo requieren muchos recursos informáticos y consumen mucho tiempo de cálculo. Si bien algunos algoritmos heurísticos pueden descubrir rápidamente comunidades, es necesario considerar adicionalmente un resultado de la división. Por lo tanto, en el despliegue real, la precisión y la complejidad temporal deben ponderarse según las necesidades reales.

En la etapa S203, el grado de importancia de cada nodo en las comunidades restantes después de eliminar la comunidad anómala se mide mediante el uso de un algoritmo de clasificación de páginas web, y se elimina un posible nodo anómalo con bajo grado de importancia.

El algoritmo de clasificación de páginas web se usa originalmente para medir la importancia de una página web particular en relación con otras páginas web en un índice de motor de búsqueda. En un gráfico, el algoritmo de clasificación de páginas web puede medir el grado de importancia de un nodo en todo el gráfico basándose en el grado de correlación entre el nodo y otros nodos. Para una comunidad con conectividad suficientemente fuerte, el algoritmo de clasificación de páginas web se usa para medir la importancia de cada nodo en la comunidad, eliminar el posible punto anómalo con menor importancia y mejorar adicionalmente la compacidad y conectividad de la comunidad.

Se introduce un gráfico en el algoritmo de clasificación de páginas web y se emite una medida de la importancia de cada nodo en el gráfico. Una suma de valores de clasificación de páginas web de todos los nodos es 1. Intuitivamente, si un nodo está correlacionado con otros nodos más, su importancia en el gráfico es más fuerte. La clasificación de los nodos en el gráfico por sus valores de clasificación de página revela nodos que son menos importantes y menos relevantes para otros nodos en el gráfico. Al eliminar estos nodos del gráfico, puede garantizarse que los nodos en el gráfico tengan una conectividad fuerte entre sí. Un método para detectar un punto anómalo basándose en el valor de clasificación de página puede incluir una variedad de métodos estadísticos. Al analizar la distribución de los valores de clasificación de página de los nodos en el gráfico, pueden encontrarse los nodos cuyos valores de clasificación de página son claramente más bajos que el nivel promedio, y luego estos nodos pueden eliminarse del gráfico.

Los nombres de dominio que pertenecen a la misma comunidad se han filtrado muchas veces antes, y los nodos reservados tienen una fuerte correlación y una fuerte cohesión. Por lo tanto, se considera que estos nodos pertenecen a la misma familia de red de robots. Hasta ahora, se completa la agrupación de nodos de la misma familia de red de robots.

Basándose en cualquiera de las realizaciones anteriores, después de tomar el conjunto de los nombres de dominio correspondientes como la familia de nombres de dominio de la red de robots, el método para detectar la familia de nombres de dominio de la red de robots proporcionada en la presente divulgación incluye además:

analizar una característica de familia de la familia de nombres de dominio de la red de robots, y realizar la detección de seguridad en un escenario de aplicación basándose en la característica de familia analizada.

Una característica principal de cada familia está determinada principalmente por el valor de atributo del borde en la comunidad compuesta por los nombres de dominio de la familia. El valor de atributo del borde incluye una o más de la similitud en las características gramaticales de los nombres de dominio, la similitud en la correlación entre los nombres de dominio y el virus, la dirección IP resuelta a partir de los nombres de dominio y la similitud en los tráficos de acceso de los nombres de dominio. Al analizar los valores de atributo del borde, puede entenderse un motivo por el que los nombres de dominio de la familia se agrupan juntos, para comprender la característica principal de los nombres de dominio en la familia de red de robots.

El nombre de dominio de lista negra obtenido puede desplegarse en una variedad de escenarios de aplicación de detección de seguridad, incluyendo, pero sin limitarse a, añadir una base de datos de nombres de dominio de lista negra, y realizar puntuaciones de reputación de nombres de dominio. Los nombres de dominio agrupados en la misma familia de red de robots contienen habitualmente tanto nombres de dominio de CyC conocidos como nombres de dominio recién descubiertos. Al evaluar un grado de correlación entre los nombres de dominio recién descubiertos y los nombres de dominio de CyC conocidos, puede darse un coeficiente de confianza de que estos nombres de dominio recién descubiertos son maliciosos, es decir, puede determinarse una reputación del nombre de dominio.

Además, la presente divulgación también puede incluir: determinar si un nuevo nombre de dominio pertenece a la familia de nombres de dominio de la red de robots determinando la correlación entre el nuevo nombre de dominio y un nombre de dominio conocido, para monitorizar la variante y la expansión de la familia de nombres de dominio de la red de robots.

A medida que la recogida de información del nombre de dominio se vuelve cada vez más completa, puede obtenerse más información del nombre de dominio e información de correlación del nombre de dominio sobre una familia de red de robots, y el gráfico de correlación espacio-tiempo de nombres de dominio de esta familia puede llegar a ser cada vez más completo. Muchas familias de nombres de dominio que no se analizaron de manera continua originalmente porque el número de nodos en el gráfico no era suficiente o la conectividad no era lo suficientemente cercana pueden no filtrarse más con la recogida de información, dando como resultado más resultados de detección. Puede encontrarse que los gráficos secundarios que originalmente se consideraron pertenecientes a dos familias de red de robots pertenecen a la misma familia de red de robots debido a la mejora continua de la recogida de información.

Con el fin de escapar a la detección, un pirata informático usa un nuevo nombre de dominio para comunicarse. Dado que las correlaciones del nuevo nombre de dominio y los nombres de dominio conocidos pueden evaluarse en múltiples dimensiones, y puede usarse una estructura de datos del gráfico para expresar las correlaciones, es fácil determinar si el nuevo nombre de dominio pertenece a una familia de red de robots previamente detectada basándose en el gráfico de correlación espacio-tiempo de la familia de red de robots, para observar la evolución y expansión de la familia. Además, debido a la instantaneidad del método para detectar la familia de nombres de dominio de la red de robots basándose en el cálculo de gráfico, el nombre de dominio de CyC recién añadido de una cierta familia de red de robots puede detectarse a tiempo.

La presente divulgación analiza la similitud entre nombres de dominio en cada dimensión, expresa uniformemente la similitud de diferentes dimensiones con la estructura de datos del gráfico y forma el gráfico de correlación espaciotiempo de nombres de dominio. El algoritmo de cálculo de gráfico se ejecuta en el gráfico de correlación espaciotiempo, se encuentran varios gráficos secundarios con una cohesión fuerte y alcance débil tras el descubrimiento de componentes conectados, descubrimiento de comunidad y detección de puntos anómalos basándose en la clasificación de páginas web. Cada gráfico secundario corresponde a una familia de nombres de dominio de red de robots. La presente divulgación no se basa únicamente en una característica de una determinada dimensión para agrupar y detectar nombres de dominio de CyC que pertenecen a la misma familia de red de robots, sino que considera exhaustivamente la correlación de similitud entre los nombres de dominio en diversas dimensiones, por lo tanto, los nombres de dominio que pertenecen a la misma familia de red de robots pueden analizarse de manera más exhaustiva y tienen una escalabilidad más fuerte. Una característica de la dimensión recién añadida también puede añadirse fácilmente al método de detección propuesto en la presente divulgación. El método de detección propuesto en la presente divulgación tiene un fuerte rendimiento en tiempo real, y no es necesario obtener una muestra de archivo malicioso correspondiente al nombre de dominio de CyC antes de analizar la familia de red de robots a la que pertenece.

Además, la presente divulgación puede analizar diferentes propiedades de diferentes tipos de nombres de dominio de CyC basándose en la familia y aplicar además el resultado del análisis de familia a otros escenarios de detección de seguridad. Además, la presente divulgación también puede seguir la evolución y expansión de la familia de nombres de dominio de la red de robots, y descubrir un nuevo nombre de dominio de CyC en la familia con el tiempo.

A continuación, se presenta un dispositivo para detectar una familia de nombres de dominio de una red de robots proporcionada en las realizaciones de la presente divulgación. El dispositivo para detectar la familia de nombres de dominio de la red de robots descrito a continuación y el método para detectar la familia de nombres de dominio de la red de robots descrito anteriormente pueden hacerse referencia entre sí.

La figura 3 es un diagrama de bloques estructural del dispositivo para detectar la familia de nombres de dominio de la red de robots según una realización de la presente divulgación. Con referencia a la figura 3, el dispositivo para detectar la familia de nombres de dominio de la red de robots puede incluir: un módulo de obtención de nombres de dominio 100, un módulo de construcción de gráfico de correlación 200 y un módulo de detección 300.

El módulo de obtención de nombres de dominio 100 está configurado para obtener nombres de dominio sospechosos.

El módulo de construcción de gráfico de correlación 200 está configurado para construir un gráfico de correlación espacio-tiempo de nombres de dominio basándose en correlaciones entre los nombres de dominio sospechosos en diferentes dimensiones, donde, en el gráfico de correlación espacio-tiempo de nombres de dominio, cada nombre de dominio sospechoso se toma como un nodo, se forma un borde entre dos nombres de dominio que tienen al menos una correlación, y la correlación entre los dos nombres de dominio se toma como un valor de atributo del borde.

El módulo de detección 300 está configurado para determinar nombres de dominio que están correlacionados de manera cercana en el gráfico de correlación espacio-tiempo de nombres de dominio según un índice de determinación de la compacidad de cada nodo en el cálculo de gráfico, y tomar un conjunto de los nombres de dominio correspondientes como la familia de nombres de dominio de la red de robots.

El módulo de detección 300 está configurado específicamente para determinar nombres de dominio que están correlacionados de manera cercana en el gráfico de correlación espacio-tiempo de nombres de dominio según la dispersión y el grado de agrupación promedio.

Como una forma de implementación específica, el módulo de detección 300 está configurado específicamente para eliminar un gráfico secundario anómalo y un nodo anómalo en el gráfico de correlación espacio-tiempo de nombres de dominio para determinar nombres de dominio que están correlacionados de manera cercana en el gráfico de correlación espacio-tiempo de nombres de dominio.

Las correlaciones en diferentes dimensiones incluyen cualquier combinación de las siguientes características:

similitud en las características gramaticales de los nombres de dominio, similitud en las correlaciones entre los nombres de dominio y un virus, similitud en direcciones IP resueltas a partir de los nombres de dominio y similitud en los tráficos de acceso de los nombres de dominio.

Basándose en cualquiera de las realizaciones anteriores, el dispositivo para detectar la familia de nombres de dominio de la red de robots proporcionada en la presente divulgación puede incluir además un módulo de detección de seguridad.

El módulo de detección de seguridad está configurado para analizar, después de tomar el conjunto de los nombres de dominio correspondientes como la familia de nombres de dominio de la red de robots, una característica de familia de la familia de nombres de dominio de la red de robots, y realizar la detección de seguridad en un escenario de aplicación basado en la característica de la familia analizada.

Además, basándose en cualquiera de las realizaciones anteriores, el dispositivo para detectar la familia de nombres de dominio de la red de robots proporcionada en la presente divulgación puede incluir además un módulo de monitorización.

El módulo de monitorización está configurado para determinar, después de tomar el conjunto de los nombres de dominio correspondientes como la familia de nombres de dominio de la red de robots, si un nuevo nombre de dominio pertenece a la familia de nombres de dominio de la red de robots determinando la correlación entre el nuevo nombre de dominio y un nombre de dominio conocido, para monitorizar la variante y la expansión de la familia de nombres de dominio de la red de robots.

El dispositivo para detectar la familia de nombres de dominio de la red de robots de esta realización se usa para implementar el método mencionado anteriormente para detectar la familia de nombres de dominio de la red de robots. Por lo tanto, el modo de implementación específico del dispositivo para detectar la familia de nombres de dominio de la red de robots puede observarse en el modo de implementación mencionado anteriormente del método para detectar la familia de nombres de dominio de la red de robots. Por ejemplo, el módulo de obtención de nombres de dominio 100, el módulo de construcción de gráfico de correlación 200 y el módulo de detección 300 se usan respectivamente para implementar las etapas S101, S102 y S103 en el método anterior para detectar la familia de nombres de dominio de la red de robots. Por lo tanto, el modo de implementación específico puede referirse a la descripción correspondiente de cada parte de las realizaciones, y no se repetirá aquí.

En otro aspecto, en la presente divulgación se proporciona además un aparato para detectar una familia de nombres de dominio de una red de robots, que incluye una memoria y un procesador.

La memoria está configurada para almacenar un programa informático.

El procesador está configurado para ejecutar el programa para implementar las etapas de cualquiera de los métodos anteriores para detectar la familia de nombres de dominio de la red de robots.

En otro aspecto, se proporciona además un medio de almacenamiento legible por ordenador en la presente solicitud, el medio de almacenamiento legible por ordenador almacena un programa informático que, cuando se ejecuta por un procesador, implementa las etapas de cualquiera de los métodos anteriores para detectar la familia de nombres de dominio de la red de robots.

Para resumir, la presente divulgación analiza la similitud entre nombres de dominio en cada dimensión, expresa uniformemente la similitud de diferentes dimensiones con la estructura de datos del gráfico, y forma el gráfico de correlación espacio-tiempo de nombres de dominio. El algoritmo de cálculo de gráfico se ejecuta en el gráfico de correlación espacio-tiempo, se encuentran varios gráficos secundarios con una cohesión fuerte y un alcance débil tras el descubrimiento de componentes conectados, descubrimiento de comunidad y detección de puntos anómalos basándose en la clasificación de páginas web. Cada gráfico secundario corresponde a una familia de nombres de dominio de red de robots. La presente divulgación no se basa únicamente en una característica de una determinada dimensión para agrupar y detectar nombres de dominio de CyC que pertenecen a la misma familia de red de robots, sino que considera exhaustivamente la correlación de similitud entre los nombres de dominio en diversas dimensiones, por lo tanto, el nombre del dominio puede analizarse de manera más exhaustiva y tiene una escalabilidad más fuerte. Una característica de la dimensión recién añadida también puede añadirse fácilmente al método de detección propuesto en la presente divulgación. El método de detección propuesto en la presente divulgación tiene un fuerte rendimiento en tiempo real, y no es necesario obtener una muestra de archivo malicioso correspondiente al nombre de dominio de CyC antes de analizar la familia de red de robots a la que pertenece.

Las realizaciones anteriores en esta memoria descriptiva se describen de manera progresiva. Cada una de las realizaciones se centra principalmente en describir sus diferencias con respecto a otras realizaciones, y pueden hacerse referencias entre estas realizaciones con respecto a las mismas partes o similares entre estas realizaciones. Dado que las realizaciones del dispositivo son similares a las realizaciones del método, su descripción es relativamente simple, y puede hacerse referencia a la descripción de las realizaciones del método para partes relevantes.

Los expertos en la técnica pueden darse cuenta además de que, en combinación con las realizaciones en el presente documento, unidades y algoritmos, etapas de cada ejemplo descrito pueden implementarse con hardware electrónico, software informático, o la combinación de los mismos. Para describir claramente la intercambiabilidad entre el hardware y el software, las composiciones y etapas de cada ejemplo se han descrito generalmente según funciones en las descripciones anteriores. Si las funciones se ejecutan en un modo de hardware o software depende de aplicaciones particulares y condiciones de restricción de diseño de las soluciones técnicas. Los expertos en la técnica pueden usar diferentes métodos para implementar las funciones descritas para cada aplicación particular, pero no debe considerarse que la implementación va más allá del alcance de las realizaciones de la presente divulgación.

En combinación con las realizaciones en el presente documento, las etapas del método o el algoritmo descrito pueden implementarse directamente usando hardware, un módulo de software ejecutado por un procesador, o la combinación de los mismos. El módulo de software puede colocarse en una memoria de acceso aleatorio (RAM), una memoria, una memoria de solo lectura (ROM), una ROM programable eléctricamente (EPROM), una ROM programable y borrable eléctricamente (EEPROM), un registro, un disco duro, un disco magnético extraíble, un CD-ROM, o cualquier medio de almacenamiento de otras formas bien conocidas en el campo técnico.

El método, dispositivo y aparato para detectar la familia de nombres de dominio de la red de robots y el medio de almacenamiento legible por ordenador proporcionados en la presente divulgación se describieron en detalle anteriormente. Se usan ejemplos específicos en la descripción para describir los principios e implementaciones de la presente divulgación. La descripción de los ejemplos anteriores solo se usa para ayudar a comprender el método y las ideas centrales de la presente divulgación. Debe indicarse que, para los expertos en la técnica, sin apartarse de los principios de la presente divulgación, pueden hacerse varias mejoras y modificaciones a la presente divulgación, y estas mejoras y modificaciones también se encuentran dentro del alcance de protección de las reivindicaciones de la presente divulgación.

Claims

REIVINDICACIONES

i. Un método para detectar una familia de nombres de dominio de una red de robots, que comprende:

obtener (S101) nombres de dominio sospechosos;

construir (S102) un gráfico de correlación espacio-tiempo de nombres de dominio basándose en correlaciones entre los nombres de dominio sospechosos en diferentes dimensiones, en el que en el gráfico de correlación espacio-tiempo de nombres de dominio, cada nombre de dominio sospechoso se toma como un nodo, se forma un borde entre dos nombres de dominio que tienen al menos una correlación, y la correlación entre los dos nombres de dominio se toma como un valor de atributo del borde, en el que las correlaciones en diferentes dimensiones comprenden cualquier combinación de las siguientes características: similitud en las características gramaticales de los nombres de dominio, similitud en las correlaciones entre los nombres de dominio y un virus, similitud en direcciones IP resueltas a partir de los nombres de dominio y similitud en los tráficos de acceso de los nombres de dominio; y

determinar (S103) nombres de dominio que están correlacionados de manera cercana en el gráfico de correlación espacio-tiempo de nombres de dominio según un índice de determinación de una compacidad de cada nodo en el cálculo de gráfico, y tomar un conjunto de los nombres de dominio correspondientes como la familia de nombres de dominio de la red de robots.
2. El método para detectar la familia de nombres de dominio de la red de robots según la reivindicación 1, en el que determinar los nombres de dominio que están correlacionados de manera cercana en el gráfico de correlación espacio-tiempo de nombres de dominio según el índice de determinación de la compacidad de cada nodo en el cálculo de gráfico comprende:

determinar los nombres de dominio que están correlacionados de manera cercana en el gráfico de correlación espacio-tiempo de nombres de dominio según la dispersión y el grado de agrupación promedio.
3. El método para detectar la familia de nombres de dominio de la red de robots según la reivindicación 1, en el que determinar los nombres de dominio que están correlacionados de manera cercana en el gráfico de correlación espacio-tiempo de nombres de dominio según el índice de determinación de la compacidad de cada nodo en el cálculo de gráfico comprende:

eliminar un gráfico secundario anómalo y un nodo anómalo en el gráfico de correlación espacio-tiempo de nombres de dominio, y determinar los nombres de dominio que están correlacionados de manera cercana en el gráfico de correlación espacio-tiempo de nombres de dominio.
4. El método para detectar la familia de nombres de dominio de la red de robots según la reivindicación 3, en el que eliminar el gráfico secundario anómalo y el nodo anómalo en el gráfico de correlación espacio-tiempo de nombres de dominio comprende:

descomponer (S201) el gráfico de correlación espacio-tiempo de nombres de dominio en gráficos secundarios compuestos por una pluralidad de componentes conectados según la conectividad, y eliminar un gráfico secundario anómalo que no cumple con un primer índice de conectividad preestablecido;

dividir (S202) los gráficos secundarios restantes después de eliminar el gráfico secundario anómalo mediante el uso de un algoritmo de descubrimiento de comunidad para obtener comunidades compuestas por una pluralidad de componentes conectados, y eliminar una comunidad anómala que no cumple con un segundo índice de conectividad preestablecido; y

medir (S203) el grado de importancia de cada nodo en las comunidades restantes después de eliminar la comunidad anómala mediante el uso de un algoritmo de clasificación de páginas web, y eliminar un posible nodo anómalo con bajo grado de importancia.
5. El método para detectar la familia de nombres de dominio de la red de robots según una cualquiera de las reivindicaciones 1 a 4, en el que después de tomar el conjunto de los nombres de dominio correspondientes como la familia de nombres de dominio de la red de robots, el método comprende además:

analizar una característica de familia de la familia de nombres de dominio de la red de robots, y realizar la detección de seguridad en un escenario de aplicación basándose en la característica de familia analizada.
6. El método para detectar la familia de nombres de dominio de la red de robots según la reivindicación 5, en el que después de tomar el conjunto de los nombres de dominio correspondientes como la familia de nombres de dominio de la red de robots, el método comprende además:

determinar si un nuevo nombre de dominio pertenece a la familia de nombres de dominio de la red de robots determinando la correlación entre el nuevo nombre de dominio y un nombre de dominio conocido, para monitorizar la variante y la expansión de la familia de nombres de dominio de la red de robots.
7. Un dispositivo para detectar una familia de nombres de dominio de una red de robots, que comprende:

un módulo de obtención de nombres de dominio (100) configurado para obtener nombres de dominio sospechosos;

un módulo de construcción de gráfico de correlación (200) configurado para construir un gráfico de correlación espacio-tiempo de nombres de dominio basándose en correlaciones entre los nombres de dominio sospechosos en diferentes dimensiones, en el que, en el gráfico de correlación espacio-tiempo de nombres de dominio, cada nombre de dominio sospechoso se toma como un nodo, se forma un borde entre dos nombres de dominio que tienen al menos una correlación y la correlación entre los dos nombres de dominio se toma como un valor de atributo del borde, en el que las correlaciones en diferentes dimensiones comprenden cualquier combinación de las siguientes características: similitud en las características gramaticales de los nombres de dominio, similitud en las correlaciones entre los nombres de dominio y un virus, similitud en direcciones IP resueltas a partir de los nombres de dominio y similitud en los tráficos de acceso de los nombres de dominio; y

un módulo de detección (300) configurado para determinar nombres de dominio que están correlacionados de manera cercana en el gráfico de correlación espacio-tiempo de nombres de dominio según un índice de determinación de una compacidad de cada nodo en el cálculo de gráfico, y tomar un conjunto de los nombres de dominio correspondientes como la familia de nombres de dominio de la red de robots.
8. El dispositivo para detectar la familia de nombres de dominio de la red de robots según la reivindicación 7, en el que el módulo de detección está configurado para:

determinar los nombres de dominio que están correlacionados de manera cercana en el gráfico de correlación espacio-tiempo de nombres de dominio según la dispersión y el grado de agrupación promedio.
9. El dispositivo para detectar la familia de nombres de dominio de la red de robots según la reivindicación 7, en el que el módulo de detección está configurado para:

eliminar un gráfico secundario anómalo y un nodo anómalo en el gráfico de correlación espacio-tiempo de nombres de dominio para determinar los nombres de dominio que están correlacionados de manera cercana en el gráfico de correlación espacio-tiempo de nombres de dominio.
10. El dispositivo para detectar la familia de nombres de dominio de la red de robots según la reivindicación 9, en el que el módulo de detección está configurado para:

descomponer el gráfico de correlación espacio-tiempo de nombres de dominio en gráficos secundarios compuestos por una pluralidad de componentes conectados según la conectividad, y eliminar un gráfico secundario anómalo que no cumple con un primer índice de conectividad preestablecido;

dividir los gráficos secundarios restantes después de eliminar el gráfico secundario anómalo mediante el uso de un algoritmo de descubrimiento de comunidad para obtener comunidades compuestas por una pluralidad de componentes conectados, y eliminar una comunidad anómala que no cumple con un segundo índice de conectividad preestablecido; y

medir el grado de importancia de cada nodo en las comunidades restantes después de eliminar la comunidad anómala mediante el uso de un algoritmo de clasificación de páginas web, y eliminar un posible nodo anómalo con bajo grado de importancia.
11. El dispositivo para detectar la familia de nombres de dominio de la red de robots según una cualquiera de las reivindicaciones 7 a 10, en el que el dispositivo comprende además:

un módulo de detección de seguridad configurado para analizar, después de tomar el conjunto de los nombres de dominio correspondientes como la familia de nombres de dominio de la red de robots, una característica de familia de la familia de nombres de dominio de la red de robots, y realizar la detección de seguridad en un escenario de aplicación basándose en la característica de familia analizada.
12. El dispositivo para detectar la familia de nombres de dominio de la red de robots según la reivindicación 11, en el que el dispositivo comprende además:

un módulo de monitorización configurado para determinar, después de tomar el conjunto de los nombres de dominio correspondientes como la familia de nombres de dominio de la red de robots, si un nuevo nombre de dominio pertenece a la familia de nombres de dominio de la red de robots determinando la correlación entre el nuevo nombre de dominio y un nombre de dominio conocido, para monitorizar la variante y la expansión de la familia de nombres de dominio de la red de robots.
13. Un medio de almacenamiento legible por ordenador, en el que el medio de almacenamiento legible por ordenador almacena un programa informático que, cuando se ejecuta por un procesador, implementa etapas del método para detectar la familia de nombres de dominio de la red de robots según una cualquiera de las reivindicaciones 1 a 6.