CN118400575A - 视频处理方法及相关装置 - Google Patents
视频处理方法及相关装置 Download PDFInfo
- Publication number
- CN118400575A CN118400575A CN202410821581.9A CN202410821581A CN118400575A CN 118400575 A CN118400575 A CN 118400575A CN 202410821581 A CN202410821581 A CN 202410821581A CN 118400575 A CN118400575 A CN 118400575A
- Authority
- CN
- China
- Prior art keywords
- video
- vector
- text
- text information
- clip
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 17
- 239000013598 vector Substances 0.000 claims abstract description 222
- 238000000034 method Methods 0.000 claims description 31
- 238000004364 calculation method Methods 0.000 claims description 23
- 230000008569 process Effects 0.000 claims description 14
- 238000003062 neural network model Methods 0.000 claims description 10
- 230000015654 memory Effects 0.000 claims description 9
- 238000003860 storage Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 description 9
- 238000004519 manufacturing process Methods 0.000 description 5
- 235000009508 confectionery Nutrition 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 101001121408 Homo sapiens L-amino-acid oxidase Proteins 0.000 description 2
- 101000827703 Homo sapiens Polyphosphoinositide phosphatase Proteins 0.000 description 2
- 102100026388 L-amino-acid oxidase Human genes 0.000 description 2
- 102100023591 Polyphosphoinositide phosphatase Human genes 0.000 description 2
- 101100012902 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) FIG2 gene Proteins 0.000 description 2
- 101100233916 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) KAR5 gene Proteins 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
- H04N21/44016—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving splicing one content stream with another content stream, e.g. for substituting a video clip
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/435—Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
- H04N21/44008—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/845—Structuring of content, e.g. decomposing content into time segments
- H04N21/8456—Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Television Signal Processing For Recording (AREA)
Abstract
本发明公开视频处理方法及相关装置,应用于多媒体领域,可以将目标视频分成多个视频片段;针对任一视频片段,根据视频片段中的一组视频帧,计算得到视频片段对应的视频向量;按照视频需求,对预先建立的文本信息进行处理,得到相应的文本集;计算文本集中的各文本信息对应的文本向量,并确定与文本向量匹配的视频向量,文本集包括多个文本信息,一个文本信息对应一个文本向量,一个文本向量匹配一个视频向量;根据确定的视频向量对应的视频片段,剪辑得到相应的视频。本发明可以基于视频向量和视频需求,匹配合适的视频片段然后自动剪辑生成相应的短视频,匹配程度较高且不需要人工参与,可以快速生产大量高质量的短视频,效率较高。
Description
技术领域
本发明涉及多媒体领域,特别涉及一种视频处理方法及相关装置。
背景技术
现有的短视频生产方法大多是用户在现有剪辑软件上进行选取素材和剪辑,这种方式依赖用户的经验和熟练度,生产短视频的效率低下。
发明内容
鉴于上述问题,本发明提供一种克服上述问题或者至少部分地解决上述问题的一种视频处理方法及相关装置。
第一方面,一种视频处理方法,包括:
将目标视频分成多个视频片段;
针对任一所述视频片段,根据所述视频片段中的一组视频帧,计算得到所述视频片段对应的视频向量,其中,一个视频片段对应一个视频向量;
按照视频需求,对预先建立的文本信息进行处理,得到相应的文本集;
计算所述文本集中的各文本信息对应的文本向量,并确定与所述文本向量匹配的视频向量,其中,所述文本集包括多个文本信息,一个文本信息对应一个文本向量,一个文本向量匹配一个视频向量;
根据确定的视频向量对应的视频片段,剪辑得到相应的视频。
可选的,在某些可选的实施方式中,所述针对任一所述视频片段,根据所述视频片段中的一组视频帧,计算得到所述视频片段对应的视频向量,包括:
针对任一所述视频片段,从所述视频片段中抽取得到一组视频帧,其中,一组视频帧包括多个视频帧;
针对任一组视频帧,计算相应的各视频帧对应的图像向量;
针对任一组视频帧,根据相应的各图像向量,计算得到对应的视频向量。
可选的,在某些可选的实施方式中,所述针对任一组视频帧,计算相应的各视频帧对应的图像向量,包括:
针对任一组视频帧,使用预先建立的图像神经网络模型分别对各视频帧进行计算,得到各视频帧对应的图像向量,其中,一个视频帧对应一个图像向量。
可选的,在某些可选的实施方式中,所述针对任一组视频帧,根据相应的各图像向量,计算得到对应的视频向量,包括:
针对任一组视频帧,计算相应的各图像向量的平均值,得到对应的视频向量。
可选的,在某些可选的实施方式中,所述按照视频需求,对预先建立的文本信息进行处理,得到相应的文本集,包括:
按照视频需求,对预先建立的文本信息进行拆分处理和复制处理中的至少一项处理,得到与所述文本信息对应的文本集。
可选的,在某些可选的实施方式中,所述计算所述文本集中的各文本信息对应的文本向量,并确定与所述文本向量匹配的视频向量,包括:
针对所述文本集中的各文本信息,使用预先建立的文本神经网络模型分别计算各文本信息对应的文本向量;
针对任一所述文本向量,计算各视频向量与所述文本向量的相似度,将相似度最高的视频向量确定为与所述文本向量匹配的视频向量。
可选的,在某些可选的实施方式中,所述根据确定的视频向量对应的视频片段,剪辑得到相应的视频,包括:
按照确定的视频向量对应的视频片段之间的顺序进行拼接,并配上相应的音频和字幕,得到相应的视频,其中,任一视频片段的音频和字幕与相应的文本信息对应。
可选的,在某些可选的实施方式中,所述将目标视频分成多个视频片段,包括:
按照分镜信息,将目标视频分成多个视频片段,其中,所述分镜信息预先识别得到,一条分镜信息对应一个视频片段。
第二方面,一种视频处理装置,包括:视频拆分单元、视频向量计算单元、文本处理单元、向量匹配单元和视频剪辑单元;
所述视频拆分单元,用于将目标视频分成多个视频片段;
所述视频向量计算单元,用于针对任一所述视频片段,根据所述视频片段中的一组视频帧,计算得到所述视频片段对应的视频向量,其中,一个视频片段对应一个视频向量;
所述文本处理单元,用于按照视频需求,对预先建立的文本信息进行处理,得到相应的文本集;
所述向量匹配单元,用于计算所述文本集中的各文本信息对应的文本向量,并确定与所述文本向量匹配的视频向量,其中,所述文本集包括多个文本信息,一个文本信息对应一个文本向量,一个文本向量匹配一个视频向量;
所述视频剪辑单元,用于根据确定的视频向量对应的视频片段,剪辑得到相应的视频。
第三方面,一种计算机可读存储介质,其上存储有程序,所述程序被处理器执行时实现上述任一项所述的视频处理方法。
第四方面,一种电子设备,所述电子设备包括至少一个处理器、以及与所述处理器连接的至少一个存储器、总线;其中,所述处理器、所述存储器通过所述总线完成相互间的通信;所述处理器用于调用所述存储器中的程序指令,以执行上述任一项所述的视频处理方法。
借由上述技术方案,本发明提供的一种视频处理方法及相关装置,可以将目标视频分成多个视频片段;针对任一所述视频片段,根据所述视频片段中的一组视频帧,计算得到所述视频片段对应的视频向量,其中,一个视频片段对应一个视频向量;按照视频需求,对预先建立的文本信息进行处理,得到相应的文本集;计算所述文本集中的各文本信息对应的文本向量,并确定与所述文本向量匹配的视频向量,其中,所述文本集包括多个文本信息,一个文本信息对应一个文本向量,一个文本向量匹配一个视频向量;根据确定的视频向量对应的视频片段,剪辑得到相应的视频。由此可以看出,本发明可以基于视频向量和视频需求,匹配选取合适的视频片段然后自动剪辑生成相应的短视频,匹配程度较高且不需要人工参与,可以快速生产大量高质量的短视频,效率较高。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明提供的第一种视频处理方法的流程图;
图2示出了本发明提供的第二种视频处理方法的流程图;
图3示出了本发明提供的第三种视频处理方法的流程图;
图4示出了本发明提供的一种视频处理装置的结构示意图;
图5示出了本发明提供的一种电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
如图1所示,本发明提供了一种视频处理方法,包括:S100、S200、S300、S400和S500;
S100、将目标视频分成多个视频片段;
可选的,本发明所说的目标视频可以是任意一段长视频。即,本发明可以将长视频切分成多个视频片段,各视频片段按照在原长视频中的播放先后顺序依次排序,本发明对此不做限制。
可选的,分成多个视频片段有利于后续根据视频需求,选择需要的视频片段进行剪辑,得到短视频,本发明对此不做限制。
可选的,本发明对于每个视频片段的长度不做具体限制,可以根据实际需要进行设定。例如,如图2所示,在某些可选的实施方式中,所述S100,包括:S110;
S110、按照分镜信息,将目标视频分成多个视频片段;
其中,所述分镜信息预先识别得到,一条分镜信息对应一个视频片段。
可选的,一个长视频可能由多个分镜头的视频剪辑而成,分镜头之间有切换的时间点,作为两个分镜头的切割点。例如,镜头上一秒是面向演员A,下一秒切换到演员B,这里就是两个分镜头。本发明可以利用视频帧的连贯性预先识别分镜信息,若上一帧和当前帧不连贯(不相似)则认为是切换了分镜。本发明具体可以用现有的视频切分器(例如PysceneDetect)来预先获取长视频的分镜信息,本发明对此不做限制。
可选的,本发明在识别得到分镜信息之后,可以根据分镜信息中的视频帧信息(记录了区分相邻两个分镜头的视频帧)或者时刻信息(记录了区分相邻两个分镜头的时刻),将目标视频分成多个视频片段,本发明对此不做限制。
S200、针对任一所述视频片段,根据所述视频片段中的一组视频帧,计算得到所述视频片段对应的视频向量;
其中,一个视频片段对应一个视频向量;
可选的,对于任一个视频片段而言,本发明可以从中抽取一组视频帧,然后计算得到视频向量。即,如图3所示,在某些可选的实施方式中,所述S200,包括:S210、S220和S230;
S210、针对任一所述视频片段,从所述视频片段中抽取得到一组视频帧;
其中,一组视频帧包括多个视频帧;
可选的,本发明可以根据实际需要,设定抽取视频帧的方式。例如,本发明可以每隔N秒抽取一个视频帧,N可以根据实际需要进行设定,本发明对此不做限制。
S220、针对任一组视频帧,计算相应的各视频帧对应的图像向量;
例如,在某些可选的实施方式中,所述S220,包括:
针对任一组视频帧,使用预先建立的图像神经网络模型分别对各视频帧进行计算,得到各视频帧对应的图像向量,其中,一个视频帧对应一个图像向量。
可选的,如前所述,一个视频片段对应一组视频帧,为了计算视频片段的视频向量,本发明可以通过计算相应视频帧的图像向量,然后再根据图像向量计算得到相应的视频向量,本发明对此不做限制。
可选的,本发明所说的图像神经网络模型可以同时对多个视频帧进行计算,然后得到多个视频帧分别的图像向量。当然,图像神经网络模型也可以每次对一个视频帧计算得到一个视频帧的图像向量,依次对各视频帧进行计算得到相应的图像向量,本发明对此不做限制。
可选的,本发明计算视频帧的图像向量可以使用深层卷积网络模型(VisualGeometry Group,VGG),本发明对此不做限制。
S230、针对任一组视频帧,根据相应的各图像向量,计算得到对应的视频向量。
可选的,如前所述,每一个抽取出来的视频帧都计算得到相应的图像向量,一个视频片段对应一组视频帧的多个视频帧。因此,针对任何一组视频帧而言,本发明可以使用该组视频帧的各视频帧的图像向量计算得到相应的视频向量,一个视频片段对应一个视频向量,本发明对此不做限制。
例如,在某些可选的实施方式中,所述S230,包括:
针对任一组视频帧,计算相应的各图像向量的平均值,得到对应的视频向量。
可选的,如前所述,一组视频帧包括多个视频帧,一个视频帧对应一个图像向量。即,一组视频帧对应多个图像向量。本发明可以计算多个图像向量的平均值,作为相应视频片段的视频向量,本发明对此不做限制。
S300、按照视频需求,对预先建立的文本信息进行处理,得到相应的文本集;
例如,在某些可选的实施方式中,所述S300,包括:
按照视频需求,对预先建立的文本信息进行拆分处理和复制处理中的至少一项处理,得到与所述文本信息对应的文本集。
可选的,本发明所说的视频需求可以用参数来表征。例如甜蜜视频和解说视频可以分别用0和1表示,还有其他类型的视频,如空镜视频和打斗视频可以分别用2和3表示,以此类推,本发明对此不做限制。视频需求不同,对文本信息的内容和格式要求也不同。本发明可以预先按照需要提供对应的文本信息,以便于后续按照视频需求正确处理文本信息(例如拆分处理和复制处理等)。
例如,如果组成短视频的视频片段,都有相同的属性,比如都是男女主甜蜜的画面,那么这个时候就需要使用一些和甜蜜相关的词语去匹配这些画面,因此,可以执行复制处理。又例如,如果组成短视频的视频片段,不具有相似性,比如解说类视频,视频片段之间是有逻辑关系的,那么所要求的文本信息也是要有逻辑关系的解说词文本,而不是一些相似的词语,因此,可以对文本信息进行切分,然后用切分后的文本去匹配分镜头,本发明对此不做限制。
S400、计算所述文本集中的各文本信息对应的文本向量,并确定与所述文本向量匹配的视频向量;
其中,所述文本集包括多个文本信息,一个文本信息对应一个文本向量,一个文本向量匹配一个视频向量;
例如,在某些可选的实施方式中,所述S400,包括:步骤1.1和步骤1.2;
步骤1.1、针对所述文本集中的各文本信息,使用预先建立的文本神经网络模型分别计算各文本信息对应的文本向量;
步骤1.2、针对任一所述文本向量,计算各视频向量与所述文本向量的相似度,将相似度最高的视频向量确定为与所述文本向量匹配的视频向量。
可选的,一个文本信息可以对应一个文本向量,对于每一个文本向量而言,本发明可以匹配找到最相似的视频向量,然后存储视频向量对应的视频片段。在匹配找最相似的视频片段时,本发明可以指定一个查找范围(生产不同视频需求的短视频有不同的查找范围),然后使用矩阵乘法,快速计算出每一个文本向量和所有视频向量的相似度,然后从中选择相似度最高的视频向量,本发明对此不做限制。
可选的,本发明在计算文本向量时可以使用长短期记忆网络(Long Short-TermMemory,LSTM)、Transformer、语言表示模型(Bidirectional Encoder Representationsfrom Transformers,BERT)、深度学习模型(Generative Pre-Trained,GPT)和多模态预训练神经网络模型(Constrastive Language-Image Pre-training,CLIP)等模型进行计算,具体可以综合性能和效率进行选择,本发明对此不做限制。
S500、根据确定的视频向量对应的视频片段,剪辑得到相应的视频。
例如,在某些可选的实施方式中,所述S500,包括:
按照确定的视频向量对应的视频片段之间的顺序进行拼接,并配上相应的音频和字幕,得到相应的视频,其中,任一视频片段的音频和字幕与相应的文本信息对应。
可选的,如前所述,已经通过相似度匹配,确定得到了多个视频片段,本发明可以将这些视频片段按照一定的顺序进行拼接、剪辑得到相应的短视频,本发明对此不做限制。
需要说明的是:在添加字幕时,本发明可以从相应的文本信息中抽取字幕内容或者直接使用相应的文本信息作为字幕,本发明对此不做限制。对于音频而言,本发明可以将相应文本信息转化得到的音频,也可以根据文本信息匹配适当的音频。
可选的,本发明可以配置参数,将所有存储的视频片段进行剪辑和处理,最后整合为一个短视频。这里的参数可以用于配置短视频中的一些剪辑方法,比如是否去除原声、是否添加背景音乐、背景音乐的类型、是否添加字幕、字幕的位置字体大小和是否添加视频滤镜等,参数根据所要生产的短视频的类型而定,这里不做限制。
可选的,为了更加清楚说明本发明的方案,下面以生产甜蜜类型的短视频和剧情解说类型的短视频为例进行说明。
一、生产甜蜜类型的短视频:
(1)视频向量计算。针对每一个视频,按照分镜信息切分为多个视频片段,每个视频片段按每1秒抽一帧得到多组视频帧,使用CLIP的图像模型将从每一帧图像中抽取512维的图像向量,将每组视频帧的图像向量的均值作为改组视频帧对应视频片段的视频向量,存储在向量库中。为了后续的视频片段匹配,这里还可以对视频片段中出现的人物进行检测,并将检测结果存储在数据库中,此处的人脸检测是为了优化当前实例生产短视频的效果所添加的操作。
(2)文本向量计算。将围绕甜蜜预设的文本信息复制多份,得到文本集,使用CLIP的文本模型将文本集中的每一个文本都抽取为512维的文本向量,得到一个文本向量集。这里围绕甜蜜预设的文本信息可以是“亲吻”、“相拥”、“紧靠”、“依偎”等和甜蜜相关或解释说明性的文本。
(3)视频片段匹配。存储库中同时出现了男女主角的视频片段,作为视频匹配的预选范围。将N个文本向量构建为一个(N,512)的矩阵,将M个预选的视频向量构建为一个(512,M)的矩阵,进行矩阵乘法得到一个(N,M)的矩阵,其中第i行第j列的数值代表第i个文本向量和第j个视频向量的相似度。从第一行开始记录每一行中相似度最大的列号,若某列已经被记录过,则选择去除该列后相似度最大的列,最后得到N个列号,对应N个视频向量。从数据库中找到这个N个视频向量对应的视频片段并进行存储。
(4)短视频生产。获取所有匹配到的视频片段,去除所有片段的原声,从GL-Transition中随机选取转场特效拼接所有片段,以颜色查找表(Look Up Table,LUT)方式为视频添加滤镜,然后添加背景音乐和对应的歌词字幕,生成最终短视频。
本实例主要是介绍一种情况,甜蜜类型也可以改为空镜类型、笑容类型、打斗类型和滑稽类型之类的,本发明对此不做限制。
二、剧情解说类型的短视频。
(1)视频向量计算。针对每一个视频,按照分镜信息切分为多个视频片段,每个视频片段按每1秒抽一帧得到多组视频帧,使用EfficientNet模型从每一帧图像中抽取256维的图像向量,将每组视频帧的图像向量的均值作为改组视频帧对应视频片段的视频向量,存储在向量库中。
(2)文本向量计算。将获取的文本信息,即视频的解说词,按照分句符号进行分句,得到文本集,文本集中的每一个文本是一个解说句子。用Transformer模型将文本集中的每一个句子都抽取为256维的文本向量,得到一个文本向量集。
(3)视频片段匹配。存储库中所有的视频片段,都作为视频匹配的预选范围。将N个文本向量构建为一个(N,256)的矩阵,将M个预选的视频向量构建为一个(256,M)的矩阵,进行矩阵乘法得到一个(N,M)的矩阵,其中第i行第j列的数值代表第i个文本向量和第j个视频向量的相似度。从第一行开始记录每一行中相似度最大的列号,若某列已经被记录过,则选择去除该列后相似度最大的列,最后得到N个列号,对应N个视频向量。从数据库中找到这N个视频向量对应的视频片段并进行存储。
(4)短视频生产。获取所有匹配到的视频片段,这些视频片段和文本集中的解说句子是一一对应的。将文本集中的句子使用语音合成技术(Text To Speech,TTS)转换为音频,然后用转换后的音频替换对应视频片段中的原声,并添加字幕,形成视频解说片段。将所有的视频解说片段顺序拼接,得到最终的剧情解说视频。生产过程中,也可以选择保留部分原声、使用滤镜等设置,因具体的解说视频需求而定,不做强制限定,以保证生产内容的形式更丰富。
如图4所示,本发明提供了一种视频处理装置,包括:视频拆分单元100、视频向量计算单元200、文本处理单元300、向量匹配单元400和视频剪辑单元500;
所述视频拆分单元100,用于将目标视频分成多个视频片段;
所述视频向量计算单元200,用于针对任一所述视频片段,根据所述视频片段中的一组视频帧,计算得到所述视频片段对应的视频向量,其中,一个视频片段对应一个视频向量;
所述文本处理单元300,用于按照视频需求,对预先建立的文本信息进行处理,得到相应的文本集;
所述向量匹配单元400,用于计算所述文本集中的各文本信息对应的文本向量,并确定与所述文本向量匹配的视频向量,其中,所述文本集包括多个文本信息,一个文本信息对应一个文本向量,一个文本向量匹配一个视频向量;
所述视频剪辑单元500,用于根据确定的视频向量对应的视频片段,剪辑得到相应的视频。
可选的,在某些可选的实施方式中,所述视频向量计算单元200,包括:视频帧抽取子单元、图像向量计算子单元和视频向量计算子单元;
所述视频帧抽取子单元,用于针对任一所述视频片段,从所述视频片段中抽取得到一组视频帧,其中,一组视频帧包括多个视频帧;
所述图像向量计算子单元,用于针对任一组视频帧,计算相应的各视频帧对应的图像向量;
所述视频向量计算子单元,用于针对任一组视频帧,根据相应的各图像向量,计算得到对应的视频向量。
可选的,在某些可选的实施方式中,所述图像向量计算子单元,包括:第一计算子单元;
所述第一计算子单元,用于针对任一组视频帧,使用预先建立的图像神经网络模型分别对各视频帧进行计算,得到各视频帧对应的图像向量,其中,一个视频帧对应一个图像向量。
可选的,在某些可选的实施方式中,所述视频向量计算子单元,包括:第二计算子单元;
所述第二计算子单元,用于针对任一组视频帧,计算相应的各图像向量的平均值,得到对应的视频向量。
可选的,在某些可选的实施方式中,所述文本处理单元300,包括:文本处理子单元;
所述文本处理子单元,用于按照视频需求,对预先建立的文本信息进行拆分处理和复制处理中的至少一项处理,得到与所述文本信息对应的文本集。
可选的,在某些可选的实施方式中,所述向量匹配单元400,包括:第三计算子单元和第四计算子单元;
所述第三计算子单元,用于针对所述文本集中的各文本信息,使用预先建立的文本神经网络模型分别计算各文本信息对应的文本向量;
所述第四计算子单元,用于针对任一所述文本向量,计算各视频向量与所述文本向量的相似度,将相似度最高的视频向量确定为与所述文本向量匹配的视频向量。
可选的,在某些可选的实施方式中,所述视频剪辑单元500,包括:视频剪辑子单元;
所述视频剪辑子单元,用于按照确定的视频向量对应的视频片段之间的顺序进行拼接,并配上相应的音频和字幕,得到相应的视频,其中,任一视频片段的音频和字幕与相应的文本信息对应。
可选的,在某些可选的实施方式中,所述视频拆分单元100,包括:视频拆分子单元;
所述视频拆分子单元,用于按照分镜信息,将目标视频分成多个视频片段,其中,所述分镜信息预先识别得到,一条分镜信息对应一个视频片段。
本发明提供了一种计算机可读存储介质,其上存储有程序,所述程序被处理器执行时实现上述任一项所述的视频处理方法。
如图5所示,本发明提供了一种电子设备70,所述电子设备70包括至少一个处理器701、以及与所述处理器701连接的至少一个存储器702、总线703;其中,所述处理器701、所述存储器702通过所述总线703完成相互间的通信;所述处理器701用于调用所述存储器702中的程序指令,以执行上述任一项所述的视频处理方法。
在本发明中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本发明中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本发明所示的这些实施例,而是要符合与本发明所公开的原理和新颖特点相一致的最宽的范围。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (11)
1.一种视频处理方法,其特征在于,包括:
将目标视频分成多个视频片段;
针对任一所述视频片段,根据所述视频片段中的一组视频帧,计算得到所述视频片段对应的视频向量,其中,一个视频片段对应一个视频向量;
按照视频需求,对预先建立的文本信息进行处理,得到相应的文本集;
计算所述文本集中的各文本信息对应的文本向量,并确定与所述文本向量匹配的视频向量,其中,所述文本集包括多个文本信息,一个文本信息对应一个文本向量,一个文本向量匹配一个视频向量;
根据确定的视频向量对应的视频片段,剪辑得到相应的视频。
2.根据权利要求1所述的方法,其特征在于,所述针对任一所述视频片段,根据所述视频片段中的一组视频帧,计算得到所述视频片段对应的视频向量,包括:
针对任一所述视频片段,从所述视频片段中抽取得到一组视频帧,其中,一组视频帧包括多个视频帧;
针对任一组视频帧,计算相应的各视频帧对应的图像向量;
针对任一组视频帧,根据相应的各图像向量,计算得到对应的视频向量。
3.根据权利要求2所述的方法,其特征在于,所述针对任一组视频帧,计算相应的各视频帧对应的图像向量,包括:
针对任一组视频帧,使用预先建立的图像神经网络模型分别对各视频帧进行计算,得到各视频帧对应的图像向量,其中,一个视频帧对应一个图像向量。
4.根据权利要求2所述的方法,其特征在于,所述针对任一组视频帧,根据相应的各图像向量,计算得到对应的视频向量,包括:
针对任一组视频帧,计算相应的各图像向量的平均值,得到对应的视频向量。
5.根据权利要求1所述的方法,其特征在于,所述按照视频需求,对预先建立的文本信息进行处理,得到相应的文本集,包括:
按照视频需求,对预先建立的文本信息进行拆分处理和复制处理中的至少一项处理,得到与所述文本信息对应的文本集。
6.根据权利要求1所述的方法,其特征在于,所述计算所述文本集中的各文本信息对应的文本向量,并确定与所述文本向量匹配的视频向量,包括:
针对所述文本集中的各文本信息,使用预先建立的文本神经网络模型分别计算各文本信息对应的文本向量;
针对任一所述文本向量,计算各视频向量与所述文本向量的相似度,将相似度最高的视频向量确定为与所述文本向量匹配的视频向量。
7.根据权利要求1所述的方法,其特征在于,所述根据确定的视频向量对应的视频片段,剪辑得到相应的视频,包括:
按照确定的视频向量对应的视频片段之间的顺序进行拼接,并配上相应的音频和字幕,得到相应的视频,其中,任一视频片段的音频和字幕与相应的文本信息对应。
8.根据权利要求1所述的方法,其特征在于,所述将目标视频分成多个视频片段,包括:
按照分镜信息,将目标视频分成多个视频片段,其中,所述分镜信息预先识别得到,一条分镜信息对应一个视频片段。
9.一种视频处理装置,其特征在于,包括:视频拆分单元、视频向量计算单元、文本处理单元、向量匹配单元和视频剪辑单元;
所述视频拆分单元,用于将目标视频分成多个视频片段;
所述视频向量计算单元,用于针对任一所述视频片段,根据所述视频片段中的一组视频帧,计算得到所述视频片段对应的视频向量,其中,一个视频片段对应一个视频向量;
所述文本处理单元,用于按照视频需求,对预先建立的文本信息进行处理,得到相应的文本集;
所述向量匹配单元,用于计算所述文本集中的各文本信息对应的文本向量,并确定与所述文本向量匹配的视频向量,其中,所述文本集包括多个文本信息,一个文本信息对应一个文本向量,一个文本向量匹配一个视频向量;
所述视频剪辑单元,用于根据确定的视频向量对应的视频片段,剪辑得到相应的视频。
10.一种计算机可读存储介质,其上存储有程序,其特征在于,所述程序被处理器执行时实现如权利要求1至8中任一项所述的视频处理方法。
11.一种电子设备,其特征在于,所述电子设备包括至少一个处理器、以及与所述处理器连接的至少一个存储器、总线;其中,所述处理器、所述存储器通过所述总线完成相互间的通信;所述处理器用于调用所述存储器中的程序指令,以执行如权利要求1至8中任一项所述的视频处理方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202410821581.9A CN118400575B (zh) | 2024-06-24 | 2024-06-24 | 视频处理方法及相关装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202410821581.9A CN118400575B (zh) | 2024-06-24 | 2024-06-24 | 视频处理方法及相关装置 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| CN118400575A true CN118400575A (zh) | 2024-07-26 |
| CN118400575B CN118400575B (zh) | 2024-09-10 |
Family
ID=91987467
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202410821581.9A Active CN118400575B (zh) | 2024-06-24 | 2024-06-24 | 视频处理方法及相关装置 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN118400575B (zh) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN118646834A (zh) * | 2024-08-13 | 2024-09-13 | 浩神科技(北京)有限公司 | 一种用于智慧视频生成的视频数据采集方法及系统 |
| CN119155484A (zh) * | 2024-08-02 | 2024-12-17 | 北京中科大洋科技发展股份有限公司 | 一种基于大语言模型的智能视频剪辑方法 |
Citations (10)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US6363380B1 (en) * | 1998-01-13 | 2002-03-26 | U.S. Philips Corporation | Multimedia computer system with story segmentation capability and operating program therefor including finite automation video parser |
| WO2004036574A1 (en) * | 2002-10-15 | 2004-04-29 | Samsung Electronics Co., Ltd. | Information storage medium containing subtitle data for multiple languages using text data and downloadable fonts and apparatus therefor |
| US20150310096A1 (en) * | 2014-04-29 | 2015-10-29 | International Business Machines Corporation | Comparing document contents using a constructed topic model |
| CN113220940A (zh) * | 2021-05-13 | 2021-08-06 | 北京小米移动软件有限公司 | 视频分类方法、装置、电子设备及存储介质 |
| CN114222196A (zh) * | 2022-01-04 | 2022-03-22 | 阿里巴巴新加坡控股有限公司 | 一种剧情解说短视频的生成方法、装置及电子设备 |
| CN115967833A (zh) * | 2021-10-09 | 2023-04-14 | 北京字节跳动网络技术有限公司 | 视频生成方法、装置、设备计存储介质 |
| WO2023173539A1 (zh) * | 2022-03-16 | 2023-09-21 | 平安科技(深圳)有限公司 | 一种视频内容处理方法、系统、终端及存储介质 |
| WO2023184636A1 (zh) * | 2022-03-29 | 2023-10-05 | 平安科技(深圳)有限公司 | 一种自动视频剪辑方法、系统、终端及存储介质 |
| CN117793483A (zh) * | 2023-12-27 | 2024-03-29 | 携程旅游网络技术(上海)有限公司 | 视频标签的提取方法、系统、设备及介质 |
| CN117830910A (zh) * | 2024-03-05 | 2024-04-05 | 沈阳云翠通讯科技有限公司 | 一种用于视频检索的自动混剪视频方法、系统及存储介质 |
-
2024
- 2024-06-24 CN CN202410821581.9A patent/CN118400575B/zh active Active
Patent Citations (10)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US6363380B1 (en) * | 1998-01-13 | 2002-03-26 | U.S. Philips Corporation | Multimedia computer system with story segmentation capability and operating program therefor including finite automation video parser |
| WO2004036574A1 (en) * | 2002-10-15 | 2004-04-29 | Samsung Electronics Co., Ltd. | Information storage medium containing subtitle data for multiple languages using text data and downloadable fonts and apparatus therefor |
| US20150310096A1 (en) * | 2014-04-29 | 2015-10-29 | International Business Machines Corporation | Comparing document contents using a constructed topic model |
| CN113220940A (zh) * | 2021-05-13 | 2021-08-06 | 北京小米移动软件有限公司 | 视频分类方法、装置、电子设备及存储介质 |
| CN115967833A (zh) * | 2021-10-09 | 2023-04-14 | 北京字节跳动网络技术有限公司 | 视频生成方法、装置、设备计存储介质 |
| CN114222196A (zh) * | 2022-01-04 | 2022-03-22 | 阿里巴巴新加坡控股有限公司 | 一种剧情解说短视频的生成方法、装置及电子设备 |
| WO2023173539A1 (zh) * | 2022-03-16 | 2023-09-21 | 平安科技(深圳)有限公司 | 一种视频内容处理方法、系统、终端及存储介质 |
| WO2023184636A1 (zh) * | 2022-03-29 | 2023-10-05 | 平安科技(深圳)有限公司 | 一种自动视频剪辑方法、系统、终端及存储介质 |
| CN117793483A (zh) * | 2023-12-27 | 2024-03-29 | 携程旅游网络技术(上海)有限公司 | 视频标签的提取方法、系统、设备及介质 |
| CN117830910A (zh) * | 2024-03-05 | 2024-04-05 | 沈阳云翠通讯科技有限公司 | 一种用于视频检索的自动混剪视频方法、系统及存储介质 |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN119155484A (zh) * | 2024-08-02 | 2024-12-17 | 北京中科大洋科技发展股份有限公司 | 一种基于大语言模型的智能视频剪辑方法 |
| CN118646834A (zh) * | 2024-08-13 | 2024-09-13 | 浩神科技(北京)有限公司 | 一种用于智慧视频生成的视频数据采集方法及系统 |
Also Published As
| Publication number | Publication date |
|---|---|
| CN118400575B (zh) | 2024-09-10 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN118400575B (zh) | 视频处理方法及相关装置 | |
| US9396758B2 (en) | Semi-automatic generation of multimedia content | |
| JP4873018B2 (ja) | データ処理装置、データ処理方法、及び、プログラム | |
| JP2007534235A (ja) | ユーザに対する特定の感情的影響を有するコンテンツアイテムを生成する方法 | |
| CN118381971B (zh) | 视频生成方法、装置、存储介质、程序产品 | |
| CN102280104A (zh) | 一种基于智能标引的文件语音化处理方法和系统 | |
| WO2023173539A1 (zh) | 一种视频内容处理方法、系统、终端及存储介质 | |
| WO2024108981A1 (zh) | 视频剪辑方法及装置 | |
| CN112004137A (zh) | 一种智能视频创作方法及装置 | |
| CN115442540B (zh) | 音乐视频生成方法、装置、计算机设备及存储介质 | |
| CN113676772A (zh) | 视频生成方法及装置 | |
| CN118631952B (zh) | 一种用于智慧视频生成的多源视频数据智能选择方法及系统 | |
| Matsuo et al. | Mining video editing rules in video streams | |
| CN117082293B (zh) | 一种基于文字创意的视频自动生成方法和装置 | |
| CN118828090A (zh) | 易感音乐信号驱动下的视频内容自动生成方法及系统 | |
| JP7179387B1 (ja) | ハイライト動画生成システム、ハイライト動画生成方法、およびプログラム | |
| CN119155484B (zh) | 一种基于大语言模型的智能视频剪辑方法 | |
| CN114925223A (zh) | 一种插入音频或视频的方法以及系统 | |
| JP3816901B2 (ja) | ストリームデータの編集方法と編集システム及びプログラム | |
| CN116680440A (zh) | 区段分割处理装置、方法以及存储介质 | |
| JP2008084021A (ja) | 動画シナリオ生成方法、プログラムおよび装置 | |
| Lin et al. | Semantic based background music recommendation for home videos | |
| JP7133367B2 (ja) | 動画編集装置、動画編集方法、及び動画編集プログラム | |
| US12327575B2 (en) | Method and apparatus of generating audio and video materials | |
| CN119316631B (zh) | 短视频生产方法、电子设备与计算机程序产品 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| GR01 | Patent grant | ||
| GR01 | Patent grant |