DE112016005006T5

DE112016005006T5 - Automatische videozusammenfassung

Info

Publication number: DE112016005006T5
Application number: DE112016005006.2T
Authority: DE
Inventors: Raanan Y. Yehezkel Rohekar; Guy Koren
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2015-10-28
Filing date: 2016-09-08
Publication date: 2018-09-27
Also published as: WO2017074562A1; CN108140032B; US9818032B2; US20170124400A1; CN108140032A

Abstract

System und Techniken für automatische Videozusammenfassung werden hierin beschrieben. Ein Video kann erlangt werden und ein semantisches Modell des Videos kann aus den Videobildern des Videos erzeugt werden. Jeweilige Relevanzbewertungsziffern können den Videobildern zugewiesen werden. Das semantische Modell kann mit den jeweiligen Relevanzbewertungsziffern initialisiert werden. Das semantische Modell kann dann iterativ verarbeitet werden, um Teilszenen des Videos zu produzieren, wobei die Zusammenstellung von Teilszenen die Videozusammenfassung ist.

Description

PRIORITÄTSANMELDUNG
Diese Anmeldung beansprucht die Priorität der US-Anmeldung lfd. Nr. 14/925,701 , eingereicht am 28. Oktober 2015, die hierin durch Literaturverweis in ihrer Gesamtheit inkorporiert ist.
TECHNISCHES GEBIET
Hierin beschriebene Ausführungsformen betreffen allgemein Computervision-Systeme und insbesondere eine automatische Videozusammenfassung.
HINTERGRUND
Computervision-Systeme beinhalten allgemein Fortschritte, die Computern gestatten, Bilddaten zu verarbeiten, um Bedeutung aus diesen Daten abzuleiten. Computervision ist ein Aspekt der künstlichen Intelligenz, ein Gebiet, das mit der Entwicklung künstlicher Systeme zum Durchführen kognitiver Aufgaben befasst ist, die herkömmlicherweise einen lebendigen Akteur wie eine Person erfordert haben. Ein Video besteht allgemein aus einer Abfolge von Standbildern. Eine Videozusammenfassung, wie hierin verwendet, bezieht sich auf die Auswahl von Teilabfolgen eines Videos, um Teilszenen des Videos zu erzeugen. Diese Teilszenen können als Clips, Höhepunkte usw. bezeichnet werden.
Figurenliste
In den Zeichnungen, die nicht notwendigerweise maßstabsgerecht sind, beschreiben gleiche Bezugszeichen ähnliche Komponenten in verschiedenen Ansichten. Gleiche Bezugszeichen mit verschiedenen angehängten Buchstaben können verschiedene Instanzen ähnlicher Komponenten repräsentieren. Die Zeichnungen stellen verschiedene Ausführungsformen, die in dem vorliegenden Dokument diskutiert werden, allgemein beispielhaft dar, aber nicht einschränkend.

1 zeigt ein Blockdiagramm eines Beispiels einer Umgebung, die ein System für automatische Videozusammenfassung enthält, gemäß einer Ausführungsform.
2 zeigt ein Blockdiagramm eines Beispiels eines Kommunikationsflusses für ein System für automatische Videozusammenfassung gemäß einer Ausführungsform.
3 zeigt ein Blockdiagramm eines Beispiels eines Kommunikationsflusses für ein System für automatische Videozusammenfassung gemäß einer Ausführungsform.
4 zeigt ein Beispiel eines Systemkommunikationsflusses zum Erzeugen eines semantischen Modells gemäß einer Ausführungsform.
5 zeigt ein Beispiel einer Visualisierung eines semantischen Modells gemäß einer Ausführungsform.
6 zeigt ein Beispiel eines Systemkommunikationsflusses zum Zuweisen von Relevanzbewertungsziffern zu Videobildern gemäß einer Ausführungsform.
7 zeigt ein Beispiel eines Systemkommunikationsflusses zum Produzieren von Teilszenen unter Verwendung des semantischen Modells und zugewiesener Relevanzbewertungsziffern gemäß einer Ausführungsform.
8 zeigt eine Visualisierung des Produzierens von Teilszenen unter Verwendung des semantischen Modells und zugewiesener Relevanzbewertungsziffern gemäß einer Ausführungsform.
9 zeigt eine Benutzerschnittstelle zum Unterstützen von beaufsichtigtem Lernen für Teilszenenauswahl gemäß einer Ausführungsform.
10 zeigt ein Beispiel eines Verfahrens für automatische Videozusammenfassung gemäß einer Ausführungsform.
11 zeigt ein Blockdiagramm, das ein Beispiel einer Maschine darstellt, in der eine oder mehrere Ausführungsformen implementiert werden können.

AUSFÜHRLICHE BESCHREIBUNG
Zusammenfassen von Video ist ein schwieriges Problem der Computervision, weil es häufig ein Verständnis nicht nur dessen, was in dem Video gezeigt wird, sondern auch, ob es wichtig ist, erfordert. Klassifikatoren sind Systeme (z. B. trainierte Maschinenlernsysteme), die entworfen wurden, visuellen Daten semantischen Kontext zu vermitteln. Videozusammenfassung-Klassifikatoren werden häufig auf spezifische Szenarien trainiert, wie eine von einem Fußgänger gehaltene Kamera, die eine urbane Umgebung durchquert. Im Allgemeinen erfordern diese Klassifikatoren eine große Anzahl von Trainingsreihen (z. B. Videos von Leuten, die in einer Stadt laufen) und häufig beträchtliche menschliche Rückmeldung (z. B. Auswahl relevanter Videobilder, Teilszenen usw.), um nützlich zu sein. Diese Klassifikatoren tendieren jedoch dahin, auf die spezifischen Trainingsreihen und verwendeten Techniken begrenzt zu sein. Zum Beispiel kann der vorstehend erwähnt Klassifikator für urbane Fußgänger Vieh als relevant klassifizieren (ein ungewöhnliches Vorkommen in den meisten urbanen Umgebungen) und demgemäß Rinder aus einem Video, das auf einer Rinderfarm aufgenommen wurde, als in hohem Maße relevant klassifizieren, obwohl die Tiere in diesem Kontext alltäglich sind.
Um die vorstehend diskutierten Probleme der Videozusammenfassung noch komplizierter zu machen, sind Grenzen von Teilszenen für bestehende Computervision-Systeme ebenfalls schwierig zu detektieren oder in anderer Weise zu bestimmen. Das heißt, ohne den vollen Umfang menschlichen Verständnisses ist es für die Maschine schwierig zu wissen, dass eine Episode hysterischen Lachens, die in einer Teilszene drei Minuten dauert, und ein anschließendes Niesen in Sekundenbruchteilen zwei getrennte Teilszenen sind, wenn jede dieselbe Person, denselben Hintergrund, dieselben Gesichter usw. beinhalten kann. Überdies ist, sowohl bei Teilszenen-Bestimmung als auch bei allgemeiner Videozusammenfassung, wenn das Video durch einen Menschen aufgenommen (z. B. gesteuert, Regie geführt usw.) wurde, die zugrunde liegende Zusammenfassung subjektiv. Das heißt, dass zwei verschiedene Personen dasselbe Video unterschiedlich zusammenfassen können. Diese Probleme können sich verstärken, wenn die Kamerabedienungsperson ein Amateur ist oder das Filmmaterial unbearbeitet ist (z. B. beiläufig aufgezeichnetes Filmmaterial) ohne den Vorteil von Regieführung, Bearbeitung oder andere Techniken, die Grenzen von Teilszenen definieren können.
Zum Angehen der vorstehend angeführten Probleme wird hierin ein automatisches Videozusammenfassungssystem beschrieben. Das System erzeugt ein semantisches Modell des Videos aus den in dem Video selbst enthaltenen Informationen. Erstellen des semantischen Modells auf diese Weise gestattet es, dass innewohnende Unterschiede zwischen Teilszenen die Grenzen von Teilszenen definieren, anstatt auf willkürliche zeitliche Steuerung oder speziell trainierten Klassifikatoren angewiesen zu sein. Das System verwendet Klassifikatoren für Relevanzanhaltspunkte, aber das semantische Modell gestattet die Verwendung einer viel weniger genauen Relevanzklassifizierung, um nützliche Ergebnisse zu produzieren. Demgemäß können in verschiedenen Umgebungen und Szenarien trainierte Klassifikatoren verwendet werden, weil die Ergebnisse nicht von der ultimativen objektiven Genauigkeit des Klassifikators hinsichtlich dessen, was man als relevant ansehen würde, sondern vielmehr von der vergleichenden Relevanz in dem Video abhängig sind. Schließlich kombiniert das System das erzeugte semantische Modell mit der unvollkommenen Relevanzklassifizierung, um iterativ Teilszenen aus dem Video zu erzeugen und demgemäß das Video automatisch zusammenzufassen.
1 zeigt ein Blockdiagramm eines Beispiels einer Umgebung, die ein System 100 für automatische Videozusammenfassung gemäß einer Ausführungsform enthält. Das System 100 kann eine Kamera 105 (zum Aufnehmen des Videos), eine Speichervorrichtung 110 (zum Zwischenspeichern oder Speichern des Videos), einen semantischen Klassifikator 115, einen Relevanzklassifikator 120 und einen Multiplexer 125 enthalten. Sämtliche dieser Komponenten sind in elektromagnetischer Hardware wie Schaltungen (z. B. nachstehend beschriebene Schaltungsgruppen), Prozessoren, Speichern, Platten usw. implementiert. In einem Beispiel können einige oder sämtliche dieser Komponenten in einer einzelnen Vorrichtung 130 zusammen angeordnet sein.
Die Speichervorrichtung 110 ist angeordnet, das Video zu halten. In einem Beispiel wird das Video der Speichervorrichtung 110 von der Kamera 105 zugestellt. In einem Beispiel wird das Video von einer anderen Entität wie ein Mobiltelefon, ein Personal-Computer usw., die irgendwann Zugriff auf das Video erhalten hat, zugestellt. Die Speichervorrichtung 110 stellt den Speicher bereit, aus dem andere Komponenten des Systems 100 Videobilder oder andere Daten des Videos abrufen und analysieren können.
Der semantische Klassifikator 115 ist angeordnet, ein semantisches Modell des Videos aus Videobildern des Videos zu erzeugen. Das semantische Modell, wie hierin verwendet, ist eine Vorrichtung, durch das die Ähnlichkeit zwischen Videobildern repräsentiert wird. In einem Beispiel ist der semantische Klassifikator 115 zum Erzeugen des Modells angeordnet, Merkmale der Videobilder zu extrahieren. In einem Beispiel sind die Merkmale Merkmale niedrigen Niveaus. Merkmale niedrigen Niveaus, wie hierin verwendet, sind diejenigen Aspekte des Videobilds, die kein semantisches Verständnis erfordern. Zum Beispiel erfordert der Prozentanteil eines Videobildbereichs, der grün ist, kein Verständnis, was ein derartiges Merkmal bedeutet, sondern vielmehr eine einfache Messung. Allgemein sind Merkmale niedrigen Niveaus jedoch Messungen, von denen festgestellt wurde, dass sie semantische Informationen implizieren. Im Gegensatz zu den Messungen von Merkmalen niedrigen Niveaus kann ein Merkmal hohen Niveaus mehr Folgerungen aus zugrunde liegenden Messungen wie Identifikation eines Gesichts enthalten, was Klassifizieren einer Region durch eine Vielzahl vorhandener Formen und Farben beinhaltet.
In einem Beispiel enthalten die Merkmale niedrigen Niveaus einen GIST-Deskriptor. Ein GIST-Deskriptor kann durch Falten eines Videobilds mit einer Anzahl von Gabor-Filtern bei verschiedenen Maßstäben und Ausrichtungen berechnet werden, um eine Anzahl von Merkmalskarten zu produzieren. In einem Beispiel werden zweiunddreißig Gabor-Filter, vier Maßstäbe und acht Ausrichtungen verwendet, um zweiunddreißig Merkmalskarten für den GIST-Deskriptor zu produzieren. Diese Merkmalskarten können dann in eine Anzahl von Regionen (z. B. sechszehn Regionen oder Gitternetze von vier mal vier) aufgeteilt werden, in denen die gemittelten Merkmalswerte jeder Region berechnet werden. Zuletzt können die gemittelten Werte verkettet (z. B. verbunden) werden, um den GIST-Deskriptor zu produzieren. Andere Techniken für Merkmale niedrigen Niveaus können verwendet werden, wie Hough-Transformationen, um Formen oder Linien in den Videobildern zu identifizieren, farbbasierte Messungen usw. In einem Beispiel können Metadaten der Videobilder für Merkmalsextraktion gemessen werden, wie der geografische Ort der Aufnahme des Videobilds. In einem Beispiel können Schallmerkmale niedrigen Niveaus verwendet werden. In einem Beispiel können Mel-Frequenz-Cepstrum-Koeffizienten (MFCCs) als Merkmale niedrigen Niveaus eingesetzt werden. Im Allgemeinen können Audioanhaltspunkte wie das Vorhandensein von lautem Geräusch oder die Abwesenheit von Geräusch zum Identifizieren interessanter (z. B. relevanter) Abschnitte des Videos beitragen.
In einem Beispiel ist der semantische Klassifikator 115 angeordnet zum Extrahieren von Merkmalen hohen Niveaus der Videobilder. Wie vorstehend angeführt, beinhalten Merkmale hohen Niveaus, dass etwas der zugrunde liegenden Bilddaten verstanden wird, zum Beispiel Bestimmen eines Schauplatzes (z. B. drinnen, draußen, in einer Wohnung, in einem Büro, in einem Theater, in einem Park, auf dem Meer, am Strand, in einer urbanen Umgebung, in einer ländlichen Umgebung, auf einem Berg usw.), einer Aktivität (z. B. sportliche Betätigung, Schwimmen, eine Veranstaltung wie ein Konzert, eine Party, Kochen, Schlafen usw.) oder eines Objekts (z. B. ein Wahrzeichen, eine Person, ein Gesicht, ein Tier, Ausrüstung wie Automobile, Lastkraftwagen, ein Hockeyschläger oder andere Sportausrüstung usw.). In einem Beispiel kann der semantische Klassifikator 115 zum Extrahieren dieser Merkmale hohen Niveaus einen Klassifikator zum Identifizieren von Charakteristika von Szenen (z. B. mehrere Videobilder) einsetzen oder implementieren, in einem Beispiel kann der Klassifikator unter Verwendung eines für Szenenklassifizierung trainierten tiefen Faltungsnetzwerks implementiert werden.
Sobald Merkmale der Videobilder extrahiert sind, organisiert der semantische Klassifikator 115 die Videobilder in einer Datenstruktur basierend auf den extrahierten Merkmalen. Eine derartige Organisation stellt eine sinnvolle Weise für das Modell zum Repräsentieren der Gemeinsamkeit von Videobildern basierend auf der Gemeinsamkeit der jeweiligen Merkmale der Videobilder dar. In einem Beispiel enthält Erzeugen des semantischen Modells die Anordnung des semantischen Klassifikators 115 zum Erzeugen einer pseudosemantischen Domäne aus den extrahierten Videobildmerkmalen. Eine derartige pseudosemantische Domäne ist ein n-dimensionaler Raum, abgeleitet aus den festgestellten Merkmalen. Wenn zum Beispiel jedes Videobild an drei Merkmalen gemessen würde, wären die jeweiligen Messungen jedes Merkmals eine Koordinate in einem dreidimensionalen Raum für das jeweilige Videobild. Eine Visualisierung davon ist in 5 gegeben und wird nachstehend beschrieben. Im Allgemeinen ist die Dimensionalität des Raums gleich der oder kleiner als die Anzahl verschiedener Merkmale, für die eine versuchte Extraktion durchgeführt wurde. Wenn eintausend Merkmalstests zum Extrahieren von Merkmalen aus den Videobildern gegeben sind, wäre die Dimensionalität der pseudosemantischen Domäne eintausend oder kleiner. Die Dimensionalität kann reduziert werden, wenn zum Beispiel eine Merkmalsextraktion aufzeigt, dass das Merkmal in dem Video nicht vorhanden ist. In diesem Beispiel kann die mit diesem Merkmal korrespondierende Dimension aus dem n-dimensionalen Raum entfernt werden, wodurch dieser zu einem (n-1)-dimensionalen Raum wird. Wenn zum Beispiel der semantische Klassifikator 115 versucht hat, Elefanten-Bildmaterial aus den Videobildern zu extrahieren, und kein derartiges Bildmaterial vorhanden ist, würde die Dimensionalität der pseudosemantischen Domäne reduziert, um Elefanten-Bildmaterial zu eliminieren. Andere Reduktionsmechanismen können ebenfalls verwendet werden, um zum Beispiel spätere Berechnungen für Effizienz durchzuführen. In einem Beispiel kann spektrale Einbettung durch den semantischen Klassifikator 115 zum Reduzieren der Dimensionalität eingesetzt werden.
In einem Beispiel kann die pseudosemantische Domäne durch eine Anzahl von Netzwerken künstlicher Intelligenz verarbeitet und realisiert werden. Zum Beispiel können die extrahierten Merkmale (z. B. die in den Videobildern festgestellten Merkmale) verwendet werden, eine tiefe Boltzmann-Maschine, ein Typ eines ohne Beaufsichtigung initialisierten und trainierten neuralen Netzes, zu trainieren. Eine Vielfalt anderer nicht beaufsichtigter Modelle künstlicher Intelligenz kann ebenfalls verwendet werden. In einem Beispiel wird die pseudosemantische Domäne jedoch nur aus den Merkmalen, die in den Videobildern des Videos vorhanden sind, und nicht aus einer externen Quelle erstellt. Wie nachstehend diskutiert werden wird, skaliert dieses Merkmal die Unterschiede zwischen den Videobildern, um Differenzierung von Teilszenen über eine größere Vielfalt von Personenvideos zu gestatten, als gegenwärtige Techniken erlauben. Andere beispielhafte Techniken künstlicher Intelligenz, die verwendet werden können, enthalten generative Modelle wie probabilistische grafische Modelle oder Mischmodelle.
Nach dem Erstellen der pseudosemantischen Domäne bildet der semantische Klassifikator 115 die einzelnen Videobilder auf die pseudosemantische Domäne ab. Wie vorstehend angeführt, kann eine derartige Abbildung enthalten, einzelne Merkmalsextraktionswerte als Koordinaten für die Videobilder zu verwenden. Diese Werte können normalisiert werden, um zusammen als gültige Koordinaten in dem n-dimensionalen Raum zu fungieren. In einem Beispiel wird die Normalisierung nicht durchgeführt und werden die rohen Werte verwendet. In dem Beispiel der unter Verwendung eines Netzwerks wie ein tiefes Boltzmann-Netzwerk erstellten pseudosemantischen Domäne kann Abbilden der einzelnen Videobilder einfach beinhalten, jedes Videobild durch das Netzwerk zu speisen, um an den resultierenden Koordinaten, die für dieses Videobild in dem n-dimensionalen Raum gelten, einzutreffen.
Das semantische Modell wird erzeugt, wenn die Videobilder in den n-dimensionalen metrischen Raum derart platziert werden, dass Abstände zwischen den Videobildern in dem Raum berechenbar sind. Als ein einfaches Beispiel soll die euklidische Abstandsmetrik in einem zweidimensionalen Raum (z. B. die mit x und y bezeichneten Dimensionen) betrachtet werden, dabei folgt der Abstand von einem Punkt (z. B. Videobild) zu einem anderen aus $\sqrt{{(x_{1} - x_{2})}^{2} + {(y_{1} - y_{2})}^{2}} = Abstand zwischen den beiden Punkten 1 und 2 .$
Nach der Erstellung des semantischen Modells ist die Gleichartigkeit eines Videobilds zu einem anderen der Exponent des negativen quadratischen Abstands zwischen den beiden Videobildern in dem n-dimensionalen Raum. Das heißt, je näher die beiden Videobilder sind, desto ähnlicher sind sie.
In einem Beispiel kann eine Menge von Schlüssel-Videobildern aus den abgebildeten Videobildern identifiziert werden. Die abgebildeten Videobilder oder Punkte in dem n-dimensionalen Raum repräsentieren Punkte auf einer Oberfläche einer Mannigfaltigkeit in dem n-dimensionalen Raum. Es ist ultimativ diese Mannigfaltigkeit, die das zugrunde liegende Modell ist, seine genaue Definition ist jedoch nicht erforderlich, um die hierin beschriebenen Techniken durchzuführen. Tatsächlich kann stattdessen eine Teilmenge der Videobilder, die Schlüssel-Videobilder, verwendet werden. Die Schlüssel-Videobilder sind einzelne Videobilder, die eine Gruppe von Videobildern für ein semantisches Konzept repräsentieren. Zum Beispiel repräsentiert ein Cluster von Videobildern in dem n-dimensionalen Raum eine ähnliche Szene. Ein Videobild aus dem Cluster kann daher den Cluster repräsentieren und ist ein Schlüssel-Videobild. Eine Vielfalt von Techniken zum Identifizieren von Schlüssel-Videobildern kann eingesetzt werden, wie Finden eines Kerns für einen Cluster. In einem Beispiel können die Schlüssel-Videobilder durch Bewertungsziffernbildung der Videobilder und aufeinanderfolgendem Nehmen des Videobilds mit der höchsten Bewertungsziffer, bis eine Schwellenwertanzahl von Schlüssel-Videobildern erlangt wurde, rekursiv identifiziert werden. In einem Beispiel wird der Schwellenwert durch die Länge des Videos bestimmt. In einem Beispiel wird der Schwellenwert durch eine Anzahl identifizierter Cluster in dem n-dimensionalen Raum bestimmt. In einem Beispiel, in dem die Bewertungsziffernbildung von Videobildern den Abstand zwischen Schlüssel-Videobildern beinhaltet, ist der Schwellenwert ein minimaler Abstand zwischen Videobildern. Das heißt, wenn der Abstand zwischen zwei Videobildern unter dem Schwellenwert ist, stoppt die rekursive Suche.
In einem Beispiel können die Bewertungsziffern der Schlüssel-Videobilder nach Abstand gebildet werden. Hier identifiziert das Identifizieren von Videobildern, die weit voneinander entfernt sind, Teile des Videos, die verschiedene Sachen zeigen. Zur Bewertungsziffernbildung des Abstands zwischen den Videobildern wird ein erstes Videobild als das Schlüssel-Videobild ausgewählt. In einem Beispiel wird das erste Videobild basierend darauf ausgewählt, dass es das vom Ursprung des n-dimensionalen Raums am weitesten entfernte ist. Ein zweites Videobild wird ausgewählt, in der Menge von Schlüssel-Videobildern zu sein, indem das Videobild ausgewählt wird, das am weitesten von dem ersten Videobild entfernt ist. Das dritte ausgewählte Videobild ist das von sowohl dem ersten Videobild als auch dem zweiten Videobild in der Menge von Schlüssel-Videobildern am weitesten entfernte. Wie vorstehend angeführt, kann dies fortgesetzt werden, bis der Abstand zwischen dem n-ten Videobild unter einem Schwellenwert ist. Demgemäß ist die Menge von Schlüssel-Videobildern ein rekursives Identifizieren von Schlüssel-Videobildern durch Hinzufügen eines nächsten Videobilds zu der Menge von Schlüssel-Videobildern mit der höchsten Bewertungsziffer in der Menge von Videobildern, die abgebildet wurden. Die Bewertungsziffer eines Videobilds in diesem Beispiel ist die Inverse der Summe einer Quadratnorm der Koordinate des Videobilds multipliziert mit einer Konstanten und dividiert durch das Quadrat der Norm des Abstands zwischen den Videobildern und einem anderen Videobild in der Menge von Schlüssel-Videobildern für alle Mitglieder der Menge von Schlüssel-Videobildern. Die nachstehende Gleichung veranschaulicht diese Bewertungsziffernbildung: ${\tilde{X}}_{R + 1} = a r g max_{X_{i}} {[\sum_{r = 1}^{R} \frac{1 + γ {‖ X_{i} ‖}^{2}}{‖ X_{i} - \tilde{X_{r}} ‖}]}^{- 1}$
Dabei ist X̃ die Menge von Schlüssel-Videobildern, ist X die Menge abgebildeter Videobilder und ist γ eine Konstante, die das Regulierungsniveau steuert.
Der Relevanzklassifikator 120 kann unabhängig von dem semantischen Klassifikator 115 betrieben werden, wie in 1 dargestellt. Dieser unabhängige Betrieb gestattet parallele Verarbeitung des Videos, weil der Betrieb des semantischen Klassifikators 115 den Betrieb des semantischen Klassifikators 115 nicht stört oder in anderer Weise beeinflusst. Der RelevanzKlassifikator 120 ist angeordnet, den Videobildern jeweilige Relevanzbewertungsziffern zuzuweisen. Eine derartige Relevanzzuweisung kann enthalten, dass eine beliebige Anzahl von Klassifikatoren (z. B. Anwenden einer Bibliothek von Klassifikatoren) Bewertungsziffern für die Videobilder bildet und diese kombiniert werden, um eine Bewertungsziffer oder eine Menge von Bewertungsziffern für jedes Videobild bereitzustellen. Beispielhafte Klassifikatoren können beinhalten, Bewegung (z. B. Aktion im Gegensatz zu Ruhe), das Vorhandensein von Gesichtern usw. wahrzunehmen. Die Klassifikatoren können außerdem Metadaten über das Video beinhalten, wie wann oder wo das Video aufgenommen wurde. In einem Beispiel beziehen sich die Metadaten auf die Aktionen der Kamerabedienungsperson (z. B. Verhaltensindikatoren). Zum Beispiel eine Zeit, in der die Kamera ruhig gehalten wurde, oder die Verwendung von Zoomen in einer Reihe von Videobildern. Diese Metriken deuten beide auf erhöhtes Interesse durch die Kamerabedienungsperson hin, das verwendet werden kann, die Relevanz von Videobildern, für die die Kamera ruhig gehalten wurde oder für die ein zunehmendes Zoomen eingesetzt wurde oder beides, zu erhöhen. In der Tat gestattet, wie nachstehend beschrieben, die Verwendung dieser Kamerabedienungsperson-Relevanzklassifikatoren alleine dem System, Teilszenen auszuwählen, die besser mit denen durch die Bedienungsperson ausgewählten als mit anderen, durch andere Leute ausgewählte Teilszenen übereinstimmen. In einem Beispiel kann die Kombination von Verhaltensindikatoren und anderen Klassifikatoren getrennt bestimmt und kombiniert werden, um eine zusammengesetzte Relevanzbewertungsziffer für die Videobilder zu erstellen.
Wie vorstehend angeführt, kombiniert das System 100 das semantische Modell mit diesen Relevanzbewertungsziffern, um Teilszenen auszuwählen, wodurch gestattet wird, eine weniger genaue Relevanzbewertungsziffer effektiv zu verwenden. Dementsprechend können Relevanzklassifikatoren in einem Beispiel gefiltert werden, um die angewandten Relevanzklassifikatoren (z. B. diejenigen, die zur Relevanzbewertungsziffer beitragen) auf diejenigen mit einer höheren Wahrscheinlichkeit als fünfzig Prozent, Relevanz anzugeben (z. B. besser als ein Zufallsergebnis), zu begrenzen. In einem Beispiel ist das Filtern auf Verhaltensindikatoren begrenzt.
In einem Beispiel wird die Bibliothek von Klassifikatoren basierend auf Benutzerrückmeldung berichtigt. Zum Beispiel kann eine ausgewählte Teilszene dem Benutzer präsentiert werden. Der Benutzer kann angeben, dass die Teilszene nicht für Videozusammenfassung erwünscht ist. Die Relevanzklassifikatoren, die zu der Auswahl der Teilszene beitrugen, können aus zukünftigen Klassifizierungen entfernt werden oder modifiziert (z. B. gewichtet) werden, um eine geringere Auswirkung auf zusätzliche Relevanzbewertungsziffernbildung zu haben.
Nachdem der semantische Klassifikator 115 das semantische Modell erstellt und der Relevanzklassifikator 120 den Videobildern des Videos Relevanzbewertungsziffern zuweist, ist der Multiplexer 125 angeordnet, diese beiden Eingänge zu nehmen, und produziert eine Menge von Teilszenen, die das Video zusammenfassen. In einem Beispiel ist der Multiplexer 125 angeordnet, das semantische Modell mit den jeweiligen Relevanzbewertungsziffern zu initialisieren und das Modell iterativ zu verarbeiten, um die Menge von Teilszenen zu produzieren. In einem Beispiel enthält jede Iteration von Teilszenenauswahl, das Modell folgend auf die Initialisierung zu konvergieren, eine Abfolge von Videobildern mit der höchsten Relevanzbewertungsziffer nach der Konvergenz auszuwählen und das Modell durch Fixieren (z. B. Festhalten, Verankern usw.) der Relevanzbewertungsziffern für die in dieser Iteration ausgewählte Abfolge von Videobildern erneut zu initialisieren. Dieser Prozess wird fortgesetzt, bis eine im Voraus bestimmte Anzahl von Teilszenen identifiziert wurde oder bis ein qualitativer Schwellenwert erreicht wird. Am Ende der iterativen Verarbeitung können die Teilszenen kombiniert oder dem Benutzer in anderer Weise (z. B. über ein Dateiformat, eine Benutzerschnittstelle usw.) als das zusammengefasste Video präsentiert werden.
In einem Beispiel ist der Multiplexer 125 zum Initialisieren des Modells angeordnet, einen Graphen zu konstruieren, in dem Knotenpunkte mit den Videobildern des Videos korrespondieren und Kanten mit dem Exponenten des negativen Quadrats des Abstands zwischen Videobildern in dem semantischen Modell gewichtet werden. Demgemäß ist, je näher die Videobilder in dem semantischen Modell sind, desto größer das Gewicht von Kanten, die die Videobilder verbinden. Der Wert der Knotenpunkte ist die korrespondierende Relevanzbewertungsziffer für das Videobild. In einem Beispiel werden Kanten ausgelassen (z. B. niemals in den Graphen gesetzt) oder entfernt, wenn ein Abstand zwischen zwei Videobildern außerhalb eines Schwellenwerts ist. Das heißt, dass, wenn zwei Videobilder weit genug voneinander entfernt sind, keine Kante verbleiben wird, die korrespondierenden Knotenpunkte dieser Videobilder in dem Graphen zu verbinden. Eine derartige Kantenreduktion kann die Berechnungseffizienz beim Konvergieren des Modells erhöhen, indem die Anzahl von Berechnungen in jeder Iteration reduziert wird. In einem Beispiel wird der minimale Abstand derart bestimmt, dass der Graph vollständig verbunden ist (z. B. existiert eine Abfolge von Kanten derart, dass jeder Knotenpunkt jeden anderen Knotenpunkt erreichen kann).
In einem Beispiel ist der Multiplexer 125 zum Initialisieren des Modells angeordnet, eine Teilmenge von Knotenpunkten zu fixieren. In einem Beispiel enthält die Teilmenge von Knotenpunkten diejenigen mit einer hohen (z. B. größer als der Median, der Durchschnitt oder das Mittel) jeweiligen Relevanz und diejenigen mit einer niedrigen (z. B. kleiner als der Median, der Durchschnitt oder das Mittel) jeweiligen Relevanz. In einem Beispiel besteht die Teilmenge von Knotenpunkten aus (z. B. weist nur auf) Schlüssel-Videobildern. In einem Beispiel sind sämtliche der Schlüssel-Videobilder fixiert und bilden die Gesamtheit der Teilmenge von Knotenpunkten. In einem Beispiel enthält die Teilmenge von Schlüssel-Videobildern ein einzelnes Schlüssel-Videobild mit der höchsten Relevanzbewertungsziffer und ein einzelnes Schlüssel-Videobild mit der niedrigsten Relevanzbewertungsziffer.
In einem Beispiel ist der Multiplexer 125 zum Konvergieren des Modells angeordnet, Knotenpunktwerte für Knotenpunkte, die nicht in der Teilmenge von Knotenpunkten sind, zu berechnen. Das heißt, jeder Knotenpunkt, der nicht fixiert ist, hat einen Wert, der vor der Konvergenz ultimativ unbekannt ist. Das heißt, jeder Knotenpunkt wird bei jeder Konvergenziteration aktualisiert. Die Berechnung basiert auf den Werten benachbarter (z. B. durch eine einzelne Kante verbunden) Knotenpunkte. In einem Beispiel erfolgt die Berechnung über eine Nachricht, die Algorithmen zwischen Knotenpunkten entlang deren Kanten weitergibt. In einem Beispiel wird bei jeder Konvergenziteration der Wert eines Knotenpunkts so gesetzt, dass er das gewichtete Mittel benachbarter Knotenpunkte ist. Demgemäß wird der Wert des benachbarten Knotenpunkts durch das Kantengewicht modifiziert (z. B. multipliziert) und mit gewichteten Werten anderer benachbarter Knotenpunkte summiert und schließlich durch die Anzahl benachbarter Knotenpunkte dividiert. Die Konvergenziterationen werden fortgesetzt, bis ein Konvergenzschwellenwert erreicht wird.
In einem Beispiel definiert der Konvergenzschwellenwert eine Veränderungsrate von Knotenpunktwerten, unterhalb derer die Konvergenz als erreicht angesehen wird. Wenn anfängliche Iterationen in großen Veränderungen der Knotenpunktwerte resultierten, geben aufeinanderfolgende Veränderungen, die proportional viel kleiner sind, demgemäß an, dass die Konvergenz erreicht ist. Dieser Typ von skaliertem Maß kann helfen, dynamisch verschiedene semantische Modelle anzusprechen (z. B. zwischen einem Video mit vielen Veränderungen und denjenigen mit geringer gesamter Veränderung an ihrem Inhalt im gesamten Video). In einem Beispiel ist der Konvergenzschwellenwert ein Absolutwert. Das heißt, dass, sobald die größte Veränderung in einem Knotenpunkt in einer Iteration unter den Schwellenwert fällt, die Konvergenz erreicht ist.
Wenn das Modell hohe fixierte Werte und niedrige fixierte Werte für Knotenpunkte aufweist, bewirkt der Konvergenzprozess, dass nicht fixierte Knotenpunkte nahe den hohen fixierten Werten sich hin zu diesen Werten bewegen und andere nicht fixierte Knoten nahe den niedrigen fixierten Werte sich hin zu diesen Knotenpunkten bewegen. Demgemäß wählt die semantische Nähe der Videobilder, wie in dem semantischen Modell repräsentiert, intrinsisch Teilszenengrenzen aus.
Im Allgemeinen werden die nicht fixierten Knoten allgemein zu einer bimodalen Verteilung streben, wie in 8 dargestellt und nachstehend beschrieben. Demgemäß beinhaltet Auswählen einer Teilszene während einer gegebenen Iteration des Multiplexers 125 Auswählen einer kontinuierlichen Abfolge von Videobildern, die ausreichend relevant sind und das Schlüssel-Videobild hoher Relevanz enthalten. Ausreichend relevant ist in diesem Kontext eine Schwellenwertoperation-Angelegenheit, die basierend auf der Verteilung resultierender Knotenpunktwerte bestimmt wird. Wie in Element 815 oder 8 dargestellt, bestimmt man einfach einen Wert korrespondierend mit den Knotenpunkten mit niedriger Bewertungsziffer und nimmt die Videobilder korrespondierend mit Knotenpunkten mit einem größeren Wert als dieser bestimmte Wert. Demgemäß enthält das Auswählen der Abfolge von Videobildern mit der höchsten Relevanzbewertungsziffer nach dem Konvergieren in einem Beispiel, dass der Multiplexer 125 angeordnet ist, Videobilder mit korrespondierenden Knotenpunkten auszuwählen, die einen Wert größer als der Auswahlschwellenwert aufweisen. In einem Beispiel wird der Auswahlschwellenwert aus der Gesamtheit von Knotenpunktwerten bestimmt. In einem Beispiel ist der Auswahlschwellenwert das Mittel der Knotenpunktwerte.
In einem Beispiel kann das erneute Initialisieren des Modells bei jeder Iteration enthalten, dass der Multiplexer 125 die Knotenpunktwerte (z. B. Relevanzbewertungsziffern) der für die Teilszene ausgewählten Knotenpunkte fixiert. Demgemäß wird dieselbe Teilszene bei der folgenden Iteration nicht ausgewählt. In einem Beispiel sind diese Knotenpunkte bei einer niedrigen Relevanz fixiert. In einem Beispiel ist die niedrige Relevanz ein Relevanzboden (z. B. die niedrigste Relevanz). Dadurch wird die nächste relevanteste Teilszene in der nachfolgenden Iteration ausgewählt. Überdies wird die nachfolgende Teilszene von der ausgewählten Teilszene semantisch so verschieden wie möglich sein. Demgemäß wird die Reihe von Teilszenen nicht nur die relevantesten Abschnitte des Videos verkörpern, sondern auch redundante Teilszenen vermeiden. In einem Beispiel werden die vorher ausgewählten Knotenpunkte bei einer hohen Relevanz fixiert. In einem Beispiel ist die hohe Relevanz eine Relevanzdecke (z. B. die höchste Relevanz). Eine derartige Einstellung, wie über die nachstehend beschriebene Benutzerschnittstelle 135, gestattet dem Benutzer, mehr des Gleichen bei der Teilszenenauswahl anzufordern. Es versteht sich jedoch, dass dieselben Knotenpunkte, die vorher ausgewählt wurden, in anschließenden Iterationen zur Teilszenenauswahl nicht ausgewählt werden. In einem Beispiel können die Knotenpunkte bei einer indifferenten Relevanz fixiert sein, die zwischen der niedrigen Relevanz und der hohen Relevanz ist. In einem Beispiel ist die indifferente Relevanz mindestens eines eines Mittels oder Medians der Relevanzwerte der Knotenpunkte. Diese Einstellung minimiert die Auswirkung der vorher ausgewählten Teilszene, so dass sie weder ähnliche noch verschiedene anschließende Teilszenen begünstigt.
Die Gesamtzahl produzierter Teilszenen kann in einer Anzahl von Weisen eingestellt werden. In einem Beispiel basiert die Anzahl von Teilszenen auf der Länge des Videos. In einem Beispiel basiert die Anzahl von Teilszenen auf der Anzahl von Clustern in dem semantischen Modell. In einem Beispiel basiert die Anzahl von Teilszenen auf einem vom Benutzer eingestellten Wert. In einem Beispiel kann, wenn die Auswahl einer Teilszene durch einen Benutzer zurückgenommen (z. B. entfernt, gelöscht usw.) wird, eine zusätzliche Teilszene produziert werden, um deren Platz zu füllen.
In einem Beispiel wird, während jede Teilszene ausgewählt wird, ein Clip der Teilszene erstellt. Erstellen des Clips kann beinhalten, einfach die Videobilder zu identifizieren, die Teil des Clips sind. In einem Beispiel enthält Erstellen des Clips, die Abfolge von Videobildern zu kopieren, um den Clip zu erstellen. In einem Beispiel enthält das System 100 eine Benutzerschnittstelle 135, in der die Teilszenen (z. B. Clips) präsentiert werden. In einem Beispiel werden die Teilszenen in der Reihenfolge präsentiert, in der sie produziert wurden. In diesem Beispiel ist die Reihenfolge der Produktion auch die Reihenfolge der Wichtigkeit der Teilszenen beim Zusammenfassen des Videos. In einem Beispiel kann die Benutzerschnittstelle 135 angeordnet sein, eine Aussonderungsauswahl von dem Benutzer hinsichtlich einer Teilszene zu empfangen. Die ausgesonderte Teilszene wird dann aus der endgültigen Videozusammenfassung entfernt. Wie vorstehend angeführt, kann eine derartige Benutzerbeteiligung beim Korrigieren der Ausgabe des Systems 100 durch das System zum Anpassen des Mechanismus zur Relevanzbewertungsziffernbildung verwendet werden.
Der Betrieb des Systems 100, wie vorstehend beschrieben, fasst ein Video automatisch zu einer Anzahl von Teilszenen-Clips zusammen. Durch Verwendung des beschriebenen Mechanismus benötigt das System 100 keine in hohem Maße genaue oder kontextuelle Relevanzklassifikatoren, wie einige bestehende Systeme sie erfordern. Vielmehr verwendet das System 100 intrinsische semantische Informationen und relative Relevanzwerte zwischen Videobildern zum wirksamen Zusammenfassen eines Videos ohne menschliche Beteiligung.
Wenn Verhaltensindikatoren der Kamerabedienungsperson in dem Prozess der Relevanzbewertungsziffernbildung verwendet werden, übersteigen die durch das System 100 produzierten Ergebnisse im Vergleich mit dem von der Kamerabedienungsperson gewünschten Ausgang überdies diejenigen von Fremden. Dies wurde über zehn Videoclips unter Verwendung von fünf verschiedenen Kamerabedienungspersonen experimentell verifiziert. In den Experimenten wurde eine einfache Version des Systems 100 verwendet und mit einer nicht trainierten menschlichen Referenzleistung verglichen. Die Relevanzbewertungsziffer wurde unter Verwendung nur der Varianz in der pseudosemantischen Domäne bestimmt. Genauigkeit/Abruf und FI-Bewertungsziffer (Informationsabruf) der Zusammenfassung des Systems 100 wurden mit Menschen, die nicht die Kamerabedienungsperson waren, verglichen. Im Vergleich mit den Referenzpersonen wies das System 100 in sieben der Videos eine bessere Übereinstimmung mit der Teilszenenauswahl der Kamerabedienungsperson auf, die in einem Video statistisch gleich und in zwei Videos schlechter war. Es wurde außerdem gezeigt, dass die Leistung des Systems 100 gegenüber einer Zufallsauswahl (über 100.000 Experimente) von Teilszenen und anderen festen Auswahlverfahren (z. B. zeitabhängige Auswahl mittlerer/erster/letzter Teilszenen) überlegen war. Demgemäß leistet das System 100 unerwarteterweise mehr als ein zufälliger Mensch bei der Zusammenfassung des Videos einer Kamerabedienungsperson zur Zufriedenheit dieser Bedienungsperson.
2 zeigt ein Blockdiagramm eines Beispiels eines Kommunikationsflusses für ein System 200 für automatische Videozusammenfassung gemäß einer Ausführungsform. Der in 2 dargestellte Kommunikationsfluss ist eine Übersicht verschiedener Komponenten zur Implementierung automatischer Videozusammenfassung. Die Komponenten des Systems 200 wurden durch eine Maschine implementiert.
Bei Komponente 205 werden die Videodaten (z. B. Videobilder) und wahlweise Sensordaten (z. B. Beschleunigungsmesserdaten zum Bestimmen, ob die Kamera sich bewegt usw.) erlangt. Die Komponente 205 ist angeordnet, Merkmale der Videobilder zu extrahieren, zum Beispiel wie vorstehend diskutiert. Die extrahierten (z. B. gefundenen) Merkmale werden in eine Zusammenstellung 210 extrahierter Merkmale platziert.
Bei Komponente 225 lernt das System 200 die intrinsische semantische Domäne. Demgemäß arbeitet die Komponente 225 derart, dass das Video selbst (das zusammengefasst wird) die vollständige Domäne ist. Das heißt, die Komponente 225 arbeitet, als ob das Video sämtliche der benötigten semantischen Informationen enthält (intrinsisch), und erstellt (z. B. lernt, trainiert usw.) ein generatives Modell für den Inhalt des Videos (z. B. implementiert Maschinenlernen). Dies wird in einer Teilszenen-Zergliederung resultieren, bei der das System 200 nur aus dem Video lernt, was distinkte Teilszenen sind. Die Komponente 225 produziert dann eine pseudosemantische Domäne 230 als Ausgabe.
In einem Beispiel kann die pseudosemantische Domäne 230 in anderen Kontexten wiederverwendet werden. Zum Beispiel können Kontextinformationen wie Ort, Zeit (z. B. Tageszeit, ein Urlaub usw.) und Umgebungsbedingungen (z. B. Erkennung von drinnen/draußen) in die pseudosemantische Domäne 230 inkorporiert werden, um die pseudosemantische Domäne 230, die vorher aus Videos, die unter demselben (oder einem ähnlichen) Kontext aufgenommen wurde, möglicherweise durch verschiedene Benutzer (z. B. Kamerabedienungspersonen), wiederzuverwenden (z. B. zu verfeinern). Eine derartige Verbesserung der pseudosemantischen Domäne beeinflusst im Allgemeinen nicht die Fähigkeit des Systems 200 zum Zusammenfassen des Videos gemäß der Präferenz des spezifischen Benutzers, da dies nach dieser Stufe ausgeführt wird.
Bei Komponente 215 sucht das System 200 nach allgemeinen Relevanzanhaltspunkten in den Videobildern des Videos. Wie vorstehend beschrieben, kann dies enthalten, Bewertungsziffern der Videobilder zu bilden. In einem Beispiel identifiziert und nutzt die Komponente 215 das Verhalten der Kamerabedienungsperson selbst als einen Anhaltspunkt für Teilszenenrelevanz (z. B. Interessantheit, Wichtigkeit usw.). Definieren einer Liste von Verhalten des Kameramannes im Voraus ist beträchtlich einfacher als Definieren einer Liste von Videoinhaltsbeschreibungen im Voraus, wodurch dem System 200 gestattet wird, mit viel weniger vorbereitender Einrichtung als andere Systeme betrieben zu werden. Diese Verhaltensrelevanz kann zusätzlich zu anderen Relevanzkennzeichen wie Objekt-, Gesicht-, Menschen-, Aktions- oder Szenenerkennungsalgorithmen verwendet werden. Der Ausgang der Komponente 215 ist die Domäne der Relevanzmarkierungen 220 (z. B. auf Videobilder angewandte Relevanzbewertungsziffern).
Die Relevanzfolgerungsfunktionseinheit 235 multiplext die pseudosemantische Domäne 230 und die Domäne der Relevanzmarkierungen 220 als Eingänge und produziert das zusammengefasste Video als Ausgang. Demgemäß vereinigt die Relevanzfolgerungsfunktionseinheit 235 die semantischen Informationen mit den allgemeinen Relevanzanhaltspunkten. Die Relevanzfolgerungsfunktionseinheit 235 wendet transduktives Lernen auf das aus den intrinsischen semantischen Informationen produzierte semantische Modell an und initialisiert es mit den allgemeinen Relevanzanhaltspunkten. Das initialisierte Modell wird dann iterativ konvergiert. Nach der Konvergenz stellt das Modell intrinsische Relevanzbewertungsziffern für die verschiedenen Teile des Videos bereit. Zeitliche Glätte wird implizit erlangt, ebenso wie relevanzbewusste Detektion von Teilszenengrenzen, wie in Element 815 von 8 dargestellt.
Die Relevanzfolgerungsfunktionseinheit 235 wiederholt die Modellinitialisierung und Modellkonvergenz, um iterativ Teilszenen mit abnehmender Relevanz zu extrahieren. Dies kann über die Komponente 240 ausgeführt werden. Bei jeder Modellkonvergenz „lernt“ die Komponente 240 die relative Relevanz (z. B. intrinsische Relevanz) von Videosegmenten. Die Komponente 240 extrahiert dann Teilszenen aus dem Video in einer Reihenfolge abnehmender Relevanz. Zum Beispiel wird die wichtigste Teilszene, nachdem sie identifiziert wurde, als niedrige Relevanz aufweisend in die Folgerungsfunktionseinheit zurückgeführt (oder alternativ entfernt/maskiert). Wenn das Modell erneut konvergiert wird, wird die nächste relevanteste Teilszene offengelegt. In einem Beispiel gestattet der iterative Prozess dem Benutzer oder einer automatischen Prozedur, jederzeit zu stoppen, wodurch Steuerung der Kompressionsrate der Zusammenfassung (z. B. wie viele Clips für die Zusammenfassung verwendet werden) gestattet wird. Wie angegeben, werden die am relevantesten Teilszenen zuerst identifiziert. Anschließend identifizierte Teilszenen weisen gegenüber vorher identifizierten Teilszenen eine geringere Relevanz/Interessantheit/Wichtigkeit auf. Das zusammengefasste Video ist der Ausgang des Systems 200.
In einem Beispiel nutzt das System 200 eine Benutzerschnittstelle zum Präsentieren identifizierter Teilszenen und zum Annehmen von Benutzereingabe. Die Benutzerschnittstelle kann dem System 200 ein zusätzliches Merkmal bereitstellen, dem Benutzer zu gestatten, die relevanten Teilszenen manuell aus einer nach Relevanz geordneten Liste (ähnlich einer Ergebnisliste einer Suchmaschine oder einem Entscheidungsunterstützungssystem) auszuwählen. Da die Arbeitsweise der Komponente 240 iterativ ist, kann diese Liste in Echtzeit während des Betriebs erstellt werden. Überdies kann das System 200 in dem Fall, dass sich eine vollautomatische Zusammenfassung eines Videos von einer halbautomatischen Zusammenfassung (die z. B. menschliche Eingabe enthält) unterscheidet, ihr semantisches Modell aktualisieren (Online- und aktive Lernschemata), um die Rückmeldung des Benutzers durch Anpassen der Relevanzanhaltspunkte (z. B. Domäne der Relevanzmarkierungen 220) oder des intrinsischen Modells (z. B. pseudosemantische Domäne 230) zu inkorporieren.
3 zeigt ein Blockdiagramm eines Beispiels eines Kommunikationsflusses für ein System 300 für automatische Videozusammenfassung gemäß einer Ausführungsform. Die 3-4 und 6-7 stellen Einzelheiten des Systems 300 bereit. 3 stellt eine Übersicht verschiedener Komponenten bereit und die übrigen Figuren beschreiben die Unterkomponenten dieser Komponenten. Sämtliche der diskutierten Komponenten und Unterkomponenten werden durch Maschinen implementiert, wie durchgehend in diesem Dokument beschrieben.
Die Komponente 305 lernt eine intrinsische pseudosemantische Domäne für das Video unter Verwendung eines beaufsichtigten Lernmechanismus. Die Komponente 305 lernt außerdem ein generatives Modell für den Clip in dieser pseudosemantischen Domäne (z. B. durch Identifizieren von Schlüssel-Videobildern für alle Teilszenen).
Die Komponente 310 bildet Bewertungsziffern der Videobilder des Videos hinsichtlich allgemeiner Relevanz (z. B. Wichtigkeit oder Interessantheit der einzelnen Videobilder). Diese Bewertungsziffer dient als anfängliche Evidenz der Relevanz und verwendet entweder fest codierte (Expertenwissen) oder vorher gelernte Regeln (z. B. durch Beschicken des Systems mit Videos und deren manuellen Zusammenfassungen). Diese Regeln müssen aufgrund der späteren Kombination der pseudosemantischen Domäne und der allgemeinen Relevanzmodellierung jedoch nicht sehr genau sein, sollten aber besser als eine Zufallsannahme sein (z. B. Genauigkeit > 0,5). Der Ausgang der Komponente 310 verwendet die relative, nicht absolute, Bewertungsziffernbildung von verschiedenen Teilen des Videos. Das heißt, die allgemeinen Relevanzbewertungsziffern werden derart skaliert, dass innerhalb der Population von Videobildern eine maximale und eine minimale Relevanzbewertungsziffer vorhanden sind.
Die Komponente 315 erzeugt ein Modell zum Folgern der Relevanz einer Teilszene bei gegebenen anfänglichen Relevanzbewertungsziffern von der Komponente 310 und der semantischen Domäne von der Komponente 305. Die Folgerung kann ein halbbeaufsichtigter Lernalgorithmus mit weichen Markierungen sein (z. B. Evidenz von Komponente 310 oder vorherigen Iterationen).
4 zeigt ein Beispiel eines Systemkommunikationsflusses 400 zum Erzeugen eines semantischen Modells gemäß einer Ausführungsform. Das System 400 ist eine beispielhafte Implementierung der vorstehend diskutierten Komponente 305.
Das Video, das zusammenzufassen ist, wird in eine Speichervorrichtung 405 platziert. Szenenmerkmale werden durch die Komponente 410 extrahiert. Diese Merkmale sind gemeinsame Merkmale, die zum Klassifizieren von Szenentypen (z. B. drinnen/draußen, Strand/Sonnenuntergang/Party usw.) dienen. Beispielhafte Merkmale können GIST-Deskriptoren oder Ausgang der ersten Schichten eines für Szenenklassifizierung trainierten tiefen Faltungsnetzwerks enthalten. Die extrahierten Merkmale können zur Verwendung durch andere Komponenten in die Speichervorrichtung 415 platziert werden.
Die Komponente 420 lernt eine pseudosemantische Domäne. Dies erfolgt unter Verwendung eines nicht beaufsichtigten Lernalgorithmus wie Trainieren einer tiefen Boltzmann-Maschine, spektrale Einbettung, ein automatischer Codierer, spärliches Filtern usw. Die „Semantik“ geht auf natürliche Weise aus dem Typ der verwendeten Merkmale hervor. Der nicht beaufsichtigte Lernalgorithmus reduziert Störungen unter Beibehaltung der semantischen Interpretation. Demgemäß werden zwei Videobilder, die hinsichtlich anderer Videobilder ähnliche „semantische“ Informationen aufweisen (z. B. transduktive Folgerung), auf Punkte mit geringem Abstand zwischen ihnen in Bezug auf Abbildungen anderer Videobilder abgebildet. Der wahlweise Eingang 2 gestattet Crowdsourcing unter Verwendung semantischer Domänen von Videos, die unter dem gleichen oder einem ähnlichen Kontext aufgenommen wurden (z. B. Präferenzen der Kamerabedienungsperson, Zeit, Ort, Ereignis usw.).
Die Speichervorrichtung 425 enthält das pseudosemantische Modell (z. B. die gelernte Domäne), das zum Abbilden des Videos auf die Domäne verwendet werden wird. Die Komponente 430 bildet die Videobilder auf die gelernte Domäne ab. Wenn eine tiefe Boltzmann-Maschine zum Produzieren der gelernten Domäne verwendet wurde, beinhaltet Abbilden Weiterleiten der Videobilder durch die Boltzmann-Maschine. In dem Fall, in dem spektrale Einbettung verwendet wurde, können Out-of-Sample-Erweiterungstechniken zum Durchführen der Abbildung verwendet werden.
Die Komponente 435 lernt ein generatives Modell (z. B. probabilistisches grafisches Modell, Mischmodell usw.) für das abgebildete Video. Das heißt, die Komponente 435 lernt ein Modell, von dem angenommen wird, dass es die Videobilder „erzeugt“. Im System 400 identifiziert die Komponente 435 Schlüssel-Videobilder - z. B. eine Menge von Videobildern, die auf der durch das abgebildete Video erstellten Mannigfaltigkeit gestreut sind. In einem Beispiel verwendet die Komponente 435 eine rekursive Prozedur, in der ein Videobild mit der höchsten Bewertungsziffer der Menge von Schlüssel-Videobildern hinzugefügt wird: ${\tilde{X}}_{R + 1} = a r g max_{X_{i}} {[\sum_{r = 1}^{R} \frac{1 + γ {‖ X_{i} ‖}^{2}}{‖ X_{i} - \tilde{X_{r}} ‖}]}^{- 1}$
wobei X̃ die Menge von Schlüssel-Videobildern ist, X die Menge abgebildeter Videobilder ist und y eine Konstante ist, die die Regulierung steuert. Der Eingang 3 in die Komponente 435 ist ein wahlweiser Eingang, in dem Daten von anderen Videos mit demselben oder einem ähnlichen Kontext verwendet werden können, um zum Beispiel die Schlüssel-Videobilder zu identifizieren. Der Ausgang der Komponente 435 ist das generative Modell, das, wenn es abgefragt wird, eine Metrik semantischer Ähnlichkeit hinsichtlich von Videobildern in dem Video bereitstellt (z. B. ein Maß, wie semantisch ähnlich zwei Videobilder sind).
5 zeigt ein Beispiel einer semantischen Modellvisualisierung 500 gemäß einer Ausführungsform. Wie vorstehend vielfältig beschrieben, kann das semantische Modell oder die pseudosemantische Domäne ein n-dimensionaler Raum sein, in dem Dimensionen mit extrahierten Videobildmerkmalen korrespondieren. Der Einfachheit halber zeigt die Visualisierung 500 einen dreidimensionalen Raum. Die kleinen schwarzen Punkte repräsentieren auf die Domäne abgebildete Videobilder des Videos. Die größeren weißen Punkte repräsentieren ausgewählte Schlüssel-Videobilder. Es ist zu beachten, dass die Nähe der Videobilder an der linken Seite zueinander größer ist als die derjenigen an der rechten Seite der Visualisierung 500. Wie dargestellt, springt zum Beispiel die Frau in den Szenen an der linken Seiten in das Wasser, und demgemäß werden diese im Vergleich mit den Leuten, die in den Szenen an der rechten Seite entlang dem Schwimmbecken laufen, geclustert.
Wie vorstehend beschrieben, misst der Abstand zwischen den Punkten die Ähnlichkeit der Videobilder, die mit diesen Punkten korrespondieren. Bei der Auswahl von Schlüssel-Videobildern, wie vorstehend unter Bezugnahme auf 4 beschrieben, wird ein anfängliches Videobild ausgewählt, vielleicht dasjenige, das vom Ursprung in dem Raum am weitesten entfernt ist. Das nächste ausgewählte Videobild ist das, das von der ersten Szene am weitesten entfernt ist. Anschließende Videobilder sind diejenigen, die von sämtlichen der vorher ausgewählten Schlüssel-Videobilder am weitesten entfernt sind. Demgemäß stellen die abgebildeten Videobilder eine transduktive Folgerung einer Mannigfaltigkeit in dem Raum dar, der die semantischen Beziehungen zwischen Videobildern modelliert. Die Schlüssel-Videobilder sind ein Modell der Mannigfaltigkeit und werden später zum Erzeugen der Mannigfaltigkeit für neue Eingänge verwendet.
6 zeigt ein Beispiel eines Systemkommunikationsflusses 600 zum Zuweisen von Relevanzbewertungsziffern zu Videobildern gemäß einer Ausführungsform. Das System 600 ist eine beispielhafte Implementierung der vorstehend diskutierten Komponente 310. Das System 300 lernt/wendet allgemeine Relevanzregeln (die z. B. eine Klassifizierungsgenauigkeit > 0,5 aufweisen) an. Diese Regeln können entweder von vorher (manuell oder halbautomatisch) zusammengefassten Videos gelernt oder durch einen menschlichen Experten (z. B. Programmierer) direkt hinzugefügt werden. Das System 600 identifiziert Videobilder in dem Video, die eine relativ hohe Relevanzbewertungsziffer aufweisen, unter Verwendung globaler Regeln.
Die Speichervorrichtungen 605 und 625 speichern das Video, das zusammenzufassen ist. Die Speichervorrichtung 625 kann außerdem vorher zusammengefasste Teilszenen und begleitende Relevanzinformationen enthalten, z. B. über Eingang 3, wie im Gegensatz zu dem einfachen Video von Eingang 1.
Die Komponenten 610 und 635 arbeiten auf die gleiche Weise. Die Komponenten 615 und 640 arbeiten ebenfalls auf die gleiche Weise. Der hauptsächliche Unterschied zwischen den beiden dargestellten Flüssen besteht in der Videobildmarkierung von Komponente 630 und dem Lernen allgemeiner Relevanzregeln von Komponente 645, das Rückmeldungsinformationen von einem Benutzer über die zusätzlichen Teilszeneninformationen der Speichervorrichtung 625 enthalten kann.
Bei Komponente 610 wird das Verhalten der Kamerabedienungsperson unter Verwendung von Merkmalen wie die Standardabweichung der Kamerabewegung oder durch Detektieren von Zoomen (z. B. ein oder aus) extrahiert. Dies stellt Anhaltspunkte hinsichtlich der Relevanz der Szene, die aufgenommen wird, vom Standpunkt der Kamerabedienungsperson bereit. Zum Beispiel kann man folgern (z. B. mit einer höheren Genauigkeit als fünfzig Prozent), wenn Kameraverwackelungen gering sind oder eine Einzoomaktion vorliegt, dass nach Meinung der Kamerabedienungsperson etwas Interessantes in der Szene passiert (z. B. sollte der Relevanzklassifikator 620 diese Videobilder als relevant klassifizieren). In einem Beispiel können Inhaltsmerkmale (z. B. wie durch Komponente 615 extrahiert) wie Gesichtserkennung ebenfalls als Anhaltspunkte der Relevanz für den Relevanzklassifikator 620 diesen.
Die allgemeinen Relevanzregeln 650 können entweder extern bereitgestellt (z. B. über den Eingang 4) oder von vorher manuell/halbautomatisch zusammengefassten Videos gelernt (z. B. über eine Benutzerschnittstelle über den Eingang 3) werden. Im letztgenannten Fall werden die gleichen Merkmale des Verhaltens der Kamerabedienungsperson (z. B. Komponente 653) und Inhaltsmerkmale (z. B. Komponente 640) extrahiert. Durch Markieren, welche Videobilder in der vorherigen Zusammenfassung enthalten waren und welche nicht - z. B. durch Videobildmarkierung durch Komponente 630 wie Markieren jedes Videobilds in dem vollständigen Video als irrelevant, wenn es nicht in der Zusammenfassung oder in anderer Weise relevant ist - kann Beaufsichtigung für Lernen oder Ergänzen allgemeiner Klassifizierungsregeln 650 mit gewöhnlichen beaufsichtigten Lernalgorithmen wie eine Support Vector Machine, tiefe neurale Netze usw. durch den Relevanzklassifikator 620 verwendet werden. Der Ausgang 2 stellt die Relevanzklassifizierungen (z. B. Bewertungsziffern) der Videobilder des Videos dar.
7 zeigt ein Beispiel eines Systemkommunikationsflusses 700 zum Produzieren von Teilszenen unter Verwendung des semantischen Modells und zugewiesener Relevanzbewertungsziffern gemäß einer Ausführungsform. Das System 700 ist eine beispielhafte Implementierung der vorstehend diskutierten Komponente 315.
Die Komponente 705 verwendet den abgebildeten Videoclip vom System 400 (z. B. über Eingang 1) und erzeugt ein Modell 710 für halb beaufsichtigtes Lernen. In einem Beispiel ist das Modell ein Graph, dessen Knotenpunkte mit Videobildern korrespondieren und dessen Kanten mit Ähnlichkeit in der pseudosemantischen Domäne korrespondieren (z. B. werden Kanten mit dem inversen Abstand zwischen Punkten in dem n-dimensionalen Raum gewichtet).
Die Komponente 715 wird mit verfügbarer Relevanzevidenz (z. B. vom System 600 oder von vorherigen Iterationen) über den Eingang 2 initialisiert. In einem Beispiel wählt die Komponente 715 die zuversichtlichste Evidenz aus (z. B. Schlüssel-Videobilder mit höchsten oder niedrigsten Relevanzbewertungsziffern) und fixiert (z. B. verriegelt) den Zustand der korrespondierenden Knotenpunkte (Videobilder) in dem Graphen. Die übrigen Knotenpunkte werden nicht fixiert und werden als versteckte Variable behandelt, deren Zustände später bestimmt (z. B. gefolgert) werden.
Folgern des Zustands der versteckten Variablen, z. B. durch die Komponente 720, kann unter Verwendung eines Nachrichtenweiterleitungsmechanismus wie iterative Markierungsausbreitung erfolgen. Iterative Markierungsausbreitung beinhaltet in jeder Iteration, dass der Zustand jedes Knotenpunkts auf das gewichtete Mittel seiner Nachbarn in dem Graphen gesetzt wird. Nach erfolgter Konvergenz werden die Videobilder mit den höchsten und niedrigsten Relevanzbewertungsziffern als Evidenz angesehen und zum erneuten Initialisieren des Graphen verwendet (z. B. von der Komponente 720 zurück an die Komponente 715 kommuniziert).
8 zeigt eine Visualisierung 800 des Produzierens von Teilszenen unter Verwendung des semantischen Modells und zugewiesener Relevanzbewertungsziffern gemäß einer Ausführungsform. Die Visualisierung 800 zeigt zwei Kurven: die Initialisierungsdaten 805, bei denen die Varianz der Kamerabewegung die y-Achse ist und Nummern von Videobildern (z. B. die geordnete Nummer jedes Videobilds) die x-Achse ist; und eine Kurve der konvergierten Relevanz 815, bei der der x-Zugang wieder die Nummern der Videobilder ist und die y-Achse die gefolgerte Interessantheit ist. Die Kurve 815 folgt der Konvergenz des Modells 810. Wie vorstehend angeführt, haben die Schlüssel-Videobilder (z. B. der größere Kreis in der Kurve 815) die übrigen Knotenpunkte in einen hohen Zustand (z. B. die Spitze mit dem Schlüssel-Videobild an ihrem Gipfel) und einen niedrigen Zustand (z. B. die übrigen Videobilder, die das Plateau bilden) gezogen. Außerdem ist, wie durch die Kurve 815 belegt, die Auswahl der Teilszenen unkompliziert, die eine Schwellenwertbeurteilung der Relevanzbewertungsziffern zum Eintreffen in das Teilszenenintervall 820 darstellen. Das heißt, die Teilszenengrenze wird bestimmt, indem ein Maximum für das Plateau bestimmt wird und etwaige Videobilder über diesem Maximum als die Teilszene genommen werden.
Nochmals, die Kurve 805 ist die Bewegungsvarianz der Kamerabedienungsperson (y-Achse) in jedem Videobild (x-Achse); wobei geringe Bewegung hier höhere Relevanz impliziert. Die nicht schraffierten und schraffierten Kreise in der Kurve sind ausgewählte Schlüssel-Videobilder, fixiert mit niedrigen bzw. hohen Relevanzbewertungsziffern. Iterative Nachrichtenweiterleitung wird auf die Kurve 810 angewandt (wobei die dunkel und hell schraffierten Knotenpunkte fixierte Schlüssel-Videobilder sind), in der Nachrichten an Kanten, die die Knotenpunkte verbinden, weitergeleitet werden. Nach der Konvergenz werden in der Kurve 815 die Relevanzbewertungsziffern (y-Achse) der Knotenpunkte (x-Achse) dargestellt.
In einem Beispiel wird nach erfolgter Konvergenz das Videosegment (z. B. Teilszene) mit der höchsten Bewertung dem Zwischenspeicher des zusammengefassten Clips hinzugefügt und außerdem als Evidenz niedriger Relevanz zum erneuten Initialisieren des Graphen 810 eingestellt. Demgemäß können anschließende Videosegmente Bewertungen höchster Relevanz erlangen und detektiert werden, ohne durch die bereits entdeckten relevantesten Videosegmente maskiert zu werden. Zum Beispiel wird zum iterativen Identifizieren relevanter Teilszenen nach der Konvergenz des anfänglichen Graphen 810 ein Segment zum zusammengefassten Video hinzugefügt. Anschließend wird dieses Segment als Evidenz niedriger Relevanz zum erneuten Initialisieren des Graphen für die nächste Iteration hinzugefügt. Der Graph 810 wird erneut konvergiert und ein zweites relevantestes Segment identifiziert und der Videozusammenfassung hinzugefügt.
9 zeigt die Benutzerschnittstelle 900 zum Unterstützen von beaufsichtigtem Lernen für Teilszenenauswahl gemäß einer Ausführungsform. Die beispiellosen Fähigkeiten der vorstehend diskutierten Systeme für Videozusammenfassung gestatten, dass eine intuitive Benutzerschnittstelle die Aufnahme von Teilszenen in die Zusammenfassung überprüft und überarbeitet sowie eine gewisse Rückmeldung bereitstellt, um beaufsichtigtes Lernen der Relevanzanhaltspunkte oder semantisches Modellieren zu erleichtern. Wenn zum Beispiel Benutzerintervention angefordert wird (z. B. Entscheidungsunterstützungssystem-Betriebsart), kann die Benutzerschnittstelle 900 eingesetzt werden. Wenn der Benutzer mit dem Ergebnis der vollautomatischen Zusammenfassung nicht zufrieden ist, können bestimmte Teilszenen entfernt oder neu eingeordnet werden, um in der Zusammenfassung weniger prominent zu sein. Die Benutzerschnittstelle 900 stellt eine suchmaschinenähnliche Schnittstelle dar, in der präsentierte Teilszenen in abnehmender Relevanz (wie automatisch detektiert) geordnet sind. Der Benutzer kann mit seinem Finger auf dem Bildschirm nach oben oder unten gleiten, um Teilszenen zu durchsuchen. Wenn der Benutzer zum Beispiel über ein Ende der bereits erzeugten Teilszenen hinaus sucht, kann das System zusätzliche Teilszenen produzieren, um das Menü zu besetzen (z. B. durch Aktivieren der Rückmeldung von der Komponente 720 an die Komponente 715). Der Benutzer kann außerdem auswählen, welche präsentierten Teilszenen in die Zusammenfassung aufzunehmen oder nicht aufzunehmen sind, indem er zum Beispiel seinen Finger nach links bzw. nach rechts gleitet.
10 zeigt ein Beispiel eines Verfahrens 1000 für automatische Videozusammenfassung gemäß einer Ausführungsform. Die Abläufe des Verfahrens 1000 werden durch eine Maschine (z. B. Computer-Hardware) durchgeführt wie die vorstehend oder nachstehend beschriebenen (z. B. durch Schaltungsmengen implementiert).
In Ablauf 1005 kann ein Video erlang werden (z. B. empfangen oder abgerufen). Das Video enthält Videobilder, die das Video bilden.
In Ablauf 1010 kann ein semantisches Modell des Videos aus den Videobildern des Videos erzeugt werden. In einem Beispiel enthält Erzeugen des semantischen Modells, Merkmale der Videobilder zu extrahieren. In einem Beispiel enthält Extrahieren der Merkmale, Merkmale niedrigen Niveaus zu finden. In einem Beispiel enthalten die Merkmale niedrigen Niveaus einen GIST-Deskriptor. In einem Beispiel enthalten die Merkmale niedrigen Niveaus den Ort.
In einem Beispiel enthält Extrahieren der Merkmale, Merkmale hohen Niveaus zu finden. In einem Beispiel enthält Finden der Merkmale hohen Niveaus, einen Klassifikator auf die Videobilder anzuwenden, um Szenencharakteristika zu identifizieren. In einem Beispiel enthält Anwenden des Klassifikators, ein für Szenenklassifizierung trainiertes tiefes Faltungsnetzwerk zu verwenden. In einem Beispiel enthalten die Szenencharakteristika eines oder mehrere eines Schauplatzes, einer Aktivität oder eines Objekts. In einem Beispiel ist der Schauplatz eines von drinnen, draußen, an einem Strand, in einem Wald oder in einer urbanen Umgebung. In einem Beispiel ist die Aktivität eines einer Party, eines Sports, eines Ereignisses oder einer Arbeit. In einem Beispiel ist das Objekt mindestens eines eines Gesichts, eines Tiers, eines Wahrzeichens oder einer Sportausrüstung.
In einem Beispiel enthält Erzeugen des semantischen Modells, eine pseudosemantische Domäne aus den extrahierten Merkmalen zu erzeugen, wobei die pseudosemantische Domäne ein aus den Merkmalen abgeleiteter n-dimensionaler Raum ist. In einem Beispiel enthält Erzeugen der pseudosemantischen Domäne aus den extrahierten Merkmalen, eine tiefe Boltzmann-Maschine unter Verwendung der extrahierten Merkmale zu trainieren. In einem Beispiel enthält Erzeugen der pseudosemantischen Domäne aus den extrahierten Merkmalen, spektrales Einbetten auf die extrahierten Merkmale anzuwenden, um die Dimensionalität zu reduzieren.
In einem Beispiel enthält Erzeugen des semantischen Modells, die Videobilder durch Ableiten einer Koordinate in der pseudosemantischen Domäne für jedes Videobild auf die pseudosemantische Domäne abzubilden, wobei jedes Element der Koordinate mit einer Dimensionalität der pseudosemantischen Domäne korrespondiert und vom Vorhandensein eines Merkmals der extrahierten Merkmale, das für das Videobild spezifisch ist, abgeleitet ist. In einem Beispiel enthält Abbilden der Videobilder auf die pseudosemantische Domäne, wobei eine tiefe Boltzmann-Maschine zum Erschaffen der pseudosemantischen Domäne trainiert wurde, die Videobilder durch die tiefe Boltzmann-Maschine weiterzuleiten.
In einem Beispiel enthält Erzeugen des semantischen Modells, ein generatives Modell aus den auf die pseudosemantische Domäne abgebildeten Videobildern zu erschaffen. In einem Beispiel enthält Erschaffen des generativen Modells, ein probabilistisches grafisches Modell zu erschaffen. In einem Beispiel enthält Erschaffen des generativen Modells, ein Mischmodell zu erschaffen. In einem Beispiel enthält Erschaffen des generativen Modells, eine Menge von Schlüssel-Videobildern rekursiv zu identifizieren, indem ein Videobild mit einer höchsten Bewertungsziffer zu der Menge von Videobildern hinzugefügt wird, wobei die Bewertungsziffer des Videobilds die Inverse der Summe einer Quadratnorm der Koordinate des Videobilds multipliziert mit einer Konstanten und dividiert durch das Quadrat der Norm des Abstands zwischen dem Videobild und einem Videobild in der Menge von Schlüssel-Videobildern für alle Mitglieder der Menge von Schlüssel-Videobildern ist.
In Vorgang 1015 können den Videobildern jeweilige Relevanzbewertungsziffern zugewiesen werden. In einem Beispiel enthält Zuweisen jeweiliger Relevanzbewertungsziffern zu den Videobildern, Verhaltensindikatoren einer Person, die das Video aufgenommen hat, aus dem Video zu extrahieren. In einem Beispiel enthalten die Verhaltensindikatoren eine Abwesenheit von Bewegungen einer Kamera, die zum Erfassen des Videos verwendet wurde. In einem Beispiel enthalten die Verhaltensindikatoren ein verstärktes Zoomen der Kamera, die zum Erfassen des Videos verwendet wurde. In einem Beispiel enthält Extrahieren von Verhaltensindikatoren einer Person, die das Video aufgenommen hat, aus dem Video, die Verhaltensindikatoren, die eine Wahrscheinlichkeit von fünfzig Prozent oder mehr haben, Relevanz anzugeben, zu begrenzen.
In einem Beispiel enthält Zuweisen jeweiliger Relevanzbewertungsziffern zu den Videobildern, eine Bibliothek von Relevanzklassifikatoren auf die Videobilder anzuwenden. In einem Beispiel wird die Bibliothek von Relevanzklassifikatoren durch Benutzerrückmeldung korrigiert. In einem Beispiel wird Ausgabe von Bewertungsziffern des Anwendens von Relevanzklassifikatoren mit Ausgabe von extrahierten Verhaltensindikatoren einer Person, die das Video aufgenommen hat, aus dem Video kombiniert, um eine zusammengesetzte Relevanzbewertungsziffer zu erschaffen. In einem Beispiel wird die Bibliothek von Relevanzklassifikatoren gefiltert, um Klassifikatoren auszuschließen, die eine Wahrscheinlichkeit von weniger als fünfzig Prozent haben, Relevanz anzugeben.
In Vorgang 1020 kann das semantische Modell mit den jeweiligen Relevanzbewertungsziffern initialisiert werden. In einem Beispiel enthält Initialisieren des semantischen Modells mit den jeweiligen Relevanzbewertungsziffern, einen Graphen zu konstruieren, in dem Knotenpunkte mit den Videobildern korrespondieren, Knotenpunktwerte mit jeweiligen Relevanzbewertungsziffern der Videobilder korrespondieren und Kanten durch den inversen Abstand zwischen Videobildern, erstellt in dem semantischen Modell, gewichtet werden. In einem Beispiel werden Kanten ausgelassen oder entfernt, wenn der Abstand zwischen zwei Videobildern außerhalb eines Schwellenwerts liegt.
In einem Beispiel wird eine erste Teilmenge von Schlüssel-Videobildern als Videobilder niedriger Relevanz identifiziert und wird eine zweite Teilmenge von Schlüssel-Videobildern als Videobilder hoher Relevanz identifiziert, basierend auf den jeweiligen Relevanzbewertungsziffern. In einem Beispiel werden mit den Schlüssel-Videobildern niedriger Relevanz und den Schlüssel-Videobildern hoher Relevanz korrespondierende Knotenpunkte als fixierte Werte markiert.
In Vorgang 1025 kann das Modell iterativ verarbeitet werden, um eine Menge von Teilszenen zu produzieren. Dabei ist die Menge von Teilszenen eine Zusammenfassung des Videos. Die Vorgänge 1030-1040 beschreiben Vorgänge, die Teil jeder Iteration der Produktion von Teilszenen sind. In einem Beispiel wird die iterative Verarbeitung des semantischen Modells zum Produzieren einer Menge von Teilszenen fortgesetzt, bis eine im Voraus bestimmte Anzahl von Teilszenen identifiziert wurde. In einem Beispiel ist die im Voraus bestimmte Anzahl eine Benutzereingabe. In einem Beispiel basiert die im Voraus bestimmte Anzahl auf der Länge des Videos. In einem Beispiel basiert die im Voraus bestimmte Anzahl auf der Anzahl von aus dem semantischen Modell bestimmten Clustern von Videobildern.
In Vorgang 1030 kann das semantische Modell folgend auf die Initialisierung konvergiert werden. In einem Beispiel enthält Konvergieren des semantischen Modells folgend auf die Initialisierung, Knotenpunktwerte für Knotenpunkte in dem semantischen Modell, die nicht mit den Schlüssel-Videobildern niedriger Relevanz oder den Schlüssel-Videobildern hoher Relevanz korrespondieren, zu berechnen. In einem Beispiel wird Nachrichtenweiterleitung zwischen Knotenpunkten entlang Kanten verwendet, um die Knotenpunktwerte zu berechnen. In einem Beispiel enthält die Nachrichtenweiterleitung zwischen Knotenpunkten entlang Kanten zum Berechnen der Knotenpunktwerte, jeden Knotenpunktwert als ein gewichtetes Mittel von benachbarten Knotenpunkten einzusetzen, wobei ein benachbarter Knotenpunkt durch eine Kante mit dem Knotenpunkt verbunden ist, ein Gewicht von Kanten, die den Knotenpunkt und einen benachbarten Knotenpunkt verbinden, einen Wert des benachbarten Knotenpunkts modifizieren, bevor sie gemittelt werden, um das gewichtete Mittel zu erschaffen. In einem Beispiel wird das Setzen jedes Knotenpunktwerts, das gewichtete Mittel von benachbarten Knotenpunkten zu sein, fortgesetzt, bis ein Konvergenzschwellenwert erreicht wird. In einem Beispiel definiert der Konvergenzschwellenwert eine Veränderungsrate von Knotenpunktwerten, unter der Konvergenz als erreicht angesehen wird.
In Vorgang 1035 kann eine Abfolge von Videobildern mit der höchsten Relevanzbewertungsziffer nach der Konvergenz ausgewählt werden. In einem Beispiel enthält Auswählen der Abfolge von Videobildern mit der höchsten Relevanz nach dem Konvergieren, Videobilder mit korrespondierenden Knotenpunkten mit einem höheren Wert als ein Auswahlschwellenwert auszuwählen. In einem Beispiel wird der Auswahlschwellenwert aus der Gesamtheit von Knotenpunktwerten bestimmt. In einem Beispiel ist der Auswahlschwellenwert ein Mittel der Knotenpunktwerte. In einem Beispiel enthält Auswählen der Abfolge von Videobildern, einen Clip des Videos mit der Abfolge von Videobildern zu erschaffen.
In Vorgang 1040 kann das semantische Modell erneut initialisiert werden, indem die Relevanzbewertungsziffern für die ausgewählte Abfolge von Videobildern fixiert werden. In einem Beispiel enthält erneutes Initialisieren des semantischen Modells durch Fixieren der Relevanzbewertungsziffern für die ausgewählte Abfolge von Videobildern, die ausgewählte Abfolge von Videobildern als fixierte Werte in dem semantischen Modell zu markieren. In einem Beispiel werden die fixierten Werte auf die niedrigste mögliche Relevanzbewertungsziffer gesetzt. In einem Beispiel wird eine neue Teilmenge von Schlüssel-Videobildern hoher Relevanz ausgewählt und als ein fixierter Wert eingestellt.
Das Verfahren 1000 kann auch die folgenden wahlweisen Vorgänge enthalten: Präsentieren einer Benutzerschnittstelle, enthaltend die Teilszenen in einer Reihenfolge, in der sie produziert wurden; Empfangen einer Aussonderungsauswahl von einem Benutzer für eine Teilszene; und Aussondern der Teilszene aus einer Videozusammenfassung. In einem Beispiel können beim Zuweisen der jeweiligen Relevanzbewertungsziffern verwendete Relevanzkriterien modifiziert werden, um in der ausgesonderten Teilszene gefundenen Relevanzkriterien weniger Gewicht zu geben.
11 zeigt ein Blockdiagramm einer beispielhaften Maschine 1100, auf der eine oder mehrere der hierin diskutierten Techniken (z. B. Methodologien) durchgeführt werden können. In alternativen Ausführungsformen kann die Maschine 1100 als eine unabhängige Vorrichtung arbeiten oder kann mit anderen Maschinen verbunden (z. B. vernetzt) werden. In einem vernetzten Einsatz kann die Maschine 1100 in der Kapazität einer Server-Maschine, einer Client-Maschine oder beider in Server-Client-Netzwerkumgebungen betrieben werden. In einem Beispiel kann die Maschine 1100 als eine Peer-Maschine in einer Peer-to-Peer- (P2P) (oder anderen verteilten) Netzwerkumgebung fungieren. Die Maschine 1100 kann ein Personal-Computer (PC), ein Tablet-PC, eine Settop-Box (STB), ein persönlicher digitaler Assistent (PDA), ein Mobiltelefon, ein Web-Gerät, ein Netzwerkrouter, eine Vermittlungseinrichtung oder Brücke oder eine beliebige Maschine sein, die imstande ist, Anweisungen auszuführen (sequenziell oder in anderer Weise), die Aktionen spezifizieren, die durch diese Maschine vorzunehmen sind. Ferner soll der Begriff „Maschine“, während nur eine einzelne Maschine dargestellt wird, auch so genommen werden, dass er eine beliebige Zusammenstellung von Maschinen enthält, die einzeln oder zusammen eine Menge (oder mehrere Mengen) von Anweisungen ausführen, um eine oder mehrere der hierin diskutierten Methodologien wie Cloud-Computing, Software als ein Dienst (SaaS), andere Computer-Cluster-Konfigurationen durchzuführen.
Beispiele, wie hierin beschrieben, können Logik oder eine Anzahl von Komponenten oder Mechanismen enthalten oder dadurch betrieben werden. Schaltungsmengen sind eine Zusammenstellung von Schaltungen, implementiert in körperlichen Entitäten, die Hardware enthalten (z. B. einfache Schaltungen, Gatter, Logik usw.). Schaltungsmengen-Mitgliedschaft kann im Verlauf der Zeit und zugrunde liegender Variabilität von Hardware flexibel sein. Schaltungsmengen enthalten Mitglieder, die allein oder in Kombination spezifizierte Vorgänge im Betrieb durchführen können. In einem Beispiel kann die Hardware der Schaltungsmenge unveränderlich entworfen sein, einen spezifischen Vorgang auszuführen (z. B. fest verdrahtet). In einem Beispiel kann die Hardware der Schaltungsmenge variabel verbundene physikalische Komponenten (z. B. Ausführungseinheiten, Transistoren, einfache Schaltungen usw.) enthalten, die ein computerlesbares Medium enthalten, das physikalisch modifiziert wurde (z. B. magnetisch, elektrisch, verlagerbare Platzierung von invariant aus Masse bestehenden Partikeln usw.), um die Anweisungen des spezifischen Vorgangs zu codieren. Durch Verbinden der physikalischen Komponenten werden die zugrunde liegenden elektrischen Eigenschaften eines Hardware-Bestandteils verändert, zum Beispiel von einem Isolator zu einem Leiter oder umgekehrt. Die Anweisungen versetzen eingebettete Hardware (z. B. die Ausführungseinheiten oder ein Lademechanismus) in die Lage, Mitglieder der Schaltungsmenge in Hardware über die variablen Verbindungen zu erschaffen, um während des Betriebs Abschnitte des spezifischen Betriebs auszuführen. Dementsprechend ist das computerlesbare Medium an die anderen Komponenten des Schaltungsmengenmitglieds kommunikativ gekoppelt, wenn die Vorrichtung in Betrieb ist. In einem Beispiel können beliebige der physikalischen Komponenten in mehr als einem Mitglied von mehr als einer Schaltungsmenge verwendet werden. Zum Beispiel können Ausführungseinheiten im Betrieb in einer ersten Schaltung einer ersten Schaltungsmenge zu einem Zeitpunkt verwendet werden und durch eine zweite Schaltung in der ersten Schaltungsmenge oder durch eine dritte Schaltung in einer zweiten Schaltungsmenge zu einer anderen Zeit wiederverwendet werden.
Die Maschine (z. B. Computersystem) 1100 kann einen Hardware-Prozessor 1102 (z. B. eine Zentralverarbeitungseinheit (CPU), eine Grafikverarbeitungseinheit (GPU), einen Hardware-Prozessorkern oder eine beliebige Kombination davon), einen Hauptspeicher 1104 und einen statischen Speicher 1106 enthalten, wovon einige oder sämtliche über eine Verknüpfung (z. B. Bus) 1108 miteinander kommunizieren können. Die Maschine 1100 kann ferner eine Anzeigeeinheit 1110, eine alphanumerische Eingabevorrichtung 1112 (z. B. eine Tastatur) und eine Benutzerschnittstellen- bzw. UI-Navigationsvorrichtung 1114 (z. B. eine Maus) enthalten. In einem Beispiel können die Anzeigeeinheit 1110, die Eingabevorrichtung 112 und die UI-Navigationsvorrichtung 1114 eine Berührungsbildschirm-Anzeige sein. Die Maschine 1100 kann zusätzlich eine Speichervorrichtung (z. B. Laufwerkeinheit) 1116, eine Signalerzeugungsvorrichtung 1118 (z. B. ein Lautsprecher), eine Netzwerkschnittstellenvorrichtung 1120 und einen oder mehrere Sensoren 1121, wie ein Sensor eines globalen Positionierungssystems (GPS), ein Kompass, ein Beschleunigungsmesser oder ein anderer Sensor, enthalten. Die Maschine 1100 kann eine Ausgabesteuerung 1128 wie eine serielle (z. B. universeller serieller Bus (USB), parallele oder andere drahtgebundene oder drahtlose (z. B. Infrarot (IR), Nahfeldkommunikation (NFC) usw.) Verbindung enthalten, um mit einer oder mehreren Peripherievorrichtungen (z. B. ein Drucker, Kartenleser usw.) zu kommunizieren oder diese zu steuern.
Die Speichervorrichtung 1116 kann ein maschinenlesbares Medium 1122 enthalten, auf dem eine oder mehrere Mengen von Datenstrukturen oder Anweisungen 1124 (z. B. Software) gespeichert sind, die eine oder mehrere der hierin beschriebenen Techniken oder Funktionen verkörpern oder nutzen. Die Anweisungen 1124 können außerdem in dem Hauptspeicher 1104, in dem statischen Speicher 1106 oder in dem Hardware-Prozessor 1102 während ihrer Ausführung durch die Maschine 1100 vollständig oder mindestens teilweise residieren. In einem Beispiel kann eines oder eine beliebige Kombination des Hardware-Prozessors 1102, des Hauptspeichers 1104, des statischen Speichers 1106 oder der Speichervorrichtung 1116 maschinenlesbare Medien bilden.
Während das maschinenlesbare Medium 1122 als ein einzelnes Medium dargestellt wird, kann der Begriff „maschinenlesbares Medium“ ein einzelnes Medium oder mehrere Medien (z. B. eine zentralisierte oder verteilte Datenbank und/oder assoziierte Zwischenspeicher und Server) enthalten, die konfiguriert sind, die eine oder mehreren Anweisungen 1124 zu speichern.
Der Begriff „maschinenlesbares Medium“ kann jedes Medium enthalten, das imstande ist, Anweisungen zur Ausführung durch die Maschine 1100 zu speichern, zu codieren oder zu tragen und die bewirken, dass die Maschine 1100 eine oder mehrere der Techniken der vorliegenden Offenbarung durchführt, oder die imstande ist, Datenstrukturen, die durch derartige Anweisungen verwendet werden oder damit assoziiert sind, zu speichern, zu codieren oder zu tragen. Nicht einschränkende Beispiele von maschinenlesbaren Medien können Festkörperspeicher und optische und magnetische Medien enthalten. In einem Beispiel umfasst ein aus Masse bestehendes maschinenlesbares Medium ein maschinenlesbares Medium mit einer Vielzahl von Partikeln, die invariante (z. B. Ruhe-)Masse aufweisen. Dementsprechend sind aus Masse bestehende maschinenlesbare Medien keine vergänglichen, sich ausbreitenden Signale. Spezifische Beispiele von aus Masse bestehenden maschinenlesbaren Medien können enthalten: nichtflüchtiger Speicher wie Halbleiter-Speichervorrichtungen (z. B. elektrisch programmierbarer Nur-Lese-Speicher (EPROM), elektrisch löschbarer programmierbarer Nur-Lese-Speicher (EEPROM)) und Flash-Speichervorrichtungen; magnetische Platten wie interne Festplatten und entnehmbare Platten; magnetooptische Platten; und CD-ROM- und DVD-ROM-Platten.
Die Anweisungen 1124 können ferner über ein Kommunikationsnetzwerk 1126 unter Verwendung eines Übertragungsmediums über die Netzwerkschnittstellenvorrichtung 1120 unter Nutzung eines beliebigen einen einer Anzahl von Übertragungsprotokollen (z. B. Frame Relay, Internetprotokoll (IP), Übertragungssteuerungsprotokoll (TCP), Benutzerdatagrammprotokoll (UDP), Hypertexttransferprotokoll (HTTP) usw.) übertragen oder empfangen werden. Beispielhafte Kommunikationsnetzwerke können unter anderem ein Nahbereichsnetzwerk (LAN), ein Weitbereichsnetzwerk (WAN), ein Paketdatennetzwerk (z. B. das Internet), Mobiltelefonnetzwerke (z. B. zellulare Netzwerke), herkömmliche Telefon- bzw. POTS-Netzwerke und drahtlose Datennetzwerke (z. B. Familie der Standards Institute of Electrical and Electronics Engineers (IEEE) 802.11, bekannt als Wi-Fi®, Familie der Standards IEEE 802.16, bekannt als WiMax®), Familie der Standards IEEE 802.15.4, Peer-to-Peer-Netzwerke (P2P) enthalten. In einem Beispiel kann die Netzwerkschnittstellenvorrichtung 1120 eine oder mehrere physikalische Buchsen (z. B. Ethernet-, Koaxial- oder Telefonbuchsen) oder eine oder mehrere Antennen zum Verbinden mit dem Kommunikationsnetzwerk 1126 enthalten. In einem Beispiel kann die Netzwerkschnittstellenvorrichtung 1120 eine Vielzahl von Antennen für drahtlose Kommunikation unter Verwendung mindestens eines von Ein-Eingang-Mehrere-Ausgänge- (SIMO), Mehrere-Eingänge-Mehrere-Ausgänge-(MIMO) oder Mehrere-Eingänge-Ein-Ausgang-(MISO)-Techniken enthalten. Der Begriff „Übertragungsmedium“ soll so genommen werden, dass er jedes nicht körperliche Medium enthält, das imstande ist, Anweisungen zur Ausführung durch die Maschine 1100 zu speichern, zu codieren oder zu tragen, und enthält digitale oder analoge Kommunikationssignale oder andere nicht körperliche Medien zum Erleichtern der Kommunikation derartiger Software.
Zusätzliche Anmerkungen und Beispiele
Beispiel 1 ist eine Vorrichtung für automatische Videozusammenfassung, das Verfahren umfassend: eine Speichervorrichtung zum Halten eines Videos; einen semantischen Klassifikator zum Erzeugen eines semantischen Modells des Videos aus Videobildern des Videos; einen Relevanzklassifikator zum Zuweisen jeweiliger Relevanzbewertungsziffern zu den Videobildern; einen Multiplexer zum: Initialisieren des semantischen Modells mit den jeweiligen Relevanzbewertungsziffern; und iterativen Verarbeiten des semantischen Modells zum Produzieren einer Menge von Teilszenen, jede Iteration umfassend, den Multiplexer umfassend zum: Konvergieren des semantischen Modells folgend auf die Initialisierung; Auswählen einer Abfolge von Videobildern mit einer höchsten Relevanzbewertungsziffer nach Konvergieren; und erneutes Initialisieren des semantischen Modells durch Fixieren der Relevanzbewertungsziffern für die ausgewählte Abfolge von Videobildern.
In Beispiel 2 enthält der Gegenstand von Beispiel 1 wahlweise, dass Erzeugen des semantischen Modells enthält, Merkmale der Videobilder zu extrahieren.
In Beispiel 3 enthält der Gegenstand von Beispiel 2 wahlweise, dass Extrahieren der Merkmale enthält, Merkmale niedrigen Niveaus zu finden.
In Beispiel 4 enthält der Gegenstand von Beispiel 3 wahlweise, dass die Merkmale niedrigen Niveaus einen GIST-Deskriptor enthalten.
In Beispiel 5 enthält der Gegenstand eines oder mehrerer der Beispiele 3-4 wahlweise, dass die Merkmale niedrigen Niveaus den Ort enthalten.
In Beispiel 6 enthält der Gegenstand eines oder mehrerer der Beispiele 2-5 wahlweise, dass Extrahieren der Merkmale enthält, Merkmale hohen Niveaus zu finden.
In Beispiel 7 enthält der Gegenstand von Beispiel 6 wahlweise, dass Finden der Merkmale hohen Niveaus enthält, einen Klassifikator auf die Videobilder anzuwenden, um Szenencharakteristika zu identifizieren.
In Beispiel 8 enthält der Gegenstand von Beispiel 7 wahlweise, dass Anwenden des Klassifikators enthält, ein für Szenenklassifizierung trainiertes tiefes Faltungsnetzwerk zu verwenden.
In Beispiel 9 enthält der Gegenstand eines oder mehrerer der Beispiele 7-8 wahlweise, dass die Szenencharakteristika eines oder mehrere eines Schauplatzes, einer Aktivität oder eines Objekts enthalten.
In Beispiel 10 enthält der Gegenstand von Beispiel 9 wahlweise, dass der Schauplatz eines von drinnen, draußen, an einem Strand, in einem Wald oder in einer urbanen Umgebung ist.
In Beispiel 11 enthält der Gegenstand eines oder mehrerer der Beispiele 9-10 wahlweise, dass die Aktivität eines einer Party, eines Sports, eines Ereignisses oder einer Arbeit ist.
In Beispiel 12 enthält der Gegenstand eines oder mehrerer der Beispiele 9-11 wahlweise, dass das Objekt mindestens eines eines Gesichts, eines Tiers, eines Wahrzeichens oder einer Sportausrüstung ist.
In Beispiel 13 enthält der Gegenstand eines oder mehrerer der Beispiele 2-12 wahlweise, dass Erzeugen des semantischen Modells enthält, eine pseudosemantische Domäne aus den extrahierten Merkmalen zu erzeugen, wobei die pseudosemantische Domäne ein aus den Merkmalen abgeleiteter n-dimensionaler Raum ist.
In Beispiel 14 enthält der Gegenstand von Beispiel 13 wahlweise, dass Erzeugen der pseudosemantischen Domäne aus den extrahierten Merkmalen enthält, eine tiefe Boltzmann-Maschine unter Verwendung der extrahierten Merkmale zu trainieren.
In Beispiel 15 enthält der Gegenstand eines oder mehrerer der Beispiele 13-14 wahlweise, dass Erzeugen der pseudosemantischen Domäne aus den extrahierten Merkmalen enthält, spektrales Clustern auf die extrahierten Merkmale anzuwenden, um die Dimensionalität zu reduzieren.
In Beispiel 16 enthält der Gegenstand eines oder mehrerer der Beispiele 13-15 wahlweise, dass Erzeugen des semantischen Modells enthält, die Videobilder auf die pseudosemantische Domäne durch Ableiten einer Koordinate in der pseudosemantischen Domäne für jedes Videobild abzubilden, wobei jedes Element der Koordinate mit einer Dimensionalität der pseudosemantischen Domäne korrespondiert und von einem Vorhandensein eines Merkmals der extrahierten Merkmale, das für das Videobild spezifisch ist, abgeleitet ist.
In Beispiel 17 enthält der Gegenstand von Beispiel 16 wahlweise, dass Abbilden der Videobilder auf die pseudosemantische Domäne, wobei eine tiefe Boltzmann-Maschine zum Erschaffen der pseudosemantischen Domäne trainiert wurde, enthält, die Videobilder durch die tiefe Boltzmann-Maschine weiterzuleiten.
In Beispiel 18 enthält der Gegenstand eines oder mehrerer der Beispiele 16-17 wahlweise, dass Abbilden der Videobilder auf die pseudosemantische Domäne, wobei eine tiefe Boltzmann-Maschine zum Erschaffen der pseudosemantischen Domäne trainiert wurde, enthält, die Videobilder durch die tiefe Boltzmann-Maschine weiterzuleiten.
In Beispiel 19 enthält der Gegenstand eines oder mehrerer der Beispiele 16-18 wahlweise, dass Erzeugen des semantischen Modells enthält, ein generatives Modell aus den auf die pseudosemantische Domäne abgebildeten Videobildern zu erschaffen.
In Beispiel 20 enthält der Gegenstand von Beispiel 19 wahlweise, dass Erschaffen des generativen Modells enthält, ein probabilistisches grafisches Modell zu erschaffen.
In Beispiel 21 enthält der Gegenstand eines oder mehrerer der Beispiele 19-20 wahlweise, dass Erschaffen des generativen Modells enthält, ein Mischmodell zu erschaffen.
In Beispiel 22 enthält der Gegenstand eines oder mehrerer der Beispiele 19-21 wahlweise, dass Erschaffen des generativen Modells enthält, eine Menge von Schlüssel-Videobildern in den Videobildern durch Hinzufügen eines Videobilds mit einer höchsten Bewertungsziffer zu der Menge von Videobildern rekursiv zu identifizieren, wobei die Bewertungsziffer eines Videobilds die Inverse der Summe einer Quadratnorm der Koordinate des Videobilds multipliziert mit einer Konstanten und dividiert durch das Quadrat der Norm des Abstands zwischen dem Videobild und einem Videobild in der Menge von Schlüssel-Videobildern für alle Mitglieder der Menge von Schlüssel-Videobildern ist.
In Beispiel 23 enthält der Gegenstand eines oder mehrerer der Beispiele 1-22 wahlweise, dass Zuweisen jeweiliger Relevanzbewertungsziffern zu den Videobildern enthält, Verhaltensindikatoren einer Person, die das Video aufnahm, aus dem Video zu extrahieren.
In Beispiel 24 enthält der Gegenstand von Beispiel 23 wahlweise, dass die Verhaltensindikatoren eine Abwesenheit von Bewegungen einer Kamera, die zum Aufnehmen des Videos verwendet wurde, enthalten.
In Beispiel 25 enthält der Gegenstand eines oder mehrerer der Beispiele 23-24 wahlweise, dass die Verhaltensindikatoren ein verstärktes Zoomen der Kamera, die zum Aufnehmen des Videos verwendet wurde, enthalten.
In Beispiel 26 enthält der Gegenstand eines oder mehrerer der Beispiele 23-25 wahlweise, dass Extrahieren von Verhaltensindikatoren einer Person, die das Video aufnahm, aus dem Video enthält, die Verhaltensindikatoren, die eine Wahrscheinlichkeit von fünfzig Prozent oder höher aufweisen, Relevanz anzugeben, zu begrenzen.
In Beispiel 27 enthält der Gegenstand eines oder mehrerer der Beispiele 1-26 wahlweise, dass Zuweisen jeweiliger Relevanzbewertungsziffern zu den Videobildern enthält, eine Bibliothek von Relevanzklassifikatoren auf die Videobilder anzuwenden.
In Beispiel 28 enthält der Gegenstand von Beispiel 27 wahlweise, dass die Bibliothek von Relevanzklassifikatoren durch Benutzerrückmeldung korrigiert wird.
In Beispiel 29 enthält der Gegenstand eines oder mehrerer der Beispiele 27-28 wahlweise, dass ausgegebene Bewertungsziffern des Anwendens der Bibliothek von Relevanzklassifikatoren mit Ausgang von aus dem Video extrahierten Verhaltensindikatoren einer Person, die das Video aufnahm, kombiniert werden, um eine zusammengesetzte Relevanzbewertungsziffer zu erschaffen.
In Beispiel 30 enthält der Gegenstand eines oder mehrerer der Beispiele 27-29 wahlweise, dass die Bibliothek von Relevanzklassifikatoren gefiltert wird, um Klassifikatoren auszuschließen, die eine Wahrscheinlichkeit von weniger als fünfzig Prozent aufweisen, Relevanz anzugeben.
In Beispiel 31 enthält der Gegenstand eines oder mehrerer der Beispiele 1-30 wahlweise, dass Initialisieren des semantischen Modells mit den jeweiligen Relevanzbewertungsziffern enthält, einen Graphen zu konstruieren, in dem Knotenpunkte mit den Videobildern korrespondieren, Knotenpunktwerte mit jeweiligen Relevanzbewertungsziffern der Videobilder korrespondieren und Kanten mit dem inversen Abstand zwischen Videobildern, erstellt in dem semantischen Modell, gewichtet werden.
In Beispiel 32 enthält der Gegenstand von Beispiel 31 wahlweise, dass Kanten ausgelassen oder entfernt werden, wenn der Abstand zwischen zwei Videobildern außerhalb eines Schwellenwerts liegt.
In Beispiel 33 enthält der Gegenstand eines oder mehrerer der Beispiele 31-32 wahlweise, dass eine erste Teilmenge von Schlüssel-Videobildern als Videobilder niedriger Relevanz identifiziert wird und eine zweite Teilmenge von Schlüssel-Videobildern als Videobilder hoher Relevanz identifiziert wird, basierend auf den jeweiligen Relevanzbewertungsziffern.
In Beispiel 34 enthält der Gegenstand von Beispiel 33 wahlweise, dass mit den Schlüssel-Videobildern niedriger Relevanz und den Schlüssel-Videobildern hoher Relevanz korrespondierende Knotenpunkte als fixierte Werte markiert werden.
In Beispiel 35 enthält der Gegenstand von Beispiel 34 wahlweise, dass Konvergieren des semantischen Modells folgend auf Initialisieren enthält, Knotenpunktwerte für Knotenpunkte in dem semantischen Modell, die mit den Schlüssel-Videobildern niedriger Relevanz oder den Schlüssel-Videobildern hoher Relevanz nicht korrespondieren, zu berechnen.
In Beispiel 36 enthält der Gegenstand von Beispiel 35 wahlweise, dass Nachrichten, die zwischen Knotenpunkten entlang Kanten passieren, zum Berechnen der Knotenpunktwerte verwendet werden.
In Beispiel 37 enthält der Gegenstand von Beispiel 36 wahlweise, dass Passieren der Nachricht zwischen Knotenpunkten entlang Kanten zum Berechnen der Knotenpunktwerte enthält, jeden Knotenpunktwert auf ein gewichtetes Mittel benachbarter Knoten zu setzen, wobei ein benachbarter Knotenpunkt durch eine Kante mit dem Knotenpunkt verbunden ist, ein Gewicht von Kanten, die den Knotenpunkt und einen benachbarten Knotenpunkt verbinden, ein Gewicht des benachbarten Knotenpunkts vor der Mittelwertbildung modifiziert, um das gewichtete Mittel zu erschaffen.
In Beispiel 38 enthält der Gegenstand von Beispiel 37 wahlweise, dass das Setzen jedes Knotenpunktwerts auf das gewichtete Mittel benachbarter Knoten fortgesetzt wird, bis ein Konvergenzschwellenwert erreicht wird.
In Beispiel 39 enthält der Gegenstand von Beispiel 38 wahlweise, dass der Konvergenzschwellenwert eine Veränderungsrate der Knotenpunktwerte definiert, unter der Konvergenz als erreicht angesehen wird.
In Beispiel 40 enthält der Gegenstand eines oder mehrerer der Beispiele 38-39 wahlweise, dass Auswählen der Abfolge von Videobildern mit der höchsten Relevanzbewertungsziffer nach Konvergieren enthält, Videobilder mit korrespondierenden Knotenpunkten mit einem Wert größer als ein Auswahlschwellenwert auszuwählen.
In Beispiel 41 enthält der Gegenstand von Beispiel 40 wahlweise, dass der Auswahlschwellenwert aus der Gesamtheit von Knotenpunktwerten bestimmt wird.
In Beispiel 42 enthält der Gegenstand von Beispiel 41 wahlweise, dass der Auswahlschwellenwert ein Mittel der Knotenpunktwerte ist.
In Beispiel 43 enthält der Gegenstand eines oder mehrerer der Beispiele 40-42 wahlweise, dass Auswählen der Abfolge von Videobildern enthält, einen Clip des Videos mit der Abfolge von Videobildern zu erschaffen.
In Beispiel 44 enthält der Gegenstand von Beispiel 43 wahlweise, dass erneutes Initialisieren des semantischen Modells durch Fixieren der Relevanzbewertungsziffern für die ausgewählte Abfolge von Videobildern enthält, die ausgewählte Abfolge von Videobildern als fixierte Werte in dem semantischen Modell zu markieren.
In Beispiel 45 enthält der Gegenstand von Beispiel 44 wahlweise, dass die fixierten Werte auf die niedrigste mögliche Relevanzbewertungsziffer gesetzt werden.
In Beispiel 46 enthält der Gegenstand eines oder mehrerer der Beispiele 44-45 wahlweise, dass eine neue Teilmenge von Schlüssel-Videobildern hoher Relevanz ausgewählt und als fixierter Wert gesetzt wird.
In Beispiel 47 enthält der Gegenstand eines oder mehrerer der Beispiele 1-46 wahlweise, dass iteratives Verarbeiten des semantischen Modells zum Produzieren einer Menge von Teilszenen fortgesetzt wird, bis eine im Voraus bestimmte Anzahl von Teilszenen identifiziert ist.
In Beispiel 48 enthält der Gegenstand von Beispiel 47 wahlweise, dass die im Voraus bestimmte Anzahl eine Benutzereingabe ist.
In Beispiel 49 enthält der Gegenstand eines oder mehrerer der Beispiele 47-48 wahlweise, dass die im Voraus bestimmte Anzahl auf der Länge des Videos basiert.
In Beispiel 50 enthält der Gegenstand eines oder mehrerer der Beispiele 47-49 wahlweise, dass die im Voraus bestimmte Anzahl auf der aus dem semantischen Modell bestimmten Anzahl von Clustern von Videobildern basiert.
In Beispiel 51 enthält der Gegenstand eines oder mehrerer der Beispiele 1-50 wahlweise eine Steuerung zum: Präsentieren einer Benutzerschnittstelle, die die Teilszenen in einer Reihenfolge enthält, in der sie produziert wurden; Empfangen einer Aussonderungsauswahl von einem Benutzer für eine Teilszene; und Aussondern der Teilszene aus einer Videozusammenfassung.
In Beispiel 52 enthält der Gegenstand eines oder mehrerer der Beispiele 1-51 wahlweise, dass der Relevanzklassifikator zum Modifizieren von Relevanzkriterien dient, die beim Zuweisen der jeweiligen Relevanzbewertungsziffern verwendet werden, um in der ausgesonderten Teilszene gefundenen Relevanzkriterien weniger Gewicht zu geben.
Beispiel 53 ist ein maschinenimplementiertes Verfahren für automatische Videozusammenfassung, das Verfahren umfassend: Erlangen eines Videos; Erzeugen eines semantischen Modells des Videos aus Videobildern des Videos; Zuweisen jeweiliger Relevanzbewertungsziffern zu den Videobildern; Initialisieren des semantischen Modells mit den jeweiligen Relevanzbewertungsziffern; und iteratives Verarbeiten des semantischen Modells, um eine Menge von Teilszenen zu produzieren, jede Iteration umfassend: Konvergieren des semantischen Modells folgend auf Initialisierung; Auswählen einer Abfolge von Videobildern mit einer höchsten Relevanzbewertungsziffer nach Konvergieren; und erneutes Initialisieren des semantischen Modells durch Fixieren der Relevanzbewertungsziffern für die ausgewählte Abfolge von Videobildern.
In Beispiel 54 enthält der Gegenstand von Beispiel 53 wahlweise, dass Erzeugen des semantischen Modells enthält, Merkmale der Videobilder zu extrahieren.
In Beispiel 55 enthält der Gegenstand von Beispiel 54 wahlweise, dass Extrahieren der Merkmale enthält, Merkmale niedrigen Niveaus zu finden.
In Beispiel 56 enthält der Gegenstand von Beispiel 55 wahlweise, dass die Merkmale niedrigen Niveaus einen GIST-Deskriptor enthalten.
In Beispiel 57 enthält der Gegenstand eines oder mehrerer der Beispiele 55-56 wahlweise, dass die Merkmale niedrigen Niveaus einen Ort enthalten.
In Beispiel 58 enthält der Gegenstand eines oder mehrerer der Beispiele 54-57 wahlweise, dass Extrahieren der Merkmale enthält, Merkmale hohen Niveaus zu finden.
In Beispiel 59 enthält der Gegenstand von Beispiel 58 wahlweise, dass Finden der Merkmale hohen Niveaus enthält, einen Klassifikator auf die Videobilder anzuwenden, um Szenencharakteristika zu identifizieren.
In Beispiel 60 enthält der Gegenstand von Beispiel 59 wahlweise, dass Anwenden des Klassifikators enthält, ein für Szenenklassifizierung trainiertes tiefes Faltungsnetzwerk zu verwenden.
In Beispiel 61 enthält der Gegenstand eines oder mehrerer der Beispiele 59-60 wahlweise, dass die Szenencharakteristika eines oder mehrere eines Schauplatzes, einer Aktivität oder eines Objekts enthalten.
In Beispiel 62 enthält der Gegenstand von Beispiel 61 wahlweise, dass der Schauplatz eines von drinnen, draußen, an einem Strand, in einem Wald oder in einer urbanen Umgebung ist.
In Beispiel 63 enthält der Gegenstand eines oder mehrerer der Beispiele 61-62 wahlweise, dass die Aktivität eines einer Party, eines Sports, eines Ereignisses oder einer Arbeit ist.
In Beispiel 64 enthält der Gegenstand eines oder mehrerer der Beispiele 61-63 wahlweise, dass das Objekt mindestens eines eines Gesichts, eines Tiers, eines Wahrzeichens oder einer Sportausrüstung ist.
In Beispiel 65 enthält der Gegenstand eines oder mehrerer der Beispiele 54-64 wahlweise, dass Erzeugen des semantischen Modells enthält, eine pseudosemantische Domäne aus den extrahierten Merkmalen zu erzeugen, wobei die pseudosemantische Domäne ein aus den Merkmalen abgeleiteter n-dimensionaler Raum ist.
In Beispiel 66 enthält der Gegenstand von Beispiel 65 wahlweise, dass Erzeugen der pseudosemantischen Domäne aus den extrahierten Merkmalen enthält, eine tiefe Boltzmann-Maschine unter Verwendung der extrahierten Merkmale zu trainieren.
In Beispiel 67 enthält der Gegenstand eines oder mehrerer der Beispiele 65-66 wahlweise, dass Erzeugen der pseudosemantischen Domäne aus den extrahierten Merkmalen enthält, spektrales Clustern auf die extrahierten Merkmale anzuwenden, um die Dimensionalität zu reduzieren.
In Beispiel 68 enthält der Gegenstand eines oder mehrerer der Beispiele 65-67 wahlweise, dass Erzeugen des semantischen Modells enthält, die Videobilder auf die pseudosemantische Domäne durch Ableiten einer Koordinate in der pseudosemantischen Domäne für jedes Videobild abzubilden, wobei jedes Element der Koordinate mit einer Dimensionalität der pseudosemantischen Domäne korrespondiert und von einem Vorhandensein eines Merkmals der extrahierten Merkmale, das für das Videobild spezifisch ist, abgeleitet ist.
In Beispiel 69 enthält der Gegenstand von Beispiel 68 wahlweise, dass Abbilden der Videobilder auf die pseudosemantische Domäne, wobei eine tiefe Boltzmann-Maschine zum Erschaffen der pseudosemantischen Domäne trainiert wurde, enthält, die Videobilder durch die tiefe Boltzmann-Maschine weiterzuleiten.
In Beispiel 70 enthält der Gegenstand eines oder mehrerer der Beispiele 68-69 wahlweise, dass Abbilden der Videobilder auf die pseudosemantische Domäne, wobei eine tiefe Boltzmann-Maschine zum Erschaffen der pseudosemantischen Domäne trainiert wurde, enthält, die Videobilder durch die tiefe Boltzmann-Maschine weiterzuleiten.
In Beispiel 71 enthält der Gegenstand eines oder mehrerer der Beispiele 68-70 wahlweise, dass Erzeugen des semantischen Modells enthält, ein generatives Modell aus den auf die pseudosemantische Domäne abgebildeten Videobildern zu erschaffen.
In Beispiel 72 enthält der Gegenstand von Beispiel 71 wahlweise, dass Erschaffen des generativen Modells enthält, ein probabilistisches grafisches Modell zu erschaffen.
In Beispiel 73 enthält der Gegenstand eines oder mehrerer der Beispiele 71-72 wahlweise, dass Erschaffen des generativen Modells enthält, ein Mischmodell zu erschaffen.
In Beispiel 74 enthält der Gegenstand eines oder mehrerer der Beispiele 71-73 wahlweise, dass Erschaffen des generativen Modells enthält, eine Menge von Schlüssel-Videobildern in den Videobildern durch Hinzufügen eines Videobilds mit einer höchsten Bewertungsziffer zu der Menge von Videobildern rekursiv zu identifizieren, wobei die Bewertungsziffer eines Videobilds die Inverse der Summe einer Quadratnorm der Koordinate des Videobilds multipliziert mit einer Konstanten und dividiert durch das Quadrat der Norm des Abstands zwischen dem Videobild und einem Videobild in der Menge von Schlüssel-Videobildern für alle Mitglieder der Menge von Schlüssel-Videobildern ist.
In Beispiel 75 enthält der Gegenstand eines oder mehrerer der Beispiele 53-74 wahlweise, dass Zuweisen jeweiliger Relevanzbewertungsziffern zu den Videobildern enthält, Verhaltensindikatoren einer Person, die das Video aufnahm, aus dem Video zu extrahieren.
In Beispiel 76 enthält der Gegenstand von Beispiel 75 wahlweise, dass die Verhaltensindikatoren eine Abwesenheit von Bewegungen einer Kamera, die zum Aufnehmen des Videos verwendet wurde, enthalten.
In Beispiel 77 enthält der Gegenstand eines oder mehrerer der Beispiele 75-76 wahlweise, dass die Verhaltensindikatoren ein verstärktes Zoomen der Kamera, die zum Aufnehmen des Videos verwendet wurde, enthalten.
In Beispiel 78 enthält der Gegenstand eines oder mehrerer der Beispiele 75-77 wahlweise, dass Extrahieren von Verhaltensindikatoren einer Person, die das Video aufnahm, aus dem Video enthält, die Verhaltensindikatoren, die eine Wahrscheinlichkeit von fünfzig Prozent oder höher aufweisen, Relevanz anzugeben, zu begrenzen.
In Beispiel 79 enthält der Gegenstand eines oder mehrerer der Beispiele 53-78 wahlweise, dass Zuweisen jeweiliger Relevanzbewertungsziffern zu den Videobildern enthält, eine Bibliothek von Relevanzklassifikatoren auf die Videobilder anzuwenden.
In Beispiel 80 enthält der Gegenstand von Beispiel 79 wahlweise, dass die Bibliothek von Relevanzklassifikatoren durch Benutzerrückmeldung korrigiert wird.
In Beispiel 81 enthält der Gegenstand eines oder mehrerer der Beispiele 79-80 wahlweise, dass ausgegebene Bewertungsziffern des Anwendens der Bibliothek von Relevanzklassifikatoren mit Ausgang von aus dem Video extrahierten Verhaltensindikatoren einer Person, die das Video aufnahm, kombiniert werden, um eine zusammengesetzte Relevanzbewertungsziffer zu erschaffen.
In Beispiel 82 enthält der Gegenstand eines oder mehrerer der Beispiele 79-81 wahlweise, dass die Bibliothek von Relevanzklassifikatoren gefiltert wird, um Klassifikatoren auszuschließen, die eine Wahrscheinlichkeit von weniger als fünfzig Prozent aufweisen, Relevanz anzugeben.
In Beispiel 83 enthält der Gegenstand eines oder mehrerer der Beispiele 53-82 wahlweise, dass Initialisieren des semantischen Modells mit den jeweiligen Relevanzbewertungsziffern enthält, einen Graphen zu konstruieren, in dem Knotenpunkte mit den Videobildern korrespondieren, Knotenpunktwerte mit jeweiligen Relevanzbewertungsziffern der Videobilder korrespondieren und Kanten mit dem inversen Abstand zwischen Videobildern, erstellt in dem semantischen Modell, gewichtet werden.
In Beispiel 84 enthält der Gegenstand von Beispiel 83 wahlweise, dass Kanten ausgelassen oder entfernt werden, wenn der Abstand zwischen zwei Videobildern außerhalb eines Schwellenwerts liegt.
In Beispiel 85 enthält der Gegenstand eines oder mehrerer der Beispiele 83-84 wahlweise, dass eine erste Teilmenge von Schlüssel-Videobildern als Videobilder niedriger Relevanz identifiziert wird und eine zweite Teilmenge von Schlüssel-Videobildern als Videobilder hoher Relevanz identifiziert wird, basierend auf den jeweiligen Relevanzbewertungsziffern.
In Beispiel 86 enthält der Gegenstand von Beispiel 85 wahlweise, dass mit den Schlüssel-Videobildern niedriger Relevanz und den Schlüssel-Videobildern hoher Relevanz korrespondierende Knotenpunkte als fixierte Werte markiert werden.
In Beispiel 87 enthält der Gegenstand von Beispiel 86 wahlweise, dass Konvergieren des semantischen Modells folgend auf Initialisieren enthält, Knotenpunktwerte für Knotenpunkte in dem semantischen Modell, die mit den Schlüssel-Videobildern niedriger Relevanz oder den Schlüssel-Videobildern hoher Relevanz nicht korrespondieren, zu berechnen.
In Beispiel 88 enthält der Gegenstand von Beispiel 87 wahlweise, dass Nachrichten, die zwischen Knotenpunkten entlang Kanten passieren, zum Berechnen der Knotenpunktwerte verwendet werden.
In Beispiel 89 enthält der Gegenstand von Beispiel 88 wahlweise, dass Passieren der Nachricht zwischen Knotenpunkten entlang Kanten zum Berechnen der Knotenpunktwerte enthält, jeden Knotenpunktwert auf ein gewichtetes Mittel benachbarter Knoten zu setzen, wobei ein benachbarter Knotenpunkt durch eine Kante mit dem Knotenpunkt verbunden ist, ein Gewicht von Kanten, die den Knotenpunkt und einen benachbarten Knotenpunkt verbinden, einen Wert des benachbarten Knotenpunkts vor der Mittelwertbildung modifiziert, um das gewichtete Mittel zu erschaffen.
In Beispiel 90 enthält der Gegenstand von Beispiel 89 wahlweise, dass das Setzen jedes Knotenpunktwerts auf das gewichtete Mittel benachbarter Knoten fortgesetzt wird, bis ein Konvergenzschwellenwert erreicht wird.
In Beispiel 91 enthält der Gegenstand von Beispiel 90 wahlweise, dass der Konvergenzschwellenwert eine Veränderungsrate der Knotenpunktwerte definiert, unter der Konvergenz als erreicht angesehen wird.
In Beispiel 92 enthält der Gegenstand eines oder mehrerer der Beispiele 90-91 wahlweise, dass Auswählen der Abfolge von Videobildern mit der höchsten Relevanzbewertungsziffer nach Konvergieren enthält, Videobilder mit korrespondierenden Knotenpunkten mit einem Wert größer als ein Auswahlschwellenwert auszuwählen.
In Beispiel 93 enthält der Gegenstand von Beispiel 92 wahlweise, dass der Auswahlschwellenwert aus der Gesamtheit von Knotenpunktwerten bestimmt wird.
In Beispiel 94 enthält der Gegenstand von Beispiel 93 wahlweise, dass der Auswahlschwellenwert ein Mittel der Knotenpunktwerte ist.
In Beispiel 95 enthält der Gegenstand eines oder mehrerer der Beispiele 92-94 wahlweise, dass Auswählen der Abfolge von Videobildern enthält, einen Clip des Videos mit der Abfolge von Videobildern zu erschaffen.
In Beispiel 96 enthält der Gegenstand von Beispiel 95 wahlweise, dass erneutes Initialisieren des semantischen Modells durch Fixieren der Relevanzbewertungsziffern für die ausgewählte Abfolge von Videobildern enthält, die ausgewählte Abfolge von Videobildern als fixierte Werte in dem semantischen Modell zu markieren.
In Beispiel 97 enthält der Gegenstand von Beispiel 96 wahlweise, dass die fixierten Werte auf die niedrigste mögliche Relevanzbewertungsziffer gesetzt werden.
In Beispiel 98 enthält der Gegenstand eines oder mehrerer der Beispiele 96-97 wahlweise, dass eine neue Teilmenge von Schlüssel-Videobildern hoher Relevanz ausgewählt und als fixierter Wert gesetzt wird.
In Beispiel 99 enthält der Gegenstand eines oder mehrerer der Beispiele 53-98 wahlweise, dass iteratives Verarbeiten des semantischen Modells zum Produzieren einer Menge von Teilszenen fortgesetzt wird, bis eine im Voraus bestimmte Anzahl von Teilszenen identifiziert ist.
In Beispiel 100 enthält der Gegenstand von Beispiel 99 wahlweise, dass die im Voraus bestimmte Anzahl eine Benutzereingabe ist.
In Beispiel 101 enthält der Gegenstand eines oder mehrerer der Beispiele 99-100 wahlweise, dass die im Voraus bestimmte Anzahl auf der Länge des Videos basiert.
In Beispiel 102 enthält der Gegenstand eines oder mehrerer der Beispiele 99-101 wahlweise, dass die im Voraus bestimmte Anzahl auf der aus dem semantischen Modell bestimmten Anzahl von Clustern von Videobildern basiert.
In Beispiel 103 enthält der Gegenstand eines oder mehrerer der Beispiele 53-102 wahlweise: Präsentieren einer Benutzerschnittstelle, die die Teilszenen in einer Reihenfolge enthält, in der sie produziert wurden; Empfangen einer Aussonderungsauswahl von einem Benutzer für eine Teilszene; und Aussondern der Teilszene aus einer Videozusammenfassung.
In Beispiel 104 enthält der Gegenstand eines oder mehrerer der Beispiele 53-103 wahlweise Modifizieren von Relevanzkriterien, die beim Zuweisen der jeweiligen Relevanzbewertungsziffern verwendet werden, um in der ausgesonderten Teilszene gefundenen Relevanzkriterien weniger Gewicht zu geben.
Beispiel 105 ist ein System, umfassend Mittel zum Durchführen beliebiger der Verfahren der Beispiele 53-104.
Beispiel 106 ist mindestens ein maschinenlesbares Medium, das Anweisungen enthält, die, wenn sie durch eine Maschine ausgeführt werden, bewirken, dass die Maschine eines der Verfahren der Beispiele 53-104 durchführt.
Beispiel 107 ist mindestens ein maschinenlesbares Medium, das Anweisungen enthält, die, wenn sie durch eine Maschine ausgeführt werden, bewirken, dass die Maschine Operationen für automatische Videozusammenfassung durchführt, die Operationen umfassend: Erlangen eines Videos; Erzeugen eines semantischen Modells des Videos aus Videobildern des Videos; Zuweisen jeweiliger Relevanzbewertungsziffern zu den Videobildern; Initialisieren des semantischen Modells mit den jeweiligen Relevanzbewertungsziffern; und iteratives Verarbeiten des semantischen Modells, um eine Menge von Teilszenen zu produzieren, jede Iteration umfassend: Konvergieren des semantischen Modells folgend auf Initialisierung; Auswählen einer Abfolge von Videobildern mit einer höchsten Relevanzbewertungsziffer nach Konvergieren; und erneutes Initialisieren des semantischen Modells durch Fixieren der Relevanzbewertungsziffern für die ausgewählte Abfolge von Videobildern.
In Beispiel 108 enthält der Gegenstand von Beispiel 107 wahlweise, dass Erzeugen des semantischen Modells enthält, Merkmale der Videobilder zu extrahieren.
In Beispiel 109 enthält der Gegenstand von Beispiel 108 wahlweise, dass Extrahieren der Merkmale enthält, Merkmale niedrigen Niveaus zu finden.
In Beispiel 110 enthält der Gegenstand von Beispiel 109 wahlweise, dass die Merkmale niedrigen Niveaus einen GIST-Deskriptor enthalten.
In Beispiel 111 enthält der Gegenstand eines oder mehrerer der Beispiele 109-110 wahlweise, dass die Merkmale niedrigen Niveaus einen Ort enthalten.
In Beispiel 112 enthält der Gegenstand eines oder mehrerer der Beispiele 108-111 wahlweise, dass Extrahieren der Merkmale enthält, Merkmale hohen Niveaus zu finden.
In Beispiel 113 enthält der Gegenstand von Beispiel 112 wahlweise, dass Finden der Merkmale hohen Niveaus enthält, einen Klassifikator auf die Videobilder anzuwenden, um Szenencharakteristika zu identifizieren.
In Beispiel 114 enthält der Gegenstand von Beispiel 113 wahlweise, dass Anwenden des Klassifikators enthält, ein für Szenenklassifizierung trainiertes tiefes Faltungsnetzwerk zu verwenden.
In Beispiel 115 enthält der Gegenstand eines oder mehrerer der Beispiele 113-114 wahlweise, dass die Szenencharakteristika eines oder mehrere eines Schauplatzes, einer Aktivität oder eines Objekts enthalten.
In Beispiel 116 enthält der Gegenstand von Beispiel 115 wahlweise, dass der Schauplatz eines von drinnen, draußen, an einem Strand, in einem Wald oder in einer urbanen Umgebung ist.
In Beispiel 117 enthält der Gegenstand eines oder mehrerer der Beispiele 115-116 wahlweise, dass die Aktivität eines einer Party, eines Sports, eines Ereignisses oder einer Arbeit ist.
In Beispiel 118 enthält der Gegenstand eines oder mehrerer der Beispiele 115-117 wahlweise, dass das Objekt mindestens eines eines Gesichts, eines Tiers, eines Wahrzeichens oder einer Sportausrüstung ist.
In Beispiel 119 enthält der Gegenstand eines oder mehrerer der Beispiele 108-118 wahlweise, dass Erzeugen des semantischen Modells enthält, eine pseudosemantische Domäne aus den extrahierten Merkmalen zu erzeugen, wobei die pseudosemantische Domäne ein aus den Merkmalen abgeleiteter n-dimensionaler Raum ist.
In Beispiel 120 enthält der Gegenstand von Beispiel 119 wahlweise, dass Erzeugen der pseudosemantischen Domäne aus den extrahierten Merkmalen enthält, eine tiefe Boltzmann-Maschine unter Verwendung der extrahierten Merkmale zu trainieren.
In Beispiel 121 enthält der Gegenstand eines oder mehrerer der Beispiele 119-120 wahlweise, dass Erzeugen der pseudosemantischen Domäne aus den extrahierten Merkmalen enthält, spektrales Clustern auf die extrahierten Merkmale anzuwenden, um die Dimensionalität zu reduzieren.
In Beispiel 122 enthält der Gegenstand eines oder mehrerer der Beispiele 119-121 wahlweise, dass Erzeugen des semantischen Modells enthält, die Videobilder auf die pseudosemantische Domäne durch Ableiten einer Koordinate in der pseudosemantischen Domäne für jedes Videobild abzubilden, wobei jedes Element der Koordinate mit einer Dimensionalität der pseudosemantischen Domäne korrespondiert und von einem Vorhandensein eines Merkmals der extrahierten Merkmale, das für das Videobild spezifisch ist, abgeleitet ist.
In Beispiel 123 enthält der Gegenstand von Beispiel 122 wahlweise, dass Abbilden der Videobilder auf die pseudosemantische Domäne, wobei eine tiefe Boltzmann-Maschine zum Erschaffen der pseudosemantischen Domäne trainiert wurde, enthält, die Videobilder durch die tiefe Boltzmann-Maschine weiterzuleiten.
In Beispiel 124 enthält der Gegenstand eines oder mehrerer der Beispiele 122-123 wahlweise, dass Abbilden der Videobilder auf die pseudosemantische Domäne, wobei eine tiefe Boltzmann-Maschine zum Erschaffen der pseudosemantischen Domäne trainiert wurde, enthält, die Videobilder durch die tiefe Boltzmann-Maschine weiterzuleiten.
In Beispiel 125 enthält der Gegenstand eines oder mehrerer der Beispiele 122-124 wahlweise, dass Erzeugen des semantischen Modells enthält, ein generatives Modell aus den auf die pseudosemantische Domäne abgebildeten Videobildern zu erschaffen.
In Beispiel 126 enthält der Gegenstand von Beispiel 125 wahlweise, dass Erschaffen des generativen Modells enthält, ein probabilistisches grafisches Modell zu erschaffen.
In Beispiel 127 enthält der Gegenstand eines oder mehrerer der Beispiele 125-126 wahlweise, dass Erschaffen des generativen Modells enthält, ein Mischmodell zu erschaffen.
In Beispiel 128 enthält der Gegenstand eines oder mehrerer der Beispiele 125-127 wahlweise, dass Erschaffen des generativen Modells enthält, eine Menge von Schlüssel-Videobildern in den Videobildern durch Hinzufügen eines Videobilds mit einer höchsten Bewertungsziffer zu der Menge von Videobildern rekursiv zu identifizieren, wobei die Bewertungsziffer eines Videobilds die Inverse der Summe einer Quadratnorm der Koordinate des Videobilds multipliziert mit einer Konstanten und dividiert durch das Quadrat der Norm des Abstands zwischen dem Videobild und einem Videobild in der Menge von Schlüssel-Videobildern für alle Mitglieder der Menge von Schlüssel-Videobildern ist.
In Beispiel 129 enthält der Gegenstand eines oder mehrerer der Beispiele 107-128 wahlweise, dass Zuweisen jeweiliger Relevanzbewertungsziffern zu den Videobildern enthält, Verhaltensindikatoren einer Person, die das Video aufnahm, aus dem Video zu extrahieren.
In Beispiel 130 enthält der Gegenstand von Beispiel 129 wahlweise, dass die Verhaltensindikatoren eine Abwesenheit von Bewegungen einer Kamera, die zum Aufnehmen des Videos verwendet wurde, enthalten.
In Beispiel 131 enthält der Gegenstand eines oder mehrerer der Beispiele 129-130 wahlweise, dass die Verhaltensindikatoren ein verstärktes Zoomen der Kamera, die zum Aufnehmen des Videos verwendet wurde, enthalten.
In Beispiel 132 enthält der Gegenstand eines oder mehrerer der Beispiele 129-131 wahlweise, dass Extrahieren von Verhaltensindikatoren einer Person, die das Video aufnahm, aus dem Video enthält, die Verhaltensindikatoren, die eine Wahrscheinlichkeit von fünfzig Prozent oder höher aufweisen, Relevanz anzugeben, zu begrenzen.
In Beispiel 133 enthält der Gegenstand eines oder mehrerer der Beispiele 107-132 wahlweise, dass Zuweisen jeweiliger Relevanzbewertungsziffern zu den Videobildern enthält, eine Bibliothek von Relevanzklassifikatoren auf die Videobilder anzuwenden.
In Beispiel 134 enthält der Gegenstand von Beispiel 133 wahlweise, dass die Bibliothek von Relevanzklassifikatoren durch Benutzerrückmeldung korrigiert wird.
In Beispiel 135 enthält der Gegenstand eines oder mehrerer der Beispiele 133-134 wahlweise, dass ausgegebene Bewertungsziffern des Anwendens der Bibliothek von Relevanzklassifikatoren mit Ausgang von aus dem Video extrahierten Verhaltensindikatoren einer Person, die das Video aufnahm, kombiniert werden, um eine zusammengesetzte Relevanzbewertungsziffer zu erschaffen.
In Beispiel 136 enthält der Gegenstand eines oder mehrerer der Beispiele 133-135 wahlweise, dass die Bibliothek von Relevanzklassifikatoren gefiltert wird, um Klassifikatoren auszuschließen, die eine Wahrscheinlichkeit von weniger als fünfzig Prozent aufweisen, Relevanz anzugeben.
In Beispiel 137 enthält der Gegenstand eines oder mehrerer der Beispiele 107-136 wahlweise, dass Initialisieren des semantischen Modells mit den jeweiligen Relevanzbewertungsziffern enthält, einen Graphen zu konstruieren, in dem Knotenpunkte mit den Videobildern korrespondieren, Knotenpunktwerte mit jeweiligen Relevanzbewertungsziffern der Videobilder korrespondieren und Kanten mit dem inversen Abstand zwischen Videobildern, erstellt in dem semantischen Modell, gewichtet werden.
In Beispiel 138 enthält der Gegenstand von Beispiel 137 wahlweise, dass Kanten ausgelassen oder entfernt werden, wenn der Abstand zwischen zwei Videobildern außerhalb eines Schwellenwerts liegt.
In Beispiel 139 enthält der Gegenstand eines oder mehrerer der Beispiele 137-138 wahlweise, dass eine erste Teilmenge von Schlüssel-Videobildern als Videobilder niedriger Relevanz identifiziert wird und eine zweite Teilmenge von Schlüssel-Videobildern als Videobilder hoher Relevanz identifiziert wird, basierend auf den jeweiligen Relevanzbewertungsziffern.
In Beispiel 140 enthält der Gegenstand von Beispiel 139 wahlweise, dass mit den Schlüssel-Videobildern niedriger Relevanz und den Schlüssel-Videobildern hoher Relevanz korrespondierende Knotenpunkte als fixierte Werte markiert werden.
In Beispiel 141 enthält der Gegenstand von Beispiel 140 wahlweise, dass Konvergieren des semantischen Modells folgend auf Initialisieren enthält, Knotenpunktwerte für Knotenpunkte in dem semantischen Modell, die mit den Schlüssel-Videobildern niedriger Relevanz oder den Schlüssel-Videobildern hoher Relevanz nicht korrespondieren, zu berechnen.
In Beispiel 142 enthält der Gegenstand von Beispiel 141 wahlweise, dass Nachrichten, die zwischen Knotenpunkten entlang Kanten passieren, zum Berechnen der Knotenpunktwerte verwendet werden.
In Beispiel 143 enthält der Gegenstand von Beispiel 142 wahlweise, dass Passieren der Nachricht zwischen Knotenpunkten entlang Kanten zum Berechnen der Knotenpunktwerte enthält, jeden Knotenpunktwert auf ein gewichtetes Mittel benachbarter Knoten zu setzen, wobei ein benachbarter Knotenpunkt durch eine Kante mit dem Knotenpunkt verbunden ist, ein Gewicht von Kanten, die den Knotenpunkt und einen benachbarten Knotenpunkt verbinden, einen Wert des benachbarten Knotenpunkts vor der Mittelwertbildung modifiziert, um das gewichtete Mittel zu erschaffen.
In Beispiel 144 enthält der Gegenstand von Beispiel 143 wahlweise, dass das Setzen jedes Knotenpunktwerts auf das gewichtete Mittel benachbarter Knoten fortgesetzt wird, bis ein Konvergenzschwellenwert erreicht wird.
In Beispiel 145 enthält der Gegenstand von Beispiel 144 wahlweise, dass der Konvergenzschwellenwert eine Veränderungsrate der Knotenpunktwerte definiert, unter der Konvergenz als erreicht angesehen wird.
In Beispiel 146 enthält der Gegenstand eines oder mehrerer der Beispiele 144-145 wahlweise, dass Auswählen der Abfolge von Videobildern mit der höchsten Relevanzbewertungsziffer nach Konvergieren enthält, Videobilder mit korrespondierenden Knotenpunkten mit einem Wert größer als ein Auswahlschwellenwert auszuwählen.
In Beispiel 147 enthält der Gegenstand von Beispiel 146 wahlweise, dass der Auswahlschwellenwert aus der Gesamtheit von Knotenpunktwerten bestimmt wird.
In Beispiel 148 enthält der Gegenstand von Beispiel 147 wahlweise, dass der Auswahlschwellenwert ein Mittel der Knotenpunktwerte ist.
In Beispiel 149 enthält der Gegenstand eines oder mehrerer der Beispiele 146-148 wahlweise, dass Auswählen der Abfolge von Videobildern enthält, einen Clip des Videos mit der Abfolge von Videobildern zu erschaffen.
In Beispiel 150 enthält der Gegenstand von Beispiel 149 wahlweise, dass erneutes Initialisieren des semantischen Modells durch Fixieren der Relevanzbewertungsziffern für die ausgewählte Abfolge von Videobildern enthält, die ausgewählte Abfolge von Videobildern als fixierte Werte in dem semantischen Modell zu markieren.
In Beispiel 151 enthält der Gegenstand von Beispiel 150 wahlweise, dass die fixierten Werte auf die niedrigste mögliche Relevanzbewertungsziffer gesetzt werden.
In Beispiel 152 enthält der Gegenstand eines oder mehrerer der Beispiele 150-151 wahlweise, dass eine neue Teilmenge von Schlüssel-Videobildern hoher Relevanz ausgewählt und als fixierter Wert gesetzt wird.
In Beispiel 153 enthält der Gegenstand eines oder mehrerer der Beispiele 107-152 wahlweise, dass iteratives Verarbeiten des semantischen Modells zum Produzieren einer Menge von Teilszenen fortgesetzt wird, bis eine im Voraus bestimmte Anzahl von Teilszenen identifiziert ist.
In Beispiel 154 enthält der Gegenstand von Beispiel 153 wahlweise, dass die im Voraus bestimmte Anzahl eine Benutzereingabe ist.
In Beispiel 155 enthält der Gegenstand eines oder mehrerer der Beispiele 153-154 wahlweise, dass die im Voraus bestimmte Anzahl auf der Länge des Videos basiert.
In Beispiel 156 enthält der Gegenstand eines oder mehrerer der Beispiele 153-155 wahlweise, dass die im Voraus bestimmte Anzahl auf der aus dem semantischen Modell bestimmten Anzahl von Clustern von Videobildern basiert.
In Beispiel 157 enthält der Gegenstand eines oder mehrerer der Beispiele 107-156 wahlweise, dass die Anweisungen umfassen: Präsentieren einer Benutzerschnittstelle, die die Teilszenen in einer Reihenfolge enthält, in der sie produziert wurden; Empfangen einer Aussonderungsauswahl von einem Benutzer für eine Teilszene; und Aussondern der Teilszene aus einer Videozusammenfassung.
In Beispiel 158 enthält der Gegenstand eines oder mehrerer der Beispiele 107-157 wahlweise, dass die Anweisungen Modifizieren von Relevanzkriterien umfasst, die beim Zuweisen der jeweiligen Relevanzbewertungsziffern verwendet werden, um in der ausgesonderten Teilszene gefundenen Relevanzkriterien weniger Gewicht zu geben.
Beispiel 159 ist ein System für automatische Videozusammenfassung, das System umfassend: Mittel zum Erlangen eines Videos; Mittel zum Erzeugen eines semantischen Modells des Videos aus Videobildern des Videos; Mittel zum Zuweisen jeweiliger Relevanzbewertungsziffern zu den Videobildern; Mittel zum Initialisieren des semantischen Modells mit den jeweiligen Relevanzbewertungsziffern; und Mittel zum iterativen Verarbeiten des semantischen Modells, um eine Menge von Teilszenen zu produzieren, jede Iteration umfassend: Mittel zum Konvergieren des semantischen Modells folgend auf Initialisierung; Mittel zum Auswählen einer Abfolge von Videobildern mit einer höchsten Relevanzbewertungsziffer nach Konvergieren; und Mittel zum erneuten Initialisieren des semantischen Modells durch Fixieren der Relevanzbewertungsziffern für die ausgewählte Abfolge von Videobildern.
In Beispiel 160 enthält der Gegenstand von Beispiel 159 wahlweise, dass Erzeugen des semantischen Modells enthält, Merkmale der Videobilder zu extrahieren.
In Beispiel 161 enthält der Gegenstand von Beispiel 160 wahlweise, dass Extrahieren der Merkmale enthält, Merkmale niedrigen Niveaus zu finden.
In Beispiel 162 enthält der Gegenstand von Beispiel 161 wahlweise, dass die Merkmale niedrigen Niveaus einen GIST-Deskriptor enthalten.
In Beispiel 163 enthält der Gegenstand eines oder mehrerer der Beispiele 161-162 wahlweise, dass die Merkmale niedrigen Niveaus einen Ort enthalten.
In Beispiel 164 enthält der Gegenstand eines oder mehrerer der Beispiele 160-163 wahlweise, dass Extrahieren der Merkmale enthält, Merkmale hohen Niveaus zu finden.
In Beispiel 165 enthält der Gegenstand von Beispiel 164 wahlweise, dass Finden der Merkmale hohen Niveaus enthält, einen Klassifikator auf die Videobilder anzuwenden, um Szenencharakteristika zu identifizieren.
In Beispiel 166 enthält der Gegenstand von Beispiel 165 wahlweise, dass Anwenden des Klassifikators enthält, ein für Szenenklassifizierung trainiertes tiefes Faltungsnetzwerk zu verwenden.
In Beispiel 167 enthält der Gegenstand eines oder mehrerer der Beispiele 165-166 wahlweise, dass die Szenencharakteristika eines oder mehrere eines Schauplatzes, einer Aktivität oder eines Objekts enthalten.
In Beispiel 168 enthält der Gegenstand von Beispiel 167 wahlweise, dass der Schauplatz eines von drinnen, draußen, an einem Strand, in einem Wald oder in einer urbanen Umgebung ist.
In Beispiel 169 enthält der Gegenstand eines oder mehrerer der Beispiele 167-168 wahlweise, dass die Aktivität eines einer Party, eines Sports, eines Ereignisses oder einer Arbeit ist.
In Beispiel 170 enthält der Gegenstand eines oder mehrerer der Beispiele 167-169 wahlweise, dass das Objekt mindestens eines eines Gesichts, eines Tiers, eines Wahrzeichens oder einer Sportausrüstung ist.
In Beispiel 171 enthält der Gegenstand eines oder mehrerer der Beispiele 160-170 wahlweise, dass Erzeugen des semantischen Modells enthält, eine pseudosemantische Domäne aus den extrahierten Merkmalen zu erzeugen, wobei die pseudosemantische Domäne ein aus den Merkmalen abgeleiteter n-dimensionaler Raum ist.
In Beispiel 172 enthält der Gegenstand von Beispiel 171 wahlweise, dass Erzeugen der pseudosemantischen Domäne aus den extrahierten Merkmalen enthält, eine tiefe Boltzmann-Maschine unter Verwendung der extrahierten Merkmale zu trainieren.
In Beispiel 173 enthält der Gegenstand eines oder mehrerer der Beispiele 171-172 wahlweise, dass Erzeugen der pseudosemantischen Domäne aus den extrahierten Merkmalen enthält, spektrales Clustern auf die extrahierten Merkmale anzuwenden, um die Dimensionalität zu reduzieren.
In Beispiel 174 enthält der Gegenstand eines oder mehrerer der Beispiele 171-173 wahlweise, dass Erzeugen des semantischen Modells enthält, die Videobilder auf die pseudosemantische Domäne durch Ableiten einer Koordinate in der pseudosemantischen Domäne für jedes Videobild abzubilden, wobei jedes Element der Koordinate mit einer Dimensionalität der pseudosemantischen Domäne korrespondiert und von einem Vorhandensein eines Merkmals der extrahierten Merkmale, das für das Videobild spezifisch ist, abgeleitet ist.
In Beispiel 175 enthält der Gegenstand von Beispiel 174 wahlweise, dass Abbilden der Videobilder auf die pseudosemantische Domäne, wobei eine tiefe Boltzmann-Maschine zum Erschaffen der pseudosemantischen Domäne trainiert wurde, enthält, die Videobilder durch die tiefe Boltzmann-Maschine weiterzuleiten.
In Beispiel 176 enthält der Gegenstand eines oder mehrerer der Beispiele 174-175 wahlweise, dass Abbilden der Videobilder auf die pseudosemantische Domäne, wobei eine tiefe Boltzmann-Maschine zum Erschaffen der pseudosemantischen Domäne trainiert wurde, enthält, die Videobilder durch die tiefe Boltzmann-Maschine weiterzuleiten.
In Beispiel 177 enthält der Gegenstand eines oder mehrerer der Beispiele 174-176 wahlweise, dass Erzeugen des semantischen Modells enthält, ein generatives Modell aus den auf die pseudosemantische Domäne abgebildeten Videobildern zu erschaffen.
In Beispiel 178 enthält der Gegenstand von Beispiel 177 wahlweise, dass Erschaffen des generativen Modells enthält, ein probabilistisches grafisches Modell zu erschaffen.
In Beispiel 179 enthält der Gegenstand eines oder mehrerer der Beispiele 177-178 wahlweise, dass Erschaffen des generativen Modells enthält, ein Mischmodell zu erschaffen.
In Beispiel 180 enthält der Gegenstand eines oder mehrerer der Beispiele 177-179 wahlweise, dass Erschaffen des generativen Modells enthält, eine Menge von Schlüssel-Videobildern in den Videobildern durch Hinzufügen eines Videobilds mit einer höchsten Bewertungsziffer zu der Menge von Videobildern rekursiv zu identifizieren, wobei die Bewertungsziffer eines Videobilds die Inverse der Summe einer Quadratnorm der Koordinate des Videobilds multipliziert mit einer Konstanten und dividiert durch das Quadrat der Norm des Abstands zwischen dem Videobild und einem Videobild in der Menge von Schlüssel-Videobildern für alle Mitglieder der Menge von Schlüssel-Videobildern ist.
In Beispiel 181 enthält der Gegenstand eines oder mehrerer der Beispiele 159-180 wahlweise, dass Zuweisen jeweiliger Relevanzbewertungsziffern zu den Videobildern enthält, Verhaltensindikatoren einer Person, die das Video aufnahm, aus dem Video zu extrahieren.
In Beispiel 182 enthält der Gegenstand von Beispiel 181 wahlweise, dass die Verhaltensindikatoren eine Abwesenheit von Bewegungen einer Kamera, die zum Aufnehmen des Videos verwendet wurde, enthalten.
In Beispiel 183 enthält der Gegenstand eines oder mehrerer der Beispiele 181-182 wahlweise, dass die Verhaltensindikatoren ein verstärktes Zoomen der Kamera, die zum Aufnehmen des Videos verwendet wurde, enthalten.
In Beispiel 184 enthält der Gegenstand eines oder mehrerer der Beispiele 181-183 wahlweise, dass Extrahieren von Verhaltensindikatoren einer Person, die das Video aufnahm, aus dem Video enthält, die Verhaltensindikatoren, die eine Wahrscheinlichkeit von fünfzig Prozent oder höher aufweisen, Relevanz anzugeben, zu begrenzen.
In Beispiel 185 enthält der Gegenstand eines oder mehrerer der Beispiele 159-184 wahlweise, dass Zuweisen jeweiliger Relevanzbewertungsziffern zu den Videobildern enthält, eine Bibliothek von Relevanzklassifikatoren auf die Videobilder anzuwenden.
In Beispiel 186 enthält der Gegenstand von Beispiel 185 wahlweise, dass die Bibliothek von Relevanzklassifikatoren durch Benutzerrückmeldung korrigiert wird.
In Beispiel 187 enthält der Gegenstand eines oder mehrerer der Beispiele 185-186 wahlweise, dass ausgegebene Bewertungsziffern des Anwendens der Bibliothek von Relevanzklassifikatoren mit Ausgang von aus dem Video extrahierten Verhaltensindikatoren einer Person, die das Video aufnahm, kombiniert werden, um eine zusammengesetzte Relevanzbewertungsziffer zu erschaffen.
In Beispiel 188 enthält der Gegenstand eines oder mehrerer der Beispiele 185-187 wahlweise, dass die Bibliothek von Relevanzklassifikatoren gefiltert wird, um Klassifikatoren auszuschließen, die eine Wahrscheinlichkeit von weniger als fünfzig Prozent aufweisen, Relevanz anzugeben.
In Beispiel 189 enthält der Gegenstand eines oder mehrerer der Beispiele 159-188 wahlweise, dass Initialisieren des semantischen Modells mit den jeweiligen Relevanzbewertungsziffern enthält, einen Graphen zu konstruieren, in dem Knotenpunkte mit den Videobildern korrespondieren, Knotenpunktwerte mit jeweiligen Relevanzbewertungsziffern der Videobilder korrespondieren und Kanten mit dem inversen Abstand zwischen Videobildern, erstellt in dem semantischen Modell, gewichtet werden.
In Beispiel 190 enthält der Gegenstand von Beispiel 189 wahlweise, dass Kanten ausgelassen oder entfernt werden, wenn der Abstand zwischen zwei Videobildern außerhalb eines Schwellenwerts liegt.
In Beispiel 191 enthält der Gegenstand eines oder mehrerer der Beispiele 189-190 wahlweise, dass eine erste Teilmenge von Schlüssel-Videobildern als Videobilder niedriger Relevanz identifiziert wird und eine zweite Teilmenge von Schlüssel-Videobildern als Videobilder hoher Relevanz identifiziert wird, basierend auf den jeweiligen Relevanzbewertungsziffern.
In Beispiel 192 enthält der Gegenstand von Beispiel 191 wahlweise, dass mit den Schlüssel-Videobildern niedriger Relevanz und den Schlüssel-Videobildern hoher Relevanz korrespondierende Knotenpunkte als fixierte Werte markiert werden.
In Beispiel 193 enthält der Gegenstand von Beispiel 192 wahlweise, dass Konvergieren des semantischen Modells folgend auf Initialisieren enthält, Knotenpunktwerte für Knotenpunkte in dem semantischen Modell, die mit den Schlüssel-Videobildern niedriger Relevanz oder den Schlüssel-Videobildern hoher Relevanz nicht korrespondieren, zu berechnen.
In Beispiel 194 enthält der Gegenstand von Beispiel 193 wahlweise, dass Nachrichten, die zwischen Knotenpunkten entlang Kanten passieren, zum Berechnen der Knotenpunktwerte verwendet werden.
In Beispiel 195 enthält der Gegenstand von Beispiel 194 wahlweise, dass Passieren der Nachricht zwischen Knotenpunkten entlang Kanten zum Berechnen der Knotenpunktwerte enthält, jeden Knotenpunktwert auf ein gewichtetes Mittel benachbarter Knoten zu setzen, wobei ein benachbarter Knotenpunkt durch eine Kante mit dem Knotenpunkt verbunden ist, ein Gewicht von Kanten, die den Knotenpunkt und einen benachbarten Knotenpunkt verbinden, einen Wert des benachbarten Knotenpunkts vor der Mittelwertbildung modifiziert, um das gewichtete Mittel zu erschaffen.
In Beispiel 196 enthält der Gegenstand von Beispiel 195 wahlweise, dass das Setzen jedes Knotenpunktwerts auf das gewichtete Mittel benachbarter Knoten fortgesetzt wird, bis ein Konvergenzschwellenwert erreicht wird.
In Beispiel 197 enthält der Gegenstand von Beispiel 196 wahlweise, dass der Konvergenzschwellenwert eine Veränderungsrate der Knotenpunktwerte definiert, unter der Konvergenz als erreicht angesehen wird.
In Beispiel 198 enthält der Gegenstand eines oder mehrerer der Beispiele 196-197 wahlweise, dass Auswählen der Abfolge von Videobildern mit der höchsten Relevanzbewertungsziffer nach Konvergieren enthält, Videobilder mit korrespondierenden Knotenpunkten mit einem Wert größer als ein Auswahlschwellenwert auszuwählen.
In Beispiel 199 enthält der Gegenstand von Beispiel 198 wahlweise, dass der Auswahlschwellenwert aus der Gesamtheit von Knotenpunktwerten bestimmt wird.
In Beispiel 200 enthält der Gegenstand von Beispiel 199 wahlweise, dass der Auswahlschwellenwert ein Mittel der Knotenpunktwerte ist.
In Beispiel 201 enthält der Gegenstand eines oder mehrerer der Beispiele 198-200 wahlweise, dass Auswählen der Abfolge von Videobildern enthält, einen Clip des Videos mit der Abfolge von Videobildern zu erschaffen.
In Beispiel 202 enthält der Gegenstand von Beispiel 201 wahlweise, dass erneutes Initialisieren des semantischen Modells durch Fixieren der Relevanzbewertungsziffern für die ausgewählte Abfolge von Videobildern enthält, die ausgewählte Abfolge von Videobildern als fixierte Werte in dem semantischen Modell zu markieren.
In Beispiel 203 enthält der Gegenstand von Beispiel 202 wahlweise, dass die fixierten Werte auf die niedrigste mögliche Relevanzbewertungsziffer gesetzt werden.
In Beispiel 204 enthält der Gegenstand eines oder mehrerer der Beispiele 202-203 wahlweise, dass eine neue Teilmenge von Schlüssel-Videobildern hoher Relevanz ausgewählt und als fixierter Wert gesetzt wird.
In Beispiel 205 enthält der Gegenstand eines oder mehrerer der Beispiele 159-204 wahlweise, dass iteratives Verarbeiten des semantischen Modells zum Produzieren einer Menge von Teilszenen fortgesetzt wird, bis eine im Voraus bestimmte Anzahl von Teilszenen identifiziert ist.
In Beispiel 206 enthält der Gegenstand von Beispiel 205 wahlweise, dass die im Voraus bestimmte Anzahl eine Benutzereingabe ist.
In Beispiel 207 enthält der Gegenstand eines oder mehrerer der Beispiele 205-206 wahlweise, dass die im Voraus bestimmte Anzahl auf der Länge des Videos basiert.
In Beispiel 208 enthält der Gegenstand eines oder mehrerer der Beispiele 205-207 wahlweise, dass die im Voraus bestimmte Anzahl auf der aus dem semantischen Modell bestimmten Anzahl von Clustern von Videobildern basiert.
In Beispiel 209 enthält der Gegenstand eines oder mehrerer der Beispiele 159-208 wahlweise: Mittel zum Präsentieren einer Benutzerschnittstelle, die die Teilszenen in einer Reihenfolge enthält, in der sie produziert wurden; Mittel zum Empfangen einer Aussonderungsauswahl von einem Benutzer für eine Teilszene; und Mittel zum Aussondern der Teilszene aus einer Videozusammenfassung.
In Beispiel 210 enthält der Gegenstand eines oder mehrerer der Beispiele 159-209 wahlweise Mittel zum Modifizieren von Relevanzkriterien, die beim Zuweisen der jeweiligen Relevanzbewertungsziffern verwendet werden, um in der ausgesonderten Teilszene gefundenen Relevanzkriterien weniger Gewicht zu geben.
Die vorstehende ausführliche Beschreibung enthält Bezugnahmen auf die beigefügten Zeichnungen, die einen Bestandteil der ausführlichen Beschreibung bilden. Die Zeichnungen zeigen veranschaulichend spezifische Ausführungsformen, die praktiziert werden können. Diese Ausführungsformen werden hierin auch als „Beispiele“ bezeichnet. Derartige Beispiele können Elemente zusätzlich zu den dargestellten oder beschriebenen enthalten. Die gegenwärtigen Erfinder erwägen jedoch auch Beispiele, in denen nur die dargestellten oder beschriebenen Beispiele bereitgestellt sind. Des Weiteren erwägen die gegenwärtigen Erfinder außerdem Beispiele, die eine beliebige Kombination der dargestellten oder beschriebenen Beispiele (oder eines oder mehrerer Aspekte davon) verwenden, entweder in Bezug auf ein bestimmtes Beispiel (oder einen oder mehrere Aspekte davon) oder in Bezug auf andere Beispiele (oder einen oder mehrere Aspekte davon), die hierin dargestellt oder beschrieben werden.
Alle Veröffentlichungen, Patente und Patentschriften, auf die in diesem Dokument Bezug genommen wird, sind in ihrer Gesamtheit hierin durch Literaturverweis inkorporiert, als ob sie einzeln durch Literaturverweis inkorporiert wären. Im Fall von widersprüchlichen Verwendungen zwischen diesem Dokument und den durch Literaturverweis inkorporierten Dokumenten sollte die Verwendung in dem (den) inkorporierten Literaturverweis(en) als ergänzend zu dem dieses Dokuments angesehen werden; bei unvereinbaren Widersprüchen ist die Verwendung in diesem Dokument maßgeblich.
In diesem Dokument werden die Begriffe „ein“ oder „eine“ so verwendet, wie es in Patentschriften üblich ist, dass sie eins oder mehr als eins enthalten, unabhängig von anderen Fällen oder Verwendungen von „mindestens eins“ oder „eins oder mehr“. In diesem Dokument wird der Begriff „oder“ so verwendet, dass er sich auf ein nicht exklusives oder bezieht, so dass „A oder B“ „A, aber nicht B“, „B, aber nicht A“ und „A und B“ enthält, wenn nicht anders angegeben. In den beigefügten Ansprüchen werden die Begriffe „enthaltend“ und „worin“ als die normalen deutschen Äquivalente der jeweiligen Begriffe „umfassend“ und „wobei“ verwendet. Außerdem sind die Begriffe „enthaltend“ und „umfassend“ in den folgenden Patentansprüchen offene Begriffe, das heißt, dass ein System, eine Vorrichtung, ein Artikel oder ein Prozess, der/die/das Elemente zusätzlich zu den nach einem derartigen Begriff in einem Anspruch aufgeführten enthält, trotzdem so angesehen wird, dass diese in den Schutzumfang dieses Anspruchs fallen. Überdies werden die Begriffe „erste/r“, „zweite/r“ und „dritte/r“ usw. in den nachstehenden Patentansprüchen lediglich als Kennzeichnungen verwendet und sollen ihren Objekten keine numerischen Anforderungen auferlegen.
Die vorstehende Beschreibung soll veranschaulichend und nicht einschränkend sein. Zum Beispiel können die vorstehend beschriebenen Beispiele (oder ein oder mehrere Aspekte davon) in Kombination miteinander verwendet werden. Andere Ausführungsformen können verwendet werden, wie durch einen Durchschnittsfachmann im Fachgebiet nach Durchsicht der vorstehenden Beschreibung. Die „Zusammenfassung“ soll dem Leser gestatten, das Wesen der technischen Offenbarung schnell zu ermitteln, und wird mit dem Verständnis eingereicht, dass sie nicht verwendet werden wird, den Schutzumfang oder die Bedeutung der Ansprüche zu interpretieren oder zu begrenzen. Außerdem können in der vorstehenden „Ausführlichen Beschreibung“ verschiedene Merkmale gruppiert werden, um die Offenbarung zu straffen. Dies sollte nicht so interpretiert werden, dass beabsichtigt wird, dass ein nicht beanspruchtes, offenbartes Merkmal für einen Anspruch wesentlich ist. Vielmehr kann der erfinderische Gegenstand in weniger als allen Merkmalen einer bestimmten offenbarten Ausführungsform liegen. Demgemäß werden die nachstehenden Ansprüche hiermit in die „Ausführliche Beschreibung“ inkorporiert, wobei jeder Anspruch für sich selbst als eine separate Ausführungsform steht. Der Schutzumfang der Ausführungsformen sollte unter Bezugnahme auf die beigefügten Ansprüche bestimmt werden, zusammen mit dem vollständigen Schutzumfang von Äquivalenten, auf die derartige Ansprüche berechtigt sind.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

US 14/925701 [0001]

Claims

Vorrichtung für automatische Videozusammenfassung, das Verfahren umfassend: eine Speichervorrichtung zum Halten eines Videos; einen semantischen Klassifikator zum Erzeugen eines semantischen Modells des Videos aus Videobildern des Videos; einen Relevanzklassifikator zum Zuweisen jeweiliger Relevanzbewertungsziffern zu den Videobildern; einen Multiplexer zum: Initialisieren des semantischen Modells mit den jeweiligen Relevanzbewertungsziffern; und iterativen Verarbeiten des semantischen Modells zum Produzieren einer Menge von Teilszenen, jede Iteration den Multiplexer umfassend zum: Konvergieren des semantischen Modells folgend auf die Initialisierung; Auswählen einer Abfolge von Videobildern mit einer höchsten Relevanzbewertungsziffer nach Konvergieren; und erneutes Initialisieren des semantischen Modells durch Fixieren der Relevanzbewertungsziffern für die ausgewählte Abfolge von Videobildern.
Vorrichtung nach Anspruch 1, wobei Erzeugen des semantischen Modells enthält, Merkmale der Videobilder zu extrahieren.
Vorrichtung nach Anspruch 2, wobei Erzeugen des semantischen Modells enthält, eine pseudosemantische Domäne aus den extrahierten Merkmalen zu erzeugen, wobei die pseudosemantische Domäne ein aus den Merkmalen abgeleiteter n-dimensionaler Raum ist.
Vorrichtung nach Anspruch 3, wobei Erzeugen des semantischen Modells enthält, die Videobilder auf die pseudosemantische Domäne durch Ableiten einer Koordinate in der pseudosemantischen Domäne für jedes Videobild abzubilden, wobei jedes Element der Koordinate mit einer Dimensionalität der pseudosemantischen Domäne korrespondiert und von einem Vorhandensein eines Merkmals der extrahierten Merkmale, das für das Videobild spezifisch ist, abgeleitet ist.
Vorrichtung nach Anspruch 4, wobei Erzeugen des semantischen Modells enthält, ein generatives Modell aus den auf die pseudosemantische Domäne abgebildeten Videobildern zu erschaffen.
Vorrichtung nach Anspruch 5, wobei Erschaffen des generativen Modells enthält, eine Menge von Schlüssel-Videobildern in den Videobildern durch Hinzufügen eines Videobilds mit einer höchsten Bewertungsziffer zu der Menge von Videobildern rekursiv zu identifizieren, wobei die Bewertungsziffer eines Videobilds die Inverse der Summe einer Quadratnorm der Koordinate des Videobilds multipliziert mit einer Konstanten und dividiert durch das Quadrat der Norm des Abstands zwischen dem Videobild und einem Videobild in der Menge von Schlüssel-Videobildern für alle Mitglieder der Menge von Schlüssel-Videobildern ist.
Vorrichtung nach Anspruch 1, wobei Zuweisen jeweiliger Relevanzbewertungsziffern zu den Videobildern enthält, Verhaltensindikatoren einer Person, die das Video aufnahm, aus dem Video zu extrahieren.
Vorrichtung nach Anspruch 1, wobei Initialisieren des semantischen Modells mit den jeweiligen Relevanzbewertungsziffern enthält, einen Graphen zu konstruieren, in dem Knotenpunkte mit den Videobildern korrespondieren, Knotenpunktwerte mit jeweiligen Relevanzbewertungsziffern der Videobilder korrespondieren und Kanten mit dem inversen Abstand zwischen Videobildern, erstellt in dem semantischen Modell, gewichtet werden.
Vorrichtung nach Anspruch 1, umfassend eine Steuerung zum: Präsentieren einer Benutzerschnittstelle, die die Teilszenen in einer Reihenfolge enthält, in der sie produziert wurden; Empfangen einer Aussonderungsauswahl von einem Benutzer für eine Teilszene; und Aussondern der Teilszene aus einer Videozusammenfassung.
Maschinenimplementiertes Verfahren für automatische Videozusammenfassung, das Verfahren umfassend: Erlangen eines Videos; Erzeugen eines semantischen Modells des Videos aus Videobildern des Videos; Zuweisen jeweiliger Relevanzbewertungsziffern zu den Videobildern; Initialisieren des semantischen Modells mit den jeweiligen Relevanzbewertungsziffern; und iteratives Verarbeiten des semantischen Modells, um eine Menge von Teilszenen zu produzieren, jede Iteration umfassend: Konvergieren des semantischen Modells folgend auf Initialisierung; Auswählen einer Abfolge von Videobildern mit einer höchsten Relevanzbewertungsziffer nach Konvergieren; und erneutes Initialisieren des semantischen Modells durch Fixieren der Relevanzbewertungsziffern für die ausgewählte Abfolge von Videobildern.
Verfahren nach Anspruch 10, wobei Erzeugen des semantischen Modells enthält, Merkmale der Videobilder zu extrahieren.
Verfahren nach Anspruch 11, wobei Erzeugen des semantischen Modells enthält, eine pseudosemantische Domäne aus den extrahierten Merkmalen zu erzeugen, wobei die pseudosemantische Domäne ein aus den Merkmalen abgeleiteter n-dimensionaler Raum ist.
Verfahren nach Anspruch 12, wobei Erzeugen des semantischen Modells enthält, die Videobilder auf die pseudosemantische Domäne durch Ableiten einer Koordinate in der pseudosemantischen Domäne für jedes Videobild abzubilden, wobei jedes Element der Koordinate mit einer Dimensionalität der pseudosemantischen Domäne korrespondiert und von einem Vorhandensein eines Merkmals der extrahierten Merkmale, das für das Videobild spezifisch ist, abgeleitet ist.
Verfahren nach Anspruch 10, wobei Zuweisen jeweiliger Relevanzbewertungsziffern zu den Videobildern enthält, Verhaltensindikatoren einer Person, die das Video aufnahm, aus dem Video zu extrahieren.
Verfahren nach Anspruch 10, wobei Initialisieren des semantischen Modells mit den jeweiligen Relevanzbewertungsziffern enthält, einen Graphen zu konstruieren, in dem Knotenpunkte mit den Videobildern korrespondieren, Knotenpunktwerte mit jeweiligen Relevanzbewertungsziffern der Videobilder korrespondieren und Kanten mit dem inversen Abstand zwischen Videobildern, erstellt in dem semantischen Modell, gewichtet werden.
Verfahren nach Anspruch 10, umfassend: Präsentieren einer Benutzerschnittstelle, die die Teilszenen in einer Reihenfolge enthält, in der sie produziert wurden; Empfangen einer Aussonderungsauswahl von einem Benutzer für eine Teilszene; und Aussondern der Teilszene aus einer Videozusammenfassung.
Mindestens ein maschinenlesbares Medium, das Anweisungen enthält, die, wenn sie durch eine Maschine ausgeführt werden, bewirken, dass die Maschine Operationen für automatische Videozusammenfassung durchführt, die Operationen umfassend: Erlangen eines Videos; Erzeugen eines semantischen Modells des Videos aus Videobildern des Videos; Zuweisen jeweiliger Relevanzbewertungsziffern zu den Videobildern; Initialisieren des semantischen Modells mit den jeweiligen Relevanzbewertungsziffern; und iteratives Verarbeiten des semantischen Modells, um eine Menge von Teilszenen zu produzieren, jede Iteration umfassend: Konvergieren des semantischen Modells folgend auf Initialisierung; Auswählen einer Abfolge von Videobildern mit einer höchsten Relevanzbewertungsziffer nach Konvergieren; und erneutes Initialisieren des semantischen Modells durch Fixieren der Relevanzbewertungsziffern für die ausgewählte Abfolge von Videobildern.
Mindestens ein maschinenlesbares Medium nach Anspruch 17, wobei Erzeugen des semantischen Modells enthält, Merkmale der Videobilder zu extrahieren.
Mindestens ein maschinenlesbares Medium nach Anspruch 18, wobei Erzeugen des semantischen Modells enthält, eine pseudosemantische Domäne aus den extrahierten Merkmalen zu erzeugen, wobei die pseudosemantische Domäne ein aus den Merkmalen abgeleiteter n-dimensionaler Raum ist.
Mindestens ein maschinenlesbares Medium nach Anspruch 19, wobei Erzeugen des semantischen Modells enthält, die Videobilder auf die pseudosemantische Domäne durch Ableiten einer Koordinate in der pseudosemantischen Domäne für jedes Videobild abzubilden, wobei jedes Element der Koordinate mit einer Dimensionalität der pseudosemantischen Domäne korrespondiert und von einem Vorhandensein eines Merkmals der extrahierten Merkmale, das für das Videobild spezifisch ist, abgeleitet ist.
Mindestens ein maschinenlesbares Medium nach Anspruch 20, wobei Erzeugen des semantischen Modells enthält, ein generatives Modell aus den auf die pseudosemantische Domäne abgebildeten Videobildern zu erschaffen.
Mindestens ein maschinenlesbares Medium nach Anspruch 21, wobei Erschaffen des generativen Modells enthält, eine Menge von Schlüssel-Videobildern in den Videobildern durch Hinzufügen eines Videobilds mit einer höchsten Bewertungsziffer zu der Menge von Videobildern rekursiv zu identifizieren, wobei die Bewertungsziffer eines Videobilds die Inverse der Summe einer Quadratnorm der Koordinate des Videobilds multipliziert mit einer Konstanten und dividiert durch das Quadrat der Norm des Abstands zwischen dem Videobild und einem Videobild in der Menge von Schlüssel-Videobildern für alle Mitglieder der Menge von Schlüssel-Videobildern ist.
Mindestens ein maschinenlesbares Medium nach Anspruch 17, wobei Zuweisen jeweiliger Relevanzbewertungsziffern zu den Videobildern enthält, Verhaltensindikatoren einer Person, die das Video aufnahm, aus dem Video zu extrahieren.
Mindestens ein maschinenlesbares Medium nach Anspruch 17, wobei Initialisieren des semantischen Modells mit den jeweiligen Relevanzbewertungsziffern enthält, einen Graphen zu konstruieren, in dem Knotenpunkte mit den Videobildern korrespondieren, Knotenpunktwerte mit jeweiligen Relevanzbewertungsziffern der Videobilder korrespondieren und Kanten mit dem inversen Abstand zwischen Videobildern, erstellt in dem semantischen Modell, gewichtet werden.
Mindestens ein maschinenlesbares Medium nach Anspruch 17, wobei die Anweisungen umfassen: Präsentieren einer Benutzerschnittstelle, die die Teilszenen in einer Reihenfolge enthält, in der sie produziert wurden; Empfangen einer Aussonderungsauswahl von einem Benutzer für eine Teilszene; und Aussondern der Teilszene aus einer Videozusammenfassung.