VClipper: Exploiting CLIP Zero-shot capabilities for moment retrieval in video recordings

Caravaca Muller, Oriol

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10609/149808

Registro completo de metadatos

Campo DC	Valor	Lengua/Idioma
dc.contributor.author	Caravaca Muller, Oriol	-
dc.coverage.spatial	La Garriga	-
dc.date.accessioned	2024-02-21T11:43:14Z	-
dc.date.available	2024-02-21T11:43:14Z	-
dc.date.issued	2024-01-09	-
dc.identifier.uri	http://hdl.handle.net/10609/149808	-
dc.description.abstract	This research explores the integration of CLIP, a pretrained model, into video content analysis. In a landscape inundated with multimedia data, pinpointing specific moments within videos is a persistent challenge. By leveraging CLIP's semantic and visual search capabilities, this study endeavors to refine content retrieval methods. Emphasizing efficiency and applicability, this study aims to make this process more precise and practical. With this research we also reviewed the state-of-the-art methods and produced empirical analysis on the effects of postprocessing on the similarity vectors obtained from CLIP encoders. Finally, we developed two distinct methods aimed at moment retrieval tasks in audiovisual data, obtaining a model that is able to outperform previous works in Zero-shot moment revival, reaching 57.3 at R@1 IoU=0.5 and 51.6 at mAP@0.5.	en
dc.description.abstract	Aquesta investigació explora la integració de CLIP, un model preentrenat, en l'anàlisi de contingut de vídeo. En un paisatge inundat de dades multimèdia, identificar moments específics dels vídeos és un repte persistent. Aprofitant les capacitats de cerca semàntica i visual de CLIP, aquest estudi intenta perfeccionar els mètodes de recuperació de contingut. Subratllant l'eficiència i l'aplicabilitat, fent aquest procés més precís i pràctic. En aquesta investigació també s’ha revisat l’estat de l’art i s’ha produit un anàlisis empíric sobre els efectes del postprocessament sobre els vectors de semblança obtinguts a partir dels codificadors de CLIP. Finalment s’han desenvolupat dos mètodes diferents dirigits a tasques de recuperació de moments en dades audiovisuals, obtenint un model que és capaç de superar els treballs anteriors en Zero-shot moment revival, arribant a 57,3 a R@1 IoU=0,5 i 51,6 a mAP@0,5.	ca
dc.format.mimetype	application/pdf	ca
dc.language.iso	eng	en
dc.publisher	Universitat Oberta de Catalunya (UOC)	ca
dc.rights	CC BY-NC-ND	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/es/	-
dc.subject	video analysis	en
dc.subject	moment retrieval	en
dc.subject	CLIP	en
dc.subject.lcsh	Computer vision -- TFM	en
dc.title	VClipper: Exploiting CLIP Zero-shot capabilities for moment retrieval in video recordings	en
dc.type	info:eu-repo/semantics/masterThesis	ca
dc.audience.educationlevel	Estudis de Màster	ca
dc.audience.educationlevel	Estudios de Máster	es
dc.audience.educationlevel	Master's degrees	en
dc.subject.lemac	Visió per ordinador -- TFM	ca
dc.contributor.tutor	Benito Altamirano, Ismael	-
dc.rights.accessRights	info:eu-repo/semantics/openAccess	-
Aparece en las colecciones:	Bachelor thesis, research projects, etc.

Ficheros en este ítem:

Fichero	Descripción	Tamaño	Formato
ocaravacamTFM0123memorioa.pdf	Report of FMDP	2,19 MB	Adobe PDF	Visualizar/Abrir

Mostrar el registro sencillo del ítem

Comparte:

Impacto:

Google Scholar

Microsoft Academic

Exporta:

Consulta las estadísticas

Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons