Ontsluitingsmethoden videobestanden
Van VBI8 Wiki Over Search
Inhoud |
[bewerk] Inleiding
Het fenomeen ‘ontsluiten van informatie’ behoeft vandaag de dag niet meer voorzien te worden van een introductie. Iedereen weet dat, indien hij/zij bepaalde informatie van internet nodig heeft ze niet zelf hoeven te gaan spitten in de vele miljoenen internetsites die op dit moment online te raadplegen zijn. Met behulp van zoekmachines als Google en Yahoo wordt die informatie razendsnel voor hun gevonden, mits de juiste zoektermen worden ingevoerd. Iedereen weet wel dat deze zoekmachines hun eigen technieken en methodes hebben om deze schat aan informatie te indexeren en doorzoekbaar te maken. De vraag is alleen of iedereen weet hoe deze methodes werken. In deze paragraaf wordt kort ingegaan op de mogelijke manieren om bestanden op het internet te ontsluiten. Om de scope van het antwoord behapbaar te houden wordt alleen ingegaan op de ontsluiting van videobestanden.
Als introductie een citaat uit een document, gepubliceerd door Dhr. T. Westerveld, werkzaam bij het centrum voor Wiskunde en Informatica.
“Multimedia documenten bevatten een schat aan informatie. Naast de beeld- en geluidsinformatie in het document zelf is er vaak allerlei afgeleide informatie en achtergrondinformatie te vinden. Neem bijvoorbeeld een bioscoopfilm, daar is flink wat metadata over beschikbaar: de regisseur, de scenarioschrijver, de belangrijkste personages en hun vertolkers en ga zo maar door, de aftiteling van een film kan behoorlijk lang zijn. Daarnaast is ook een behoorlijke hoeveelheid afgeleide data voorstelbaar. In het audiosignaal zou bijvoorbeeld geclassificeerd kunnen worden wanneer er gesproken wordt, wanneer het stil is en op welke momenten er muziek te horen is. Op de gesproken delen kunnen we spraakherkenningstechnologie loslaten om een transcript te krijgen van wat er gezegd wordt en bij de muziek is vaak extra metadata aanwezig die vertelt wat de titel van het stuk is en wie componist en uitvoerende zijn.
In het citaat zijn vier woorden gemarkeerd. Metadata, afgeleide data, audiosignaal en beeldsignaal. Op deze pagina splitsen we de mogelijke ontsluitingsfactoren op in twee categorieën. De metadata en de afgeleide data. Deze afgeleide data is wederom op te splitsen in twee categorieën, namelijk het audiosignaal en het beeldsignaal.
[bewerk] Metadata
Metadata is tekstuele informatie over de primaire, voor de hand liggende kenmerken van een videobestand. Denk hierbij aan de hoofdrolspelers, het tijdstip van opname, de tijdsduur etc. Het niveau waarop deze metadata van toepassing is binnen het videobestand kan zeer uiteenlopen. Het komt vaak voor dat de metadatakenmerken voor het gehele bestand zijn beschreven. De informatie is zodoende niet specifiek en beschrijft alleen de belangrijkste kenmerken. Het kan ook voorkomen dat het bestand wordt opgedeeld in kleinere delen en dat over die afzonderlijke delen de metadatakenmerken worden beschreven. Op die manier wordt de informatie steeds specifieker en kunnen ook zeer nauwe zoekacties uitgevoerd worden. Denk dan bijvoorbeeld aan zoekvragen als: “In welke scènes binnen de film The DaVinci Codeheeft de acteur Tom Hanks een rol?”. Indien de gehele film in stukken is geknipt en voor elk stuk de metadatakenmerken zijn ingevuld, is het geen probleem vragen van dit niveau te beantwoorden. Metadata kan op twee manieren aan de bestanden worden toegevoegd. Enerzijds handmatig en anderzijds automatisch. Vaak worden deze kenmerken beschreven aan de hand van een standaard. Op de pagina Dublin Core metadata wordt meer achtergrondinformatie gegeven omtrent een wereldwijd geaccepteerde metadatastandaard, de Dublin Core methode en over het toekennen van metadata op zich. In de hieronder besproken paragraaf "afgeleide data" daarentegen is een voorbeeld weergegeven van automatische toekenning van metadatakenmerken aan videobestanden door middel van het softwareprogramma Virage. Het grote voordeel hiervan is dat er geen mensenwerk meer aan te pas komt. Het handmatig toekennen van metadata is een tijdrovende klus en vereist een grote hoeveelheid training en standaardisatie om de annotaties consistent te krijgen. Dat het zoeken binnen multimediabestanden door middel van alleen tekstuele kenmerken nogal eens leidt tot zinloze recalls wordt nogmaals duidelijk gemaakt door de volgende uitspraken van Dhr. Westerveld.
“Een aardige illustratie van de problemen die optreden bij tekst gebaseerd zoeken naar beeldmateriaal is het online spelletje Guess-the-Google. De opgave daar is te raden welke zoekterm gebruikt is om de getoonde foto’s te vinden. Al snel blijkt dan dat tekst op dit niveau niet altijd onderscheidend is, zo is een mix van huisdieren, ongedierte en computertoebehoren het resultaat van de query mouse en levert een zoektocht naar gates zowel foto’s van hekken als van de topman van Microsoft. Een tweede probleem bij tekst gebaseerd zoeken is dat niet alle beeldmateriaal vergezeld wordt van tekstuele beschrijvingen. Een goed voorbeeld van deze categorie is de groeiende hoeveelheid priv´emateriaal afkomstig van digitale foto- en videocamera’s. Dit materiaal komt vaak zonder enige context. Het enige aanknopingspunt is dan de bestandsnaam en ook die levert vaak geen nuttige informatie— zoekt u bij Google image search bijvoorbeeld maar eens naar F1050038.jpg.”
In de volgende paragraaf worden andere technieken besproken en voor zover mogelijk uitgelegd op welke wijze deze technieken werken.
[bewerk] Afgeleide data
Zoals in de kleine inleiding is vermeld splitsen we afgeleide data op in twee deelgebieden, namelijk data vanuit het audiosignaal en data vanuit het videosignaal. Daar waar een tekstueel document zeer eenvoudig doorzoekbaar gemaakt kan worden door alle woorden die zijn genoemd te indexeren, is het inhoudelijk ontsluiten van een videobestand een complex proces.
[bewerk] Ontsluiting door middel van het audiosignaal
Een tekstdocument is op te delen in honderden, zo niet duizenden kleine stukken die bijvoorbeeld allemaal uit één woord bestaan. Aangezien het hier allemaal om tekstuele stukken gaat, is het uitvoeren van een zoekopdracht in wezen niets anders dan het vergelijken van een tekstuele zoekactie met een tekstuele content. Op deze manier is een vergelijking zeer eenvoudig uit te voeren en is er geen sprake van een complexe zoekactie. Met videobestanden ligt dit anders. Elk gesproken woord wat hierin wordt gebruik, wordt niet gezien als tekstuele content, maar als een heel klein geluidsfragment. Om hierop een zoekactie uit te voeren is eerst een conversie noodzakelijk. Of de tekstueel ingegeven zoekactie moet omgezet worden naar een geluidsfragment, wat vervolgens kan worden vergeleken met de geïndexeerde geluidsfragmenten uit het videobestand, of de geluidsfragmenten moeten worden geconverteerd naar en geïndexeerd als tekstuele content en vervolgens ook worden vergeleken met de tekstueel ingegeven zoekactie. Gezien het feit dat de eerste oplossing veel gevoeliger is voor fouten, veel duurder is om uit te voeren en veel meer systeemcapaciteit vraagt wordt er logischerwijs gekozen voor de omzetting van de gesproken teksten uit het filmbestand naar tekstuele transcripten. Deze worden vervolgens geïndexeerd volgens de standaardprocedures voor tekstuele documenten en op deze manier worden ook de videobestanden op basis van de gesproken teksten ontsloten. De omzetting van spraak naar tekst wordt veelal automatisch uitgevoerd door speciaal daarvoor ontworpen softwarepakketten. Een voorbeeld wat ook op de pagina praktijkvoorbeelden van ontsluiting terug zal komen is het softwarepakket Virage van de leverancier Autonomy. Het product Virage SoftSound biedt onder andere de mogelijkheid tot het omzetten van gesproken teksten naar geschreven teksten. Het audiosignaal van het videobestand zal worden ingeladen in de daarvoor benodigde programmatuur. Deze zal vervolgens op basis van een zeer omvangrijk vocabulaire trachten de gesproken tekst om te zetten naar geschreven transcripten. Aangezien de informatie omtrent de precieze werking van deze vertaalslag ontbreekt, zal hierop ook niet verder ingegaan worden binnen dit document. Het moge echter duidelijk zijn dat, door deze automatische omzetting, er een grote mogelijkheid is ontstaan om het ontsluiten van videobestanden en – fragmenten naar een hoger niveau te tillen en zodoende de zoeker beter van dienst te zijn.
[bewerk] Ontsluiting door middel van het videosignaal
Zoals al kenbaar is gemaakt zorgt het ontsluiten van informatie alleen op basis van tekstuele kenmerken in lang niet alle gevallen voor het gewenste resultaat. Ook het gebruiken van de taaltechnologie is geen ultieme uitkomst, want hoe vind je een fragment waarin niet wordt gesproken, maar waarin alleen een zonsondergang in Zuid-Afrika wordt weergegeven? En hoe ontsluit je een ‘stomme’ film die gemaakt is in het begin van de vorige eeuw? De derde en laatste mogelijkheid heeft betrekking op de unieke kenmerken van het betreffende videosignaal. Het gaat hierbij niet om de bijgevoegde tekst, niet om de gesproken tekst, maar om de weergegeven beelden. Daar waar de eerder genoemde technieken al volop in gebruik zijn genomen, bevindt de beeldanalyse zich nog in het ontwikkelstadium. Er zijn wel toepassingen te noemen waarin het al naar behoren wordt toegepast, maar het gaat hierbij voornamelijk om zeer specifieke taken, waarvan de scope beperkt is. Een bekend voorbeeld is de persoonsidentificatie op basis van biometrische kenmerken, zoals een irisscan, een vingerafdruk of een handscan. Het herkennen van gezichten op basis van videomaterialen gaat iets verder, maar wordt tegenwoordig ook al succesvol toegepast. Nog een voorbeeld van beeldanalyse die tegenwoordig met redelijke nauwkeurigheid kan worden toegepast is het detecteren van verdachte situaties door middel van beelden van een beveiligingscamera. Bij voorbeeld in een parkeergarage waar normaalgesproken niet veel meer te zien dan auto’s die van en naar een parkeerplek rijden en mensen die af en aan lopen. Patronen van deze normale situatie kunnen worden gemodel-leerd of geleerd, zodat bij afwijkende patronen, bijvoorbeeld wanneer iemand te veel draalt, alarm kan worden geslagen.
In de bovengenoemde voorbeelden is overal sprake van zeer gespecialiseerde toepassingen. En dit is eigenlijk het enige wat heden te dage praktisch haalbaar is qua beeldanalyse. Zoekopdrachten zonder voorgedefinieerde scope binnen het gehele World Wide Web behoren vandaag de dag nog tot het werkveld van de onderzoekers.
Binnen deze vormen van ontsluiting op basis van beeldkenmerken zijn er twee kenmerkende methoden om te komen tot de gewenste resultaten:
- Het zoeken aan de hand van van te voren gedefinieerde, afgebakende concepten
- Het zoeken door middel van de query-by-example methode
In de onderstaande tekst is getracht deze twee methoden voor zover mogelijk te verduidelijken.
[bewerk] Het zoeken aan de hand van van te voren gedefinieerde, afgebakende concepten
Voor het gebruik van deze methode dienen computersystemen te worden ontwikkeld voor het detecteren van relatief algemene concepten. De uiteindelijke bedoeling van dit ontwerp is dat een combinatie van deze algemene concepten kunnen leiden tot het vinden van het specifiek benodigde beeld. Zo kunnen er detectoren worden gebouwd voor de herkenning van concepten zoals water, lucht, gras, gebouwen, personen en auto’s. Indien het systeem deze concepten kan herkennen binnen een videofragment of een foto en deze ook in de juiste context kan plaatsen, is het mogelijk om zoekvragen te formuleren als: “Geef een beeld van een zonnige dag in het park”. Een reactie hierop kan zijn dat het systeem gaat zoeken naar beelden personen, gras en lucht te zien zijn, maar geen gebouwen en auto’s. Het grote en waarschijnlijk onoverbrugbare nadeel van deze methode is dat veel concepten moeilijk te detecteren zijn, aangezien ze geen vaste vorm hebben. En als niet alle concepten ingeleerd kunnen worden is het niet mogelijk om op alle zoekvragen een antwoord te verstrekken. Hoe zoek je namelijk naar een goudkleurig horloge om de pols van een zwartharige vrouw als alleen de bovengenoemde zes concepten beschikbaar zijn? Beelden van vrouwen worden eventueel wel gevonden, maar de combinatie met het horloge zal moeilijk te leggen zijn.
[bewerk] Het zoeken door middel van de query-by-example methode
De tweede manier om op basis van videosignalen te zoeken binnen videobestanden is door middel van de query-by-example methode. Bij deze methode dient de gebruiker al een voorbeeldplaatje of fragment te hebben van hetgeen gezocht wordt. Er zijn verschillende redenen te benoemen die ervoor zorgen dat men zoekt naar een fragment waarvan men al een voorbeeld in handen heeft. Denk bijvoorbeeld aan het feit dat het voorbeeld niet goed genoeg is om direct te gebruiken, dat de kwaliteit van een te laag niveau is, dat het beeld al te vaak is gebruikt, dat de benodigde gebruiksrechten ontbreken of dat de belichting niet goed genoeg is. Het zou zeer relevante recalls opleveren als we een zoekmachine konden verzoeken een beeld te leveren met ongeveer dezelfde kleurencompilatie, texturen en compositie als het voorbeeldfragment of –plaatje. Hoewel ook deze methode zich nog in het onderzoeksstadium bevindt, heeft men al wel de mogelijkheid om zoekacties uit te voeren met een positieve uitkomst. De werking van deze methode kan als volgt worden beschreven. Als eerste worden de visuele kenmerken van het plaatje of het fragment vanuit het voorbeeld geëxtraheerd/verkregen. Het gaat hierbij doorgaans om kenmerken die door middel van relatief eenvoudige algoritmes achterhaald kunnen worden. Denk hierbij aan het aantal pixels van dezelfde kleur, of het aantal scherpe kleurovergangen in een bepaalde richting. Wanneer een groot deel van deze primaire kenmerken duidelijk zijn geworden, kan het plaatje/fragment in een multidimensionale ruimte geplaatst worden, waarvan elke dimensie overeen komt met één van de verkregen kenmerken. De gelijkenis tussen het voorbeeldbestand en de te doorzoeken bestanden uit de database kan vervolgens worden gemeten door middel van de afstand tussen de punten in deze multidimensionale ruimte. Hoe verder de punten van elkaar vandaan staan, des te minder overeenkomsten zijn er gevonden tussen de verschillende fragmenten/plaatjes. Indien de punten op precies dezelfde plek staan, zullen de kenmerken van het voorbeeldfragment en het fragment uit de database precies met elkaar overeenkomen. Deze methode kan worden vergeleken met het vectormodel binnen tekstuele information retrieval systemen. Een variant op de bovenstaande methode is het bouwen van een kansmodel voor elk van de beelden binnen de collectie. Elk kansmodel is een statistische beschrijving van de belangrijkste elementen van een fragment/plaatje, zoals de belangrijkste kleuren, de texturen en de compositie. Om binnen zo’n collectie te zoeken wordt voor elk van de modellen berekend wat de kans is dat het voorbeeldplaatje overeenkomt met het model. Hoe hoger de kans dat dit mogelijk is, des te meer overlap zal er zitten tussen het voorbeeldplaatje en het plaatje wat behoord tot het betreffende kansmodel. (Wegens een tekort aan kennis zal deze kansberekeningsmethode niet verder worden uitgelegd in dit document.)
Hoewel het erop lijkt dat het zoeken door middel van voorbeeldplaatjes altijd even handig is, blijkt dit in de praktijk tegen te vallen. Zo geeft de onderstaande illustratie een beeld van mogelijke recalls die met kan krijgen op een zoekvraag indien dit gebeurt aan de hand van de query-by-example methode.
Hoewel alle plaatjes qua kleur en soms qua vorm een zekere overlap hebben, is de algemene overeenkomst vaak nihil. De gebruik zal zodoende geen enkele bruikbare treffer op het scherm zien verschijnen.
Gelukkig zijn er ook positieve uitkomsten te melden van zoekacties met behulp van de query-by example methode, zoals hiernaast is te zien.
Daar waar de bovenstaande zoekactie geen enkele relevante treffer opleverde, is het resultaat van deze zoekactie al vele malen beter. Hoewel het de vraag is of alle afbeeldingen/fragmenten afkomstig zijn uit dezelfde wedstrijd leveren ze allemaal min of meer hetzelfde resultaat.
Hoewel het ontsluiten van videofragmenten door middel van het videosignaal in de toekomst veel kan bijdrage aan de mogelijkheden, is het momenteel nog niet zaligmakend. Ook Dhr. Westerveld heeft hier z’n bedenkingen over, zoals is te lezen in het volgende citaat.
“Uitvoerige evaluaties van multimedia retrieval zoeksystemen, met name bij TRECVID, de internationale multimedia retrieval benchmark, hebben laten zien dat zoeken met visuele kenmerken nog maar beperkt succesvol is; voor de meeste vragen geeft een tekst gebaseerde aanpak toch nog steeds betere resultaten. Een kanttekening die we daarbij moeten maken is dat het hier in het bijzonder gaat om het zoeken in nieuws video’s. Het is mogelijk dat tekstueel zoeken minder succesvol is in andere domeinen. Daarnaast zijn er zoals gezegd collecties waarvoor geen tekstuele informatie aanwezig is. Toch zijn ook in de TRECVID evaluaties al een aantal zoekvragen waarvoor visuele informatie wel degelijk een nuttige bijdrage levert. Het gaat dan vooral om de gevallen waarbij de zoekvraag overeenkomt met een gebouwde detector, of daar dicht in de buurt zit. Zo lukt het bijvoorbeeld wel om fragmenten van Clinton voor een Amerikaanse vlag te vinden als we al een systeem hebben dat Clinton herkent. Een andere categorie van zoekvragen waarbij visuele kenmerken helpen is die waarbij de te vinden fragmenten een hoge mate van overeenkomst vertonen met het gegeven voorbeeld fragment. Dat is onder andere zo veel sportfragmenten; honkbal velden lijken bijvoorbeeld nogal op elkaar: stukken gras met wat zand erin, witte mannen erop en een menigte er omheen. Bij meer algemene zoekvragen als fragmenten met een kopje koffie is die overeenkomst tussen de verschillende fragmenten veel kleiner: een koffiekopje kan in allerlei verschillende situaties voorkomen. Wanneer een van die situaties overigens een commercial blijkt te zijn, dan is het wel weer eenvoudig om de herhalingen van die commercial op verschillende plekken in de collectie te lokaliseren en zo verschillende kopie¨en van hetzelfde fragment te vinden.”
[bewerk] Combineren
We kunnen concluderen dat multimedia retrieval op basis van visuele kenmerken voornamelijk toepasbaar is op terreinen waarvan de scope nauwgezet en afgebakend is. Voor algemenere zoekopdrachten kan dit eventueel in de toekomst ook relevant worden, maar momenteel zijn er maar weinig instellingen/bedrijven die dit risico durven nemen.
In de toekomst kan de mogelijkheid worden geboden om de verschillende beschreven technieken met elkaar te combineren. Stel voor dat iemand op zoek is naar het fragment uit de film The Lord of the Rings waarin de dwerg Gimli hardop uitspreekt hoeveel slachtoffers hij al heeft gemaakt tijdens één van de gevechten. De verschillende ontsluitingstechnieken zullen met verschillende antwoordmogelijkheden komen. Door de metadata weten we dat Gimli één van de hoofdpersonen uit de film is en zal zodoende van het begin tot het einde te zien zijn. Door middel van de audioanalyse weten we wanneer iemand hardop aan het tellen is, maar dit kan ook een andere hoofdpersoon (Legolas) zijn die dezelfde handeling uitvoert. Daarnaast worden er door middel van de beeldanalyse tal van fragmenten getoond waarin Gimli is te zien, waarin eventueel ook het kenmerk van het gevecht betrokken kan worden. Indien deze methode met elkaar gekoppeld worden is de kans al groter aanwezig dat het juiste fragment wordt getoond, dan wanneer maar één van de technieken wordt gebruikt. Een voorbeeld van deze combinatie van technieken zie je ook terug in de getoonde afbeelding waar zowel gebruik gemaakt wordt van beeldherkenning, spraakherkenning en gestructureerde tekstuele informatie.
[bewerk] Zie ook
[bewerk] Externe informatie
| Virage | |||||||
|---|---|---|---|---|---|---|---|
| Auteur: | Autonomy | ||||||
| URL: | http://www.virage.com/home/index.en.html | ||||||
| Formaat: | WWW | Taal: | Engels | Datum aanmaak: | Onbekend | Datum wijziging: | 2007 |
| Trefwoorden: | Spraaktechnologie ; automatische ontsluiting ; software ; voorbeelden | ||||||
| Motivatie: | Op de site van Virage wordt uitleg gegeven over de werking van de software. Tevens zijn er verschillende (relevante) papers te downloaden, die gebruikt kunnen worden voor de beantwoording van de deelvragen. | ||||||
Aslingerland 6 jun 2007 15:48 (CEST)
