Tekstowa reprezentacja obrazu

Źródło zdjęć: © heise-online.pl

02.08.2010 15:18

Zalogowani mogą więcej

Możesz zapisać ten artykuł na później. Znajdziesz go potem na swoim koncie użytkownika

Naukowcy z Kalifornijskiego Uniwersytetu w Los Angeles (UCLA) wspólnie z amerykańską firmą specjalizującą się w rozpoznawaniu obrazu ObjectVideo stworzyli system kamer, który tworzy tekstową reprezentację obrazów wychwyconych przez obiektyw kamery. Celem projektu jest uproszczenie nawigacji w nagraniach z monitoringu, tak aby użytkownik mógł za pomocą kilku kliknięć znaleźć interesujące go miejsca – informuje magazyn "Technology Review" w wydaniu online.

"Już teraz na wideoportalu YouTube i innych platformach z ruchomym obrazem możemy się przekonać, że przeszukiwanie materiałów wideo stanowi trudne wyzwanie” – powiedział szef zespołu badawczego Song-Chun Zhu, profesor statystyki i informatyki, który zrealizował projekt wspólnie z kolegami Benjaminem Yao i Haifengiem Gongiem. Obecnie wyszukiwanie nagrań odbywa się za pośrednictwem opisujących je tekstów, które są wpisywane ręcznie. Zhu i jego zespół stworzyli więc system Image to Text (I2T), który ma to zmienić. Ostatecznym rezultatem analizy każdego nagrania jest dokument, który można przeszukiwać za pośrednictwem słów kluczowych.

Dla I2T naukowcy zaprojektowali system parsowania obrazu, który rozkłada obraz na czynniki pierwsze – tło zostaje usunięte, aby wyizolować takie obiekty jak pojazdy, drzewa czy postacie. Proces ten można usprawnić, np. przez odseparowanie kół w samochodach albo kończyn u człowieka. Następnie dochodzi do porównania znalezionych obiektów z tworzoną pod kontrolą człowieka bazą danych, w której zapisano obrazy.

wydanie internetowe www.heise-online.pl