서광열's Blog
까멜레오

TV 표준과 해상도

분류없음 2008/01/02 02:14 by 서광열
TV 기술 표준과 지원 해상도에 대해 간단히 정리해 보았습니다.

기존 아날로그 TV는 전 세계적으로 PAL, NTSC, SECAM이라는 3가지 표준이 있습니다.  NTSC는 우리나라와 미국에서 사용하는 표준이고 PAL은 주로 유럽에서 사용하고 있습니다. 두 표준이 공존하지만 기술적으로는 PAL이 NTSC보다 우수합니다. 특히 PAL과 SECAM이 720x576 해상도를 지원한다면 NTSC는 이 보다 낮은 648x486을 지원합니다.

HDTV는 역시 몇 가지 해상도를 지원합니다. 480p, 576p, 720p, 1080i, 1080p가 있는데, 각 숫자는 세로 길이인 수직 해상도를 의미합니다. 즉, 720p라면 세로 해상도가 720 픽셀이 되는 것이지요. 또한 p와 i는 각각 프로그레시브(progressive)인터레이스(interlace)를 의미합니다. p는 한 프레임을 다 보여주는 방식이라면 i는 한 프레임의 반만(홀수 라인 혹은 짝수 라인만) 번갈아 보여주는 방식입니다.

각 포맷별로 정확한 해상도는 다음과 같습니다.

480p -> 852 x 480
576p -> 720 x 576
720p -> 1280x720
1080i -> 1920 x 1080 (픽셀 수는 나누기 2)
1080p -> 1920 x 1080

이올린에 북마크하기(0) 이올린에 추천하기(0)

비디오 검색

분류없음 2008/01/02 00:20 by 서광열
웹에 이미지, 오디오, 비디오 등 콘텐트가 늘어나면서 멀티미디어 검색 기술에 대한 요구가 커지고 있습니다. 현재 구글, 야후를 비롯하여 네이버, 다음 등 대형 포탈과 검색 사이트는 대부분 비디오 검색을 제공하고 있습니다. 작년 한국 IT를 강타했던 UCC 열풍 덕에 웹과 비디오는 친숙한 조합이 되었습니다.

하지만 현존하는 비디오 검색 기술은 대부분 기존 텍스트 검색 기술에 바탕을 두고 있습니다. 비디오나 오디오를 직접 분석해 의미를 추출해 내는 방식을 사용하기 보다는 비디오가 링크된 웹페이지와 메타데이터에서 텍스트를 추출해 비디오를 찾기 때문입니다.

영상 자체에 대한 분석은 탐나는 기술이지만 현존하는 회사 중에서 비디오 분석 기술을 이용해 제대로 된 검색 서비스를 제공하는 회사는 없어 보입니다. 2007년 여름 UC 버클리에서 열린 "검색의 미래(Future of Search)" 컨퍼런스에서 비디오 검색 관련 연구만 15년 이상 해온 UC 샌 디에고와 카네기 멜론 대학 학자들은 간단한 비디오 검색조차 몇 년 안에 가능하기 힘들다고 시인했습니다.

다만 영상 속의 오디오를 텍스트로 변환하는 STT(Speech To Text) 기술은 비디오 검색에 활용되고 있습니다. 오디오 분석 기술을 이용해 비디오 속 오디오의 말을 일단 텍스트로 변환한 후에 텍스트 검색 기술로 검색을 하는 방식입니다. 실제로 이 기술을 사용해 검색 서비스를 제공하는 EveryZing은 70-93% 정도의 인식률을 보인다고 발표한 적이 있습니다.

비디오 검색에서 어떤 기술이 우위를 차지할지는 조금 더 두고 봐야 알 것 같습니다.

관련글
[1] Video search engine From Wikipedia, the free encyclopedia
이올린에 북마크하기(0) 이올린에 추천하기(0)

오디오 Width와 Depth

분류없음 2007/12/10 15:22 by 서광열
GStreamer 오디오 관련 플러그인인 audioconvert의 Capabilities에 보면 rate, channels, endianness와 더불어 width와 depth가 있다. x-raw-float 포맷일 경우 width가 32 혹은 64 (float 혹은 double)을 지정할 수 있고 별도로 depth는 없다. 반면에 x-raw-int의 경우 width가 8, 16, 24, 32가 될 수 있고 depth는 보통 [1, width] 사이의 값을 가진다.

width와 depth는 x-raw-int인 경우에만 의미를 가지는데, depth = 24, width = 32인 경우 오디오 데이터는 24 비트를 가지는데 이를 메모리 상에는 32비트 단위로 저장함을 의미한다. 32비트 컴퓨터의 경우 32비트 워드 단위로 데이터를 처리할 경우 처리 속도가 훨씬 빠르기 때문이다. width는 저장되는 길이, depth는 실제 오디오의 길이라고 보면 될 것이다.
 
GStreamer를 사용하다 보면 가끔 새로운 플러그인을 추가했는데도 피처가 0개로 나오는 경우가 있습니다. GStreamer 내부적으로 사용되는 플러그인의 리스트를 캐시해둬서 그런 문제가 있는데, 급할 때는 GStreamer 레지스트리를 삭제하면 됩니다.

kseo@skyul ~/.gstreamer-0.10
$ ls
registry.i686.xml*  registry.x86_64.xml*
$ rm -rf .gstreamer-0.10

registry.i686.xml 파일이 없어지면 GStreamer는 자체 전체 플러그인을 스캔해서 피쳐 리스트를 만들게 됩니다.



Event Analysis in Videos

분류없음 2007/10/31 15:15 by luxo
비디오 테크놀러지 분야의 가장 권위있는 저널 가운데 하나인 TCSVT(IEEE Transactions on Circuits and Systems for Video Technology) 11월 이슈에 "Event Analysis in Videos"를 주제로 한 논문을 모집하는 Call for Paper가 공지됐습니다.

Special issue on event analysis in videos

"Event Analysis in Videos"는 방범 등에 쓰일 수 있는 감시 분야(surveillance)와 방송에 적용될 수 있는 스포츠 영상의 하이라이트 편집기술(highlight detection)과 같은 곳을 타겟으로 하는 방법들이 그동안 많이 연구되어 왔습니다. 하이라이트 편집기술을 응용한 성인전용 콘텐츠 필터링 기술의 겨우는 많은 관심을 끌고 있습니다.

즉, 특정 상황에서 한정된 동작에 대한 템플릿을 만든 후, 템플릿 매칭을 통해 비디오에서 원하는 동작을 찾아내는 방법이라고 설명할 수 있습니다.

하지만, 영상 검색 및 UCC 서비스가 중요한 이슈가 된 요즘, 새로운 서비스에 적용될 수 있는 알고리즘의 필요성이 높아지고 있습니다.

비디오의 경우, 시간정보가 포함되어 있기 때문에, "Event Analysis in Videos"에서 가장 중요한 것은 비디오에 나타난 움직임(motion)을 어떻게 표현하고, 분류한 다음, 해석할 것인가라고 할 수 있습니다.

예를 들어, 어떤 골프매니아가 타이거 우즈의 골프 비디오를 보고있다가, 퍼팅샷이 나오는 장면에서 "타이거 우즈의 퍼팅샷 모음이 보고 싶어요~"라는 요청을 했을 때, 타이거 우즈 골프 비디오 모음에서 퍼팅샷만을 찾고, 특정 상황별로 분류한 다음, 유저에게 검색결과로 보여주는 것을 생각할 수 있습니다.

기존의 이미지 검색과 다른 점은 '퍼팅샷'이라는 이벤트를 하나의 검색쿼리로 취급하기 때문에, 퍼팅샷이 이루어지는 동영상 시퀀스를 표현하고 처리할 프레임웍이 필요하다는 것입니다.

한 단계 더 나아가서, "Event Analysis in Videos"의 최종 목적 비디오 컨텐츠 해석(content analysis)라는 것을 가지고 위의 예제에서 또 다른 서비스를 생각할 수 있습니다.

타이거 우즈 비디오를 보고있던 유저가 "내 퍼팅샷과 타이거 우즈의 퍼팅샷이 어떻게 다른지 알고 싶어요~"라고 요청한 상황을 가정해 봅니다.

유저가 보고있는 타이거 우즈의 퍼팅샷을 입력쿼리로 해서, 실제 유저가 골프를 즐기고 있는 장면을 촬영한 비디오 파일을 검색하고, 그 가운데서 퍼팅샷만을 골라낸 뒤에, 타이거 우즈의 퍼팅과 사용자의 퍼팅의 차이점을 알기쉽게 시각화해서 보여준 다면, 사용자가 나중에 필드에서 골프를 칠 때, 보다 나은 퍼팅샷을 할 수 있는 좋은 자료가 되지 않을까요?

물론, 현재까지 "Event Analysis in Videos" 기술은 실험실 레벨에서 머무는 경우가 많습니다. 하지만, 비디오 영상 서비스의 수익모델의 범위를 넓히기 위한 컨텐츠 해석 기술의 필요성이 점점 더 높아지고 있기 때문에 앞으로 다양한 기술이 나올 것으로 기대됩니다.

이번 논문모집공고의 토픽에서도 실제 서비스로 연결될 수 있는 주제들이 보입니다.
  • Human centered event recognition
  • Video search and retrieval by event
  • Spatial-temporal modeling and object trajectory analysis for event recognition
  • Video-based biometrics
  • Robust systems: news, sports, etc.

구글의 인수여부로 유명해진 Riya의 경우, 얼굴검색기술로 출발했지만, 현재는 검색기술을 서비스형태로 진화시킨 like.com 으로 이미지 검색기술의 새로운 수익모델을 제공했다는 평을 듣고 있습니다. 단순히 정확한 검색결과를 보여주는 것이 아니라, 검색결과를 수익모델로 연결시키는 방법을 제공했다는 측면에서 볼 때, Riya의 예는 "Event Analysis in Videos"에서도 특정 서비스에 특화된 기술이 출현할 수 있다는 것을 예측하게 해줍니다.

지금 개발 중인 까멜레오의 경우, 이러한 기술들을 연결해줄 수 있는 미디어 플랫폼이기 때문에, 서비스 이용가능한 기술이 개발된다면 까멜레오 위젯으로 만들어서 제공함으로써, 유저에게 새로운 인터랙티브 미디어를 제공할 수 있는 재밌는 놀이터로써의 까멜레오 미디어 플랫폼을 만들도록 노력하겠습니다.

* 까멜레오팀에 새롭게 들어와서 제 소개나 포부를 블로그에 남겼으면 하는것이 팀장님 생각이셨는데, 약간 엉뚱하게 관심분야 얘기를 했습니다. ^.^
이올린에 북마크하기(0) 이올린에 추천하기(0)

까멜레오 프로젝트 블로그

분류없음 2007/10/26 19:25 by 서광열
까멜레오 프로젝트 한글 블로그를 개장합니다!

그동안 영문으로만 운영되던 까멜레오 프로젝트 블로그가 한글로도 서비스됩니다. 사실 영문 블로그는 블로깅 정책이 정해지지 못해 글을 자주 올리지 못했었죠.

기존 영문 블로그와 한글 블로그은 성격이 다릅니다. 영문 블로그의 성격은 공식적인 면이 강하고, 한글 블로그는 까멜레오 개발팀의 근황과 개발 관련 소식이 담길 예정입니다. (상당히 비공식적인 블로그입니다.)

더불어 미디어 플랫폼 개발 관련 여러 기술적인 문서들도 올라올 예정입니다. 미디어 기술, 미디어 플레이어, 미디어 어플리케이션 제작에 관심이 많으신 분들에게 많은 도움이 되리라 생각합니다.

앞으로 많은 글들을 기대해 주세요. 까멜레오 개발팀장 서광열 드림.

1 
분류 전체보기 (6)