Product Style

This is a portfolio page template which pulls in posts with a featured image set you can link to for more information. The same image is used for all these portfolio templates, allowing you to switch portfolios / layouts / sizes with the change of a dropdown (page template).

You can control the source categories and posts per page in the theme settings page or on a per-page basis using custom fields!

  • Featured_3d

    3D Space Reconstruction

    3D Space Reconstruction

    연구 개요

    본 연구실에서는 3차원 공간을 3차원 메쉬로 표현하기 위한 알고리즘을 연구하고 있다. 먼저, LRF를 이용하여 3차원 구조를 표현하는 포인트 클라우드를 얻는다. 그리고 다운샘플링을 통해 포인트 클라우드의 분포를 균일하게 한다. 다음으로 표면 재구성 (surface reconstruction)작업을 통해 3차원 구조를 3차원 메쉬로 표현한다. 3차원 구조를 시각적으로 표현하기 위해서는 텍스쳐 정보가 필요한데, 이는 전방향 카메라 (omni-directional camera) 로부터 얻은 전방향 영상을 이용한다. 전방향 영상의 각 픽셀을 3차원 공간으로 매칭시켜 메쉬에 텍스쳐를 입힘으로써 3차원 구조를 시각적으로 표현할 수 있다. 본 알고리즘은 3차원 구조를 정확하게 표현할 뿐만 아니라 3차원 공간과 텍스쳐를 비교적 정확하게 매칭할 수 있다.

    세부 연구 내용

    1. 전방향 • 광역 RGB-D 데이터 취득

    LRF와 전방향 카메라로 구성된 Omni Wide Sensor를 구성하여 전방향•광역의 RGB-D 정보를 취득한다.

    A. 영상 데이터 취득

    영상 데이터는 전방향 카메라를 이용하여 획득한다. 전방향 카메라는 한 번의 촬영으로 전방향의 영상 데이터를 얻을 수 있는 장치이다. 전방향 카메라는 여러 대의 카메라로 구성되어 있는데 각 카메라는 각기 다른 방향을 향한다. 각 카메라에서 얻은 영상 데이터들을 왜곡하여 하나의 영상으로 합침으로써 전방향을 표현하는 전방향 영상을 획득한다.

    B. 거리 데이터 취득

    거리 데이터는 LRF로 통해서 3차원 포인트 클라우드의 형태로 획득한다. LRF는 레이저 빔을 이용하여 거리 정보를 획득하는 장치이다. LRF의 관측 시야 (field of view)의 한계로 회전을 해가며 여러 방향의 데이터를 얻는다.

    3차원 공간 정보를 구성하기 위해서는 하나의 통합된 포인트 클라우드가 필요하다. 그러므로 각 방향에 대한 포인트 클라우드를 pose estimation 알고리즘을 이용하여 하나의 포인트 클라우드로 합친다.

     2. 3차원 공간 구성

    A. 3차원 메쉬 구성

    포인트 클라우드를 이용하여 3차원 구조를 구성하는 과정이다. A에서 얻은 3차원 포인트 클라우드를 분포를 균일하게 하기 위해 다운샘플링을 한다. 그리고 평면 피팅 (plane fitting) 알고리즘을 이용하여 포인트 클라우드의 각 포인트의 노멀 벡터를 구한다. 그리고 각 점들의 노멀 벡터로 구성된 포아송 방정식을 이용하여 3차원 메쉬를 구성하는 알고리즘인 포아송 평면 재구성 (Poission surface reconstruction) 기법을 이용하여 3차원 메쉬를 구성한다.

    B. 텍스쳐 매핑

    과정 1에서 얻은 3차원 메쉬에 영상 정보를 입히는 과정이다. 전방향 영상의 특성을 이용하여 각 픽셀 좌표 (u,v)를 3차원 좌표 (X,Y,Z)로 매핑할 수 있다. 이 과정을 통해 3차원 메쉬의 각 face에 영상 정보를 입힌다.

    이 연구는 2011년 교육과학기술부의 재원으로 한국연구재단의 지원을 받아글로벌프런티어사업으로 수행된 연구입니다. (한국연구재단-M1AXA003-2011-0031648)
    This work was supported by the Global Frontier R&D Program on funded by the National Research Foundation of Korea grant funded by the Korean Government(MEST) (NRF-M1AXA003-2011-0031648)

  • logodetection

    Logo Detection

    영상에 존재하는 로고를 인식하여 인식결과를 사용자에게 제공하는 알고리즘을 제안한다. 알고리즘은 로고탐지/로고분류/로고검증의 세 단계로 구성된다. 로고탐지 단계에서는 영상 내에서 로고라고 여겨지는 객체를 추출하여 로고후보로 설정한다. 각 로고후보는 로고분류 단계에서 어떤 템플릿 로고와 가장 가까운지 그라디언트의 히스토그램의 비교를 통해 결정된다. 마지막 로고검증 단계에서 로고후보의 로고분류가 정확히 이루어졌는지 특징점 매칭을 통해 확인하여 최종적인 로고인식 결과를 도출한다. 제안하는 알고리즘은 영상 내에 존재하는 로고의 수에 관계없이 인식이 가능하고, 로고 크기 및 회전에 영향을 받지 않는다.

    실험결과

    총 48가지의 로고를 템플릿 로고(인식가능한 로고)로 설정하여 실험을 수행하였다. 각 실험 영상은 블러, 복잡한 배경, 외형 왜곡, 시점 왜곡, 저대조, 저해상도, 가우시안 노이즈, 폐색, 작은 로고 등 9가지의 문제 중 하나의 문제를 포함한다. 각 문제별로 50개 이상의 실험 영상을 사용하였다. 인식률은 F1-score를 이용하여 측정하였다.

    제안하는 알고리즘은 평균적으로 93.5%의 인식률을 보였고, 가장 낮은 인식률을 보인 복잡한 배경을 갖는 문제 영상에 대해서도 86.6%의 높은 인식률을 보였다.

    인식결과


    The north face


    Puma


    Starbucks

  •  
  • multi-01_k

    Multi-View Video Processing

    다시점 비디오 (Multi-view video)는 같은 장면(scene)을 위치가 다른 서로 다른 여러 대의 카메라를 이용하여 촬영한 영상을 말한다. 각 카메라들은 서로 다른 시점에서의 영상을 제공함으로써 사용자는 원하는 시점을 자유롭게 선택하여 시청할 수 있다. 하지만 다시점 비디오를 사용하기 위해서는 2가지 단점을 극복해야 한다. 우선, 기존의 단시점 비디오(single- view video)에 비해 처리해야 할 데이터가 증가하므로 전송 및 저장을 위한 효율적인 압축 알고리즘이 필요하다. 둘째로, 처리해야 할 데이터가 증가하므로 연산속도가 급격히 증가하는 문제점이 있다. 따라서 효율적인 신호 처리 기술을 응용하여 다시점 비디오의 취득, 처리, 압축, 전송 등의 기술 개발이 필수적이다. 이러한 기술을 이용하여 다시점 비디오 영상으로부터 디스패리티 백터와 깊이 정보 추출을 통한 3차원 영상을 추출할 수 있을 뿐만 아니라 초고해상도 영상과 다시점 영상의 결합을 통하여 차세대 실감 방송을 실현할 수 있다. 현재 미디어 통신 연구실에서는 다음과 같은 주제에 대하여 연구를 진행하고 있다.

    • 효율적인 다시점 비디오 압축 알고리즘 개발
    • 정확한 시점 합성 알고리즘 개발
    • 고화질 깊이 정보 생성 알고리즘 개발



    A multi-view video sequence captures the same scene from multiple viewpoints simultaneously. It can offer 3D realistic experience by enabling a user to change and select various viewpoints as he/she wishes. However, the multi-view video representation has two drawbacks that should be overcome. First, a multi-view video sequence requires much larger storage space and higher transmission bandwidth than a single-view video sequence. Second, it demands higher computational complexity. Therefore, an efficient set of signal processing techniques should be developed for the acquisition, processing, compression and transmission of multi-view video sequences. From a multi-view sequence, we can reconstruct 3D objects by estimating disparity vectors and then extracting depth information. Also, we can combine multi-view sequences to acquire high resolution video sequences. In MCL, we are currently carrying out researches on

    • Efficient multi-view video compression
    • Accurate view synthesis
    • High-quality depth information extraction

  • com-01_k

    Computer Vision

    1. Background subtraction
    전경의 물체를 배경으로부터 분리하는 것은 컴퓨터 비전과 영상처리에서 중요한 과정이다. 이러한 알고리즘은 감시 시스템(surveillance system), 물체 추적(object tracking) 및 교통 상황 관찰(traffic monitoring) 등의 다양한 컴퓨터 비전 응용의 첫 단계에 위치하게 된다. 전경 추출 알고리즘은 적은 복잡도를 가지면서 정확하게 동작하여야 한다. 배경에 대한 모델을 세우기 위해 색, 밝기, 지역 정보 등의 여러 특징들을 사용할 수 있다. 우리 연구실에서는 낮은 복잡도에 정확한 전경추출을 하기 위하여 다음과 같은 연구를 진행 하고 있다.

    • 다양한 환경 조건하에서 강한 전경 추출 기법
    • 하드웨어 구현을 위한 빠른 전경 추출 기법

    2. Omni camera unwarping
    비디오 감시 분야에서 넓은 영역을 관찰하는 것은 매우 중요하다. 넓은 영역을 관찰하기 위한 방법으로는 PTZ카메라를 이용하거나 여러 개의 카메라로 찍은 영상을 합성하는 방법이 있다. 또 다른 방법으로 전방위 카메라라는 360도 전 방향을 관찰할 수 있는 카메라를 사용할 수 있다. 그러나 전방위 카메라부터 획득된 영상은 렌즈나 거울의 모양에 따른 왜곡이 발생하므로 이렇게 발생한 왜곡을 효과적으로 펼 수 있는 방법이 필요하다. 본 연구실에서는 이와 관련하여 다음과 같은 연구를 진행하고 있다.

    • 전방위 카메라를 이용한 감시 및 추적에 관한 연구
    • 전방위 카메라의 자동-칼리브레이션에 관한 연구
    • 전방위 카메라의 영상 왜곡을 줄이는 연구

    3. Bi-layer segmentation
    본 연구실에서는 실시간 객체 분할 알고리즘을 개발하고 있으며, 이는 동영상으로부터 객체와 배경을 분할한다. 먼저 객체와 배경에 대한 컬러 확률 모델을 만들기 위해 첫 프레임은 사용자의 반응을 통해 분할한다. 그리고 각 프레임에 대해 시공간적 연관성을 이용하여 객체의 실루엣이 되는 연관틀을 만든다. 마지막으로 컬러, 연관성 그리고 스무드 항을 바탕으로 한 에너지 최소화를 통해 객체를 분할한다. 본 연구실에서 제안하는 알고리즘은 실시간으로 정확한 객체를 추출할 수 있으며, 심지어는 불안정한 카메라 움직임하에서도 작동한다. 객체를 분할한 뒤에 사용자는 배경을 아래와 같이 다른 그림으로 대체할 수 있다. 이러한 방법은 모바일 화상통신에서 사용자가 배경을 공개하고 싶지 않을 때 사생활을 보호할 수 있는 방법이다.

    1. Background subtraction
    Segmenting foreground objects from the background is an important task in computer vision and image processing. It is employed as the first stage of many computer vision applications, such as video surveillance, object tracking, and traffic monitoring. It should be performed reliably with low complexity. Several features, such as color, brightness and spatial information, can be used to build a background model. In MCL, to achieve reliable background subtraction at a low complexity, we are researching

    • Robust background subtraction algorithms in various environmental conditions
    • Fast background subtraction algorithms for hardware implementation

    2. Bi-layer segmentation
    We are developing a real-time video segmentation algorithm, which can extract objects from video sequences even with non-stationary backgrounds. First, we segment the first frame into an object and a background interactively to build the probability density functions of colors in the object and the background. Then, for each subsequent frame, we construct a coherence strip, which is likely to contain the object contour, by exploiting spatio-temporal correlations. Finally, we perform the segmentation by minimizing an energy function, which is composed of color, coherence, and smoothness terms. The proposed algorithm provides accurate segmentation results in real-time, even though video sequences contain unstable camera motions. After the segmentation, a user can substitute the background with another one as shown in the following figure. This can be used to protect privacy in mobile video communications, when a user does not want to reveal the background.

    3. Omni camera unwarping
    In video surveillance, it is desirable to capture a larger region with a camera. To cover a huge region, we can use a PTZ camera or merge images from several cameras. An alternative approach is to use an omni-directional camera, which can observe 360 degrees of angle. However, image, captured by omni-cameras, are distorted by the geometry of lens and mirrors. It is hence necessary to unwarp the distortions. We are working on

    • Surveillance and tracking using omni-directional cameras
    • Automatic calibration of omni-directional cameras
    • Reduction of distortions in the unwarping procedure

  • com-04_k

    Content-Aware Image and Video Resizing

    영상을 다른 해상도나 비율을 가지는 영상 기기에 표현하기 위해 영상 크기 조정이 이루어진다. 예를 들어 극장용 필름을 일반 TV에서 시청할 경우 기존의 스케일링 기법을 이용하여 영상 크기를 조정하면 영상이 길쭉해지고 크로핑 기법을 적용하면 좌우 가장자리가 잘려진다. 스케일링 기법은 전체 영상에 대해 일정한 비율로 크기를 조정하는 것으로 영상이 왜곡되거나 너무 작아져 인식이 어려울 수 있다. 크로핑 기법은 가장자리로부터 중심 방향으로 영상을 잘라내기 때문에 주요한 영상 정보의 손실을 가져올 수 있다. 최근 기존 방법들의 단점을 극복하기 위해 새로운 기법들이 연구 되고 있다. 이와 관련하여 본 연구실에서는 다음의 연구를 진행하고 있다.

    • 최적화 기법을 이용한 적응적 영상 크기 조정
    • 실시간 동영상 크기 조정


    Image resizing is often used to display an image on devices which have different resolutions or aspect ratios. For example, we watch horizontally squeezed or cropped movie on TVs, using the conventional resizing techniques scaling or cropping, respectively. The scaling algorithm changes the sampling rate uniformly over the entire image, but the resulting image can be distorted or too small to perceive. The cropping algorithm crops the image from the boundary to achieve a target size, but it may lose essential visual information. Recently, novel adaptive techniques have been proposed to overcome these problems of the conventional techniques. In MCL, we are working on

    • Adaptive image resizing using optimization techniques
    • Real-time video resizing

  • com-05_k

    High Dynamic Range Imaging

    디지털 영상의 동적 영역(Dynamic Range)은 영상 내에서 가장 밝은 화소값과 가장 어두운 화소값의 비율로 정의한다. 일반적인 디지털 카메라 및 모니터는 2의 차수 크기의 동적 영역을 다룰 수 있는데 반해, 실제 인간의 시각 인지 시스템(HVS)은 5 이상 차수 크기의 동적 영역을 인지할 수 있다. 따라서, 기존의 영상 장치는 인간이 인지하는 영상을 그대로 획득(capture) 또는 표현(display) 할 수 없다. 이처럼 기존의 영상 장치가 다룰 수 있는 것보다 큰 동적 영역을 갖는 영상의 필요성이 대두되며, 이러한 영상을 높은 동적 영역(High Dynamic Range, HDR) 영상이라고 한다. HDR 영상은 디스플레이 장치가 표현할 수 있는 영상이 아닌 인간이 인지하는 그대로의 영상을 획득할 수 있어, 기존의 낮은 동적 영역(Low Dynamic Range, LDR) 영상에 비해 더 사실적인 장면을 나타낼 수 있다. 이처럼 많은 장점을 가지고 있는 만큼, 디지털 영상 장치의 발전과 더불어 가까운 미래에는 HDR 영상의 사용이 일반화 것으로 예상된다. 본 연구실에서는 이와 관련하여 다음과 같은 연구를 진행하고 있다.

    • HDR 영상 및 동영상 획득 알고리즘
    • HDR 영상 및 동영상 압축에 관한 연구
    • HDR 영상을 기존의 LDR 디스플레이 장치에 표시하기 위한 알고리즘

    The dynamic range of a digital image is defined as the ratio of the intensities between the brightest pixel and the darkest pixel. While the dynamic ranges of conventional display devices are less than two orders of magnitude, real world scenes have much higher dynamic ranges. Also, human eyes can perceive more than six orders of magnitude via adaptation. Images that have higher dynamic ranges than conventional display devices are called high dynamic range (HDR) images. As the HDR images represent what human perceives rather than what display devices can express, they can capture real gamut more faithfully than low dynamic range (LDR) devices. The recent advance of sensor technology makes it possible to record the full dynamic range of a scene in a single shot. It is also expected that general still or video cameras will be able to capture HDR scenes directly in near future. We are doing researches on

    • Capturing of HDR images and videos
    • Compression of HDR images and videos
    • Displaying HDR images on LDR devices

  • com-06_k

    Stereo Image Retargeting

    디스플레이 크기와 인간 시각 시스템의 3차원 인식 메커니즘을 고려하여 사용자에게 편안한 입체감을 제공할 수 있는 스테레오 영상의 크기 조정 및 디스패리티 재구성 기법을 개발한다. 첫째, 입력 영상의 크기를, 스테레오 영상의 일치 정합(correspondence matching) 관계를 보존하면서, 전경과 배경에 따라 적응적으로 조정하는 크기 조정 기법을 개발한다. 우선 스테레오 정합 알고리즘을 이용하여 획득된 디스패리티 정보와, 그래디언트(gradient), 텍스쳐(texture) 등과 같은 영상 특성으로부터 입력 영상의 중요도 지도(importance map)을 추출한다. 그리고 디스패리티 정보와 중요도 지도에 따라 좌시점과 우시점에 해당하는 영상의 크기를 조정할 때 중요한 영역의 크기는 보존하고 덜 중요한 영역을 줄임으로써 원하는 크기의 출력 스테레오 영상을 구한다. 이러한 크기 조정 과정에서 일치 정합 관계와 폐색 영역(occluded regions)을 고려함으로써 출력 영상의 3차원 깊이 정보가 충실히 보존될 수 있도록 한다. 그러나 크기 조정은 필연적으로 디스패리티 정보의 변경과 비-중요 영역의 축소를 초래한다. 이러한 정보의 왜곡을 에너지 함수로 정의하고 최소화함으로써 최적 화질의 출력 영상을 얻는다. 둘째, 디스패리티 정보를 조정하여 시청자에게 편안한 3차원 시청거리를 제공하는 스테레오 영상의 디스패리티 재구성 기법을 개발한다. 시청자가 자연스러운 입체감을 느낄 수 있는 거리는 제한되어 있으며 일반적으로 화면의 크기에 비례한다. 따라서 스테레오 영상의 크기가 변경되거나 화면의 크기가 다른 출력 장치를 통해 시청할 경우, 최적의 3차원 시청 거리 또한 변경될 수 밖에 없다. 이러한 문제를 해결하기 위해서 본 연구에서는 영상 크기의 변화에 상관없이 균일한 3차원 시청 거리를 제공할 수 있는 디스패리티 재구성 기법을 개발한다. 관련과제 – IT/SW 창의연구과정-한국마이크로소프트: Stereoscopic Image Retargeting and Disparity Remapping for Adaptation of 3D Video Contents for Various Display Devices

    • 디스패리티를 이용한 중요 영역 추출 알고리즘
    • 스테레오 이미지 인페인팅 알고리즘
    • 디스패리티 리맵핑을 통한 입체감 조정 기법


    We develop stereo image resizing and disparity remapping technique which can provide comfortable depth perception, while a display size and human visual recognition system are considered. First, we develop stereo image retargeting method, which resize the image size according to important region and background while a correspondence matching relation is preserved. First, we extract importance map using image characteristics, such as gradient and texture, and a disparity data which is given. Then, we resize left and right image while preserve important regions and distort background regions until fitting target image size. Moreover, we consider occluded regions and correspondence match relation to preserve depth perception when resizing stereo image. Second, we develop disparity remapping method controlling depth perception to provide comfortable 3D contents viewing. A viewing distance, which a viewer can feel comfortable depth perception at, is limited. Therefore, if image or display size is changed, the viewing distance should be changed. To solve this problem, we develop disparity remapping method, which provide comfortable depth perception without a limitation of viewing distance even though image or display size is changed. (related research project: IT/SW Microsoft Research Asia: Stereoscopic Image Retargeting and Disparity Remapping for Adaptation of 3D Video Contents for Various Display Devices) We are doing researches on

    • Extraction of importance regions based disparity data
    • Inpainting stereo image
    • Ramapping disparity data and controlling depth perception


  •