티스토리 뷰
영상 인식의 개요
영상인식 : 김희승 저, 생능출판사, 1993, Page 11~31
생물체의 시각이든 컴퓨터에 의한 시각이든 시각 작용의 역할은 빛에 의한 영상으로부터 어떠한 정보 (information) 를 얻어 내는 일이다. 자연 세계의 입체적 광경은 빛으로 전달되어 동물의 망막에 투영되기도 하며, 비디오 카메라의 렌즈 후면에 영상을 맺기도 한다. 그 어느 것이든 공간의 입체적 광경을 평면의 영상으로 투영한다는 데에 공통점이 있다 하겠다. 평면 영상의 패턴으로부터 공간물체의 특성과 물체 사이의 관련성을 추출하여 인식과 판단의 기초 정보로 삼는 일은 동물의 지능이나 컴퓨터의 인공지능에 있어서 중요한 사안이 아닐 수 없다.
동물의 시각과 두뇌 구조는 주변의 먹이를 인지할 수 있거나 위험 등을 감지할 수 있고 주변세계의 구조에 대한 정보를 파악할 수 있다. 물체나 다른 객체의 위치와 그것들의 상호 관련 및 특성을 두뇌에서 조작할 수 있는 어떤 심볼로 변화시켜서 그 다음에 취할 행동에 대한 계획 (planning) 을 마련한다.
컴퓨터 시각에서는 여러 가지 특별한 목적에 따라 시스템의 구조가 규정지어진다. 문자인식, 염색체의 분류, 인공위성 영상에 의한 자연자원 정보의 판단, 로봇의 이동에 필요한 정보인식 등 다양한 목적으로 컴퓨터의 인식시스템은 구성된다.
인공지능이라는 개념으로 두뇌의 작동이나 로봇의 제어동작을 고찰해 본다면 대체적으로 다음의 3가지 과정으로 나누어 볼 수 있다. 첫째는 인식단계, 즉, 외부세계의 형상을 추상적 표현으로 전환시키는 단계, 둘째는 활동을 유도하기 위한 계획을 수립하는 단계, 셋째는 그 계획을 실행하는 단계가 그것이다. 시각에 의해서 유도되는 유기체의 행동 중에는 의식할 수 있는 정도의 계획과정이 뚜렷하지 않다. 인식 - 행동이 반복되는 과정중에 그것이 끼어 있다고 보는 편이 나을지 모르겠다.
신경계의 연구에 의하여 시각시스템을 설계하는 문제에 있어서 항상 다음과 같은 의문에 부딪치게 된다. 동물의 시각적 작동은 어떻게 형성되는가? 그것을 컴퓨터의 시각에 어떻게 응용시킬 수 있는가? 특히 컴퓨터 시각의 전처리 과정과 추상표현에 어떻게 적용시킬 수 있는가? 전체시스템의 역동적인 성능을 발휘케 하려면 시각의 추상적 표현을 어느 정도로 연속하여 개정하여야 하는가?
이러한 시각의 추상적 표현 자료가 외부세계의 변화에 대하여 끊임없이 바뀐다면 행동의 계획과 실행 또한 끊임없이 바뀌어야 하는데 이들은 또 어떻게 종합시켜야 할 것인가? 이러한 의문에 대한 연구는 실로 많은 노력을 요하는 방대한 일임에 틀림없다.
1.2 하부시각(low-level vision)과 상부시각(high-level vision)
학자들의 연구에 의하면 동물의 망막은 영상의 명암 대비를 부각시킬 수 있고 움직이는 목표물을 추적하여 움직일 수도 있다고 한다. 그것은 또한 여러 가지 시각적 매개변수, 즉, 모양, 깊이정보, 운동정보 등을 추출하는 기능도 구비하고 있다는 것이다. 이러한 정보를 종합하여 물체의 위치를 파악하고, 다음 단계의 행동 제어를 위한 절차를 수립한다.
시각 기능에서 시각적 매개 변수를 추출하는 체계를 하부시각체계라 하고 시각적 매개 변수를 이용하여 시각적 정보를 파악하는 체계를 상부시각체계라 한다.
생물체의 시각체계는 다양하다. 곤충에서 볼 수 있는 복합눈과 척추동물에서 볼 수 있는 단순눈은 그 구성양태가 다르다. 사람의 눈과 같이 한 개의 렌즈와 수많은 망막세포로 구성된 눈은 단순이다. 망막세포 하나 하나는 두뇌의 서로 다른 영역에 연결된다. 렌즈로부터 두뇌의 시각기능 영역부까지를 수화체(收畵體)(receptor)라고 한다. 곤충의 복합눈은 수없는 셀로 구성되어 있으며 각 셀에는 한 개의 렌즈와 수화체가 포함되어 있다.
수화체의 상부에는 여러 가지 중간층이 있다. 이 중간층의 셀들은 망막의 신경절 세포에 입력을 전달한다. 전달된 입력은 맹점에 모여서 광학적 신경을 통하여 두뇌로 이어진다. 신경절 세포의 두뇌쪽 부분은 발산되는 형태로서 두뇌의 여러 시각기능 영역으로 연결된다. 두뇌의 시각기능 영역은 상호 작용하는 뉴런층들로 분석된다. 신경의학자들은 외부세계의 시각적 패턴이 뉴런의 발사기능(firing)을 유발한다고 생각하였다. 망막의 2차원적인 영상은 뉴런층으로 끊임없이 사상된다. 사상된 투영은 다시 추상적 표현으로 전이되는 것이 관측되었다.
이러한 생물체의 영상인식 기능은 컴퓨터 영상인식에도 반영되었다. 뉴런층에의 투영과 추상적 표현은 컴퓨터 영상인식 과정을 하부시각과 상부시각으로 분리하여 이해할 수 있게 한다. 컴퓨터 시각체계에서는 영상면의 광강도 숫자의 배열을 기호적 지식으로 변화시키는 과정을 거쳐서 물체에 대한 정보를 얻는다. 이 과정을 고찰한다면 어떤 시각적 지식을 얻기 위하여 코딩된 정보를 계산하는 과정을 하부시각이라 하고 하부시각의 출력으로부터 필요한 지식을 산출하는 과정을 상부시각이라 할 수 있다.
하부시각처리의 일례로써 영상분할(segmentation)을 들 수 있다. 같은 구역에서는 색깔, 운동, 깊이정보 등의 특성치가 같거나 비슷하고, 다른 구역에서는 다르게 나타나도록 영상면을 구역으로 분할하는 과정을 영상분할이라 한다.
두 대의 카메라를 사용하여 깊이정보도(depth information map)를 작성하는 과정도 하부시각처리라 할 수 있다. 광학적 흐름(optic flow)이란 한순간 사이의 망막상의 물체가 움직인 양을 나타내는 운동정보의 패턴이다. 생물체는 물체를 인식하기에 앞서 광류 정보를 토대로 하여 진행방향을 결정할 수 있다는 사실을 Gibson이 밝힌 바 있다. 다시 말하면 상부시각처리에 의한 물체의 인식없이 하부시각처리에 의한 정보만을 가지고도 생물체는 운동할 수 있다는 것이다.
하부시각체계에서 결정된 위치정보, 깊이정보, 운동정보 등은 다음 단계의 상부시각체례에 대한 입력정보로 쓰인다. 이러한 문제는 매우 복잡하다. 가까운 물체는 먼 거리에 있는 물체보다 망막에 큰 영상을 만들며, 물체가 어느 방향으로 진행할런지 예측할 수 없으며, 한 물체가 다른 물체에 겹치는 등의 복합적 요인이 존재한다. 예비적 영상해석이 끝나면 상황과 예상 따위의 정보를 파악할 수 있다. 또 그것은 다음 처리에 대한 입력이 될 수 있다.
1.3.1 영상의 표현
이미 언급한 바와 같이 하부시각처리의 역할은 빛의 강도로 표시되는 화상 또는 패턴을 중간 단계의 추상적 표현으로 사상시키는 것이다.
영상처리의 초기 단계에서 물체의 표면으로부터 반사된 빛에 관한 지엽적 정보를 수화체가 추출하도록 한다. 이것은 단색일 수도 있고 천연색일 수도 있다. 이는 비단 색깔에만 국한된 것이 아니고 레이다나 음향신호 또는 여러 가지 센서에 의한 기타 신호일 수도 있다. 그 다음 단계로 할 일은 국소적인 광강도 정보로부터 영상을 표현하는 표현자(descriptor)를 구하는 일이다. 국소적 광강도 정보는 영상 각 지점의 이웃 광강도 정보를 토대로 하여 얻어진다.
Lettvin은 개구리의 실험을 통하여 움직이는 작은 물체에 관한 정보를 두뇌로 전달시키는 방법을 연구했고, Kuffler는 고양이와 원숭이가 국소적인 명암의 대조를 인식하는 능력에 관하여 실험했다. 학자들의 연구의 결과, 두뇌의 서로 다른 영역에 여러 가지 국소적 정보를 보내어 전체적인 정보를 수집하여 영역와 영역의 분리하는 윤곽선에 대한 강력한 가설을 세우게 되고, 깊이정보와 구조정보에 기초하여 같은 것들을 그룹짓는 따위의 방법으로 영역을 확정한다.
동물에 있어서 깊이정보를 얻는 문제는 주로 두눈을 통한 스테레오 시각의 원리에 의하여 이루어진다. 컴퓨터에 있어서는 주로 음향, 레이다, 혹은 레이저에 의한 거리추출 기술에 의하여 이루어진다. 그림자로부터 모양을 추정하는 방식으로 깊이정보를 얻어낼 수도 있다.
1.3.2 영역 분할(segmentation)
초기에 컴퓨터 비젼 학자들은 영역이나 경계선 등을 기초적인 표시자로 이용하는데에 관심을 가졌다. Marr, Tenenbaum, Barrow, Brady 등은 국소적 표면조각과 같은 3차원 요소를 직접적으로 추출할 것을 제안한 바 있다. 그외에도 표면의 반사, 표면의 방향각 등도 표시자로 제안하였다.
영역의 분할은 다음과 같은 3가지 방법으로 이루어진다. (i) 영역의 병합, (ii) 영역의 분리, (iii) 병합과 분리의 병용이 그것이다. 영역의 병합이란 영상을 기본적인 단위로 나누고, 특정 성질의 유사상 판정에 따라 같은 부류를 합쳐 나가는 방법을 일컫는다. 기본적인 단위는 픽셀로 삼을 수도 있다. 픽셀이란 한 점에서의 광강도를 나타내는 화상의 기본 요소이다.
영역의 분리방법은 주어진 범주의 특성치에 의하여 영역을 2부분으로 나누는 과정을 반복하는 것이다. 병합과 분리의 병용이란 주어진 특성치가 현저하게 다르면 나누고 비슷해진 이웃을 합치는 과정을 반복하는 방법을 일컫는다.
영역분할 방법 중에는 히스토그램을 사용하는 방법이 있다. 분할의 기준이 되는 역치(threshold value)를 구하는 방법으로서 흔히 히스토그램 곡선에 대한 극대-극소 분석법을 이용한다.
영역 분할의 결과는 2차원적 영역 구획 영상인데 각 영역에서는 고유한 레이블이 붙여진다. 각 영역은 폐곡선으로 둘러싸이게 되고 둘러싸인 부분에서 영상 기본요소의 특성치는 일정한 범위 안에 있어야 한다. 특성치는 스펙트럼적 성질, 모양에 관한 특성치, 경계선의 성질 등으로 구분지을 수 있으며, 그 각각에는 다음과 같은 것들이 있다.
(1) 스펙트럼적 성질 : 광강도, 색깔, 무늬모양(texture) 등
(2) 모양에 관한 특성치 : 면적, 이심율(eccentricity), 밀집도(compactness) 등
(3) 경계선의 성질 : 굴곡도(curvature), 대비(contrast) 등
영상 분할의 결과로 얻어진 영역 구획영상은 어의론적 네트워크 구조로 변화시킬 수 있다. 어의론적 네트워크 구조의 노드는 구획의 레이블로 대체하고, 영역의 여러 성질은 노드 레코드로 나타낼 수 있다. 네트워크 연결선은 구역사이의 관계를 나타낸다. 구역 사이의 관계는 상위, 하위, 이웃지간, 또는 포함관계 등으로 표현될 수 있다.
1.3.3 경계선 추출
경계선은 윤곽선이라고도 불리우며 영상인식에 있어서 매우 중요한 요소로 알려진 바 있다(Attneave 1954). 따라서 경계선 추출은 컴퓨터 비젼에서는 중요한 연구분야의 하나이다.
윤곽선의 위치를 파악하는 일은 대체로 2단계를 거친다. 1단계에서는 윤곽점 또는 윤곽선에 해당하는 픽셀을 가려내는 일이고 2단계는 이들 윤곽 픽셀들을 선분이나 곡선으로 종합하는 일이다. 윤곽점을 에지(edge)라고 부르기도 한다.
윤곽 픽셀을 가려내는 작업은 여러 가지 오퍼레이타에 의하여 이루어진다. 이러한 오퍼레이터는 크게 다음의 2가지로 구분지을 수 있다.
(1) 1차 또는 2차 미분 방법에 의한 표면 명암도의 근사화 방법(Roberts 1965 ; MacLeod 1970 ; Marr and Hildreth 1980 ; Canny 1983)
(2) 윤곽점 모델의 매개변수 계산에 의한 방법(Hueckel 1971 ; Haralick 1980)
윤곽점은 대체로 명암도 구배의 방향 또는 크기에 의하여 구한다. 윤곽점은 흔히 픽셀로 나타낸다. 윤곽선의 방향은 영상 명암도가 가장 급격히 변화하는 방향으로 삼는다.
윤곽선은 전기신호로 변화된 강강도에 의하여 구하므로 잡영(noise)에 매우 민감하다. 이러한 잡영은 영상 신호의 입력과정에서 여러 가지 원인에 의하여 무작위적으로 발생한다. 잡영상은 윤곽선 검출작업 전후에 보완적인 방법으로 제거한다. 여기에는 다양한 기법이 동원된다. 윤곽선 검출 작업전의 잡영 제거는 여러 가지 영상 필터에 의하여 이루어진다. 윤곽선 검출 후의 잡영 제거는 역치 방법과 같은 간단한 기법으로부터 경계선의 주변 분석기법 등에 걸쳐 다양하다.
윤곽점 검출의 출력은 선분이나 곡선과 같은 경계선 형성 과정의 입력이 된다. 윤곽점들의 국소적 특성이나 가정된 모형의 전역적 특성 등을 고려하여 경계선을 형성한다. 경계선 형성과정은 윤곽점 추적(contour follwing)과 같은 재래식 방법으로부터 다이나믹 프로그래밍(dynamic programming)에 이르기까지 다양하다. 경계선 형성과정의 결과로 얻어지는 것은 주어진 규칙을 만족하는 윤곽점의 집합이거나 또는 신분이나 곡선에 적합시킨 수식이 될 수 있다. 특수한 경우에는 Hough 변환과 같은 도형적 방법을 이용할 수 있다. Hough 변환에 의하면 선분, 원, 또는 타원형 모양의 윤곽선을 추출할 수 있다.
Burns(1984) 등은 전역적 선분 추출(global line extraction)을 하는 다른 방안을 제시하였다. 국소적 윤곽점을 구하는 대신 픽셀에서는 광강도 표면의 방향을 산출하고 그 방향이 브슷한 것들을 동일영역으로 그룹짓는다.
이러한 과정을 거친 후에 필터 조작에 의하여 원하는 선들을 골라낼 수 있다. 예를 들면 짧고 대비가 뚜렷한 선분이나 길고 곧바른 직선의 선택 등이 가능하다. 이 방법은 일반적 곡선식(conic section)에로 확장시킬 수 있다.
계층적 구조에 의한 영역 분할법도 제시된 바 있다. 사분목법(quadtree)은 Samet(1980)에 의하여 제안되었는데 이는 영상배열의 계층적 코딩법 중의 하나이다. Weiss 등은 Laplacian의 영치 교차점으로부터 직선을 추출하는 계층적 그룹 형성 방법을 제시하였다.
1.3.4 깊이정보(Depth information)의 산출
물체 표면의 고저(高抵) 정보를 깊이정보라고 부른다. 이는 두 대의 카메라를 이용하는 스테레오 시각기법이나 광학적 흐름(optic flow) 또는 초점 적응 방법등에 의하여 구할 수 있다.
한 대의 카메라에 맺히는 영상은 다른 카메라에 맺히는 영상과 약간의 차이가 있다. 이 차이는 거리계산에 매우 중요한 요소가 된다.
Julesz(1971)는 무작위적인 흑백 무늬에 대한 스테레오 영상을 가지고 실험한 바 있다. 같은 무늬가 양쪽 카메라 영상에 맺히나 조금 변위되어 나타나며 이 점을 깊이정보 산출에 이용하였다. 그는 또한 생물체의 시각에서 패턴 인식 이전에 깊이에 대한 인식이 먼저 일어난다고 주장함으로써 종래의 관념을 반박하였다.
i) 신경망에 의한 깊이정보
두뇌에 관한 이론을 연구하는 학자들은 깊이정보와 관련하여 다음과 같은 논술을 한 바 있다. Arbib(1974) 등은 신경망 회로의 협력적 계산(cooperative computation) 구조를 만들고 깊이정보 맵(map)을 산출하였다. 이는 우리의 시각계가 비교적 적은 수의 연결 영역(connected region)으로 구성되었다는 가설에서 출발하였다. 이 신경망 회로의 셀은 한점이 공간상의 실제 위치와 일치한다고 판단될 때에 격발(firing) 되도록 유도된다. 뉴런들은 금지뉴런(inhibitory interneurons)들을 경유하도록 연결되어 있어서 비슷한 깊이정보일 때는 격발되고 상이한 깊이정보에 대하여는 금지하도록 동작된다. 이러한 모델은 Sperling(1970), Nelson(1975) 등에 의하여 제안되었다. 이러한 시스템이 시각적 입력을 연결된 영역으로 분할시킬 수 있다는 사실은 Dev(1975)에 의하여 컴퓨터 시뮬레이션된 바 있고 Amari와 Arbib(1977)에 의하여 수학적으로 분석된 바 있다. 나중에 Prazdny(1985)에 의하여 개발된 모델은 금지 뉴런을 별도로 포함시키지 않고 있다.
ii) 스테레오시각에 의한 깊이정보
스테레오시각에 의한 깊이정보의 계산은 대개 2단계로 진행된다. 첫째 단계는 두 영상에서 선택된 것들이 대응관계(correspondence)를 가지는가를 판단하고 그 점에서의 깊이정보를 계산하는 일이다. 둘째 단계는 보간법 등을 적용하여 영상의 모든 점에 구하고 또 그것을 이용하여 3차원 공간의 표면을 기술하는 일이다.
대응관계
대응관계의 문제를 푸는 일반적 방법은 명암도에 기초한 방법과 토큰에 기초한 방법으로 구분지을 수 있다. 명암도에 기초한 대응관계 해결책은 2개의 영상에서 반사된 빛의 강도가 유사한가를 검토하는데 주안점이 있다 . 토큰에 기초한 방법은 두 영상에서 쉽게 분별할 수 있는 구조체를 추출하여 정합(match) 여부를 판정하는 방법이다.
명암도에 기초한 방법의 예로서Anandan(1984), Weiss(1985) Gennery(1980) 등에 의하여 시도된 상관관계(correlation)법을 들 수 있다. 첫 번째 영상의 관심있는 점을 선택하고 그 주위의 픽셀들을 선택하여 이를 표본창(sample window)이라 한다. 다른 영상에서 표본창과 같은 크기의 픽셀들을 선택하고 이를 탐색대상창(target window)이라 한다. 표본창과 탐색대상창과의 상호 상관관계를 구한다. 이 상관계수가 최대가 되는 지점을 구하여 대응점으로 인정한다. 상관계수를 궇는 수식을 상관함수(correlation function)라 하는데, 상관함수는 명암도 표면의 구조에 따라 다를 수 있다. 표본창과 탐색대상창의 영상이 비슷할수록 상관계수의 값은 크다. 일반적으로 이 방법은 모양 특성이 별로 없거나, 무늬 모양이 반복되는 영상 또는 표면 불연속이 심한 경우에는 적용할 수 없다.
토큰에 기초한 대응관계의 문제 해결방법에서 분별 가능한 구조체는 구석점(corner points), 굴곡이 심한 곡점 또는 특별한 지엽적 윤곽점 등으로 구성된다. Ohta와 Kanade(1985)에 의하여 개발된 스테레오 영상시스템에서는 윤곽선 사이의 명암도 정보를 이용한다.
Lim과 Binford(1985)는 Baker(1982)의 방법을 개선하여 곡선 교차점, 윤관선편, 곡선 선편, 영역들과 그들 사이의 관계를 이용하였다. Herman과 Kanade(1984)는 비슷한 구조적 특성들을 이용하여 여러장의 공중촬영 영상으로부터 도시의 전경 따위와 같은 복잡한 공간의 모습을 재구현 하기도 하였다.
깊이정보도
정합된 점에 대하여 깊이정보를 산출한 다음에 할 일은 다음과 같은 것이다. 깊이정보로부터 어떻게 표면을 구성할 것인가? 다시 말하면 모든 점에 대하여 어떻게 깊이정보를 얻어 낼 것인가? 깊이정보는 정합된 몇몇 지점에 대하여 산출되었을 뿐이다. 그러므로 이러한 이산적인 점들로부터 연속적인 깊이정보도를 만드는 일이 과제이다.
이를 위한 가장 분명한 방법은 약근법을 이용하여 이산적인 깊이정보를 연속적인 깊이정보 함수로 적합시키는 것이다. Grimson(1984)은 표면일관성 제약 즉, 깊이가 연속적이고 부드럽게 변화된다는 가정을 사용하였다. 세 번째 방법은 점 사이에 보간법을 쓰는 방법으로서 Best과 Jain(1985)에 의하여 시도되었다.
깊이정보를 산출하기 위한 방법은 스테레오 기법인이 전부를 아니다. 어떤 경우에는 단일 카메라만을 가지고얻은 명암도 영상으로부터 깊이 정보를 얻을 수 있다. 이 방법은 그림자에 의한 모양(shape from shad-ing),무늬에 의한 모양(shape from texture), 폐곡선에 의한 모양(shape from contour)등으로 알려져 있다.
그림자에 의한 모양법은 Horn(1975, 1977)과 Witkin(1980)등에 의하여 시도되었다. 폐곡선에 의한 모양법은 Brady와 Yuille(1984)에 의하여 시도된 바 있다.
1.2.5 운동 정보의 산출
유기체나 로봇이 주위환경에 의존할 때 목적물이 무엇이며 또 어디에 존재하는가 따위의 정보만 가지고는 부족하다. 목적물의 움직임 또한 못지 않게 중요한 정보이다. 사자에 쫓기는 얼룩말은 상대가 어느 쪽에서 얼마만한 속도로 접근하고 있는지를 알아야 잘 도망갈 수 있을 것이다. 켄베이어 벨트에 얹혀져서 배달되는 부속물이 어느 정도의 속도로 접근하는지를 로봇은 알 필요가 있다. 이것은 운동을 감지하는 문제와 그것을 표현하는 문제를 과제로 부각시킨다.
Gibson은 연속적으로 찍은 영상으로부터 광학적 흐름(optic flow)을 얻을 수 있으며 이로부터 운동정보를 위한 여러 매개변수를 추출할 수 있다고 하였다. 이는 Lee와 Lishman(1977)에서도 고찰할 수 있다.
일련의 영상은 관측자가 정지해 있거나 목적물이 뭄직이거나 또는 양자가 모두 움직이는 3가지 상황에서 연속적으로 촬영될 수 있다. 고체물체의 운동은 이동성분과 회전성분으로 나누어 표시할 수 있다. 독립적으로 이동ㅎ는 물체가 없는 경우에 표면의 깊이정보는 관측자의 이동서분 중에 포함되어 있다. 다시 말하면 관측자에 가까운 부분은 먼 부분보다 더 큰 기동변위를 가지는 것처럼 보인다. 따라서 운동에 관한 시각정보의 계산은 영상 프레임 사이의 변위를 산정하는 일이 대부분이다. 또한 독립적으로 움직이는 물체의 검출과 운동에 관한 매개변수 결정도 중요한 일들이다.
광장류
운동정보의 추출 대상은 다양하다(Barron, 1984). 그중에서 중요한 것은 광류(optic flow field)이다 2개의 영상면으로부터 선택된 2개의 점이 얼마만큼의 변위로 움직였나를 나타내는 양이다.
3차원적인 운동은 망막이나 영상면에 2차원적인 이동변위를 야기시킨다. 관측자가 이동한다면 운동은 무한 대의 거리에 위치한 점으로부터의 광류(optic flow)로 생각될 수 있다. 무한 대의 거리에 위치한 그 한점을 확장초점(FOE: focus of expansion)이라고 부른다. 실제 장면에서의 한 점은 FOE로부터 그 점에 이르는 직선을 따라 움직인다. 장면에서 독립적으로 움직이는 물체는 각각 그것의 운동 방향과 관련된 확장초점에 연결지워진다. 확장초점은 2차원 영상면에서의 운동을 3차원 실세계 장면에 대응하는 운동과 연관시키는 주요한 역할을 담당한다. 그러므로 확장초점을 구하는 것이 중심과제이다.
광류양은 한 영상 프레임과 다음 영상 프레임상에서 동일한 영상점의 변화를 측정함으로써 구할 수 있기도 하고 또는 대상점에서의 순간 속도를 측정하여 속도장(velocity field)을 구축함으로써도 가능하다. 전자는 스테레오 영상에서 변위차(disparity)를 구하는 문제와 흡사하다.
변위차
변위차를 구하는 문제는 한 영상 프레임으로부터 다음 영상 프레임을 빼는 방법과 같은 미분 연산으로 해결할 수 있다. 이는 Jain(1983), Tang(1981), Nagel 과 Rekers(1981) 등이 시도한 바 있다.
미분 연산의 또 다른 방법은 스테레오 영상에서와 같은 토큰 정합법(token matching)과 구배기법(gradient technique)에서도 찾아볼 수 있다.
토큰 정합법은 Barnard와 Thomson(1980), Ullman(1979), Dreschler와 Nagel(1982), Roach와 Aggarwal(1980), Tsai와 Huang(1984) 등이 연구하였다.
구배기법은 명암도와 같은 영상치에 대하여 시간적 공간적 구배를 동시에 측정하는 방법으로서 Horn과 Schunk(1981), Fennema와 Thomson(1979), Cornelius와 Kanade(1983), Thomson과 Barnard(1981), Nagel(1983), Marr와 Ullman(1981) 등이 연구한 바 있다.
구배기법에 의한 대부분의 계산은 지엽적인 속도장(또는 변위차)이 어디에서든지 부드럽게 변화해야 한다는 제약, 즉 순탄성 제약(smoothness) 하에서 이루어진다. 이것은 틈문제(aperture problem) 때문에 필요한 제약이다. 이는 구배의 불연속선에 수직인 방향의 속도만이 지엽적으로 측정될 수 있다는 사실을 말한다. 순탄성(smoothness) 제약에 의존하면 물체가 서로 겹치는 경계선에서 변위차장의 불연속이 생기며 이는 또 다른 문제점이다.
광류해석
광류를 산출한 다음 단계의 과제는 광류를 해석하여 운동의 환경과 운동자체를 이해하는 일이다. 광류에 대한 해석에는 물체와 배경의 분리작업, 3차원 물체모양의 복원, 물체인식, 실제장면에 대한 관측자의 운동 등을 파악하는 작업들이 포함된다. 장면에 움직이는 물체가 포함되어 있는 경우 그 물체의 감지와 묘사를 하는 것도 중요한 목표이다.
3차원 물체모양의 복원
3차원 물체모양의 복원을 위한 기법은 대부분 3차원에서 2차원으로의 투영사상에 주어지는 제약과 같이 3차원 운동와 2차원의 광류 사이의 관계를 이용한다. 투영사상법에는 두가지가 흔히 이용되는데 직교변환과 투시변환이 그것이다. 직교변환(orthogonal transbormation)은 평행투영(parallel projection)이라고도 하며 무한 대에 있는 점들에 대하여 유효하다. 실제적 상황에서는 원거리에 있는 점들에 대하여 유효하기 때문에 투시 투영(perspective projection)만을 주로 고려한다.
3차원 복원 문제는 3가지 방법이 있다. 첫 번째 방법은 광류를 사용치 않으며 카메라 운동의 경우에 한정된다. 이 방법은 Lawton(1982, 1983, 1984)과 Rieger 등이 논한 바 있다. 두 번째 방법은 영상 프레임들 사이에 몇몇 점들의 대응 관계에 대한 지식이 요청되며, 독립적으로 움직이는 물체는 대체적으로 배제한다. 세 번째 방법은 사전에 작성된 광류의 정보를 이용한다.
몇 개의 점에 대한 대응관계를 이용하는 방법은 고체물질의 성질을 이용한다. 다시 말하면 3차원 고체물체의 어느 2점이든지 그 사이의 거리는 일정하며 이것이 2차원 영상으로 변환될 때에도 3차원 거리의 일정성을 고려하여야 한다. Ullman(1979)은 영상면에서 고체물질의 임의의 5점을 취하여 그것이 한 평면에 존재하는 것이 아니라면, 3차원적 점들의 구조와 운동을 유일하게 결정할 수 있다는 사실을 보였다.
여러개의 비선형 방정식을 세우고 반복적 방법으로 3차원 운동의 정보를 구하려고 시도한 여러 학자들이 있다. Roach와 Aggarwal(1980), Webb과 Aggarwal(1981), Prazdny(1980), Tsai와 Huang(1982), Dreschler와 Nagel(1982), Prager와 Arbib(1983) 등이 그러한 방법으로 시도했다. 이러한 방법의 문제는 잡영에 민감하고 계산에 소요되는 기본자료가 필요하다는 점이다. 또한 프레임과 프레임 사이의 영상점들을 정확하게 정합시킬 수 있어야 한다는 것이 필요한데 이는 아직도 대체로 미해결 문제이다.
사전에 작성된 광류의 정보를 이용하려면 몇몇 점들에 대한 광류량으로는 충분치 않고 상당히 밀도있는 여러 점에서 광류량을 산출하여야 한다. 국소적 계산 방법에서는 광류에 대한 1차 또는 2차 미분을 적용하기 때문에 잡영에 약하고 광역적 계산은 너무 많은 계산량이 소요되므로 곤란하다.
Prager와 Arbib(1983)는 연속된 두 개의 영상으로부터 추출한 특성자료들, 즉, 윤곽점, 구석점, 고대비점 등의 두 배열을 정합시키는데 대한 협력 알고리즘(이완형)을 개발하였다. 이들은 또 이 알고리즘을 확장하여 여러 장의 영상 프레임에 적용시켰다.
Koenderink와 Van Doorn(1975, 1976)은 광류의 지엽적 비가변적 특성 즉, 컬(curl), 다이버젼스(divergence), 변형(deformation) 등을 추출하는데 대하여 논하였다. Regan과 Beverly(1979)는 인간의 시각시스템에는 상기와 같은 측정치로부터 비가변적 특성들을 감지하는 채널이 있음을 심리적 증거로 제시하였다.
Waxman과 Ullman(1983), Bruss와 Horn(1983), Rieger와 Lawton(1983) 등은 광류장을 2가지 성분으로 분리하는데 관심을 기울였다. 2가지 성분은 이동장(translational field)과 회전장(rotational field)을 말한다. 그러므로 독자적인 물체의 운동에 관하여 해를 얻을 수 있다는 것이다. Waxman과 Ullman(1983)은 12개의 광류 변형 매개변수를 이용할 것을 제안하였다. 그 성분은 2개의 물체의 속도, 3개의 장전율(strain rate), 회전(spin), 그리고 6개의 장력율과 회전의 독립적 미분으로 구성되어 있다. 이것은 운동과 물체의 구조를 산출하는데 이용되었다.
이러한 방법들은 상당히 전망있는 것들이긴 하지만 문제는 이들이 모두 광류의 계산을 정확히 하여야 하며 밀도 높은 광류장을 얻어야 한다는데 있다.
1.4.1 상부시각시스템과 지식의 필요성
하부시각시스템의 처리 결과는 물체의 위치와 운동에 관한 정보 뿐만 아니라, 기타 환경, 즉, 모양, 색깔, 깊이정보, 무늬모양 등에 관하여 중요한 시각적 정보를 제시한다는 사실을 이미 개괄하였다.
그럼에도 불구하고 동물이 생존하기 위하여 또는 컴퓨터의 시각시스템이 잘 이용되기 위해서는 물체의 위치나 운동정보만 가지고는 흡족치 못하다. 오히려 물체의 실체가 무엇이며 또 어떻게 대응하여야 할찌를 판단할 수 있어야 한다.
동물은 최소한도 시야에 잡힌 대상이 먹이인지 또는 위해 동물인지를 파악할 수 있어야 한다. 로봇은 궤도를 따라 다가오는 물건을 잡아야 하는 것인지 피해야 하는 것인지를 판단하여야 한다. 상부시각시스템의 역할은 물체대상을 해석하기 위하여 하부시각시스템에서 생성된 정보를 이용하는 것이다.
하부시각시스템은 때때로 잘못된 시각 정보, 예를 들면 왜곡되었거나 불완전하거나, 또는 의미없는 자료를 제시하기도 한다. 영역분할 작업은 영상면을 공간적으로 이웃할 픽셀들로 구성된 영역으로 구획짓는 것이지만 그 자체가 매우 비정형적인(ill-formed) 문제이다. 이는 Hanson과 Riseman(1978), Nagin(1982) 등이 주장한 바와 같다. 잡영이 끼어 있거나 촬영된 영상자료의 모호성 때문에 영상분할의 작업결과 신뢰성이 없고 제어할 수 없는 결과가 산출되기도 한다. 예를 들면 나누어진 구획이나 경계선이 분단되거나 병합되는 수도 있다.
물체가 서로 겹친 경우의 영상에서는 부분적인 정합에 의존해야 하기 때문에 전체적 정합이 요망되는 경우에 어려운 문제에 봉착하게 된다. 구획 또는 선은 주어진 모델 원형의 부류에 맞지 않는 것으로 판명될 소지가 크다. 어떤 구획은 그림자일 수도 있고, 겹쳐진 부분일 수도 있고, 지식베이스에 포함되어 있지 않은 것일 수도 있다. 배경과 사전지식에 의한 문맥적 파악에 의하여 판단하는 시각인식 방법은 인간의 시각에서도 흔히 볼 수 있는 바와 같다. 예를 들면 어떤 장면이 독일의 지방모습이라면 그 장면에 있는 집이 한국의 기와집이나 초가집일 리는 없는 것이다. 이는 상황이나 배경에 따라 문맥적으로 판단될 필요가 있음을 말해주고 있다. 영어문자의 패턴인식에서 어떤 글짜가 A인지 H인지 모호하다면 앞뒤 문자의 배경에 따라 문맥적으로 파악될 수 있다. 만일 C∼T의 문맥이라면 A가 더 사실적이고 T∼E 문맥이라면 H일 가능성이 높다.
자연 환경의 장면에서와 같이 물체들이 서로 다른 거리에 있고 서로 다른 방향으로 배열되어 있으며 서로 겹치는 경우에는 대상의 움직임에 대한 어떤 제약성이나 기대치를 안다는 것은 환경해석에 있어서 결정적인 역할을 한다.
장면을 해석하는데에는 복잡한 사물묘사가 필요하다. 이 해석과정에는 여러 가지의 가설이 제의되고 또 그것을 검증하여 그중에서 어떤 일관성있는 관계규정을 만족하는 부분만을 받아들인다.
장면 해석과정에는 물체대상의 영상표현의 불확실성을 해결하는 일반적인 기구가 포함되어야 한다. 물체의 종류가 같은 경우라도 개별적 물체의 모양, 색깔, 무늬, 크기 등이 다르며 다른 물체에 대한 공간적, 기능적 관계가 똑같을 수만은 없다. 물체에 따라 다를 뿐만 아니라 장면에 따라서도 다르다. 이 문제는 또한 광원의 조도, 투시적 왜곡, 관측방향, 겹치는 문제, 그림자 등에 의하여 2차원 영상모습이 달리 나타나므로 더욱 복잡해진다. 이러한 곤란성은 그 다음 단계의 중개 기호를 조합하는 작업과 지식구조에 대응시키는 단계에서 신뢰도가 떨어짐으로 더욱 악화된다.
1.4.2 컴퓨터 시각 시스템의 목적
대부분의 컴퓨터 각각 시스템의 목적은 3차원 공간을 기호적으로 묘사하는데 있다. 3차원 공간의 모습은 컴퓨터 시각 시스템에 하나의 영상면이나 여러 장의 영상면으로 입력된다. 3차원 공간을 기호적으로 묘사한다는 것은 영상에 존재하는 물체의 명칭화, 크기, 관측자로부터의 거리, 운동정보, 기능적 특성, 다른 물체와의 관련성 등을 나타내는 것이다.
영상해석에는 3차원 공간이 2차원 공간으로 투영되는 과정에서 상실된 정보를 회복시키는 기능도 포함된다. 3차원 공간에서 2차원 공간으로 투영되는 과정은 정확한 역변환이 불가능하다. 2차원 영상으로부터 3차원 공간의 본 모습을 그대로 회복시킬 수는 없다. 따라서 이 과정에는 추론기능이 부과되어야 한다. 영상자료를 해석하는 데에는 여러 가지 판별이 가능할 수가 있다. 이러한 모호성은 실체 물체공간의 일반적 지식을 이용하여 조금이나마 해결할 수 있다.
이러한 이유 때문에 영상해석 과정은 영상에 대한 초기의 문법적 묘사로부터 인식적 표현으로의 점증적 사상과정이라고 볼 수 있다. 영상에 대한 초기의 문법적 묘사란 픽셀, 윤곽점, 윤곽선, 구획, 표면 등의 자료를 말하고, 인식적 표현이라 함은 어의적 또는 구조적 영상표현을 일컫는다.
이 사상과정은 여러 가지 가정에 따라 다르다. 장면별 영역은 어떻게 분할되었는가, 장면으로부터 영상으로의 투영은 어떻게 이루어졌는가, 영상자료를 표출하는 기초적 묘사 기구는 어떤 것을 사용하였는가, 시각시스템이 인식하려고 하는 물체와 원형들과의 관계는 어떻게 설정되었는가, 또한 시각시스템의 목적은 무엇으로 지정되었는가 등이 그 사상 과정을 규정짓는다. 사상을 위한 영상대상은 각 부분마다 부분적으로 유도해석된 여러 계층의 표출자들이다. 영상과 가까운 표출자는 하부시삭의 실행과 관련있고, 추상적이고 기호적인 표출자는 상부시각시스템과 관련이 있다.
일반적 공간장면은 다영한 형태로 나타나며 대체적으로 예상할 수 있는 문맥적 관계를 포함한다. 예를 들면 '거리모습'과 같은 경관모습의 시각장면은 표면 따위와 같은 기초적 표출자의 특성과 '출구를 찾으라'와 같은 주어진 과제의 대상이 되는 장면이다. 그러므로 영상해석은 영상의 구조와 시간적 변화, 그리고 공간에 관한 지식에 내재한 특성 등의 상호연관성을 살피는 것이다.
시각시스템은 영상해석을 통하여 지득한 영상정보를 구축하기도 하고 관리할 수도 있어야 한다. 이러한 기능은 다음과 같은 것들로 구성된다.
- 어떤 가설을 관점의 초점으로 삼고 확대시킬 것인가?
그리고 그것은 어떻게 확대시킬 것인가? - 어떤 지식과 제약이 적당한가, 그리고 어떻게 적용시킬 것인가?
- 언제 주어진 가설이 효력을 발생할 수 있을 만큼 충분히 믿을 만한가?
- 서로 상충되는 가설은 어떻게 발견하고 또 풀어나가야 할 것인가?
- 특정한 목표를 어떻게 달성할 것인가?
영상정보의 제어책략은 하부자료로부터 상층구조로 올라가면서(bottom up) 조작하는 방안, 상부로부터 하부로 내려오면서(top down) 조작하는 방안, 또는 이들을 적당히 병용하는 방안으로 구분할 수 있다.
하부로부터 상층구조로 올라가면서 시행하는 제어조작은 자료들로부터 출발하는 자료중심(data directed) 방안이다. 상부로부터 하부로 내려오면서 조작하는 방안은 목적중심(goal oriented) 방안이다.
자료 중심방안에 의한 영상해석 과정은 영상자료로부터 출발하여 정보묘사의 방향으로 진전시키는 반면, 목적 중심방안에 의한 영상해석과정은 내부적 영상지식의 모델로부터의 예측이나 기대정보를 보다 덜 추상적인 영상자료의 방향으로 진전시킨다. 이 두가지를 조합한 병용방안은 매우 좋은 제어 책략이다. 이는 미묘한 관심대상과 모호성을 풀어 나가는 좋은 방안으로서, Erman 등(1980)의 HEARSAY 대화이해시스템, Hanson과 Riseman, Weymouth(1986) 등의 VISIONS 영상이해시스템, Brooks(1983)의 ACRONYM 시스템, Ballard(1976, 1978)의 흉곽 X선의 종양 감지 시스템 등에 적용된 바 있다.
대체적으로 컴퓨터 영상에 대한 연구는 영상의 가장 적절한 표현 방법을 발견하려는 분야와 영상해석시스템을 구축하려는 분야로 대별할 수 있다. 연구분야를 보다 구체적으로 기술한다면 다음과 같다.
- 감지된 영상자료와 영상지식베이스를 중개시키는 기구로 사용하기 위하여 효율적인 기호적 표현을 구하는 연구.
- 자연 물체의 장면 특히 3차원적 표현의 다양성과 복잡성을 나타내기 위한 지식의 표현 방법을 강구하는 연구.
- 지식 베이스의 유도하에 중개기구로서의 기호들을 유연하게 조작하는 기법의 탐구.
- 여러가지 정보원으로부터의 자료와 정보를 종합하는 자동적 방안에 대한 연구.
- 직접적인 증거에 대한 간접적 의미를 평가하기 위한 추론장치에 대한 연구.
- 영상해석과정의 일부인 자료변환 단계마다 발생하는 불확실성과 모호성을 취급하기 위한 자동적 방안에 대한 연구.
참고문헌
1. Amari, S., and M. A. Arbib. 1977. Competition and cooperation in neural nets. In Systems Neuroscience, ed. J. Metzler (Academic).
2. Anandan, P. 1984. Computing dense displacement fields with confidence measures in scenes containing occlusion. In Proceedings of the SPIE Intelligent Robots and Computer Vision Conference. Also available as COINS Technical Report 84~32 from University of Massachusetts, Amherst.
3. Attneave, F. 1954. Some informational aspects of visual perception. Psychological Review 61 : 183~193.
4. Baker, H. H. 1982. Depth from Edge and Intensity Based Stereo. Report STAN-CS-82-930, Department of Computer Science, Stanford University.
5. Ballard, D. H. 1976. Hierarchic Recognition of Tumors in Chest Radiographs. Birkhauser.
6. Ballard, D. H. 1978. Model-directed detection or ribs in chest radiographs. In Proceedings of the Fourth International Joint Conference on Pattern Recognition, Kyoto.
7. Ballard, D. H. 1981. Generalizing the Hough transform to detect arbitrary shapes. Pattern Recognition 13, no.2 : 111~122
8. Ballard, D. H., and C. M. Brown. 1982. Computer Vision. Prentice-Hall.
9. Barnard, S. T., and W. B. Thompson. 1980. Disparity anaiysis of images. Pattern Analysis and Machine Intelligence 2, no. 4 : 333~340.
10. Barron, J. 1984. A Survey of Approaches for Determining Optic Flow, Environmental Layout, and Optic Flow. Technical Report RBCV-TR-84-5, Department of Computer Science, University of Toronto.
11. Barrow, H. G., and J. M. Tenenbaum. 1981. Computational vision. IEEE Proceedings 69 : 572~595.
12. Besl, P. J., and R. C. Jain. 1985a. Range image understanding. In Proceedings of the IEEE Computer Vision and Pattern Recognition Conference.
13. Bardy, M. 1982. Computational approaches to image understanding. ACM Computing Surveys 14, no. 1 : 3~71.
14. Brady, M., and A. Yuille. 1984. An extremum principle for shape from contour. IEEE Transactions on Pattern Analysis and Machine Intelligence 6, no. 3 : 288~301. Paper 10 in the present volume.
15. Brooks, R. A. 1983. Model-based three-dimensional interpretations of two-dimensional images. IEEE Transactions on Pattern Analysis and Machine Intelligence 5, no. 2 : 140~150.
16. Bruss, A. R., and B. K. P. Horn. 1983. Passive navigation. Computer Vision, Graphics, and Image Processing 21 : 3~20.
17. Burns, J. B., A. Hanson, and E. Riseman. 1984. Extracting straight lines. In Proceedings of the Seventh International Conference on Pattern Recognition, Montreal. Also available as COINS Technical Report 84-29 from University of Massachusetts, Amherst.
18. Cornelius, N., and T. Kanade. 1983. Adapting optical flow to measure object motion in reflectance and x-ray image sequences. In Proceedings of the ACM Siggraph/Sigart Interdisciplinary Workshop on Motion, Toronto.
19. Dev, P. 1975. Perception of depth surfaces in random-dot stereograms : A neural model. Journal of Man-Machine Studies 7 : 511~528.
20. Dreschler, L. S., and H. H. Nagel. 1982. Volumetric model and 3-D trajectory of a moving car derived from monocular TV-frame sequences of a street scene. Computer Graphics and Image Processing 20 : 199~208.
21. Erman, L., and V. Lesser. 198. The Hearsay-II speech-understanding system : Integrating knowledge to resolve uncertainty. Computing Surveys 12, no. 2 : 213~253.
22. Fennema, C. L., and W. B. Thompson. 1979. Velocity determination in scenes containing several moving objects. Computer Graphics and Image Processing 9 : 301~315.
23. Gennery, D. B. 1980. Modelling the Environment of an Exploring Vehicle by Stereo Vision. Ph.D. dissertation, Stanford University.
24. Gibson, J. J. 1955. The optical Expansion-pattern in aeriallocation. American Journal of Psychology 68 : 408~484.
25. Grimson, W. E. L. 1984. On the reconstruction of visible surfaces. In Image Understanding 1984, ed. S. Ullman and W. Richards (Ablex).
26. Hanson, A. R., and E. M. Riseman, eds. 1978a. Computer Vision System. Academic.
27. Hanson, A. R., and E. M. Riseman. 1978b. VISIONS : A computer System for interpreting scenes. In Computer Vision Systems, ed. A. R. Hanson and E. M. Riseman (Academic).
28. Haralick, R. M. 1980. Edge and region analysis for digital image data. Computer Graphics and Image Processing 12 : 60~73.
29. Herman, M., and T. Kanade. 1984. The 3D MOSAIC scene understanding system : Incremental reconstruction of 3D scenes from complex images. In Proceedings of the DARPA Image Understanding Workshop.
30. Horn, B. K. P. 1975. Obtaining shape from shading information. In The Psychology of Computer Vision, ed. P. H. Winston (McGraw-Hill).
31. Horn, B. K. P. 1977. Understanding image intensities. Artificial Intelligence 8 : 201~231.
32. Horn, B. K. P., and B. G. Schunk. 1981. Determining optical flow. Artificial Intelligence 17 : 185~203.
33. Hueckel, M. H. 1971. An operator which locates edges in digitized pictures. Journal of the Association for Computing Machinery 18, no. 1 : 113~125.
34. Jayaramumurthy, S. N., and R. Jain. 1983. An approach to the segmentation of textured dynamic scenes. Computer Graphics and Image Processing 21 : 239~261.
35. Julesz, B. 1971. Foundations of Cyclopean Perception. University of Chicago Press.
36. Kender, J. R. 1980. Shape from Texture. Ph. D. dissertation, Carnegie-Mellon University.
37. Koenderink, J. J., and A. J. Van Doorn. 1975. Invariant properties of the motion parallax field due to the movement of rigid bodies relative to an observer. Optica Acta 22, no. 9 : 773~791.
38. Koenderink, J. J., and A. J. Van Doorn. 1976a. Local structure of motion parallax of the plane. Journal of the Optical Society of America 66 : 717~723.
39. Kuffler, S. W. 1953. Discharge patterns and functional organization of mammalian retina. Journal of Neurophysiology 16 : 37~68.
40. Lawton, D. 1982. Motion analysis via local translational processing. In Proceedings of the IEEE Workshop on Computer Vision ; Representation and Control, Rindge, N. H.
41. Lawton, D. 1983a. Processing restricted motion. In Proceedings of the DARPA Image Understanding Workshop, Arlington, Va.
42. Lawton, D. 1983b. Processing translational motion sequences. Computer Vision, Graphics, and Image Processing 22 : 116~144.
43. Lawton, D. 1984. Processing Dynamic Image Sequences from a Moving Sensor. Ph. D. dissertation (COINS Technical Report 84-05), University of Massachusetts, Amherst.
44. Lee, D. N., and J. R. Lishman. 1977. Visual control of locomotion. Scandinavian Journal of Psychology 18 : 224~230.
45. Lettvin, J. Y., H. Maturana, W. S. McCulloch, and W. H. Pitts. 1959. What the frog's eye tells the frog's brain. Proceedings of the Institute of Radio Engineers 47 : 1940~1951.
46. Lim, H. S., and T. Binford. 1985. Stereo correspondence : Features and constraints. In Proceeding of the 1985 DARPA Image Understanding Workshop.
47. MacLeod, I. D. G. 1970. On finding structure in pictures. In Picture Language Machines, ed. S. Kanelf (Academic)
48. Marr, D. 1978. Representing visual information. In Computer Vision Systems, ed. A. Hanson and E. Riseman (Academic)
49. Marr, D. 1982. Vision : A Computational Investigation into the Human Representation and Processing of Visual Material. Freeman.
50. Marr, D., and S. Ullman. 1981. Directional selectivity and its use in early visual processing. Proceedings of the Royal Society (London) B 211 : 151~180.
51. Nagel, H. H., and G. Rekers. 1981. Moving object masks based on an improved likelihood test. In Proceedings of the International Joint Conference on Artificial Intelligence.
52. Nagin, P., A. Hanson, and E. Riseman. 1982. Studies in global and local histogramguided relaxation algorithms. IEEE Transactions on Pattern analysis and Machine Intelligence 4 : 1~88.
54. Ohta, Y., and T. Kanade. 1985. Stereo by intra- and inter-scanline search using dynamic programming. IEEE Transactions on Pattern Analysis and Machine Intelligence 7, no.2 : 139~154.
55. Prager, J. M., and M. Arbib. 1983. Computing the optic flow : The MATCH algorithm and prediction. Computer Vision and Image Processing 24 : 271~304.
56. Prazdny, K. 1980. Egomotion and relative depth map from optical flow. Biological Cybernetics 36 : 87~102.
57. Prazdny, K. 1985. Detection of binocular disparities. Biological Cybernetics 52 : 93~99.
58. Regan, D., and K. I. Beverley. 1979. Binocular and monocular stimuli for motion in depth : Changing-disparity and changing-size feed the same motion-in-depth stage. Vision Research 19 : 1331~1342.
59. Rieger, J. H., and D. T. Lawton. 1983. Determining the instantaneous axis of translation from optic flow generated by arbitrary sensor motion. In Proceedings of the ADM Siggraph/Sigart Interdisciplinary Workshop on Motion, Toronto.
60. Roach, J. W., and J. K. Aggarwal. 1980. Determining the movement of objects from a sequence of images. IEEE Transactions on Pattern Analysis and Machine Intelligence 2 : 554~562.
61. Roberts, L. G. 1965. Machine perception of three-dimensional solids. In Optical and Electro-Optical Information Processing, ed. J. T. Tippett et al. (MIT Press).
62. Samet, H. 1980. Region representation : Quad trees from boundary codes. Communications of ACON 23, no.3 : 163~170.
63. Sperling, G. 1970. Binocular vision : A physical and neural theory. American Journal of Psychology 83 : 463~534.
64. Stevens, K. 1980. Surface Perception by Local Analysis of Texture and Contour. Al Memo 512, Massachusetts Institute of Technology.
65. Tang, I. S., W. F. Snyder, and S. A. Rajala. 1981. Extractions of moving objects in dynamic scenes. In Proceedings of the International Joint Conference on Artificial Intelligence.
66. Tenenbaum, J. M., and H. Barrow. 1976. Experiments in Interpretation-Guided Segmentation. Technical Note 123, Al Center, Stanford University.
67. Thompson, W. B., and S. T. Barnard. 1981. Lower-level estimation and interpretation of visual motion. IEEE computer 14, no..8 : 20~28.
68. Tsai, R. Y., and T. S. Huang. 1982. Uniqueness and estimation of three-dimensional motion parameters of rigid objects with curved surfaces. In Proceedings of the conference on Pattern Recognition and Image Processing.
69. Tsai, R. Y., and T. S. Huang. 1984. Uniqueness and estimation of three-dimensional motion parameters of rigid objects with curved surfaces, IEEE Transactions on Pattern Analysis and Machine Intelligence 6, no.1 : 13~27.
70. Ullman, S. 1970. The Interpretation of Visuai Motion. MIT Press.
71. Waxman, A. M., and S. Ullman. 1983. Surface Structure and 3-D Motion from Image Flow : A Kinematic Analysis. Report CAR-TR-24, Center for Automation Research, University of Maryland.
72. Webb, J. A., and J. K. Aggarwal. 1981. Visually interpreting the motion of objects in space. IEEE Transactions on Computers.
73. Weiss, R., A. Hanson, and E. Riseman. 1985. Geometric grouping of straight lines. In Proceedings of the DARPA Image Understanding Workshop.
74. Weymouth, T. E. 1986. Using Object Descriptions in a Schema Network for Machine Vision. Technical Report 86-24, Department of Computer and Information Science, University of Massachusetts, Amherst.
75. Witkin, A. P. 1980. A statistical technique for recovering surface orientation from texture in natural imagery. In Proceedings of the first annual meeting of the American Association of Artificial Intelligence.
76. Woodham, R. J. 1978. Photometric Stereo : A reflectance map technique for determining surface orientation from image intensity. In Proceeding of the 22nd Annual Society of Photo-Optical Instrumentation Engineers Conference, San Francisco.
77. Woodham, R. J. 1984. Photometric method for determining shape from shading. In Image Understanding 1984, ed. S. Ullman and W. Richards (Ablex).
출처 : http://www.aistudy.co.kr/physiology/vision/overview_kim.htm