초기의 신경망
퍼셉트론은 맥컬록-피츠 모델을 기반으로 하는 학습 기계로서, 헵의 법칙을 적용하여 출력값에 따라 가중치를 플러스와 마이너스로 변동시키며 업데이트를 진행한다. 가중치 업데이트 과정에서는 출력값 𝑤𝜑(𝑥)이 긍정적인 예라면 가중치를 +로 조정하고, 부정적인 예라면 –로 조정하여 학습률(learning rate) 𝜂를 사용하여 업데이트를 수행한다.
단순 퍼셉트론은 '퍼셉트론 수렴 정리'(perceptron convergence theorem)를 기반으로 하여, 긍정적인 예와 부정적인 예의 학습 데이터를 선형적으로 분리할 수 있다면 반드시 유한 횟수를 통해 평면 분리 상태에 도달할 수 있다는 개념을 갖고 있다. 하지만 데이터가 선형적으로 분리되지 않는 경우, 퍼셉트론 학습을 적용할 수 없다는 한계가 있다. 또한, 선형 분리가 가능하더라도 평면 분리 상태를 만드는 데 시간이 오래 소요될 수 있다는 점도 한계로 작용한다. 선형 함수로 해결할 수 없는 예로는 Exclusive-Or(XOR) 함수가 있으며, 이는 하나의 직선이 아니라 곡선에 의해서만 분리할 수 있다.
로젠블럿의 단층 퍼셉트론은 최초의 신경망 모델인 '퍼셉트론'으로, 단층 구조로 구성되어 있다. 이는 신경망 하드웨어 장치인 '마크Ⅰ퍼셉트론'으로 구현되었으며, 1957년에 제작되었다. 마크 I 퍼셉트론은 A, B, C 등의 문자를 인식할 수 있는 기능을 가졌으며, 20 × 20개의 화소(pixel)를 가졌던 마크 I 퍼셉트론의 화면에서는 연결선으로 연결강도를 조정하였다. 학습을 위해 몇 km에 달하는 연결선을 사용해야 했던 이 초기 모델은 단층 퍼셉트론의 특성, 즉 단 1개 층의 연결 강도 조정의 한계와 함께 오차에 대한 피드백 학습을 수행했다.
퍼셉트론의 학습 과정은 연결 강도를 조정하며 학습하는데 있다. 이를 위해 [1] 연결강도들과 임계값을 초기화하고, [2] 새로운 입력과 기대되는 출력을 제시하며, [3] 실제 출력값을 계산한다. 이후 [4] 연결강도를 재조정하며, 더 이상 조정이 필요 없을 때까지 [2] 단계로 돌아가 반복적으로 수행한다.
단층 퍼셉트론에는 두 가지 제한점이 존재한다. 첫째, 단층 퍼셉트론의 출력은 0 또는 1(1 또는 -1)만 가질 수 있다는 것이다. 둘째, 선형 분리가 가능한 집합만을 분리할 수 있다는 것이다. XOR 함수의 문제점은 바로 이 선형 분리가 불가능하다는 점에서 비롯되며, 이로 인해 한 직선으로 두 집합을 분리할 수 없게 되는 문제가 발생한다. 이 점은 단층 퍼셉트론 학습에서 매우 심각한 문제로 작용한다.
결국 XOR 문제의 해결이 단층 퍼셉트론으로 불가능하다는 점에서 1980년대 중반까지 퍼셉트론에 대한 관심이 멀어지게 되었다. 비록 단층 퍼셉트론은 학습 모델로서는 적절하지 않았으나, 1980년대 중반에 등장한 다층 퍼셉트론 모델의 기반이 되었다. 이 모델은 문자 인식을 비롯한 여러 분야에 폭넓게 응용되었으며, 신경망 연구의 새로운 장을 열게 된 결정적인 계기가 되었다. 이러한 발전은 신경망 이론의 실용성을 입증하고, 다양한 산업에서 인공지능 모델의 가능성을 탐색하는 데 큰 기여를 하게 되었다.
다층 퍼셉트론
신경망은 1969년 이후 연구가 10여 년간 침체되었으나, 1980년대 중반에 새로운 도약을 시작했다. 이 시기에 다층 퍼셉트론 모델이 제안되어 신경망 연구에 혁신을 가져왔다. 이 모델은 단층 퍼셉트론 모델의 한계를 넘어 하나 이상의 은닉층을 추가로 활용함으로써 단순 퍼셉트론이 해결할 수 없었던 XOR 문제와 같은 비선형 문제들을 해결할 수 있는 가능성을 열었다.
다층 퍼셉트론은 입력 계층과 출력 계층만 있던 단순 퍼셉트론의 단점을 극복하기 위해 개발되었다. 단순 퍼셉트론은 선형 분리가 필요한 데이터에만 적용할 수 있으며, 계산 시간이 오래 걸리는 문제점이 있었다. 이에 반해, 다층 퍼셉트론은 여러 퍼셉트론을 서로 연결하여 비선형 데이터 분포를 선형 분리 가능한 분포로 변환시킬 수 있다. 이 모델은 순방향으로 계층마다 출력을 계산한 후 오차 역전파법을 이용하여 출력 계층에서 역방향으로 가중치를 업데이트하면서 학습을 진행한다. 네트워크 학습을 위해서는 정답 데이터가 제공되어야 하며, 이와 함께 최소 제곱 오차 등을 반영한 오차 함수를 경사 하강법을 사용하여 조정한다.
오차 역전파법은 중간 계층을 갖춘 신경망에서 출력 계층의 학습 데이터를 활용하여 값의 오차를 이용해 중간 계층 뉴런의 특성을 개선할 수 있다. 이는 다층 퍼셉트론의 학습 규칙으로 사용되며, 과거 단층 퍼셉트론의 제한점을 극복하는 데 핵심적인 역할을 했다. 특히, XOR 함수의 선형 분리 문제 해결에 기여하여, 한때 침체기에 빠졌던 신경망 연구에 새로운 활기를 불어넣었다. 역전파 알고리즘은 입력층에서 은닉층을 거쳐 출력층으로 진행한 후 다시 역방향으로 돌아오면서 학습하게 된다.
다층 퍼셉트론의 학습 과정과 규칙에는 델타 규칙, 최급 하강법, 일반화 델타 규칙 등이 포함된다. 델타 규칙(delta rule)은 출력과 목표 출력값 간의 오차 제곱합을 최소화하도록 연결 강도를 조정하는 규칙이다. 최급 하강법(gradient descent method)은 곡면에서 오차의 제곱이 가장 크게 감소하는 방향으로 기울기를 따라가는 방법이다.
역전파 학습 알고리즘은 몇 가지 단점을 지니고 있다. 학습 시간이 오래 걸릴 수 있으며, 종종 낮은 확률이나 지역 최소점(local minima)에 머물러 있을 가능성도 존재한다. 특히, 최급 하강법은 지역 최소점에 머물 가능성이 높으며, 이는 신경망이나 인공지능에서 다소 불가피한 측면이 있다. 그러나 우리는 전역적 최소점(global minima)을 추구해야 한다.
다층 퍼셉트론 모델은 다양한 응용 분야에서도 활용된다. 패리티 문제, 부호화 문제, 대칭성 문제 등뿐만 아니라 텍스트를 음성으로 변환하는 네트워크 시스템 개발, 주식 시장 예측, 언어들 간 번역, 공장 자동화, 실시간 음성 인식, 로봇 등의 영역에서도 중요한 역할을 수행하고 있다. 이러한 다양한 응용 사례를 통해 다층 퍼셉트론 모델은 신경망 연구의 가능성을 확장하는 데 기여하며, 인공지능 분야에서 지속적인 발전의 중추적 역할을 맡고 있다.
| [AI 트랜드] 경량하 AI : CPU만으로 OpenAI급 성능? MongoDB 'LEAF' 공개 (0) | 2025.11.28 |
|---|---|
| [AI 트렌드] 2025년 11월 27일, 개발자와 마케터가 AI 서치 노트 (0) | 2025.11.27 |
| 신경망의 개요 (1) | 2025.01.23 |
| 탐색 방법 (1) | 2025.01.21 |
| 그래프 탐색 (1) | 2025.01.20 |