신경망(Neural Network)과 활성화 함수(Activation Function)의 등장

13 Jul 2022 | Deep-Learning

From Perceptron to Neural Network

신경망에대해 살펴보기전에 퍼셉트론의 장단점을 살펴본다면, 퍼셉트론으로 복잡한 함수도 표현할 수 있다는 장점을 가진 반면 원하는 결과를 출력하도록 가중치 값을 적절히 정하는 작업을 여전히 인간이 수동으로 한다는 것이 단점이었습니다. AND, NAND, OR 게이트의 진리표를 보면서 우리 인간이 적절한 가중치 값을 정했습니다

신경망(Neural Net) 은 이 단점을 해결해 주는데, 가중치 매개변수의 적절한 값을 데이터로부터 자동으로 학습하는 능력이 신경망의 중요한 성질입니다.

activation f

이미지 출처 : tibco.com

신경망을 그림으로 나타내면 위 그림처럼 됩니다. 여기에서 가장 왼쪽 줄을 입력층, 맨 오른쪽 줄을 출력층, 중간 줄을 은닉층(입력층이나 출력층과 달리 사람 눈에는 보이지 않아서)이라고 합니다. 위 그림은 앞 장에서 본 퍼셉트론과 특별히 달라 보이지 않고, 실제로 뉴런이 연결되는 방식은 퍼셉트론에서 달라진 것이 없습니다.

퍼셉트론 돌아보기

신경망에서의 신호 전달 방법을 살펴보기 전에 다음과 같은 구조의 네트워크를 생각해봅시다.

fig 3-2

이미지 출처 : 밑바닥부터 시작하는 딥러닝</a>

위 그림은 $x_1$과 $x_2$라는 두 신호를 입력받아 $y$를 출력하는 퍼셉트론입니다. 이 퍼셉트론을 수식으로 나타내면 다음과 같이 됩니다.

[y = \begin{cases} 0 \qquad (b + w_1x_1 + w_2x_2 \leq 0)
1 \qquad (b + w_1x_1 + w_2x_2 > 0) \end{cases}]

여기서 $b$는 편향을 나타내는 매개변수로, 뉴런이 얼마나 쉽게 활성화되느냐를 제어합니다. 한편, $w_1$과 $w_2$는 각 신호의 가중치를 나타내는 매개변수로, 각 신호의 영향력을 제어합니다. 그런데 위 그림의 네트워크에는 편향 $b$가 보이지 않는데, 여기에 편향을 명시한다면 다음과 같이 나타낼 수 있습니다.

fig 3-3

이미지 출처 : 밑바닥부터 시작하는 딥러닝</a>

위 그림에서는 가중치가 $b$이고 입력이 1인 뉴런이 추가되었습니다. 이 퍼셉트론의 동작은 $x_1, x_2, 1$이라는 3개의 신호가 뉴런에 입력되어 각 신호에 가중치를 곱한 후 다음 뉴런에 전달되며, 다음 뉴런에서는 이 신호들의 값을 더하여 그 합이 0을 넘으면 1을 출력하고 그렇지 않으면 0을 출력합니다.

위 식을 더 간결한 형태로 다시 작성해보면, 조건 분기의 동작(0을 넘으면 1을 출력하고 그렇지 않으면 0을 출력)을 하나의 함수로 나타낼 수 있으며, 이 함수를 $h(x)$라 하면 다음과 같이 표현할 수 있습니다.

[y = h(b + w_1x_1 + w_2x_2)
h(x) = \begin{cases} 0 \qquad (x \leq 0)
1 \qquad (x > 0) \end{cases}]

위 식은 입력 신호의 총합이 $h(x)$라는 함수를 거쳐 변환되어, 그 변환된 값이 $y$의 출력이 됨을 보여주는데, $h(x)$함수는 입력이 0을 넘으면 1을 돌려주고 그렇지 않으면 0을 돌려줍니다.

The emergence of Activation functions

조금 전 $h(x)$라는 함수가 등장했는데, 이처럼 입력 신호의 총합을 출력 신호로 변환하는 함수를 일반적으로 활성화 함수(activation function)라 합니다. 활성화라는 이름이 말해주듯 활성화 함수는 신호의 총합이 활성화를 일으키는지를 정하는 역할을 합니다.

위에서 본 수식에서는 가중치가 곱해진 입력 신호의 총합을 계산하고, 그 합을 활성화 함수에 입력해 결과를 내는 2단계로 처리됩니다. 그래서 위 식은 다음과 같은 2개의 식으로 나눌 수 있습니다.

[a = b + w_1x_1 + w_2x_2
y = h(a) \]

위 식은 가중치가 달린 입력 신호와 편향의 총합을 계산하고, 이를 $a$라 하며, 그리고 $a$를 함수 $h()$에 넣어 $y$를 출력하는 흐름입니다. 지금까지와 같이 뉴런을 큰 원 다음 그림처럼 나타낼 수 있습니다.

fig 3-4

이미지 출처 : 밑바닥부터 시작하는 딥러닝</a>

위 그림에서는 기존 뉴런의 원을 키우고, 그 안에 활성화 함수의 처리 과정을 명시적으로 그려 넣었습니다. 즉, 가중치 신호를 조합한 결과가 $a$라는 노드가 되고, 활성화 함수 $h()$를 통과하여 $y$라는 노드로 변환되는 과정이 분명하게 나타나 있습니다. 즉 활성화 함수가 퍼셉트론에서 신경망으로 가기 위한 길잡이 입니다.

일반적으로 단순 퍼셉트론은 단층 네트워크에서 계단 함수(임계값을 경계로 출력이 바뀌는 함수)를 활성화 함수로 사용한 모델을 가리키고, 다층 퍼셉트론은 신경망(여러 층으로 구성되고 시그모이드 함수 등의 매끈한 활성화 함수를 사용하는 네트워크)을 가리킵니다.

Activation function

Step function

[h(x) = \begin{cases} 0 \qquad (x \leq 0)
1 \qquad (x > 0) \end{cases}]

위 식과 같은 활성화 함수는 임계값을 경계로 출력이 바뀌는데, 이런 함수를 계단 함수(step function) 라 합니다. 그래서 “퍼셉트론에서는 활성화 함수로 계단 함수를 이용한다”라 할 수 있습니다. 즉, 활성화 함수로 쓸 수 있는 여러 후보 중에서 퍼셉트론은 계단 함수를 채용하고 있습니다. 그렇다면 계단 함수 이외의 함수를 사용하면 어떻게 될까요? 우선 계단 함수를 구현해보겠습니다.

계단 함수는 입력이 0을 넘으면 1을 출력하고, 그 외에는 0을 출력하는 함수입니다. 다음은 이러한 계단 함수를 단순하게 구현한 것 입니다.

# 첫번째 구현
# 이 구현은 단순하고 쉽지만, 인수 x는 실수(부동소수점)만 받아들입니다.
# 즉, 넘파이 배열을 인수로 넣을 수 없습니다.
def step_function(x):
    if x > 0:
        return 1
    else:
        return 0


# 두번째 구현
# 넘파이 배열도 지원하도록 다음과 같이 구현
def step_function(x):
    y = x > 0
    return y.astype(np.int)

앞에서 정의한 계단 함수를 그래프로 출력해보겠습니다.

%matplotlib inline 

import numpy as np
import matplotlib.pylab as plt

def step_function(x):
    return np.array(x > 0, dtype=np.int)

x = np.arange(-5.0, 5.0, 0.1)
y = step_function(x)
plt.plot(x, y)
plt.ylim(-0.1, 1.1) # y축의 범위 지정
plt.show()

위 그림에서 보듯 계단 함수는 0을 경계로 출력이 0에서 1(또는 1에서 0)로 바뀝니다. 바로 이 그림처럼 값이 바뀌는 형태가 계단처럼 생겼기 때문입니다.

Sigmoid function

다음은 신경망에서 자주 이용하는 활성화 함수인 시그모이드 함수(sigmoid function) 를 나타낸 식입니다.

[h(x) = \frac{1}{1+e^{-x}}]

위 식에서 $exp(-x)$는 $e^{-x}$를 뜻하며, $e$는 자연상수로 2.7182…의 값을 갖는 실수입니다. 위 식으로 나타나는 시그모이드 함수 역시 단순한 함수일 뿐이며, 함수는 입력을 주면 출력을 돌려주는 변환기입니다. 예를 들어 시그모이드 함수에 1.0과 2.0을 입력하면 h(1.0) = 0.731…. h(2.0) = 0.880…처럼 특정 값을 출력합니다.

신경망에서는 활성화 함수로 시그모이드 함수를 이용하여 신호를 변환하고, 그 변환된 신호를 다음 뉴런에 전달합니다. 사실 퍼셉트론과 신경망의 주된 차이는 이 활성화 함수 뿐입니다. 그 외에 뉴런이 여러 층으로 이어지는 구조와 신호를 전달하는 방법은 기본적으로 앞에서 살펴본 퍼셉트론과 같습니다. 그렇다면 시그모이드 함수를 구현해보겠습니다.

def sigmoid(x):
    return 1 / (1 + np.exp(-x))

시그모이드 함수를 그래프로 그리면, 그래프를 그리는 코드는 앞 절의 계단 함수 그리기 코드와 거의 같습니다. 유일하게 다른 부분은 y를 출력하는 함수를 sigmoid 함수로 변경한 곳 입니다.**

import numpy as np
import matplotlib.pylab as plt

def sigmoid(x):
    return 1 / (1 + np.exp(-x))    

X = np.arange(-5.0, 5.0, 0.1)
Y = sigmoid(X)
plt.plot(X, Y)
plt.ylim(-0.1, 1.1) # y축의 범위 지정
plt.show()

ReLU function

활성화 함수로서 계단 함수와 시그모이드 함수를 소개했는데, 시그모이드 함수는 신경망 분야에서 오래전부터 이용해왔으나, 최근에는 ReLU(Rectifted Linear Unit)함수를 주로 이용합니다.

ReLU는 입력이 0을 넘으면 그 입력을 그대로 출력하고, 0 이하이면 0을 출력하는 함수로 수식으로는 다음과 같이 쓸 수 있습니다.

[h(x) = \begin{cases} x \qquad (x > 0)
0 \qquad (x \leq 0) \end{cases}]

ReLU 함수에 대하여 간단하게 구현해보고 시각화를 해보겠습니다.

def relu(x):
    return np.maximum(0, x)

x = np.arange(-5.0, 5.0, 0.1)
y = relu(x)
plt.plot(x, y)
plt.ylim(-1.1, 5.1) # y축의 범위 지정
plt.show()

Step function VS Sigmoid function

시그모이드 함수와 계단 함수를 비교해보겠습니다.

import numpy as np
import matplotlib.pylab as plt

def sigmoid(x):
    return 1 / (1 + np.exp(-x))    

def step_function(x):
    return np.array(x > 0, dtype=np.int)

x = np.arange(-5.0, 5.0, 0.1)
y1 = sigmoid(x)
y2 = step_function(x)

plt.plot(x, y1, label="sigmoid")
plt.plot(x, y2, linestyle="--", label="step_function")
plt.xlabel("X") # x축 이름
plt.ylabel("y") # y축 이름
plt.ylim(-0.1, 1.1)
plt.legend()
plt.show()

계단 함수

계단 함수는 0을 경계로 출력이 갑자기 바뀝니다.
계단 함수가 0과 1 중 하나의 값만 돌려줍니다.

시그모이드 함수

시그모이드 함수는 부드러운 곡선이며 입력에 따라 출력이 연속적으로 변화합니다. 시그모이드 함수의 이 매끈함이 신경망 학습에서 아주 중요한 역할을 하게 됩니다.
시그모이드 함수는 실수(0.731…, 0.880… 등)를 돌려준다는 점도 다릅니다. 다시 말해 퍼셉트론에서는 뉴런 사이에 0 혹은 1이 흘렀다면, 신경망에서는 연속적인 실수가 흐릅니다.

공통점

큰 관점에서 보면 둘은 같은 모양을 하고 있습니다. 둘 다 입력이 작을 때의 출력은 0에 가깝고 (혹은 0이고), 입력이 커지면 출력이 1에 가까워지는(혹은 1이 되는) 구조입니다.
즉, 계단 함수와 시그모이드 함수는 입력이 중요하면 큰 값을 출력하고 입력이 중요하지 않으면 작은 값을 출력합니다.
입력이 아무리 작거나 커도 출력은 0에서 1 사이라는 것도 둘의 공통점입니다.
둘 다 비선형 함수입니다.

Non-linear function

계단 함수와 시그모이드 함수의 중요한 공통점으로, 둘 모두는 비선형 함수입니다. 시그모이드 함수는 곡선, 계단 함수는 계단처럼 구부러진 직선으로 나타나며, 동시에 비선형 함수로 분류됩니다.

신경망에서는 활성화 함수로 비선형 함수를 사용해야 합니다.

달리 말하면 선형 함수를 사용해서는 안 됩니다. 왜 선형 함수는 안 되는 걸까? 그 이유는 바로 선형 함수를 이용하면 신경망의 층을 깊게 하는 의미가 없어지기 때문입니다.

선형 함수의 문제는 층을 아무리 깊게 해도 ‘은닉층이 없는 네트워크’로도 똑같은 기능을 할 수 있다는 데 있습니다.

구체적으로 설명해주는 간단한 예를 생각해보면, 선형 함수인 $h(x) = cx$를 활성화 함수로 사용한 3층 네트워크를 떠올려보자. 이를 식으로 나타내면 $y(x) = h(h(h(x)))$가 됩니다. 이 계산은 $y(x) = c * c * c * x$처럼 곱셈을 세 번 수행하지만, 실은 $y(x) = ax$와 똑같은 식입니다. $a = c^3$이라고만 하면 끝이다. 즉, 은닉층이 없는 네트워크로 표현할 수 있습니다.

이 예처럼 선형 함수를 이용해서는 여러 층으로 구성하는 이점을 살릴 수 없습니다. 그래서 층을 쌓는 혜택을 얻고 싶다면 활성화 함수로는 반드시 비선형 함수를 사용해야 합니다.

퍼셉트론 (Perceptron)

12 Jul 2022 | Deep-Learning

Perceptron

이번 게시물에서는 모든 신경망(Neural net)의 기본이 되는 퍼셉트론(Perceptron) 에 대해서 알아보겠습니다. 신경망이 각광을 받게 된 지는 얼마되지 않았습니다만, 그보다 훨씬 전부터 신경망과 퍼셉트론에 대해서 많은 연구가 있어왔습니다. 퍼셉트론(perceptron) 알고리즘은 프랑크 로젠블라트(Frank Rosenblat)가 1957년에 고안한 알고리즘으로 신경망(딥러닝)의 기원이 되는 알고리즘이며, 신경망과 딥러닝으로 나아가는 데 중요한 아이디어를 배울 수 있습니다.

퍼셉트론(인공 뉴런, 단순 퍼셉트론)은 다수의 신호를 입력으로 받아 하나의 신호를 출력합니다. 여기서 말하는 신호란 전류나 강물처럼 흐름이 있는 것으로 전류가 전선을 타고 흐르는 전자를 내보내듯, 퍼셉트론 신호도 흐름을 만들고 정보를 앞으로 전달합니다. 퍼셉트론 신호는 ‘흐른다/안 흐른다(1이나 0)’의 두 가지 값을 가질 수 있습니다.

fig 2-1

이미지 출처 : 밑바닥부터 시작하는 딥러닝</a>

$x_1$과 $x_2$ : 입력 신호
$y$ : 출력 신호
$w_1$과 $w_2$ : 가중치
그림의 원 : 뉴런 혹은 노드

위 그림은 입력으로 2개의 신호를 받은 퍼셉트론의 예입니다. 입력 신호가 뉴런에 보내질 때는 각각 고유한 가중치가 곱해집니다($w_1x_1$, $w_2x_2$). 그리고 뉴런에서 보내온 신호의 총합이 정해진 한계를 넘어설 때만 1을 출력합니다(뉴런이 활성화한다). 여기서 그 한계를 임계값이라 하며, $\theta$ 기호로 나타냅니다.

이미지 출처 : javapoint

위 퍼셉트론은 총 4개의 신호 $(x_1, \cdots, x_4)$ 를 입력받습니다. 각 신호는 연산을 위한 가중치 $(w_1, \cdots, w_4)$ 를 가지고 있습니다. 가중치는 각 신호가 주는 영향력을 조절하는 요소로 추후 학습 과정에서 이 값을 업데이트하게 됩니다. 퍼셉트론은 모든 연산의 합이 임계값 $\theta$ 를 넘으면 $1$ 을, 넘지 못하면 $0$ 을 출력합니다. 입력 신호를 2개로 단순화하여 퍼셉트론이 작동하는 방식을 수식으로 나타내면 아래와 같습니다.

[y = \begin{cases} 0 \qquad (w_1x_1 + w_2x_2 + w_3x_3 + w_4x_4 \leq \theta)
1 \qquad (w_1x_1 + w_2x_2 + w_3x_3 + w_4x_4 > \theta) \end{cases}]

그리고 이를 신호가 $n$ 개인 경우로 일반화 하면 아래의 수식과 같이 나타낼 수 있습니다.

[y = \begin{cases} 0 \qquad (\sum^n_{i=1} w_ix_i \leq \theta)
1 \qquad (\sum^n_{i=1} w_ix_i > \theta) \end{cases}]

정리하지면, 퍼셉트론은 복수의 입력 신호 각각에 고유한 가중치를 부여합니다. 가중치는 각 신호가 결과에 주는 영향력을 조절하는 요소로 작용합니다. 즉, 가중치가 클수록 해당 신호가 그만큼 더 중요함을 뜻합니다.

Logic gate

AND gate

이번에는 논리 게이트(Logic gate)에 대해 알아보겠습니다.

처음으로 알아볼 게이트는 AND 게이트입니다. AND 게이트는 입력이 둘이고 출력은 하나입니다. 다음 표는 AND 게이트의 진리표로, 두 입력이 모두 1일 때만 1을 출력하고, 그 외에는 0을 출력합니다.

x1	x2	y
0	0	0
1	0	0
0	1	0
1	1	1

이 AND 게이트를 퍼셉트론으로 표현하고 싶다면 진리표대로 작동하도록 하는 $w_1, w_2, \theta$의 값을 정해야 합니다. AND 게이트를 만족하는 매개변수 조합은 무한히 많습니다. 가령 $(w_1, w_2, \theta)$가 $(0.5, 0.5, 0.7)$일 때, 또 $(0.5, 0.5, 0.8)$이나 $(1.0, 1.0, 1.0)$ 때 모두 AND 게이트의 조건을 만족합니다. 매개변수를 이렇게 설정하면 $x_1$과 $x_2$모두가 1일 때만 가중 신호의 총합이 주어진 임계값을 웃돌게됩니다.

위 매개변수를 고려하여 AND gate를 파이썬으로 구현해보겠습니다. x1과 x2를 인수로 받는 AND라는 함수입니다.

def AND(x1, x2):
    w1, w2, theta = 0.5, 0.5, 0.7
    tmp = x1*w1 + x2*w2
    if tmp <= theta:
        return 0
    elif tmp > theta:
        return 1

매개변수 w1, w2, theta는 함수 안에서 초기화하고, 가중치를 곱한 입력의 총합이 임계값을 넘으면 1을 반환하고 그 외에는 0을 반환합니다.

print(AND(0, 0)) # 0을 출력
print(AND(1, 0)) # 0을 출력
print(AND(0, 1)) # 0을 출력
print(AND(1, 1)) # 1을 출력

NAND 게이트

NAND gate는 Not AND를 의미하며, 그 동작은 AND 게이트의 출력을 뒤집은 것이 됩니다. 진리표로 나타내면 아래 표처럼 $x_1, x_2$과 가 모두 1일 때만 0을 출력하고, 그 외에는 1을 출력합니다.

x1	x2	y
0	0	1
1	0	1
0	1	1
1	1	0

NAND 게이트를 표현하려면 예를 들어 $(w_1, w_2, \theta) = (-0.5, -0.5, -0.7)$ 조합이 있습니다. 사실 AND 게이트를 구현하는 매개변수의 부호를 모두 반전하기만 하면 NAND 게이트가 됩니다.

OR 게이트

OR 게이트는 입력 신호 중 하나 이상이 1이면 출력이 1이 되는 논리 회로입니다.

x1	x2	y
0	0	0
1	0	1
0	1	1
1	1	1

여기서 중요한 점은 퍼셉트론의 구조는 AND, NAND, OR 게이트 모두에서 똑같다는 것입니다. 세 가지 게이트에서 다른 것은 매개변수(가중치와 임계값)의 값 뿐입니다. 즉, 똑같은 구조의 퍼셉트론이 매개변수의 값만 적절히 조정하여 AND, NAND, OR로 변신하는 것입니다.

여기서 퍼셉트론의 매개변수 값을 정하는 것은 컴퓨터가 아니라 인간이 직접 진리표하는 ‘학습 데이터’를 보면서 매개변수의 값을 생각했습니다. 기계학습 문제는 매개변수의 값을 정하는 작업을 컴퓨터가 자동으로 하도록 합니다. 즉 학습이란 적절한 매개변수 값을 정하는 작업이며, 사람은 퍼셉트론의 구조(모델)를 고민하고 컴퓨터에 학습할 데이터를 주는 일을 합니다.

가중치(Weight)와 편향(Bias) 도입

앞에서 구현한 AND 게이트는 직관적이고 알기 쉽지만, 앞으로를 생각해서 다른 방식으로 수정해야 합니다. 첫번째 식의 $\theta$를 $-b$로 치환하면 퍼셉트론의 동작이 다음처럼 됩니다.

[y = \begin{cases} 0 \qquad (b + w_1x_1 + w_2x_2 \leq 0)
1 \qquad (b + w_1x_1 + w_2x_2 > 0) \end{cases}]

$b$ : 편향($bias$)
$w_1$과 $w_2$ : 가중치

위 식의 관점에서 해석해보자면, 퍼셉트론은 입력신호에 가중치를 곱한 값과 편향을 합하여, 그 값이 0을 넘으면 1을 출력하고 그렇지 않으면 0을 출력합니다. 넘파이를 이용하여 위 식을 구현해 보겠습니다.

import numpy as np

x = np.array([0, 1])     # 입력
w = np.array([0.5, 0.5]) # 가중치
b = -0.7                 # 편향
np.sum(w*x) + b # 대략 -0.2(부동소수점 수에 의한 연산 오차)

[OutPut]
-0.19999999999999996

여기에서 $-\theta$가 편향 $b$로 치환되었고, 편향은 가중치 $w_1, w_2$와 기능이 다르다는 사실에 주의 해야합니다.

가중치 $w_1$과 $w_2$ : 각 입력 신호가 결과에 주는 영향력(중요도)을 조절하는 매개변수
편향$(b)$ : 뉴런이 얼마나 쉽게 활성화(결과로 1을 출력)하느냐를 조절하는 매개변수

예를 들어 $b$가 -0.1이면 각 입력 신호에 가중치를 곱한 값들의 합이 0.1을 초과할 때만 뉴런이 활성화합니다. 반면 $b$가 -20.0이면 각 입력 신호에 가중치를 곱한 값들의 합이 20.0을 넘지 않으면 뉴런은 활성화하지 않습니다.

이처럼 편향의 값$(bias)$은 뉴런이 얼마나 쉽게 활성화되는지를 결정합니다.

AND gate 구현

def AND(x1, x2):
    x = np.array([x1, x2])
    w = np.array([0.5, 0.5])
    b = -0.7
    tmp = np.sum(w*x) + b
    if tmp <= 0:
        return 0
    else:
        return 1

for xs in [(0, 0), (1, 0), (0, 1), (1, 1)]:
        y = AND(xs[0], xs[1])
        print(str(xs) + " -> " + str(y))

[OutPut]
(0, 0) -> 0
(1, 0) -> 0
(0, 1) -> 0
(1, 1) -> 1

NAND gate 구현

def NAND(x1, x2):
    x = np.array([x1, x2])
    w = np.array([-0.5, -0.5]) # AND 와는 가중치(w와 b)만 다르다.
    b = 0.7
    tmp = np.sum(w*x) + b
    if tmp <= 0:
        return 0
    else:
        return 1
    
for xs in [(0, 0), (1, 0), (0, 1), (1, 1)]:
        y = NAND(xs[0], xs[1])
        print(str(xs) + " -> " + str(y))

[OutPut]
(0, 0) -> 1
(1, 0) -> 1
(0, 1) -> 1
(1, 1) -> 0

OR gate 구현

def OR(x1, x2):
    x = np.array([x1, x2])
    w = np.array([0.5, 0.5]) # AND 와는 가중치(w와 b)만 다르다.
    b = -0.2
    tmp = np.sum(w*x) + b
    if tmp <= 0:
        return 0
    else:
        return 1

for xs in [(0, 0), (1, 0), (0, 1), (1, 1)]:
        y = OR(xs[0], xs[1])
        print(str(xs) + " -> " + str(y))

[OutPut]
(0, 0) -> 0
(1, 0) -> 1
(0, 1) -> 1
(1, 1) -> 1

퍼셉트론의 한계

XOR gate

XOR 게이트는 배타적 논리합이라는 논리 회로입니다. 다음 표와 같이 $x_1$과 $x_2$중 한쪽이 1일 때만 1을 출력합니다.

x1	x2	y
0	0	0
1	0	1
0	1	1
1	1	0

지금까지 본 퍼셉트론으로는 이 XOR 게이트를 구현할 수 없습니다. 다음 그림으로 XOR 게이트를 좌표평면에 표시했는데, 0을 원(O), 1을 삼각형(△)으로 표시했습니다. AND, NAND, OR 게이트처럼 직선 하나로 O와 △을 나누는 영역을 만들어낼 수 있을까라는 질문에는 답을 할 수 없습니다.

fig 2-7

이미지 출처 : 밑바닥부터 시작하는 딥러닝</a>

위 그림의 O과 △을 직선 하나로 나누는 방법은 아무리 생각해도 떠오르지 않습니다. 사실 직선 하나로 나누기란 불가능 합니다.

선형과 비선형

직선 하나로는 위 그림의 O과 △을 나눌 수 없습니다. 하지만 다음 그림처럼 ‘직선’ 이라는 제약을 없앤다면 가능합니다.

fig 2-8

이미지 출처 : 밑바닥부터 시작하는 딥러닝</a>

퍼셉트론은 직선 하나로 나눈 영역만 표현할 수 있다는 한계가 있습니다. 위 그림 같이 곡선은 표현할 수 없다. 위 그림과 같은 곡선의 영역을 비선형 영역, 직선의 영역을 선형 영역이라고 합니다. 퍼셉트론의 한계는 정확히 말하면 단층 퍼셉트론(single Layer perceptron) 으로는 XOR 게이트를 표현할 수 없다 또는 단층 퍼셉트론으로는 비선형 영역을 분리할 수 없다 가 됩니다. 앞으로 퍼셉트론을 조합하여, 즉 층을 쌓아서 XOR 게이트를 구현하는 모습을 보게 됩니다.

Multi-layer perceptron

퍼셉트론으로는 XOR 게이트를 표현할 수 없었습니다. 하지만 퍼셉트론의 아름다움은 ‘층을 쌓아’ 다층 퍼셉트론(multi-layer perceptron)을 만들 수 있다는데 있습니다. XOR 게이트를 만드는 방법은 다양합니다. 그중 하나는 앞서 만든 AND, NAND, OR 게이트를 조합하는 방법입니다.**

fig 2-9

fig 2-11

이미지 출처 : 밑바닥부터 시작하는 딥러닝</a>

위 그림과 같은 조합이라면 XOR 게이트를 구현할 수 있는데, $x_1$과 $x_2$가 입력 신호, $y$가 출력 신호입니다. $x_1$과 $x_2$는 NAND와 OR 게이트의 입력이 되고, NAND와 OR의 출력이 AND 게이트의 입력으로 이어집니다.

위 그림의 조합이 정말 XOR를 구현하는지 살펴보면, NAND의 출력을 $s_1$, OR의 출력을 $s_2$로 해서 진리표를 만들면 다음 표처럼 됩니다. $x_1, x_2, y$에 주목하면 분명히 XOR의 출력과 같습니다.

fig 2-12

이미지 출처 : 밑바닥부터 시작하는 딥러닝</a>

XOR gate 구현

XOR 게이트를 파이썬으로 구현해보겠습니다. 지금까지 정의한 함수 AND, NAND, OR를 사용하면 구현할 수 있습니다.**

def XOR(x1, x2):
    s1 = NAND(x1, x2)
    s2 = OR(x1, x2)
    y = AND(s1, s2)
    return y

print(XOR(0, 0)) # 0을 출력
print(XOR(1, 0)) # 1을 출력
print(XOR(0, 1)) # 1을 출력
print(XOR(1, 1)) # 0을 출력

이로써 XOR 게이트를 완성했습니다. 지금 구현한 XOR를 뉴런을 이용한 퍼셉트론으로 표현하면 다음 그림처럼 됩니다.

fig 2-13

이미지 출처 : 밑바닥부터 시작하는 딥러닝</a>

XOR는 위 그림과 같이 다층 구조의 네트워크입니다. 그런데 위의 퍼셉트론은 지금까지 본 AND, OR 퍼셉트론과 형태가 다릅니다. 실제로 AND, OR가 단층 퍼셉트론인데 반해, XOR는 2층 퍼셉트론입니다. 이처럼 층이 여러 개인 퍼셉트론을 다층 퍼셉트론이라 합니다.

위 그림과 같이 2층 퍼셉트론에서는 0층에서 1층으로 신호가 전달되고, 이어서 1층에서 2층으로 신호가 전달됩니다. 이 동작을 더 자세히 서술하면 다음과 같습니다.