신경망은 하나의 지표를 기준으로 최적의 매개변수 값을 탐색한다. 이 지표를 loss function이라고 한다. 보통 sum of squares for error(SSE), cross entropy error(CEE)를 사용한다.
y는 신경망의 출력, t는 정답 테이블, k는 데이터의 차원 수
log는 자연로그, y는 신경망의 출력, t는 정답 레이블
기계 학습 문제는 훈련데이터에 대한 손실 함수의 값을 구하고, 그 값을 최대한 줄여주는 매개변수를 찾아냅니다. 이렇게 하려면 모든 훈련 데이터를 대상으로 손실 함수 값을 구해야 한다. 즉 훈련데이터가 100개면 100의 손실함수 값들을 지표로 삼는다.
위 식은 N개의 데이터에 대한 평균 교차 엔트로피의 오차이다.
빅데이터 수준에서 N은 매우 거대하므로 데이터 중 일부를 추려 전체의 근사치로 이용한다. 이를 미니배치 학습이라고 한다.
신경망 학습에서는 최적의 매개변수를 탐색할 때 손실 함수의 값을 가장 작게 하는 매개변수 값을 찾습니다. 이때 매개변수의 미분을 계산하고 매개변수의 값을 서서히 갱신하는 과정을 반복합니다. 가중치 매개변수의 손실 함수의 미분이란 ‘가중치 매개변수의 값을 아주 조금 변화시켰을 때, 손실 함수가 어떻게 변하나라는 의미이다.
정확도를 지표로 삼아서는 안되는 이유는 미분 값이 대부분의 장소에서 0이되어 매개변수를 갱신할 수 없기 때문이다.
미분은 한순간의 변화량을 표시한 것으로 수식으로 나타내면 다음과 같다.