훈련 중 nans의 일반적인 원인 훈련 중에 자주 발생하는 것이 NAN소개되고 있음을 알았습니다 . 종종 내부 제품 / 완전 연결 또는 컨볼 루션 레이어의 가중치로 인해 발생하는 것처럼 보입니다. 그래디언트 계산이 폭발하기 때문에 발생합니까? 아니면 가중치 초기화 때문입니까 (그렇다면 가중치 초기화가이 효과가있는 이유)? 아니면 입력 데이터의 특성 때문일까요? 여기서 가장 중요한 질문은 간단합니다. NAN이 훈련 중에 발생하는 가장 일반적인 이유는 무엇입니까? 두 번째로,이 문제를 해결하기위한 몇 가지 방법은 무엇이며 왜 작동합니까? 좋은 질문. 나는이 현상을 여러 번 보았습니다. 내 관찰은 다음과 같습니다. 그라데이션 폭발 이유 : 그라디언트가 크면 학습 과정이 벗어납니다. 예상해야 할 사항 : 런타임..