수민 님의 블로그

[재료역학] 못의 체결 원리와 전단류의 계산

powderblue0 — Thu, 9 Apr 2026 12:41:56 +0900

부재란 무엇인가?

체결제의 종류

전단공식(Shear Formula)의 유도

왜 전단류를 따져야 하는가?

전단류의 계산

못의 체결간격 결정

부재란 무엇인가?

앞으로 사용할 부재(Member)라는 용어에 대해 먼저 한 번 짚고 넘어가도록 하자.

부재(Member) 혹은 건축부재(Structural Member)라 함은 건설 구조물의 뼈대를 이루는 데 중요한 요소가 되는 여러가지 재료를 의미한다.

건축에서 주로 쓰이는 용어인데, 이러한 부재에 작용하는 힘(응력)과 변형(변형량) 간의 관계를 기술하는 재료역학(혹은 고체역학)에서도 부재(Member)라는 표현을 두루 쓴다.

재료역학에서 배우는 대표적인 부재로는 기둥(Column), 보(Beam), 축(Shaft)등이 있다.

https://archigov19.tistory.com/entry/%EA%B1%B4%EC%84%A4%EC%9E%90%EC%9E%AC-%EA%B1%B4%EC%84%A4%EB%B6%80%EC%9E%AC

건설자재 / 건설부재

건설자재와 건설부재는 건설 분야에서자주 사용되는 용어로, 서로 다른 개념을 나타냅니다. ▣ 건설자재 건축 구조물을 짓기 위해 사용하는 재료를 뜻합니다. 예를 들어, 철근, 시멘트, 벽

archigov19.tistory.com

또한, 이는 건설자재와는 다른 용어이니 혼동하지 말도록 하자.

체결제의 종류

부재의 체결과 이에 이어지는 조립부재에서의 전단류의 경우 재료역학 7장(횡전단)에서 다루는 내용이다.

전단류 등에 대해 알아보기 전에, 부재 체결(締結)이 어떤 것인지에 대해 먼저 이해하는 것이 좋다. (체결은 난 처음에 體結인 줄 알았는데 締結이다..여튼)

체결제는 크게는 연속 체결제와 간헐 체결제로 나누어 볼 수 있다.

연속 체결제: 접착제, 본드, 용접 등
간헐 체결제: 못, 볼트와 너트 등

우선 우리에게 가장 친숙한 간헐 체결제인 못의 경우를 살펴보자.

못의 경우 '위에서 아래로 내려박는' 체결제이기에 언뜻 생각하면 전단이 아니라 수직력과 관련된 것으로 착각할 수도 있다. 그러나 못을 나무 사이에 끼워넣는 해우이의 목적은 따지자면 수직력이 아니라 전단력을 견디기 위함이다.

부재의 체결은 항상 견딜 수 있는 전단력의 크기와 관련이 있다.

생각해보면 간단한데, 두 물체를 연결할 때 염두에 두어야 하는 것은 이 두 물체가 눌리는 것(= 수직력에 대한 저항)이 아닌 이 두 물체가 미끄러져서 분리되는 (= 전단력에 대한 저항)이다.

그러니까 못을 박는 방향인 위아래로의 변형에 대한 저항이 아니라, 못을 박는 방향의 수직한 방향으로의 변형에 대한 저항을 고려해야 한다는 것이다. (= 부재 사이의 미끄러짐을 방지, 즉 전단하중에의 저항)

간단한 내용이지만 언뜻 보면 헷갈릴 수도 있는 부분이다.

전단공식(Shear Formula)의 유도

부재의 체결은 견딜 수 있는 전단력의 크기와 관련이 있다고 했으니, 여기서 전단 공식(Shear Formula)의 유도 과정을 다시 한 번 살펴보자.

모든 응력공식의 유도는 평형(Equilibrium) 개념에서부터 시작한다. 즉, "어떠한 물체가 평형이면 그 물체를 작게 자른 물체도 평형"이라는 단순한 개념에서부터 모든 응력 공식은 시작되는 것이다. 이러한 과정을 통해 유도된 전단공식은 다음과 같다.

이때 1차 단면보멘트인 Q의 계산에 집중할 필요가 있다.

아니, 더 정확히는 Q의 계산에 쓰이는 A'의 선정에 집중할 필요가 있다.

여기서 A'는 다음과 같은 기준으로 결정한다.

전단에 의한 힘이 A'의 면적에 작용하는 굽힘응력의 차이를 메꾼다.

위 두 그림에서,

A'를 결정할 때는 전단응력이 작용하고 있는, 그러니까 전단류가 흐르는 연분홍색 면을 보는 게 아니라, 굽힘응력(sigma들)의 차이가 발생하고 있는 빨간색 단면을 보아야 한다.

왜 전단류를 따져야 하는가?

다시 못에 대한 이야기로 돌아가자.

아까도 설명했듯, 못은 간헐 체결제에 해당한다. 접착제처럼 부재에 넓게 바르는 체결제는 단위 면적당 힘 (= 전단응력)을 따져야겠지만 못과 같은 간헐 체결제의 경우에는,

단위 길이당 가해지는 힘이 더 중요해진다.

따라서 단위길이에 대해 정의한 전단류를 계산하게 된다. 공식은 다음과 같다.

정리하자면 다음과 같다.

연속 체결제 → 단위 면적당 전단력 (=전단응력)이 중요함

간헐 체결제 → 단위 길이당 전단력 (=전단류)이 중요함

전단류의 계산

실제 상황을 보면서 전단류를 계산해보자. 다음은 일정 간격 당

(1) 못 하나로 두 개의 부재를 결합하는 상황과

(2) 못 두 개로 세 개의 부재를 결합하는 상황이다

위의 그림과 같은 서로 다른 두 상황에서의 부재 체결 상황을 생각해보자.

(1) 두 부재를 연결하는 경우

첫 번째 상황의 경우에는 두 개의 부재를 단순 체결하는 상황이다.

여기서 전단응력(혹은 전단류도 마찬가지)는 두 부재가 맞닿아 있는, 연분홍색 영역에 작용하게 된다.

어찌 보면 당연하지만 이게 헷갈릴 때는, 두 부재가 ‘어떤 상황에서 분리가 되는지’를 따져보면 된다. 연결된 두 물체가 외부 힘을 이기지 못하고 분리가 되는 순간은, 두 물체가 전단력에 의해 양옆으로 ‘미끄러지는’ 순간이며 이때 색칠한 연분홍색 영역이 뜯어지게 된다.

상황 파악을 했다면 그 다음으로는, 실제로 전단류를 계산하면 된다.

이제 다음 공식을 통해 전단류를 실제로 계산할 때는 빨간색으로 색칠된 영역을 A’로 선정해 주어야 한다.

다시 한 번 말하지만 A’의 선정 기준은 항상

"전단에 의한 힘이 A’ 면적에 작용하는 굽힘응력의 차이를 메꾼다."

이기 때문이다.

연분홍색 영역에 작용하는 전단응력(전단류도 마찬가지)은 A’ 영역에 작용하는 굽힘응력 차이를 메꾸는 역할을 한다.

마지막으로 I를 계산할 떄는 회색 영역을 기준으로 해야 한다. I는 단순히 단면의 형상을 나타내는 값이므로 전체 단면을 기준으로 계산한다. 계산 과정의 경우 평행축 정리를 사용해주면 된다.

(2) 세 부재를 연결하는 경우

세 물체를 연결하는 상황에서도 마찬가지로 진행해주면 된다.

다만 이 경우에는 맨 위의 부재를 중심으로 두 개의 부재를 추가적으로 연결하고 있기 때문에, 위의 부재를 기준으로 양옆에 동일한 크기의 전단류가 동일한 방향으로 흐르게 된다.

이 경우에는 A’와 I를 그림과 같이 적절히 선정 후

로 값을 구해주면 된다.

못의 체결 간격 결정

실제로 7장에서 요구하는 문제해결 능력의 경우, 못의 전단강도(혹은 힘 F_fail)이 주어졌을 때 주어진 상황에서 못의 체결 간격을 결정하는 것에 초점이 맞춰져 있다.

실제 못의 체결 간격을 결정하는 경우에는 다음과 같은 공식을 쓴다.

못이 최대로 견딜 수 있는 전단력, 즉 전단 강도인 F_fail이 알려져 있을 떄, 필요로 하는 체결 간격 s_req는 다음과 같이 계산한다.

이상.

[딥러닝] DL 용어정리(아키텍처, 파이프라인 등)

powderblue0 — Tue, 24 Feb 2026 17:31:16 +0900

지난 글:

https://powderblue0.tistory.com/21

[딥러닝] ANN 모델링의 주요 개념

지난 글:https://powderblue0.tistory.com/20 [딥러닝] ANN(인공신경망)의 원리이번 글에서는 딥러닝의 기본이 되는 ANN(Artificial Nerual Network, 인공신경망)의 원리에 대해 설명합니다. 사실 직관적으로 이해하

powderblue0.tistory.com

이번 글에서는 딥러닝에서 많이 나오는 용어들에 대해 정리해두려고 합니다.

개인적으로 이것저것 공부하면서 자주 보이는 용어들은 많은데 정작 그 의미에 대해 잘 모르거나, 모르는 채로 사용하는 용어들이 많다고 느껴서(일단나부터^^) 공부하는 김에 정리해둠..

일단 글이 매우 길고 말이 매우 많으니 주의하세요 ^^7

0. 신경망이란 무엇인가?

1. 아키텍쳐란 무엇인가?

2. 파이프라인이란 무엇인가?

3. 모델 학습 구조 관련

3.1. Multi-modal이란 무엇인가?

3.2. Multi-task란 무엇인가?

3.3. End-to-End 모델이란?

0. 신경망이란 무엇인가?

보통 딥러닝을 배우기 시작할 때, 초반에는 ANN, DNN, CNN, RNN 같이 ONN(뭐시기 뭐시기 NN)으로 끝나는 개념들을 차례대로 접하게 됩니다.

여기서 말하는 NN은 Neural Network의 약자로, 번역하면 '신경망'입니다.

그리고 여기서 말하는 신경망(Neural Network)는 기본적으로 인간 뇌 구조의 모방입니다. 인간의 뇌 구조를 모방한 모든 모델을 신경망 모델이라고 부른다고 봐도 될 것 같습니다. 그러니까 CNN, RNN 같이 NN으로 끝나는 애들은 다 신경망의 종류에 해당합니다. 하나하나 설명해보자면

1) ANN

ANN은 Artificial Neural Network의 약자로, 직역하면 ‘인공신경망’입니다. ANN이라고 해서 신경망이랑 뭐가 다른 게 아니라, 요즘에는 사실상 Neural Network와 같은 의미로 쓰입니다. 특정한 모델을 일컫는 용어가 아니라, 신경망을 사용한 기계학습 그 자체를 의미하는 단어로 사용됩니다.

2) DNN

DNN은 Deep Neural Network의 약자로, 직역하면 ‘깊은 인공신경망’입니다. ANN이 중간층이 1~2개인 신경망을 뜻한다면, DNN은 중간층이 그보다 많은 모든 모델을 일컫는 단어입니다. (그러니까, 그냥 '깊어진' 인공신경망)

요즘 대부분의 모델은 복잡한 학습을 위해 중간층을 많이많이 넣습니다. 그러니까 대부분의 모델이 DNN이라고 봐도 무방합니다.

3) CNN

CNN은 Convolutional Neural Network의 약자입니다. 직역하면 ‘합성곱 신경망’입니다. (CNN 및 컨볼루션 관련 내용은 기회가 된다면 나중에 자세히 정리해두려고 해요...)

기존의 Fully Connected Layer(FC Layer)와는 아예 다른 방식(합성곱 연산)으로 데이터를 인식하는 방식을 사용합니다. 이미지 인식에서 자주 쓰이고, 가장 큰 특징은 특징 추출(특징 인식)이라고 볼 수 있습니다.

4) RNN

RNN은 Recurrent Neural Network의 약자로, 직역하면 ‘순환 신경망’ 정도가 되겠습니다. 말 그대로 순환적 학습을 하고, 시계열 데이터 같은 순차적 데이터 처리에 적합합니다. 핵심은 ‘이전 출력과 다음 입력 간의 연결’ 정도로 말할 수 있을 것 같네요.

자세한 설명은 위키독스 참고하면 좋을 것 같습니다. 위키독스 최고에용.

https://wikidocs.net/240098

2-3-2 신경망의 종류와 구조

### **2.3.2 신경망의 종류와 구조** 딥러닝은 다양한 신경망 구조를 통해 복잡한 문제를 해결합니다. 각 신경망은 특정한 유형의 데이터와 문제에 적합하도록 설계되어 있습…

wikidocs.net

1. 아키텍처(Architecture)란 무엇인가?

아키텍쳐(Architecture)라는 말을 영어로 직역하면 '건축 양식' 쯤 되겠지만, 딥러닝에서 쓰이는 아키텍처라는 말은 '설계도'에 가깝습니다. 즉, 모델의 전체적인 구조를 나타내는 정보를 아키텍처라 합니다. '자동차의 설계도 같은 거' 라고 생각하면 편할 것 같습니다.

모델의 아키텍처는 보통 다음과 같은 정보를 포함합니다.

몇 개의 레이어로 구성되어 있는지
그 사이의 연결은 어떻게 되어 있는지
어디서 어떤 활성화 함수들이 사용되는지

단순히 모델의 설계도를 뜻하는 용어이기 때문에, 동일한 아키텍쳐('설계도'에 해당)로 다양한 모델(설계도를 보고 완성한 '완성품'에 해당)들이 있을 수 있습니다. 자세한 내용은 아래 링크에 잘 정리되어 있습니다. (진짜 잘 정리되어 있음)

https://velog.io/@jolabokaflod/%EC%95%84%ED%82%A4%ED%85%8D%EC%B2%98%EB%9E%80%EB%94%A5%EB%9F%AC%EB%8B%9D

아키텍처란?

딥러닝에서 아키텍처는 기본적으로 뉴럴 네트워크의 구조나 디자인을 의미합니다. 아키텍처는 어떻게 레이어가 배열되는지, 뉴런들이 어떻게 연결되는지, 어떤 활성화 함수를 사용하는지 등을

velog.io

작게는 위에서 설명한 CNN, RNN 등도 딥러닝 아키텍처로 보기도 하고, 여기서 발전한 유명한 아키텍처들도 많습니다. 예를 들어 CNN에서 ResNet, VGG 등의 아키텍처가, RNN에서 LSTM이나 GRU 등의 아키텍처가 발전해왔어요.

예를 들어 Transformer의 아키텍처는 다음과 같이 생겼습니다.

여기서 Transformer라는 건 Attention is All You Need (놀랍게도 이게 논문 제목입니다...간지) 에서 제시된 모델로 RNN 없이 Attention이라는 기법(Mechanism)을 이용해 시퀀스를 처리하는 그런 모델인데,

사실 Transformer가 뭔지는 중요한 게 아니고, 핵심은 Transformer 같은 복잡한 모델들조차 각자의 아키텍처를 가진다는 점입니다. (마치 설계도가 없는 자동차가 존재하지 않듯이 말이죠)

그렇기에 특정 모델의 구조 등을 설득하기 위해서는 아키텍처의 시각화가 필수입니다.

추가적으로, 아키텍처 내에서 반복되는 구조가 있을 경우 그 단위를 블록(Block)이라고 부릅니다.

2. 파이프라인(Pipeline)이란 무엇인가?

아키텍처가 모델의 정적인 구조에 집중한다면,

파이프라인(Pipeline)이라는 건 모델의 동적인 흐름의 구조를 설명할 때 쓰이는 용어입니다.

사진은 Hidden Techinical Debt in Machine Learning Systems 라는 논문에 나오는 사진으로, 기계학습 과정에서 거쳐야 하는 여러 과정들의 중요성을 설명합니다 어쩌구

기본적으로 기계학습(머신러닝)은

데이터 구축 → 전처리 → 모델 학습 → 결과 도출 의 과정을 거치는데, 이 과정이 논리적으로 진행되었으며 성능이 좋다고 설득하기 위해서는 이러한 과정들이 어떻게 진행되었는지를 보여줄(시각화) 필요성이 존재합니다.

이러한 과정 설명을 위해 정리해야 하는 것이 파이프라인입니다. (ML의 Pipeline 혹은 워크플로우, Workflow라고도 합니다.)

https://www.ibm.com/kr-ko/think/topics/machine-learning-pipeline

머신 러닝 파이프라인이란 무엇인가요? | IBM

머신 러닝(ML) 파이프라인은 ML 모델 작업 프로세스를 간소화하기 위해 상호 연결된 일련의 데이터 처리 및 모델링 단계입니다.

www.ibm.com

그러니까 작은 프로젝트를 진행할 때도 그냥 내 맘대로 막 진행할 것이 아니라, 파이프라인을 정리해서 내가 무엇을 어떻게 처리하였는지를 보여줘야, 설득이 가능하다는 것입니다.

이러한 파이프라인을 관리하는(기업 등에서 이를 영구적으로 관리하기 위함, 매 업데이트마다 파이프라인을 다시 짤 수는 없으니까요.) 시스템인 MLOps라는 것도 있습니다.

https://aws.amazon.com/ko/what-is/mlops/

MLOps란?- 기계 학습 운영 설명 - AWS

MLOps란 무엇이며 기업에서 기계 학습을 운영하는 방법과 이유, AWS에서 MLOps를 사용하는 방법에 대해 알아봅니다.

aws.amazon.com

3. 모델 학습 구조 관련

3.1. Multi-modal이란 무엇인가?

Multi-modal 이란 모델이 받는 Input 형태와 관련된 용어로, 말 그대로

다수(Multi, 그러니까 두 개 이상)의 데이터 형태(Modal)를 입력값으로 받는 모델을 뜻합니다.

텍스트 데이터
이미지 데이터
비디오 데이터
음성 데이터

등등...의 데이터 형태 중 두 개 이상을 입력으로 받으면 Multi-modal 모델이라고 부를 수 있습니다.

그렇다면 서로 다른 형태의 입력이 들어오면 모델은 어떻게 이를 합쳐서 처리하느냐? 에 대해서는,

이걸 모두 벡터(Embedding Vector, 혹은 그냥 Embedding이라고도 부릅니다. ) 형태로 바꿔주는 일련의 과정이 필요합니다. 이러한 역할을 Encoder가 주로 하는데, 각 데이터 형태 별로 독립적인 Encoder가 필요합니다. (왜냐하면, 데이터 형태가 다르면 이를 벡터로 바꿔주는 과정 또한 달라지기에)

위의 사진을 보면 이미지 데이터는 Image Encoder가, 오디오 데이터는 Audio Encoder가, 비디오 데이터는 Video Encoder가 각각 처리한다는 것을 알 수 있습니다.

이렇게 처리된 벡터들은 하나의 공간(Embedding 차원)으로 옮겨져, 학습하게 됩니다.

자세한 내용은 여기

https://medium.com/@mouneshpatil001/exploring-multimodal-large-language-models-a-step-forward-in-ai-4a96bbc245a3

Exploring Multimodal Large Language Models: A Step Forward in AI

In the dynamic realm of artificial intelligence, the advent of Multimodal Large Language Models (MLLMs) is revolutionizing how we interact…

medium.com

3.2. Multi-task란 무엇인가?

위에서는 Multi-modal을 설명했는데 Multi-task라는 것도 있습니다. 이거는 Multi-modal보다도 쉽습니다. 그냥 Task를 여러 개 수행하는 모델이라는 뜻입니다.

사실상 내가 원하는 대로 Task를 무한으로 늘릴 수도 있습니다. (뭐 물론 구현만 잘 된다면..) 이미지와 그에 맞는 음성을 같이 출력하면서, 설명도 같이 출력하는 모델이라던지, 하는 형태로요.

Multi-modal이 각 데이터 형태에 맞는 Encoder를 필요로 했다면,

Multi-task의 경우 각 Task마다의 Loss Function을 다르게 설정을 해줘야 합니다.

예를 들어, 아래와 같이 state 예측(분류)과 power 예측(회귀)를 둘 다 하는 Multi-task의 경우 분류와 회귀에 맞는 손실함수를 각각 정의해야 합니다.

# 손실함수 및 optimizer 정의
optimizer = torch.optim.Adam(model.parameters(), lr=1e-3)
criterion_state = nn.CrossEntropyLoss()      # 분류의 경우
criterion_power = nn.MSELoss()               # 회귀의 경우

num_epochs = 50       

total_losses = []     
state_losses = []
power_losses = []

3.3. End-to-End 모델이란?

Multi-modal이나 Multi-task 모델의 경우 예전부터 있던 개념인데,

요즘 뜨는 개념 중에 End-to-End(E2E) 라는 게 있습니다. 간단히 소개만 할 겸 가져왔습니다.

End-to-End란 말그대로 처음부터 끝까지를 한 번에 학습하는 모델을 만들겠다는 것이 핵심입니다. 한국어로는 '종단 간 학습 모델'이라고 번역하는데, 용어가 영 멋이 없는 것 같긴 합니다.

즉, 중간 단계를 하나하나 학습시키는 게 아닌, 입력부터 출력까지를 하나의 연결된 과정으로 보고, 그 전체를 학습시키겠다는 뜻입니다.

https://hyunhp.tistory.com/674

[딥러닝] End to End model (E2E model) 해설, 정리, 요약

안녕하세요, HELLO End to End model은 수동 피처 엔지니어링 (manual feature engineering)이나 중간 처리 단계 없이 입력 데이터에서 출력 데이터로 직접 작업을 수행하는 방법을 학습하는 일종의 머신러닝

hyunhp.tistory.com

그래서 이게 요즘 왜 뜨냐? 면

처음부터 끝까지를 한꺼번에 학습시키면 조금 더 복잡한 과제를 풀 수 있기 때문입니다. E2E는 보통 Speech Recognition(음성 인식)이나 대표적으로는 Autonomous Driving(자율주행)에 자주 쓰이곤 합니다.

https://medium.com/data-science/e2e-the-every-purpose-ml-method-5d4f20dafee4

End-to-end learning, the (almost) every purpose ML method

Can E2E be used to solve every Machine Learning problems?

medium.com

이거 영어긴 한데 진짜 좋은 글이니 추천

이상입니다.

시간 되면 CNN도 쭉 정리하는 글을 써보겠습니다.....근데 곧 개강이라 못할듯.

[Physical AI] Diffusion-VLA: VLA의 행동 생성

powderblue0 — Mon, 16 Feb 2026 17:29:39 +0900

이번 글에서는 지난 글에 미처 정리하지 못한 Physical AI에 대한 부분과, 더 나아가 이러한 모델들이 실제로 어떤 원리로 행동을 생성하게 되는지에 대한 내부 구조들을 들여다보도록 하겠습니다.

I. 요즘 뜨는 Physical AI

II. VLA는 로봇의 행동을 어떻게 생성하는가?

III. 사고 과정(Reasoning)의 추가

IV. Diffusion Model이란 무엇인가?

V. Diffusion과 VLA의 결합: DiVLA

I. 요즘 뜨는 Physical AI

다시 VLA에 대해 설명하기 전에 2025년부터 뜨고 있는 Physical AI에 대해 먼저 말해 봅시다. 다음은 엔비디아에서 올린 Physical AI에 대한 소개 영상입니다.

https://www.youtube.com/watch?v=AYSfcgVv9-U&t=1s

뭐 요즘 이런 게 트렌드라는데...

소위 Physical AI라고 불리는 것들은 "단순히 로보틱스/ 제어 + AI 를 결합하는 것"에서 무엇이 더 발전한 것인가? 그리고 이것이 왜 트렌드가 되고 있는가? 에 대해 조금 정리해두려고 합니다.

https://brunch.co.kr/@1212ac31a500435/186

20화 2025 AI 트렌드 Physical AI?

지난 CES 2025 기조연설에서 젠슨 황은 '피지컬(Physical·물리적) AI'에 대해서 이야기했습니다. ‘피지컬 AI’ 기존의 소프트웨어 중심 인공지능에서 벗어나, 물리적 기기에 탑재되는 인공지능(AI)

brunch.co.kr

기존 로보틱스 + AI의 접근방식은 강화학습(Reinforcement Learning)을 주된 툴로서 이용하였습니다. 몬테카를로 트리 탐색 등의 최적화 이론과 강화학습을 기반으로 하는 최적제어에 초점을 맞춰 왔다고 합니다.

(강화학습, 최적제어… 같은 건 제가 이번 학기에 공부할 예정이기 때문에 배우고 나서 기회가 되면 정리하러 올게요..)

그렇다면 로보틱스 및 제어 기술에 있어서, 기존 기술과 Physical AI는 무엇이 다른가? 그리고 무엇이 더 발전한 것인가? 에 대해서는 다음과 같이 정리할 수 있겠습니다. (이하는 그냥 제 뇌피셜)

우선은 LLM의 등장을 꼽을 수 있습니다. 단순한 보조적 툴로서의 도움을 받을 수 있는 것 말고도, 파인튜닝 과정을 추가하여 로보틱스에서 인간이 로봇에게 언어로서 작업 지시가 가능해지고, 추론 과정까지도 추가할 수 있게 되었습니다.
또한, 멀티모달(Multi-modal) 모델의 등장을 꼽을 수 있겠습니다. 인간의 텍스트 명령과 더불어 로봇의 시각적 피드백이 가능해졌습니다. 로봇이 실시간으로 수집한 시각 데이터를 반영할 수 있게 된 것입니다.

이 둘을 합치면 더 나아가서는,

텍스트 명령 (= 자연어 명령, 즉 인간의 언어적 혹은 음성 명령)만으로 로봇제어를 할 수 있는 가능성이 제시된 것이라고 볼 수 있습니다.

II. VLA는 로봇의 행동을 어떻게 생성하는가?

다음으로는 VLA를 접하면서 제가 가장 궁금했었던, "그래서 로봇의 행동을 어떻게 생성하는가?"에 대해 정리해보겠습니다.

지난 글에서 OpenVLA의 아키텍쳐와 작동 원리에 대해 정리해 두었는데

https://powderblue0.tistory.com/22

[Physical AI] VLA(비전-언어-행동) 모델 개요

새로운 연구주제를 정하려고 이것저것 알아보다가 요즘은 이런 게 유행이라길래 가져왔습니다.요즘 인공지능 커뮤니티에서도 자주 언급되고, 국내외 대학에서 논문들이 끊임없이 나오는 주제

powderblue0.tistory.com

기존 기술의 경우 (Autoregression Model)

“행동을 생성하는 것이 아닌 행동 명령 토큰을 생성하는" 방식으로 작동됩니다. 즉 Transformer, 그러니까 Decoder가 생성하는 토큰을 기준으로 행동을 그대로 옮기는 것입니다.

일종의 “다음 토큰 예측”의 원리, 이미지 + 언어 ⇒ 토큰 의 구조였습니다.

이를 뒤에 나오는 Diffusion 기술이 추가된 Diffusion-VLA와 구분하기 위해 Autoregression Model이라고 부르겠습니다.

III. 사고 과정(Reasoning)의 추가

이러한 Autoregression Model의 ‘다음 토큰 예측’의 원리에서 발전하여, 로봇의 자체적인 사고 과정을 추가하는 방법으로 로봇의 행동을 생성하는 방법이 제시된 것이 DiVLA입니다.

정확히는 Diffusion-VLA라고 Diffusion 모델과 VLA를 결합한 모델인데 Diffusion 모델 자체나 DiVLA의 아키텍쳐에 대해서는 아래에서 조금 더 자세히 정리하겠습니다.

여기서는 다음 토큰 예측의 원리가 아닌 다른 원리로 어떻게 로봇의 행동을 생성할 것인가? 에 대해 정리해보겠습니다.

유튜브에 자세히 설명해둔 영상이 있습니다. 아래에 정리한 내용은 영상의 설명들을 참고한 내용입니다.

https://www.youtube.com/watch?v=_lHYOCWnJGM

영상에서 소개하고 있는 것은 Diffusion-VLA: Generalizable and Interpretable Robot Foundation Model via Self-Generated Reasoning이라는 논문에 소개된, Diffusion-VLA (줄여서 DiVLA) 모델입니다.

기존 "다음 토큰 예측"의 대안으로 제시된 것이 Diffusion Policy입니다. 간단히 정리하자면 로봇이 직접 Reasoning을 하는, 행동에 대한 사고를 하는 과정을 도입한 것입니다.

영상에 나온 거 캡쳐본입니당~~ 자세한 건 영상 보세용

영상 내용을 정리하자면 해당 모델은 Diffusion Policy에 따라 이산적인 행동 생성이 아니라 → 행동의 시퀀스를 생성합니다.

행동을 하나하나 예측하는 것이 아니라 행동의 덩어리(Chunk)를 예측하는 것입니다.

즉, 연속적인 행동의 시퀀스 자체를 만들어내는 것이라고 볼 수 있습니다.

IV. Diffusion Model이란 무엇인가?

그런데, 여기서 말하는 이 Diffusion이라는 개념을 그냥 DiVLA 수준에서만 이해하기에는 부족합니다. 왜냐하면, 이 Diffusion Model이라는 게 원래는 로봇 제어가 아니라 이미지 생성에서 널리 사용되는 생성모델이기 때문이죠.

Diffusion Model에 대한 설명은 이미지던 로봇의 행동(Action)이던, 그것을 어떻게 생성할 것인가? 하는 질문에서 시작합니다.

Diffusion Model의 Diffusion이란 말 그대로 발산이라는 뜻입니다. 정확히는 Diffusion-based Generative Model 그러니까 확산 기반의 생성 모델이라고 부릅니다. 이러한 '발산'이 어디서부터 어디로, 무엇이 발산되는 건지에 대해 알아봅시다.

DIffusion Model의 핵심은 노이즈만 가득한 곳에서, 노이즈를 점점 제거하면서 무언가를 생성하는 것입니다.

https://process-mining.tistory.com/182

Diffusion model 설명 (Diffusion model이란? Diffusion model 증명)

Diffusion model은 데이터를 만들어내는 deep generative model 중 하나로, data로부터 noise를 조금씩 더해가면서 data를 완전한 noise로 만드는 forward process(diffusion process)와 이와 반대로 noise로부터 조금씩 복

process-mining.tistory.com

간단히 작동 과정을 살펴보겠습니다.

우선 기존 데이터(X0이라고 하겠습니다.)에 조금씩 노이즈를 추가합니다. 이때 추가되는 노이즈는 가우시안 노이즈로, 모델 학습이 아닌 수학적인 과정입니다.
이러한 과정을 거쳐 완전한 노이즈로 만듭니다. (Xt라고 하겠습니다.)
여기에 Diffusion Model은 이 완전한 노이즈를 다시 디노이징(De-noising, Reverse Process)하는 과정을 배웁니다.

두 가지를 구분해서 기억하면 되겠습니다.

Forward Process: 데이터(X0)로부터 noise를 점점 더해서, 완전한 노이즈(Xt) 로 나아가는 과정
→ 모델 학습은 Forward Process를 기반으로 함.

Reverse Process: 완전한 노이즈(Xt)로부터 데이터(X0)를 복원하는 과정
→ 모델의 실제 생성 과정

예를 들어, 토끼 이미지를 생성하는 과정을 보면

이미지 생성의 과정을 살펴보면,

명령을 입력하면, Encoder가 텍스트를 embedding 벡터로 바꿉니다.
이후 랜덤 노이즈의 이미지를 생성합니다. 마치 빈 스케치북에 그림을 그리는 것과 같습니다.
텍스트 벡터를 참고하여, 요청한 '토끼 이미지'와 가까운 방향으로 노이즈를 제거합니다. (De-noising)
이를 반복하면 토끼 이미지가 생성됩니다.

V. Diffusion과 VLA의 결합: DiVLA

앞에서 설명한 Diffusion Model의 핵심 내용을 정리한다면, Noising을 통해 학습을 진행하고, De-noising을 반복해서 요청한 데이터를 생성하는 것이라고 볼 수 있겠습니다.

Diffusion-VLA(이하 DiVLA)는 로봇의 행동(Action) 생성을 Diffusion 방식으로 처리한 모델입니다. 즉, 기존 Vision Encoder와 Text Encoder에 Diffusion-based Action Generator(디퓨전 기반의 행동 생성)을 추가한 것입니다.

이는 2025년 Diffusion-VLA: Generalizable and Interpretable Robot Foundation Model via Self-Generated Reasoning 논문에서 제시된 모델입니다. 논문은 아래 링크에서 볼 수 있습니다.

https://arxiv.org/abs/2412.03293

Diffusion-VLA: Generalizable and Interpretable Robot Foundation Model via Self-Generated Reasoning

In this paper, we present DiffusionVLA, a novel framework that seamlessly combines the autoregression model with the diffusion model for learning visuomotor policy. Central to our approach is a next-token prediction objective, enabling the model to reason

arxiv.org

DiVLA의 아키텍쳐는 다음과 같습니다.

Vision+Language의 멀티모달 Input을 받는 것까지는 기존 OpenVLA와 동일합니다.

이후로는 완전한 랜덤 행동 노이즈를 생성합니다. 그리고 Input으로 받은 정보(= Vision+Language 정보)를 토대로 Reverse Process를 진행합니다. 이러한 Diffusion 방식으로 행동의 시퀀스를 생성합니다.

[Vision Encoder]  →  
                     →  Multimodal Fusion →  Diffusion Action Head → Action trajectory
[Language Encoder] →

여기서 말하는 "행동의 시퀀스", 즉 "행동들의 연속된 동장"을 Action Trajectory라고 합니다. 기본적으로 이미지 생성 모델(Diffusion-based Image Generation)에서 출력을 이미지가 아닌 Action Trajectory로 바꾼 것일 뿐입니다.

이러한 과정을 거치면,

텍스트 지시문을 바로 행동으로 맵핑하는(기존의 Autoregression Model의 행동 생성 과정) 것이 아닌, 로봇이 행동 생성 과정에서 자체적으로 Input에 대한 Diffusion의 Reverse Process를 거치면서 Reasoning(사고)을 하게 됩니다. 그리고 이를 Chain of Thought, CoT(중간 추론 과정을 거치는 구조)라고 한다.

명령 → 실행이 아니라, 명령→사고→ 실행의 과정을 거칠 수 있도록 되는 것입니다.

[Physical AI] VLA(비전-언어-행동) 모델 개요

powderblue0 — Mon, 16 Feb 2026 16:32:19 +0900

새로운 연구주제를 정하려고 이것저것 알아보다가 요즘은 이런 게 유행이라길래 가져왔습니다.

요즘 인공지능 커뮤니티에서도 자주 언급되고, 국내외 대학에서 논문들이 끊임없이 나오는 주제인 VLA(비전-언어-행동) 모델 입니다.

실제로 관련 논문들을 읽다 보면 state of the art 기술이라는 표현이 참 많이 나옵니다.

개인적으로 트렌드를 따라가는 걸 좋아하는 편은 아닙니다. 그렇지만 2년 간 학부생활을 하면서 깨달은 건, "대학은 정적인 것만을 공부하는 곳"이라고 믿었던 것과는 달리, 대학도 학계도 트렌드에 민감한 곳이라는 것이었습니다. 어느 정도 무엇이 트렌드인지, 그래서 앞으로 연구 방향이나 기술은 어느 방향으로 흘러갈 것인지에 대해 알아둘 필요도 있다는 것입니다.

그래서, 이번 글에서는 2025년 AI 트렌드라고도 할 수 있는 이른바 Physical AI의 핵심이 되는 모델인 VLA에 대해 정리해보려고 합니다. 그리고 더 나아가, 이 VLA가 "왜" 요즘 핫한 이슈가 되고 있는지에 대해서도 간단히 다루겠습니다.

I. VLA 모델이란 무엇인가?

II. VLA의 아키텍쳐

III. OpenVLA 아키텍쳐 파헤치기

IV. AIHub 데이터 소개

V. 각종 논문리뷰 등

I. VLA 모델이란 무엇인가?

VLA 모델(Vision-Language-Action Model)이란 텍스트, 비디오, 시연(Demonstration)등의 Input을 받아 Action을 생성하는 로봇 파운데이션 모델이다.

라는 것이 위키피디아 등에 적혀있는 설명입니다.

위에서도 말했지만 요즘 뜨는 Physical AI의 연장선이자 최전선에 위치한 기술이라고 할 수 있겠습니다.

간단히 정리하자면,

로봇의 Vision(시각)과 인간의 명령(Language)을 Input으로 받고
이에 대한 적절한 Action을 출력하는 모델

이라고 볼 수 있습니다.

Vision의 경우 이미지의 형태로, Language(명령)의 경우 텍스트의 형태로 입력됩니다. 즉, 이미지와 언어를 동시에 입력받는 멀티모달(Multi-modal) 모델인 것입니다. (자연어처리 + 컴퓨터비전이 합쳐진 것이라고 볼 수도 있겠구요.)

그리고 Action의 경우 로봇의 움직임과 관련된 여러 벡터 형태(x축방향 변화, 각도 변화 등)로 출력됩니다.

VLA의 아키텍쳐를 자세히 살펴봅시다.

II. VLA의 아키텍쳐

VLA에 대해 어떤 교수님이 한글로 정리해두신 개쩌는 html 링크를 발견했습니다.

https://www.kim2kie.com/res/html/0_formula/00%20AI/VLM.html

VLM (Vision-Language Model)

[Home] AI로 돌아가기 관련 문서: Wikipedia - Multimodal AI | Wikipedia - CLIP | Wikipedia - Transformer VLM (Vision-Language Model; 비전 언어 모델) VLM은 이미지(또는 비디오)와 텍스트를 동시에 이해하고 생성하는

www.kim2kie.com

링크에 소개된 아키텍쳐는 다음과 같습니다.

아키텍쳐와 관련하여 핵심이 되는 내용만을 정리하면 다음과 같습니다.

비전-언어 모델(Vision-Language Model)을 Fine Tuning하여 구성된다. (그릐고 여기에 Action 출력을 추가한 것)
이미지 관찰 + 자연어 설명(= 캡션)을 잠재공간 내의 분포로 변환
비전-언어 인코더 (=Vision Transformer)와 이를 동작으로 변환하는 동작 디코더를 결합

또 영어로 되어있긴 하지만 VLA에 대한 개념적인 설명부터 간단한 구현방법까지 정리해둔 페이지가 있으니 참고하시면 좋을 것 같습니다.

https://substack.com/home/post/p-180266695

Building Vision-Language-Action Model from scratch

Understand what are VLAs? How to build VLAs from scratch?!

substack.com

전체적인 아키텍쳐와 관련하여, "그래서 이게 왜 인기인가?"라는 질문에 대해 생각해보았습니다.

이미지는 위에 첨부한 링크에 있는 내용을 그대로 가져온 겁니다. single model to perceive, reason AND act라고 되어 있는데,

말 그대로 모든 게 짬뽕되어 있는 ("complex stacks of systems") 기술이다 보니 더욱 더 핫해질 수 밖에 없는 기술입니다.

우선 '비전 + 언어'를 합쳐서 Input으로 받는 멀티모달 모델이라는 점도 흥미롭고, 이를 통해 실제로 Action까지 출력하는 파이프라인이 주는 이점도 흥미롭습니다.

이게 얼마나 아이디어만으로도 개쩌는 거냐면 우리가 시리나 빅스비한테 "오늘 날씨 알려줘", 혹은 "10분 타이머 설정해줘"라고 명령하던 것들이 "저기 있는 우유 좀 가져다 줘"라던지, 더 나아가서는 "내 책상 좀 정리해줘"까지도 발전할 수 있다는 말이 됩니다.

III. OpenVLA의 아키텍쳐 파헤치기

VLA는 대략 2020년부터 뜨기 시작한 최신 기술입니다. VLA의 시작은 구글 DeepMind가 개발한 RT-2부터 시작되었다고 할 수 있습니다. (RT-2는 RT-1을 전신으로 하지만, 대부분은 RT-2를 VLA의 시작점이라고 보는 편.)

그리고 2024년 VLA 기술을 오픈소스화한 OpenVLA가 등장했습니다. 논문 OpenVLA: An Open-Sourse Vision-Language-Action Model에서 공개한 아키텍쳐에 대해 자세히 정리해보도록 하겠습니다.

https://arxiv.org/abs/2406.09246

OpenVLA: An Open-Source Vision-Language-Action Model

Large policies pretrained on a combination of Internet-scale vision-language data and diverse robot demonstrations have the potential to change how we teach robots new skills: rather than training new behaviors from scratch, we can fine-tune such vision-la

arxiv.org

이 아키텍쳐에서 OpenVLA는 어떻게 "로봇의 Vision(시각)과 인간의 명령(Language)을 Input으로 받고, 이에 대한 적절한 Action을 출력" 하는지의 과정에 대해 자세히 들여다봅시다.

아키텍쳐에도 굉장히 직관적으로 표현이 되어 있는데,

이미지 Input를 보고 ‘어떤 물체가, 어디에’ 있는지를 알아낸다. ‘어떤 물체’를 보고 있는지는 SigLIP 모델이, ‘어디에’ 있는지는 DINOv2 모델이 알아낸다.
명령 Input의 경우 Llama Tokenizer로 전달된다.

그리고 이 두 정보(이미지, 텍스트)가 모두 Llama-2 7B로 들어가게 됩니다. (Llama는 GPT와 맞먹을 정도로 굉장히 널리 쓰이는 LLM 모델입니다.) 대신 이 모델에 ‘적절한 Action을 출력하게끔’ 하는 파인튜닝 과정을 추가합니다.

결국 ‘명령 이해’와 ‘그에 따른 행동 출력’의 경우 단순히 명령 문장의 토크나이징 → 다음 토큰 예측의 원리로 진행되고,

마지막 ‘행동 명령’만 텍스트 토큰이 아니라 ‘로봇의 언어’로 번역한 ‘행동 토큰’(예를 들어, 팔을 오른쪽으로 10cm 움직이라는 명령)으로 출력되는 것입니다.

IV. AIHub 데이터 소개

VLA 연구에 사용되는 대표적인 데이터셋으로는 구글에서 제공하는 Open X-Embodiment 데이터셋이나 구글 DeepMind의 RT-1 Dataset 등이 오픈소스로 접근 가능합니다.

https://robotics-transformer-x.github.io/

Open X-Embodiment: Robotic Learning Datasets and RT-X Models

Project page for Open X-Embodiment: Robotic Learning Datasets and RT-X Models.

robotics-transformer-x.github.io

그리고 위에서도 설명한 바와 같이 2020년부터 쭉 트렌드를 유지하던 주제라, AIHub에서도 여러 데이터를 제공하고 있습니다. 세 가지 정도만 간단하게 소개하려고 합니다.

(1) 제조환경 사람-로봇 공유작업 데이터

https://www.aihub.or.kr/aihubdata/data/view.do?pageIndex=1&currMenu=115&topMenu=100&srchOptnCnd=OPTNCND001&searchKeyword=&srchDetailCnd=DETAILCND001&srchOrder=ORDER001&srchPagePer=20&srchDataRealmCode=REALM011&srchDataRealmCode=REALM012&aihubDataSe=data&dataSetSn=71820

AI-Hub

샘플 데이터 ? ※샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며, 데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되

www.aihub.or.kr

(2) 가정환경 사람-로봇 공유작업 데이터

https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&aihubDataSe=data&dataSetSn=71821

AI-Hub

www.aihub.or.kr

(3) 대규모 물리환경 로봇조작 데이터

https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&aihubDataSe=data&dataSetSn=71825

AI-Hub

www.aihub.or.kr

세 번째의 '대규모 물리환경 로봇조작 데이터'의 경우 "한글 기반 데이터셋으로 OpenVLA를 구현할 수 있는가?"에 집중하여 서술하고 있습니다. 실제 데이터의 경우 json 파일 형식으로 되어 있습니다.

기존 연구에 쓰이는 데이터셋과 달리 한국어 기반으로 제작된 데이터셋이라는 점이 이점이 될 수 있으니 참고용으로 보시길 바라겠습니다.

V. 각종 논문리뷰 등

VLA는 현 시점에서 다양한 세부적인 주제로 논문이 쏟아져나오는 주제이므로,

논문을 하나하나 찾아보고 읽는 건 힘듭니다. 중요한 논문만 골라보고 싶거나 한글로 된 정보가 필요하다면 논문 리뷰글을 찾아보는 게 도움이 되기 때문에 논문리뷰글을 따로 정리해두려고 합니다.

https://velog.io/@nyl0522/series/VLA-%EB%85%BC%EB%AC%B8-%EB%A6%AC%EB%B7%B0

시리즈 | VLA 논문 리뷰 - nyl0522.log

[ Abstract ] 대규모, 다양한, 특정 Task에 얽매이지 않은 데이터셋으로부터 transferring knowledge을 함으로써, 모델은 특정 Task를 추가 데이터 없이 바로 수행하거나 소량의 과제별 데이터셋만으로도 높

velog.io

굉장히 잘 정리되어있는 글이 있어서 가져왔습니다.

들어가면 RT-1부터 RT-2, Open X-Embodiment, OpenVLA까지의 VLA 기술의 전반적인 굵직한 흐름에 따라 논문리뷰가 정리되어 있습니다. 마일스톤적인 논문들이기에 읽으면 도움이 될 것 같습니다.

그리고 아래는 그냥 개인적으로 흥미롭게 읽은 논문인데

https://mimic-video.github.io/

mimic-video: Video-Action Models for Generalizable Robot Control Beyond VLAs

Prevailing Vision-Language-Action Models (VLAs) for robotic manipulation are built upon vision-language backbones pretrained on large-scale, but disconnected static web data. As a result, despite improved semantic generalization, the policy must implicitly

mimic-video.github.io

기존 Vision-Language-Action의 파이프라인 대신 Video-Action이라는 새로운 파이프라인을 제시한 연구입니다. (일명 VAM, Video-Action Model)

[딥러닝] ANN 모델링의 주요 개념

powderblue0 — Mon, 16 Feb 2026 01:34:26 +0900

지난 글:

https://powderblue0.tistory.com/20

[딥러닝] ANN(인공신경망)의 원리

이번 글에서는 딥러닝의 기본이 되는 ANN(Artificial Nerual Network, 인공신경망)의 원리에 대해 설명합니다. 사실 직관적으로 이해하기에 어려운 부분은 없는데, 많은 개념이 나오는 만큼 쉽게 까먹게

powderblue0.tistory.com

지난 글에서는 ANN의 기본적인 학습 과정에 대해 정리했습니다.

딥러닝은 많은 시행착오들을 거치며 발전해 왔습니다. 이론에서 나오는 대부분의 개념은 '원리 적용 → 문제발생 → 문제해결'의 흐름을 따라 진행됩니다. 그러나 그 흐름을 한번에 배우려고 하면 나오는 개념이 너무 많고 용어도 길고 헷갈리는지라, 한번에 배우려고 했다가는 오히려 아무것도 못 얻어가는 경우가 많다고 항상 느낍니다.

그래서 이번 글에서는 "실제로 모델을 만들 때 무엇을 알고 있어야 하고, 무엇을 유의해야 하는지"에 조금 더 집중한 내용들을 정리하려고 합니다.

1. Activation Function은 어디에 넣는가?

1.1. 활성화함수의 두 가지 역할

1.2. 중간층에서의 비선형성 부여 (ReLU)

1.3. Task에 맞는 형태의 Output 출력

2. OverShooting(오버슈팅) 발생 시

2.1. OverShooting 현상이란?

2.2. 오버슈팅 발생의 신호

2.3. 오버슈팅의 해결 방법

3. Early Stopping & Scheduler

3.1. Early Stopping (조기종료)

3.2. Scheduler

1. Activation Function은 어디에 넣는가?

1.1. 활성화함수의 두 가지 역할

지난 글에서 '비선형성 확보를 위해 활성화함수가 필요하다'고 설명한 부분에 이어 조금 더 자세히 설명해보겠습니다.

실제로 모델을 만들고, 레이어들을 쌓아가는 과정에서 활성화함수의 역할은 두 가지로 나눌 수 있습니다.

(1) Hidden Layer에서의 비선형성 부여
(2) 모델 Task에 맞는 형태의 Output 출력

이 둘을 나눠서 이해해야 실제로 코드를 작성할 때 헷갈리지 않습니다.

1.2. 중간층에서의 비선형성 부여 (ReLU)

Hidden Layer는 입력값을 받는 레이어와 출력값을 내는 레이어를 제외한 중간 부분을 통틀어 지칭합니다. Hidden Layer는 '중간층'이라고 번역되어 설명되고는 한데, '중간층'이라는 용어가 조금 더 직관적이니까 앞으로는 '중간층'이라고 부르겠습니다.

이전 설명에서의 '비선형성 확보를 위해 활성화함수가 필요하다'는 설명에 해당하는 것은 중간층에 해당하는 설명입니다.

레이어의 계산 과정에서 "Input에 가중치를 곱한 후 모두 더하는 과정"을 여러 번 반복해도 결국엔 선형적 결합으로만 남기 때문에, 이 선형 관계를 비틀어주기 위해 비선형 활성화함수를 사용합니다.

보이는 것처럼 비선형 활성화함수에는 여러 종류가 있는데,

자주 쓰이는 것, 즉 알아둬야 할 것은 ReLU, Sigmoid, tanh 이렇게 세 개입니다.

ReLU함수의 경우 음수에서는 0값을 가지고, 양수에서는 들어온 함수값을 그대로 뱉는, 단위 Ramp 함수와 동일합니다. (동일한 공식을 가지는 함수고, 쓰이는 용어만 다름)
Sigmoid의 경우 자연상수를 포함한 공식으로 정의되는 연속함수이고,
tanh함수의 경우 Hyperbolic Tangent를 의미하며 말 그대로 탄젠트 함수의 역함수입니다.

이 중 tanh, Sigmoid의 경우 역전파 시 Output → Input 방향으로 나아가면서 각 weight 미분값의 계산 결과가 점점 사라지는, 이른바 Gradient Vanishing(기울기 손실) 문제를 야기하기 때문에,

보통은 그냥 ReLU를 사용합니다. "그냥 ReLU를 사용한다"만 기억하면 되겠습니다.

실제 코드에서는 중간층에서, Linear 레이어 뒤에 항상 ReLU를 붙여줘야 합니다. 이전에서 설명했듯이, Linear 레이어 두 개를 붙여 써도, 수학적으로는 하나의 Linear 레이어를 쓴 것과 동일한 효과를 내기 때문에 중간에 ReLU 층을 추가해 주는 것입니다.

import torch
import torch.nn as nn

class MyModel(nn.Module):
    def __init__(self, input_dim):
        super().__init__()
        
        self.linear1 = nn.Linear(input_dim, 32)
        self.linear2 = nn.Linear(32,10)
        self.relu = nn.ReLU()
               
    def forward(self, x):
        x = self.linear1(x)
        x = self.relu(x)      # 비선형 활성화함수
        x = self.linear2(x)
        
        return x

예를 들어, 위 코드에서 중간에 x = self.relu(x)를 넣지 않는다면, linear1과 linear2를 연달아 쓰는 의미가 없어집니다.

참고로 맨 마지막 linear2 층 뒤에 relu를 넣어주지 않는 이유는 중간층이 아니라, 단순히 출력값을 뱉는 마지막 출력층이기 때문입니다.

1.3. Task에 맞는 형태의 Output 출력

활성화함수는 중간층에서는 비선형성을 부여하는 역할을 하고,

Output 층에서는 Task에 맞는 형태의 Output을 출력하게끔 하는 역할을 합니다. 모델의 Task는

(1) 회귀 (2) 이진분류 (3) 다중분류

로 나눌 수 있는데, 회귀의 경우 숫자 자체를 예측하는 것이기 때문에 별다른 Output값 형태 조정이 필요하지 않습니다. 예를 들어 예측한 값이 0.88이면, 0.88 그대로 출력하면 됩니다.

그런데 이진분류는 다릅니다. 0.88이 나온다면 0과 1 중에서 1에 가깝다고 판단하고, 1이라는 값을 출력해야 합니다. 이러한 출력 방식의 조정을 위해서도 활성화함수가 사용됩니다.

일단 Output의 출력 상태 조절을 위해 마지막층에 활성화함수가 쓰인다는 사실만 기억하고, 이를 이진분류의 경우와 다중분류의 경우로 나눠서 봅시다.

(1) 이진분류의 경우

이진분류의 경우 결과값이 0 혹은 1이어야 한다는 출력 형태의 제한이 있습니다.

이는 두 가지 형태로 구현할 수 있는데,

0 혹은 1의 형태가 나오도록, Sigmoid 함수를 모델 안에 넣는 경우 (별도의 Loss 함수 조정 없이)
0 혹은 1의 형태가 나오도록 Loss 함수를 설정하는 경우

별도의 Loss 함수 조정 없이, Sigmoid 함수를 모델 안에 넣는 경우는 다음과 같습니다. (이진분류이기 때문에 Loss함수는 BCE Loss를 사용한다고 가정합니다.)

import torch
import torch.nn as nn

class BinaryModel(nn.Module):
    def __init__(self, input_dim):
        super().__init__()
        self.linear1 = nn.Linear(input_dim, 32)
        self.relu = nn.ReLU()
        self.linear2 = nn.Linear(32, 1)   # 이진분류이기 때문에 output_dim = 1
        self.sigmoid = nn.Sigmoid()  # 확률로 변환

    def forward(self, x):
        x = self.linear1(x)
        x = self.relu(x)
        x = self.linear2(x)
        x = self.sigmoid(x)  # 마지막층에 sigmoid 활성화함수 포함
        return x


model = BinaryModel(input_dim=10)  
criterion = nn.BCELoss()     # BCELoss() 사용함

반면 위 코드와 달리 Sigmoid 층을 모델 안에 (Output층에) 넣는 게 아니라, 아예 Loss 함수를 다르게 설정해서 0 혹은 1의 형태가 나오도록 조정하는 방법도 있습니다.

BCEWithLogitsLoss는 말그대로 Loss를 계산하는 과정에서 Sigmoid의 역할이 포함되기 때문에, Output층에 별도의 활성화함수를 넣을 필요가 없습니다. 정확히 말하면 Output층에 별도의 활성화함수를 추가해서는 "안 되는" 것입니다.

import torch
import torch.nn as nn

class BinaryModel(nn.Module):
    def __init__(self, input_dim):
        super().__init__()
        self.linear1 = nn.Linear(input_dim, 32)
        self.relu = nn.ReLU()
        self.linear2 = nn.Linear(32, 1)

    def forward(self, x):
        x = self.linear1(x)
        x = self.relu(x)
        x = self.linear2(x)  # Output층에 Sigmoid 없음
        return x


model = BinaryModel_BCEWithLogits(input_dim=10)
criterion = nn.BCEWithLogitsLoss()    # BCEWighLogitLoss() 사용

코드의 경우 BCEWithLogitsLoss 불러올 때 대문자 소문자 구별만 잘 해주시면 됩니다.

(2) 다중분류의 경우

다중분류의 경우도 동일한 흐름으로 진행됩니다.

원하는 레이블 출력이 나오도록, LogSoftmax 함수를 모델 안에 넣는 경우
원하는 레이블 출력이 나오도록 , Loss 함수를 CrossEntropyLoss로 설정하는 경우

다만 다중분류의 경우 후자의 경우를 압도적으로 많이 씁니다. 아니 그냥 후자의 경우만 쓴다고 생각하셔도 됩니다.

import torch
import torch.nn as nn

class MulticlassModel(nn.Module):
    def __init__(self, input_dim):
        super().__init__()
        self.linear1 = nn.Linear(input_dim, 32)
        self.relu = nn.ReLU()
        self.linear2 = nn.Linear(32, 4)

    def forward(self, x):
        x = self.linear1(x)
        x = self.relu(x)
        x = self.linear2(x)  # 별도의 활성화함수 없음
        return x


model = MultiClassModel_CE(input_dim=10)
criterion = nn.CrossEntropyLoss()   # CrossEntropyLoss() 사용

2. OverShooting(오버슈팅) 발생 시

2.1. OverShooting 현상이란?

지난 글에서 모델 학습 과정에서의 파라미터 업데이트는 손실함수의 가장 가파른 내리막길의 방향으로 파라미터를 한 걸음 이동시키는 원리로 진행된다고 설명한 바 있습니다.

여기서 실제 모델의 학습 과정에서는 OverShooting(오버슈팅) 현상이 일어나기도 하는데,

Over Shotting(오버슈팅) 현상이란 파라미터 업데이트 과정에서 최소점을 향해 한 걸음씩 앞으로 나아가다가, 최소점을 지나버리는 현상입니다.

수학적으로 보면 이런데, 코드 작성하면서 수학 공식까지 같이 적을 거 아니니까 스킵하겠습니다.

오버슈팅 현상의 근본적인 원인은 "앞으로 한 걸음 나아갈" 때 "한 걸음의 크기가 너무 커서" 발생하는 것입니다. 여기서 말하는 "한 걸음의 크기"를 learning rate(코드에서는 lr)라 합니다. 우선은 오버슈팅 발생을 의심해볼 만한 신호들에 대해 알아봅시다.

2.2. 오버슈팅 발생의 신호

모델 학습 과정에서 오버슈팅이 발생했다고 의심할 수 있는 신호는 다음과 같습니다.

첫째는, Epoch에 따른 Loss 그래프가 안정적으로 감소하지 않는 경우입니다. 들쭉날쭉하게 진동하는 경우와, 수렴하지 않고 출렁이는 경우를 모두 포함합니다.
둘째는, Epoch에 따른 Loss 그래프가 발산하는 경우입니다. 첫 번째 상황에서 더욱 악화된 상태로, Loss가 줄어들지 않고 오히려 증가하는 경우입니다.
셋째는, weight값이 커졌다 작아졌다를 반복하는 경우입니다.

결론적으로는 안정적인 학습을 위해 Epoch에 따른 Loss 그래프를 확인할 필요가 있고, 그래프가 여러분들이 아는 그런 이상적인 형태에서 벗어난 경우 의심해 볼 만 하다는 것입니다.

사진은 아래 링크에서 가져온 건데, 읽어볼 만 한 내용이니 참고하세용

https://deepdatascience.wordpress.com/2016/11/18/lstm-epoch-size/

LSTM Epoch Size Choice

Epoch size represents the total number of iterations the data is run through the optimizer[18] Too few epochs, then the model will prematurely stop learning and will not grasp the full knowledge of…

deepdatascience.wordpress.com

2.3. 오버슈팅의 해결 방법

(1) lr 줄이기

오버슈팅의 근본적인 원인은 "한 걸음 나아갈 때의 그 한 걸음이 너무 크다", 즉 learning rate가 너무 크게 설정되어 있기 때문이기에, 기본적인 해결 방법은 일단 learning rate를 줄이는 것입니다.

이전 글에서 Optimizer를 선언할 때 lr를 같이 선언한 것을 기억하신다면, 단순히 여기서 설정하는 lr의 크기를 더 줄여주면 됩니다. lr는 보통 0.01에서 시작하고, 줄일 떄는 1/10배씩 줄이는 것이 통상적입니다.

그러니까, 0.01에서 0.01 → 1e-4 → 1e-5 의 순으로 줄여나가는 것이죠.

import torch.optim as optim

optimizer = optim.SGD(model.parameters(), lr=0.01)
optimizer = optim.SGD(model.parameters(), lr=1e-3)
optimizer = optim.SGD(model.parameters(), lr=1e-4)

간단하게는 이런 식으로 줄여 나가면 됩니다. 여기서 1e-4의 경우 10의 -4승을 의미합니다.

lr를 조금 더 효율적으로 줄이는 방법으로는 Scheduler를 이용하는 방법도 있는데 이건 '3.2.Scheduler'에서 자세히 설명하겠습니다.

(2) Momentum 추가

Momentum은 옵티마이저의 발전 과정에서 나온 개념인데, 경사하강법에서 "어떻게 나아갈지"를 결정하는 최적화 알고리즘에 해당합니다. 정확히는 "Momentum 알고리즘"이라는 표현이 맞다고 볼 수 있습니다.

핵심 원리는 이전의 이동 방향을 기억해서, 현재 기울기와 과거 기울기의 누적을 반영하여 이동하는 것입니다.

알고리즘 자체에 대한 자세한 설명은 아래 링크에서 참고하시면 좋을 것 같습니다.

https://bruders.tistory.com/93

최적화 알고리즘 (ft. Momentum, RMSprop, Adam)

경사 하강법보다 빠른 몇 가지 최적화 알고리즘이 존재한다. 그 알고리즘들을 이해하기 위해서는 먼저 지수 가중 평균(Exponentially weighted averages)을 이해해야한다지수 가중 평균에 대한 글은 아래

bruders.tistory.com

코드 작성 시 중요한 건 파라미터로 momentum이 추가된다는 것이고 보통은 0.9를 쓴다는 사실만 기억하면 됩니다.

import torch.optim as optim
optimizer = optim.SGD(model.parameters(),lr=1e-3,momentum=0.9)

밑에서도 설명하겠지만 요즘은 Momentum과 RMSProp를 결합한 Adam이 압도적으로 많이 쓰이기 때문에, 개인적으로는 실제 모델링 과정에서 모멘텀 알고리즘 자체에 대해 자세히 알 필요는 없다고 생각합니다. (그러니까 웬만하면 Adam 쓰세여 여러분)

(3) RMSProp 혹은 Adam 이용

RMSProp 알고리즘의 경우 기울기가 큰 방향으로는 lr를 줄이고, 반대로 울기가 작은 방향은 lr를 증가시키는 등 lr를 기울기에 따라 유동적으로 조절하는 것이 핵심입니다. 그리고 이러한 RMSProp을 Momentum과 결합한 것이 Adam 옵티마이저인 것입니다.

결국에는 "파라미터를 어떻게 오버슈팅 없이 업데이트 시킬 것인가?" 하는 질문에서 출발하여,

Momentum → RMSProp → Adam 이런 식으로 발전해온 것이기 때문에, 특별한 사유가 없는 이상 Adam을 이용하시면 됩니다.

import torch.optim as optim
optimizer = optim.RMSprop(model.parameters(),lr=1e-3,
                          alpha=0.99)
optimizer = optim.Adam(model.parameters(),lr=1e-3,
                       betas=(0.9, 0.999))

코드를 살펴보자면,

RMSProp는 alpha라는 파라미터가 추가되는데, 통상적으로 0.99 기본값 유지하여 사용하는 경우가 대부분이고, Adam의 경우는 betas가 추가되는데 이것도 통상적으로 기본값 그대로 씁니다.

3. Early Stopping & Scheduler

지금까지 설명한 것들의 연장선에서, 실제로 많이 쓰이는 Early Stopping과 Scheduler에 대해 조금 더 자세히 정리해보겠습니다.

3.1. Early Stopping (조기종료)

실제로 모델을 학습시키는 과정에서는 모델을 처음 학습시킬 때 적절한 epoch를 알기 어렵기에, 우선 임의의 epoch를 정하여 사용하게 됩니다. 그런데 임의의 epoch를 사용하였을 때의 문제점은 과적합 발생 가능성이 있다는 것이죠.

이를 방지하기 위해 모델이 어느 정도 학습을 했다고 판단하면, 모델의 학습을 자동으로 중단하는 Early Stopping(조기종료)가 널리 사용됩니다. (사실상 Early Stopping의 개념 자체는 어렵지 않습니다.)

실전에서는 적당한 epoch 설정 후 모델 학습을 시킨 다음, 모델 성능이 과하게 좋은 경우 과적합을 의심해보고 이를 해결하기 위해 Early Stopping을 추가적으로 시도하는 것도 좋지만,

보통은 그냥 처음부터 Early Stopping을 적용하여 과적합의 발생 가능성을 사전에 방지합니다. (어디서 한 말은 아니고, 그냥 제 경험상 그렇습니다.)

전체 코드를 보고 알아봅시다. (DataLoader를 사용한 코드라 복잡할 수도 있지만, 중요한 건 if-else 문이 포함된 맨 마지막 부분입니다.)

import torch

patience = 5
best_val_loss = float('inf')
counter = 0

for epoch in range(100):

    model.train()    # 모델 학습 과정
    for x, y in train_loader:
        optimizer.zero_grad()
        output = model(x)
        loss = criterion(output, y)
        loss.backward()
        optimizer.step()

    model.eval()    # 모델 평가 과정
    val_loss = 0
    with torch.no_grad():
        for x, y in val_loader:
            output = model(x)
            loss = criterion(output, y)
            val_loss += loss.item()

    val_loss /= len(val_loader)
    print(f"Epoch {epoch}, Val Loss: {val_loss:.4f}")
    
    # Early Stopping 부분
    if val_loss < best_val_loss:    
        best_val_loss = val_loss
        counter = 0
        torch.save(model.state_dict(), "best_model.pt")  # Best Model 저장
    else:
        counter += 1

    if counter >= patience:
        break

코드 작성 시 통상적으로 patience 변수와 counter 변수를 선언해서, counter가 patience를 넘어가면 학습을 중지하는 루프를 써줍니다. 여기서 counter 변수는 성능이 개선되지 않은 epoch를 세는 역할을 합니다.

코드의 핵심이 되는 부분만을 놓고 보면 바로 이해 가능합니다.

    if val_loss < best_val_loss:    # 가장 좋은 모델
        best_val_loss = val_loss
        counter = 0
        torch.save(model.state_dict(), "best_model.pt")  # Best Model 저장
    else:
        counter += 1     # 성능 개선이 되지 않는 경우, counter += 1

    if counter >= patience:   # counter가 patience를 넘어가면, 학습 종료
        print("Early Stopping 발생")
        break

3.2. Scheduler

Scheduler는 위에서 서술한 learning rate의 연장선에 있는 개념으로, 학습 도중에 learning rate를 자동으로 조절하는 장치입니다. 딥러닝 과정에서 오버슈팅이 발생한 경우 혹은 오버슈팅 발생이 의심되는 경우 사용 가능합니다.

핵심은 다음과 같습니다.

- 초반에는 큰 lr를 사용하여 빠르게 탐색을 진행하고,
- 후반에는 작은 lr를 사용하여 안정적인 수렴을 목표로 함.

종류는 여러 가지가 있는데, 좀 많으니까 설명은 생략하겠습니다... 궁금하신 분들 아래 링크 한 번 읽어보세요..

https://hichoe95.tistory.com/131

학습률 스케줄러(Learning Rate Scheduler) 완벽 가이드

학습률 스케줄러(Learning Rate Scheduler) 완벽 가이드 포스트 요약: 주요 PyTorch 학습률 스케줄러인 StepLR, ExponentialLR, CosineAnnealingLR, OneCycleLR, ReduceLROnPlateau의 동작 원리와 설정 방법을 상세히 설명하고,

hichoe95.tistory.com

간단한 코드를 살펴보면 다음과 같습니다.

import torch
import torch.optim as optim

optimizer = optim.Adam(model.parameters(), lr=0.1)
scheduler = optim.lr_scheduler.StepLR(optimizer, step_size=10, gamma=0.1)

우선은 Optimizer를 기존의 선언과 동일한 방법으로 선언해줍니다. 이후 scheduler를 알맞게 선언합니다. 변수 선언 순서는 반드시 Optimizer → Scheduler 순서어야 합니다.

파라미터로 들어있는 step_size = 10이라는 것은 10 epoch마다 lr을 줄인다는 의미이고,

gamma = 0.1이라는 것은 lr을 줄일 때, 0.1배씩 줄여나간다는 것입니다. gamma = 10이 아님에 주의하세요.

이후 학습코드에서는 학습루프 안에 optimizer.step()을 넣는 것까지는 동일하고, epoch가 끝나고 나서 scheduler.step()도 추가해줘야 합니다. (StepLR의 경우)

model = MyModel(input_dim=100)
criterion = nn.CrossEntropyLoss()

num_epochs = 30

for epoch in range(num_epochs):
    model.train()
    total_loss = 0.0

    for inputs, labels in train_loader:
        optimizer.zero_grad()
        outputs = model(inputs)
        loss = criterion(outputs, labels)
        loss.backward()
        optimizer.step()
        total_loss += loss.item()

    scheduler.step()   # epoch 끝나고 나서 scheduler.step()

실제로 제가 사용한 예시는 다음과 같습니다.

Scheduler 사용하지 않은 경우

위의 이미지는 Scheduler를 사용하지 않은 경우의 Epoch에 따른 Loss 그래프이고,

import torch.optim as optim

criterion = nn.BCEWithLogitsLoss()  
optimizer = optim.Adam(model_sc.parameters(), lr=0.01)

scheduler = optim.lr_scheduler.StepLR(optimizer, step_size=100, gamma=0.5)      # 100 epoch마다 lr을 0.5배로 줄임

num_epochs = 1000
train_losses = []
test_losses = []

for epoch in range(num_epochs + 1):
    pred = model_sc(X_train)
    loss = criterion(pred, y_train)

    optimizer.zero_grad()
    loss.backward()
    optimizer.step()

    scheduler.step()        # 스케쥴러 업데이트

이런 식으로 scheduler를 선언하고 업데이트 과정을 추가해주면,

다음과 같이 조금은 안정적으로 변하게 됩니다. (실제로 모델 예측 성능은 크게 증가하진 않았으나, 안정적인 학습이 가능)

[딥러닝] ANN(인공신경망)의 원리

powderblue0 — Sat, 14 Feb 2026 22:02:42 +0900

이번 글에서는 딥러닝의 기본이 되는 ANN(Artificial Nerual Network, 인공신경망)의 원리에 대해 설명합니다. 사실 직관적으로 이해하기에 어려운 부분은 없는데, 많은 개념이 나오는 만큼 쉽게 까먹게 되는 것 같아서 정리해 두려고 합니다.

딥러닝이란 건 결국 "생각하는 신경망"의 설계, 즉 생각하는 방법의 설계와도 같습니다. 이번 글의 경우

딥러닝 모델을 실제로 만들 때 알고 있어야 하는 부분
전체적인 학습의 흐름
개념적으로 헷갈릴 수도 있는 부분들

위주로 정리하려고 합니다.

1. 데이터 준비: Feature Data와 Target Data

2. 데이터를 작은 단위로 나눈다.

2.1. Batch의 개념

2.2. BGD, SGD, MGD의 차이 알기

2.3. DataLoader를 이용한 코드

3. 레이어 통과

3.1. ANN의 기본 구조

3.2. 활성화함수의 필요성

4. 최종 예측값의 손실 계산

4.1. 전체적인 학습 구조

4.2. Loss Function과 Cost Function은 어떻게 다른가?

5. 파라미터의 업데이트

5.1. 파라미터 업데이트 과정

5.2. PyTorch 예시 코드

1. 데이터 준비: Feature Data와 Target Data

지도학습 모델을 만들기 전에 먼저 확실하게 정해두고 시작해야 하는 것이 있습니다.

- 모델이 해결해야 하는 과제가 무엇인지 (과제정의, 회귀인지 분류인지)
- Feature와 Target이 각각 무엇인지

어떤 모델을 만들든, 얼마나 복잡한 과제를 해결하든, 어떤 데이터 (시계열데이터/ 텍스트데이터/ 이미지데이터/ 간단한 csv 파일 등등..) 든 이 두 가지는 항상 명확히 정해두고 시작해야 합니다.

첫번째로 언급한 '모델이 해결해야 하는 과제'의 경우, 무언가를 시작할 때 그것의 목적을 정하는 과정을 뜻합니다.

두번쨰로 언급한 'Featrue와 Target의 정의'는 쉽게 말해, 모델이 무엇을 받고 무엇을 내뱉을지를 명확히 해주어야 한다는 뜻입니다.

Feature Data는 Input Data이다.
Target Data는 Output Data이다.

정말 쉽게는 다음과 같이 생각하면 됩니다.

Feature와 Target이 될 데이터들을 정의하고, 그에 맞게 데이터를 준비했다면, 데이터를 작은 단위로 나눠주는 과정을 거칩니다.

2. 데이터를 작은 단위로 나눈다.

2.1. Batch의 개념

지도학습에서 Batch의 개념은,

'데이터가 1000개 있을 때, 이 데이터를 하나하나 학습시킬 것인가?'의 질문에서 시작합니다.

결론부터 이야기하자면 Batch는 모델의 파라미터를 한 번 업데이트하기 위해 사용되는 데이터의 묶음을 의미합니다.

저는 지도학습의 개념을 설명할 때 수험생키우기에 주로 비유를 하곤 하는데,

기본적으로 '무언가를 배우는 과정' 즉 '학습'을 위해서는 '정답을 확인'하는 시간이 필요한데 (수험생이 틀렸는지 아닌지를 알기 위해 채점을 해야 수험생이 잘 배울 수 있는 것과 같은 논리입니다.)

이떄 Batch의 설정은 1000개의 문제를 풀 때, '몇 문제를 풀 때마다 정답지를 보고 채점을 할 것인지'를 정하는 과정에 해당합니다.

2.2. BGD, SGD, MGD의 차이 알기

위의서의 '몇 문제를 풀 때마다 정답지를 확인할지'에 대한 대답은 세 가지로 나눌 수 있습니다. 일일히 설명하는 건 시간낭비니까, 간단하게 표로 대체할게요..

중요한 건 BGD → SGD → MGD 순으로 발전해왔고, 요즘은 MGD(Mini-Batch GD)를 사용한다는 것입니다. 그래서 보통 '데이터를 배치 단위로 나눈다'라고 하면 MGD를 사용한다는 뜻이 됩니다.

헷갈릴 수 있는데, 그러니까 BGD(Batch Gradient Descent)는 이름과는 달리 실제로 배치 단위로 데이터를 나누는 건 아니라는 뜻이 됩니다. 이는 Batch라는 용어가 초기 하나의 데이터셋을 지칭하는 용어에서 데이터의 묶음을 지칭하는 용어로 변화했기 때문...이지만 이런 건 중요하진 않고, 중요한 건 MGD니까 그것만 기억하면 됩니다.

주로 사용되는 용어는 다음과 같습니다.

Batch Size(배치 사이즈): 한 번에 학습할 데이터의 개수
iteration: 전체 데이터를 한 번 다 훑기 위해 배치를 몇 번 돌렸는가?
epoch: 전체 데이터셋을 총 몇 번 반복해서 보았는가?

예를 들어 1000개 데이터에서 Batch Size가 32라면 1000개의 데이터를 담고 있는 데이터셋을 한 번 학습하기 위해서는 1000÷32 = 31.25 , 즉 올림하여 32회의 iteration이 필요한 것이 됩니다.

32회의 iteration을 돌면 그것이 1 epoch가 됩니다.

2.3. DataLoader를 이용한 코드

파이토치의 경우 DataLoader를 이용하여 데이터를 간단하게 나눌 수 있습니다. 가장 간단한 코드는 다음과 같고

from torch.utils.data import DataLoader
loader = DataLoader(dataset=data, batch_size=32, shuffle=True)

보통은 train 데이터와 test 데이터를 구분하다 보니 다음과 같이 사용하게 됩니다.

from torchl.utils.data import DataLoader
train = DataLoader(dataset=train, batch_size=32, shuffle=True)
test = DataLoader(dataset=test, batch_size=32, shuffle=False)

이때 test 데이터는 shuffle=False로 설정해 줍니다. 왜냐하면 각기 다른 모델의 성능을 비교할 때, 매번 같은 순서로 test 데이터를 돌려야 같은 기준으로 평가가 가능하기 때문입니다.

3. 레이어 통과

3.1. ANN의 기본 구조

ANN의 가장 작은 단위인 노드(node)부터 설명을 하기에는 제가 지식도 부족하고 하니, 이번 글에서는 꼭 알아야 한다 싶은 것들만(Layer부터) 정리해두려고 합니다. 노드부터 시작되는 개념은 아래 링크 참고해주세요.

https://insoobaik.tistory.com/663

ANN(Artificial Neural Network)에 대하여

■ ANN(Artificial Neural Network) ANN은 생물학적 신경망을 본떠 만든 컴퓨팅 시스템으로, 데이터 처리와 패턴 인식에 사용된다. ANN은 뉴런으로 불리는 노드의 집합으로 구성되며, 뉴런은 층(layer)로 조

insoobaik.tistory.com

ANN 기반의 모델은 여러 레이어(Layer)로 구성됩니다. 가장 간단한 형태의 레이어를 보자면 다음과 같습니다.

ANN을 구성하는 레이어라는 건 쉽게 말하면, Input을 받아서 Output을 출력하는 하나의 층입니다. Output을 계산할 때는 위의 이미지와 같이, 우선 각 Input에 적절한 가중치 weight(w)를 곱한 값을 모두 더한 후, 적절한 bias(b)를 더한 가중합을 계산합니다.

레이어를 여러 층으로 겹치면 이런 느낌이 됩니다.

3.2. 활성화함수의 필요성

그렇다면 '각 Input의 가중치와, 적절한 bias를 계산하는 것을 반복하는 것만으로 우너하는 Task를 수행하는 모델을 만들 수 있는가?' 라는 질문을 던질 수 있습니다. 대답은 No입니다.

왜냐하면 수학적으로 "Input에 가중치를 곱한 후 모두 더하는" 과정을 여러 번 반복해도 결국엔 선형적 결합으로만 남기 때문입니다. 선형대수학적으로 설명한다면 '걸국 선형 관계는 선형 관계인 채로 남을 뿐'이라는 것입니다.

그래서 이를 해결하고 비선형성을 추가해 이 선형 관계를 비틀어주기 위해 비선형 활성화함수(Activation Function)이 필요한 것입니다. 우선은 '비선형성 확보를 위해 활성화함수가 필요하다'까지만 정리하고, 자세한 내용은 다음에 기회가 되면 정리하도록 하겠습니다.

활성화함수도 여러 종류가 있는데, 더 궁금하신 분은 아래 글 참고해주세요.

https://wikidocs.net/250622

3. 활성화 함수: 종류와 선택 기준

활성화 함수는 인공신경망에서 입력 신호를 출력 신호로 변환하는 역할을 한다. 활성화 함수는 신경망의 비선형성을 도입하여 복잡한 문제를 해결할 수 있도록 도와준다. 이 장에서는 …

wikidocs.net

4. 최종 예측값의 손실 계산

4.1. 전체적인 학습 구조

데이터 준비 → 데이터를 작은 단위로 나눈다 → 레이어를 통과한다

까지 설명했는데, 실제로 모델이 어떻게 '학습'을 하는지, 즉 어떻게 배워나가는지의 구조는 다음과 같습니다.

일단 레이어를 통과시켜서 답(y-hat)을 내고, 이것을 정답인 y와 비교해서 "얼마만큼 차이가 나는지"를 계산한 뒤, 이에 맞춰서 각 레이어의 파라미터 (그러니까 weight와 bias)를 업데이트 하는 과정으로 학습을 하게 됩니다.

여기서 정답과 얼마만큼 차이나는지는 단순 뺼셈으로 계산하는 것이 아니라 모델의 Task에 따라 적절한 Loss Function을 계산하는 과정을 거칩니다. 다시 말해, Loss Function 이라는 건 특정한(고정된) 공식을 가진 함수가 아니라, "정답과 얼마만큼 차이나는지" 즉 예측갑솨 실제값의 차이를 표현하는 지표라고 볼 수 있습니다.

실제로 Task에 따라 서로 다른 Loss Function을 계산합니다.

https://hyoung-2y.tistory.com/36

Loss function 이란?

손실 함수는 비용함수(Cost Function)이라고도 불린다. 손실 함수는 '인공지능' 과목에 포함되는 Machine Learning 최적화의 기본 원리이며 기초적인 개념이다. 위의 그림은 일반적인 통계학적 모델의 형

hyoung-2y.tistory.com

4.2. Loss Function과 Cost Function은 어떻게 다른가?

위에서 설명한 모델의 학습 원리의 핵심은, 모델이 예측한 값(y-hat)과 실제 정답값(y)가 얼마나 다른지를 계산해서, 그 값을 토대로 파라미터를 개선시켜 나간다는 것입니다.

이때 손실 계산을 위해 사용되는 Loss Function의 개념과 Cost Function의 개념은 혼용해서 사용하는 경우가 있는데, 둘은 엄연히 말하면 다른 개념입니다.

표에서와 같이, Loss Function은 하나의 데이터에 대해 오차를 계산하는 것을 뜻하고, Cost Function은 전체 데이터셋에서 각 데이터에 대해 오차를 계산하여 평균을 낸 것입니다. 즉, Loss Function은 '지금 이 데이터가 얼마나 틀렸는지'를 나타내고, Cost Function은 '모델이 해당 데이터셋을 전체적으로 이해하고 있는지'를 나타냅니다.

그러니까 모델이 학습을 할 때 줄여나가는 값은 Cost Function이라는 것입니다. 이걸 Loss Function으로 설명하는 경우도 있는데, 정확히는 Cost Function.

5. 파라미터의 업데이트

5.1. 파라미터 업데이트 과정

손실 계산에 대해서도 설명했으니, 학습 과정에서의 마지막 부분(Backpropagation과 Optimizer)에 대해 설명해보겠습니다.

"그래서 실제로 파라미터를 어떻게 업데이트 할 것인가?" 에 해당하는 부분입니다.

근데 여기서부터는 다양한 방법론이 존재하고, 수학적인 원리도 나오기 때문에 나오는 용어들이 급증하기 때문에 많이 복잡해집니다. 그래서 필요없는 것들은 제쳐두고 핵심만 정리해두겠습니다.

(1) Backpropagation (역전파)

우선, 상식적으로 '파라미터를 업데이트하려면, 업데이트할 파라미터를 알아야 한다'는 사실부터 출발합니다. 파라미터 업데이트의 가장 첫 과정은 먼저 각 레이어의 weight를 계산하는 것입니다.

이떄 '정답에서부터 얼마나 틀렸는지'를 보고 계산하는 것이기 때문에 (가장 정확히 설명하자면, 손실함수의 기울기를 보고 각 레이어의 weight의 미분값을 구합니다.)

weight를 계산하는 방향은 Input에서 Output을 향하는 방향이 아니라, Output에서 Input을 향하는 "반대" 방향 순서로 레이어들을 봅니다.

그래서 이 과정을 역(Back)전파라고 부릅니다.

정확한 원리를 따지자면 미분의 Chain Rule까지도 설명해야 하지만, 그게 무슨 개념인지는 알테니 스킵하겠습니다. 궁금하면...찾아보시던가요.

(2) Gradient Descent (경사하강법)

역전파를 통해 각 레이어의 weight를 계산하고 나면, '그러면 이걸 이제 어떻게 업데이트 할 건데?'라는 질문이 남게 됩니다.

여기서 "어떻게"에 대한 대답이 Gradient Descent입니다. 그러니까 경사하강법이라는 것은, 하나의 원리입니다. 더 정확히 말하면, 경사 하강법 알고리즘이라는 표현이 가장 정확합니다.

원리를 조금 설명해보자면, 손실함수의 가장 가파른 내리막길의 방향으로 파라미터를 한 걸음 이동하는 원리입니다.

(3) Optimizer (옵티마이저)

Gradient Descent가 "원리"에 해당했다면, Optimizer는 실제로 파라미터를 업데이트하는 "주체"라고 설명하는 것이 적절할 것 같습니다. 실제로 코드에서도 그러한 흐름을 보입니다. (코드는 밑에 있어요)

경사하강법이라는 원리를 사용하여, Optimizer가 실제로 파라미터를 "얼마나 큰 보폭으로 (lr, Learning Rate)", "어느 방향으로" 이동시킬지 결정하기 때문에, '주체'가 되는 것입니다.

5.2. PyTorch 예시 코드

실제로 코드에서는 Backpropagation을 통해 계산한 각 weight을 .grad에 저장합니다.

이후 옵티마이저가 .grad에 저장한 값들을 꺼내서, 그 값들을 업데이트합니다.

사실 Optimizer에도 여러 종류가 있는데, 그 종류를 하나하나 따져가면서 모델을 만드실 게 아니라면, 그냥 통상적으로는 Adam을 씁니다. 자세히 알려고 하지 마세요. 그냥 Adam 쓰세요~

전체 코드는 다음과 같습니다.

import torch
import torch.nn as nn
import torch.optim as optim
import torch.nn.functional as F  

criterion = nn.MSELoss()      
optimizer = optim.Adam(model.parameters(), lr=0.001)
epochs = 1000 

for epoch in range(epochs + 1):

    pred = model(x)
    loss = criterion(pred, y) 

    optimizer.zero_grad()
    loss.backward()
    optimizer.step()

위에서 Optimizer가 파라미터를 업데이트하는 주체라고 설명한 것은 보이는 것과 같이 실제로도 코드가 그렇게 돌아가기 때문입니다.

위 코드의 일부분을 뜯어보자면

import torch
import torch.optim as optim
optimizer = optim.Adam(model.parameters(), lr=learning_rate)

다음과 같이 Optimizer를 선언한 다음 그 변수가 주체가 되어

optimizer.step()

과 같이 작동하는 것을 볼 수 있습니다.

[Nilm] (6)-UK-DALE 데이터

powderblue0 — Sat, 31 Jan 2026 23:31:07 +0900

이번 글에서는 이전 Nilm 관련 글들의 흐름과는 조금 벗어나, 새롭게 UK-DALE 데이터에 대해 정리해보고자 합니다.

이번 글은 UK-DALE 데이터와 UK-DALE의 다운로드 방법에 대한 정리글입니다.

Nilm의 연장선에서 이 내용을 정리하는 것도 있지만, 제가 UK-DALE 데이터의 다운로드를 시도했었을 때 다양한 시행착오들이 있었고, 당시에 한국어로 정리된 다운로드 방법 관련 글이 하나도 없었기에 (ㅠㅠ) 그냥 제가 한 번 정리해보려고 합니다.

글을 시작하기 전에 혹시라도 이번 글로 제 블로그를 처음 접하는 분이시라면, UKDALE 관련 글 이전에 아래 글 참고하시면 좋을 것 같습니다.

https://powderblue0.tistory.com/10

[Nilm] (1)-NILM 기술의 이해

이번 글에서는 Nilm 기술의 개념에 대해 설명하고, 심화적인 이해에 필요한(필요할지도 모르는?) 교류전력 개념을 설명합니다. 교류전력 파트의 경우 제가 아는 모든 지식을 최대한 쉽게 풀어 설

powderblue0.tistory.com

또한 데이터 다운로드 방법의 경우 데이터 버전이 꾸준히 업데이트 되는 것을 반영하지 못할 수도 있는 점 양해 바랍니다.

UK-DALE 데이터란?
UK-DALE 다운로드 링크
데이터 다운로드
- 고주파 데이터 다운로드
- 저주파 데이터 다운로드
UK-DALE 결측치 관련 참고논문

*UK-DALE은 오픈소스 데이터이긴 하지만, 비슷하게 생긴 서로 다른 다운로드 링크가 많으므로 블로그에 첨부된 링크별 설명을 잘 참고하시길 바랍니다.

UK-DALE 데이터란?

UK-DALE 데이터는 기본적으로 Nilm 연구를 위한 데이터셋입니다. NILM 연구에 있어서는 교과서적인 데이터라고 볼 수 있습니다. (Nilm 연구에서 미국의 REDD와 함께 가장 널리 쓰이는 데이터셋 중 하나입니다.)

J.Kelly, W.Knottenbelt "The UK-DALE dataset ..." 중 일부

UK-DALE은 Jake Kelly와 William Knottenbelt가 작성한 논문 The UK-DALE dataset, domestic appliance-level electricity demand and whole-house demand from five UK homes 에서 처음 소개된 데이터셋입니다.

https://arxiv.org/abs/1404.0284

The UK-DALE dataset, domestic appliance-level electricity demand and whole-house demand from five UK homes

Many countries are rolling out smart electricity meters. These measure a home's total power demand. However, research into consumer behaviour suggests that consumers are best able to improve their energy efficiency when provided with itemised, appliance-by

arxiv.org

그리 긴 논문이 아니니(그래프 첨부된 거랑 참고문헌 제외 8~10페이지 정도?) UK-DALE 데이터를 사용하실 분들은 논문 한 번 정독해보시는 것도 추천드립니다. 데이터 확보 방법 및 확보된 데이터에 대한 자세한 설명이 나와있습니다.

해당 데이터는 영국 내 5개 가정집(house1부터 house5까지) 2012년부터 2015년까지 측정한 전력 데이터셋이며, 오픈되어 있어서 누구나 다운로드 받을 수 있습니다.

보통 데이터 수집 기간은 2012년부터 2015년까지로 밝혀져 있는데 가장 활발히 연구되는 house1의 경우 2012년 11월부터 2017년 4월까지의 데이터가 확보되어 있다고 적혀있긴 합니다.

데이터 다운로드에 대한 전체적인 개요는 아래 페이지에서 확인 가능합니다.

https://jack-kelly.com/data/

UK Domestic Appliance-Level Electricity (UK-DALE) dataset

I try to mitigate climate change using computer science. I co-founded Open Climate Fix, a non-profit research lab focused on reducing greenhouse gas emissions. Previously, I was a Research Engineer at DeepMind, where I used machine learning to predict wind

jack-kelly.com

UK-DALE 다운로드 링크

아래 html 링크에 들어가면 데이터에 대한 설명 및 다운로드 링크가 알잘딱깔쌈뽕하게 정리되어 있습니다.

https://dap.ceda.ac.uk/edc/efficiency/residential/EnergyConsumption/Domestic/UK-DALE-2017/ReadMe_DALE-2017.html

UKERC Energy Data Centre - UK Domestic Appliance Level Electricity (UK-DALE)

Other information The (V, I) characteristic in the .FLAC files is uncalibrated. Calibration files are provided in the top-level directory for the data set. The recommended procedure for processing the data is to convert from FLAC (a lossless audio compress

dap.ceda.ac.uk

그런데 전부 영어로 작성되어 있다보니 + html 특유의 가독성 떨어짐으로 인해 페이지는 다소 복잡합니다.

핵심을 정리하자면 UK-DALE은 세 개의 데이터로 나누어져 있다고 보면 됩니다.

16kHz의 고주파 데이터셋 (house1만 제공)
1/6Hz의 Disaggregated 데이터셋 (개별기기 측정데이터)
1Hz의 Main(Aggregated) 데이터셋 (전체 전력 측정데이터)

이번 글에서는 편의상 1의 데이터를 '고주파 데이터', 2와 3의 경우를 '저주파 데이터'라고 부르겠습니다.

위의 html 링크 말고 바로 다운로드 가능한 링크를 찾으신다면, 고주파 데이터와 저주파 데이터의 다운로드 링크는 각각 다음과 같습니다. (바로 링크로 들어가셔도 되지만, 진짜진짜 데이터 다운로드가 필요하신 분들은, 아래 '데이터 다운로드'까지 꼭 읽어보세요!)

고주파 데이터(16kHz): https://ukerc.rl.ac.uk/cgi-bin/dataDiscover.pl?Action=detail&dataid=cd1ed6c7-752b-4dad-acf9-a9bd9f63d87a
저주파 데이터 (Disaggregated data & Main(Aggregated) data): https://ukerc.rl.ac.uk/cgi-bin/dataDiscover.pl?Action=detail&dataid=7d78f943-f9fe-413b-af52-1816f9d968b0

UKERC EDC: Data

The Energy Data Centre (EDC) works in collaboration with the CEDA Archive to provide this information The EDC recently relocated the data to new locations to strengthen our preservation processes and improve the management of our data. Unfortunately we can

ukerc.rl.ac.uk

데이터 다운로드

데이터가 오픈소스여서 "누구나 다운로드 받을 수 있다"고 해서 "쉽게 다운로드 받을 수 있다"는 의미는 아니라고 생각합니다.

UK-DALE의 가장 정확한 데이터는 모두 UKERC라는 UK Energy Research Center의 홈페이지에서 다운로드 받아야 합니다. 그런데 여기 홈페이지가 좀 중구난방이여서(그리고 당연하게도 싹다 영어임..) 복잡한데다가 데이터센터다 보니 데이터의 정확한 명칭으로 검색해야 한다는 어려움이 있습니다.

따라서 UKERC 홈페이지에서의 검색보다는 아래 정리된 링크로 바로 접속하는 것이 좋습니다. 데이터 다운로드의 세부적인 과정은 고주파 데이터와 저주파 데이터로 나누어서 정리하도록 하겠습니다.

(1) 고주파 데이터 다운로드

고주파(16kHz) 데이터는 5개 가정집 중 house1에 대해서만 데이터가 제공되고 있습니다. 고주파 데이터 다운로드를 시도하는 경우, 중요하게 생각해야 할 점은 이 데이터는 정말 말그대로 16kHz의 "고주파"라는 것입니다.

16kHz는 1초동안 16,000번 측정되었다는 것을 의미합니다. CD에 들어가는 음악이 약 44kHz인 것을 생각해보면, 16kHz 수준의 전력 데이터는 "전력량"이라는 숫자를 토대로 데이터를 들여다본다는 접근이 아닌, 전력을 하나의 "파동"으로서 접근하겠다(스파크 이상탐지 등) 는 말이 됩니다. (그러니까, 보통의 전력 데이터 접근 방법과는 다른 방법이라는 뜻입니다.)

그럼에도 불구하고 고주파 데이터의 다운로드를 시도하실 저같은 분들은 아래 링크로 들어가시면 됩니다.

https://data.ceda.ac.uk/edc/d1/887733b3-4c04-471f-9404-9f7459c4a1a0

CEDA Archive Web Browser

This website uses cookies. By continuing to use this website you are agreeing to our use of cookies. OK Find out more

data.ceda.ac.uk

링크에 들어가면 여러 가지 파일 폴더가 존재합니다.

고주파 데이터의 경우 데이터가 정말정말 크기 때문에 각 house별로, 그리고 각 파일별로 다운로드 링크가 따로 존재합니다. 이것저것 눌러보시고, 시험용으로 하나 정도만 먼저 다운로드 받아보시면 됩니다.

고주파 데이터는 모두 flac 형식으로 존재합니다. flac 형식은 오디오 데이터를 저장하는 데이터형식인데, 위에서 설명한 것처럼 오디오를 저장할 정도로 미세한 수준의 전력측정 데이터라고 보시면 되겠습니다.

실제로 다운로드해보면 이렇게 생겼습니다.

(2) 저주파 데이터 다운로드

실제로 Nilm 연구가 활발히 이루어지는 것은 이 '저주파 데이터'의 경우입니다. 저주파(Low-frequency) 데이터의 경우 그냥 일반적인 전력 데이터의 형태입니다. 아래 링크에 들어가시면 zip 파일 형태로 다운로드 가능합니다.

https://data.ceda.ac.uk/edc/d1/7d78f943-f9fe-413b-af52-1816f9d968b0/data/version_0

CEDA Archive Web Browser

This website uses cookies. By continuing to use this website you are agreeing to our use of cookies. OK Find out more

data.ceda.ac.uk

들어가시면 뵝는 것처럼 ukdale.h5.zip 파일과 ukdale.zip 파일이 존재합니다.

(조금 헷갈리실 수도 있는데, .h5라고 되어있다고 해서 house5의 데이터라는 뜻이 아니라, h5라는 데이터 포멧의 형태라 ukdale.h5입니다.)

NILMTK 라이브러리를 사용하시는 분들은 ukdale.h5.zip 다운로드 받으시면 되고, 그게 아니라면 ukdale.zip 파일 다운로드 받으시면 됩니다.

또한 github에서 별도의 메타데이터도 제공하고 있습니다.

https://github.com/nilmtk/nilm_metadata/tree/v0.2

GitHub - nilmtk/nilm_metadata: A schema for modelling meters, measurements, appliances, buildings etc

A schema for modelling meters, measurements, appliances, buildings etc - nilmtk/nilm_metadata

github.com

ukdale.zip 파일을 다운로드 받는 경우 파일 폴더구조는 다음과 같이 생겼습니다.

ukdale/
├── house_1/          
├── house_2/           
├── house_3/           
├── house_4/           
├── house_5/           
└── metadata/

실제로 다운로드 받은 파일

기본적으로 대용량 데이터이기 때문에 house1~house5를 전부 압축해제하기보다는 house1의 데이터만 먼저 살펴보는 것이 좋습니다. (실제로도 house1의 데이터가 가장 활발히 연구되는 편입니다.)

저주파 데이터의 경우 .dat 형식으로 저장되어 있습니다. 그냥 pandas에서 csv 파일 불러오는 것과 동일하게 불러오되 각 열 이름(names = ['xxx','xxx']) 만 지정해주면 됩니다.

import pandas as pd

# channel_1.dat 파일 불러오기
df = pd.read_csv("../data/ukdale/channel_1.dat", 
                 sep=' ',names=['timestamp', 'power'])

df['time'] = pd.to_datetime(df['timestamp'], unit='s')      # 타임스탬프를 시간으로 변환
df = df[['time', 'timestamp', 'power']]   # 원하는 순서로
df.drop(columns='timestamp', inplace=True)

display(df.head())

실제로 다운로드된 데이터 일부를 살펴보면 다음과 같이 생겼습니다.

이렇게 다운로드받은 데이터를 기반으로 다양한 분석 및 Nilm 모델 빌드를 시도할 수 있습니다.

UK-DALE 결측치 관련 참고논문

글을 마무리하기 전에 UK-DALE 데이터를 다룰 때 참고하기 좋은 논문 하나를 추천하고 마무리하도록 하겠습니다. UK-DALE에는 몇 개의 결측치가 존재하는데, 그 결측치를 어떻게 처리할 것이냐의 문제가 생기게 됩니다.

이와 관련하여 Dengyu Shi의 A PID-Controlled Non-Negative Tensor Factorization Model for Analyzing Missing Data in NILM 이라는 논문이 있으니 필요하시다면 참고하시길

https://arxiv.org/abs/2403.07012

A PID-Controlled Non-Negative Tensor Factorization Model for Analyzing Missing Data in NILM

With the growing demand for energy and increased environmental awareness, Non-Intrusive Load Monitoring (NILM) has become an essential tool in smart grid and energy management. By analyzing total power load data, NILM infers the energy usage of individual

arxiv.org

[Nilm] (5)-1D CNN 베이스라인 모델

powderblue0 — Fri, 30 Jan 2026 22:18:51 +0900

지난 글에서는 전처리한 '고양시 전력데이터'에 대하여 각각 FFT 분석과 이상탐지 분석을 실시한 결과에 대해 정리하였습니다.

https://powderblue0.tistory.com/17

[Nilm] (4)-FFT와 이상탐지

지난 글에서는 데이터 선정 과정과 다운로드한 "대용량 데이터"를 어떻게 "다룰 수 있는 수준"까지 줄였는지에 대해 정리하였습니다. 아래에서 지난 글을 확인할 수 있으니 참고 바랍니다. https:/

powderblue0.tistory.com

이번 글에서는 본격적으로 모델 빌드 과정에 대해 서술해보도록 하겠습니다.

모델의 목표는 전체 전력에서 개별 전력을 분해해내는(=Nilm) 것이었습니다.

이러한 복잡한 모델을 만들 경우 아무것도 없는 상태부터 모델을 만드는 것이 아닌, 기존에 존재하는 모델을 참고 혹은 일부 참고하여 베이스라인을 미리 잡아두는 것이 적절합니다.

저의 경우 이전 '(3)-데이터 선정과 전처리'글에서 잠깐 언급했던 UNet 모델을 참고하였습니다. 결론적으로 말하면 성공적이었다고 할 수는 없으나, 모델 빌딩 과정과 과정에서 겪은 다양한 어려움 등에 대해 정리해두려고 합니다.

참고논문 정리(Multi-task NILM Model)
1D CNN과 UNet은 무엇인가?
베이스라인 모델(Baseline Model)
데이터 전처리 과정
1D CNN 모델 만들기
1D CNN 모델 학습과정
1D CNN 모델학습 결과

참고논문 정리(Multi-task NILM Model)

모델 베이스라인에 참고한 논문은 Anthony Faustine의 UNet-NILM: A Deep Neural Network for Multi-tasks Appliances State Detection and Power Estimation in NILM 입니다. 전체 논문은 구글에 논문 제목 그대로 검색하거나 아래 링크에서 보실 수 있습니다.

https://dl.acm.org/doi/10.1145/3427771.3427859

UNet-NILM | Proceedings of the 5th International Workshop on Non-Intrusive Load Monitoring

Energy disaggregation, a.k.a. Non-Intrusive Load Monitoring, aims to separate the energy consumption of individual appliances from the readings of a mains power meter measuring the total energy consumption of, e.g., a whole house. Energy consumption of ...

dl.acm.org

이전에 Nilm에서의 분류와 회귀 과제 정의에 대해 다음과 같이 설명한 바 있습니다.

Nilm을 분류 문제로 바라볼 경우 ‘전력량 분해’는 전체 전력을 보고 ‘각 기기가 켜져 있는지, 혹은 꺼져 있는지’ 즉 ON/OFF 상태를 예측하는 이진 분류(Classification) 문제가 되고

Nilm을 회귀 문제로 바라볼 경우 ‘전력량 분해’는 전체 전력에서 ‘각 기기가 얼마만큼의 전력량을 사용하고 있는지’를 예측하는 회귀(Regression) 문제가 되는 것

이 논문에 소개된 UNet 모델의 핵심은, 제목 그대로 Regression과 Classification을 동시에 수행하는 Multi-task 모델을 만든 것에 있습니다. Abstract에 나온 부분을 그대로 인용하자면, appliances’ state detection and power estimation 라고 명시되어 있습니다.

또한 The UNet-NILM is a one-dimenstional CNN based on the U-Net architecture 라고도 서술되어 있는데, "1D CNN을 기반으로 (즉, 1D 버전의 컨볼루션 레이어를 사용) UNet 아키텍쳐에 맞게 모델을 설계한 것이다" 라고 이해하시면 될 것 같습니다. UNet모델을 기존의 CNN 모델과 비교한 결과 UNet 모델의 성능이 더 좋다는 것이 논문이 낸 결론입니다.

결론적으로 논문의 핵심 내용을 요약하자면

개별 전력량 예측(회귀)와 개별 기기 ON/OFF 여부(이진분류)를 모두 판단(Multi-task)하는 모델
기존 CNN모델과 비교했을 때, UNet 아키텍쳐의 모델이 더 성능이 좋음

이 되겠습니다.

이후 설명을 위해 개별 기기의 전력량 예측(회귀)는 Power Prediction, 개별 기기의 ON/OFF 상태 판정(이진분류)는 State Prediction이라고 부르겠습니다.

1D CNN과 UNet은 무엇인가?

말이 나온 김에 1D CNN과 UNet에 대해서도 정리해봅시다.

(1) 1D CNN이란?

https://github.com/SRDdev/Dogs_vs_Cats-CNN

GitHub - SRDdev/Dogs_vs_Cats-CNN: Binary Image Classification . This project uses basic Machine Learning Algorithms to different

Binary Image Classification . This project uses basic Machine Learning Algorithms to differentiate between Cats & Dogs - GitHub - SRDdev/Dogs_vs_Cats-CNN: Binary Image Classification . This ...

github.com

위의 링크 참고하시면 조와요 ^^

기본적으로 CNN(Convolutional Neural Network)의 핵심은 특징 추출에 있습니다. 보통 컨볼루션을 설명하기 위해 이미지 분석을 예로 들고는 하는데, 가장 CNN 원리에 들어맞는 설명이기 때문입니다.

예를 들어 컨볼루션 레이어로 강아지 이미지를 학습하게 되면, 필터가 이동하면서 이미지의 특징(예를 들어 강아지의 귀, 코, 눈, 꼬리 등)을 잡아내고, "강아지 같다"라는 결론을 내는 것입니다.

이미지의 경우는 가로와 세로가 있기 때문에 2D CNN에 해당하고, 여기서 다루는 전력 데이터의 경우 가로x세로의 형태가 아니라 시간축을 기준으로 쭉 나열되어 있는 구조이기 때문에 1D CNN인 것입니다.

즉, 시간축을 따라 1차원적으로 필터가 지나가면서 특징을 잡아내게 (=특징 추출) 되는 것입니다.

(2) UNet이란?

UNet은 모델 아키텍쳐에 해당되는데, 여기서 아키텍쳐(Architecture)라는 것은 '어떤 구조를 가지는가' 즉 '모델의 설계도, 설계 방식'에 해당합니다.

위의 그림은 논문에서 UNet 모델을 설명할 때 첨부한 그림인데, 말 그대로 구조가 U자 처럼 생겨서 U-Net이라고 불리는 것입니다.

정말 간단하게 정리하자면 UNet의 경우 밑으로 내려가면서는 정보를 압축(= 특징 추출, Encoder)를 하고 다시 올라가는 부분에서는 정보 복원(= 해상도 복원, Decoder)를 하는 구조(설계구조)를 가집니다.

그리고 여기서 Skip-Connection이라는 개념도 등장하는데, 여기서부터는 저도 잘 몰라서 이에 대한 자세한 설명의 경우 아래 글에 잘 정리되어 있는 것 같으니 참고하시면 좋겠습니다.

https://ai-bt.tistory.com/entry/U-Net-%EC%9D%98-%EC%9D%B4%ED%95%B4

U-Net 의 이해

U-Net은 이미지 분할(Image Segmentation) 문제를 해결하기 위해 개발된 합성곱 신경망(CNN) 기반의 모델이다. 이 모델은 2015년에 Olaf Ronneberger와 그의 동료들에 의해 의료 영상 분석을 위해 제안되었으며

ai-bt.tistory.com

베이스라인 모델(Baseline Model)

다시 처음으로 돌아가서, 저의 목적은 '전체 전력에서 개별 전력을 분해하는 모델을 만드는 것'이었습니다.

이걸 처음(제로베이스)부터 하나하나 만드는 게 아닌 다른 모델을 참고하여 가장 간단한 베이스라인(기본 모델)을 만들어 놓고, 점점 발전해나가자는 것이 목표였습니다.

이렇듯 모델 빌딩 과정에서 베이스라인(가장 기본이 되는 모델, 가장 가벼운 모델)을 만들어두는 것이 중요한 이유는

발전된 모델과의 비교 대상 → 성능 개선의 비교 기준
파이프라인 설정 → 이후 과정에서의 정상 작동 확인
디버깅의 용이성 → 에러의 정확한 원인 파악에 용이

등등... 이 있습니다.

생각해보면 애초에 처음부터 완벽한 새로운 모델을 만드는 것은 말도 안 되는 일입니다. 그래서 저는 베이스라인 모델로 UNet 모델이 아닌 참고논문에서의 비교자료로 쓰인 CNN1D 모델을 먼저 만들기로 하였습니다.

코드는 위 논문 UNet-NILM: A Deep Neural Network for Multi-tasks Appliances State Detection and Power Estimation in NILM의 저자 Anthony Faustine이 올려둔 것을 참고하였습니다.

https://github.com/sambaiga/UNETNiLM

GitHub - sambaiga/UNETNiLM

Contribute to sambaiga/UNETNiLM development by creating an account on GitHub.

github.com

요즘에는 이런 식으로 코드와 논문을 같이 공개하는(혹은, 공개해야 하는) 경우가 대다수입니다. 보통 논문(Paper)를 먼저 공개하고 이후에 코드를 공유하는 식으로 진행되니 공부하시는 분들은 잘 써먹으세여~~

데이터 전처리 과정

현재 데이터는 Pandas의 데이터프레임 형태로 존재합니다. 그리고 파이토치로 모델을 만들 것이기 때문에 이 시계열 전력 데이터(이전 글에서의 '고양시 전력데이터'를 그대로 사용합니다.)를 파치토치 텐서 형태로 바꿔줄 필요가 있습니다.

즉, 이전에 수행한 전처리에 더해 모델에 돌릴 수 있는 형태로 만드는 추가 전처리 과정이 필요합니다.

전체적인 추가 전처리 과정은 다음과 같습니다.

전체 전력량 기준으로 Min-Max Scaling
Feature Data와 Target Data 만들기
Pytorch 텐서 변환 과정

과정을 하나하나 정리하자면 다음과 같습니다.

(1) 전체 전력량 기준으로 Min-Max Scaling

대부분의 머신러닝 모델 학습 과정에서 스케일링은 필수적인 과정입니다. 적절한 스케일링을 통해 모델이 왜곡 없이 데이터를 받아들일 수 있게 해야 합니다.

스케일링의 방법은 여러가지가 존재하나 중요한 것은 모델이 왜곡없이(=다른 오해 없이) 받아들일 수 있는 형태로 하되 정보 손실을 최소화 하는 방법으로 스케일링 하는 것이 중요합니다. (누가 한 말은 아니고, 그냥 제 생각입니다...)

해당 전력 데이터의 경우 '전체 전력대비 개별 기기의 전력'이라는 정보를 유지하기 위해 전체 전력량을 기준으로 Min-Max Scaling을 선택하였습니다.

(2) Feature Data와 Target Data 만들기

모델을 만들기 전에 먼저 확실하게 정해두고 시작해야 하는 것이 있습니다.

모델이 해결해야 하는 과제가 무엇인지 (과제정의: 회귀인지, 분류인지)
Feature와 Target이 각각 무엇인지

과제 정의의 경우 위에서 충분히 정의하였으니 Feature와 Target이 무엇이 될지를 명확히 하고 가야합니다.

즉, 모델이 무엇을 Input으로 받고 Output으로 무엇을 낼지를 정해줘야 한다는 것입니다. 해당 베이스라인 모델의 경우

Input으로 전체 전력반의 active power(유효전력)을 받고
Output으로 개별 기기의 유효전력(power)와 ON/OFF 상태(state)를 출력

해야 합니다. 예시로 Target Data를 만드는 과정은 다음과 같습니다.

# 개별 기기의 데이터
target_dfs = [df_ch02, df_ch03, df_ch07, df_ch09, df_ch10,  df_ch23]

# 유효전력(power)와 ON/OFF 상태(state) 데이터
power_dfs = [
    df[['date_time', 'active_power']].rename(columns={'active_power': f'power_{i}'})
    for i, df in enumerate(target_dfs)]
state_dfs = [
    df[['date_time', 'active_inactive']].rename(columns={'active_inactive': f'state_{i}'})
    for i, df in enumerate(target_dfs)]

# 데이터셋 병합 과정
power_merged = power_dfs[0]
for df in power_dfs[1:]:
    power_merged = pd.merge(power_merged, df, on='date_time', how='outer')
state_merged = state_dfs[0]
for df in state_dfs[1:]:
    state_merged = pd.merge(state_merged, df, on='date_time', how='outer')

(3) Pytorch 텐서 변환과정

앞서 설명했듯 현재 데이터는 Pandas의 DataFrame 형태로 존재합니다.

딥러닝 모델은 파이토치를 사용해 만들 것이기 때문에 데이터를 적절한 텐서 형태로 만들어줘야 합니다. 구체적인 과정(파이프라인)은 다음과 같습니다.

우선 DataFrame을 array 형태로 변환
텐서로 바꿔주기 전에, 시계열 데이터를 시간 순서대로 train test split
Windowing 과정: 시퀀스 단위 재배치
파이토치 텐서로 변환

각 과정에 대해 조금 더 자세히 설명해보자면

시계열 데이터이기 때문에 데이터를 섞어서(shuffle) train 데이터와 test 데이터를 나누는 것이 아닌, 시간 순서대로 split해줘야 합니다.

또한 여기서 말하는 Windowing 과정이란, 시계열 데이터를 “작은 조각의 학습 단위”로 쪼개는 작업입니다. 그리고 ‘시간에 따른 흐름’을 모델이 관찰할 수 있도록 이를 하나의 묶음(Sequence)로 만들어 줘야 합니다.

위에서 말한 ‘시퀀스 단위 재배치’는 이 시퀀스(묶음) 단위로 데이터를 재배치하는 과정을 뜻합니다.

1D CNN 모델 만들기

실제로 모델을 만드는 과정에서는 다음 코드를 참고하였습니다.

https://github.com/sambaiga/UNETNiLM/blob/master/src/net/layers.py

UNETNiLM/src/net/layers.py at master · sambaiga/UNETNiLM

Contribute to sambaiga/UNETNiLM development by creating an account on GitHub.

github.com

사실 파이토치로 모델 만드는 과정에서 쓰인 레이어들도 다 가져오려고 했는데, 각 레이어들이 너무 무거워서 모델이 돌아가다가 중간에 멈춰버리는 문제점이 있었습니다.

그래서 실제로 쓰이는 부분들만을 가져와서(조건절 코드의 생략 등) 간단하게 레이어들을 선언하고, 모델을 만들었습니다.

모델에 쓰이는 각 레이어는(코드 생략) 다음과 같습니다.

MLPLayer: 완전 연결층 블록으로, Linear 층 및 활성화함수 포함
Conv1D: 컨볼루션 레이어의 기본 단위
Encoder: 위에서 선언한 Conv1D 레이어를 쌓아올려, 특징 추출의 역할을 함

이를 바탕으로 한 전체 모델은 다음과 같습니다.

class CNN1DModel(nn.Module):
    def __init__(self, in_size=1,
                 output_size=12,
                 d_model=128,
                 dropout=0.01,
                 seq_len=9,
                 n_layers=5,
                 n_quantiles=1,
                 pool_filter=16):
        super().__init__()
        self.enc_net = Encoder(n_channels=in_size, n_kernels=d_model, n_layers=n_layers, seq_size=seq_len)
        self.pool_filter = pool_filter
        self.mlp_layer = MLPLayer(in_size=d_model*pool_filter, hidden_size=1024, output_size=None)
        self.dropout = nn.Dropout(dropout)
        self.pool_filter = pool_filter
        self.n_quantiles = n_quantiles

        self.fc_out_state  = nn.Linear(1024, output_size*2)
        self.fc_out_power  = nn.Linear(1024, output_size*n_quantiles)

        # 출력 제약: 전력은 0 이상만 나오도록 ReLU
        self.power_act = nn.ReLU()

        nn.init.xavier_normal_(self.fc_out_state.weight)
        nn.init.xavier_normal_(self.fc_out_power.weight)
        self.fc_out_state.bias.data.fill_(0)
        self.fc_out_power.bias.data.fill_(0)

    def forward(self, x):
        x = x.permute(0,2,1)
        B = x.size(0)
        conv_out = self.dropout(self.enc_net(x))
        conv_out = F.adaptive_avg_pool1d(conv_out, self.pool_filter).reshape(x.size(0), -1)
        mlp_out  = self.dropout(self.mlp_layer(conv_out))

        states_logits   = self.fc_out_state(mlp_out).reshape(B, 2, -1)

        # 전력 출력 → Linear + ReLU
        power_logits    = self.fc_out_power(mlp_out)
        power_logits    = self.power_act(power_logits)

        if self.n_quantiles > 1:
            power_logits = power_logits.reshape(B, self.n_quantiles, -1)

        return  states_logits,  power_logits

마지막 부분을 보시면 위에서의 설명대로 모델이 개별 기기의 ON/OFF 상태 예측(state_logits)와 개별 기기의 전력량 예측(power_logits)을 동시에 예측하는 Multi-task Model임을 확인할 수 있습니다.

1D CNN 모델 학습과정

(1) Feature Data 구조 변경

실제로 모델을 돌리는 과정에서는 이런저런 시행착오들이 존재하였습니다. 위에서 모델의 Feature Data(=Input)과 Target Data(=Output)에 대해 다음과 같이 정의하였습니다.

Input으로 전체 전력반의 active power(유효전력)을 받고
Output으로 개별 기기의 유효전력(power)와 ON/OFF 상태(state)를 출력

이때 Input으로 학습시킬 Feature Data의 일부는 다음과 같습니다. (전체 전력반의 유효전력)

이때 발생한 문제점은 Feature로 넣어줘야 하는 데이터가 시계열 데이터 특성 상 너무 "세로로 긴" 형태였다는 것입니다.

실제로 확인해보면 데이터가 864,000개나 됩니다. 모델이 받는 데이터가 너무 길다보니 애초에 학습코드가 끊임없이 돌아가거나 돌아가다 멈추는 문제가 발생하였습니다.

이에 대한 해결로 30개의 데이터들을 합쳐 하나로 "옆으로 길게" 나열하는 방법을 선택하게 됩니다. 즉, 00시 00분 0.1초부터 00시 00분 3.0초까지의 데이터를 하나의 행으로 옆으로 나란히 세우는 겁니다. 이렇게 되면 Feature Data의 shape을 (864000,2)에서 (28800,31)로 바꿀 수 있게 됩니다.

사실 이건 교수님이 해주신 조언이었는데,

어차피 시간흐름에 따른 전력 흐름의 패턴을 찾는 것이 1D CNN모델의 역할이기 때문에, 이러한 "옆으로 긴" 형태로 바꿔줘도 무방할 것이라는 생각이었습니다.

(2) 모델 학습 코드

모델 학습 코드의 경우 여느 파이토치 모델학습 코드와 다를 것은 없습니다. 다만 위에서 설명하였듯이 Power Prediction과 State Prediction을 동시에 수행하는 모델이기 때문에 이에 대한 criterion을 각각 정의해줘야 합니다.

# 손실함수 및 optimizer 정의
optimizer = torch.optim.Adam(model.parameters(), lr=1e-3)
criterion_state = nn.CrossEntropyLoss()   # 우선은 클래스가 2개인 다중분류로, CrossEntropyLoss 사용
criterion_power = nn.MSELoss()

num_epochs = 50       # epoch 개수 설정

total_losses = []     # loss 값 저장용
state_losses = []
power_losses = []

for epoch in range(num_epochs):
    model.train()
    optimizer.zero_grad()

    states_logits, power_logits = model(x_train_tensor) 

    # 상태 예측 loss
    state_loss = 0
    for i in range(state_train_tensor.shape[1]):  # 12개 가전
        state_loss += criterion_state(states_logits[:, :, i], state_train_tensor[:, i])
    state_loss /= state_train_tensor.shape[1]

    # Loss 구하기
    power_loss = criterion_power(power_logits, power_train_tensor)

    total_loss = state_loss + power_loss
    total_loss.backward()
    optimizer.step()

    total_losses.append(total_loss.item())
    state_losses.append(state_loss.item())
    power_losses.append(power_loss.item())

    print(f"[{epoch+1}/{num_epochs}] total_loss: {total_loss.item():.4f}")

1D CNN 모델학습 결과

우선 train 데이터에 대해 학습 과정에서의 Loss 변화를 그려보면 다음과 같습니다.

뭔가...문제가 있다는 걸 바로 볼 수 있는데 딱 봐도 State Loss는 둘째치고 Power Loss가 땅바닥을 기어다니는걸로 봐서 Power Prediction에 문제가 있다는 것을 알 수 있습니다. 문제점을 자세히 살펴보고 정리해본다면 다음과 같습니다.

문제점 #1. R-squared 음수 출력

여기서 무엇이 문제인지 자세히 살펴봅시다.

우선은 State Prediction과 Power Prediction에 대해 평가지표를 각각 출력해 보았습니다. 설명한 바와 같이 전자의 경우는 분류 문제이고 후자의 경우는 회귀 문제이기 때문에, 평가지표를 다르게 해야 합니다.

State Prediction의 평가지표는 다음과 같습니다.

물론 Precision, Recall, F1-score는 낮지만 Accuracy만을 따졌을 떄는 조금은 봐줄 만한 점수가 나왔습니다.

애초에 본 모델은 가장 기본적인 '베이스라인 모델'이므로 어느 정도의 성능은 기대하겠지만 평가지표에서 관찰해야 할 것은 "모델의 성능이 얼마나 정확한가?"를 볼 것이 아니라 "모델이 내가 원하는 방향으로 돌아가고 있는가?"를 따져야 합니다. Accuracy가 0.7은 넘었으므로 State Prediction은 적당히 작동되는 걸로 볼 수 있습니다.

그런데 문제는 Power Prediciton의 평가지표를 출력해보면 R-squared가 음수가 나오는 처참한 결과가 나옵니다...

무엇이 문제인지 몰라서 이것저것 인터넷을 뒤져 봤는데, 저의 상황에 맞는 정확한 답을 찾을 수는 없었습니다.

https://bluediary8.tistory.com/159

테스트 데이터에서 회귀 모델의 결정계수가(R2) 음수가 나오는 이유

회귀 모델의 결정계수(R2)는 회귀 모델의 성능 지표로서 사용이 가능하며, 다음과 같이 쓸 수 있습니다. R2의 범위는 0부터 1사이라는 것을 수식만 봐도 알 수 있는데, 테스트 데이터에서 R2를 뽑아

bluediary8.tistory.com

문제점 #2. Power가 모든 지점에서 0인 문제

문제의 원인을 찾기 위해 모델의 출력값을 관찰해보기로 했습니다. 실제로 모델이 낸 답이 무엇인지를 확인해보니, 왜 R-squared가 음수값이 나왔는지를 알 수 있었습니다.

다음은 TV의 경우에 대해, test 데이터에 대해 모델이 낸 State Prediction과 Power Prediction의 답입니다.

두 그래프를 비교해보면 무엇이 문제인지를 바로 알 수 있는데,

모델이 TV가 켜져있는지 or 꺼져있는지는 어느 정도로 예측하는 반면, TV가 사용한 전력량에 대해서는 모두 0으로 예측하고 있다는 것입니다. 다른 모든 기기에 대해 확인해보았을 때도, ON/OFF 상태는 적절한 수준으로 예측하고 있는 반면 각 기기가 사용하는 전력량은 모두 0으로 예측하고 있었습니다.

모델이 낸 Power Prediction에 대한 답이 모두 0인 상황에서, R-squared를 계산하면 음수가 나오는 것은 당연한 결과였을 것입니다. (R-squared의 계산 공식에 비추어 볼 때)

모델의 문제가 아니라 데이터의 문제가 아닐까도 생각해 보았습니다. 실제 데이터(정답 데이터)에서 TV의 사용 전력량이 0이었기 때문에 모델도 TV의 사용 전력량을 0으로 예측한 것이 아닐까요?

그렇지만 실제 TV의 데이터는 다음과 같이, 명확한 전력량 사용이 존재하는 형태였습니다.

즉, 제가 만든 베이스라인 모델은

개별 기기의 ON/OFF 상태는 어느 정도로 적절하게 예측하지만,
개별 기기의 전력량은 모두 0으로 예측하는 (= 개별 기기의 전력량은 파악하지 못하는)

상황인 것입니다.

여기까지 제가 만든 Nilm의 1D CNN 베이스라인 모델에 대해

모델의 참고 논문부터 간단한 이론, 모델 빌드 과정, 그리고 모델의 학습결과까지를 정리하였습니다.

결론부터 말씀드리자면 저는 결국 모델이 왜 Power Prediction에 실패하는지에 대한 원인을 찾아내지 못했습니다. 그래서 다른 해결 방안으로 참고논문에서 모델학습에 사용한 UKDALE 데이터를 사용하여, 데이터 보완을 진행하는 방안을 선택하였습니다.

다음 글에서는 이 UKDALE 데이터에 대해 조금 더 자세히 정리해보도록 하겠습니다.

[Nilm] (4)-FFT와 이상탐지

powderblue0 — Wed, 28 Jan 2026 23:13:48 +0900

지난 글에서는 데이터 선정 과정과 다운로드한 "대용량 데이터"를 어떻게 "다룰 수 있는 수준"까지 줄였는지에 대해 정리하였습니다. 아래에서 지난 글을 확인할 수 있으니 참고 바랍니다.

https://powderblue0.tistory.com/16

[Nilm] (3)-데이터 선정과 전처리

이전까지의 글에서 Nilm 기술에 대한 소개와 Nilm 연구에 사용되는 데이터에 대해 정리하였습니다. 이제부터는 '그래서 제가 실제로 무엇을 하였는지'에 대해 정리해보려고 합니다. 이번 글에서는

powderblue0.tistory.com

일련의 전처리 과정을 거쳐 다음과 같은 데이터를 얻었습니다.

이번 글에서는 전처리한 데이터에 대해 수행한 분석들 및 그 적용근거, 그리고 분석 결과까지를 요약해보도록 하겠습니다. 모델 빌드 전 데이터를 분석하는(EDA) 단계의 일부라고 보시면 될 것 같습니다.

왜 FFT여야 하는가?
FFT 분석 과정 및 결과
시계열 이상탐지(Abnomaly Detection)
이상탐지 결과
분석 결과 정리

왜 FFT여야 하는가?

데이터 전처리 과정 이후 가장 먼저 한 것은 active power(유효전력)열에 대한 FFT분석이었습니다.

참고용으로 (2)편에서 FFT 설명할 때 올린 링크를 다시 첨부해두겠습니다.

https://www.nti-audio.com/ko/%EB%89%B4-%EC%8A%A4/fft%EC%97%90-%EA%B4%80%ED%95%9C-%EB%AA%87-%EA%B0%80%EC%A7%80-%EC%82%AC%ED%95%AD%EC%9D%84-%EC%A0%95%EB%A6%AC%ED%95%B4-%EB%B4%85%EC%8B%9C%EB%8B%A4

FFT에 관한 몇 가지 사항을 정리해 봅시다…

"빠른 Fourier 변환 (FFT)"은 오디오 및 음향 측정 분야에서 중요한 측정 방법 입니다. 신호를 개별 스펙트럼 구성 요소로 변환하여 신호에 대한 주파수 정보를 제공 합니다. FFT는 기계 또는 시스템

www.nti-audio.com

가장 먼저 FFT분석을 한 이유는 전체 전력량에서 개별 전력량을 분해한다는 Nilm 기술의 핵심과 가장 적합한 분석 방법이라고 생각했기 때문입니다.

데이터에서 기본적으로 개별 기기의 소비량이 결합된 형태는 복잡한 파형을 형성하게 되는데, 이때 FFT분석을 할 경우 복잡한 시간축의 신호를 주파수 축으로 변환(=푸리에 변환)하여 분석을 용이하게 만들어 줄 것이라 예상하였습니다.

FFT 분석 과정 및 결과

제공받은 데이터의 22가지 수집 기기는 다음과 같습니다.

구체적으로 예상하였던(기대했던?) FFT 결과는 다음과 같습니다.

모터가 없는 단순 ON/OFF 기기의 경우 주파수 피크가 미미할 것이다.
반대로 모터나 컴프레셔가 있는 냉장고, 헤어드라이어 등은 특정 회전수(=주파수)의 피크가 나타날 것이다.

유의미한 FFT 분석의 경우 다음과 같이 주파수 도메인에서 뚜렷한 피크를 보이는 형태로 나옵니다.

즉, x축이 주파수(Frequency)인 그래프에서 눈에 띄는 피크가 존재하는, 아래와 같은 느낌의 결과를 기대했습니다.

그리고 이를 수행하기 위한 간단한 코드는 다음과 같습니다.

active_power(유효전력)열에 대해 FFT를 수행하는 함수 fft()와 단순하게 시간에 대한 active_power(유효전력) 그래프를 그려주는 함수 graph()를 각각 선언하였습니다.

각 수집기기에 대해 FFT 분석을 해줄 것이기에, 이처럼 여러 번 반복할 작업의 경우 이렇게 함수 선언을 해주면 편해요.

def fft(df):       # FFT 분석 함수
    df.index = pd.to_datetime(df.index)   # 시간인덱스를 datetime 형식으로 변경
    signal = df["active_power"].values    # active power에 대해 FFT 수행

    time_diffs = df.index.to_series().diff().dt.total_seconds().dropna().values
    sampling_interval = np.median(time_diffs)
    fs = 1 / sampling_interval  # 샘플링 주파수

    # FFT 수행
    n = len(signal)
    fft_result = np.fft.fft(signal)
    freqs = np.fft.fftfreq(n, d=1/fs)
    power_spectrum = np.abs(fft_result)**2 / n

    mask = freqs > 0        # 양의 주파수만 추출
    freqs = freqs[mask]
    power_spectrum = power_spectrum[mask]

    plt.figure(figsize=(10, 4))
    plt.plot(freqs, power_spectrum, color='blue')
    plt.title("Power Spectrum of active_power (df1_active)")
    plt.xlabel("Frequency (Hz)")
    plt.ylabel("Power")
    plt.show()
    
def graph(df):        # active power 그래프 그리는 함수
    df = df.sort_index()

    plt.figure(figsize=(15, 5))
    plt.plot(df.index, df['active_power'], color='green', linewidth=0.5)
    plt.xlabel('Time')
    plt.ylabel('Active Power')
    plt.show()

실제로 코드를 돌려보면 결과는 다음과 같습니다.

초록색 그래프가 시간 도메인으로 유효전력을 그렸을 때의 경우이고, 파란색의 경우가 FFT를 통해 주파수 도메인으로 유효전력을 그렸을 때의 그래프입니다. 대표적으로 TV와 선풍기를 살펴보면 다음과 같습니다.

TV (시간 도메인)

TV (주파수 도메인)

선풍기 (시간 도메인)

선풍기 (주파수 도메인)

결론적으로 유의미한 결과는 없었다..고 볼 수 있습니다. 저기 저 파란색 그래프에서 뚜렷한 피크(삐쭉삐쭉한 느낌으로)가 보여야 하는데 그러지 않았기 때문입니다.

에어프라이어 (주파수 도메인)

그나마 제일 괜찮게 나온 결과는 이건데.. 사실 이렇게 좁은(1Hz~5Hz) 범위에서의 주파수 피크는 무의미하다고 봐야 합니다.

FFT 분석 결과가 왜 유의미하지 않았는가? 라는 질문을 던지는 건 조금 어려울지도 모르겠습니다.

데이터의 문제(마스킹 과정에서의 정보 오류)일 수도 있고, 샘플링의 문제일 수도 있고, 아니면 기기 내부 구조(모터, 컴프레셔 등)의 문제일 수도 있기 때문에 실패의 원인을 정확히 집어내기에는 한계가 있습니다.

그렇지만 확실한 건, Nilm 분석에 있어서는 주파수 도메인으로 보는 것보다 시간 도메인 그대로 보는 것이 좋다는 것입니다.

시계열 이상탐지(Abnomaly Detection)

사실 시계열 데이터가 아닌 데이터에서의 이상탐지와 시계열 데이터에서의 이상탐지는 조금 결이 다르다고 생각합니다. 데이터에 시간축 하나가 더해지는 것만으로 "이상치를 어떻게 골라낼 것인가?"의 질문은 매우 복잡해지기 때문이죠. 시계열 데이터의 이상치 탐색 방법에 대해서도 설명하는 게 맞지만, 아직 제 지식이 부족한 관계로...

이번 글에서는 왜 이상탐지 분석을 수행했는지에 대해서만 정리하도록 하겠습니다.

시간축을 중심으로 그린 유효전력 그래프를 다시 관찰해봅시다. (위에서 그린 초록색 그래프)

선풍기

선풍기의 경우 유효전력 그래프를 쭉 그려보면 켜질 때마다 저런 식으로 "급상승 후 약간의 감소를 보임"의 패턴을 보입니다.

전기포트

전기포트의 경우 잘 보이실진 모르겠는데, 켜지고 꺼질 때마다 "급상승 후 유지, 꺼지기 직전에 아주 잠깐의 상승 피크를 보임"의 패턴을 관찰할 수 있습니다.

이러한 "급상승"과 같은, 눈에 띄는 모멘트들이 각 수집기기마다 존재했기에 이러한 포인트들을 잡아내는 것이 전체 전력에서 개별 전력을 분해하는 데에 도움이 될 수 있을 것이라 판단했고, 이를 위해 이상탐지 분석을 진행하였습니다.

이상탐지 결과

전체 분전반의 active_power(유효전력)열에 대해 이상탐지를 시도한 결과입니다.

파란색 선이 전체 분전반(=전체적으로 사용한 전력의 총합을 측정한 것) 의 유효전력이고, 빨간색으로 표시된 점들이 이상치로 선정된 점입니다. 코드는 제가 아니라 다른 팀원이 돌려서 없긴 한데, 분석의 자세한 과정을 정리하면 다음과 같습니다.

전체 시간 구간(2,592,000개 샘플)에 대해 이상탐지
약 0.5%(12,960건)가 이상치로 탐지되었으며
이상치 5개 이상 연속 발생한 이상 구간만 유지하여 최종 12,200건 내외로 필터링

자세한 분석 그래프를 수집기기 차원에서 하나하나 살펴보면,

냉장고

냉장고의 경우에는

빨간색 점들이 전체 전력반의 유효전력 이상치이고, 파란색 음영 부분은 냉장고가 켜져있는 시점을 나타낸 것임을 참고하면, 냉장고가 '켜지는' 시점이 대부분 이상치로 판단되었다는 것을 알 수 있으며,

헤어드라이기

헤어드라이기의 경우 헤어드라이기의 사용 시점을 음영으로 표시한 점을 고려하면, (잘 안보이실지도 모르겠는데) 전체 전력반의 유효전력이 급상승하는 지점이 사용 시점이라는 것을 알 수 있습니다.

정리하자면 이상치는 주로 다음과 같은 패턴에서 발생하였다고 볼 수 있습니다.

- 급격한 전력 상승/하강 직후
- 장시간 OFF 상태 이후 급격한 전력 상승이 관측되는 시점

분석 결과 정리

이번 글에서 정리한 '고양시 전력데이터' 분석 결과를 정리하면 다음과 같습니다.

FFT 분석에서는 유의미한 결과를 얻을 수 없었다. 즉, 해당 전력데이터의 경우 주파수 도메인으로 살피는 것보다 시간 도메인 그대로 분석 및 모델링 하는 것이 적절하다고 볼 수 있다.
이상치 탐색결과 이상치 발생 지점은 전체 전력의 급상승/ 급하강 지점이다. 이 경우 개별 수집기기의 ON/OFF 순간과 연관된다고 볼 수 있다. 즉, 개별 기기의 전력사용으로 인해 전체 전력의 급상승 및 급하강이 발생하고, 이것이 이상치로 검출되는 것.

다음 글에서는 실제 모델 빌드 과정에 대해 정리하도록 하겠습니다.

https://powderblue0.tistory.com/18?category=1523609

[Nilm] (5)-1D CNN 베이스라인 모델

지난 글에서는 전처리한 '고양시 전력데이터'에 대하여 각각 FFT 분석과 이상탐지 분석을 실시한 결과에 대해 정리하였습니다. https://powderblue0.tistory.com/17 [Nilm] (4)-FFT와 이상탐지지난 글에서는 데

powderblue0.tistory.com

[Nilm] (3)-데이터 선정과 전처리

powderblue0 — Sun, 25 Jan 2026 02:47:41 +0900

이전까지의 글에서 Nilm 기술에 대한 소개와 Nilm 연구에 사용되는 데이터에 대해 정리하였습니다. 이제부터는 '그래서 제가 실제로 무엇을 하였는지'에 대해 정리해보려고 합니다.

이번 글에서는 다음과 같은 목차의 내용을 통해

Nilm을 위한 데이터의 선정 과정과
해당 데이터를 처리할 수 있는 선행연구 모델
그리고 데이터의 전처리 과정

에 대해 정리합니다.

AIHub 제공 데이터
Nilm에서의 회귀와 분류
Seq2Seq 모델과 UNet 모델
데이터 다운로드와 전처리

AIHub 제공 데이터

지난 글은 다음 링크에서 보실 수 있습니다.

https://powderblue0.tistory.com/15

[Nilm] (2)-데이터에 대한 이해

지난 글에 이어 Nilm을 이해하기 위한 기초지식들을 정리하겠습니다. 지난 글에서는 Nilm 기술이 무엇인지 그리고 회로 관련 기초지식에 대해 설명하였고 아래 링크 들어가시면 확인 가능합니다.

powderblue0.tistory.com

앞선 글에서 Nilm 연구에 자주 사용되는 데이터셋에 대해 설명하였습니다. (UKDALE과 REDD)

그렇지만 제가 이 주제를 접하고 처음 사용한 데이터는 UKDALE도 REDD도 아닌 AIHub에서 제공하는 데이터였습니다.

https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&dataSetSn=71685

AI-Hub

www.aihub.or.kr

정확한 데이터 명칭은 전기 인프라 지능화를 위한 가전기기 전력 사용량 데이터 입니다. 데이터 명칭이 너무 기니까 그냥 "고양시 전력데이터"라고 부르겠습니다. (내맘임)

AIHub에 소개되어 있는 데이터 관련 주요 정보들을 정리하자면

- 2023년 10월 한달(31일 간) 간 측정한 데이터
- 경기도 고양시 110 가구에서 측정
- 22종류의 가전기기 및 메인 분전반의 측정 데이터
- 초당 30회 수집(주기 1/30초) / 총 40,641건의 데이터

즉, 가정용 전력 데이터이며 언급한 22종의 가전기기의 경우 다음과 같습니다.

굳이 이 데이터셋을 선택한 이유를 말하자면 기존 영국(UKDALE)이나 미국(REDD)에서 측정한 데이터 위주의 연구와는 차별점을 두기 위해서 대한민국에서 측정한 데이터를 사용하고자 했습니다. (근데 뭐 그렇게까지 큰 의미는 없긴 했습니다.)

Nilm에서의 회귀와 분류

인공지능을 다룰 때 해결해야 할 과제가 회귀문제인지 분류문제인지를 결정하는 것은 중요한 일입니다.

Nilm은 쉽게 말해 전력량 분해 기술 입니다. 이 경우 회귀 문제와 분류 문제를 어떻게 정의내릴 것이냐의 문제가 존재하게 됩니다.

Nilm을 분류 문제로 바라볼 경우 '전력량 분해'는 전체 전력을 보고 각 기기가 켜져 있는지, 혹은 꺼져 있는지,

즉 ON/OFF 상태를 예측하는 이진분류 문제가 되고

Nilm을 회귀 문제로 바라볼 경우 '전력량 분해'는 전체 전력을 보고 각 기기가 얼마만큼의 전력량을 사용하고 있는지를 예측하는 회귀 문제가 됩니다.

선행 연구들을 살펴보면(Method 부분) r의 경우가 회귀, c의 경우가 이진분류입니다. 회귀와 이진분류의 차이를 염두에 두고 선행연구로서 데이터를 학습시킬 두 가지 모델에 대해 설명해 보겠습니다.

Seq2Seq 모델과 UNet 모델

AIHub라는 곳이 데이터를 소개할 때 모델도 같이 제시하는 경우가 많습니다. 해당 주제도 그러한 경우입니다. 위의 '고양시 데이터'에 대해 AIHub는 두 가지 모델을 제시하고 있습니다.

https://www.youtube.com/watch?v=X2H45LFwjRU

관련 내용은 영상에 길게 소개되어 있긴 한데

자세히 살펴본 사람 입장에서 오류가 있는 부분도 많기에 (오류라고 생각되는 부분은 데이터 제공측에 메일을 보내서 문의했는데 답장이 오지 않았음..;;;) 따로 찾아본 내용을 토대로 두 가지 모델을 소개하겠습니다.

(근데 따지자면 선행연구에 가까운 내용이라, 너무 깊게는 설명하지 않겠음)

(1) Seq2Seq 모델

Seq2Seq/ Seq2Point 모델의 경우 회귀 문제로 접근한 경우입니다. 즉 개별 기기의 전력 사용량 예측을 위한 모델이며, 모델의 구조는 다음과 같습니다.

https://arxiv.org/abs/1612.09106

Sequence-to-point learning with neural networks for nonintrusive load monitoring

Energy disaggregation (a.k.a nonintrusive load monitoring, NILM), a single-channel blind source separation problem, aims to decompose the mains which records the whole house electricity consumption into appliance-wise readings. This problem is difficult be

arxiv.org

이는 Chaoyun Zhang의 Sequence-to-point learning with neural networks for non-intrusive load monitoring이라는 논문에 소개되어있는 모델입니다.

(2) UNet 모델

UNet 모델의 경우 하나의 모델을 통해 회귀와 이진분류를 동시에 수행하는 Multi-task Model이라는 것이 가장 큰 특징입니다. Faustine의 UNet-NILM: A Deep Neural Network for Multi-tasks Appliances State Detection and Power Estimation in NILM이라는 논문에 소개되어 있습니다.

https://www.researchgate.net/publication/347145700_UNet-NILM_A_Deep_Neural_Network_for_Multi-tasks_Appliances_State_Detection_and_Power_Estimation_in_NILM

제목 그대로 두 가지 관점을 결합하였다는 측면에서 눈여겨볼 만한 선행연구라고 볼 수 있습니다.

이후 글에서 정리하겠지만 이 '(2)UNet 모델'의 경우가 제가 베이스라인 모델을 만들 때 참고한 모델입니다.

데이터 다운로드와 전처리

데이터 다운로드의 경우 위에서 언급하였듯이 AIHub가 제공하는 데이터를 다운로드 받았습니다.

이게 생각보다 대용량 데이터라 실제로 다운로드 받는 데에 여러 많고많은 우여곡절들이 있었지만 같이 프로젝트 진행하던 팀원들의 도움 끝에 다운로드에 성공하였고 전처리까지 무사히 진행했습니다..

이처럼 대용량 데이터를 다루게될 때 겪게 되는 현실적인 어려움들이 있는데, 나중에 기회가 된다면 따로 정리해보겠어요,,

원천데이터 예시는 다음과 같습니다.

각 열(Feature)인 active_power, voltage, current, frequency,...에 대한 설명 및 그와 관련한 회로 지식은 (1)편에서 정리한 바 있습니다.

https://powderblue0.tistory.com/10

[Nilm] (1)-Nilm 기술의 이해

powderblue0.tistory.com

분석 및 모델링을 위해 사용할 피쳐의 선택은 간단한 전류 지식을 바탕, 중요하다고 생각한 피쳐만을 남겼습니다. 아래에서도 말하겠지만 모든 열(Feature)을 살리는 것보다 다룰 수 있는 수준까지 데이터를 줄이는 것이 우선이라고 판단하였기 때문입니다.

'고양시 전력데이터'의 데이터 수집 관련 정보를 다시 한 번 정리하면 다음과 같습니다.

- 2023년 10월 한달(31일 간) 간 측정한 데이터
- 경기도 고양시 110 가구에서 측정
- 22종류의 가전기기 및 메인 분전반의 측정 데이터
- 초당 30회 수집(주기 1/30초) / 총 40,641건의 데이터

데이터를 다루는 데에 있어서 가장 큰 어려움은 대용량이라는 점이었기에 기본적인 전처리는 데이터를 다룰 수 있는 크기까지 줄이는 것에 집중하였습니다. 크게는

110가구 중 1번째 가구의 데이터만을 이용함
10월 한 달간의 데이터 중 10월 1일 데이터만을 추출
샘플링 주기 0.033sec(1/30초)에서 0.1sec(1/10초)로 변환
주요 피쳐 추출: active_power(유효전력), voltage(전압), current(전류), reactive_power(무효전력)
ON/OFF 상태를 나타내는 active_inactive 피쳐의 생성

과 같은 과정을 거쳤습니다.

전처리 이후의 데이터는 다음과 같이 생겼습니다.

이렇게 csv 형태로만 보면 와닿지 않으니 전체 분전반의 그래프를 그려보면, 데이터는 대충 이렇게 생겼습니다.

이 전체 분전반의 그래프에서 각 기기의 전력 사용량 및 ON/OFF 상태를 판단하는 것이 목적이라고 볼 수 있겠습니다.

이로서 이번 글에서 데이터의 선정 과정과 전처리 과정까지 정리하였습니다.

다음 글에서는 해당 데이터를 통해 어떠한 분석을 했으며 또 어떠한 결론을 도출해내었는지까지 정리해보도록 하겠습니다.