Nilm 및 전력예측

[Nilm] (6)-UK-DALE 데이터

powderblue0 2026. 1. 31. 23:31

이번 글에서는 이전 Nilm 관련 글들의 흐름과는 조금 벗어나, 새롭게 UK-DALE 데이터에 대해 정리해보고자 합니다.

 

이번 글은 UK-DALE 데이터와 UK-DALE의 다운로드 방법에 대한 정리글입니다.

Nilm의 연장선에서 이 내용을 정리하는 것도 있지만, 제가 UK-DALE 데이터의 다운로드를 시도했었을 때 다양한 시행착오들이 있었고, 당시에 한국어로 정리된 다운로드 방법 관련 글이 하나도 없었기에 (ㅠㅠ) 그냥 제가 한 번 정리해보려고 합니다. 

 

글을 시작하기 전에 혹시라도 이번 글로 제 블로그를 처음 접하는 분이시라면, UKDALE 관련 글 이전에 아래 글 참고하시면 좋을 것 같습니다. 

https://powderblue0.tistory.com/10

 

[Nilm] (1)-NILM 기술의 이해

이번 글에서는 Nilm 기술의 개념에 대해 설명하고, 심화적인 이해에 필요한(필요할지도 모르는?) 교류전력 개념을 설명합니다. 교류전력 파트의 경우 제가 아는 모든 지식을 최대한 쉽게 풀어 설

powderblue0.tistory.com

또한 데이터 다운로드 방법의 경우 데이터 버전이 꾸준히 업데이트 되는 것을 반영하지 못할 수도 있는 점 양해 바랍니다.


목차

  • UK-DALE 데이터란?
  • UK-DALE 다운로드 링크
  • 데이터 다운로드
    • 고주파 데이터 다운로드
    • 저주파 데이터 다운로드
  • UK-DALE 결측치 관련 참고논문

 

*UK-DALE은 오픈소스 데이터이긴 하지만, 비슷하게 생긴 서로 다른 다운로드 링크가 많으므로 블로그에 첨부된 링크별 설명을 잘 참고하시길 바랍니다.

 

UK-DALE 데이터란?

UK-DALE 데이터는 기본적으로 Nilm 연구를 위한 데이터셋입니다. NILM 연구에 있어서는 교과서적인 데이터라고 볼 수 있습니다. (Nilm 연구에서 미국의 REDD와 함께 가장 널리 쓰이는 데이터셋 중 하나입니다.)

J.Kelly, W.Knottenbelt "The UK-DALE dataset ..." 중 일부

 

UK-DALE은 Jake Kelly와 William Knottenbelt가 작성한 논문 The UK-DALE dataset, domestic appliance-level electricity demand and whole-house demand from five UK homes 에서 처음 소개된 데이터셋입니다.

https://arxiv.org/abs/1404.0284

 

The UK-DALE dataset, domestic appliance-level electricity demand and whole-house demand from five UK homes

Many countries are rolling out smart electricity meters. These measure a home's total power demand. However, research into consumer behaviour suggests that consumers are best able to improve their energy efficiency when provided with itemised, appliance-by

arxiv.org

 

그리 긴 논문이 아니니(그래프 첨부된 거랑 참고문헌 제외 8~10페이지 정도?) UK-DALE 데이터를 사용하실 분들은 논문 한 번 정독해보시는 것도 추천드립니다. 데이터 확보 방법 및 확보된 데이터에 대한 자세한 설명이 나와있습니다. 

 

해당 데이터는 영국 내 5개 가정집(house1부터 house5까지) 2012년부터 2015년까지 측정한 전력 데이터셋이며, 오픈되어 있어서 누구나 다운로드 받을 수 있습니다. 

 

보통 데이터 수집 기간은 2012년부터 2015년까지로 밝혀져 있는데 가장 활발히 연구되는 house1의 경우 2012년 11월부터 2017년 4월까지의 데이터가 확보되어 있다고 적혀있긴 합니다. 

 

데이터 다운로드에 대한 전체적인 개요는 아래 페이지에서 확인 가능합니다.

https://jack-kelly.com/data/ 

 

UK Domestic Appliance-Level Electricity (UK-DALE) dataset

I try to mitigate climate change using computer science. I co-founded Open Climate Fix, a non-profit research lab focused on reducing greenhouse gas emissions. Previously, I was a Research Engineer at DeepMind, where I used machine learning to predict wind

jack-kelly.com

 

 

UK-DALE 다운로드 링크

아래 html 링크에 들어가면 데이터에 대한 설명 및 다운로드 링크가 알잘딱깔쌈뽕하게 정리되어 있습니다.

https://dap.ceda.ac.uk/edc/efficiency/residential/EnergyConsumption/Domestic/UK-DALE-2017/ReadMe_DALE-2017.html

 

UKERC Energy Data Centre - UK Domestic Appliance Level Electricity (UK-DALE)

Other information The (V, I) characteristic in the .FLAC files is uncalibrated. Calibration files are provided in the top-level directory for the data set. The recommended procedure for processing the data is to convert from FLAC (a lossless audio compress

dap.ceda.ac.uk

 

그런데 전부 영어로 작성되어 있다보니 + html 특유의 가독성 떨어짐으로 인해 페이지는 다소 복잡합니다.

핵심을 정리하자면 UK-DALE은 세 개의 데이터로 나누어져 있다고 보면 됩니다.

  1. 16kHz의 고주파 데이터셋 (house1만 제공)
  2. 1/6Hz의 Disaggregated 데이터셋 (개별기기 측정데이터)
  3. 1Hz의 Main(Aggregated) 데이터셋 (전체 전력 측정데이터)

이번 글에서는 편의상 1의 데이터를 '고주파 데이터', 2와 3의 경우를 '저주파 데이터'라고 부르겠습니다. 

 

위의 html 링크 말고 바로 다운로드 가능한 링크를 찾으신다면, 고주파 데이터와 저주파 데이터의 다운로드 링크는 각각 다음과 같습니다. (바로 링크로 들어가셔도 되지만, 진짜진짜 데이터 다운로드가 필요하신 분들은, 아래 '데이터 다운로드'까지 꼭 읽어보세요!)

 

 

UKERC EDC: Data

The Energy Data Centre (EDC) works in collaboration with the CEDA Archive to provide this information The EDC recently relocated the data to new locations to strengthen our preservation processes and improve the management of our data. Unfortunately we can

ukerc.rl.ac.uk

 

 

데이터 다운로드

데이터가 오픈소스여서 "누구나 다운로드 받을 수 있다"고 해서 "쉽게 다운로드 받을 수 있다"는 의미는 아니라고 생각합니다.

 

UK-DALE의 가장 정확한 데이터는 모두 UKERC라는 UK Energy Research Center의 홈페이지에서 다운로드 받아야 합니다. 그런데 여기 홈페이지가 좀 중구난방이여서(그리고 당연하게도 싹다 영어임..) 복잡한데다가 데이터센터다 보니 데이터의 정확한 명칭으로 검색해야 한다는 어려움이 있습니다.

 

따라서 UKERC 홈페이지에서의 검색보다는 아래 정리된 링크로 바로 접속하는 것이 좋습니다. 데이터 다운로드의 세부적인 과정은 고주파 데이터와 저주파 데이터로 나누어서 정리하도록 하겠습니다. 

 

(1) 고주파 데이터 다운로드

고주파(16kHz) 데이터는 5개 가정집 중 house1에 대해서만 데이터가 제공되고 있습니다. 고주파 데이터 다운로드를 시도하는 경우, 중요하게 생각해야 할 점은 이 데이터는 정말 말그대로 16kHz의 "고주파"라는 것입니다.

 

16kHz는 1초동안 16,000번 측정되었다는 것을 의미합니다. CD에 들어가는 음악이 약 44kHz인 것을 생각해보면, 16kHz 수준의 전력 데이터는 "전력량"이라는 숫자를 토대로 데이터를 들여다본다는 접근이 아닌, 전력을 하나의 "파동"으로서 접근하겠다(스파크  이상탐지 등) 는 말이 됩니다. (그러니까, 보통의 전력 데이터 접근 방법과는 다른 방법이라는 뜻입니다.)

 

그럼에도 불구하고 고주파 데이터의 다운로드를 시도하실 저같은 분들은 아래 링크로 들어가시면 됩니다. 

https://data.ceda.ac.uk/edc/d1/887733b3-4c04-471f-9404-9f7459c4a1a0

 

CEDA Archive Web Browser

This website uses cookies. By continuing to use this website you are agreeing to our use of cookies.  OK Find out more

data.ceda.ac.uk

링크에 들어가면 여러 가지 파일 폴더가 존재합니다.

 

고주파 데이터의 경우 데이터가 정말정말 크기 때문에 각 house별로, 그리고 각 파일별로 다운로드 링크가 따로 존재합니다. 이것저것 눌러보시고, 시험용으로 하나 정도만 먼저 다운로드 받아보시면 됩니다. 

 

고주파 데이터는 모두 flac 형식으로 존재합니다. flac 형식은 오디오 데이터를 저장하는 데이터형식인데, 위에서 설명한 것처럼 오디오를 저장할 정도로 미세한 수준의 전력측정 데이터라고 보시면 되겠습니다.

 

실제로 다운로드해보면 이렇게 생겼습니다.

 

(2) 저주파 데이터 다운로드

실제로 Nilm 연구가 활발히 이루어지는 것은 이 '저주파 데이터'의 경우입니다. 저주파(Low-frequency) 데이터의 경우 그냥 일반적인 전력 데이터의 형태입니다. 아래 링크에 들어가시면 zip 파일 형태로 다운로드 가능합니다. 

https://data.ceda.ac.uk/edc/d1/7d78f943-f9fe-413b-af52-1816f9d968b0/data/version_0

 

CEDA Archive Web Browser

This website uses cookies. By continuing to use this website you are agreeing to our use of cookies.  OK Find out more

data.ceda.ac.uk

들어가시면 뵝는 것처럼 ukdale.h5.zip 파일과 ukdale.zip 파일이 존재합니다. 

(조금 헷갈리실 수도 있는데, .h5라고 되어있다고 해서 house5의 데이터라는 뜻이 아니라, h5라는 데이터 포멧의 형태라 ukdale.h5입니다.)

NILMTK 라이브러리를 사용하시는 분들은 ukdale.h5.zip 다운로드 받으시면 되고, 그게 아니라면 ukdale.zip 파일 다운로드 받으시면 됩니다. 

 

또한 github에서 별도의 메타데이터도 제공하고 있습니다.

https://github.com/nilmtk/nilm_metadata/tree/v0.2

 

GitHub - nilmtk/nilm_metadata: A schema for modelling meters, measurements, appliances, buildings etc

A schema for modelling meters, measurements, appliances, buildings etc - nilmtk/nilm_metadata

github.com

 

ukdale.zip 파일을 다운로드 받는 경우 파일 폴더구조는 다음과 같이 생겼습니다.

ukdale/
├── house_1/          
├── house_2/           
├── house_3/           
├── house_4/           
├── house_5/           
└── metadata/

실제로 다운로드 받은 파일

기본적으로 대용량 데이터이기 때문에 house1~house5를 전부 압축해제하기보다는 house1의 데이터만 먼저 살펴보는 것이 좋습니다. (실제로도 house1의 데이터가 가장 활발히 연구되는 편입니다.)

 

저주파 데이터의 경우 .dat 형식으로 저장되어 있습니다. 그냥 pandas에서 csv 파일 불러오는 것과 동일하게 불러오되 각 열 이름(names = ['xxx','xxx']) 만 지정해주면 됩니다.

import pandas as pd

# channel_1.dat 파일 불러오기
df = pd.read_csv("../data/ukdale/channel_1.dat", 
                 sep=' ',names=['timestamp', 'power'])

df['time'] = pd.to_datetime(df['timestamp'], unit='s')      # 타임스탬프를 시간으로 변환
df = df[['time', 'timestamp', 'power']]   # 원하는 순서로
df.drop(columns='timestamp', inplace=True)

display(df.head())

 

실제로 다운로드된 데이터 일부를 살펴보면 다음과 같이 생겼습니다.

 

이렇게 다운로드받은 데이터를 기반으로 다양한 분석 및 Nilm 모델 빌드를 시도할 수 있습니다.

 

 

UK-DALE 결측치 관련 참고논문

글을 마무리하기 전에 UK-DALE 데이터를 다룰 때 참고하기 좋은 논문 하나를 추천하고 마무리하도록 하겠습니다. UK-DALE에는 몇 개의 결측치가 존재하는데, 그 결측치를 어떻게 처리할 것이냐의 문제가 생기게 됩니다. 

 

이와 관련하여 Dengyu Shi의 A PID-Controlled Non-Negative Tensor Factorization Model for Analyzing Missing Data in NILM 이라는 논문이 있으니 필요하시다면 참고하시길

https://arxiv.org/abs/2403.07012

 

A PID-Controlled Non-Negative Tensor Factorization Model for Analyzing Missing Data in NILM

With the growing demand for energy and increased environmental awareness, Non-Intrusive Load Monitoring (NILM) has become an essential tool in smart grid and energy management. By analyzing total power load data, NILM infers the energy usage of individual

arxiv.org