스마트워터 AI 서비스용 학습데이터

Ⅰ. 개요

1. 배경

  • 민간정보에 AI 기술 개발을 활용한 데이터 처리 및 서비스 검증과 관련하여 수집/활용중인 데이터의 일부를 연구목적의 학습데이터로 처리하여 공개
  • 공개 학습데이터를 활용하여 상수도 검침데이터를 활용한 AI 학습 모델 및 서비스 연구개발에 공익적으로 사용함으로써, 국가 연구개발에 기여

Ⅱ. 학습 데이터 셋

1. 공개 대상 데이터 셋

  • 지능형 생활편익 예측 서비스 시스템은 상수도 데이터와 같이 생활 밀착형 데이터를 수집, 전처리하여 생활에 편리한 AI 서비스를 제공하는 시스템으로, 학습데이터를 이용하여 AI 모델을 개발하고 이를 통해 진단/예측에 기반한 대시민 서비스를 제공함
  • 본 스마트워터 서비스용 AI 학습데이터는 지능형 생활편익 예측 서비스 시스템에서 수집/활용 중인 데이터중, AI 학습 모델 개발에 활용되는 데이터셋 5종임
    데이터 종류 데이터 명 설명 세부 항목 활용 방법 데이터 수
    텍스트 (csv) 수용가 데이터

    상수도 원격검침

    수용가

    예시 참조

    수용가별 학습 모델

    개발에 활용

    1,616건

    텍스트 (csv) 수전 데이터

    수용가에 설치된

    수전 정보

    예시 참조

    수용가 , 수전을 고려한

    학습모델 개발에 활용

    1,616건

    텍스트 (csv) 월별 사용량 데이터

    수용가의 과거 6 개월 월별

    사용량 데이터

    예시 참조

    수용가의 상수도 사용량

    예측 모델 개발에 활용

    9,696건 : 1,600

    수용가 *6 개월

    텍스트 (csv) 원격 검침 데이터

    수용가의 과거 6 개월

    1 시간별 검침데이터

    예시 참조

    수용가 대상 상수도 , 누수 , 독거자

    이상 진단모델 개발에 활용

    6,981,120건 :1,616

    수용가, 24시간, 6 개월

    텍스트 (csv) 사용량 패턴 데이터

    수용가의 과거 6 개월

    주간 사용량 패턴 데이터

    예시 참조

    수용가 특성을 반영한

    학습 모델 개발에 활용

    40,400건 : 1,616

    수용가, 7일, 25주

2. 학습데이터 명세

▶ 수용가 데이터
설명
  • 수용가는 고객(customer)과 같은 의미이며, 각 지자체에서 상수도 서비스를 제공받고 요금을 부과하는 대상임
  • 상수도에 대한 수용가별 AI 서비스 개발을 위해 필요한 수용가의 필요 속성만을 수용가 데이터에 포함함
  • 개인정보 보호를 위해 실제 고객 번호는 가명처리 하였음
  • 공개데이터 수는 1,616세대임
세부 속성
  • 속성 : SEQ(일련번호), CUSNUM(가명화된 고객번호), CGGCD(행정구역(구 단위) 코드, TMDCD(행정구역(행정동 단위) 코드),USEYN(사용 여부), RGSDT(등록 일자)
  • 예제 데이터
    SEQ CUSNUM CGGCD TMDCD USEYN RGSDT
    0 C10752282 1 1 Y 2021-10-12
    1 A12179246 1 1 Y 2021-09-03
    2 A87135147 1 1 Y 2021-09-03
    3 A62131973 1 1 Y 2021-09-03
    4 A87504218 1 1 Y 2021-09-03
    5 C89945638 1 1 Y 2021-09-03
    6 A56180015 1 1 Y 2021-09-03
    7 A65751515 1 1 Y 2021-09-03
    8 A37570139 1 1 Y 2021-09-03
    9 C40889151 1 1 Y 2021-09-03
    10 A38959250 1 1 Y 2021-09-03
▶ 수전 데이터
설명
  • 수전(faucet/water tap)은 수용가가 상수도 서비스를 제공받기 위해 설치한 수도설비(수도 계량기)에 대한 정보임
  • 상수도에 대한 수용가별 AI 서비스 개발을 위해 필요한 수용가 수전의 필요 속성만을 수전 데이터에 포함함
  • 개인정보 보호를 위해 실제 수도 계량기 식별자인 기물 번호는 가명처리 하였음
  • 공개데이터 수는 1,616세대 수전임
세부 속성
  • 속성 : SEQ(일련번호), CUSNUM(가명화된 고객번호), HDRCFCCD(상수도 구분 코드), WSMARTNUM(가명화된 기물번호), MTRPPSCD(배관 구경 코드), WSPDBTCD(상수도 업종코드))
  • HDRCFCCD(상수도 구분 코드)는 상수도(100), 중수도(200), 지하수(300)으로 구분
    MTRPPSCD(배관 구경 코드)는 계량기에 연결된 수도 배관의 구경으로 아래와 같이 정의함
    MTRPPSCD 구경(mm)
    100 15
    200 20
    300 25
    400 32
    500 40
    600 50
    700 80
    800 100
    900 150
    1000 200
    1100 250
    1200 300
  • WSPDBTCD(상수도 업종 코드)은 다음과 같이 정의함
    WSPDBTCD 업종 코드
    0100 가정용
    0101 가정(공용)
    0102 가정(사회복지시설)
    0200 일반용
    0201 일반(소방시설)
    0202 일반(학교)
    0203 일반(특구)
    0204 일반(수영장)
    0205 일반(보육시설)
    0206 일반(유치원)
    0400 목욕용
    0600 공업용
    0601 공업(소방시설)
  • 예제 데이터
    SEQ CUSNUM HDRCFCCD WSMARTNUM MTRPPSCD WSPDBTCD
    0 C10752282 100 EUY-1709118 100 200
    1 A12179246 100 INV-1709122 100 200
    2 A87135147 100 QGH-1708975 100 200
    3 A62131973 100 OEE-1708963 100 200
    4 A87504218 100 WHE-1709128 100 200
    5 C89945638 100 BJL-1709113 100 200
    6 A56180015 100 OVS-1709110 100 200
    7 A65751515 100 HDL-1708956 100 200
    8 A37570139 100 SES-1708954 100 200
    9 C40889151 100 ZWD-1708965 100 200
    10 A38959250 100 SZF-1708957 100 200
▶ 원격 검침 데이터
설명
  • 원격검침 데이터는 수용가의 디지털 계량기로부터 주기적으로 통신망을 통해 수집된 데이터임
  • 검침 주기는 지자체별로 상이할 수 있으며, 본 데이터는 1시간 단위 검침데이터를 포함함
  • 공개데이터 수는 대상 수용가별로 1일 24회, 6개월 간의 검침 데이터임
세부 속성
  • 속성 : MTR_TIME(검침시간), CUSNUM: 고객번호, WSMARTNUM: 기물번호, MTR_READ: 검침량(톤)
  • 개인정보 보호를 위해 실제 고객 번호는 가명처리 하였음
  • 예제 데이터
    MTR_TIME CUSNUM WSMARTNUM MTR_READ
    2022-01-01 0:00 C10752282 EUY-1709118 0
    2022-01-01 1:00 C10752282 EUY-1709118 0.014
    2022-01-01 2:00 C10752282 EUY-1709118 0.024
    2022-01-01 3:00 C10752282 EUY-1709118 0.030
    2022-01-01 4:00 C10752282 EUY-1709118 0.044
    2022-01-01 5:00 C10752282 EUY-1709118 0.047
    2022-01-01 6:00 C10752282 EUY-1709118 0.060
    2022-01-01 7:00 C10752282 EUY-1709118 0.064
    2022-01-01 8:00 C10752282 EUY-1709118 0.078
▶ 사용량 패턴 데이터
설명
  • 사용량 패턴데이터는 수용가의 주별로 처리된 사용량 데이터임
  • 개인정보 보호를 위해 실제 고객 번호, 기물 번호는 가명처리 하였음
  • 공개데이터 수는 수용가별 6개월간의 주별 데이터임
세부 속성
  • 속성 : WEEK(검침 주간 단위), CUSNUM: 고객번호, WSMARTNUM: 기물번호, DAY_0 ~ DAY_6: 연속적인 요일
  • 예제 데이터
    CUSNUM WSMARTNUM DAY_0 DAY_1 DAY_2 DAY_3 DAY_4 DAY_5 DAY_6
    0 A10090619 QYT-1702302 0.738 0.697 0.682 0.626 0.641 0.702 0.683
    1 A10090619 QYT-1702302 0.638 0.623 0.721 0.805 0.725 0.64 0.742
    2 A10090619 QYT-1702302 0.823 0.925 0.721 0.769 0.731 0.656 0.665
    3 A10090619 QYT-1702302 0.723 0.992 0.704 0.745 0.874 0.671 0.691
    4 A10090619 QYT-1702302 0.757 0.821 0.892 1.534 1.126 1.062 1.207
    5 A10090619 QYT-1702302 1.236 1.411 1.247 1.214 1.186 1.442 1.365
    6 A10090619 QYT-1702302 1.263 1.289 1.45 1.1 1.212 1.208 1.185
    7 A10090619 QYT-1702302 1.438 1.272 1.034 1.011 1.009 1.304 1.004
    8 A10090619 QYT-1702302 1.21 1.21 1.268 0.75 0.696 0.649 0.654

Ⅲ. 학습 데이터 활용

1. 개요

  • 본 학습데이터를 활용한 AI 학습모델로는 사용량/누진예측, 누수/독거자 이상진단, 동파 예측 및 상권 진단 등임
  • 본 학습데이터는 AI 모델 학습/재학습, 모델 성능 검증 그리고 모델을 통한 진단/예측 서빙(serving) 등에 다양하게 활용 가능함

2. 사용량 및 누진 예측 모델 개발

모델 개요
  • 과거 실시간 검침 데이터, 수용가 특성 등을 사용하여 각 수용가별 단기/장기 사용량과 월말 누진 단계를 예측하는 모델임
  • 시계열 데이터의 이상치 처리, 패턴화와 같은 전처리 단계를 거친 후 RNN계열 예측모델을 사용하여 사용량과 누진 단계를 예측 가능함
활용 방법
사용량/누진 예측 모델 흐름 예시
  • 실시간 검침량 : 시간 단위 사용량을 1일(24시간)단위로 변환
  • 수용가 정보 : 수용가의 특성에 따른 모델 구축을 위해 업종코드 추출
  • 기상 데이터 : 최고&최저 온도, 강수량, 습도 등의 외부 기상데이터 활용
  • 사용량 예측 : 과거 데이터의 활용 범위에 따라 향후 단기(1일), 장기(1주일) 수용가별 사용량을 예측
  • 누진 단계 예측 : 사용량 예측결과를 토대로 해당 월말의 누진세 단계 및 요금 예측
참고 사항
  • 순환 신경망(RNN)은 LSTM(Long-Short Term Memory), GRU(Gated Recurrent Units) 등 다양한 모델이 존재하며 모델에 따라 성능의 차이가 있을 수 있음
  • 정확도 평가 :사용량 예측모델은 예측 사용량과 실제 사용량 사이의 차이를 계산하는 MAPE, 누진 단계 예측의 경우 Accuracy를 적용 가능

3. 독거자/누수 이상 모델 개발

모델 개요
  • 실시간 검침 데이터, 기상 데이터 등을 활용하여 독거자의 이상 상황, 누수 발생 등을 예측하는 모델
  • 이상치에 대한 데이터들이 충분히 주어지지 않았을 경우, 비지도학습 중 오토인코더(AutoEncoder)를 활용한 예측으로 진행 가능
활용 방법
독거자/누수 이상 진단 모델 흐름 예시
  • 실시간 검침량 : 시간 단위 사용량을 시간평균, 일 평균 사용량으로 변환
  • 기상 데이터 : 최고&최저 온도, 강수량, 습도 등의 외부 기상데이터 활용
  • 학습용 데이터셋 전처리 : 데이터 분석에 따른 검침 데이터 변동 정의 및 독거자 및 누수의 진단 주기 정의
참고 사항
  • 오토인코더(AutoEncoder)는 Vanila Autoencoder(AE), Linear Autoencoder 등 다양한 모델이 존재하며 모델에 따라 성능의 차이가 있을 수 있음
  • 정확도 평가 : 이상치 진단의 경우 Accuracy를 활용하여 정확도를 판별 가능

4. 동파 예측 모델 개발

모델 개요
  • 실시간 검침량과 기상 데이터(외부 데이터)를 결합하여 야간 계량기 동파 발생 위험성을 예측하는 모델
  • 실시간 검침량을 통해 가구별 사용 패턴을 산출, 당일 특정 시점까지의 사용량을 기반으로 패턴 매칭으로 야간 사용량을 추론, 최종적으로 기상 데이터와 결합하여 계량기 동파 발생 가능성 예측 수행
활용 방법
동파 예측 모델 흐름 예시
  • 실시간 검침량 : 주간 사용량 기반으로 야간 사용량을 추론하기 위해 24시간 단위로 패턴화
  • 검침기 정보 : 동파 발생에 영향을 미치는 배관 넓이 정보 추출
  • 기상 데이터 : 동파 발생에 직접적으로 영향을 미치는 요소로, 필수적으로 수집 및 활용 필요
  • 동파 예측 기준 : 검침량 패턴 클러스터링 및 배관 넓이 별, 기온 별 동파 예측 레벨 다각화
  • 동파 예측 수행 : 주간 실시간 검침량, 야간 최저 기온 정보를 수집하여 동파 예측 기준에 따른 판단 수행
참고 사항
  • 정확도 평가 : 주간 실시간 검침량을 기반으로 패턴 예측 결과 나온 야간 검침량과 실제 야간 검침량간의 유사성 기반 정확도 평가 가능
  • 검침량 패턴화는 일정 주기에 따라 다시 수행하여 최신 사용 패턴을 반영할 수 있도록 하여야 함

5. 상권 진단 모델 개발

모델 개요
  • 동일 지역에 속한 수용가들의 사용량 패턴 데이터와 월별 사용량 데이터를 기반으로 지역 내 일정 기간의 전체 사용량을 추론하여 이를 기반으로 상수도 사용량의 변동을 파악하여 해당 지역 상권 상태의 변화를 진단하는 모델
  • 지역 내 일정 기간의 상수도 사용량 및 외부 데이터(유동인구, 거주인구, 기상)를 활용하여 상권 활성화 상태 진단 및 예측 수행 가능
활용 방법
상권 진단 모델 흐름 예시
  • 사용량 패턴 : 월별 사용량을 사용량 패턴을 활용하여 상권 진단 주기에 맞게 변환
  • 기상/인구/유동인구 데이터 : 상권 변동에 영향을 미칠 수 있는 요소로 선택적으로 수집 및 활용
  • 상권 진단 : 상권 진단 주기별 사용량에 따라 클러스터링 기반 상권 상태 진단 수행
    ** 상권 상태 분류 예시 : 상승, 활성, 유지, 하강, 침체
  • 상권 예측 : 지역 내 사용량을 기준으로, 기상/인구/유동인구 데이터를 활용하여 다음 상권 진단 주기의 상권 상태를 예측
참고 사항
  • 정확도 평가 : 상권 진단의 경우 클러스터링 기반의 진단이므로 정확도 평가는 고려하지 않으며, 상권 예측의 경우에는 Accuracy를 기준으로 예측 정확도 평가
  • 실시간 검침량을 통해 기존 월별 사용량을 선형 회귀나 이동 평균 등 예측 기법을 사용하여 실시간 사용량을 추론하여 실시간 상권 진단으로 사용할 수도 있음

Ⅳ. 학습 데이터 공개

1. 학습데이터 다운로드

2. 학습데이터 활용 문의

  • 융합기술 연구소/ DnA팀
  • 이메일 : junux@aiblab.co.kr
  • 전화번호 : 070-8892-7165