빅 데이터 기반의 체납 수용가 예측 모델

In this paper, to reduce the unpaid rate of local governments, the internal data elements affecting the arrears in Water-INFOS are searched through interviews with meter readers in certain local governments. Candidate data affecting arrears from national statistical data were derived. The influence...

Full description

Saved in:
Bibliographic Details
Published in한국정보통신학회논문지 Vol. 24; no. 7; pp. 827 - 833
Main Authors 정재안(Jaean Jeong), 이규환(Kyouhwan Lee), 정희경(Hoekyung Jung)
Format Journal Article
LanguageKorean
Published 한국정보통신학회 2020
Subjects
Online AccessGet full text
ISSN2234-4772
2288-4165
DOI10.6109/jkiice.2020.24.7.827

Cover

Abstract In this paper, to reduce the unpaid rate of local governments, the internal data elements affecting the arrears in Water-INFOS are searched through interviews with meter readers in certain local governments. Candidate data affecting arrears from national statistical data were derived. The influence of the independent variable on the dependent variable was sampled by examining the disorder of the dependent variable in the data set called information gain. We also evaluated the higher prediction rates of decision tree and logistic regression using n-fold cross-validation. The results confirmed that the decision tree can find more accurate customer payment patterns than logistic regression. In the process of developing an analysis algorithm model using machine learning, the optimal values of two environmental variables, the minimum number of data and the maximum purity, which directly affect the complexity and accuracy of the decision tree, are derived to improve the accuracy of the algorithm. 본 논문에서는 지자체의 요금 체납을 줄이기 위해 특정 지자체를 대상으로 검침원의 면담 등을 통해 지방상수도 통합정보시스템에서 체납에 영향을 미치는 내부 데이터 요소를 찾았다. 또한 국가 통계 데이터 중에서 체납에 영향을 미치는 후보 데이터를 도출하였다. 독립변수가 종속변수에 미치는 영향도는 정보이득이라는 데이터 집합에서 종속변수에 대한 무질서도를 조사하여 표본 데이터를 수집하였다. 그리고 빅 데이터 분석 알고리즘인 의사결정트리와 로지스틱 회귀기법 중 어느 알고리즘이 더 높은 예측율을 나타내는지 n-fold cross-validation 방법을 사용하여 평가하였다. 이를 통해 지자체의 데이터를 기초로 알고리즘의 성능을 비교한 결과 의사결정트리가 로지스틱회귀보다 더 정확한 수용가 납부 패턴을 찾을 수 있음을 확인하였다. 머신러닝을 이용한 분석 알고리즘 모델 개발의 과정에서는 알고리즘의 정확성 향상을 위해 의사결정트리의 복잡성과 정확성에 직접적인 영향을 주는 최소 데이터 개수와 최대 순도라는 두 개의 환경변수의 최적값을 도출하였다.
AbstractList 본 논문에서는 지자체의 요금 체납을 줄이기 위해 특정 지자체를 대상으로 검침원의 면담 등을 통해 지방상수도통합정보시스템에서 체납에 영향을 미치는 내부 데이터 요소를 찾았다. 또한 국가 통계 데이터 중에서 체납에 영향을 미치는 후보 데이터를 도출하였다. 독립변수가 종속변수에 미치는 영향도는 정보이득이라는 데이터 집합에서 종속변수에 대한 무질서도를 조사하여 표본 데이터를 수집하였다. 그리고 빅 데이터 분석 알고리즘인 의사결정트리와 로지스틱 회귀기법 중 어느 알고리즘이 더 높은 예측율을 나타내는지 n-fold cross-validation 방법을 사용하여 평가하였다. 이를 통해 지자체의 데이터를 기초로 알고리즘의 성능을 비교한 결과 의사결정트리가 로지스틱회귀보다 더 정확한 수용가 납부 패턴을 찾을 수 있음을 확인하였다. 머신러닝을 이용한 분석 알고리즘 모델 개발의 과정에서는 알고리즘의 정확성 향상을 위해 의사결정트리의 복잡성과 정확성에 직접적인 영향을 주는 최소 데이터 개수와 최대 순도라는 두 개의 환경변수의 최적값을 도출하였다. In this paper, to reduce the unpaid rate of local governments, the internal data elements affecting the arrears in Water-INFOS are searched through interviews with meter readers in certain local governments. Candidate data affecting arrears from national statistical data were derived. The influence of the independent variable on the dependent variable was sampled by examining the disorder of the dependent variable in the data set called information gain. We also evaluated the higher prediction rates of decision tree and logistic regression using n-fold cross-validation. The results confirmed that the decision tree can find more accurate customer payment patterns than logistic regression. In the process of developing an analysis algorithm model using machine learning, the optimal values of two environmental variables, the minimum number of data and the maximum purity, which directly affect the complexity and accuracy of the decision tree, are derived to improve the accuracy of the algorithm. KCI Citation Count: 0
In this paper, to reduce the unpaid rate of local governments, the internal data elements affecting the arrears in Water-INFOS are searched through interviews with meter readers in certain local governments. Candidate data affecting arrears from national statistical data were derived. The influence of the independent variable on the dependent variable was sampled by examining the disorder of the dependent variable in the data set called information gain. We also evaluated the higher prediction rates of decision tree and logistic regression using n-fold cross-validation. The results confirmed that the decision tree can find more accurate customer payment patterns than logistic regression. In the process of developing an analysis algorithm model using machine learning, the optimal values of two environmental variables, the minimum number of data and the maximum purity, which directly affect the complexity and accuracy of the decision tree, are derived to improve the accuracy of the algorithm. 본 논문에서는 지자체의 요금 체납을 줄이기 위해 특정 지자체를 대상으로 검침원의 면담 등을 통해 지방상수도 통합정보시스템에서 체납에 영향을 미치는 내부 데이터 요소를 찾았다. 또한 국가 통계 데이터 중에서 체납에 영향을 미치는 후보 데이터를 도출하였다. 독립변수가 종속변수에 미치는 영향도는 정보이득이라는 데이터 집합에서 종속변수에 대한 무질서도를 조사하여 표본 데이터를 수집하였다. 그리고 빅 데이터 분석 알고리즘인 의사결정트리와 로지스틱 회귀기법 중 어느 알고리즘이 더 높은 예측율을 나타내는지 n-fold cross-validation 방법을 사용하여 평가하였다. 이를 통해 지자체의 데이터를 기초로 알고리즘의 성능을 비교한 결과 의사결정트리가 로지스틱회귀보다 더 정확한 수용가 납부 패턴을 찾을 수 있음을 확인하였다. 머신러닝을 이용한 분석 알고리즘 모델 개발의 과정에서는 알고리즘의 정확성 향상을 위해 의사결정트리의 복잡성과 정확성에 직접적인 영향을 주는 최소 데이터 개수와 최대 순도라는 두 개의 환경변수의 최적값을 도출하였다.
Author 이규환(Kyouhwan Lee)
정재안(Jaean Jeong)
정희경(Hoekyung Jung)
Author_xml – sequence: 1
  fullname: 정재안(Jaean Jeong)
– sequence: 2
  fullname: 이규환(Kyouhwan Lee)
– sequence: 3
  fullname: 정희경(Hoekyung Jung)
BackLink https://www.kci.go.kr/kciportal/ci/sereArticleSearch/ciSereArtiView.kci?sereArticleSearchBean.artiId=ART002611638$$DAccess content in National Research Foundation of Korea (NRF)
BookMark eNpFkL1OwlAARm8MJiLyBg5dHBxa7__PSBAVJZIY9puWtuZaLKbVwY0YTVjYGxMGN3FqDAO-Eq3vIIiJ0znDyTd8u6ASD-MAgH0EHY6gOrqJjOkHDoYYOpg6wpFYbIEqxlLaFHFWWTuhNhUC74B6mhoPEo6FQoRXAS--XqxikpfT-fdzbi0XeZFn5TSzys958TSzynFWvs6W-cgqs3G5eLOKj_distgD26E7SIP6H2ugd9LqNc_sTve03Wx07EhRYivFPAxD6sM-Z4JgHvgyQDyElK3ME5ByN6Qe8hXlBNJQcU8Jz8NCykAhF5MaONzMxkmoo77RQ9f88nqoo0Q3rnptrRhljMNVe7BpI5PeGx376UCfNy6662Mg44wIBTGR_138kJjbwDeuvluJmzzqy-5xCyqKoOSE_AA4jHNM
ContentType Journal Article
DBID DBRKI
TDB
JDI
ACYCR
DEWEY 003.5
DOI 10.6109/jkiice.2020.24.7.827
DatabaseName DBPIA - 디비피아
Nurimedia DBPIA Journals
KoreaScience
Korean Citation Index
DatabaseTitleList

DeliveryMethod fulltext_linktorsrc
Discipline Applied Sciences
Mathematics
DocumentTitleAlternate Prediction Model for Unpaid Customers Using Big Data
DocumentTitle_FL Prediction Model for Unpaid Customers Using Big Data
EISSN 2288-4165
EndPage 833
ExternalDocumentID oai_kci_go_kr_ARTI_9545560
JAKO202005653790238
NODE09410863
GroupedDBID .UV
ALMA_UNASSIGNED_HOLDINGS
DBRKI
TDB
JDI
ACYCR
ID FETCH-LOGICAL-k943-995b20f4d0c657326ed8e16f045ed8b7046af4b1d946304f96b97bb2788e91a23
ISSN 2234-4772
IngestDate Sun Mar 09 07:51:00 EDT 2025
Fri Dec 22 12:02:23 EST 2023
Thu Feb 06 13:41:02 EST 2025
IsDoiOpenAccess true
IsOpenAccess true
IsPeerReviewed true
IsScholarly true
Issue 7
Keywords 의사결정트리
Big data analysis
빅데이터 분석
요금 체납
Unpaid
Local waterworks
Decision tree
지방상수도
Language Korean
LinkModel OpenURL
MergedId FETCHMERGED-LOGICAL-k943-995b20f4d0c657326ed8e16f045ed8b7046af4b1d946304f96b97bb2788e91a23
Notes KISTI1.1003/JNL.JAKO202005653790238
http://jkiice.org
OpenAccessLink http://click.ndsl.kr/servlet/LinkingDetailView?cn=JAKO202005653790238&dbt=JAKO&org_code=O481&site_code=SS1481&service_code=01
PageCount 7
ParticipantIDs nrf_kci_oai_kci_go_kr_ARTI_9545560
kisti_ndsl_JAKO202005653790238
nurimedia_primary_NODE09410863
PublicationCentury 2000
PublicationDate 2020
PublicationDateYYYYMMDD 2020-01-01
PublicationDate_xml – year: 2020
  text: 2020
PublicationDecade 2020
PublicationTitle 한국정보통신학회논문지
PublicationTitleAlternate Journal of the Korea Institute of Information and Communication Engineering
PublicationYear 2020
Publisher 한국정보통신학회
Publisher_xml – name: 한국정보통신학회
SSID ssib036279136
ssib053377456
ssib044738262
ssib015937029
ssib023393675
ssib012146319
Score 2.1069677
Snippet In this paper, to reduce the unpaid rate of local governments, the internal data elements affecting the arrears in Water-INFOS are searched through interviews...
본 논문에서는 지자체의 요금 체납을 줄이기 위해 특정 지자체를 대상으로 검침원의 면담 등을 통해 지방상수도통합정보시스템에서 체납에 영향을 미치는 내부 데이터 요소를 찾았다. 또한 국가 통계 데이터 중에서 체납에 영향을 미치는 후보 데이터를 도출하였다. 독립변수가 종속변수에 미치는...
SourceID nrf
kisti
nurimedia
SourceType Open Website
Open Access Repository
Publisher
StartPage 827
SubjectTerms 전자/정보통신공학
Title 빅 데이터 기반의 체납 수용가 예측 모델
URI https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE09410863
http://click.ndsl.kr/servlet/LinkingDetailView?cn=JAKO202005653790238&dbt=JAKO&org_code=O481&site_code=SS1481&service_code=01
https://www.kci.go.kr/kciportal/ci/sereArticleSearch/ciSereArtiView.kci?sereArticleSearchBean.artiId=ART002611638
Volume 24
hasFullText 1
inHoldings 1
isFullTextHit
isPrint
ispartofPNX 한국정보통신학회논문지, 2020, 24(7), , pp.827-833
link http://utb.summon.serialssolutions.com/2.0.0/link/0/eLvHCXMwrV1Pb9MwFLe2cYALAgFi_JkihE9TS2I7sX1M2qAxtO1SpN2ipEnQKOrQ6C4cEEIg7bJ7hbQDN8apQjuUr7SG78B7TptlU5EG4hI9-dnPz35O_HtJ_B4hj1PAFLBNgpua57whEhk34izPG3BT5lmKIc8cPCi8semtvRDr2-72wuK50yWDpNl9N_dcyb9YFcrArnhK9i8sWwmFAqDBvnAFC8P1UjamYUADTZW7ipRq08CmYYtqIAQN21QJKAGeTwNleAFetZpW0moVqYCZ6iCAUV-bIqVmtXwoMgJsqmzDA4YyPJDpO6ZnH2qpmQqqjndRC-1S3TIyXOq3saVvYyFqw2eaesjFngPkTltpQ_hUtYxwlwaG8E3fKEfijxqwSJgAoFx_q1HrBTQOsQkSLlWqXmU6U6CaNDq2sU-t5kip9PDNfLXrb0uYXa3s_zXes-czACvRELLMPNTMpmWwRAHjurU9QZXBD2bwooz7cXHn8srAr696OxhKCjVvMtGUzapxPVD4hQ38XKjwXncnerkb9fYicIieRRoQMoDaRXKFSc_DFB8b78PZA9fBrO78LJ4fQFsua59pGeea14L9ANiR2uEVfhVCclWLNwmuA3gTJmNyNTnlcVUc3pN5gwOfEB2lHYB2_T1AhFf7-5jWAp6NNZjXuUGuT_0zyy9vtptkobd7i3iTn5-tyeGoODr59WlknY5Hk9GwOBpaxY-TycdjqzgYFl-OT0cfrGJ4UIy_WpPv3yaH49uk8zTstNYa04QjjZ7Gn1C0mzA7F6nd9VwJfk2WqszxcvB6gEqkLbw4F4mTapg1W-TaS7RMEiaVyrQTM36HLPV3-9ldYsWxslXKYi4xn1LuxN0MGikpoFbKWLxMVsywo3769nW07j_fwlkBZ8TlUiOMXiaPYD6MNf9sVZBSTVf0poxOE21utUNbC8ygxu9dRsp9cg07L98rPiBLg7397CEg7UGyYlbLb9FCn0s
linkProvider ISSN International Centre
openUrl ctx_ver=Z39.88-2004&ctx_enc=info%3Aofi%2Fenc%3AUTF-8&rfr_id=info%3Asid%2Fsummon.serialssolutions.com&rft_val_fmt=info%3Aofi%2Ffmt%3Akev%3Amtx%3Ajournal&rft.genre=article&rft.atitle=%EB%B9%85+%EB%8D%B0%EC%9D%B4%ED%84%B0+%EA%B8%B0%EB%B0%98%EC%9D%98+%EC%B2%B4%EB%82%A9+%EC%88%98%EC%9A%A9%EA%B0%80+%EC%98%88%EC%B8%A1+%EB%AA%A8%EB%8D%B8&rft.jtitle=%ED%95%9C%EA%B5%AD%EC%A0%95%EB%B3%B4%ED%86%B5%EC%8B%A0%ED%95%99%ED%9A%8C%EB%85%BC%EB%AC%B8%EC%A7%80%2C+24%287%29&rft.au=%EC%A0%95%EC%9E%AC%EC%95%88&rft.au=%EC%9D%B4%EA%B7%9C%ED%99%98&rft.au=%EC%A0%95%ED%9A%8C%EA%B2%BD&rft.date=2020&rft.pub=%ED%95%9C%EA%B5%AD%EC%A0%95%EB%B3%B4%ED%86%B5%EC%8B%A0%ED%95%99%ED%9A%8C&rft.issn=2234-4772&rft.eissn=2288-4165&rft.spage=827&rft.epage=833&rft_id=info:doi/10.6109%2Fjkiice.2020.24.7.827&rft.externalDBID=n%2Fa&rft.externalDocID=oai_kci_go_kr_ARTI_9545560
thumbnail_l http://covers-cdn.summon.serialssolutions.com/index.aspx?isbn=/lc.gif&issn=2234-4772&client=summon
thumbnail_m http://covers-cdn.summon.serialssolutions.com/index.aspx?isbn=/mc.gif&issn=2234-4772&client=summon
thumbnail_s http://covers-cdn.summon.serialssolutions.com/index.aspx?isbn=/sc.gif&issn=2234-4772&client=summon