빅 데이터 기반의 체납 수용가 예측 모델
In this paper, to reduce the unpaid rate of local governments, the internal data elements affecting the arrears in Water-INFOS are searched through interviews with meter readers in certain local governments. Candidate data affecting arrears from national statistical data were derived. The influence...
Saved in:
Published in | 한국정보통신학회논문지 Vol. 24; no. 7; pp. 827 - 833 |
---|---|
Main Authors | , , |
Format | Journal Article |
Language | Korean |
Published |
한국정보통신학회
2020
|
Subjects | |
Online Access | Get full text |
ISSN | 2234-4772 2288-4165 |
DOI | 10.6109/jkiice.2020.24.7.827 |
Cover
Abstract | In this paper, to reduce the unpaid rate of local governments, the internal data elements affecting the arrears in Water-INFOS are searched through interviews with meter readers in certain local governments. Candidate data affecting arrears from national statistical data were derived. The influence of the independent variable on the dependent variable was sampled by examining the disorder of the dependent variable in the data set called information gain. We also evaluated the higher prediction rates of decision tree and logistic regression using n-fold cross-validation. The results confirmed that the decision tree can find more accurate customer payment patterns than logistic regression. In the process of developing an analysis algorithm model using machine learning, the optimal values of two environmental variables, the minimum number of data and the maximum purity, which directly affect the complexity and accuracy of the decision tree, are derived to improve the accuracy of the algorithm. 본 논문에서는 지자체의 요금 체납을 줄이기 위해 특정 지자체를 대상으로 검침원의 면담 등을 통해 지방상수도 통합정보시스템에서 체납에 영향을 미치는 내부 데이터 요소를 찾았다. 또한 국가 통계 데이터 중에서 체납에 영향을 미치는 후보 데이터를 도출하였다. 독립변수가 종속변수에 미치는 영향도는 정보이득이라는 데이터 집합에서 종속변수에 대한 무질서도를 조사하여 표본 데이터를 수집하였다. 그리고 빅 데이터 분석 알고리즘인 의사결정트리와 로지스틱 회귀기법 중 어느 알고리즘이 더 높은 예측율을 나타내는지 n-fold cross-validation 방법을 사용하여 평가하였다. 이를 통해 지자체의 데이터를 기초로 알고리즘의 성능을 비교한 결과 의사결정트리가 로지스틱회귀보다 더 정확한 수용가 납부 패턴을 찾을 수 있음을 확인하였다. 머신러닝을 이용한 분석 알고리즘 모델 개발의 과정에서는 알고리즘의 정확성 향상을 위해 의사결정트리의 복잡성과 정확성에 직접적인 영향을 주는 최소 데이터 개수와 최대 순도라는 두 개의 환경변수의 최적값을 도출하였다. |
---|---|
AbstractList | 본 논문에서는 지자체의 요금 체납을 줄이기 위해 특정 지자체를 대상으로 검침원의 면담 등을 통해 지방상수도통합정보시스템에서 체납에 영향을 미치는 내부 데이터 요소를 찾았다. 또한 국가 통계 데이터 중에서 체납에 영향을 미치는 후보 데이터를 도출하였다. 독립변수가 종속변수에 미치는 영향도는 정보이득이라는 데이터 집합에서 종속변수에 대한 무질서도를 조사하여 표본 데이터를 수집하였다. 그리고 빅 데이터 분석 알고리즘인 의사결정트리와 로지스틱 회귀기법 중 어느 알고리즘이 더 높은 예측율을 나타내는지 n-fold cross-validation 방법을 사용하여 평가하였다. 이를 통해 지자체의 데이터를 기초로 알고리즘의 성능을 비교한 결과 의사결정트리가 로지스틱회귀보다 더 정확한 수용가 납부 패턴을 찾을 수 있음을 확인하였다. 머신러닝을 이용한 분석 알고리즘 모델 개발의 과정에서는 알고리즘의 정확성 향상을 위해 의사결정트리의 복잡성과 정확성에 직접적인 영향을 주는 최소 데이터 개수와 최대 순도라는 두 개의 환경변수의 최적값을 도출하였다. In this paper, to reduce the unpaid rate of local governments, the internal data elements affecting the arrears in Water-INFOS are searched through interviews with meter readers in certain local governments. Candidate data affecting arrears from national statistical data were derived. The influence of the independent variable on the dependent variable was sampled by examining the disorder of the dependent variable in the data set called information gain. We also evaluated the higher prediction rates of decision tree and logistic regression using n-fold cross-validation. The results confirmed that the decision tree can find more accurate customer payment patterns than logistic regression. In the process of developing an analysis algorithm model using machine learning, the optimal values of two environmental variables, the minimum number of data and the maximum purity, which directly affect the complexity and accuracy of the decision tree, are derived to improve the accuracy of the algorithm. KCI Citation Count: 0 In this paper, to reduce the unpaid rate of local governments, the internal data elements affecting the arrears in Water-INFOS are searched through interviews with meter readers in certain local governments. Candidate data affecting arrears from national statistical data were derived. The influence of the independent variable on the dependent variable was sampled by examining the disorder of the dependent variable in the data set called information gain. We also evaluated the higher prediction rates of decision tree and logistic regression using n-fold cross-validation. The results confirmed that the decision tree can find more accurate customer payment patterns than logistic regression. In the process of developing an analysis algorithm model using machine learning, the optimal values of two environmental variables, the minimum number of data and the maximum purity, which directly affect the complexity and accuracy of the decision tree, are derived to improve the accuracy of the algorithm. 본 논문에서는 지자체의 요금 체납을 줄이기 위해 특정 지자체를 대상으로 검침원의 면담 등을 통해 지방상수도 통합정보시스템에서 체납에 영향을 미치는 내부 데이터 요소를 찾았다. 또한 국가 통계 데이터 중에서 체납에 영향을 미치는 후보 데이터를 도출하였다. 독립변수가 종속변수에 미치는 영향도는 정보이득이라는 데이터 집합에서 종속변수에 대한 무질서도를 조사하여 표본 데이터를 수집하였다. 그리고 빅 데이터 분석 알고리즘인 의사결정트리와 로지스틱 회귀기법 중 어느 알고리즘이 더 높은 예측율을 나타내는지 n-fold cross-validation 방법을 사용하여 평가하였다. 이를 통해 지자체의 데이터를 기초로 알고리즘의 성능을 비교한 결과 의사결정트리가 로지스틱회귀보다 더 정확한 수용가 납부 패턴을 찾을 수 있음을 확인하였다. 머신러닝을 이용한 분석 알고리즘 모델 개발의 과정에서는 알고리즘의 정확성 향상을 위해 의사결정트리의 복잡성과 정확성에 직접적인 영향을 주는 최소 데이터 개수와 최대 순도라는 두 개의 환경변수의 최적값을 도출하였다. |
Author | 이규환(Kyouhwan Lee) 정재안(Jaean Jeong) 정희경(Hoekyung Jung) |
Author_xml | – sequence: 1 fullname: 정재안(Jaean Jeong) – sequence: 2 fullname: 이규환(Kyouhwan Lee) – sequence: 3 fullname: 정희경(Hoekyung Jung) |
BackLink | https://www.kci.go.kr/kciportal/ci/sereArticleSearch/ciSereArtiView.kci?sereArticleSearchBean.artiId=ART002611638$$DAccess content in National Research Foundation of Korea (NRF) |
BookMark | eNpFkL1OwlAARm8MJiLyBg5dHBxa7__PSBAVJZIY9puWtuZaLKbVwY0YTVjYGxMGN3FqDAO-Eq3vIIiJ0znDyTd8u6ASD-MAgH0EHY6gOrqJjOkHDoYYOpg6wpFYbIEqxlLaFHFWWTuhNhUC74B6mhoPEo6FQoRXAS--XqxikpfT-fdzbi0XeZFn5TSzys958TSzynFWvs6W-cgqs3G5eLOKj_distgD26E7SIP6H2ugd9LqNc_sTve03Wx07EhRYivFPAxD6sM-Z4JgHvgyQDyElK3ME5ByN6Qe8hXlBNJQcU8Jz8NCykAhF5MaONzMxkmoo77RQ9f88nqoo0Q3rnptrRhljMNVe7BpI5PeGx376UCfNy6662Mg44wIBTGR_138kJjbwDeuvluJmzzqy-5xCyqKoOSE_AA4jHNM |
ContentType | Journal Article |
DBID | DBRKI TDB JDI ACYCR |
DEWEY | 003.5 |
DOI | 10.6109/jkiice.2020.24.7.827 |
DatabaseName | DBPIA - 디비피아 Nurimedia DBPIA Journals KoreaScience Korean Citation Index |
DatabaseTitleList | |
DeliveryMethod | fulltext_linktorsrc |
Discipline | Applied Sciences Mathematics |
DocumentTitleAlternate | Prediction Model for Unpaid Customers Using Big Data |
DocumentTitle_FL | Prediction Model for Unpaid Customers Using Big Data |
EISSN | 2288-4165 |
EndPage | 833 |
ExternalDocumentID | oai_kci_go_kr_ARTI_9545560 JAKO202005653790238 NODE09410863 |
GroupedDBID | .UV ALMA_UNASSIGNED_HOLDINGS DBRKI TDB JDI ACYCR |
ID | FETCH-LOGICAL-k943-995b20f4d0c657326ed8e16f045ed8b7046af4b1d946304f96b97bb2788e91a23 |
ISSN | 2234-4772 |
IngestDate | Sun Mar 09 07:51:00 EDT 2025 Fri Dec 22 12:02:23 EST 2023 Thu Feb 06 13:41:02 EST 2025 |
IsDoiOpenAccess | true |
IsOpenAccess | true |
IsPeerReviewed | true |
IsScholarly | true |
Issue | 7 |
Keywords | 의사결정트리 Big data analysis 빅데이터 분석 요금 체납 Unpaid Local waterworks Decision tree 지방상수도 |
Language | Korean |
LinkModel | OpenURL |
MergedId | FETCHMERGED-LOGICAL-k943-995b20f4d0c657326ed8e16f045ed8b7046af4b1d946304f96b97bb2788e91a23 |
Notes | KISTI1.1003/JNL.JAKO202005653790238 http://jkiice.org |
OpenAccessLink | http://click.ndsl.kr/servlet/LinkingDetailView?cn=JAKO202005653790238&dbt=JAKO&org_code=O481&site_code=SS1481&service_code=01 |
PageCount | 7 |
ParticipantIDs | nrf_kci_oai_kci_go_kr_ARTI_9545560 kisti_ndsl_JAKO202005653790238 nurimedia_primary_NODE09410863 |
PublicationCentury | 2000 |
PublicationDate | 2020 |
PublicationDateYYYYMMDD | 2020-01-01 |
PublicationDate_xml | – year: 2020 text: 2020 |
PublicationDecade | 2020 |
PublicationTitle | 한국정보통신학회논문지 |
PublicationTitleAlternate | Journal of the Korea Institute of Information and Communication Engineering |
PublicationYear | 2020 |
Publisher | 한국정보통신학회 |
Publisher_xml | – name: 한국정보통신학회 |
SSID | ssib036279136 ssib053377456 ssib044738262 ssib015937029 ssib023393675 ssib012146319 |
Score | 2.1069677 |
Snippet | In this paper, to reduce the unpaid rate of local governments, the internal data elements affecting the arrears in Water-INFOS are searched through interviews... 본 논문에서는 지자체의 요금 체납을 줄이기 위해 특정 지자체를 대상으로 검침원의 면담 등을 통해 지방상수도통합정보시스템에서 체납에 영향을 미치는 내부 데이터 요소를 찾았다. 또한 국가 통계 데이터 중에서 체납에 영향을 미치는 후보 데이터를 도출하였다. 독립변수가 종속변수에 미치는... |
SourceID | nrf kisti nurimedia |
SourceType | Open Website Open Access Repository Publisher |
StartPage | 827 |
SubjectTerms | 전자/정보통신공학 |
Title | 빅 데이터 기반의 체납 수용가 예측 모델 |
URI | https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE09410863 http://click.ndsl.kr/servlet/LinkingDetailView?cn=JAKO202005653790238&dbt=JAKO&org_code=O481&site_code=SS1481&service_code=01 https://www.kci.go.kr/kciportal/ci/sereArticleSearch/ciSereArtiView.kci?sereArticleSearchBean.artiId=ART002611638 |
Volume | 24 |
hasFullText | 1 |
inHoldings | 1 |
isFullTextHit | |
isPrint | |
ispartofPNX | 한국정보통신학회논문지, 2020, 24(7), , pp.827-833 |
link | http://utb.summon.serialssolutions.com/2.0.0/link/0/eLvHCXMwrV1Pb9MwFLe2cYALAgFi_JkihE9TS2I7sX1M2qAxtO1SpN2ipEnQKOrQ6C4cEEIg7bJ7hbQDN8apQjuUr7SG78B7TptlU5EG4hI9-dnPz35O_HtJ_B4hj1PAFLBNgpua57whEhk34izPG3BT5lmKIc8cPCi8semtvRDr2-72wuK50yWDpNl9N_dcyb9YFcrArnhK9i8sWwmFAqDBvnAFC8P1UjamYUADTZW7ipRq08CmYYtqIAQN21QJKAGeTwNleAFetZpW0moVqYCZ6iCAUV-bIqVmtXwoMgJsqmzDA4YyPJDpO6ZnH2qpmQqqjndRC-1S3TIyXOq3saVvYyFqw2eaesjFngPkTltpQ_hUtYxwlwaG8E3fKEfijxqwSJgAoFx_q1HrBTQOsQkSLlWqXmU6U6CaNDq2sU-t5kip9PDNfLXrb0uYXa3s_zXes-czACvRELLMPNTMpmWwRAHjurU9QZXBD2bwooz7cXHn8srAr696OxhKCjVvMtGUzapxPVD4hQ38XKjwXncnerkb9fYicIieRRoQMoDaRXKFSc_DFB8b78PZA9fBrO78LJ4fQFsua59pGeea14L9ANiR2uEVfhVCclWLNwmuA3gTJmNyNTnlcVUc3pN5gwOfEB2lHYB2_T1AhFf7-5jWAp6NNZjXuUGuT_0zyy9vtptkobd7i3iTn5-tyeGoODr59WlknY5Hk9GwOBpaxY-TycdjqzgYFl-OT0cfrGJ4UIy_WpPv3yaH49uk8zTstNYa04QjjZ7Gn1C0mzA7F6nd9VwJfk2WqszxcvB6gEqkLbw4F4mTapg1W-TaS7RMEiaVyrQTM36HLPV3-9ldYsWxslXKYi4xn1LuxN0MGikpoFbKWLxMVsywo3769nW07j_fwlkBZ8TlUiOMXiaPYD6MNf9sVZBSTVf0poxOE21utUNbC8ygxu9dRsp9cg07L98rPiBLg7397CEg7UGyYlbLb9FCn0s |
linkProvider | ISSN International Centre |
openUrl | ctx_ver=Z39.88-2004&ctx_enc=info%3Aofi%2Fenc%3AUTF-8&rfr_id=info%3Asid%2Fsummon.serialssolutions.com&rft_val_fmt=info%3Aofi%2Ffmt%3Akev%3Amtx%3Ajournal&rft.genre=article&rft.atitle=%EB%B9%85+%EB%8D%B0%EC%9D%B4%ED%84%B0+%EA%B8%B0%EB%B0%98%EC%9D%98+%EC%B2%B4%EB%82%A9+%EC%88%98%EC%9A%A9%EA%B0%80+%EC%98%88%EC%B8%A1+%EB%AA%A8%EB%8D%B8&rft.jtitle=%ED%95%9C%EA%B5%AD%EC%A0%95%EB%B3%B4%ED%86%B5%EC%8B%A0%ED%95%99%ED%9A%8C%EB%85%BC%EB%AC%B8%EC%A7%80%2C+24%287%29&rft.au=%EC%A0%95%EC%9E%AC%EC%95%88&rft.au=%EC%9D%B4%EA%B7%9C%ED%99%98&rft.au=%EC%A0%95%ED%9A%8C%EA%B2%BD&rft.date=2020&rft.pub=%ED%95%9C%EA%B5%AD%EC%A0%95%EB%B3%B4%ED%86%B5%EC%8B%A0%ED%95%99%ED%9A%8C&rft.issn=2234-4772&rft.eissn=2288-4165&rft.spage=827&rft.epage=833&rft_id=info:doi/10.6109%2Fjkiice.2020.24.7.827&rft.externalDBID=n%2Fa&rft.externalDocID=oai_kci_go_kr_ARTI_9545560 |
thumbnail_l | http://covers-cdn.summon.serialssolutions.com/index.aspx?isbn=/lc.gif&issn=2234-4772&client=summon |
thumbnail_m | http://covers-cdn.summon.serialssolutions.com/index.aspx?isbn=/mc.gif&issn=2234-4772&client=summon |
thumbnail_s | http://covers-cdn.summon.serialssolutions.com/index.aspx?isbn=/sc.gif&issn=2234-4772&client=summon |