빅데이터혁신공유사업단에서 주최한 ‘2021 빅데이터 학습 아이디어 공모전’에 참가하여, 국민 건강 보험 공단의 진료내역 데이터와 서울시 치매 환자 데이터를 활용하여 주질병 분석과 환자 분포 분석을 수행함.
수행 역할
2인 팀 / 팀장, 추가 데이터 수집과 정제, 데이터 시각화 및 해석
사용 프로그램 및 언어
Visual Studio Code, R
성과
대상
2021년 교내 공모전으로, 1년간 수행한 데이터 분석 프로젝트를 총정리하며 심화학습을 위한 아이디어와 강의에 따라 반영하여야 할 아이디어를 제시했다.
같은 과목을 전공하는 동기와 함께 유사 분야 프로젝트를 선정하여 추가 분석을 수행하고, 이에 대한 심화학습 방안 및 아이디어를 제시하여 대상을 수상했다.
📑 프로젝트 보고서
1-1. 진료내역정보 기반 주질병 분석
1. 상위 50대 주상병
2018~2020년 사이에 J209와 I109번 질병원인으로 병원을 찾는 환자수가 가장 많았고 70~79세 환자수가 가장 높으며 그 다음으로 60~69세, 9세 이하 순서이다.
2. J209 & I109
비교 시각화를 통해 J209코드는 9세 이하의 환자수가, I109코드는 70~79세 환자수가 가장 많은 비율을 차지하고 있는 것을 알 수 있다.
3. 군집
• 계층적) 유사도가 높은 데이터끼리 연결하고 트리구조처럼 만든 덴드로그램을 통해 주상병코드를 그룹화한다.
• 분할적) 5개의 서로 다른 군집을 찾기 위해 k값을 5로 설정한 후 K-Means 알고리즘에 따라 분할적으로 그룹화한다.
4. 텍스트 시각화
앞서 분석한 결과에 따라 주어진 데이터 셋에는 J209와 I109가 많이 있을 것이라고 예상할 수 있고 실제로 워드클라우드와트리맵으로 분석한 결과 J209 다음에 I109순으로 크기가 큰 것을 확인할 수 있다.
5. 지도시각화
시도 코드를 이용해 시도별 전체 환자수를 지도에 시각화한다. 설정한 색상을 통해 어느 지역의 환자수가 많은지 파악할 수 있고 색 설정은 본인이 원하는 색으로 바꿀 수 있다. 분석 결과 경기도와 부산광역시의 환자수 비율이 높았고 가장 낮은 비율을 차지한 지역은 강원도였다.
6. 시계열 시각화
전체 값은 2018년과 2019년은 약4000건이지만 2020년에는 급증한 모습을 볼 수 있다. 또한 2019년 하반기부터 급증하는 추세를 보이고 있으며 1년주기로 계절성이 동일하게 나타나고 있다. 오차는 매년 상반기에는 크고 하반기에는 작은 모습을 보인다.
1-2. 서울시 치매환자 유병 현황 기반 환자 분포 분석
1. 치매유병현황
• 연도별: 2015년부터 2020년까지 시간이 지남에 따라 치매 환자수가 점점 증가하는 추세다.
• 성별: 5년 데이터 모두 남성에 비해 여성 환자수가 더 많다.
• 행정구역별: 노원구, 강서구, 은평구 순으로 환자수가 많다. 또한 중구의 환자수가 가장 적고 그 다음으로는 종로구인 것도 확인할 수 있다.
2. 치매사망자수
• 성별: 치매유병현황에서 여성 환자수가 더 많았기 때문에 여성 사망자수가 더 많을 것이라고 예측할 수 있고 실제로 여성 사망자수가 남성보다 많음을 알 수 있다.
• 행정구역별: 행정구역도 마찬가지로 예측 가능하고 은평구, 노원구의 사망자수가 높다는 사실을 확인할 수 있다.
3. 치매센터
치매센터 데이터셋에 있는 행정구역을 이용해 각 행정구역에 있는 치매센터 개수를 알아본 결과 강북구에 2개, 나머지 구에 1개씩 있었다. 각각 센터의 위도와 경도 데이터를 이용해 실제 지도에 찍어보며 지도상으로 어디에 위치하고 있는지 알 수 있다.