데이터 분석 프로젝트

[팀 프로젝트] 2021 빅데이터 학습 아이디어 공모전

  • -
728x90
반응형

📚 진료내역정보 기반 주질병 분석 & 서울시 치매환자 유병 현황 기반 환자 분포 분석

📌 프로젝트 개요

수행 기간 2021.12 ~ 2022.01
사용 데이터 1) 공공데이터포털 > 국민 건강 보험 공단의 진료내역 데이터
2) 시군구별 치매유병현황, 서울시 치매 사망자수 및 사망률, 서울시 치매센터
3) 질병사인코드
내용 빅데이터혁신공유사업단에서 주최한 ‘2021 빅데이터 학습 아이디어 공모전’에 참가하여,
국민 건강 보험 공단의 진료내역 데이터와 서울시 치매 환자 데이터를 활용하여
주질병 분석과
환자 분포 분석을 수행함.
수행 역할 2인 팀 / 팀장, 추가 데이터 수집과 정제, 데이터 시각화 및 해석
사용 프로그램 및 언어 Visual Studio Code, R
성과 대상

2021년 교내 공모전으로,
1년간 수행한 데이터 분석 프로젝트를 총정리하며
심화학습을 위한 아이디어와 강의에 따라 반영하여야 할 아이디어를 제시했다.

같은 과목을 전공하는 동기와 함께 유사 분야 프로젝트를 선정하여 추가 분석을 수행하고,
이에 대한 심화학습 방안 및 아이디어를 제시하여 대상을 수상했다.


📑 프로젝트 보고서

1-1. 진료내역정보 기반 주질병 분석

 

 

 

 

 

 

 

 

 

1. 상위 50대 주상병
2018~2020년 사이에 J209와 I109번 질병원인으로 병원을 찾는 환자수가 가장 많았고 70~79세 환자수가 가장 높으며 그 다음으로 60~69세, 9세 이하 순서이다.
2. J209 & I109
비교 시각화를 통해 J209코드는  9세 이하의 환자수가, I109코드는 70~79세 환자수가 가장 많은 비율을 차지하고 있는 것을 알 수 있다.
3. 군집
계층적) 유사도가 높은 데이터끼리 연결하고 트리구조처럼 만든 덴드로그램을 통해 주상병코드를 그룹화한다.
분할적) 5개의 서로 다른 군집을 찾기 위해 k값을 5로 설정한 후 K-Means 알고리즘에 따라 분할적으로 그룹화한다.
4. 텍스트 시각화
앞서 분석한 결과에 따라 주어진 데이터 셋에는 J209와 I109가 많이 있을 것이라고 예상할 수 있고
실제로
워드클라우드와 트리맵으로 분석한 결과
J209 다음에 I109순으로 크기가 큰 것을 확인할 수 있다.
5. 지도시각화
시도 코드를 이용해 시도별 전체 환자수를 지도에 시각화한다. 설정한 색상을 통해 어느 지역의 환자수가 많은지 파악할 수 있고 색 설정은 본인이 원하는 색으로 바꿀 수 있다. 분석 결과 경기도와 부산광역시의 환자수 비율이 높았고 가장 낮은 비율을 차지한 지역은 강원도였다.
6. 시계열 시각화
전체 값은 2018년과 2019년은 약4000건이지만 2020년에는 급증한 모습을 볼 수 있다. 또한 2019년 하반기부터 급증하는 추세를 보이고 있으며 1년주기로 계절성이 동일하게 나타나고 있다. 오차는 매년 상반기에는 크고 하반기에는 작은 모습을 보인다.

 


1-2. 서울시 치매환자 유병 현황 기반 환자 분포 분석

 

 

 

 

 

 

 

1. 치매유병현황
연도별: 2015년부터 2020년까지 시간이 지남에 따라 치매 환자수가 점점 증가하는 추세다.

성별: 5년 데이터 모두 남성에 비해 여성 환자수가 더 많다.

행정구역별: 노원구, 강서구, 은평구 순으로 환자수가 많다.
또한 중구의 환자수가 가장 적고 그 다음으로는 종로구인 것도 확인할 수 있다.
2. 치매사망자수
성별: 치매유병현황에서 여성 환자수가 더 많았기 때문에 여성 사망자수가 더 많을 것이라고 예측할 수 있고 실제로 여성 사망자수가 남성보다 많음을 알 수 있다.

행정구역별: 행정구역도 마찬가지로 예측 가능하고 은평구, 노원구의 사망자수가 높다는 사실을 확인할 수 있다.
3. 치매센터
치매센터 데이터셋에 있는 행정구역을 이용해 각 행정구역에 있는 치매센터 개수를 알아본 결과 강북구에 2개, 나머지 구에 1개씩 있었다.
각각 센터의 위도와 경도 데이터를 이용해 실제 지도에 찍어보며 지도상으로 어디에 위치하고 있는지 알 수 있다.

 


2-1. 심화 학습 아이디어 제시

 

 

 

 

 

 

 


 

 

 


2-2. 강의 아이디어 제시

 

 

 

 

 


3. 데이터 파일 및 코드 구현 (깃허브 링크)

 

Contest_code/1_2021_bigdata contest at main · osoomin1503/Contest_code

2021년부터 공모전 및 경진대회에 참가하여 대상부터 장려상에 입상한 코드 업로드. Contribute to osoomin1503/Contest_code development by creating an account on GitHub.

github.com

320x100
728x90
Contents

포스팅 주소를 복사했습니다

이 글이 도움이 되었다면 공감 부탁드립니다.