상세 컨텐츠

본문 제목

코로나 분석 프로젝트: 2020년 소상공인을 위한 서울 상권 분석 1️⃣

2020 데잇걸즈/데잇걸즈의 데이터 분석 프로젝트

by 데글데글 지니 2020. 12. 14. 08:30

본문

📊 데잇걸즈의 데이터 분석 프로젝트

데잇걸즈는 '이터레이션iteration' 단위를 통해 학습 하고, 단위마다 분석 프로젝트를 거듭하는 방식으로 학습하고 있습니다. 여기서 이터레이션이란, 특정 목적의 달성이나 원하는 최종 값을 얻기 위하여 특정한 알고리듬의 동일한 과정을 변수만 달리하여 반복적으로 수행시키는 것을 의미하는 단어로 데잇걸즈에서는 최종 학습 목표('데이터 분석 짱먹기')에 도달하기 위해 작은 프로젝트를 거듭하도록 하는 회기 하나 하나를 의미합니다. 데잇걸즈 구성원들은 이터레이션마다 반복적으로 작은 수준의 실패와 빛나는 성공들을 경험하며 꾸준히 성장해왔습니다!

위의 학습을 바탕으로 진행한 '코로나19 데이터 시각화 프로젝트'에서는 이전 이터레이션 2와는 달리 우리가 실전에서 마주할 수 있는 문제를 해결하기 위해 활용할 수 있는 도구(파이썬, 통계 지식 등)를 충분히 발휘해볼 수 있는 기회를 경험했습니다. 이 때, 팀원들과 프로젝트 진행에 대한 다양한 한계를 느껴보고 다같이 시행착오를 겪어 보면서 자신이 부족한 점은 무엇인지, 이것을 어떻게 극복할 것인지에 대한 방향을 수립해볼 수 있는 계기가 되었습니다.

[코로나 분석 프로젝트] 란?

위의 학습을 바탕으로 진행한 '코로나19 데이터 시각화 프로젝트'에서는 이전 이터레이션 2와는 달리 우리가 실전에서 마주할 수 있는 문제를 해결하기 위해 활용할 수 있는 도구(파이썬, 통계 지식 등)를 충분히 발휘해볼 수 있는 기회를 경험했습니다. 이 때, 팀원들과 프로젝트 진행에 대한 다양한 한계를 느껴보고 다같이 시행착오를 겪어 보면서 자신이 부족한 점은 무엇인지, 이것을 어떻게 극복할 것인지에 대한 방향을 수립해볼 수 있는 계기가 되었습니다.

그렇다면 어떤 프로젝트가 있었을까요? 데글이의 Pick!

데글이는 대성걸즈 팀의 '2020년 소상공인을 위한 서울 상권 분석' 프로젝트에 대해 파헤쳐 보았습니다!

2020 소상공인을 위한 서울 상권 분석 1️⃣

 

 

 

대성걸즈는 왜 이 프로젝트를 시작했을까요?

대성걸즈는 코로나가 길거리 풍경마저 바꿔놓았다는 사실을 깨달았습니다. "노른자위 땅"이라고 불리우던 강남 대로변이나 명동 일대의 핵심 상권들에 공실이 전례 없이 많이 발생하고 있었는데요. 하지만 오히려 재택근무, 온라인 개학 등으로 인해 집 주변 상권들에는 신장 개업하는 곳들이 있을만큼 이전과 거주지 상권은 크게 다르지 않은 모습이 눈에 들어왔습니다.

코로나가 우리 생활 패턴을 180도 바꾸어놓은만큼, 각 상권의 특징에 따라서 코로나의 여파도 각기 다르게 나타나지 않았을까요? 대성걸즈는 의문을 가지게 됩니다.

 

 

(이미지: ©️대성걸즈)

 

'데이터로 직접' 확인해보기 전, 대성걸즈가 세운 가설은? 

그렇다면 어떠한 점을 깊게 들여다보면 좋을까요? 대성걸즈는 본격적인 데이터 전처리에 앞서, 매출 증감률과 특정 업종 증감률에 대한 몇가지 가설을 수립해보기로 했습니다.

(1) 각 상권별 매출 증감률에 대한 가설

  • 상권별로 코로나로 인한 매출 감소율에 차이가 있을 것이다.
    - 번화가 상권의 감소율이 가장 클 것이다.
    - 주거지 상권의 감소율은 다른 상권에 비해 적을 것이다.

  • 주거지 상권의 매출 회복률이 다른 상권에 비해 빠를 것이다.

(2) 각 상권별 업종 매출 증감률에 대한 가설

  • 주거지 상권의 편의점, 슈퍼마켓 등 소매점의 매출 증가율은 다른 상권보다 클 것이다.
  • 번화가 상권 내 유흥업종 매출은 감소했을 것이다.
  • 오피스, 번화가 상권의 외식업종의 매출은 감소했을 것이다.

과연 대성걸즈는 공공 데이터를 통해 이 가설들에 대한 결과를 얻을 수 있었을까요?

 

가설 검정을 위한 데이터 사냥기

서울시 빅데이터캠퍼스부터 열린데이터광장까지, 데이터셋을 찾기 위해 고군분투하는 대성걸즈는 우리마을가게 상권분석서비스에서 제공하는 데이터에 주목하였습니다.

©️서울특별시 우리마을가게 상권분석서비스

대성걸즈는 그 중에서도 서울시 우리마을가게 상권분석서비스(상권-추정매출)에 집중했습니다! 이 데이터는 서울시 상권 영역 내 점포의 추정매출 정보를 제공하고 있기 때문입니다. 이외에도 유동인구, 직장인구, 집객시설, 상주인구, 점포 등의 데이터셋을 사용하기로 결정했습니다.

 

상권을 어떻게 나눠야 할까? 고민되는 데이터 전처리

대성걸즈가 분류하게 될 1,495개의 상권  ©️서울특별시 우리마을가게 상권분석서비스

대성걸즈는 이렇게 다양한 상권들이 가지는 특성을 존중하기에, '여러 개의 뭉치'로 나눌 방법을 고민했습니다. 그렇게 얻은 해답은 바로... K-평균 군집분석 (K-Means Clustering)!

K-평균 군집분석은 '주어진 데이터를 k개의 클러스터로 묶는 알고리즘' 입니다. 각 군집(=클러스터)와 거리 차이의 분산을 최소화 하는 방식으로 동작하는 이 알고리즘은, Scikit-learn(사이킷런) 라이브러리를 이용해 간단하게 시도해볼 수 있습니다.

물론 '몇 개'로 묶어야 할지도 기준이 필요한데요. 대성걸즈는 Elbow 기법을 활용하여 최적의 클러스터 개수를 설정했습니다. 그렇게 해서 얻은 결론은, 6개의 클러스터가 가장 적정하다는 것입니다.

 

6개의 클러스터를 이용한 클러스터별 특성 비교!

과연 6개의 클러스터로 나뉜 상권들은 어떤 모습을 띄고 있었을까요? 두구두구...

그 많던 상권은 어디로 갔을까? 6개의 클러스터로 나뉜 상권들!   ©️대성걸즈 

1,495개의 상권 구역들은 이렇게 아름답게! 무리를 지어 나뉘게 되었습니다. 그런데 여기서 잠깐, 그래프 아래에 '유쫙소', '니네집' 같은 것들은 과연 무엇을 의미할까요?

그것은 바로, 각 상권의 새로운 이름입니다! 대성걸즈는 각 클러스터마다 재밌는 특징이 있다는 것을 발견하고, 이 특성들을 보여주기 위해 지역에 귀여운 이름을 지어주기로 했습니다. 

대성걸즈가 만들어 낸 신규 상권 ©️대성걸즈 

또한, 각 상권별로 2020년 2분기 매출은 어떠했는지 가장 단순하게 확인해볼 수 있는 박스플롯을 그렸습니다.

©️대성걸즈 

여기서 대성걸즈는 3가지의 가장 특징있는 상권인 '유쫙소', '니네집', '핫플'에 초점을 두게 됩니다. 그 이유는, 모든 상권을 살펴보기 보다는 상권의 특징을 이루는 각 변수가 뚜렷하게 나타나는 곳을 선정해 심도있게 분석해 보는 것을 목적으로 두고 있기 때문입니다.

자, 이제 다음 컨텐츠에서 3가지 상권에 집중해서 대성걸즈가 어떤 분석을 시도하였는지 살펴봅시다!

 

관련글 더보기

댓글 영역