nyunu

[FSI Data Challenge 2023] 삼성카드 대표이사상 : 카드소비 형태에 따른 보험 종목별 사고율 분석 (1) - 예선 본문

공모전

[FSI Data Challenge 2023] 삼성카드 대표이사상 : 카드소비 형태에 따른 보험 종목별 사고율 분석 (1) - 예선

여뉴누 2023. 11. 2. 13:54
728x90

 

10월 30일에 FSI Data Challenge 2023의 시상식이 열려 오후 반차를 내고 다녀왔다.

예선을 준비하던 6월부터 본선2차 발표가 이루어졌던 9월말까지 약 4개월의 여정이 끝을 맺었다.

인턴에 .. 자격증에 .. 이것저것 다 겹쳐서 정신없이 살았는데 결과까지 너무 좋아서 기분이 왕왕 좋다 ㅎㅎ

특히 수상은 생각도 못했어서 본선1차 통과했을 때도 놀랐고, 본선2차 통과했을 때는 더 놀랬었는데 ...

삼성카드 대표이사상이라니 !!! 진짜 말도 안돼 !!!

암튼 자소서를 쓰다보니 생각보다 내가 뭘했고, 어떤 생각을 했고가 잘 기억나지 않아

더 늦기 전에 남겨두는 FSI Data Challenge 후기 레고 

 

https://www.findatamall.or.kr/fsec/board/view.do?cmnx=61&idx=193

 

금융데이터거래소 > 커뮤니티 > 공지사항

읽은알림 삭제 읽은 알림을 삭제하시겠습니까?

www.findatamall.or.kr

 


대회 방식

 대회는 "예선 >> 본선 1차 >> 본선 2차" 순으로 진행되었다. 

  • 예선 : 데이터 분석 및 모델링 개발 계획서를 제출
  • 본선1차 : 데이터 및 원격 환경을 제공 받아 실제 분석 및 개발 & 보고서 제출
  • 본선2차 : 본선1차 보고서 기반 발표

 


예선

 

1. 주제 선정

 주제는 총 두 개가 주어졌는데, 우리 팀은 트랙A를 선택했다. 선택했던 이유는 트랙A의 주제가 더 넓은 주제라고 느꼈기 때문이었다. 트랙B에 비해 다양한 방식과 사고를 접목시킬 수 있을 것이라 판단했고, A에 참가했다. 나중에 알게 된 사실이지만 트랙A는 정말 .. 도메인 싸움 그잡채였다 ..

2. 분석 방법론 설정

1) 주제 분석

 가장 먼저, 주제를 분석했다. 트랙A는 보험개발원과 삼성카드의 데이터로 진행되었고, 실제 시상도 두 기업에서 진행했기 때문에 두 기업의 니즈에 맞춰 주제를 분석하고자 했다. 카드소비 형태로부터 보험 종목별 사고율을 분석함으로써 얻을 수 있는 것은 무엇이고, 결과를 어떻게 사용하기 위해서 이러한 과제를 부여했으며, 그들이 원하는 결과의 형태는 무엇인지 등 주최측의 측면에서 주제를 분석하고자 했다. 

 우리팀이 예상한 주최측의 니즈는 다음과 같았다.

 

  • 위험 평가 : 카드 소비형태는 개인 또는 기업의 생활 방식과 소비 습관을 반영하기 때문에 특정 보험 종목과 관련된 위험의 정도를 평가하기 위해 카드 소비형태를 분석하고자 한다.
  • 시장 세분화 : 보험 회사는 특정 소비 형태를 가진 고객들에게 맞춤형 보험 상품을 제공하여 시장에서 경쟁 우위를 선점할 수 있다. 특히 생명보험의 경우 감소세를 보이고 있기 때문에 이러한 세분화 전략이 더욱 필요할 것이라 예상했다.
  • 보험료 책정 : 고객의 소비 형태와 관련된 위험 요인을 고려함으로써 개인 또는 기업에게 보다 정확한 보험료를 부과할 수 있게 된다. 이는 앞의 위험 평가와도 연관되는 내용이다.

 이러한 니즈를 예상해보는데 가장 어려웠던 점은 주최측에서 제공한 "사고율"이 실제로는 존재하지 않는다는 점이었다. 아무리 찾아봐도 주최측에서 제공한 사고율 산식에 대한 정보를 찾을 수 없었다. 그러다 찾은게 "손해율"이라는건데 ..! 보험회사가 받은 보험료 가운데 사고가 발생했을 때 피해자에게 지급한 보험금의 비율로, 쉽게 말하자면 보험사가 얼마나 손해를 봤는가를 나타내는 비율 정도로 표현할 수 있다. 우리가 받았던 사고율 산식은 해석해보았을 때, 손해율과 비슷한 의미를 가지는듯해보였다. 그래서 주제 분석 과정에서는 손해율 분석의 이점 등에 초점을 두어 예상해보았다.

2) 주제 분리

 방법론을 설정하기 이전에, 주제를 크게 두개의 트랙으로 분리했다. 

"카드소비 형태" + "보험 종목별 사고율 분석"

그리고 어느 트랙이 더 메인이 되어야 할지를 생각해본 결과, "보험 종목별 사고율 분석"에 있을 것이라 결론지었다. 카드소비 형태를 잡는 것보다, 이 안에서 보험 종목별로 사고율 분석을 통해 인사이트를 내는데 집중할 수 있는 방법론을 찾고자 노력했다.

3)  분석 파이프라인

 분석 파이프라인은 다음과 같다.

 

1. 보험 종목별 데이터 분리

2. 보험 데이터를 활용해 사고율 파생 변수 생성

3. 삼성 카드 데이터 내 카드 소비와 관련된 데이터를 SOM 모델링하여 고객 세분화

4. 고객 군집 별 다중회귀분석 실행 ( 설명변수 : 개인의 특성 & 종속변수 : 사고율 )

     이때, 단계선택법을 사용하여 최적의 변수 조합을 도출

      개인의 특성에 따른 사고율과의 관계를 결과로 도출할 수 있을 것이라 예상

     군집 내 개인의 특성 파악 & 개인의 특성에 따른 사고율 간의 관계상 파악

 

예상되었던 분석 결과는 다음과 같다.

4)  분석 방법론 선정 이유

1) SOM

당시 SOM을 공부하며 블로그에도 글을 올렸던 적이 있었다. 모델에 대한 자세한 설명은 아래를 참고하면 될 것 같다.

https://nyunu.tistory.com/22

 

[데이터 마이닝] 자기조직화지도(Self-Organizing Map, SOM) - 기본 개념

개인공부 1. 정의 : 고차원의 벡터를 2차원의 공간의 격자로 표현할 수 있도록 하는 인공신경망의 한 종류 2. 아키텍처 입력층 & 경쟁층 두 개의 층으로 구성 저차원 격자 하나에는 위치적 유사도

nyunu.tistory.com

 해당 모델을 선택했던 데에는 각 군집의 특징과 고객 프로파일을 분석하여 어떤 고객의 그룹이 형성되었는지 파악한 뒤, 그리드의 각 셀을 색상 또는 형태로 시각적으로 표현함으로써 이해하기 쉬운 결과를 도출하기 위함이었다. 또한, 이처럼 시각적으로 표현하면 각 보험 종목 별, 고객 그룹 별 카드 소비 형태의 특징이 어떤 차이를 보이는지도 쉽게 파악할 수 있을 것이라 판단했다.

 우리가 도출한 결과를 전문가뿐만 아니라 일반적인 실무를 진행하는 사람들에게까지 이해될 수 있어야 한다고 생각했기 때문이었다.

 

2) 다중회귀분석

 보험에는 개개인의 특성이 매우 중요하게 작용하기 때문에 개인의 특성을 무조건적으로 고려해야 한다고 판단했다. 이러한 개인의 특성과 사고율 사이의 관계를 분석하기 위해 다중회귀분석 후 회귀계수를 활용하고자 했으며, 모델을 구축함으로써 이후 고객에 대한 사고율의 예측까지 가능하도록 하고자 했다.

 

 


여기까지가 예선 정리 끗 ~

어차피 이후 본선 1차에서 실제 데이터 보면서 분석 방법론은 아예 뒤엎어야 했다 .. 

그냥 이건 생각의 흐름을 정리해두는 그정도의 역할일뿐 ㅎㅎ ..

데이터도 많이 달라졌고, 이런저런 문제들이 많았다.

글이 너무 길어져서 .. 본선 1차는 다음글로 :)

728x90