GenAI 공공데이터 활용 경진대회 - <산업별 미스매치 예측 및 대시보드 서비스> 정리

Activity/Data

GenAI 공공데이터 활용 경진대회 - <산업별 미스매치 예측 및 대시보드 서비스> 정리

짹짹체유 2024. 10. 13. 11:17

프로젝트 회고

참가 개요

같이 인턴을 했던 언니 오빠들과 공모전에 참가를 하게 되었다

모두 데이터, IT 관련 전공에 웹개발, AI 관련 부트캠프도 참여했던 경험이 있고 희망 직무도 유사했다

추천을 받아서 해당 공모전에 참여를 하게 되었고 약 2달간 준비했던 것 같다

각자 인턴 + 대외활동을 하면서도 틈틈이 준비하고 막바지에는 여러 일들이 겹치면서 3-4시간 자면서 발표 준비를 했던 것 같다

프로젝트 진행하면서 어려웠던 점

- 데이터 전처리 과정에서, 유효구직과 유효구인의 기준이 달라서 취합하는 과정에 어려움이 있었음

-> 구직은 직종별이지만 구인은 산업 대분류별로 되어있음. 직종 키워드를 기반으로 산업에 매칭시킴

- 데이터 기반으로 문제 정의와 우리 아이디어의 필요성, 타당성 등의 논리를 수립하는 것이 쉽지는 않았다

-> 전체 과정을 계속하다보면 더욱 논리적인 사고가 가능해질 것 같다

최종 발표 후 질의응답 기반 아쉬웠던 점

데이터 기반해서 문제를 파악하고 솔루션의 필요성을 강조했던 부분이 강점이자 아쉬웠던 점인 것 같다.

우리 팀은 솔루션 자체보다는 개요와 필요성에 더 중점을 두고 준비를 했다. 그러나 "창업 경진 대회"였기 때문에, 사업성이나 확장성 측면에서 다른 팀들에 비해 부족한 면이 있었다.

우리를 제외한 모든 팀들은 실제 창업 중이고 수익도 창출 중인 팀도 있었다. 그렇기 때문에 창업 측면에서는 뒤쳐질 수 밖에 없었던 것 같다.

공공데이터를 활용한 예측인데 어떻게 경쟁력을 가질 수 있나?

공공데이터는 정말 누구나 사용할 수 있다는 것이다. 그렇다면 우리의 솔루션이 어떻게 경쟁력을 갖출 수 있을까? 단순히 대시보드로 보여지는 것은 당연히 경쟁력을 가질 수 없다. 공공데이터를 어떻게 활용하는지가 관건이고, 우리 솔루션에서는 예측이 경쟁력을 가질 수 있는 포인트라고 생각했다. 여러 변수들 중 어떤 변수를 선택하는지, 어떤 모델을 사용하는지, 하이퍼 파라미터를 어떻게 조정하는지 등이 관건일 것 같다. 예측에 집중해서 기술적으로 접근한다면 학부생 수준에서는 한계가 있긴 하겠지만, 아이디어 제안 수준에서 딥하게 기술적으로 들어가지 않고 열려있는 방향으로 설명할 수 있었던 것 같다.

발표 측면 (4F)

Facts

pptx 파일인지 확인하는데 타이머가 시작되었고, 마음가짐을 차분하게 가다듬지 못한채 바로 시작
집에서도 옷까지 입고 녹화하면서 여러번 시뮬레이션 + 연습할 때는 무조건 10분이 넘었는데 발표할 때는 오히려 1분 20초가 남음
말이 빠르긴했지만 엄청 빠르지는 않았다고 함

Feeling

👍🏻Good

새로운 경험이라 이러한 경험 자체를 할 수 있다는 것에 우선 좋았음
준비할 때부터 도움을 정말 많이 받아서 감사했음

✊🏻Soso

무대 위에서 좀 더 앞으로 나가서 발표했으면 좋았을 듯 (ppt 바로 옆에 붙어서 무대 왼쪽 끝에만 계속 서있었음)
여유를 갖고 천천히 했으면 좋았을 듯
청자들의 반응을 파악하면서 소통하는 여유가 있었으면 좋았을 듯
생각보다 화면을 너무 많이 봄
발표하면서 좀 움직이려고 했는데 긴장해서 살짝 휘청휘청
[질의응답] 당황하니까 같은 말 계속 반복됨
[질의응답] 질문자가 2가지 질문을 주실 때, 앞 질문을 까먹음

Finding

발표 자체는 크게 긴장하지는 않았던 것 같음
[질의응답] 우리의 허점을 잘 파악하시고 그것들을 예리하게 질문하심

Future Action

발표 시에, 좀 더 준비하고 숙지해서 화면보다는 청자를 더 많이 보면서 발표할 수 있도록
청자의 반응도 파악하고 여유를 가지면서 발표할 수 있도록
허점이 되는 부분을 항상 준비해라

Feedback

공공데이터 활용을 우리 팀이 제일 잘했다고 하심
멘토님이 첫번째로 발표를 하게 된 것이 오히려 좋았다고 느끼심
- 우리는 데이터분석 대회 느낌이었고 뒤에 팀들은 창업에 포커싱. 다들 Only 개발에 포커스를 맞춰서 오히려 청중 입장에서는 '창업만 하려는거 아냐?' 라고 느껴짐
- 다른 팀은 사업 배경이 말로 하는 배경이었다면 우리는 데이터 분석한 결과로 말을 하니까 문제 인식 측면에서 오히려 나앗다는 느낌
단점: 사업성, 서비스 차별점, 질의응답 당황한 티 많이 남
발표를 제일 잘하셨다고 하심
- 발표 많이 해봤는지 파랑파랑(?)하게 잘함
- 방송 듣는 것 같음 머리에 때려박는 딕션, 단어들이 귀에 콕콕 박히게 말함
장표가 글이 많지는 않아서 잘 들어왔던 것 같다

KPT

Keep

- 문제 인식과 논리 설명을 데이터로 접근하며 전략을 수립하려고 하는 것

- 새로운 경험들을 위해 계속 도전하는 것

Problem

- 허점들을 매꾸면서 논리 수립하는 것

- 솔루션적인 측면에서 다양한 방안으로 고민해보지 못한 것

Try

- 관심있는 산업으로 더 focus하고, 해당 산업 이슈를 계속 follow up 하기

- 데이터분석 자체에 목적을 두지 말고 데이터분석은 하나의 툴로써 가져가기 (취준할 때도, 취준 후에도)

프로젝트 설명

아이디어 제안 배경

가. 개요

1) 고용 시장 현황

경기 침체와 코로나19 팬데믹 영향으로 고용 시장 불안정
기술 발전과 산업 구조 변화로 고용 미스매치 문제 심화

2) 미스매치 문제

정부 및 지자체가 지역 경제와 직결되는 일자리 정책에 많은 관심을 가지고 있다.

비상경제장관회의에서는 지속적으로 빈일자리 해소방안을 발표하며 ‘지역별 맟춤형 빈일자리 해소 프로젝트’를 강조
경기도는 일자리 문제 해결을 위해 구인구직 플랫폼을 개편하고 각종 지원 사업을 추진

3) 미스매치 문제 발생 원인

기업은 경력을 선호하나, 구직자들은 기업에서 요구하는 경력 부족
구직자 입장에서는 ‘양질의 일자리가 적다’, ‘워라벨이 중요하다’ 등 기업이 원하는 조건 미충족
노동시장의 이중구조

이처럼 다양한 원인 중, 노동시장의 이중구조에 집중했다.

※ 노동시장의 이중구조는 상대적으로 높은 임금, 양호한 노동조건 등을 보장 받는 대기업 정규직 등이 포함되는 1차 노동시장과 열악한 임금과 노동조건을 가진 중소기업 등이 포함되는 2차 노동시장으로 양분되는 이중구조로 이해했다.

나. 경기도 현황

1) 산업 구조

2차 노동시장에 해당하는 중소기업 수가 17개 시도 중 가장 큰 비중을 차지

경기도 중소기업 중에서는 제조업의 비중이 높은 수준으로 경기도 지역 경제에 미치는 영향이 큼

전국에 비해서 중소기업 제조업의 비중이 높음

그러나, 구직자들은 중소기업이 기피 일자리 조건을 모두 갖춘 일자리일 확률이 높기 때문 중소기업을 꺼린다. 중소기업 중에서도 특히, 제조업 직종을 기피하는 경향을 보이며 이는 이중구조의 특성을 보여준다.

아래 표의 청년들이 기피하는 일자리 조건을 살펴보면, 상위에 ‘근무시간이 잘 지켜지지 않는 회사’, ‘월급 기준 이하’, ‘정규직 아닌 경우’, ‘육체적으로 힘든 일’ 등이 위치해 있다.

따라서 구직자가 기피 하는 직종으로 열악한 임금과 노동 조건을 가진 대표적인 산업인 제조업을 중심으로 심화되는 구인난 위험을 대비해야 한다.

2) 미스매치 현황

2024년 한국은행 보고서에 따르면, 경기도의 업종은 제조업에 편중되어있으며, 지식기반서비스업이 상대적으로 취약
미충원인원이 가장 많은 산업은 제조업(업종대분류코드: C), 운수 및 창고업 순
전년동기대비 미충원인원이 가장 많이 증가한 산업은 전문, 과학 및 기술 서비스업(업종대분류코드: M)

아래는 2018년부터 2022년까지 유효구직 및 구인 인원수를 시각화한 자료이다. 산업별로 년도에 따라 다른 특성을 보이며, 제조업의 유효구직 및 구인 인원수의 격차가 크고 전문, 과학 및 기술 서비스업(M)도 차이가 증가하고 있는 추세를 확인할 수 있다.

다. 필요성 및 목표

1) 기존 유사 서비스의 한계점

경기도 내, 지자체별 데이터를 확인할 수 없음
경제 전반적인 통계 보여주며 고용 통계 일부 포함
분석내용만 있어, 기초지식이 부족하면 지표 이해 어렵

2) 개선 방향

도시별 분석으로 세부적인 지표 확인 가능
경기도 고용 변수 예측을 통한 고용시장에 특화된 대시보드
AI를 활용한 분석 요약과 정책 제안으로 누구나 이해하기 쉬운 대시보드 개발

3) 목표

산업별/지역별 세분화된 분석을 바탕으로, “ 산업별 미스매치 예측 및 모니터링 대시보드를 통한 정책적 시사점 제공 ”

아이디어 핵심 내용

종합 요약

구직자들은 사무직 선호
경기도 중소기업 비중이 높으며 중소기업 중 제조업의 비중 가장 높음
구직자들이 꺼리는 일자리 조건을 갖춘 일자리는 제조업 중소기업일 확률 높음
경기도는 제조업에 편중되어 있고 지식기반산업은 전년동기대비 미충원인원 증가하는 등 취약한 형태를 보임

산업별로 세분화된 분석을 바탕으로, “ 산업별 미스매치 모니터링 및 예측을 통한 대안 마련 “이 필요하다.

이를 위해 산업별 미스매치 예측 모델을 만들고 대시보드를 제작해서 B2B 및 B2G 서비스를 진행한다.

프로세스

활용한 공공데이터 목록

항목	내용	데이터 출처
고용 변수	유효구인구직	고용행정통계
산업 변수-공통	기업현황정보	경제지역경제포털
산업 변수-공통	전기사용량 및 판매요금	한국전력공사
산업 변수-제조업	수출입무역통계	관세청
산업 변수-제조업	제조업생산능력지수, 가동률지수	KOSIS
산업 변수-제조업	제조업 업황실적 BSI	ECOS
원자재변수	원유평균 수입가격	관세청
원자재변수	월평균 두바이유/브랜트유/WTI 선물 가격	인베스팅

※ 산업은 단일 사건이 아닌 경제 종합적인 부분들에 영향을 받기 때문에 영향 받을 가능성들이 높은 변수들을 선택하고자 했고, '제조업 업황 실적 요인 분석 연구'를 주로하여 선행연구를 참고하면서 고용 / 산업 / 원자재 변수로 나눠서 수집했다.

클러스터링 분석

경기도의 지역별 데이터를 취합해서 클러스터링 분석을 진행했다.

최적의 개수로 선정된 4개의 그룹으로 군집화
Cluster 0그룹에는 제조업(C)을 제외한 전문, 과학 및 기술 서비스업(M)과 그 외 산업들이 모두 포함
Cluster 1~3그룹에는 제조업만 분류

Why 제조업, 전문과학및기술서비스업만 집중?

경기도 내에서 미충원인원이 가장 많은 산업은 제조업이며 2023년 기준 전년동기대비 미충원인원이 증가한 산업은 전문, 과학 및 기술 서비스업이다.

경기도 내 산업을 제조업(C) / 전문, 과학 및 기술 서비스업(M) / 그 외 산업(ETC)으로 구분하여 산업위기예측 및 미스매치를 살펴본다.

따라서, 산업 및 지역의 특징에 따라 군집화가 된 것을 확인할 수 있으며 이는 산업 및 지역별로 세분화된 분석이 필요하다는 것을 의미한다.

주요기능1 - 지역별 미스매치 현황 파악
- 지도를 클릭하면 지역별 미스매치 파악 가능
- 각 지역의 미스매치 정도를 색상으로 구분
- 색상이 진할수록 미스매치가 심한 지역

주요기능2 - 기간별 미스매치 예측
- 과거 몇 년간의 미충원수 추이를 보여주고, 향후 몇 년간의 예측치를 표시

주요기능3 - AI 분석 요약 및 정책 제안
- AI가 분석한 결과를 요약하고, 그에 따른 정책 제안을 제공

Why 대시보드?

가장 핵심은 인사이트 제공과 분산 되어 있는 자료들을 한눈에 파악할 수 있도록 제공하는 것이다. 분산된 공공데이터를 취합해서 정책 제안에 도움이 될 수 있도록 대시보드 형태로 제공하고자 했다.

'Activity > Data' 카테고리의 다른 글

데이터 리터러시를 키우기 위한 독서, <데이터 문해력>을 읽고 (0)	2024.11.24

현재글GenAI 공공데이터 활용 경진대회 - <산업별 미스매치 예측 및 대시보드 서비스> 정리

체유의 IT일지