공항 온실가스 감축 프로젝트
프로젝트의 시작
해당 프로젝트는 2021년도에 데이터 청년캠퍼스 프로그램을 이수하면서 시작되었다. 빅데이터 분석의 전반적인 과정을 배우면서 이를 활용한 프로젝트를 진행해야 수료가 가능했다. 더불어 12팀 중에서 대학 대표로 선정될 경우, 다른 대학교들과 경쟁할 수 있는 기회가 주어졌었다.
프로젝트의 주제를 선정하는 것은 쉽지 않았다. 각자 하고 싶은 주제가 달랐고, 충분한 데이터를 확보하기가 어려웠기 때문이다. 하지만, 많은 논의 끝에 데이콘에서 진행하는 교통데이터 활용 공모전에 참여하는 것으로 결론을 낼 수 있었다. 그리고 그 중에서도 항공과 관련된 데이터를 분석하기로 결정하였다.
해결할 수 있는 문제, 항공 지연
분석은 공항 온실가스 감축에 초점을 맞추기로 하였다. 당시 ESG에 대해 정부와 기업이 많은 관심을 가지고 있었고, 공항 데이터 중 온실가스와 관련된 데이터도 제공되었기 때문이다.
우선, 분석에 앞서 공항 온실가스가 어디서 발생하는지 알아보았다. 그 과정에서 공항 온실가스가 직접, 간접, 기타 요인에 따라 SCOPE별로 나눠져 있다는 것을 배울 수 있었다.
이를 발견하자, 어떤 분석을 진행해야 할지 고민을 먼저 하였다. 그렇게 한참을 고민하자, 바꿀 수 있는 요소를 분석하는 것이 옳다는 생각이 들었다. 기종별 온실가스 최적화를 통해서 온실가스를 감축할 수도 있었겠지만, 데이터가 부족하였고 전문성이 많이 떨어진다는 생각이 들었기 때문이다.
그래서 분석하게 된 것이 바로 '항공 지연'이었다.
인천국제공항에서 매년 제공하는 GREEN REPORT를 참고하면 비행기의 이착륙 과정에서 많은 온실가스가 발생하는 것을 알 수 있었다. 특히 항공기가 이륙하기 전 작동하는 보조엔진에서 많은 온실가스가 나왔다. 즉, 해당 과정을 단축시킬 수 있으면 방출되는 온실가스의 양도 줄일 수 있을거라는 것이 나의 생각이었다.
그리고 실제로 매년 공항에서는 다양한 이유로 항공기가 지연되고 있었다. 지연에 따라, 항공기가 대기해야 되는 시간은 길어졌고 이로 인해 발생하는 온실가스도 상당했다. (1분당 대략 100톤 정도의 CO2가 발생한다고 한다.)
조사 결과, 항공 지연은 여러 가지 요인으로 발생하였고 그 중에서 우리가 해결할 수 있는 지연은 여객 처리와 기상이었다. 그렇기에 두 지연 요인들에 초점을 맞추어 분석을 진행하였다.
전체적인 과정은 데이터 수집 및 전처리, 인천국제공항 지연 분석, 여객 지연 분석, 기상 지연 분석으로 나눠서 분석을 진행했다. 가장 데이터가 많았던 인천국제공항을 위주로 분석을 진행하였고, 필요한 데이터들은 그린리포트, 항공정보 포탈 시스템, 공공데이터 포털, 서울 열린 데이터 광장, 항공기상청 등 다양한 곳에서 확보하였다.
EDA 진행
지연에 대한 분석 이전에 온실가스 현황에 대한 간단한 분석을 진행했다. 그 결과, 항공기에서 배출되는 온실가스인 SCOPE3가 가장 크게 나오는 것을 확인하였다. 특히, 연도가 지날수록 온실가스의 배출량이 증가하는 추세를 보였다.
그리고 직접 온실가스인 SCOPE1과 기타 온실가스인 SCOPE3는 실제로 지연(편)과 매우 강한 양의 상관 관계를 가지고 있었다. 즉, 지연이 증가할수록, 온실가스 배출량도 증가한다는 것을 의미했다.
출발 지연과 도착 지연을 비교해 본 결과, 출발이 더욱 많은 지연을 보유했다. 특히, 출발 지연은 이륙 전 사용되는 보조 엔진의 영향으로 많은 온실가스를 배출하고 있었기에 이번 분석이 필요한 이유를 증명하였다.
항공 지연 요인을 종합해 보니, 기타를 제외한 지연 중 A/C 장비에 의한 요인이 제일 컸다. 그 다음으로 기상과 여객 처리로 인한 지연이 높았다. 그리고 여객 처리 지연에서 가장 높은 세부 지연 요인은 승객의 지각이었다. 즉, 대부분의 여객 처리 지연은 승객이 지각하지 않는다면 해결되는 문제라는 것이었다.
여객 처리 및 기상 지연 분석
지연 분석을 진행하기에 앞서, 가장 큰 문제는 데이터였다. 정말 많은 사이트와 논문을 찾아보면서 사용할 수 있는 데이터를 조회해봤지만 원하는 데이터를 찾는 데에는 실패하였다.
그래서 일단 가장 연관성이 높은 데이터를 확보하여 분석을 진행하였다.
우선, 인천국제공항 내의 시간별 주차 데이터를 threading함수를 사용해 실시간 주차 데이터 API에서 추출해 내었다. 그리고 이를 그래프로 가시화하여 확인했더니, 각 여객 터미널로 가기 위해 가장 접근성이 좋은 층에 차량이 몰리는 현상을 확인할 수 있었다.
분석 당시 코로나19로 인해 여행객이 줄어들면서 주차공간이 널널했지만, 코로나19 이후에는 그래프에 나타난 순서대로 주차장이 가득찰 것이 예상되었다. 즉 비행기 출발 시간과 관계없이 주차가 되어, 공항에 늦게 도착해 한시가 급한 승객들이 공항과의 거리가 먼 주차장에 차를 주차할 확률이 높다는 것을 알 수 있었다.
그 다음으로는 지하철 승하차를 확인했다. 운항 수와 하차 인원이 2~3시간 차이로 비슷한 양상을 보였다. 즉, 비행기를 타기 위해 승객들은 주로 2~3시간 일찍 도착해서 기다린다는 것을 알 수 있었다. 주로 여행가기 좋은 오전 시간에 승객들이 몰린다는 것을 알 수 있었다.
특히 특정 입국장으로 여객과 승객이 쏠리는 만큼, 유동인구를 고려한 지하철 승하차 설계를 통해 혼잡률을 줄여 지연을 사전에 방지할 필요가 있을거라는 생각이 들었다.
여객 처리 지연 분석을 이정도로 마치고, 기상 지연 분석을 진행하였다.
기상에 의한 지연 원인을 Heatmap을 제작한 결과, 시정, 전운량, 최저운고의 영향이 큰 것으로 나타났다. 어떻게 보면 당연한 결과였다. 낮은 구름들로 인해 앞이 안보이는 경우, 비행기가 출발할 수 없기 때문이었다.
이후, 의사결정 나무와 로지스틱 회귀를 통해 기상 요인에 따라 지연을 예측하는 시도를 해보았다. 의사결정 나무는 깊이가 8일때 지연을 제대로 예측하였지만, 과적합이 예상되었다. 로지스틱 회귀는 시정과 풍속이 지연에 가장 큰 영향을 미치다는 것을 알려주었지만 선형 관계를 가진다는 가정이 필요했다.
그래서 앙상블 모델 중 하나인 XGBoost를 이용해 예측을 시도하였고 더욱 높은 정확도를 가질 수 있었다. 이러한 시도를 진행한 이유는 앞으로 기상으로 인해 발생하는 지연을 더욱 정밀하게 미리 예측할 수 있다면, 기상 지연을 고려한 항공 스케줄을 설계해 지연을 최대한 줄일 수 있을 거라고 생각했기 때문이었다.
결과적으로, 지연 분석을 통해 제언할 수 있었던 것은 지각자를 고려한 주차 효율 개선, 쏠림 현상을 방지한 지하철 하차 설계, 정밀한 기상 요인 예측을 통한 항공 지연 경고였다.
주차효율 관리 시스템의 제안
그리고 추가적인 제언으로, 주차효율 관리 시스템이라는 방안을 구상해보았다. 출발 시간이 임박한 승객을 배려해 공항에 가까운 주차구역에 배정해주는 대신, 요금을 가중부과하여 받는 방안이었다. 즉, 정당한 금액을 지불받는 동시에 항공 지연을 조금이라도 막을 수 있는 방안이라 생각하였다.
글을 마치면서
프로젝트를 진행하면서 가장 힘들었던 점은 데이터의 확보였다고 생각한다. 온실가스 감축이라는 문제를 해결하기 위해서 주어진 데이터로 할 수 있는 분석은 매우 한정되어 있었고 간단한 시각화 및 분석만이 가능했다.
그렇기에 더욱 아쉬움이 남는 프로젝트이지만, 그와 동시에 가지고 있는 데이터를 최대한 활용해서 적당한 솔루션을 제공하기까지 진행해보았기에 한편으로는 최선을 다했던 프로젝트였다고 본다.
다음에 기회가 된다면, 더욱 데이터가 많은 프로젝트를 선정해야겠다는 생각을 하며 글을 마친다.
*자세한 코드는 아래 링크에서 확인 가능하다.
https://dacon.io/competitions/official/235758/codeshare/3152
항공 지연분석을 통한 온실가스 감축 프로젝트 - 인천국제공항 지연 데이터를 중심으로
2021 국토교통 빅데이터 온라인 해커톤 경진대회
dacon.io