기계 학습을 사용하여 금 제공업체를 예측하여 설문조사 응답률을 높입니다.
홈페이지홈페이지 > 블로그 > 기계 학습을 사용하여 금 제공업체를 예측하여 설문조사 응답률을 높입니다.

기계 학습을 사용하여 금 제공업체를 예측하여 설문조사 응답률을 높입니다.

Aug 18, 2023

세부 사항

호주 통계학자 기술 시리즈의 두 번째 연구 논문이 발표되었습니다.

세부 사항

호주 통계청(ABS) 및 기타 국가 통계 기관에서는 설문조사에 대한 높은 응답률을 유지하는 것이 점점 더 어려워지고 있습니다. 데이터 수집을 위한 예산이 제한되어 있기 때문에 응답자에 대한 후속 조치를 위한 보다 효과적인 전략을 모색하게 되었습니다. 본 문서는 후속 전화 없이 설문조사를 완료할 설문조사 응답자(이하 GP(Gold Provider))를 예측하는 데 중점을 둡니다. GP를 정확하게 예측하면 후속 조치를 통해 나머지 제공자에게 집중할 수 있습니다. 후속 조치를 취하면 응답 가능성이 높아질 가능성이 높습니다. 후속 자원을 할당하는 이러한 반응형 데이터 수집 프로토콜을 GP 전략이라고 합니다.

이 문서에서는 목표 응답률을 달성하기 위해 고군분투하는 ABS 조사 중 하나인 REACS(농촌 환경 및 농산물 조사)의 2018-19년 주기에 대한 이 GP 전략의 실제 시험을 조사합니다. GP를 예측하기 위해 규칙 기반 설명 접근 방식과 모델 기반 응답 경향 접근 방식의 두 가지 접근 방식이 사용되었습니다. 모델 기반 반응 성향 접근 방식은 회귀 트리 방법을 사용하는 Random Forest라는 기계 학습 방법을 사용했습니다.

실시간 시험에서 기계 학습 접근 방식은 GP와 비GP를 보다 정확하게 예측하고 전체 샘플에서 필요한 GP 비율을 설정하는 데 더 많은 유연성을 제공함으로써 규칙 기반 접근 방식보다 성능이 뛰어났습니다.

핵심 단어: 골드 공급자 전략; 집중적인 후속 조치; 반응 성향; 기계 학습; 랜덤 포레스트 방법

ABS 및 기타 국가 통계 기관에서는 설문조사에 대해 지속적으로 높은 응답률을 유지하는 것이 점점 더 어려워지고 있습니다. 이러한 사실은 데이터 수집을 위한 증가하는 비용 및 제한된 예산과 결합되어 이러한 기관들이 무응답 편견을 줄이는 데 도움이 되는 응답률을 높이는 것을 목표로 하는 보다 효과적인 후속 전략을 찾게 되었습니다.

관심 있는 대상 조사 변수가 응답 성향과 통계적으로 독립적인 경우 이는 ABS에서 집중 후속 조치(IFU) 노력으로 알려진 것을 전략적으로 지연하고 방향을 바꾸는 GP(Gold Provider) 전략이라는 반응형 데이터 수집 프로토콜을 통해 달성할 수 있습니다. (즉, 전화 통화) GP 전략 기간 동안 GP가 아닌 GP에 지출됩니다. 여기서 GP는 자체 응답, 즉 후속 통화 없이 설문조사를 완료하는 설문조사 응답자입니다. GP 전략 기간 동안 GP가 아닌 사람에게는 정상적인 후속 통화가 이루어지지만 GP는 고의로 후속 조치를 받지 않으며 저장된 후속 통화는 비GP에게 다시 할당됩니다. . GP 전략 기간이 종료되면 자체 응답하지 않은 GP는 비GP와 마찬가지로 후속 조치를 받게 됩니다. GP 전략의 핵심 요소는 GP에 대한 IFU 자원을 중지하거나 취소하는 것이 아니라 지연시키는 것이므로 개념적으로 이는 추정치에 추가적인 무응답 편향을 일으키지 않으므로 다음과 같은 경우 중요한 통계적 위험을 초래하지 않습니다. 데이터 품질에 관한 것입니다. 반면, GP 후속 조치가 지연되어 저장된 통화는 GP가 아닌 사람을 후속 조치하는 데 사용될 수 있으므로 응답률을 높이고 무응답 편향을 줄이는 데 도움이 됩니다. 따라서 이 GP 전략은 궁극적으로 데이터 품질을 저하하거나 개선하지 않고도 전반적인 응답률을 향상시키기 위해 후속 노력을 가장 효율적으로 지시하는 것을 목표로 합니다.

매년 실시되는 REACS(농촌환경 및 농산물 조사)는 목표 응답률을 달성하는 데 어려움을 겪어온 ABS 비즈니스 조사 중 하나입니다. REACS의 경우 IFU 기간은 3가지 중요한 이정표, 즉 두 번째 및 세 번째 알림 서한과 IFU 종료로 인해 약 3개월입니다. 첫 번째 알림 편지는 조기에 발생하기 때문에 중요한 이정표로 간주되지 않는다는 점에 유의해야 합니다. IFU 기간 전체에 걸쳐 주요 IFU 전략은 CEd(완전히 열거된) 부문의 비응답자에 대해 IFU 리소스(예: 호출)의 우선순위를 정하고 그 다음 샘플링된 부문을 지정하는 것입니다. 여기서 CEd 부문은 추정 품질에 큰 영향을 미치기 때문에 선택 확률이 1인 응답자를 포함하는 부문을 의미합니다. 그럼에도 불구하고, CEd 부문과 마찬가지로 표본 부문 내에는 모든 응답자가 동일한 응답 성향을 갖고 있으며 응답하기 위해 동일한 자원이 필요하다는 암묵적인 가정이 있습니다. 따라서 부문 내 자원 배분 강도는 응답자마다 차별화되지 않습니다.