2024.04.12 (금)

  • 흐림동두천 1.0℃
  • 흐림강릉 1.3℃
  • 서울 3.2℃
  • 대전 3.3℃
  • 대구 6.8℃
  • 울산 6.6℃
  • 광주 8.3℃
  • 부산 7.7℃
  • 흐림고창 6.7℃
  • 흐림제주 10.7℃
  • 흐림강화 2.2℃
  • 흐림보은 3.2℃
  • 흐림금산 4.4℃
  • 흐림강진군 8.7℃
  • 흐림경주시 6.7℃
  • 흐림거제 8.0℃
기상청 제공

선거

"당일투표와 사전투표에서 유권자들이 크게 다른 선호도를 보이는 현상이 또 다시 발생"...서울보궐시장선거 분석결과

바실리아TV가 행한 정밀 분석 결과에 따르면 당일투표와 사전투표의 차이가 통계적으로 허용할 수 있는 범위를 훨씬 초과하는 것으로 밝혀졌다

바실리아TV는 4월 10일(토), 서울시장 보궐선거에 대한 25개구 단위의

통계 분석 결과를 공개하였다.

 

1. 

특이한 현상은 통계적 변칙을 체크할 때 사용되는 각 후보의 차이(당일득표율-사전득표율)가 

통계적으로 도저히 허용할 수 없을 수준으로 크다는 사실이다. 

 

[도표1] 4.7보궐선거 25개구단위 통계분석 결과 

출처: 바실리아TV, 4/10/2021

 

예를 들어, 종로구의 경우 박영선 후보와 오세훈 후보는 각각 +12.57%와 -11.73%이다.

중구의 경우도 양 후보는 각각 +11.09%와 -10.38%다.

여기서 주목해야 하는 것은 격차가 +10%와 -10%라는 것은 양 후보 사이에 20% 격차가

만들어짐을 뜻한다.

 

이는 통계적으로는 발생할 가능이 아주 낮은 경우다.

통계적으로 '아주 낮다'는 이야기는 현실적으로 일어나기가 거의 불가능하다고

해석할 수 있다. 

 

일반적으로 모집단에서 나온 표본집단(당일투표 그룹, 사전투표 그룹)은 선거처럼 표본집단 수가

큰 경우에는 거의 비슷한 통계적 특성을 보여야 한다. 이것은 곧바로 차이가 오차범위(1~3%)

이내에 있어야 함을 뜻한다. 

 

2. 

다음으로 2020년 4.15총선에서 차이(당일득표율-사전득표율)과 2021년 4월 7일 서울시장 보궐선거에서의 차이(당일득표율-사전득표율)은 모두 오차범위(1~3%)를 크게 웃돌고 있음을

확인할 수 있다. 

 

[도표2] 4.15총선과 4.7보궐선거 상호비교

출처: 바실리아TV, 4/10/2021

 

예를 들어, 차이는 4.15총선의 경우 1번과 2번 사이에는 각각 +15.68%와 -14.80%였고,

4.7보궐선거에서는 각각 +12.57%와 -11.73%이다.

두 경우 모두 오차범위를 너무 크게 벗어나기 때문에 자연스런 선거 데이터라고 보기에는

무리이다. 

 

3. 

일각에서는 오차범위(1~3%)가 "뭔가 그렇게 중요한가?"라는 주장을 펼칠 수 있지만,

이것은 통계학의 존립을 가능하게 하는 '대수의 법칙'에 관한 것이다.

오차범위를 크게 벗어나는 상태를 정상으로 간주한다면, 이는 통계학을

다시 써야 할 정도로 놀라운 일이다.

 

그러니까 "오차범위가 크더라도 문제없다"고 억지를 부린다면, 이것은 지금 국내외에서

실시되고 있는 모든 여론조사(대개 표본의 수는 500~1000개)는 거짓이란 주장과 같다.  국내외에서 실시되는 각종 여론조사에서 표본수가 1000개 정도가 되더라도 신뢰도를 높게 본다.

그런데 선거는 표본수가 수만, 수십만, 수백만에 달한다. 따라서 그 정확도는 말과 글로

표현할 수 없을 정도로 높다. 이것은 곧바로 당일투표의 통계적 특성과 사전투표의 통계적 특성이 거의 같아야 함을 말한다. 이것은 오차가 오차범위 내에 놓여야 함을 뜻한다. 3%도 예외적인 경우로 드문 일이다. 

 

표본집단의 수가 크면 클수록 표본집단은 모집단의 통계적 특성과 더욱 더

비슷해야 한다는 '대수의 법칙'은 통계학을 과학적으로 존립하게 하는 주춧돌과 같은

법칙이다.  이것 없이는 과학으로서 통계학은 존립할 수 없다. 

 

선거는 비교할 수 없을 정도로 표본집단의 수가 크기 때문에 대수의 법칙을 만족시켜야 한다.

그렇지 않으면 이를 두고 '통계적 변칙' 혹은 '통계적 특이현상'으로 부를 수  있다.

 

이런 관점에서 보면 차이가 오차범위를 크게 벗어나는 것은 자연스런 데이터가 

아닐 가능성을 강하게 시사하고 있다. 

 

객관적이고 정밀한 조사가 필요한 이유이다.