바실리아TV는 4월 10일(토), 서울시장 보궐선거에 대한 25개구 단위의
통계 분석 결과를 공개하였다.
1.
특이한 현상은 통계적 변칙을 체크할 때 사용되는 각 후보의 차이(당일득표율-사전득표율)가
통계적으로 도저히 허용할 수 없을 수준으로 크다는 사실이다.
[도표1] 4.7보궐선거 25개구단위 통계분석 결과
출처: 바실리아TV, 4/10/2021
예를 들어, 종로구의 경우 박영선 후보와 오세훈 후보는 각각 +12.57%와 -11.73%이다.
중구의 경우도 양 후보는 각각 +11.09%와 -10.38%다.
여기서 주목해야 하는 것은 격차가 +10%와 -10%라는 것은 양 후보 사이에 20% 격차가
만들어짐을 뜻한다.
이는 통계적으로는 발생할 가능이 아주 낮은 경우다.
통계적으로 '아주 낮다'는 이야기는 현실적으로 일어나기가 거의 불가능하다고
해석할 수 있다.
일반적으로 모집단에서 나온 표본집단(당일투표 그룹, 사전투표 그룹)은 선거처럼 표본집단 수가
큰 경우에는 거의 비슷한 통계적 특성을 보여야 한다. 이것은 곧바로 차이가 오차범위(1~3%)
이내에 있어야 함을 뜻한다.
2.
다음으로 2020년 4.15총선에서 차이(당일득표율-사전득표율)과 2021년 4월 7일 서울시장 보궐선거에서의 차이(당일득표율-사전득표율)은 모두 오차범위(1~3%)를 크게 웃돌고 있음을
확인할 수 있다.
[도표2] 4.15총선과 4.7보궐선거 상호비교
출처: 바실리아TV, 4/10/2021
예를 들어, 차이는 4.15총선의 경우 1번과 2번 사이에는 각각 +15.68%와 -14.80%였고,
4.7보궐선거에서는 각각 +12.57%와 -11.73%이다.
두 경우 모두 오차범위를 너무 크게 벗어나기 때문에 자연스런 선거 데이터라고 보기에는
무리이다.
3.
일각에서는 오차범위(1~3%)가 "뭔가 그렇게 중요한가?"라는 주장을 펼칠 수 있지만,
이것은 통계학의 존립을 가능하게 하는 '대수의 법칙'에 관한 것이다.
오차범위를 크게 벗어나는 상태를 정상으로 간주한다면, 이는 통계학을
다시 써야 할 정도로 놀라운 일이다.
그러니까 "오차범위가 크더라도 문제없다"고 억지를 부린다면, 이것은 지금 국내외에서
실시되고 있는 모든 여론조사(대개 표본의 수는 500~1000개)는 거짓이란 주장과 같다. 국내외에서 실시되는 각종 여론조사에서 표본수가 1000개 정도가 되더라도 신뢰도를 높게 본다.
그런데 선거는 표본수가 수만, 수십만, 수백만에 달한다. 따라서 그 정확도는 말과 글로
표현할 수 없을 정도로 높다. 이것은 곧바로 당일투표의 통계적 특성과 사전투표의 통계적 특성이 거의 같아야 함을 말한다. 이것은 오차가 오차범위 내에 놓여야 함을 뜻한다. 3%도 예외적인 경우로 드문 일이다.
표본집단의 수가 크면 클수록 표본집단은 모집단의 통계적 특성과 더욱 더
비슷해야 한다는 '대수의 법칙'은 통계학을 과학적으로 존립하게 하는 주춧돌과 같은
법칙이다. 이것 없이는 과학으로서 통계학은 존립할 수 없다.
선거는 비교할 수 없을 정도로 표본집단의 수가 크기 때문에 대수의 법칙을 만족시켜야 한다.
그렇지 않으면 이를 두고 '통계적 변칙' 혹은 '통계적 특이현상'으로 부를 수 있다.
이런 관점에서 보면 차이가 오차범위를 크게 벗어나는 것은 자연스런 데이터가
아닐 가능성을 강하게 시사하고 있다.
객관적이고 정밀한 조사가 필요한 이유이다.