데이터 관찰 및 해석 실습

모든 그래프는 X/Y축 정보와 제목이 숨겨진 100% 실제 데이터입니다.
선입견 없이 데이터의 '패턴' 자체만 보고 그것이 무엇을 의미하는지 가설을 세워보세요.

Step 1. 워밍업 예제

예제 그래프 1 (공간 데이터)

정답: 존 스노우의 콜레라 지도 (John Snow's Map)

  • 설명: 1854년 런던 소호 지역 콜레라 유행 당시, 역학조사관 존 스노우가 오염된 물펌프(Broad Street Pump, 0,0 좌표) 주변의 사망자 집(점)을 표시한 지도 데이터의 부분 집합입니다.
  • 해석의 차이: 배경 지도 없이 점들만 볼 때 인간은 '현미경 세포 사진'이나 '과녁의 총탄 자국' 등으로 해석하지만, 축 정보와 제목이 공개되면 이것이 **치명적인 전염병의 공간적 확산 패턴**임을 인지하게 됩니다.
  • 출처: Gilbert, E. W. (1958). 'Pioneer Maps of Health and Disease' (데이터 재구성)

예제 그래프 2 (비선형 분포)

정답: 데이터사우루스 (Datasaurus)

  • 설명: 통계학자 알베르토 카이로가 만든 데이터셋으로, 이 점들의 평균, 표준편차, 상관계수는 다른 12개의 완전히 다른 모양의 데이터셋들과 소수점 단위까지 동일합니다.
  • 해석의 차이: 통계 수치(AI의 주특기)만 보면 아무런 특징이 없지만, 시각화(인간의 주특기)하는 순간 **공룡(T-Rex)의 형태**가 명확히 나타납니다. 이는 '데이터 시각화'의 중요성을 보여주는 가장 유명한 예시입니다.
  • 출처: Alberto Cairo, 'Down with Paleontological Statistics' (데이터 재구성)

Step 2. 조별 실습 데이터

데이터 A

정답: 올드 페이스풀 간헐천(Old Faithful Geyser) 분출 데이터

  • 설명: 옐로스톤 국립공원 간헐천의 전체 분출 데이터입니다. (총 270개 이상의 관측치)
    - 분출 지속시간(x축): 한 번 분출을 시작했을 때 물줄기가 솟구치는 시간(분 단위).
    - 대기시간(y축): 현재 분출이 끝난 후, 다음 분출이 시작될 때까지 기다리는 시간(분 단위).
  • 인간의 편향: "미생물의 군집" 또는 "타겟에 맞은 사격 영점" 등 2개의 뚜렷한 형태로 뭉쳐있는 것을 보고 시각적 형태 의존적인 해석을 합니다.
  • AI의 해석: K-평균 군집화(K-Means Clustering) 알고리즘이 적용된 통계학의 이봉분포(Bimodal distribution) 데이터로 봅니다.
  • 출처: R 내장 데이터셋 `faithful`

데이터 B

정답: 킬링 곡선 (마우나로아 이산화탄소 농도)

  • 설명: 2000~2021년 미국 하와이 마우나로아 관측소의 연평균 $CO_2$ 농도(ppm) 데이터 22개입니다.
  • 인간의 편향: 우상향하는 뚜렷한 추세를 보고 최근의 주식 시장 폭등장이나 물가 상승률 등 경제적 서사를 투영하기 쉽습니다.
  • AI의 해석: 선형 회귀 수식 $y = \beta_0 + \beta_1x + \epsilon$ 모델을 완벽하게 따르는 이상적인 시계열 표본 데이터로 평가합니다.
  • 출처: Hawaii.gov Data Book 2021 (NOAA 기반)

데이터 C

정답: 지프의 법칙 (Brown Corpus 영단어 빈도)

  • 설명: 미국 브라운 대학의 말뭉치(Brown Corpus) 상위 20개 단어의 출현 빈도수 데이터입니다.
  • 인간의 편향: 극단적인 L자 곡선을 보고 '빈부격차'나 '방사능 반감기' 등 물리/사회적 맥락을 상상합니다.
  • AI의 해석: 전형적인 멱법칙(Power Law)인 $f(r) \propto \frac{1}{r^\alpha}$ 분포로 수학적 정의만 내립니다.
  • 출처: Wikipedia Zipf's law (Brown Corpus 빈도 데이터)

데이터 D

정답: 거짓 상관관계 (마가린 소비량 vs 이혼율)

  • 설명: 2000~2009년 미국의 X축(1인당 마가린 소비량)과 Y축(메인주 이혼율)을 결합한 데이터입니다. 상관계수(r)가 0.99에 육박합니다.
  • 인간의 편향: 뚜렷한 선형성을 보고 본능적으로 억지 인과관계(건강식품 소비가 가정을 지킨다 등)를 지어냅니다.
  • AI의 해석: 피어슨 상관계수식에 기반하여 매우 강한 양의 상관관계를 가진 모범적 통계 데이터라고만 평가합니다.
  • 출처: Tyler Vigen, Spurious Correlations