백과사전 상세 본문
평균이란?
최초로 정규 분포의 특징인 종 모양 곡선을 알아낸 사람은 아브라함 드 무아브르(1667~1754년)였다. 이 곡선은 결과 값에 대비되는 값의 빈도수나 확률을 나타낸다. 가장 자주 발생하는 결과는 곡선의 꼭대기에 있으며 평균값을 나타낸다. 정상에서 벗어나 가장 드물게 발생하는 결과들은 곡선의 아랫부분에 있다. 곡선의 기울기는 샘플 수치가 얼마나 다양한가에 따라 결정된다. 정규 분포 안에 있는 결과 값의 약 68퍼센트가 표준 편차 내에 속한다고 한다.
정규 분포 곡선과 표준 편차는 많은 분야에서 통계를 평가하는 데 널리 사용된다. 라플라스는 엄청나게 빈도수가 많은 사건의 확률을 연구하는 데 이 모델을 사용했다. 케틀레는 키와 같은 신체적 특성에서부터 결혼이나 자살 등의 심리적인 측면까지 거의 모든 인간의 특성은 정규 분포 곡선과 유사하게 나타난다고 주장했다.
오류를 다루는 법
통계와 관련된 수학적 방법들은 19세기 초에 급속히 늘어났다. 원주의 4천만분의 1이 되어야 하는 1미터의 길이를 확정 짓기 위해 지구의 경도선에 해당하는 원주를 재려면 통계학적 방법이 필요했다. 이는 측지선을 측정할 때 발생하는 오류와 모순을 다루기 위한 것이었다.
1805년에 프랑스 수학자 앙드리앵 마리 르장드르(1752~1833년)는 최소제곱법을 제안했다. 그는 어떤 지점에서 측정한 값들의 오차 제곱합이 최소가 되는 값을 사용했다. 가우스는 이 방법에 관심을 보였고, 1809년 측정에서 발생한 오류를 정규 분포로 나타내면 최상의 예상치를 내놓는다는 것을 보여주었다.
최소제곱법은 통계학의 모든 분야에 적용되었다. 이것은 19세기의 통계학자들에게 중요한 도구가 되었으며, 작은 규모의 샘플을 연구해서 전체 인구에 적용할 경우에도 사용되었다.
완벽한 인간 만들기
찰스 다윈의 조카인 프랜시스 골턴은 정규 분포와 표준 편차로 나타나는 다양한 차이에 관심을 가졌다. 그는 골턴 보드를 사용해서 정규 분포가 이루어지는 방법을 보여주었다. 한 줄의 컵 위에 말뚝이 삼각형 형태로 배열된다. 삼각형의 꼭대기에서 떨어뜨린 작은 공들은 말뚝 사이를 튕기며 통과해서 컵 안으로 떨어진다. 그중 몇 개는 컵 밖으로 떨어지기도 하지만 대부분은 보드에 있는 컵 안에 떨어지고 정규 분포 곡선을 형성한다.
골턴은 통계의 개념을 형질 유전에 적용해서 다양한 형질의 차이가 어떻게 생기는지 보여주었고, 유기체의 세대들은 비슷한 분산 수준으로 돌아가는 경향이 있다는 것을 보여주었다. 그 결과 특이한 부모들의 경우 자녀들도 특이할 수는 있지만 전반적으로 보았을 때는 전체 집단의 평균으로 회귀하는 경향이 있다는 것이다.
골턴은 인간이 완벽하게 진화하도록 돕는 것이 목적인 우생학 운동의 창시자가 되면서, 위험한 방향으로 연구를 진행해나갔다. 그는 사육자가 농장의 동물이나 곡물 중에서 ‘최상의 종자’를 골라내는 방식으로 좋은 유전자를 번식시키고 싶어 했다.
애초에 골턴은 유전학과 형질 유전에 관심이 있긴 했지만 통계학적 방법을 다른 분야에 적용할 수 있다는 것을 알아차렸고, 자신이 개발해낸 도구가 여러 가지로 유용하게 사용될 수 있음을 강조했다.
무작위로 만들어진 표본
통계학이 발달한 것은 작은 규모의 표본 데이터에서 추출한 정보를 큰 규모의 집단에 적용하거나 그 내용을 추론하기 위해서였다. 연구자들은 표본 인구에서 범죄나 결혼, 유전 질병의 비율을 알아내서 전체 인구로 확장할 경우 그 비율이 얼마나 되는지 알고 싶어 했다.
모든 통계학적 조사의 결과는 당연히 측정된 표본에 달려 있다. 노르웨이 인구 통계국의 국장인 A. N. 키아에르는 인구의 모든 범위, 예를 들어 ‘노소, 빈부’ 등 대표적인 변수를 포괄하는 표본을 만들어내려고 했다. 영국의 통계학자인 아서 볼리는 무작위로 선택해 표본을 만드는 방법을 최초로 시도한 사람이었다.
폴란드 통계학자인 예지 네이만은 1934년에 이 두 가지를 통합했다. 그는 표본을 만들 때 주요 변수를 나타내면서도 표본 안에 포함되는 개개인은 무작위로 선택하는 방법을 시도했다. 층화 추출 표본인 이 기술은 1936년에 성공적인 성과를 거두었다.
이 당시에 조지 갤럽(George Gallup) 여론 조사기관은 미국에서 프랭클린 루스벨트의 재선을 예상한 반면에, 층화되지 않은 큰 규모의 추출 표본을 사용한 기관은 자신만만하게(결국 틀렸지만) 그 반대 결과를 점쳤다. 갤럽은 겨우 3,000명의 투표자를 대상으로 표본을 만들었고 상대 여론 조사 업체인 리터러리 다이제스트(Literary Digest)는 천만 명을 대상으로 여론 조사를 한 것이었다. 루스벨트는 역사상 최대의 압승을 거두었다. 규모가 큰 표본이 대표적인 표본이나 정확한 결과를 보장하지는 않는다.
실험 설계는 통계학의 도구와 같이 발전한다. 실험군과 비교하기 위해 대조군을 사용하고, 무작위의 개개인을 대조군이나 실험군에 배치하는 방법은 20세기 초에 표준 절차로 나타났다.
특히, 영국의 유전학자이자 통계학자인 로널드 에일머 피셔(1890~1962년)는 2차 세계대전 이후 심리학과 의학, 생태학 같은 많은 분야에서 실험 설계를 새롭게 바꿔놓았다. 그는 유전학 연구에 착수했고, 멘델의 유전 형질에 관한 실험적인 연구에 의해 드러난 다윈의 진화론의 모순을 조정하기 위해 통계 분석을 사용했다. 현재로서는 너무나도 당연해보이는 방법이지만 그는 실험이 한 번 이루어질 때마다 한 가지 조건만을 계속 바꾸면서 실험하는 방법을 개발해냈다. 그러고 나서 대조군과 결과들을 비교했다.
초기 실험들은 어느 정도 이러한 방법으로 이루어졌지만 인간이라는 주제가 관련되어 있을 때는 비도덕적이라고 여겼기 때문에 대조군을 철저하게 사용하지 않았고 개개인을 대조군이나 실험군에 무작위로 배치하는 방법을 쓰지 않았다.
피셔는 실험은 반복적으로 해야 하며, 오차 범위를 측정하기 위해서는 실험 결과의 다양한 차이를 관찰해야 한다고 주장했다. 20세기의 가장 영향력 있는 통계학자인 피셔는 자신의 발견을 《통계적 방법과 과학적 추론(Statistical Methods and Scientific Inference)》(1956년)에 요약해놓았고, 이 책은 통계학의 발전에 지대한 영향을 미쳤다.
그가 개발한 것 중 가장 중요한 것은 정규 분포에서 벗어나 샘플 안에서 다양하게 분산되어 있는 점들을 살펴보는 분산 분석법(아노바, ANOVA)이다. 이 방법은 분산된 결과들이 통계적으로 중요한지 아닌지를 평가하기 위해 사용된다. 이는 실제의 추세와 변화, 원인들을 반영하는지 아니면 그저 우연히 얻어진 결과인지를 평가하는 것이다.
무작위로 뽑아내는 게 어렵다고?
표본을 만들 때에만 무작위 방법을 사용하는 것은 아니다. 판돈이 많이 걸린 운으로 하는 게임에서는 무작위로 일어날 것이라고 생각하는 사건들이 실제로 그러한지를 확실히 증명해야 한다. 또한 암호화 과정에서도 숫자는 무작위로 생성되어야 한다.
무작위로 숫자를 생성해내는 것은 생각보다 훨씬 더 어려운 일이다. 카오스 이론이 보여주듯이 무작위로 일어나는 것처럼 보이는 많은 사건들이 실제로는 그렇지 않다. 다만 복잡한 법칙과 많은 변수로 인해 통제될 뿐이다.
복권처럼 대규모 도박에서 사용될 숫자를 택할 때는 신중하게 그리고 가능한 모든 성향을 없애도록 설계한다. 무작위의 숫자들을 골라내는 컴퓨터 알고리즘을 만들어내는 일은 매우 어렵다. 그래서 대부분의 복권들이 기계적인 방법들을 사용한다(이 방법은 컴퓨터보다 보기에 흥미진진하다는 이점도 갖고 있다). 진짜 무작위로 숫자를 생성해내는 컴퓨터들은 대기의 잡음과 같은 물리적 자료를 사용한다. (예를 들면www.random.org)
갤럽 여론 조사의 변덕스러운 분위기에 흔들리는 것처럼 위험한 일은 없다.
– 윈스턴 처칠
통계의 동반자, 컴퓨터
컴퓨터가 널리 사용되면서 큰 규모의 데이터 집합을 계산하는 것이 쉬워졌다. 초기의 통계학자들은 각각의 데이터를 일일이 계산하는 힘든 업무를 해야 했다. 하지만 지금은 컴퓨터에 모든 데이터를 입력한 뒤에 필요한 통계 프로그램을 적용하도록 내버려두면 컴퓨터가 분석 결과와 그래프를 내놓는다. 때론 컴퓨터의 센서가 직접 데이터를 수집하기도 한다.
일생 동안 해도 마칠 수 없을 만큼 방대한 데이터를 컴퓨터가 있기에 다룰 수 있게 되었다. 이는 통계 분석이 삶의 모든 부분에 적용될 수 있다는 것을 의미한다. 우리는 통계 분석을 통해 패턴을 알아내고, 조기 교육이 범죄율에 미치는 영향이나 전염성 질병이 퍼지게 될 가능성, 지구 온난화의 영향 등 다양한 분야의 결과들을 예측할 수 있다.
초기 조건의 중요성을 보여주는 유명한 예는 존 콘웨이의 ‘인생 게임(Game of Life)’이다. 이것은 세포화 자동 기계(진화하는 집단이나 세계를 컴퓨터로 시뮬레이션한 것)이다. 초기의 유기체나 자동 기계들은 자기 자신을 복제하는데, 이때 다양한 조건(개체 수가 너무 많아지거나 자원이 모자라는 등)에 따라 복제에 성공할 수도 있고 실패할 수도 있다. 콘웨이는 자기 자신을 복제할 수 있는 기계를 설계하는 것과 관련해서 존 폰 노이만이 1940년대 제시했던 문제에 대한 답으로 이것을 만들어냈다.
‘인생 게임’은 보통 우리가 알고 있는 게임과는 달리 게임을 하는 플레이어들이 없다. 게임을 시작하는 사람이 초기 상황을 정하고 게임이 진행되면 시작할 때의 조건이 만들어낸 결과에 따라 세대들은 번성하거나 쇠퇴한다.
원래 게임에서는 격자 안의 다양한 색깔의 사각형을 개체로 사용했다. 하지만 이것은 컴퓨터 시뮬레이션 게임이라는 산업 전체를 낳게 되었다. 이 게임들은 창조물 집단을 만들어내거나 또 다른 개체의 집단을 만들어내기도 한다. 콘웨이의 게임 때문에 세포 자동화에 대한 관심이 생겨나 인간, 동물, 바이러스 집단과 결정체의 성장, 경제 문제들과 복잡한 패턴이 유기적으로 생겨나는 많은 분야에서 세포 자동화가 활용되었다.
세티 앳 홈(SETI@HOME)
외계의 지적 생명체를 찾으려는 세티(SETI) 프로젝트는 지속적으로 우주에서 오는 무선 데이터를 수집한다. 그리고 레이저 빛의 파동도 찾고 있다. 이 프로젝트의 공식적인 목적은 ‘우주 생명의 기원과 본성 그리고 존재를 탐구하고 이해하고 설명하는’ 것이다.
세티의 임무는 누군가 보내온 무선 송신일지도 모르는 데이터에서 일정한 패턴을 찾는 것이다. 이를 위해 전 세계의 지원자들에게 인터넷을 통해 세티에서 상당량의 데이터를 가져오는 화면 보호기를 설치하고 컴퓨터를 사용하지 않는 동안에서도 이것이 계속 진행되도록 해달라고 요청했다.
이런 방법으로 세티는 전 세계의 컴퓨터에서 수백만 시간을 무료로 사용한다. 각각의 컴퓨터에서는 결과를 세티로 보내고 패턴이 만들어질 수 있는 어떤 정보가 있다면 더 깊이 조사하기 위해 표시된다. 상상할 수도 없을 만큼 거대한 통계 분석 업무가 최소 비용으로 실행되고 지원자들의 컴퓨터를 이용해서 훨씬 빠르게 이루어지고 있다.
세티 방정식
세티연구소 소장인 드레이크는 우리 은하 내에 존재하는 우리와 교신할 가능성이 있는 외계 지성체의 수를 계산하는 드레이크 방정식을 제시했다.
N = R* × fp × ne × fl × fi × fc × L
N : 우리은하 내에 현재 외계와 통신이 가능한 행성의 수
R* : 우리은하 내에서 별이 형성되는 비율
fp : 별 중에서 행성을 가지고 있는 확률
ne : 태양계에서 생명에 적합한 환경을 가진 행성의 수
fl : 적합한 행성 내에 실제로 생명이 탄생할 수 있는 확률
fi : 생명체가 지적 문명체로 진화할 확률
fc : 지적 문명체가 다른 별에 자신들의 존재를 알릴 통신기술을 가질 확률
L : 기술문명이 존속하는 기간(단위: 년)
우주에서는 어떤 것도 홀로 존재하지 않는다. 그러므로 우주에는 다른 인간과 다른 종의 동물들이 거주하는 또 다른 지구들이 틀림없이 존재할 것이다.
– 루크레티우스, 기원전 50년
이야기는 계속된다
지난 백 년 동안 통계학에 관한 많은 연구로 인해 데이터 집합과 그 외 집합들을 매우 복잡한 방법으로 분석할 수 있게 되었다. 집합의 성질(숫자이건 다른 어떤 것들이건)은 19세기 후반에 최초로 개발된 집합론의 중심 내용이다. 집합론이 나타난 것은 수학의 역사상 가장 중요한 발전 중 하나였다.
본 콘텐츠를 무단으로 이용하는 경우 저작권법에 따라 법적 책임을 질 수 있습니다.
위 내용에 대한 저작권 및 법적 책임은 자료제공처 또는 저자에게 있으며, Kakao의 입장과는 다를 수 있습니다.
글
1967년 케임브리지의 트리니티 대학에서 중세 문학으로 박사 학위를 받았다. 케임브리지 대학과 뉴욕 대학에서 중세 영어와 프랑스 문학을 가르쳤으며, 지금은 프리랜서 작가로 활동하고 있다. 과학과..펼쳐보기
1967년 케임브리지의 트리니티 대학에서 중세 문학으로 박사 학위를 받았다. 케임브리지 대학과 뉴욕 대학에서 중세 영어와 프랑스 문학을 가르쳤으며, 지금은 프리랜서 작가로 활동하고 있다. 과학과 역사 등 다양한 주제로 성인과 어린이를 위한 많은 책을 집필했다.1967년 케임브리지의 트리니티 대학에서 중세 문학으로 박사 학위를 받았다. 케임브리지 대학과 뉴욕 대학에서 중세 영어와 프랑스 문학을 가르쳤으며, 지금은 프리랜서 작가로 활동하고 있다. 과학과..출처
피타고라스에서 괴델까지 이야기로 만나는 매혹적인 수학의 역사. 고대부터 현대까지 중요한 수학적 발견과 증명을 흥미롭게 설명한다. 마술 같은 숫자의 신비와 놀라운 수학자..펼쳐보기
피타고라스에서 괴델까지 이야기로 만나는 매혹적인 수학의 역사. 고대부터 현대까지 중요한 수학적 발견과 증명을 흥미롭게 설명한다. 마술 같은 숫자의 신비와 놀라운 수학자들의 이야기, 수학 이론의 탄생 배경 등 수학의 역사를 함께 따라가보자.피타고라스에서 괴델까지 이야기로 만나는 매혹적인 수학의 역사. 고대부터 현대까지 중요한 수학적 발견과 증명을 흥미롭게 설명한다. 마술 같은 숫자의 신비와 놀라운 수학자..