소스 파일은여기에서 내려받으실 수 있습니다.
https://github.com/AcornPublishing/qss
이 책은 기존의 데이터 분석 및 통계학 책들과는 다르다. 실제 사회과학 분야에서 쓰이는 데이터를 먼저 접한 후 R을 사용해서 기본적인 데이터 분석과 프로그래밍을 연습하는 순서로 구성돼 있다. 데이터 분석과 통계학을 처음 배우는 모든 사람을 위한 책이며, 독자들은 데이터 분석의 재미를 발견할 수 있을 것이다. 더 나아가 데이터 분석을 활용해 사회과학자들이 사회적 문제 및 인간 행동양식에 대한 결론과 중요한 해답을 어떻게 제시하는지 살펴볼 수 있다. 데이터 과학 분야의 실무종사자, 사회과학 분야의 학부생, 대학원생 및 연구자들에게 도움이 될 것이다.
“사회과학에서 현대적 계량 방법론에 대한 훌륭한 실습 입문서”
— 알베르토 아바디(Alberto Abadie), 매사추세츠 공과대학교(Massachusetts Institute of Technology)
“양질의 학부 사회과학 교과서를 찾는 것은 영원할 수도 있지만, 이 책을 사용하면 그 검색을 끝낼 수 있다.”
— 나다니엘 벡(Nathaniel Beck), 뉴욕 대학교(New York University)
“사회과학 데이터 분석에 필요한 현대적인 방법론을 사용할 수 있는 능력을 갖추게 될 것이다. 이 책을 강력하게 추천한다.”
— 귀도 임벤스(Guido W. Imbens), 스탠퍼드 대학교(Stanford University)
“이 중요한 책은 계량 사회과학의 민주화를 추구한다. 세계 최고의 정치학 방법론자인 저자가 학계, 산업, 정부, 비영리 세계를 크게 변화시켰던 운동에 참여할 수 있는 방법을 보여준다.”
— 개리 킹(Gary King), 하버드 대학교(Harvard University)
“이마이의 교과서는 학부 통계학을 가르치는 방식을 완전히 바꿀 잠재력이 있다. 데이터 분석이 먼저이고 통계학이 그다음으로 두고 설명한다. 이 책에는 학생들이 두려워하지 않고 함께하게 될 대단하며 관련성 높은 실증적 예시로 가득하다.”
— 크리스토퍼 윈십(Christopher Winship), 하버드 대학교(Harvard University)
◆ 사회과학 및 관련 분야의 학생을 위한 분석과 연습 문제
◆ R 프로그래밍을 사용한 실제 실습 지침
◆ 자신의 스킬을 테스트할 수 있도록 실제 연구에서 얻은 40개 이상의 데이터셋
◆ 인과관계, 측정, 예측, 확률, 통계 도구들과 같은 데이터 분석 개념
◆ 샘플 코드 연습문제, 솔루션을 포함한 추가 자료 온라인 제공
데이터 분석과 통계학을 처음 배우는 모든 사람을 위한 내용을 담고 있다. 산업 현장의 실무 종사자와 배움의 열의가 넘치는 고등학생뿐만 아니라 사회과학 및 다른 분야의 연구자, 대학생, 석사 및 박사 과정에 있는 연구원 모두가 대상 독자다. 이 책은 약간의 기초 대수학 외에는 다른 선행 이수 과목을 요구하지 않는다. 특히 미적분이나 통계에 대한 지식은 없어도 된다. 프로그래밍 경험이 있으면 유용하겠지만 필수는 아니다. 또한 이 책은 데이터 분석을 가르치지 않는, 전통적인 ‘종이와 연필’로 진행되는 통계학 입문 과정을 이수한 사람에게도 적합하다. 이 책을 통해 데이터 분석의 재미를 발견하게 될 것이다. 여기서는 계량 사회과학 과제를 해결하고자 R을 어떻게 쓸지에 중점을 두고 있지만, R 프로그래밍을 배우고 싶은 사람 역시 이 책이 유용할 수 있다.
1장, 서론
2장, 인과효과
3장, 측정
4장, 예측
5장, 발견
6장, 확률
7장, 불확실성
8장, 그다음으로
계량 사회과학은 학문간 상호 교차하는 분야로서 경제학, 정치학, 공공정책, 심리학, 사회학을 비롯한 방대한 학문들을 포괄한다. 계량 사회과학 분야의 학자들은 사회와 인간 행동에 대한 문제를 이해하고 해결하고자 데이터를 분석한다. 예를 들면 연구자들은 노동시장에서의 인종차별을 연구하거나, 새로운 교과과정이 학생들의 학업성취도에 미치는 영향을 평가하거나, 선거 결과를 예측하거나, 사회관계망 이용을 분석한다. 유사한 데이터 분석 기반의 접근법은 인접 분야인 보건, 법률, 언론, 언어학, 문학에까지 쓰이고 있다. 사회과학자들은 현실세계의 광범위한 이슈를 연구하기 때문에 그 연구 결과는 사회구성원 개개인, 정부정책, 상업적 관행에 직접적으로 영향을 미칠 수 있는 잠재력이 크다.
누구나 데이터를 분석할 수 있어야 한다는 믿음에서 이 책을 쓰게 됐다. 이 책은 계량 사회과학 연구에 필요한 데이터 분석의 세 가지 요소를 알려 준다. 연구 맥락, 프로그래밍 기법, 통계 방법론으로, 이 중 하나라도 빠지면 연구 결과가 부실해진다. 연구 맥락 없이는 데이터 연구에 필요한 가정의 신뢰성을 평가할 수 없으며, 실증적 발견이 암시하는 바를 이해할 수 없게 된다. 프로그래밍 기법 없이는 자료를 분석하고 연구 과제의 답을 찾을 수 없을 것이다. 통계학적 원리에 대해 가이드가 없다면 신호(signal)라고 알려진 체계적 양식과 노이즈(noise)라 일컫는 잘못된 추론을 이끌어 낼 수 있는 불규칙한 양식을 구별하기 힘들다(여기서 추론이란 관찰된 자료를 기초로 불특정 수량에 대한 결론을 이끌어 내는 것을 말한다). 이 책은 이 세 가지 요소를 결합시킴으로써 얻게 되는 데이터 분석의 힘을 실증적으로 설명해 준다.
이 책만의 차별점은 이미 출판된 계량 사회과학 학술 연구에서 직접 발췌한 데이터셋 분석을 통해 프로그래밍 기법과 통계적 개념을 동시에 보여 준다는 점이다. 사회과학자들이 데이터 분석을 활용해 사회 문제와 인간 행동양식의 중요한 문제에 해답을 제시하는 것을 목표로 저술했다. 이와 동시에 이 책의 사용자들은 기초적인 통계 개념과 기초 프로그래밍 기술을 배우게 될 것이다. 가장 중요한 것은 40개에 달하는 데이터셋을 공부해 데이터 분석에 관한 경험을 쌓을 수 있게 된다는 점이다.
하버드 대학교의 정책학과 및 통계학과 교수다. 그 전에는 프린스턴 대학교의 정치학 교수이자 통계학 및 머신러닝 프로그램의 설립 디렉터로 재직했다.
이 책보다 뛰어나고 상세한 통계학 및 프로그래밍 책들은 많다. 하지만 이 책의 장점은 통계학적 우수성이 아닌 교수법에 있다. 이 책은 통계학이나 데이터 과학을 전공으로 하지 않은 사람들이 실제로 통계를 사용하고자 할 때 가장 고통스러워하는 부분을 긁어 준다. 통계적 추정이나 측정에 앞서 실제로 사용하게 될 데이터를 먼저 살펴보면서 연구 주제에 따라 어떤 방식으로 분석을 해야 하는지를 시작부터 끝까지 친절히 설명한다. 이것이 이 책을 한국어로 옮기기로 결심한 가장 큰 이유다. 이 책을 대학원 과정 중에 볼 수 있었으면 더할 나위 없이 좋았을 것이라 생각할 만큼 통계 전공자가 아닌 사람이 대학원 과정 동안 수없이 부딪치며 고민했던 많은 방법론에 관한 의문을 쉽게 이해할 수 있게 설명한다.
이 책은 다음과 같은 사람들에게 가장 큰 도움이 될 것이다. 1. 통계학과 경제학 전공을 선택한 학부 신입생2. 사회과학 전공(예: 경영, 정치외교, 행정)을 선택해 계량 분석에 관심은 있지만, 어디서 시작해야 할지 모르는 학부생3. 사회과학 전공의 대학원생(석사 및 박사)4. 사회과학 연구를 하는 연구자5. 사회과학 자료를 분석하는 실무자
이 책은 다음과 같이 읽어 보자. 먼저 각 장에서 중요한 개념의 설명을 숙지한 후, R 코드를 따라 한다. 어느 정도 개념과 R 코드에 익숙해졌다면 실제로 구할 수 있는 2차 자료(secondary data)와 공부한 방법론을 활용해 어떤 분석 및 연구를 할 수 있는지 대략적인 그림을 그려 본다. 원저자는 주로 정치학 혹은 경제학 관련 데이터를 사용했지만 이를 본인의 분야에서 주로 사용되는 관심 변수로 교체하는 즉시 비슷한 분석이 가능하다. 또한 R은 무료로 사용할 수 있는 통계 프로그래밍 소프트웨어이기 때문에 추가 비용 없이 연습할 수 있다. 되도록 모든 장을 공부하는 것이 바람직하지만 시간이 부족한 경우에는 1장에서 4장까지라도 공부해 보자.
한국외국어대학교 경영대학 마케팅 전공 교수로 재직 중이다. 텍사스 A&M 대학교 메이즈 경영대학원에서 마케팅 박사 학위를 취득했고, 노스웨스턴 대학교, 한양대학교에서 각각 석사 및 학사 학위를 취득했다. 한국외국어대학교 이전에는 미국 미시간주의 오클랜드 대학교 경영대학원에서 마케팅 교수 생활을 했다. 전문 연구분야는 계량마케팅, 마케팅전략, 신제품개발 및 혁신 등이며 이와 관련된 연구들을 「Journal of Marketing, Marketing Letters」 등 여러 국제학술지에 게재했다.
[p.63: 1행]
예를 들면, 이 표는 전형적인 흑인 이름이 있는 2434(= 2278 + 157)개의 이력서 중에서 157개만 콜백을 받았다는 것을 보여 준다.
->
예를 들면, 이 표는 전형적인 흑인 이름이 있는 2435(= 2278 + 157)개의 이력서 중에서 157개만 콜백을 받았다는 것을 보여 준다.
[p.64 : 1행]
이 분석으로 아프리카계 미국인처럼 들리는 이름을 가진 사람의 이력서에 대한 전화 회신율은 0.032 또는 3.2%이며, 백인처럼 들리는 이름들보다 회신율이 낮다는 것을 관찰할 수 있다.
->
이 분석으로 아프리카계 미국인처럼 들리는 이름을 가진 사람의 이력서에 대한 전화 회신율은 백인처럼 들리는 이름들보다 회신율이 0.032 또는 3.2% 낮다는 것을 관찰할 수 있다.
[p. 117: 6행]
[20, 25]
->
[20, 25)
[p.129 : 아래에서 9행]
양수 x의 로그는 지수의 밑 b로 정의된다
->
양수 x의 로그는 밑이 b인 지수로 정의된다
[p.176 : 표 4.2]
middle
->
middate
[p.193 : 6행]
fitting()
->
fitted()
[p.195 : 1행]
따라서 RMSE는 회귀분석에 대한 예측오차의 평균 크기를 나타내며, 이것이 최소제곱법을 최소화하는 것이다.
->
따라서 RMSE는 회귀분석에 대한 예측오차의 평균 크기를 나타내며, 이것이 최소제곱법으로 최소화하는 것 또한 RSME와 같다.
[p.208 : 5행]
fitting()
->
fitted()
[p.209 : 8행]
이처럼 비정상적으로 낮은 적합값을
->
이처럼 비정상적으로 낮은 결정계수를
[p.220: 아래에서 9행]
그룹 평균의 결과
->
그룹의 평균 결과
[p.220: 아래에서 5행]
Civic Duty 그룹과 비교한
->
Control 그룹과 비교한
[p.221 : 4행]
총관측수를
->
총관측수에서
[p.224 : 9행]
X3
->
X1
[p.234 : 11행]
불법 선거
->
부정 선거
[p. 304: 3행]
다른 국가로의 수출액
->
다른 국가로의 수출액이