Review

책 / 데이터 분석가의 숫자유감

유연하고단단하게 2023. 8. 23. 20:47


1. 상관관계와 인과관계

데이터를 보면서 흔히 ‘인과관계’와 ‘상관관계’를 혼동한다. 상관관계는 두변수가 얼마나 상호 의존적인지를 의미한다. 이를 파악하는 방법은 한 변수가 증가하면 다른 변수가 따라 증가하거나, 감소하되 그 추이를 따르는 식이다. 이를 숫자로 표현하는 것이 상관계수*다.

* 여러 데이터를 분석할 때 그 추이가 비슷한지를 확인하는 데 상관계수를 보통 우선적으로 사용한다. 피어슨 상관계수를 가장 많이 사용하고 스피어만 상관계수 등을 사용하기도 한다.


인과관계를 분석하는 것은 쉬운 일은 아니다. 과거의 값이 현재의 값에 영향을 계속 미치는 ‘자기상관성’이라든가, 누락된 변수에 대한 ‘편향성’*이라든가, 어떻게 할 수 없는 날씨 같은 ‘외생 변수’의 영향 등을 고려해야 한다. 하지만 상관관계가 어쩌다 있다고 해도 그것이 인과관계가 아니란 것만은 확실하다.

* 변수의 값이 한 쪽으로 쏠리는 경우. 이 경우에는 사용되지 않은 변수가 영향을 미쳐서 실제 변수와 상관없이 어느 한 쪽으로 값이 몰리는 특성을 의미함


데이터 분석에서 상관관계는 중요한 항목이다. 변수 간의 관계와 추세를 파악할 수 있고, 이후 여러 분석에서 고려할 수 있다. 하지만 이를 가지고 섣불리 어떤 결과를 내는 것은 위험하다. 상관관계는 인과관계가 아니며(중요하니 두 번 말한다), 특히 수많은 외생 변수가 떠다니는 현실 데이터 분석에서는 더욱 그렇다.

두 변수 간의 관계 분석을 하면서 상관 관계와 인과관계를 사용할 때는 내생 변수*와 외생 변수를 이해하고, 변수의 추이에 영향을 미칠 수 있는 요인이 어떤 것들이 있는지를 꼼꼼히 따져보아야 한다.

* 실험에서 고려하는 내부 변수

 


2. 숫자의 불확실성

단순한 차이가 있더라도, 그 차이가 통계적으로 의미가 있는지, 고려해야 할 전제 조건은 없는지, 그차이가 정말 여러 측면에서의 차이가 맞는 것인지를 여러 도구를 사용하여 고민한다. t-검정*, z-검정** 등의 여러 검정 방법이 있고, 이를 실험 상황에 맞게 적절하게 적용해서 참고한다.

* 두 집단 간의 평균의 차이가 유의미한지 검증하는 통계 검정 방법
** 모집단의 속성을 살피기 위하여 추출된 표본의 통계값의 평균과 연구자가 이론적 혹은 경험적 배경에서 얻은 특정 값을 비교하는 통계적 방법

 


3. 모수와 표본

우리는 모집단을 어느 정도 정의한 후, 모집단에 가까운 표본을 정의하고, 이 표본을 구하는 방법을 고민한 후, 표본에 대한 데이터를 수집한다.

이때 많이 사용되는 것이 ‘큰 수의 법칙’이다. 큰 수의 법칙은 표본의 크기가 충분히 크다면 그때의 표본 평균은 모평균에 충분히 가까워진다는 것이다.

한편 모수는 ‘모집단의 수치적 요약값’이다. 모평균이나 표준편차 같은 모집단에 대한 통계값을 모수라고 한다. 표본 데이터에서 이런 통계 대푯값을 구한 후 이를 근거로 모집단의 형태를 추정한다.

 

4. 확률과 분포

시행 결과값의 평균을 0과 1 사이로 나타낸 것을 ‘확률’이라고 하고, 확률이 어떤 모습으로 퍼져 있는지를 나타내는 것을 ‘분포’라고 한다. 분포의 모양새를 보고 특정 값이 얻어질 확률을 파악할 수 있다. 예를 들어 (아무런 장치가 되어 있지 않은) 주사위를 하나 굴릴 때 얻을 수 있는 값의 확률은 1부터 6 까지 동일하다. 이에 대한 확률 분포는 일종의 수평선을 그리는 형태로 나타난다.

 

5. 실험을 통한 의사결정

A/B 테스트를 할 때는 실험 대상 외의 모든 변수를 일정하게 유지해야 그에 대한 효과를 파악할 수 있다.

A/B 테스트의 경우, 임의로 나눈 두 집단의 값도 완전히 동일하지는 않겠지만, 보통 ‘통계적 유의성’을 미리 파악하여 유의하다고 판단되는 선에서 실험을 진행해야 한다.

이 외에 다른 변화가 일어날 가능성이 있다면(서비스 기능 추가, 프로모션 등) 실험 기간을 새로 고려하거나 실험 자체를 다시 고민해보는 것이 낫다.

실험은 이후의 데이터에도 영향을 미친다. 실험 대상이 된 데이터는 다른 데이터와 마찬가지로 고객의 사용 내역이 기록된 데이터지만, 실험 내용이 섞여 있어 이를 그대로 사용할 수 없다. 최소한 데이터를 사용하는 사람이 해당 데이터가 기록된 시기에 실험이 이루어졌다는 것을 인지하고 있어야 한다.
 


6. 그래프 읽기

그래프의 근본적인 목적은 ‘데이터를 직관적으로 이해할 수 있게 한다’는 것이다.

우리는 그래프를 보며 데이터를 제대로 이해하기 위해 각 그래프가 나타내는 숫자가 어떻게 되는지를 역으로 파악해서 머릿속에서 다시 숫자 필터를 거친 후에 결과를 내야 한다. 그래야 잘못된 그래프에 속지 않고 제대로 된 정보를 읽을 수 있다.

 

7. 추세선 그리기

엑셀의 차트 그리기 기능에서 옵션 중 하나로 ‘추세선 그리기’를 제공한다.
추세선 그리기를 선택하면, 여러 종류의 회귀 분석을 사용해서 들쑥날쑥한 데이터를 깔끔한 직선 혹은 곡선으로 만들어준다. 이렇게 만들어진 추세선을 보면 데이터가 어느 방향으로 진행되는지를 한눈에 쉽게 알 수있으며, 가까운 기간의 값 예측을 도와주기도 한다.

추세선은 말 그대로 ‘추세’를 보여주는 선이다. ‘추세’는 장기적으로 늘어나거나 줄어드는 형태를 뜻한다. 따라서 이를 정확 하게 그래프로 나타내려면 시계열 데이터등 x축이 일정한 시간 단위로 만들어진 데이터를 사용해야 한다. ‘국어’, ‘영어’처럼 시간이 아닌 값에는 추세선이 적절하지 않으며, ‘1월’, ‘2월 상반기’, ‘2월 하반기’ 등일정하지 않은 시간 단위의 데이터를 사용 하면 추세선이 왜곡된 형태로 나타난다.

R-제곱은 0과 1 사이의 값으로, 추세로 그린 선과 실젯값이 얼마나 비슷 한지를 측정한 값이다. 1에 가까울수록 비슷한 값이고, 0으로 갈수록 두값의 차이가 커진다. R-제곱이 얼마 이상이어야 사용 가능하다는 규칙은 없다. 그러나 최소한 다른 것과의 비교라든가, 0.1도 안 되는 것은 신뢰도가 많이 낮다는 판단 정도는 할 수 있다.

 

8. 시계열 데이터

시간에 따른 변화를 데이터로 나타내는 것을 보통 ‘시계열 데이터’라고 하고, 시계열 데이터를 분석할 때는 크게 데이터를 ‘추세’, ‘주기’, ‘계절성’으로 구분 한다.

주기는 고정된 시간 단위로 유사한 변동 형태가 나타나는 것을 말한다. 예컨대 주중에는 일별 시간대에 따라 동일한 구간의 지하철 탑승객 수의 변화 형태가 유사할 것이다.

계절성은 주기적으로 반복되는 때에 어떤 사건이 발생하는 것을 말한다.
주기와 비슷하지만, 주기가 형태를 의미한다면 계절성은 빈도에 가깝다. 4년에 한 번씩 월드컵이 열릴 즈음 TV 판매량이 갑자기 증가하고, 매년 빼빼로데이 즈음 빼빼로 및 막대과자류 판매량이 증가하는 식이다.



-
<데이터 분석가의 숫자유감 : 만화로 배우는 업무 데이터 분석 상식> 중에서

'Review' 카테고리의 다른 글

책 / 2023 트렌드코리아  (0) 2023.08.26
책 / 2022 트렌드코리아  (1) 2023.08.26
책 / 손길  (0) 2023.08.19
책 / 모래로 지은 집  (1) 2023.08.19
책 / 지나가는 밤  (0) 2023.08.19