본문 바로가기
통계학 강의

산포도와 상관관계: 데이터 분석 마스터하기

by allthat102 2024. 10. 30.
반응형

데이터 분석의 세계로 안내하는 친절한 가이드! 산포도와 상관관계를 제대로 이해하고 활용하는 방법을 알려드립니다.

 


산포도(Scatter Plot): 데이터의 속삭임을 듣다

산포도, 들어는 보셨나요? 뭔가 어려운 용어 같지만, 사실은 엄청 간단해요. 두 변수 사이의 관계를 그림으로 보여주는 거거든요. x축과 y축에 각각 변수를 놓고, 데이터들을 점으로 찍으면 끝! 마치 별자리처럼 예쁘게 점들이 찍히는데, 이 점들의 분포가 두 변수의 관계를 웅변하듯 말해주죠. 예를 들어, 아이스크림 판매량과 기온을 비교해 볼까요? 여름철에는 아이스크림 판매량이 급증하겠죠? 산포도에 그려보면, 오른쪽 위로 점들이 몰려있는, 소위 '양의 상관관계'를 보여주는 아름다운 그림이 그려질 거예요.

 

하지만, 단순히 점들이 찍혀있는 것만으로는 부족하죠. 점들의 분포, 즉 흩어진 정도를 잘 살펴야 해요. 점들이 옹기종기 모여있으면 상관관계가 강하고, 여기저기 널부러져 있다면 약하다는 걸 의미하죠. 마치 흩어진 콩알들을 모으는 것처럼, 데이터들을 분석하면서 점들의 패턴을 찾아내는 재미가 쏠쏠하답니다.

 

이렇게 산포도를 통해 데이터의 숨겨진 이야기를 발견하는 짜릿함을 느껴보세요!  산포도는 데이터의 분포 패턴을 한눈에 보여줍니다.

 

점들이 대충 직선을 따라 늘어서 있다면, 두 변수 사이에 어떤 관계가 있다는 것을 쉽게 알 수 있어요. 하지만, 점들이 아무렇게나 흩어져 있다면? 그럴 땐 두 변수 사이에 별다른 관계가 없다고 볼 수 있겠죠. 이처럼 산포도는 데이터 분석의 첫걸음이자, 가장 중요한 단서를 제공하는 매우 중요한 도구랍니다.

 


단순히 점을 찍는 것 이상의 의미를 지니고 있으니, 자세히 들여다보면 그 안에 숨겨진 통계적 비밀을 발견할 수 있을 거예요.  이상치 탐색에도 유용합니다. 다른 점들과 확연히 떨어져 있는 점, 즉 이상치는 데이터 수집 과정의 오류나 특별한 상황을 나타낼 수 있으니까요. 이런 이상치는 분석 결과에 큰 영향을 미칠 수도 있기 때문에, 발견하면 꼼꼼하게 확인하고 처리하는 것이 중요해요.

 

결국 산포도는 데이터를 시각적으로 표현하여, 두 변수 사이의 관계를 직관적으로 이해하는 데 도움을 줍니다. 하지만, 산포도만으로는 관계의 강도를 정확하게 측정할 수 없다는 점을 꼭 기억하세요. 그래서 우리에겐 상관계수가 필요합니다!

 

상관관계(Correlation): 데이터의 관계, 그 강도를 측정하다

상관관계는 두 변수 사이의 관계를 수치적으로 나타내는 개념입니다. 즉, 두 변수가 얼마나 밀접하게 연관되어 있는지를 나타내는 지표인 거죠. 이 관계의 강도를 나타내는 척도가 바로 상관계수입니다. 상관계수는 -1부터 +1까지의 값을 가지며, +1에 가까울수록 양의 상관관계가 강하고, -1에 가까울수록 음의 상관관계가 강하다는 것을 의미합니다. 0에 가까우면 상관관계가 거의 없다는 것을 의미하죠.

 

예를 들어, 키가 클수록 몸무게가 무거운 경향이 있으니, 키와 몸무게는 양의 상관관계를 가질 것이고, 상관계수는 1에 가까운 값을 가질 것입니다. 반대로, 운동 시간이 길어질수록 피로도가 높아지는 경향이 있다면, 운동 시간과 피로도는 음의 상관관계를 가질 것이고, 상관계수는 -1에 가까운 값을 가질 것이죠.

 

하지만, 상관관계가 높다고 해서 무조건 인과관계가 있는 것은 아니라는 점! 절대 잊지 마세요. 아이스크림 판매량과 익사사고 건수가 높은 상관관계를 보인다고 해서, 아이스크림 판매가 익사를 유발한다고 말할 순 없잖아요? 둘 다 더운 날씨라는 공통된 요인의 영향을 받기 때문이죠. 상관관계는 단순히 두 변수가 함께 변하는 정도를 나타낼 뿐, 한 변수가 다른 변수의 원인이라는 것을 의미하지는 않습니다.

 

상관계수를 계산하는 방법은 여러 가지가 있지만, 가장 흔하게 사용되는 방법은 피어슨 상관계수(Pearson correlation coefficient)입니다. 이 계수는 두 변수의 공분산을 각 변수의 표준편차의 곱으로 나누어 계산합니다. 계산 과정은 조금 복잡하지만, 다행히도 요즘은 통계 소프트웨어를 이용하면 쉽게 계산할 수 있어요.

 

상관계수는 산포도와 함께 사용하면 더욱 효과적입니다. 산포도는 시각적인 정보를 제공하고, 상관계수는 수치적인 정보를 제공하기 때문이죠. 두 정보를 함께 활용하면, 데이터의 관계를 더욱 정확하게 이해할 수 있습니다. 상관관계 분석은 데이터 예측에도 활용됩니다. 예를 들어, 광고비와 매출 사이에 높은 양의 상관관계가 있다면, 광고비를 증가시키면 매출도 증가할 것이라고 예측할 수 있겠죠. 하지만, 이러한 예측은 항상 정확한 것은 아니라는 점을 기억해야 합니다. 상관관계 분석은 단지 가능성을 제시할 뿐, 절대적인 확신을 주는 것은 아니니까요.

 

상관관계 분석을 할 때는 선형성을 가정하는 경우가 많습니다. 하지만, 두 변수 사이의 관계가 비선형적인 경우에는 상관계수가 적절하지 않을 수 있습니다. 따라서, 데이터의 특성을 잘 이해하고, 적절한 분석 방법을 선택하는 것이 매우 중요합니다.

 

산포도 두 변수 간의 관계를 시각적으로 나타내는 그래프. x축과 y축에 각각 변수를 배치하고 데이터를 점으로 표현합니다. 데이터의 분포 패턴과 이상치를 한눈에 파악 가능합니다. 관계의 강도를 정확히 측정할 수 없습니다.
상관관계 두 변수 간의 관계의 강도와 방향을 나타내는 통계적 개념. 상관계수로 측정합니다. 두 변수 간의 관계의 강도를 수치적으로 나타냅니다. 인과관계를 나타내지 않습니다, 선형 관계에만 적용 가능합니다.
상관계수 -1에서 +1 사이의 값을 가지며, +1에 가까울수록 양의 상관관계가 강하고, -1에 가까울수록 음의 상관관계가 강합니다. 0은 상관관계 없음. 관계의 강도를 정량적으로 나타냅니다. 비선형 관계에서는 적절하지 않을 수 있습니다.

개념 설명 장점 단점

 

Q1. 산포도와 상관계수, 둘 중 어느 것을 먼저 봐야 할까요?

A1. 보통 산포도를 먼저 보고, 데이터의 분포를 확인한 후 상관계수를 계산하는 것이 좋습니다, 산포도를 통해 데이터의 분포 패턴과 이상치를 확인하면, 상관계수 해석에 도움이 되기 때문이죠.

 

Q2. 상관관계가 높다고 무조건 인과관계가 있다고 볼 수 있나요?

A2. 아니요, 상관관계는 단지 두 변수가 함께 변하는 정도를 나타낼 뿐, 한 변수가 다른 변수의 원인이라는 것을 의미하지는 않습니다, 아이스크림 판매량과 익사 사고 건수의 예시처럼, 공통된 제3의 요인이 존재할 수 있으므로, 상관관계만으로 인과관계를 단정 지을 수는 없습니다.

 

Q3. 상관계수가 0이면 두 변수는 아무런 관계가 없다는 뜻인가요?

A3. 상관계수가 0에 가깝다는 것은 두 변수 사이에 선형적인 관계가 거의 없다는 것을 의미합니다, 하지만, 비선형적인 관계가 있을 가능성은 여전히 존재합니다, 따라서, 상관계수가 0이라고 해서 두 변수 사이에 아무런 관계가 없다고 단정 지을 수는 없습니다, 산포도를 통해 데이터의 분포를 확인하고, 비선형 관계를 고려해야 합니다.

 

산포도와 상관관계는 데이터 분석에 필수적인 개념입니다,  이를 통해 데이터의 숨겨진 의미를 발견하고, 더 나은 의사결정을 내릴 수 있습니다,  꾸준히 학습하여 데이터 분석 전문가로 성장하시길 바랍니다.

 

 

반응형