Upstage AI Lab 6기 Statistics(통계학) 강의
Upstage AI Lab 6기의 이번 수업은 기초 통계학에 관련된 수업이었다. 통계학과 기초 머신러닝에 대한 수업은 앞으로의 여정에 필수적인 기본 지식이 될 것이다. 특히, 이론과 실습이 조화를 이루는 교육 과정은 통계학과 머신러닝에 대한 이해를 심화하는 데 도움이 되었다. 수업을 통해 배운 내용을 바탕으로 데이터를 분석하고, 모델을 학습시키는 과정을 체계적으로 익힐 수 있었다.
통계와 머신러닝의 기초
1. 상관 분석
상관 분석은 데이터의 변수 간 관계를 이해하는 데 기본적으로 필요한 기법이다.
상관 계수(Correlation Coefficient)는 두 변수 간의 선형 관계를 정량적으로 표현하는 값으로, +1에 가까울수록 양의 상관 관계, -1에 가까울수록 음의 상관 관계를 나타낸다.
이번 수업에서는 Python의 np.corrcoef와 sp.stats.pearsonr를 사용해 데이터를 분석하는 방법을 배웠다.
실습 예시: 학생들의 수학 점수와 과학 점수 데이터를 분석하여, 두 점수 사이의 양의 상관 관계를 시각적으로 확인했다. 이를 통해 데이터 분석의 첫 단계를 이해할 수 있었다.
2. 선형 회귀
선형 회귀는 데이터를 바탕으로 결과를 예측하는 데 사용되는 기초적인 모델링 기법이다.
핵심 개념: 데이터를 가장 잘 표현하는 직선을 찾기 위해 손실 함수(MSE)를 최소화하는 방식.
활용 사례: 아파트 평균 방 개수와 가격 데이터를 활용해 주택 가격을 예측하는 모델을 만들었다.
실습 예시: 데이터를 기반으로 y = Wx + b 형태의 직선 방정식을 구현했다. Python을 이용해 가중치(Weight)와 바이어스(Bias)를 계산하고, 손실 함수를 최소화하여 데이터를 가장 잘 표현하는 모델을 학습했다.
3. 이진 분류
이진 분류는 데이터를 두 가지 범주로 나누는 머신러닝 기법으로, 로지스틱 회귀와 시그모이드 함수가 핵심이다.
로지스틱 회귀: 데이터를 선형적으로 구분하고, 시그모이드 함수를 통해 결과를 확률로 변환.
이진 크로스 엔트로피 손실 함수: 예측값과 실제값의 차이를 최소화하여 모델 성능을 높이는 데 사용된다.
활용 사례: 스팸 메일 필터링 시스템을 학습 데이터로 구현했다. Python을 통해 시그모이드 함수를 사용해 확률을 계산하고, 0.5를 기준으로 분류를 수행하여 스팸 여부를 예측했다.
4. 경사 하강법
경사 하강법은 손실 함수의 값을 최소화하여 최적의 가중치와 바이어스를 찾는 머신러닝 최적화 기법이다.
핵심 원리: 함수의 기울기를 따라 내려가면서 손실을 최소화.
학습률(Learning Rate): 이동 속도를 결정하는 중요한 요소.
실습 예시: 경사 하강법 알고리즘을 Python으로 구현하여 손실 함수의 값을 시각적으로 확인했다. 학습률을 조정해 모델의 수렴 속도를 개선하고, 손실 함수 값이 최소화되는 과정을 이해할 수 있었다.
실습 결과와 시사점
배운 점
통계학과 머신러닝의 이론을 학습하며, 이를 Python으로 구현하는 과정을 통해 실무에서 적용 가능한 기술을 익혔다.
데이터의 상관 관계를 이해하고 이를 활용해 예측 모델을 만드는 과정에서 데이터 분석의 중요성을 체감했다.