회귀는 함수로 변화를 나타내고 데이터를 피팅하는 과정을 의미하며, 회귀 분석은 이를 수행하는 여러 방식들로 이루어져 있다. 단순 회귀, 다항식 회귀, 로지스틱 회귀, 다중 회귀 등이 주요 회귀 분석의 종류로 꼽힌다. 피팅에 흔히 사용하는 방법으로는 최소 제곱법이 있으며, 주어진 데이터로 함수를 생성한 후 그 함수를 데이터에 맞추어 조정하는 작업이 포함된다. 피팅은 함수에서 발생하는 차이, 즉 잔차의 크기를 최소화하도록 함수를 조정하는 것을 지칭한다. 잔차란 회귀 직선을 통해 얻은 값과 실제값 간의 차이를 말한다.
일반선형모델은 잔차의 분포가 정규 분포를 따른다는 전제를 바탕으로 만들어진 함수이며, 일반화 선형 모형은 잔차의 분포가 임의의 분포일 경우에 만들어진다. 이러한 모델은 선형화 문제 해결 시에 주로 이용되며, 신뢰도를 검증하여 통계 예측에 활용될 수 있다. 데이터의 잔차 정도를 통해 신뢰구간을 표현함으로써 예측 결과의 정확성을 나타낼 수 있다.
단순 회귀 분석에서는 요소들 간의 비례 관계를 활용하며, 독립 변수가 한 개인 형태를 취한다. 예를 들어 신장과 체중 사이의 관계나 임대주택 방 크기와 임대료 사이의 관계 등이 представن을 수준으로 직선 y = ax + b에서 기울기 a와 절편 b를 알면 임의의 x에 대해 y를 도출할 수 있다. 여기서 y는 종속 변수 혹은 목적 변수를 의미하고, x는 독립 변수 혹은 설명 변수를 지칭한다. 회귀 직선의 기울기와 절편을 구하기 위해서는 기본 방정식 𝑦=𝑎𝑥+𝑏+e를 사용하여 a와 b를 구하게 된다. 단순 회귀 모델의 경우 잔차 제곱 E (목적 함수)를 구한 후, a와 b를 편미분하여 연립 방정식을 설립해 잔차 제곱이 최소화되는 값들을 산출하는 방식이 사용된다.
다중 회귀 분석은 독립 변수가 여러 개인 경우를 다루며, 2차원 평면 상에 그래프로 표현할 수 없는 관계를 분석한다. 이 때는 주성분 분석(PCA : Principal Component Analysis)을 사용하여 차원을 축소하며, 주성분 회귀와 부분 최소 제곱 회귀를 활용한다. 독립 변수가 늘어날 때의 단점 중 하나는 회귀 분석의 결과가 신뢰할 수 없거나, 답을 구하기 어려운 경우가 발생할 수 있다는 것이다. 다중 공선성(Multicollinearity) 문제에서 독립 변수는 선형 독립이어야 하며, 독립 변수가 증가하면 상관 관계 증가의 가능성이 커진다. 이를 해결하기 위해 부분최소제곱회귀와 L1정규화(LASSO)가 사용되며, 상관 관계가 높은 변수를 제거하거나 변수를 변형하고, 새로운 관측치를 사용하는 등의 방법으로 해결한다.
다항식 회귀는 선형적인 관계를 갖지 않는 설명 변수와 종속 변수를 분석할 때 사용한다. 산포도의 점 분포가 곡선 상에 위치할 경우 차수를 올려 대응하는 회귀 분석을 수행한다. 과적합(Overfitting)은 차수가 증가하면서 모든 데이터 분포를 적합한 곡선으로 나타내면서 발생할 수 있는 문제로, 훈련 데이터에는 오차가 적을 수 있으나 예측 데이터에는 오차가 크게 발생할 위험이 있다. 이를 방지하기 위해서 실제 회귀 분석에서 독립 변수의 차수를 낮게 설정하여, 신경망과 서포트 벡터 머신 등을 사용해 과적합 문제를 해결한다.
최소 제곱법은 회귀 분석에서 함수를 피팅할 때 잔차를 최소화하는 일반적인 방법이다. 행렬을 사용하여 최소제곱법을 계산할 수 있으며, 단순 회귀처럼 E에 대해 w 각각의 성분을 편미분하여 이 값이 0이 되도록 하는 방정식을 행렬로 표현한다. w를 구할 때에는 wT=(XTX)-1XTY와 같은 식을 사용하며, 역행렬을 구할 수 없을 때에는 QR 분해 알고리즘이나 특이값 분해를 활용한다.
로지스틱 회귀는 종속 변수에 약간의 수정을 가한 선형 회귀의 형태로, 다항식 회귀처럼 일반화 선형 모델의 하나로 분류되고 있다. 로지스틱 회귀는 종속 변수로 범주형 데이터를 다루며, 입력 데이터가 주어졌을 때 해당 데이터의 결과가 특정 분류로 나뉘는 특성이 있다. 이를 통해 분류 기법으로 사용되며, 로짓(Logit) 변환을 통해 일반식의 종속 변수 y에 로그를 적용하여 y’로 변환하는 지나칠 수도 있는 수학적인 처리를 거친다.
로짓 함수를 이용한 함수 피팅은 여러 응용 분야에서 사용될 수 있으며, 이는 특히 의학적 분석이나 소셜 분석 등 다양한 분야에서 유용한 결과를 도출해낸다. 예를 들어, 부상을 입은 환자들의 사망 예측 모델로서 Trauma and Injury Severity Score (TRISS)와 같은 기법이 사용된다. 이는 환자의 특정 병 감염 여부를 예측하는 데에도 활용될 수 있으며, 따라서 로지스틱 회귀는 매우 실질적이고 효과적인 기법으로 자리 잡고 있다.
결국, 이러한 모든 회귀 기법들은 다양한 문제를 해결하기 위한 도구로서 유용하게 활용될 수 있으며, 데이터 분석 과정에서 발생하는 여러 상황을 효율적으로 처리할 수 있게 돕는다. 인공지능, 기계 학습, 그리고 데이터 과학 분야에서 회귀 분석은 그 자체로 필수적인 도구가 되며, 이는 우리가 데이터를 정확하게 이해하고 예측할 수 있도록 한다. 종합적으로, 회귀 및 분류 분석은 데이터 기반의 결정-making 과정을 개선하고, 인공지능 알고리즘이 보다 나은 결과를 도출하는 데 중대한 기여를 하게 된다.
결론적으로, 회귀 분석의 종류와 응용 기술은 매우 다양하고 이를 통해 우리는 복잡한 데이터를 분석하고 예측하는 데 필요한 중요한 통찰을 얻게 된다. 이로 인해 인공지능의 발전과 응용 가능성을 확대하며, 다양한 산업에 걸쳐 유용하게 활용될 수 있는 기반을 제공하게 되는 것이다.
| 그래프 이론 (1) | 2025.01.20 |
|---|---|
| 가중 회귀분석 (0) | 2025.01.19 |
| 선형 문제와 비선형 문제 (0) | 2025.01.16 |
| 인공지능 코딩의 경험 (1) | 2025.01.15 |
| 현대의 코딩 (1) | 2025.01.15 |