상세 컨텐츠

본문 제목

가중 회귀분석

인공지능

by njcin 2025. 1. 19. 22:24

본문

반응형

최소 회귀법은 특이값에 취약하지만, 이를 보완하기 위해 가중치를 변화시켜 유연성을 높이는 방법이 있다. 대표적인 기법으로는 LOWESS(Locally Weighted Scatterplot Smoothing)와 L2, L1 정규화가 있다.

1. 최소 제곱법 수정 최소 제곱법은 실제 답과 결과 값의 오차 제곱의 합이 최소가 되도록 해를 구하는 방법이다. 알고 싶은 값이 𝑦𝑖이고, 예측 방정식이 𝑦 = 𝛽0 + 𝛽1𝑋로 설정된 경우, 오차 제곱의 합은 일반적으로 𝑖=1부터 𝑛까지 (𝑦𝑖 - (𝛽0 + 𝛽1𝑋))^2과 같은 형태가 된다. 여기서 𝛽0과 𝛽1을 편미분하여 0이 되도록 하면, 그래프 상에서 오차의 제곱이 가장 작은 함수를 얻을 수 있다.

최소 제곱법은 데이터에 특이값이 포함될 경우 회귀식의 예측 결과가 왜곡될 수 있는 취약점을 가지고 있다. 이는 앞으로 수집할 데이터의 예측 시 정확성을 잃게 만들 수 있으며, 이러한 왜곡을 방지하기 위해 특이값에 페널티를 부여하거나 제외하는 방식으로 회귀식을 수정할 필요가 있다. 하지만 데이터 개수가 많을 경우 계산량이 매우 많이 증가하는 단점도 있다. 오차 제곱의 합을 흔히 Cost Function이라고 한다.

2. LOWESS 분석 LOWESS는 어떤 한 지점에 가중 회귀 함수를 사용해 평활화를 실행하는 회귀식 도출 방법이다. 이는 유연한 비선형 함수들을 적합하는 또 다른 기법으로, 목표점 x0 주변의 훈련 관측치들만을 사용하여 적합을 계산한다. 전체 데이터는 적합하지 않으므로, 최근 데이터가 중요할 경우 사용되며, 최근 데이터에 중요도를 높여 적합한다.

목표점에서 먼 데이터들을 제외시키며 계산 상의 부담을 줄이고, 목표점 근처의 데이터를 어떻게 수집할지가 관건이다. 평활화(Smoothing)는 연속성 없는 데이터를 제거하거나 변환해 전체 데이터를 연속성 있게 유지하는 작업으로 사용된다. 임의로 설정한 폭 d(x)에서 xi 최소값부터 차례로 값을 증가시켜 x와 가장 가까운 xi 값을 찾도록 가중치 wi를 산출한다. 이때 평활화를 실행하여 특이값을 없애기 위해 로버스트 평활화가 사용되며, 중위 절대편차가 6배 이상의 잔차 ri가 존재하는 경우 wi를 0으로 설정한다.

3. L2 정규화, L1 정규화 최소 제곱법으로 구성한 방정식에 페널티를 부여하는 방식으로는 L2 정규화, L1 정규화, 및 일라스틱(Elastic) 넷이 있다. 페널티 항(벌칙 항, Penalty Term) 또는 정규화 항(Regularization Term)은 문자 그대로 페널티를 부여하는 목적을 가진다.

  • L2 정규화는 최소제곱법의 종속 변수인 잔차 제곱의 합에 가중치 계수 wi 제곱의 합을 페널티로 추가하여 사용된다. 이 방식은 능형 회귀에서 L2 노름을 활용하며, 𝜆 값을 다양하게 적용하여 교차검증법으로 최적값을 검색한다. 𝜆의 값이 클수록 페널티가 강하며, 𝜆I(I는 단위 행렬)를 정규방정식에서 𝑋𝑇𝑋 항에 추가하여 실행된다.
  • L1 정규화는 Lasso(Least Absolute Shrinkage Selection Operator)라 불리며, wi의 절대값을 페널티로 더한다. 이 방식으로 인해 일부 w는 0이 되며, 이는 밀도를 낮추어 모델을 구축할 때 특징량 선택에 도움을 준다. L1 정규화는 신호 처리와 패턴 인식에 사용하기 쉽고, 다중 공선성 문제에도 대응 가능하다. L2 정규화는 일반적인 회귀 모델로 계산되며, L1 정규화는 볼록 최적화의 추정 알고리즘을 활용한다.

휘에기

  • 데이터 생성에 사용한 함수: 𝑦=0.001(𝑥³+𝑥²+𝑥)와 같이 정의된 함수에 N(0, 0.1)을 따르는 무작위 값을 더해줌으로써 20개의 데이터를 생성할 수 있다. L2 정규화를 사용하면 약간의 학습 효과가 있으며, L1 정규화는 최적의 모델링을 얻을 수 있다. 일라스틱 넷은 L1과 L2 정규화의 중간 정도의 모델링 결과를 보여준다. 이러한 정규화 기법은 회귀 모델의 안정성과 예측력 향상을 도모하며, 과적합을 방지하기 위해 데이터의 복잡성을 조절할 수 있도록 돕는다.

각 정규화 기법은 데이터 특성에 따라 그 효과가 다르게 나타날 수 있으므로, 데이터를 충분히 이해하고 적절한 방법을 선택하는 것이 중요하다. 특히, L1 정규화는 변수 선택의 도구로 사용될 수 있으며, L2 정규화는 매개변수의 스무딩을 통해 더욱 예측력 있는 모델을 만들 수 있도록 한다. 일라스틱 넷의 경우, L1과 L2의 장점을 결합하여 복잡한 현상을 포착하는 데 도움이 된다.

결론적으로, 최소 제곱법의 수정과 이에 따른 다양한 정규화 기법은 회귀 분석의 신뢰성을 높이고, 특이값에 민감한 모델의 취약성을 보완하는 효과적인 방법이다. 아울러, 데이터 분석 및 예측 모델링에서 신뢰성 높은 결과를 얻기 위해 이러한 기법들을 적절히 적용하는 것이 중요하며, 이는 인공지능과 데이터 과학 분야의 발전에 큰 기여를 하고 있다.

 

반응형

'인공지능' 카테고리의 다른 글

그래프 탐색  (1) 2025.01.20
그래프 이론  (1) 2025.01.20
회귀 분석  (1) 2025.01.16
선형 문제와 비선형 문제  (0) 2025.01.16
인공지능 코딩의 경험  (1) 2025.01.15

관련글 더보기