로지스틱 회귀 (Logistic Regression)
데이터를 통해 두 가지 결과(예: 합격/불합격) 중 하나가 될 확률을 예측합니다.
하이퍼파라미터
확률이 이 값보다 높으면 '1(True)'로 판단합니다.
Data Source
학습 데이터 업로드
로지스틱 회귀 학습 결과
데이터를 업로드하고 변수를 선택해주세요.
모델 개념 (Model Concept)
사건의 발생 확률을 0과 1 사이의 값으로 예측하여, 데이터가 특정 범주(Yes/No, 합격/불합격 등)에 속할 가능성을 판단하는 이진 분류의 표준 모델입니다.
알고리즘 가이드
시그모이드 (Sigmoid)
모든 값을 0과 1 사이의 확률로 변환해주는 'S'자 모양의 마법 방정식입니다. (결과가 0.5보다 크면 1, 아니면 0)
결정 경계 (Decision Boundary)
두 그룹을 나누는 선입니다. 학습을 통해 이 선의 최적 위치(Theta)를 찾아냅니다. 그래프의 점선이 바로 그것입니다.
손실 함수 (Log Loss)
예측이 틀릴수록 벌점(Penalty)을 크게 매겨서, 정답에 가까워지도록 모델을 엄격하게 훈련시킵니다.
모델 개선 사항 (Updates)
데이터 누수(Data Leakage) 차단
예측 대상(Label)이 특징 변수(Feature)에 포함되지 않도록 자동으로 필터링하여, 정답을 미리 알고 학습하는 문제를 원천 방지했습니다.
정교한 데이터 분할 (Fisher-Yates Shuffle)
검증된 무작위 섞기 알고리즘을 적용하여 학습/평가 데이터가 편향 없이 고르게 분포되도록 개선했습니다.
과적합 방지 (L2 Regularization)
L2 규제(Ridge)를 도입하여 특정 변수의 가중치가 비정상적으로 커지는 것을 억제하고, 일반화된 예측 성능을 확보했습니다.