의사결정 나무 분류 (Decision Tree)

데이터의 특징을 분석하여 최적의 질문 트리를 생성합니다. 스무고개 방식으로 새로운 데이터의 결과를 직관적으로 분류합니다.

Data Source

학습 데이터 업로드

Excel 또는 CSV

Parameters

5

깊을수록 학습 데이터에 더 정교하게 맞추지만, 과적합 위험이 있습니다.

2

분할을 시도하기 위한 최소한의 데이터 건수입니다.

학습 및 시각화

Awaiting Data Upload...

모델 개념 (Model Concept)

스무고개 게임처럼 데이터를 특정 기준에 따라 계층적으로 분할하여 의사결정 규칙을 시각화하고, 새로운 데이터가 어떤 범주에 속할지 빠르고 명확하게 예측하는 모델입니다.

알고리즘 가이드

정보 획득량 (Info Gain)

어떤 특징으로 데이터를 나누었을 때 가장 '불순도'가 줄어드는지 계산합니다. 무질서한 데이터를 가장 잘 정돈하는 기준을 찾는 과정입니다.

의사결정 노드 (Node)

"X가 100보다 큰가?"와 같은 개별 질문들입니다. 각 질문을 통과하며 데이터는 점차 세분화된 그룹으로 분류됩니다.

과적합 방지 (Pruning)

트리가 너무 깊어지면 특정 데이터에만 집착하게 되어 새로운 데이터를 못 맞추게 됩니다. 최대 깊이를 제한하여 이를 방지합니다.

모델 적용 및 보강 사항

데이터 누수(Data Leakage) 차단

정답(Label) 컬럼이 학습 데이터(Features)에 포함되지 않도록 자동 필터링 기능을 탑재했습니다.

지니 불순도(Gini Impurity) 기반 학습

가장 순수한 그룹으로 나눌 수 있는 탐욕적(Greedy) 방식의 최적화를 통해 분류 성능을 최적화했습니다.

변수 중요도 (Feature Importance)

각 변수가 최종 의사결정에 기여한 정도를 수치화하여 어떤 요인이 결과에 큰 영향을 미쳤는지 보여줍니다.