5절. 정형 데이터 마이닝
1. 데이터 마이닝 개요
데이터 마이닝이란?
모든 사용 가능한 원천 데이터를 기반으로 감춰진 지식, 기대하지 못했던 경향 또는 새로운 규칙 등을 발견하고 이를 실제 비즈니스 의사결정 들에 유용한 정보로 활용하는 일련의 작업!
데이터 마이닝 5단계
목적정의 | 데이터 마이닝 도입 목적을 명확하게 함 |
데이터 준비 | - 데이터 정제를 통해 데이터의 품질 확보까지 포함 - 필요시 데이터 양 충분하게 확보 |
데이터 가공 | - 목적 변수를 정의하고, 필요한 데이터를 데이터 마이닝 소프트웨어에 적용할 수 있게 가공 및 준비하는 단계 - 충분한 CPU와 메모리, 디스크 공간 등 개발환경 구축이 선행 |
데이터 마이닝 기법 적용 | 모델을 목적에 맞게 선택하고 소프트웨어를 사용하는 데 필요한 값 지정 |
검증 | 결과에 대한 검증 시행 |
2. 대표적 데이터 마이닝 기법
분류 | - 새롭게 나타난 현상을 검토하여 기존의 분류, 정의된 집합에 배정하는 것 - 의사결정 나무, memory-based reasoning 등 |
추정 | - 주어진 입력 데이터를 사용하여 알려지지 않은 결과의 값을 추정하는 것 - 연속된 변수의 값을 추정, 신경망 모형 |
연관분석 | - '같이 팔리는 물건' 같이 아이템의 연관성을 파악하는 분석 - 카탈로그 배열 및 교차판매, 공격적 판촉행사 등의 마케팅 기획 |
예측 | - 미래에 대한 것을 예측, 추정하는 것을 제외하면 분류나 추정과 동일한 의미 - 장바구니 분석, 의사결정나무, 신경망 모형 |
군집 | - 미리 정의된 기준이나 예시에 의해서가 아닌 레코드 자체가 가진 다른 레코드와의 유사성에 의해 그룹화되고 이질성에 의해 세분화 됨 - 데이터 마이닝이나 모델링의 준비단계로서 사용됨 |
기술 | - 데이터가 가진 특징 및 의미를 단순하게 설명하는 것 - 데이터가 암시하는 바에 대해 설명 및 그에 대한 답을 찾아낼 수 있어야 함 |
6절. 분류 분석1
데이터 분석 순서
분석용 데이터 준비 ⇒ 탐색적 분석 데이터 전처리 ⇒ 모델링 ⇒ 모델 평가 및 검증 ⇒ 모델 적응 운영 방안 수립
1. 로지스틱 회귀분석
- 독립변수는 연속형, 종속변수가 범주형인 경우 적용되는 회귀분석 모형
- 종속변수가 성공/실패, 사망/생존과 같이 이항으로 되어 있을 때, 종속변수와 독립변수 간의 관계식을 이용
- x 값에 따른 y 값의 변화량 문제가 아님
- 회귀계수를 해석할 때 문제가 생김
- 종속 변수를 전체 실수 범위로 확장하여 분석하고, 시그모이드 함수를 사용해서 연속형 0~1 값으로 변경
시그모이드 sigmoid 함수?
- Logistic 함수라고 불리기도 하며, log_odds의 값을 연속형 0~1 사이의 값으로 바꾸는 함수
- 비선형 값을 얻기 위해 사용함
2. 의사결정 나무 모형
- 의사 결정 규칙을 나무 구조로 나타내 전체 자료를 몇 개의 소집단으로 분류하거나 예측을 수행하는 방법
- 분석 과정이 직관적이고 이해하기 쉬움
2.1. Decision Tree
특징
- 목적: 새로운 데이터를 분류하거나 값을 예측하는 것
- 분리변수 P차원 공간에 대한 현재 분할은 이전 분할에 영향을 받음
- 부모마디보다 자식마디의 순수도가 증가하도록 분류나무를 형성 (불순도 감소)
종류
- 목표변수(종속변수)가 이산형인 경우는 분류나무
- 목표변수가 연속형인 경우는 회귀나무
장점
- 구조가 단순해서 해석에 용이
- 비모수적 모형으로 선형성, 정규성, 등분산성 등의 수학적 가정이 불필요
- 범주형(이산형)과 수치형(연속형) 변수를 모두 사용할 수 있음
단점
- 분류 기준값의 경계선 부근의 자료 값에 대해서는 오차가 큼(비연속성)
- 로지스틱 회귀와 같이 각 예측 변수의 효과를 파악하기 어려움
- 새로운 자료에 대한 예측이 불안정할 수 있음
2.2. 의사 결정 나무의 결정 규칙
분리기준
- 새로운 가지를 만드는 기준을 어떻게 정할지?
: 순수도가 높아지는 방향으로 분리
: 불확실성이 낮아지는 방향
정지 규칙 | - 더 이상 분리가 일어나지 않고 현재의 마디가 최종마디가 되도록 하는 규칙 - '불순도 감소량'이 아주 작을 때 정지함 |
가지치기 규칙 | - 최종 노드가 너무 많으면 문제가 되는데 이를 해결하기 위한 규칙 - 별도 규칙을 제공하거나 경험에 의해 실행 가능 - 가지치기의 비용함수를 최소로 하는 분기를 찾아내도록 학습시킴 |
2.3. 불순도 측정 지표
: 목표 변수가 범주 형일 때 사용하는 지표 (분류에서 사용)
지니 지수 | - 불순도 측정 지표, 값이 작을수록 순수도가 높음(분류 잘 됨) - 가장 작은 값을 갖는 예측 변수와 이때의 최적 분리에 의해 자식 마디 형성 |
엔트로피 지수 | - 불순도 측정 지표, 가장 작은 값을 갖는 방법 선택 |
카이 제곱 통계량의 유의 확률 | - 가장 작은 값을 갖는 방법 선택 |
+ 의사 결정 나무를 위한 알고리즘
CHAID, CART, ID2, C5.0, C4.5가 있으며 하향식 접근 방법을 이용함
3. 앙상블 모형
앙상블 모형이란?
- 여러 개의 분류 모형에 의한 결과를 종합하여 분류의 정확도를 높이는 방법
- 적절한 표본추출법으로 데이터에서 여러 훈련용 데이터 집합을 만들어 각 데이터 집합에 하나의 분류기를 만들어 결합하는 방법
- 약하게 학습된 여러 모델들을 결합해 사용
- 성능을 분산시키기 때문에 과적합 감소 효과가 있음
앙상블 모형의 종류
Voting, Bagging, Boosting, Random Forest
Voting
- 서로 다른 여러 개 알고리즘 분류기 사용
- 각 모델의 결과를 취합하여 많은 결과 또는 높은 확률로 나온 것을 최종 결과로 채택하는 것
Bagging, Bootstrap AGGregatING
- 서로 다른 훈련 데이터 샘플로 훈련
- 서로 같은 알고리즘 분류기 결합
- 원 데이터에서 중복을 허용하는 크기가 같은 표본을 여러 번 단순 임의 복원 추출하여 각 표본에 대해 분류기를 생성
- 여러 모델이 병렬로 학습, 그 결과를 집계하는 방식
- 같은 데이터가 여러 번 추출될 수 있고, 어떤 데이터는 추출되지 않을 수도 있음
Boosting
- 여러 모델이 순차적으로 학습
- 이전 모델의 결과에 따라 다음 모델 표본 추출에서 분류가 잘못된 데이터에 가중치를 부여하여 표본을 추출함
- 이상치에 약함
Random forest
- 배깅에 랜덤 과정을 추가한 방법
- 노드 내 데이터를 자식 노드로 나누는 기준을 정할 때 모든 예측 변수에서의 최적의 분할을 선택
- 설명변수의 일부분만을 고려함으로 성능을 높이는 방법 사용
- 여러 개의 의사결정 나무를 사용해, 하나의 나무를 사용할 때보다 과적합 문제를 피할 수 있음
4. k-NN (k-Nearest Neighbors)
- 새로운 데이터에 대해 주어진 이웃의 개수(k)만큼 가까운 멤버들과 비교하여 결과를 판단하는 방법
- k 값에 따라 소속되는 그룹이 달라질 수 있음
- 거리를 측정해 이웃을 뽑음 ⇒ 스케일링이 중요
- 반응변수가 범주형이면 분류, 연속형이면 회귀의 목적으로 사용됨
- 모형을 미리 만들지 않고, 새로운 데이터가 들어오면 그때부터 계산을 시작하는 게으른 학습이 사용되는 지도학습 알고리즘
5. SVM (Support Vector Machine)
- 서로 다른 분류에 속한 데이터 간의 간격이 최대가 되는 선을 찾아 이를 기준으로 데이터를 분류하는 모델
다음은 분류분석2 인공신경망 모델부터 ~ 할 차례!
'2022 하계 모각코 캠프 (ADsP)' 카테고리의 다른 글
[모각코] 8/24 분류분석2, 군집분석 (0) | 2022.08.24 |
---|---|
[모각코] 8/17 3절 회귀분석, 4절 시계열 분석 (0) | 2022.08.17 |
[모각코] 8/13 기초 통계분석 (0) | 2022.08.14 |
[모각코] 8/10 통계분석의 이해 (0) | 2022.08.11 |
[모각코] 8/6 3과목 3장 실전 문제 풀기 - 오답노트 (0) | 2022.08.07 |