1장. 데이터 분석 기획의 이해
1절. 분석 기획 방향성 도출
1. 분석 기획이란?
- 실제 분석을 수행헤 앞서 분석을 수행할 과제의 정의 및 의도했던 결과를 도출할 수 있도록 이를 적절하게 관리할 수 있는 방안을 사전에 계획하는 일련의 작업
- 어떤 목표를 달성하기 위해 어떤 데이터를 가지고 어떤 방식을 수행할지에 대한 일련의 계획을 수립하는 작업
- 성공적인 분석 결과 도출을 위한 중요 사전 작업
- 해당 문제 영역에 대한 전문성 역량 및 통계학적 지식을 활용한 분석 역량과 분석 도구인 데이터 및 프로그래밍 기술 역략에 대한 균형 잡힌 시각을 가지고 방향성 및 계획을 수립해야 함
2. 분석 주제 유형
분석의 대상(what)과 분석의 방법(how)에 따라 4가지로 구분
분석 대상을 알면 (OS), 모르면 (ID)
분석의 대상 | |||
분석의 방법 | Known | Un-Kown | |
Known | Optimazation | Insight | |
Un-Kown | Solution | Discovery |
3. 목표 시점 별 분석기획 방안
과제 중심적인 접근 방식의 단기방안 vs. 마스터플랜 단위의 중장기 방안
과제 단위 | 마스터 플랜 단위 | |
1차 목표 | Speed & Test | Accuracy & Deploy |
과제의 유형 | Quick - Win | Lonf Term View |
접근 방식 | Problem Solving | Problem Definition |
4. 분석 기획 시 고려 사항
→ 가용한 데이터, 적절한 유스케이스 탐색, 장애요소들에 대한 사전 계획 수립
- 가용한 데이터: 데이터 유형 분석이 선행적으로 이루어져야 함 (정형, 비정형, 반정형)
- 유사 분석 시나리오 및 솔루션이 있다면 이것을 최대한 활용
- 장애 요소들에 대한 사전 계획 수립 필요, 충분하고 계속적인 교육 및 활용방안이 고려되어야 함
5. 데이터 유형, 저장 방식
데이터 유형
- 정형 데이터: ERP, CRM, Demand Forecast
이미 우리가 사용하고 있는 결과적인 데이터, 의사 결정에 도움이 될 수 있는 시스템 혹은 그런 데이터를 보관
- 반정형 데이터: Competitor Pricing, Sensor, machine data
데이터 형식은 정형 데이터와 비슷하지만, 바로 사용하기에는 문제가 있음, 가공이 필요한 상태
- 비정형 데이터: email, SNS, voice, IoT, news, 보고서
가공을 해서 써야만 하는 것들
데이터 저장 방식
- RDB: 관계형 데이터를 저장, 수정, 관리할 수 있게 해주는 데이터베이스로 Oracle, MSSQL, MySQL 등
- NoSQL: 비관계형 데이터 저장소로 MongoDB, Cassndra, Hbase, Redis
- 분산 파일 시스템: 분산된 서버의 디스크에 파일 저장, HDFS
2절. 분석 방법론
1. 분석 방법론 개요
개요
- 데이터 분석을 체계화한 절차와 방법이 정리된 데이터 분석 방법론의 수립이 중요
- 방법론은 상세한 절차, 방법, 도구와 기법, 템플릿과 산출물로 구성되어 어느 정도의 지식만 있으면 활용이 가능해야 함
데이터 기반 의사결정의 필요성
1) 경험에 따른 의사결정 → 데이터 기반의 의사결정
2) 기업의 합리적 의사결정을 가로막는 장애요소: 고정 관념, 편향된 생각, 프레이밍 효과 등
? 프레이밍 효과 : 동일한 사건이나 상황임에도 불구하고 개인의 판단이나 선택이 달라질 수 있는 현상
분석 방법론의 3가지 모델
1) 폭포수 모델
: 단계를 순차적으로 진행하는 방법, 이전 단계가 완료되어야 다음 단계로 순차 진행하는 하향식 진행, 문제점이 발견되면 전단계로 돌아가는 피드백 수행
2) 나선형 모델
: 반복을 통해 점증적으로 개발, 처음 시도하는 프로젝트에 적용이 용이하지만, 반복에 대한 관리 체계가 효과적으로 갖춰지지 못한 경우(순환적 문제 탐색) 복잡도가 상승하여 프로젝트 진행이 어려울 수 있음
3) 프로토타입 모델
: 사용자 요구사항이나 데이터를 정확히 규정하기 어렵고 데이터 소스도 명확히 파악하기 어려운 상황에서 사용, 일단 분석을 시도해보고(일부분 우선 개발) 그 결과를 확인해가면서 반복적으로 개선해 나가는 방법, 신속하게 해결책 모형 제시, 상향식 접근방법에 활용
→ '이렇게 만들면 사용자들이 편하게 사용할거야'라는 가설을 생성 → 프로토 타입을 보고 완성시킨 결과물을 통해 가설을 확인 → 서비스 설계와 디자인에 대한 실험도 실행 → 개발 검증과 양산 검증을 거챠야 시제품이 될 수 있음 → 시스템의 초기모델
2. KDD 분석 방법론
KDD 분석 절차
: 데이터베이스에서 의미 있는 지식을 탐색하는 데이터 마이닝 프로세스
→ 우선, 분석 대상의 비즈니스 도메인에 대한 이해와 프로젝트 목표를 정확하게 설정
1) 데이터셋 선택 - 데이터 마이닝에 필요한 목표데이터를 구성하여 분석에 활용
2) 데이터 전처리 - 데이터셋에 포함되어 있는 잡음, 이상값, 결측치를 식별하고 필요시 제거
3) 데이터 변환 - 분석 목적에 맞는 변수 선택, 데이터의 차원 축소, 데이터 마이닝을 효율적으로 적용할 수 있도록 데이터셋 변경 작업
4) 데이터 마이닝 - 분석 목적에 맞는 데이터 마이닝 기법 및 알고리즘 선택, 데이터의 패턴을 찾거나 분류 또는 예측 등의 마이닝 작업
5) 데이터 마이닝 결과 평가 - 분석, 결과에 대한 해석과 평가, 활용
3. CRISP-DM 분석 방법론
일방향으로 구성되어 있지 않고, 단계간 피드백을 통하여 단계별 완성도를 높이게 구성
6단계: 업무 이해 → 데이터 이해 → 데이터 준비 → 모델링 → 평가 → 전개
1) 업무이해
: 비즈니스 관점 프젝의 목적과 요구사항을 이해하기 위한 단계, 도메인 지식을 데이터 분석을 위한 문제 정의로 변경하고 초기 프젝 계획을 수립하는 단계
: 업무 목적 파악 → 상황 파악 → 데이터 마이닝 목표 설정 → 프로젝트 계획 수립
2) 데이터 이해
: 분석을 위한 데이터 수집, 데이터 속성 이해를 위한 과정, 데이터 품질에 대한 문제점 식별 및 숨겨져 있는 인사이트를 발견하는 단계, 초기 데이터 수집, 데이터 기술 분석, 데이터 탐색, 데이터 품질 확인
3) 데이터 준비
: KDD의 데이터 변환과 같은 단계, 분석을 위해 수집된 데이터에서 분석 기법에 적합한 데이터셋을 편성하는 단계로 많은 시간이 소요될 수 있음, 분석용 데이터셋 선택, 데이터 정제, 데이터 통합, 데이터 포맷팅
4) 모델링
: 다양한 모델링 기법과 알고리즘을 선택, 모델링 과정에서 사용되는 파라미터를 최적화해 나가는 단계, 모델링 단계를 통해 찾아낸 모델은 테스트용 프로세스와 데이터셋으로 평가하여 모델 과적합 등의 문제를 발견하고 대응 방안 마련, 데이터 분석 방법론, 머신러닝을 이용한 수행 모델을 만들거나 데이터를 분할하는 부분, 모델링 기법 선택, 모델링 작성, 모델 평가 (모델링 단계라는 것에 주의, 평가 단계 X)
5) 평가
: 모델링 단계에서 얻은 모델이 프젝의 목적에 부합하는지 평가, 데이터 마이닝 결과를 수용할 것인지 최종적으로 판단하는 과정으로 분석 결과 평가, 모델링 과정 평가, 모델 적용성 평가가 있음
6) 전개
: 완성된 모델을 실제 업무에 적용하기 위한 계획 수립, 전개계획 수립, 모니터링과 유지보수 계획 수립, 프젝 종료 보고서 작성, 프젝 리뷰
4. KDD와 CRISP-DM의 비교
KDD | CRISP-DM |
분석대상 비즈니스 이해 | 업무 이해 |
데이터셋 선택 | 데이터의 이해 |
데이터 전처리 | |
데이터 변환 | 데이터 준비 |
데이터 마이닝 | 모델링 |
데이터 마이닝 결과 평가 | 평가 |
데이터 마이닝 활용 | 전개 |
5. 빅데이터 분석 방법론
분석 기획 → 데이터 준비 → 데이터 분석 → 시스템 구현 → 평가 및 전개
1) 분석 기획
: 비즈니스 이해 및 범위 설정
→ 프젝 범위 설정에서는 구조화된 프로젝트 범위 정의서인 SOW(Statement of Work) 작성
: 프젝 정의 및 계획 수립
→ WBS(Work Breakdown Structure) 작업 분할 구조작성
: 프젝 위험 계획 수립
→ 위험에 대한 대응 방법으로 회피(Avoid), 전이(Transfer), 완화(Mitigate), 수용(Accept)
2) 데이터 준비
: 필요 데이터 정의
→ 데이터 정의와 법적인 문제점을 고려하여 상세한 데이터 획득 계획을 수립
: 데이터 스토어 설계
→ 정형/비정형 데이터 스토어 설계를 각각 함
: 데이터 수집 및 정합성(무결성) 점검
→ ETL(Extract Transformation Loading) 다양한 데이터를 취합해 데이터를 추출하고 하나의 공통된 포맷으로 변환해 데이터 웨어 하우스나 데이터 마트 등에 적재하는 과정을 지원하는 도구
→ API(Application Programming Interface) 라이브러리에 접근하기 위한 규칙들을 정의한 것
3) 데이터 분석
: 분석용 데이터 준비→ 텍스트 분석 → 탐색적 분석 → 모델링 → 모델 평가 및 검증
데이터 준비와 데이터 분석은 추가적인 데이터 확보가 필요한 경우 반복적인 피드백을 수행하는 구간
4) 시스템 구현
: 설계 및 구현, 시스템 테스트 및 운영
5) 평가 및 전개
: 모델 발전 계획, 프젝 평가 보고, 평가 및 전개
3절. 분석 과제 발굴
1. 분석 과제 도출 방법
1) 하향식 접근 방법
: 문제가 확실할 때 사용, 문제가 주어지고 해법을 찾기 위해 사용
2) 상향식 접근 방법
: 문제의 정의 자체가 어려운 경우 사용
3) 디자인 싱킹
: 중요한 의사결정시 상향식과 하향식을 반복적으로 사용, 기존의 논리적 단계별 접근법에 기반한 문제 해결 방식은 최근 복잡하고 다양하 ㄴ환경에서 발생하는 문제에 적합하지 않을 수 있음, '디자인 사고' 접근법을 통해 전통적인 분석적 사고를 극복하려 함, 상향식 방식의 발산 단계와 도출된 옵션을 분석하고 검증하는 하향식 접근 방식의 수렴 단계를 반복하여 과제를 발굴함
→ 상향식(Diverge, Create) | 하향식 (Converse, Make)
1) 하향식 접근 방식
단계 [1] Discovery 문제 탐색(비즈니스 모델기반 문제탐색, 외부 사례 기반 문제탐색 = 벤치마킹, 분석 유즈 케이스)
단계 [2] Definition 문제 정의 (데이터 분석 문제 변환)
단계 [3] Solution Search 해결방안탐색 (수행 옵션 도출)
단계 [4] Feasibility Study 타당성 검토 (타당성 평가, 과제 선정)
[1] 문제 탐색
비즈니스 모델 기반 문제 탐색
→ 비즈니스 모델 캔버스를 활용하여 가치가 창출될 문제를 누락없이 도출할 수 있음
→ 해당 기업의 사업 모델을 도식화한 비즈니스 모델 캔버스 블록을 단순화하여 업무, 제품, 고객 단위로 문제를 발굴하고 이를 관리하는 지원 인프라, 규제와 감사 영역에 대한 기회를 추가로 도출하는 작업 수행
→ 5가지 영역 : 업무, 제품, 고객, 지원 인프라, 규제와 감시
분석 기회 발굴의 범위 확장
→ 거시적 관심의 요인 (STEEP): 사회, 기술, 경제, 환경, 정치
→ 경쟁자 확대 관점: 대체재 영역, 경쟁자 영역, 신규진입자 영역
→ 시장의 니즈 탐색: 고객(소비자)영역, 채널 영역, 영향자들의 영역
→ 역량의 재해석 관점: 내부역량 영역, 파트너 네트워크 영역
외부참조 모델기반 문제탐색
→ 유사/동종 사례 벤치마킹을 통한 분석 기회 발굴
→ 제공되는 산업별, 업무 서비스별 분석 테마 후보 그룹을 통해 Quick & Easy 방식으로 필요한 분석 기회가 무엇인지에 대한 아이디어를 얻고, 기업에 적용할 분석 테마 후보 목록을 빠르게 도출
분석 유즈 케이스
→ 풀어야 할 문제에 대한 상세 설명 및 해당 문제를 해결했을 때 발생하는 효과를 명시
→ 향후 데이터 분석 문제로의 전환 및 적합성 평가에 활용
[2] 문제 정의
→ 달성을 위해 필요한 데이터 및 기법을 정의하기 위한 데이터 분석 문제로 변환을 수행
→ 데이터 분석 문제가 잘 정의되었을 때 필요한 데이터의 정의 및 기법 발굴이 용이하기 때문에 가능한 정확하게 분석의 관점으로 문제를 재정의할 필요가 있음!
[3] 해결방안 탐색
→ 데이터 및 분석 시스템에 따라 소요되는 예산 및 활용 가능 도구가 다름
→ 과제를 해결하는 방안에 대해 사전 검토를 수행
분석역량 (Who) | |||
분석 기법 및 시스템(How) | 확보 | 미확보 | |
기존 시스템 | 기존 시스템 개선 활용 | 교육 및 채용을 통한 역량 확보 | |
신규 도입 | 시스템 고도화 | 전문 업체 Sourcing |
[4] 타당성 검토 단계
→ 경제적 타당성: 비용대비 편익 분석 관점의 접근이 필요
→ 데이터 및 기술적 타당성: 데이터 존재 여부, 분석 시스템 환경, 분석 역량이 필요
2) 상향식 접근 방식
→ 문제의 정의 자체가 어려운 경우
→ 지속적으로 개선하는 방식, 반복적인 시행착오
→ 상향식 접근 방식의 데이터 분석은 비지도 학습 방법에 의해 수행
→ 디자인 싱킹의 발산 단계에 해달
지도 학습 (Supervised Learning) → 분류분석 | 명확한 input, output이 존재 예측(Regression 데이터 대표하는 선형 모델 만들고 그 모델을 통해 미래의 사건 예측) 분류(Classification 이전까지 학습된 데이터를 근거로 새로운 데이터가 기존 학습된 데이터에 분류 여부) |
비지도 학습 (Unsupervised Learning) → 군집분석 | 컴퓨터가 알아서 분류 후 의미 있는 값을 보여줌 데이터가 어떻게 구성되어 있는지 밝히는 용도로 사용, 군집화 |
시행착오를 통한 문제 해결
→ 프로토타이핑 접근법은 반복적으로 개선해 나가는 방법을 말함
→ 기본적인 프로세스
: 가설의 생성 → 디자인에 대한 실험 → 실제 환경에서의 테스트 → 테스트 결과에서의 통찰도출 및 가설 확인
→ 빅데이터 분석 환경에서의 프로토타이핑의 필요성?
: 문제에 대한 인식 수준 - 문제 정의가 불명확한 경우 프로토타입을 이용해 문제를 이해하고 구체화
: 필요 데이터 존재 여부의 불확실성 - 사용자와 분석사 간의 반복적이고 순환적인 협의 과정이 필요, 리스트 방지
: 데이터 사용 목적의 가변성 - 기존의 데이터 정의를 재검토하여 데이터의 사용 목적과 범위를 확대
분석과제 정의
→ 분석과제 정의서를 통해 분석별로 필요한 소스 데이터, 분석방법, 데이터 입수 및 분석의 난이도, 분석 수행주기, 분석결과에 대한 검증 오너십, 상세 분석 과정 들을 정의함
→ 분석 데이터 소스는 내/외부의 비구조적인 데이터와 소셜 미디어 및 오픈 데이터까지 범위를 확장하여 고려하고 분석방법 또한 상세하게 정의함
4절. 분석 프로젝트 관리 방안
1. 분석과제 관리를 위한 5가지 주요 영역
→ 범위, 일정, 품질, 리스트, 의사소통 등 영역별 관리가 수행되어야 함
영역 | 내용 |
Data Size | 분석하고자 하는 데이터의 양을 고려하는 관리방안 수립 필요 |
Data Complexity | 비정형데이터 및 다양한 시스템에 산재되어 있는 데이터를 통합해서 분석 프로젝트를 진행할 때, 해당 데이터에 잘 적용될 수 있는 분석 모델 선정에 대한 고려 필요 |
Speed | 분석 결과 도출 후 활용하는 시나리오 측면에서 일, 주 단위 실적은 배치형태 작업, 사기 탐지, 서비스 추천은 실시간 수행되어야 함 분석 모델의 성능 및 속도를 고려한 개발 및 테스트가 수행되어야 함 |
Analytic Complexity | 정확도와 복잡도는 트레이드 오프 관계가 존재 분석 모델이 복잡할수록 정확도는 올라가지만 해석이 어려워짐 기준점을 사전에 정의하는 것이 필요 |
Auccuracy & Precision | Accuracy : 분석의 활용적인 측면 (모델과 실제 값의 차이) Precision : 분석의 안정성 측면 (모델을 반복했을 때의 편차) 위 둘은 트레이드 오프인 경우가 많음 모델의 해석 및 적용 시 사전에 고려해야 함 |
2. 분석 프로젝트의 특성
→ 데이터 영역과 비즈니스 영역에 대한 이해뿐만 아니라 지속적인 반복이 요구되는 분석 프로세스의 특성을 이해한 프로젝트 관리방안을 수립하는 것이 중요함
→ 분석 과제정의서를 기반으로 프로젝트를 시작하되 지속적인 개선 및 변경을 염두에 두고 기간 내 가능한 최선의 결과를 도출할 수 있도록 하는 것
3. 분석 프로젝트의 관리방안
→ 10개 주제별 프로젝트 관리 체계 : 제목 정도만 알아두기!
범위, 시간, 원가(Cost), 품질, 통합(Integration), 조달(Procurement), 자원, 리스크, 의사소통, 이해관계자(Stakeholder)
2장. 분석 마스터 플랜
1절. 마스터 플랜 수립 프레임 워크
1. 분석 마스터 플랜 수립 프레임 워크
마스터 플랜 수립 개요
- 중장기적 마스터 플랜 수립을 위해서는 분석 과제를 대상으로 다양한 기준을 고려해 적용할 우선순위를 설정할 필요
- 분석 과제 수행의 전/후행 관계를 고려하여 우선순위를 조정
- 분석 과제의 적용 범위 및 방식에 대해서도 종합적으로 고려하여 결정
분석 과제 | → | 우선 순위 고려 요소 | → | 적용 우선 순위 결정 | 적용 범위/방식 고려 요소 | → | 분석 구현 로드맵 수립 |
전략적 중요도 ROI(투자자본수익률) 실행 용이성 |
업무 내재화 적용 수준 분석 데이터 적용 수준 기술 적용 수준 |
수행 과제 도출 및 우선 순위 평가
1) 평가 방법 및 절차
분석과제 도출
→ 우선순위 평가(과제 우선순위 기준 수립)
→ 우선순위 정련(분석 과제 수행의 선/후 관계 분석을 통해 순위 조정)
2) ROI 관점에서 빅데이터의 핵심 특징
Volume 크기 | 데이터 크기/양 | 투자비용 요소 |
Variety 다양성 | 데이터 종류/유형 | |
Velocity 속도 | 데이터 생성속도/처리속도 | |
Value 가치 | 분석 결과 활용 및 실행을 통한 비즈니스 가치 | 비즈니스 효과 요소 |
3) 포트폴리오 사분면 분석을 통한 과제 우선순위 선정 (전체적으로 알아두기!)
→ 시급성 판단 기준: 전략적 중요도 및 목표 가치
→ 난이도는 현 시점에서 과제를 추진하는 것이 분석 비용과 적용 범위 측면에서 쉬운 것인지 어려운 것인지 판단 기준
→ 시급성이 높고 난이도가 높은 영역(1사분면)은 경영진 또는 실무 담당자의 의사결정에 따라 적용 우선순위 조정 가능
→ 우선순위를 '시급성'에 둔다면 III → IV → II 영역 순서
→ 우선순위를 '난이도'에 둔다면 III → I → II 영역 순서
→ 사분면 영역에서 가장 우선적인 분석 과제 적용이 필요한 영역은 3사분면
이행계획 수립
1) 로드맵 수립
: 결정된 과제의 우선순위를 토대로 분석 과제별 적용 범위 및 방식을 고려하여 최종적인 실행 우선순위를 결정 후 단계적 구현 로드맵 수립
2) 세부 이행계획 수립
: 반복적인 정렬 과정을 통해 프로젝트의 완성도를 높이는 방식을 주로 사용
: 모든 단계를 반복하기 보다는 데이터 수집 및 확보와 분석 데이터를 준비하는 단계를 순차적 진행하고 모델링 단계는 반복적으로 수행하는 혼합형을 많이 적용
2절. 분석 거버넌스 체계 수립
1. 거버넌스 체계
→ 거버넌스? government와 같은 어원에서 진화하여 기업, 비영리 기관 등에서 규칙, 규범 및 행동이 구조화, 유지, 규제되고 책임을 지는 방식 및 프로세스를 지칭
→ 분석 거버넌스? 기업에서 데이터가 어떻게 관리, 유지, 규제되는지에 대한 내부적인 관리 방식이나 프로세스
→ 데이터 거버넌스?
: 데이터의 품질 보장, 프라이버시 보호, 데이터 수명 관리, 전담조직과 규정정립, 데이터 소유권과 관리권 명확화 등을 통해 데이터가 적시에 필요한 사람에게 제공되도록 체계를 확립하는 것
: 데이터 거버넌스가 확립되지 못하면 빅브라더의 우려가 현실화될 가능성이 높음
: 빅브라더란? 정보의 독점으로 사회를 통제하는 관리 권력 혹은 그러한 사회체계
분석 거버넌스 체계 구성 요소 (분석 비용 및 예산 없음!)
Process | 과제 기획/운영 프로세스 |
Organizaition | 분석 기획/관리 및 추진 조직 |
System | IT 기술/프로그램 |
Human Resource | 분석 교육 |
Data | 데이터 거버넌스 |
2. 데이터 분석 수준 진단
→ 데이터 분석 기법을 구현하기 위해 무엇을 준비하고 보완해야 하는지 등 분석의 유형 및 분석의 방향성 결정
→ 분석 준비도와 분석 성숙도를 함께 평가함으로써 수행될 수 있음
? 분석 준비도
: 분석 업무 파악, 인력 및 조직, 분석 기법, 분석 데이터, 분석 문화, IT 인프라
? 분석 성숙도
: 비즈니스 부문, 조직/역량 부문, IT부문을 대상으로 도입단계, 활용단계, 확산단계, 최적화 단계로 구분해 살펴볼 수 있음
⇒ 두 부분 모두 내용이 많으므로, 그냥 아 이렇구나~ 이해하고 넘어가도 됨 한 문제임 암기 스트레스 X
+ CMMI(Capability Maturity Model Integration) 능력 성숙도 통합 모델
: 소프트웨어 개발 및 전산장비 운영 업체들의 업무 능력 및 조직의 성숙도를 평가하기 위한 모델
분석 수준 진단 결과; 사분면 분석
⇒ 분석 수준 진단 결과를 구분하여 향후 고려해야 하는 데이터 분석 수준에 대한 목표 방향을 정의하고 유형별 특성에 따라 개선 방안을 수립
→ 오른쪽으로 갈수록 높은 준비도, 위로 올라갈수록 높은 성숙도
정착형 | 확산형 |
준비도는 낮으나 기업 내부에서 제한적으로 사용하고 있어 1차적으로 정착이 필요한 기업 | 기업에 필요한 6가지 분석 구성요소를 갖추고 있고, 부분적으로도 도입되어 지속적 확산이 필요한 기업 |
준비형 | 도입형 |
기업에 필요한 데이터, 인력, 조직 분석 업무 등이 적용되어 있지 않아 사전 준비가 필요한 기업 | 기업에서 활용하는 분석 업무, 기법 등은 부족하지만 적용 조직 등 준비도가 높아 바로 도입할 수 있는 기업 |
3. 분석지원 인프라 방안 수립
장기적, 안정적으로 활용할 수 있는 확장성을 고려한 플랫폼 구조를 도입하는 것이 적절함
광의의 분석 플랫폼 (전체, 넓은 의미) | 분석 서비스 제공 엔진 |
분석 어플리케이션 | |
분석 서비스 제공 API | |
협의의 분석 플랫폼 | 데이터처리 프레임워크 |
분석 엔진, 분석 라이브러리 | |
운영체제 | |
하드웨어 |
4. 데이터 거버넌스 체계 수립 (중요!)
데이터 거버넌스 체계 요소 (제목과 내용 전부 알고 있어야)
데이터 표준화 | 데이터 표준용어 설정, 명명규칙 수립, 메타 데이터 구축, 데이터 사전 구축 |
데이터 관리체계 | 메타데이터와 데이터 사전의 관리 원칙 수립 |
데이터 저장소 관리 | 메타데이터 및 표준데이터를 관리하기 위한 전사 차원의 저장소를 구성 |
표준화 활동 | 데이터 거버넌스 체계 구출 후, 표준 준수 여부를 주기적으로 점검, 모니터링 |
데이터 거버넌스의 데이터 저장소 관리
→ 메타데이터 및 표준 데이터를 관리하기 위한 전사 차원의 저장소를 구성
→ 저장소는 데이터 관리 체계 지원을 위한 워크프로우 및 관리용 응용 소프트웨어를 지원하고 관리 대상 시스템과의 인터페이스를 통한 통제가 이루어져야 함
→ 데이터 구조 변경에 따른 사전영향평가도 수행되어야 효율적인 활용이 가능
데이터 거버넌스 구성요소 3가지
원칙 | 데이터를 유지 관리하기 위한 지침과 가이드 및 보안, 품질기준, 변경관리 |
조직 | 데이터를 관리할 조직의 역할과 책임 및 데이터 관리자, 데이터 아키텍트 |
프로세스 | 데이터 관리를 위한 활동과 체계 및 작업 절차, 모니터링 활동 |
5. 데이터 조직 및 인력방안 수립
1) 집중형 조직 구조
: 조직 내 별도의 독립적인 분석 전담 조직 구성
: 분석 전담 조직에서 회사의 모든 분석 업무를 담당
: 일부 협업 부서와 분석 업무가 중복 또는 이원화될 가능성이 있음
2) 기능중심 조직 구조
: 별도로 분석 조직을 구성하지 않고 각 해당 업무부서에서 직접 분석하는 형태
: 일반적인 분석 수행 구조, 전사적 핵심 분석이 어려움
3) 분산 조직 구조
: 조직의 인력들이 협업 부서에 배치 되어 신속한 업무에 적합
: 전사 차원의 우선순위 수행, 부서 분석 업무와 역할 분담 명확히
6. 분석 과제 관리 프로세스 수립
과제 발굴 | 분석 아이디어 발굴, 분석 과제 후보 제안, 분석 과제 확정 |
과제 수행 | 팀 구성, 분석 과제 실행, 분석 과제 진행 관리, 결과 공유/ 개선 |
7. 분석 교육 및 변화관리
→ 예전에는 기업 내 데이터 분석가가 담당했던 일을 모든 구성원이 데이터를 분석하고 이를 바로 업무에 활용할 수 있도록 조직 전반에 분석 문화를 정착시키고 변화시키려는 시도
→ 분석 조직 및 인력에 대한 지속적인 교육과 훈련이 필요함
+ 빅데이터 거버넌스 특징
→ 기업이 가진 과거 및 현재의 모든 데이터를 분석하여 비즈니스 인사이트를 찾는 노력은 비용면에서 효율X
→ 분석 대상 및 목적을 명확히 정의하고, 필요한 데이터를 수집/분석하여 점진적으로 확대해 나가는 것이 좋음
→ 빅데이터 분석에서 품질관리도 중요하지만, 데이터 수명주기 관리 방안을 수립하지 않으면 데이터 가용성 및 관리 비용 중대 문제에 직면할 수 있음
→ ERD는 운영 중인 데이터베이스와 일치하기 위해 계속해서 변경사항을 관리해야 함
→ 산업 분야별, 데이터 유형별, 정보 거버넌스 요소별로 구분하여 작성
→ 적합한 분석 업무를 도출하고 가치를 높여줄 수 있도록 분석 조직 및 인력에 대해 지속적인 교육과 훈련을 실시
→ 개인정보보호 및 보안에 대한 방안 마련해야 함
+ 관련 용어
Servitization | 제조업과 서비스업의 융햡을 나타내는 용어, 예) 웅진 코웨이의 코디 |
CoE (Center of Excellence) | 구성원들이 비즈니스 역량, IT 역량 및 분석 역량을 고루 갖추어야 하며, 협업부서 및 IT 부서와의 지속적인커뮤니케이션을 구생하는 조직 내 분석 전문조직을 말함 |
ISP (정보전략계획) | 기업의 경영 목표 달성에 필요한 전략적 주요 정보를 포착하고, 주요 정보를 지원하기 위해 전사적 관점의 정보 구조를 도출하며, 이를 수행하기 위한 전략 및 실행 계획을 수립하는 전사적인 종합추진 계획 |
Sandbox | 보안모델, 외부 접근 및 영향을 차단하여 제한된 영역 내에서만 프로그램을 동작시키는 것 |
[출처] ADsP 민트책
[출처] EduAtoZ - Programming https://www.youtube.com/c/EduAtoZPython
'2022 하계 모각코 캠프 (ADsP)' 카테고리의 다른 글
[모각코] 8/6 3과목 3장 실전 문제 풀기 - 오답노트 (0) | 2022.08.07 |
---|---|
[모각코] 8/3 Day 12~14 (3과목) (0) | 2022.08.03 |
[모각코] 7/30 2과목 실전 문제 풀기 (0) | 2022.07.31 |
[모각코] 7/27 데이터 분석(3과목) + 스몰토크 (0) | 2022.07.28 |
[모각코] 7/20 첫 만남, 앞으로의 계획 그리고 우리 (0) | 2022.07.21 |