진박사의 일상

[TIL] 21.08.03 - ADsP 공부 본문

프로그래밍/ADsP

[TIL] 21.08.03 - ADsP 공부

진박사. 2021. 8. 3. 23:49

분석 방법론

 

1. 분석방법론 개요 - 데이터분석이 효과적으로 기업 내에 정착하기 위해 이를 체계화한 절차와 방법이 정리된 데이터 분석 방법론의 수립이 필수적, 계층적 프로세스 모델의 형태로 구성, 경험과 감 -> 데이터 기반 의사결정->(게임이론)

2. 방법론 구성(*) - 상세한 절차(Procedures), 방법(Methods), 도구와 기법(Tool&Techniques), 템플릿과 산출물(Templates&Outputs)로 구성

-단계(Phase) : 최상위 계층, 프로세스 그룹을 통해 단계별 산출물 생성

-태스크(Task) : 단계를 구성하는 단위 활동, 물리적/논리적 단위로 품질 검토의 항목

-스탭(Step) : 입력자료, 처리 및 도구, 출력자료로 구성된 단위 프로세스

3. 기업의 합리적 의사결정 방해요소(*) - 고정관념(Stereotype), 편향된 생각(Bias), 프레이밍효과(Framig Effect) : 문제의 표현 방식에 따라 동일한 사건이나 상황임에도 개인의 판단이나 선택이 달라질 수 있는 현상

4. 방법론의 생성과정 : 암묵지 ->형식화-> 형식지 ->체계화-> 방법론 ->내재화-> 암묵지

5. 방법론 적용 업무의 특성에 따른 모델

-(1) 폭포수 모델 : 순차 진행

-(2) 프로토타입 모델 : 점진적 시스템 개발, 고객 요구 완전히 이해X 완벽한 요구 분석 어려움 해결

-(3) 나선형 모델 : 반복을 통해 점층적 개발, 처음 시도하는 프로젝트 적용에 용이, 관리체계 효과적으로 갖추지 못하면 복잡도 상승

-(4) 애자일 모델

 

KDD 분석 방법론(**)

1. 데이터 마이닝 - 대규모 저장된 데이터에서 체계적이고 자동적으로 통계적 규칙, 패턴 찾기/ 적용 분야 - 분류, 군집화, 연관성, 연속성, 예측

2. KDD(Knowledge Discovery in Database) : 프로파일링 기술을 기반으로 데이터로부터 통계적 패턴이나 지식을 찾기 위해 체계적으로 정리한 데이터 마이닝 프로세스

3. 분석 절차

-(1) 데이터셋 선택(Selection) : 목표데이터를 구성해 분석에 활용

-(2) 데이터 전처리(Preprocessing) : 데이터 셋에 포함된 잡음(Noise), 이상치(Outlier), 결측치(Missing Value)를 식별, 필요시 제거하여 의미있는 데이터로 재처리하여 정제하는 단계

-(3) 데이터 변환(Transformation) : 효율적으로 마이닝할 수 있도록 변경, 차원 축소, 학습 데이터와 검증 데이터를 분리

-(4) 데이터 마이닝 : 데이터마이닝 기법을 선택하고 적절한 알고리즘 적용해 작업 실행. 전처리와 변환을 추가로 실행해 최적화

- (5) 결과 평가 - 마이닝 결과에 대한 해석과 평가, 분석 목적과 일치성

 

CRISP-DM 분석 방법론(**)

1. 개요 - 일반적 접근 방식 설명을 하는 열린 표준 과정 모델, 계층적 프로세스 모델로 4개 레벨로 구성.

2. CRSP-DM 4레벨 구조

단계(여러 단계로 구성), 일반화 태스크(데이터마이닝의 단일 프로세스를 완전하게 수행하는 단위), 세분화 태스크(일반화 태스크를 다시 구체적인 수행 레벨의 세분화 태스크로 구성), 프로세스 실행

3. 분석 절차

-(1) 업무 이해(Business Understanding) : 비즈니스 관점에서 프로젝트 목적과 요구사항을 이해하기 위한 단계. 도메인 지식 -> 데이터분석을 위한 문제 정의로 변경, 초기 계획수립. / 업무목적 파악, 목표 설정, 계획 수립

-(2) 데이터 이해(Data Understanding) : 분석을 위한 데이터를 수집, 속성을 이해 / 초기 데이터 수집, 데이터 기술분석, 탐색, 품질확인

-(3) 데이터 준비(Data Preparation) : 분석을 위해 수집 데이터에서 분석기법에 적합한 데이터를 편성 / 분석용 데이터셋 선택, 데이터 정제, 통합, 포매팅

-(4) 모델링(Modeling) : 모델링 기법과 알고리즘을 선택하고 파라미터 최적화 / 모델링 기법 선택, 모델 테스트 계획 설계, 평가 / 모델과적합(Overfitting) : 모집단에 없는 훈련 데이터만의 특징까지 학습해버리는 현상

-(5) 평가(Evaluation) : 프로젝트 목적에 부합하는 지 평가하는 단계, 결과를 수용할지 판단 / 분석결과 평가, 모델링 과정 평가, 적용성 평가

-(6) 전개(Deployment) : 모델링과 평가 단계를 통해 완성된 모델을 업무에 적용시키기 위한 계획 수립 단계 / 전개 계획 수립, 모니터링+유지보수 계획 수립

 

업무 이해 <=> 데이터 이해 -> 데이터 준비 <=> 모델링 -> 평가 O -> 전개

^복귀 ----------------------------------------------------------평가X┘

 

*KDD와 CRISP-DM 비교

KDD의 데이터셋 선택, 전처리 = CRISP-DM의 데이터 이해

KDD의 데이터 변환 = CRISP-DM의 데이터 준비

KDD의 데이터 마이닝 = CRISP-DM의 모델링

KDD의 데이터 마이닝 결과 평가 = CRISP-DM의 평가

KDD의 데이터 마이닝 활용 = CRISP-DM의 전개

 

 

빅데이터 분석 방법론(*)

1. 프로세스 - 단계, 태스크, 스탭

2. 분석 절차

-(1) 분석 기획 - 비즈니스 이해 및 범위 설정(프로젝트 범위 정의서 SOW 작성), 프로젝트 정의 및 계획 수립(목표 및 KPI(핵심성과지표), 목표 수준 등을 구체화, 상세 프로젝트 정의서 작성/ WBS(작업 분할 구조도) ), 프로젝트 위험 계획 수립(예상되는 위험에 대한 대응은 회피, 전이 완화, 수용으로 구분하여 위험관리 계획서 작성) 

-(2) 데이터 준비 - 필요 데이터 정의(메타데이터 정의서, ERD 등 작성) , 데이터 스토어 설계(정형 데이터 스토어-RDBMS, 데이터매핑, 비정형 데이터 스토어 - 하둡,NoSQL 등), 데이터 수집 및 적합성 점검(ETL(다양한 원천 데이터 취합->공통 포맷 변환 -> DW, DM에 저장))

-(3) 데이터 분석 - 분석용 데이터 준비, 텍스트 분석, 탐색적 분석(EDA), 모델링(데이터 분할, 데이터 모델링, 모델 적용 및 운영 방안), 모델 평가 및 검증

-(4) 시스템 구현 - 설계 및 구현, 시스템 테스트 및 운영

-(5) 평가 및 전개 - 모델 발전 계획, 프로젝트 평가 보고, 평가 및 전개

3. 분석 기법 - 분석 기술(분할 점령, 아파치 하둡, 텍스트 마이닝, 오피니언 마이닝, 소셜 네트워크 분석, 군집 분석) & 표현 기술 - 분석된 데이터의 의미와 가치를 시각적으로 표현하기 위한 기술 (ex R Python)

 

분석 과제 발굴 방법론

1. 정의 - 하향식 접근 방법이나 상향식 접근 방법 이용해 다양한 문제를 데이터 분석 문제로 변환하여 관계자들이 이해하고 프로젝트를 수행할 수 있는 형태로 도출 하는 이론

2. 하향식 접근법(Top Down Approach)(***) - 현황 분석 or 문제점, 전략으로부터 기회나 문제를 탐색 -> 데이터 문제로 정의 -> 해결방안 탐색 -> 분석의 타당성 평가 -> 분석 과제 도출

(1)문제 탐색 (비즈니스 모델 기반 문제 탐색 + 외부 사례 기반 문제 탐색) -> (2) 데이터 분석 문제 변환 -> (3) 수행 옵션 도출 -> (4)타당성 평가-> 과제선정

2-1. 문제 탐색

-(1) 비즈니스 모델 기반 문제 탐색 - 비즈니스 모델 캔버스 9가지 블록 단순화 하여 업무, 제품, 고객 단위로 문제 발굴 + 이를 관리하는 두가지 영역인 규제/감사 영역과 지원 인프라 영역에 대한 기회 추가로 도출

-(2) 분석 기회 발굴의 범위 확장(**)

--1) 거시적 관점의 요인 - STEEP(사회, 기술, 경제, 환경, 정치)으로 나눠서 기획 탐색

--2) 경쟁자 확대 관점 - 사업 영역의 직접 경쟁 / 대체재 / 신규 진입자 등의 영역의 위협을 분석 발굴의 기회로 탐색

--3) 시장의 니즈 탐색 - 고객 영역과 고객 접촉 채널 영역 및 영향자의 영역 관점 바탕 분석 기회 탐색

--4) 역량의 재해석 관점 - 내부 역량 뿐 아니라 파트너 네트워크 영역 포함 역량 분석 기회 탐색

-(3) 외부사례 모델 기반 문제 탐색(=벤치마킹) - 유사 동종 사례 벤치마킹을 통한 분석, 브레인 스토밍으로 빠르게 도출

-(4) 분석 유스케이스 - 문제에 대한 상세한 설명 및 해결했을 때 생길 효과 명시 -> 데이터 분석 문제 전환 및 적합성 평가에 활용

2-2. 문제 정의(**) - 식별된 비즈니스 문제를 데이터 분서 문제로 변환하여 정의하는 단계 (ex. 구매자 감소 -> 구매자 감소에 미치는 요인 찾아 구매자 수 예측)

2-3. 해결 방안 탐색 - 정의된 데이터 분석 문제를 해결하기 위한 다양한 방안 탐색, 기존 정보 시스템의 단순한 보완으로 분석이 가능한지 고려 ->(힘들면) 교육 및 채용을 통해 확보/전문 업체를 통해서 과제 해결

2-4. 타당성 검토 - 도출된 분석 문제나 가설에 대한 대안을 과제화 하기 위해서 다각적인 타당성 분석 수행

-(1) 경제적 타당성 : 비용(데이터, 시스템, 인력, 유지보수) 대비 편익(실질적 비용 절감, 추가적 매출, 수익) 분석 관점

-(2) 데이터 타당성/기술적 타당성 : 데이터 존재 여부, 분석 시스템 환경 / 역량 확보 방안을 사전에 수립하고 효과적 평가

 

 

'프로그래밍 > ADsP' 카테고리의 다른 글

ADsP 3과목 - 1  (0) 2021.08.08
ADsP 2과목 정리(마지막)  (0) 2021.08.06
[TIL] 2021.08.01 ADsP 2과목  (0) 2021.08.03
[TIL] 2021.07.23 ADsP 공부  (0) 2021.07.23
[TIL] 2021.07.22 ADsP 공부  (0) 2021.07.22