일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- IBK기업은행 인턴
- 비둘기과
- 흰날개해오라기
- 딱다구리과
- 한국의새
- 참새과
- structured_array
- ADsP
- django
- 딥러닝공부
- 가마우지과
- 참새목
- Python
- 생일문제
- python3
- 직박구리과
- 한국의 새
- AI역량평가
- 오리과
- Birthday paradox
- 딥러닝 공부
- SimpleCraft
- 비둘기목
- AI전략게임
- 백로과
- keras
- 기러기목
- 계수정렬
- 솔딱새과
- 맑은소리 스피치학원
- Today
- Total
목록프로그래밍/ADsP (10)
진박사의 일상
정형 데이터 마이닝 1. 데이터마이닝 1) 개요 대용량 데이터에서 의미있는 패턴을 파악하거나 예측하여 의사결정에 활용하는 방법. 통계분석과 달리 수리 알고리즘을 이용해 데이터로부터 의미있는 정보를 찾아내는 방법의 통칭. 2) 종류 (1) 분류(Classification) : 새롭게 나타난 현상을 검토해 기존의 분류, 정의된 집합에 배정하는 것. 의사결정나무, memory-based reasoning 등이 있다. (2) 추정(Estimation) : 연속된 변수의 값을 추정하는데 사용. 신경망 모형 등이 있다. (3) 예측(Prediction) : 미래의 양상을 예측하거나 값을 추정함.(분류나 추정과 동일) 입력 데이터 성격에 따라 장바구니 분석, 의사결정나무, 신경망 등이 사용 (4) 연관분석(Assoc..
통계 분석의 이해 1. 통계 - 특정 집단을 대상으로 수행한 조사나 실험을 통해 나온 결과에 대한 요약된 형태의 표현. 2. 통계자료 획득 방법 -1)총조사/전수조사 : 모두 조사 / 비용+시간 많이 소모 특별한 경우에만 사용 -2) 표본조사 : 모집단의 샘플을 추출해서 진행. 모집단(대상 집단 전체), 원소(모집단 구성 개체), 표본(추출한 모집단의 일부 원소), 모수(모집단에 대한 정보). 모집단 정의, 표본 크기, 조사 방법, 조사 기간, 표본 추출 방법 명시 3. 표본 추출 방법 4가지(N개의 모집단에서 nr개 추출) (**) -1)단순랜덤 추출법 - 임의의 n개 추출, 선택될 확률 동일. (복원, 비복원 추출) -2) 계통 추출법 - K(=N/n)개의 구간으로 나누고 구간별 마지막 항목을 선택하..
데이터 마트 1. 데이터마트(DM) : 데이터웨어하우스(DW)와 사용자 사이의 중간층에 위치한 것으로 하나의 주제나 부서 중심의 DW. 대부분은 DW로부터 복제되지만 자체 수집할수도 있으며 관계형 DB나 다차원 DB를 이용해 구축. CRM 관련 업무 중에서 가장 핵심(고객 데이터 마트 구축) 2. 요약변수 : 수집된 정보를 분석에 맞게 종합한 변수, DM의 가장 기본 변수로 총구매 금액, 금액, 횟수, 구매여부 등 데이터 분석을 위해 만들어지는 변수. 많은 모델에 공통으로 사용될 수 있어 재활용성이 높다. 자동화프로그램 구축 가능. 단점은 기준값의 의미 해석이 애매할 수 있다. 이럴땐 연속형 변수를 그루핑해서 사용. 예)기간별 구매 금액, 횟수 여수, 위클리 쇼퍼, 상품별 구매금액, 회수 여수, 상품별 ..
데이터 분석 개요 1. 데이터 처리 개요 - 통계에 기반을 두지만 통계 지식과 가정이 적은 실용적 분야 활용 - DW나 DM을 통해 분석 데이터를 가져와 사용 / 신규 시스템이나 DW에 포함되지 못한 자료의 경우 기존 운영시스템(Legacy)나 스테이징 영역(Staging area)와 ODS(Operational Data Store)에서 데이터를 가져와 DW에서 가져온 내용과 결합하여 활용 / 직접 접근은 위험, 클린징 영역인 ODS에서 데이터 전처리를 해서 DW나 DM과 결합 최종 데이터 구조로 가공 - (1)데이터 마이닝 분류(분류값과 입력 변수 연관해 인구통계, 용약변수, 파생변수 등 산출) (2) 정형화된 패턴 처리(비정형데이터-DBMS에 저장했다가 텍스트 마이닝을 거쳐 DM과 통합 / 관계형 데..
분석 과제 발굴 2. 상향식 접근법(***) (1)다양한 원천 데이터를 대상으로 분석을 수행하여 모든 문제를 도출하는 일련의 과정 문제의 정의 자체가 어려운 경우 데이터 기반 문제 재정의 및 해결 방안을 탐색, 지속적으로 개선하는 방향. 일반적으로 비지도헉습 방법으로 수행 [빅데이터 -> 분석 -> 문제(가치)] (2)하향식 vs 상향식 -하향식 : 문제 구조 분명하게 분석가에게 주어진 경우 유용 (정형데이터) -상향식 : 복잡하고 다양한 환경에서 발생하는 문제 경우, 디자인사고 접근법 고려(빅데이터-비정형데이터) (3)디자인사고(Design Thinking) - 분석적사고(연역적, 귀납적 추리로 분석 -> 이미 시도되고 검증된 것 철저히 고집)와 직관적 사고(문제에 기반을 두지 않고 직감을 중시 -> ..
분석 방법론 1. 분석방법론 개요 - 데이터분석이 효과적으로 기업 내에 정착하기 위해 이를 체계화한 절차와 방법이 정리된 데이터 분석 방법론의 수립이 필수적, 계층적 프로세스 모델의 형태로 구성, 경험과 감 -> 데이터 기반 의사결정->(게임이론) 2. 방법론 구성(*) - 상세한 절차(Procedures), 방법(Methods), 도구와 기법(Tool&Techniques), 템플릿과 산출물(Templates&Outputs)로 구성 -단계(Phase) : 최상위 계층, 프로세스 그룹을 통해 단계별 산출물 생성 -태스크(Task) : 단계를 구성하는 단위 활동, 물리적/논리적 단위로 품질 검토의 항목 -스탭(Step) : 입력자료, 처리 및 도구, 출력자료로 구성된 단위 프로세스 3. 기업의 합리적 의사결..