진박사의 일상

[TIL] 2021.07.22 ADsP 공부 본문

프로그래밍/ADsP

[TIL] 2021.07.22 ADsP 공부

진박사. 2021. 7. 22. 21:58

[ADsP]

 

빅데이터의 이해

1. 정의

좁은 의미 : 가트너 그룹의 더그 래니의 3V - 데이터의 양(Volumn), 데이터의 다양성(Variety), 추출 및 분석 속도(Velocity)

중간 의미 : 데이터 + 처리, 분석 기술적 변화

넓은 의미 : 인재, 조직 변화까지 포함

 

2. 빅데이터 출현 배경

(1) 산업계 : 고객 데이터를 축적하여  보유 데이터에 숨어있는 가치를 발굴하여 새로운 성장 동력원으로 삼음

(2) 학계 : 거대 데이터를 다루는 학문 분야의 확산

(3) 기술 발전 : 디지털화, 저장 기술의 발달, 인터넷 보급, 모바일 혁명, 클라우드 컴퓨팅 등

(※ 데이터 단위 : 1TB(테라바이트) = 1024GB, 1PB(페타바이트) = 1024TB, 1EB(엑사바이트) = 1024TB, 1ZB(제타바이트) = 1024EB)

 

3. 빅데이터의 기능(***기출)

(1) 사전처리 -> 사후처리 : 필요한 정보만 수집하는 형태(Pre-processing)에서 가능한 다양한 많은 데이터를 모으고 데이터를 다양한 방식으로 조합해 주요한 정보를 찾는 형태(Post-processing)

(2) 표본조사 -> 전수조사 : 표본을 조사하여 모집단을 추정하는 형태(표본조사)에서 얻지 못하는 패턴이나 정보를 주는 전수조사의 형태로 변화

(3) 질 -> 양 : 데이터가 추가될 경우 양질의 정보가 오류 정보보다 많아져서 좋은 결과가 도출됨

(4) 인과관계 -> 상관관계 :  원인에 의한 결과가 나타나는 관계인 인과관계를 찾는 모델(비쌈)에서 인과 관계를 몰라도 되는 상관관계를 통하여 특정 현실에 대한 분석

 

4. 빅데이터의 가치 산정 어려운 이유(**기출)

(1) 데이터 활용 방식 : 데이터의 활용 방식이 재사용, 재목적, 다목적용 데이터 개발등이 일반화 되어서 어떻게 활용했는지 알 수 없어짐.

(2) 새로운 가치 창출 : 빅데이터 시대에는 기존에 없던 가치를 창출해 측정이 어려움

(3) 분석 기술 발전 : 현재는 가치 없는 데이터라도 추후에 새로운 분석 기술을 통해 거대한 가치를 가질 수 있기 때문.

 

5. 데이터 유형 분류(*기출)

(1) 정형데이터 : RDBMS의 고정된 필드에 저장, 데이터 스키마 지원 / 종류 : RDB, 스프레드시트

(2) 반정형데이터 : 데이터 속성인 메타데이터 가짐, 일반적 스토리지 저장 텍스트, XML 형테 데이터로 값과 형식이 다소 일관성 없음 / 종류 : HTML, XML, JSON, 웹문서, 웹로그, 센서데이터

(3) 비정형데이터 : 언어 분석이 가능한 텍스트, 형태 및 구조가 복작한 이미지, 동영상 등 멀티미디어 / 종류 : SNS 데이터, 문서, 이미지, 비디오, 오디오

 

6. 빅데이터의 영향(*기출)

기업 : 빅데이터 활용해 소비자 행동 분석, 시장변동 예측 비즈니스 모델 발견 -> 혁신 경쟁력+, 생산성+

정부 : 기상, 인구 이동 등 데이터 수집해 사회 변화 추정 -> 환경탐색, 상황분석, 미래대응

개인 : 개인 목적에 따라 활용

 

 

'프로그래밍 > ADsP' 카테고리의 다른 글

ADsP 2과목 정리(마지막)  (0) 2021.08.06
[TIL] 21.08.03 - ADsP 공부  (0) 2021.08.03
[TIL] 2021.08.01 ADsP 2과목  (0) 2021.08.03
[TIL] 2021.07.23 ADsP 공부  (0) 2021.07.23
[TIL] 2021.07.17 ADsP 공부  (0) 2021.07.17