진박사의 일상

[TIL] 2021.07.23 ADsP 공부 본문

프로그래밍/ADsP

[TIL] 2021.07.23 ADsP 공부

진박사. 2021. 7. 23. 17:40

[ADsP]

 

비즈니스 모델

 

1. 빅데이터 활용 사례

(1) 구글 검색엔진, 월마트 구매패턴 분석, IBM 왓슨 의료 분야

(2) 정부 실시간 교통정보 활용, CCTV 국가안전 활용

(3) 정치인 사회관계망 분석 통한 유세, 가수의 팬 음악청취 기록 분석 활용

(4) 아마존 킨들 전자책 읽기 관련 데이터 분석해 저자에게 제공

 

2. 빅데이터 활용 테크닉(**기출)

(1) 연관 규칙 학습(Association rule learning) : 변인들 간에 주목할만한 상관 관계가 있는지 찾는 방법

(2) 유형 분석(Classification tree Analysis) : 특성에 따른 분류

(3) 유전자 알고리즘(Genetic Algorithm) : 최적화가 필요한 문제의 해결책을 제시하며 점진적으로 진화 학습

(4) 기계 학습(Machine Learning) : 훈련 데이터로부터 학습하여 결과 예측.

(5) 회귀 분석(Regression Analysis) : 두 변인의 관계를 파악할 때 사용. 독립변수를 조절하며 종속변수의 값들을 분석하는 방법

(6) 감정 분석(Sentiment Anaylsis) : 특정 주제에 대한 저자의 감정 분석

/7) 소셜 네트워크 분석(Social Network Analysis) : 사회관계망분석(SNA)라고도 함. 영향력 있는 사람을 찾아 고객들 간의 관계도를 파악.

 

위기요인 분석

1. 위기 요인(문제점) 및 통제 방안(해결 방안)

(1) 사생활 침해 : 개인정보 유출과 같은 사생활 침해

->해결 방안 : 익명화-개인 식별 정보를 삭제하거나 알아볼 수 없게 변환 / 사용자가 책임지는 책임제 도입

(2) 데이터 오용 : 잘못된 지표를 사용하는 것은 빅데이터를 통해서 피해를 받을 수 있다. 잘못된 인사이트를 얻어 비즈니스에 손실을 가져올 수 있다.

->해결 방안 : 불이익을 당한 사람들을 대변할 전문가(알고리즈미스트) 필요. 알고리즘에 대한 접근권 제공하여 예측 알고리즘의 부당함을 반증할 방법 명시

(3) 책임 원리의 훼손 : 예측 알고리즘의 희생이 될 수 있다. 잠재적 위험 사항에 대한 책임을 추궁할 수 있는가? (ex) 범죄 예측 프로그램에 의해 범행을 저지르기 전에 체포할 수 있는가?

->잘못된 예측 알고리즘을 통한 판단을 근거로 불이익을 최소하 하는 장치 마련, 기존의 책임 원칙 강ㅇ화

 

빅데이터 활용 3요소 - 데이터, 기술, 인력

 

데이터사이언스

(1) 개념 : 수학, 통계학, 컴퓨터 공학, 데이터 공학 등의 전문 지식을 종합한 학문. 데이터로부터 의미있는 정보를 추출해내는 학문으로 정형 or 비정형을 막론한 다양한 유형의 데이터를 대상으로 분석 & 효과적 구현하고 전달하는 과정

(2) 영역 :

분석영역-수학, 확률모델, 통계, 머신러닝, 불확실성 모델링

IT영역 : 프로그래밍, 데이터엔지니어링, 데이터웨어하우스

비즈니스영역 : 프리젠테이션, 스토리텔링, 시각화 등

(3) 요구 역량 : 빅데이터 이론 지식, 분석 기술 숙련, 통찰력 있는 분석, 설득력 있는 전달, 다분야간 협력

(4) 과학과 인문의 교집합 - 분석기술 뿐 아니라 전략적 통찰을 주는 분석은 스토리텔링, 커뮤니케이션, 창의력, 열정, 직관력, 비판적 시각, 대화능력 등 인문적 지식 필요

 

DBMS와 SQL

(1)DBMS : 데이터베이스를 관리하여 응용프로그램들이 DB를 공유하며 사용할 수 있는 환경을 제공하는 SW

(2)DBMS종류 

-(1) 관계형 DBMS : 데이터를 칼럼, 로우를 이루는 하나 이상의 테이블로 정리, 고유키로 로우를 식별. 로우는 레코드나 튜플로 부르며 일반적으로 각 테이블/관계는 하나의 엔티티 타입을 대표한다

-(2) 객체지향 DBMS : 관계형 DB와 다르게 정보를 '객체' 형태로 표현하는 모델. 멀티미디어를 다루는 모델

-(3) 네트워크 DBMS : 레코드들이 노드로, 레코드 사이의 관꼐까 간선으로 표현되는 그래프 기반

-(4) 계층형 DBMS : 트리구조를 기반으로 하는 계층형 DB

(3) SQL : DB에 접근할 수 있는 하부 언어로 단순 질의 기능 뿐 아니라 완전한 데이터의 정의와 조작 기능을 갖춤

(4) SQL 주요함수 - AVG, COUNT, SUM, STDDEV, MIN, MAX

 

데이터에 관련한 기술

(1)개인정보 비식별화(식별요소 제거방법)(*기출)

-(1) 가명처리 - 주요 식별 요소를 다른값으로 대체

-(2) 총계처리 or 평균값  대체 : 데이터의 총합을 보임으로 개별 데이터 값을 보이지 않게

-(3) 데이터값 삭제 : 데이터 공유/개방 목적에 따라 데이터셋 구성 값 중 필요 없는 값이나 개인 식별에 중요한 값 삭제

-(4) 범주화 : 데이터 값을 범주값으로 변환해 명확한 값 감춤

-(5) 데이터 마스킹 : 공개 정보와 결합하여 개인을 식별할 수 있을 개인 식별자를 보이지 않게 * 처리

 

(2) 데이터 무결성 : 데이터베이스 내의 데이터에 대한 정확한 일관성, 유효성, 신뢰성을 보장하기 위해 데이터 변경 / 수정시 여러가지 제한을 두어서 데이터의 정확성을 보증

 

(3) 데이터 레이크 : 많은 정보 속에서 의미 있는 내용을 찾기 위해 방식에 상관없이 데이터를 저장하는 시스템

 

빅데이터 분석기술

(1) 하둡 : 여러 개의 컴퓨터를 하나인 것처럼 묶어 대용량 데이터를 처리하는 기술

(2) 아파치 스파크 : 실시간 분산형 컴퓨팅 플랫폼. 스칼라로 작성되었지만 스칼라, 자바, R, 파이썬 API 지원

(3) 스마트 팩토리 : 공장 내 설비와 기계에 IoT가 설치되어 공정 데이터가 실시간으로 수집되고 데이터에 기반한 의사결정이 이뤄짐으로써 생산성을 극대화 할 수 있는 기술

(4) 기계학습, 딥러닝 : 기계학습은 인공지능연구 분야중 하나로 기계가 학습하여 결과를 도출

-알고리즘 유형 - 지도학습, 자율학습(머신러닝), 준지도학습, 강화학습, 심화학습(딥러닝)-

 

기타 내용

(1) B2B : 기업과 기업 사이의 거래를 기반으로 한 비즈니스 모델

(2) B2C : 기업과 고객 사이의 거래를 기반으로 한 비즈니스 모델

(3) 블록체인 : 거래정보를 하나의 덩어리로 보고 이를 차례로 연결한 거래장부

 

 

(1과목 끝)

'프로그래밍 > ADsP' 카테고리의 다른 글

ADsP 2과목 정리(마지막)  (0) 2021.08.06
[TIL] 21.08.03 - ADsP 공부  (0) 2021.08.03
[TIL] 2021.08.01 ADsP 2과목  (0) 2021.08.03
[TIL] 2021.07.22 ADsP 공부  (0) 2021.07.22
[TIL] 2021.07.17 ADsP 공부  (0) 2021.07.17