진박사의 일상

[TIL] 2021.07.17 ADsP 공부 본문

프로그래밍/ADsP

[TIL] 2021.07.17 ADsP 공부

진박사. 2021. 7. 17. 22:49

ADsP 공부(1)

참고 인강 - [인천시민사이버교육센터] 사이버 연수원에 오신것을 환영합니다. (hunet.co.kr)

 

[인천시민사이버교육센터] 사이버 연수원에 오신것을 환영합니다.

과 정 시 간 15 시간

incheon.hunet.co.kr

참고 도서 - 2020 데이터 분석 준전문가 ADsP 한 권으로 끝내기 - YES24

 

ADsP(데이터 분석 준전문가/Advanced Data Analytics Semi-Professional) 과목 개요

- 1과목 : 데이터의 이해

  1. 데이터의 이해
    1. 데이터와 정보
    2. 데이터베이스의 정의와 특징
    3. 데이터베이스 활용
  2. 데이터의 가치와 미래
    1. 빅데이터의 이해
    2. 빅데이터의 가치와 영향
    3. 비즈니스 모델
    4. 위기 요인과 통제 방안
    5. 미래의 빅데이터
  3. 가치 창조를 위한 데이터 사이언스와 전략 인사이트
    1. 빅데이터 분석과 전략 인사이트
    2. 전략 인사이트 도출을 위한 필요 역량
    3. 빅데이터 그리고 데이터 사이언스의 미래

- 2과목 : 데이터 분석 기획

  1. 데이터 분석 기획의 이해
    1. 분석 기획 방향성 도출
    2. 분석 방법론
    3. 분석 과제 발굴
    4. 분석 프로젝트 관리 방안
  2. 분석 마스터플랜
    1. 분석 마스터플랜 수립
    2. 분석 거버넌스 체계 수립

- 3과목 : 데이터 분석

  1. R 기초와 데이터 마트
    1. R 기초
    2. 데이터 마트
    3. 결측값 처리와 이상값 검색
  2. 통계 분석
    1. 통계학 개론
    2. 기초 통계 분석
    3. 다변량분석
    4. 시계열 예측
  3. 정형 데이터 마이닝
    1. 데이터 마이닝 개요
    2. 분류 분석(Classification)
    3. 군집 분석(Clustering)
    4. 연관 분석(Association Analysis)

1과목 - 객관식8 단답식2

2과목 - 객관식8 단답식2

3과목 - 객관식24 단답식6

으로 총 50문제. 90분, 4지선다.

모든 문제는 2점이며 과목별 40% 미만시 과락, 총점 60점 이상(30문제 이상) 맞춰야 합격.

 

 

 

 

ADsP

(본 내용은 강의와 책의 내용을 둘 다 참고하여 작성하였음)

 

데이터의 개념

1. 데이터의 정의/ 특성 (**기출)

존재적 특성 : 객관적 사실(fact)로서의 의미

당위적 특성 : 추론/예측/전망/추정을 위한 근거(basis)로 기능

 

2. 데이터의 분류

일차데이터(Primary Data) - 연구 조사자에 의해 직접 수집된 데이터.

이차데이터(Secondary Data) - 연구 조사자의 문제와 다른 목적으로 다른 사람이 수집한 데이터. 같은 기관 내에서 수집되었으면 내부데이터, 아니라면 외부 데이터로 분류.

-> 정부기관, 기타 간생물과 같은 외부 데이터. 회계 또는 재무 정보의 형태를 가지는 내부 데이터.

 

3. 데이터 웨어하우스(DW)

데이터 사이의 관계나 패턴을 확인하는 세밀한 분석을 할 수 있도록 기업 내/외부의 모든 데이터를 정리해 저장하는 저장소

-DW의 4대 특성(*기출) : 데이터 주제 지향성, 데이터 통합, 데이터의 시계열성, 데이터의 비휘발성

 

4. 데이터 마이닝

분석적 기법을 적용하는 과정. 기술통계, 교차제표, 회귀분석, 상관관계 등이 데이터 채집 도구로 사용되는 상태.

그외에 인자분석, 군집분석, 판별분석, 다차원척도법 등이 사용.

 

5. 데이터의 유형(**기출)

정성적 데이터 : 언어, 문자 등의 형태를 띠며 비용 소모가 큼. 주관적 내용. 비정형 데이터

ex) 회사 매출이 증가

정량적 데이터 : 수치, 도형, 기호 등의 형태를 띠며 비용 소모가 적음. 객관적 내용. 정형 데이터

ex) 나이, 몸무게, 주가 등

과거에는 정량적 데이터가 더 많은 의미를 가지고 있었지만 최근에는 정성적 데이터 분석 기법도 많이 늘어났다.

 

6. 지식 경영 핵심 이슈(*기출)

암묵지 : 학습과 체헙을 통해 개인에게 습득되지만 겉으로 드러나지 않는 상태의 지식

ex) 관찰, 모방, 현장 작업과 같은 경험을 통해 획득되는 지식

형식지 : 암묵지가 문서나 매뉴얼처럼 외부로 표출되어 여러 사람이 공유할 수 있는 지식

ex) 책, 설계도 등 체계화된 재료를 통해 획득되는 지식

-> 데이터는 암묵지와 형식지의 상호작용 역할

지식 전환 모드(지식 나선활동) : 개인의 암묵지와 집단의 형식지가 나선 형태로 회전하며 생성, 발전, 전환되는 지식의 방전을 기반으로 한 기업의 경영을 지식경영이라고 함.

SECI모델(공통화-표출화-연결화-내면화)

 

7. 데이터와 정보의 관계(**기출)

데이터(Data) : 개별 데이터 자체로는 의미가 중요하지 않은 객관적 사실. 가공 전 순수한 수치나 기호.

->A사이트는 USB를 10000원, B사이트는 USB를 15000원에 판다.

정보(Information) : 데이터의 가공, 상관관계(연관관계)의 이해를 통해 의미를 도출한 것

->A사이트가 B사이트보다 USB를 싸게 판다.

지식(Knowledge) : 정보를 구조화하여 유의미한 정보를 분류하고 개인적 경험과 결합시켜 고유의 지식으로 내재화 한 것 상호 연결된 정보 패턴을 이해하여 이를 토대로 예측한 결과물

->비싼 B사이트보다 A사이트에서 USB를 사는 것이 좋겠다.

지혜(Wisdom) : 지식의 축척과 아이디어의 결합물. ex)관찰X 데이터 예측, 판단

->다른 물건도 A사이트가 B사이트보다 싸게 팔 것이다.

 

 

데이터베이스의 개념(정의와 특징)

1. 데이터베이스의 정의

여러 사람이 공유하여 사용할 목적으로 체계화해 통합 관리하는 데이터의 집합. 관련된 레코드의 집합.

1차 개념 확대(정형 데이터 관리) : 소재를 체계적으로 배열 또는 구성한 편집물로서 개별적으로 그 소재에 접근하거나 검색할 수 있도록 한 것

2차 개념 확대(빅데이터 출현으로 비정형데이터 포함) : 문자, 기호, 음성, 화상, 영상 등의 상호 관련된 다수의 콘텐츠를 정보처리 및 정보통신 기기에 의해 체계적으로 수집, 축적하여 다양한 용도와 방법으로 이용할 수 있도록 정리한 정보의 집합체

DBMS(데이터베이스 관리시스템) : DB를 이용자가 쉽게 구축하고 유지할 수 있도록 하는 소프트웨어. DB와 함께 데이터베이스 시스템이라고 불림.

 

2. 데이터베이스의 특징(**기출)

1. 통합된 데이터(Integrated Data) :  중복된 데이터가 존재하지 않는다.

2. 저장된 데이터(Stored Data) : 컴퓨터가 접근 가능한 자기 디스크와 가은 저장 매체에 저장되어 있다.

3. 공용 데이터(Shared Data) : 여러 사용자가 서로 다른 목적으로 공동 이용한다.

4. 변화되는 데이터(Operational Data) : 신규 데이터 추가, 기존 데이터의 삭제, 갱신으로 항상 변화하면서도 현재의 정확한 데이터를 유지한다.

 

3. 데이터베이스 특성과 장단점

특성

1. 정보의 축적 및 전달 : 정보처리기기로 대량 정보 읽고 쓰는 기계 가독성, 필요한 정보 검색가능성, 정보통신망으로 원거리서 이용 가능항 원격조작성

2. 정보이용 : 이용자 정보 요구에 따라 신속하게 정보 획득

3. 정보관리 : 방대한 정보를 체계적으로 축적, 갱신, 추가가 용이

4. 정보기술발전 : 정보처리, 검색, 관리 소프트웨어 등 네트워크 발전 기술 견인

5. 경제, 산업적 측면 : 인프라의 특성을 가지고 있어 편의 증진 수단의 의미

장점 : 데이터 중복 최소화, 데이터 공유, 일관성/무결성/보안성 유지, 최신 데이터 유지, 표준화 가능, 논리적/물리적 독립성, 용이한 데이터 접근, 데이터 저장공간 절약

단점 : DB 전문가 필요, 많은 비용 부담, 백업과 복구 어려움, 시스템 복잡, 대용량 디스크로 엑세스 집중시 과부하

 

데이터베이스 활용

1. 기업관련 데이터베이스

-1980년대

--(1) OLTP(On-Line Transaction Processing) : 호스트 컴퓨터가 DB에 엑세스하고 바로 처리 결과를 돌려주는 형태. DB의 데이터를 수시로 갱신하는 상태. 여러 과정이 하나의 단위 프로세스로 실행되도록 하는 프로세스.

--(2) OLAP(On-Line Analytical Processing) : 다차원적인 데이터에 접근하여 의사 결정에 활용할 수 있는 통계적 요약 정보를 제공.

-2000년대

--(1) CRM(Customer Relationship Management)(**기출) : '고객 관계 관리'. 기업이 고객과 관련된 내/외부 자료를 분석 통합하여 고객 중심 자원을 극대화하고 이를 토대로 고객 특성에 맞게 마케팅 활동을 계획, 지원 평가하는 과정

--(2) SCM(Supply Chain Management) : '공급망 관리'. 기업에서 원재료의 생산, 유통 등 모든 공급망 단계를 최적화 하여 수요자가 원하는 제품을 원하는 시간, 장소에 제공하는 것

 

2. 분야별 데이터베이스(**기출)

제조업 주요 솔루션

--(1)DW(Data Warehouse) : 정보검색 목적으로 구축된 DB. (※데이터마트 : 사업부단위 소규모 DW)

--(2)ERP(Enterprise Resource Planning) : 경영자원을 하나의 통합 시스템으로 재구축, 여러 모듈로 구성된 통합 애플리케이션 소프트웨어 패키지

--(3)BI(Business Intelligence) : DW에 접근해 의사 결정에 활용하는 정보를 획득해 활용하는 비즈니스 프로세스. (※BA(Business Analytics)(*기출) : 데이터와 통계 기반으로 성과에 대한 이해와 비즈니스 통찰력에 초점을 둔 분석. 과거 데이터 기반 분석인 BI와 구별.)

--(4)CRM(Customer Relationship Management) : 선별된 고객으로부터 수익 창출, 장기적 고객관계 가능케 하여 이익 창출.

--(5)RTE(Real-Time Enterprice) : 회사의 주요 경영 정보를 통합 관리하는 실시간 기업의 시스템

금융분야

--(1) EAI(Enterprise Application Integration) : 정보를 중앙 집중적으로 통합, 관리, 사용할 수 있는 환경 구현. ERP, CRM, SCM 시스템이나 인트라넷 등의 상호 연동이 가능하도록 통합.

--(2) EDW(Enterprise Data Warehouse) : 기존 데이터 웨어하우스의 확장으로 기업 리소스의 위기적 통합, 다원화된 관리 체계 정비, 데이터 중복 방지 등을 위해 시스템 재설계

--(3) BlockChain : 데이터 분산처리 기술. 네트워크 참여하는 모든 사용자가 모든 거래내역 등의 데이터를 분산, 저장하는 기술. 블록을 체인 형태로 묶는 것에서 유래. 데이터를 분산하고 있으므로 중앙 서버 공격으로 인한 데이터 위변조 등의 해킹이 사실상 불가능함.

유통분야

--(1) KMS(Knowledge Management System) : 지식관리시스템. 지적 재산 등을 관리.

--(2) RFID(Radio Frequency ID) : 무선주파수를 이용해 대상(사람, 물건 등)을 식별하는 기술

 

3. 사회 기반 구조 관련 데이터베이스

-사회 각 부문의 정보화 -> DB구축 활발 -> 정부 중심으로 무역, 통관, 물류, 조세, 국세, 조달 등 사회 간점자본(SOC) 차원의 정보망 구축

--(1) EDI(Electronic Data Interchange) : 무역에 필요한 각종 서류를 표준화된 상거래 서식 또는 공공 서식을 서로 합의된 표준에 따라 전자 문서로 만들어 컴퓨터 통신망을 매개로 상호 교환하는 시스템

--(2) VAN(Value Added Network) : 부가가치통신망. 공중 전기통신 사업자로부터 통신회선을 차용하여 독자적 네트워크를 형성하는 서비스

--(3) CALS(Commerce At Light Speed) : 전자상거래 구축을 위해 기업내 비용 절감, 생상성 향상 목적으로 시작한 서비스, 제품의 라이프 사이클 전반에 관련된 데이터를 통합, 공유, 교환할 수 있도록 한 경영 통합 정보 시스템.

 

4. 분야별 사회기반 구조 관련 데이터베이스

물류분야 -CVO(Commercial Vehicle Operation System) : 화물 운송 정보. 실시간 차량 추적, PORT-MIS(항만 운영 정보 시스템), KROIS(철도 운영 정보 시스템)

지리분야 - GIS(Geographic Information System) : 지리 정보 시스템, RS(Remote Sensing) : 원격 탐사

교통분야 : 지능형 교통 시스템(ITS)

의료분야 : UH, 의료EDI

교육분야 : NEIS(교육행정정보시스템)

 

'프로그래밍 > ADsP' 카테고리의 다른 글

ADsP 2과목 정리(마지막)  (0) 2021.08.06
[TIL] 21.08.03 - ADsP 공부  (0) 2021.08.03
[TIL] 2021.08.01 ADsP 2과목  (0) 2021.08.03
[TIL] 2021.07.23 ADsP 공부  (0) 2021.07.23
[TIL] 2021.07.22 ADsP 공부  (0) 2021.07.22