일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 비둘기목
- Python
- 비둘기과
- 솔딱새과
- 백로과
- 딱다구리과
- SimpleCraft
- django
- 딥러닝공부
- keras
- 직박구리과
- 계수정렬
- AI역량평가
- 참새과
- 가마우지과
- 맑은소리 스피치학원
- IBK기업은행 인턴
- 오리과
- 흰날개해오라기
- 기러기목
- 딥러닝 공부
- 참새목
- 한국의 새
- structured_array
- Birthday paradox
- 한국의새
- AI전략게임
- ADsP
- 생일문제
- python3
- Today
- Total
진박사의 일상
빅데이터 가명익명조치기술 전문 교육 1일차 본문
너무 중구난방으로 그냥 메모식으로 휘갈긴듯... 나중에 정리해서 다시 써야지
문제 : 무분별한 타겟 마케팅 + 내부 정보 프라이버시 침해 + 고객 동의 없이 제 3자에게 제공하는 행위
2020년 이전
목적 내 활용 (적법) + 목적 외 활용 (불법)
2020년 이후 (데이터 3법)
목적 외 활용(특수한 경우 가명/익명 처리 후에는 합법)
사이트마다 ID/PW가 같으면 보안 약한 곳에서 해킹해서 은행 같은 곳에서 접속...
개인정보 패러다임 이동
경영분석(경영활동위해 분석/사용), 타겟 푸시 마케팅, 기업집단(그룹 내 고객정보를 합쳐 공유하고 거대 플랫폼화), 제 3자 제공, 정보 판매(수익 확보 위해 고객 정보 판매)
====>
개인화 광고, 신용평가/보험 사기 등 Detection 등, 의료정보 빅데이터 플랫폼, 기업 간 보유정보 매시업, CCTV 범인 추적 등 공공목적
개인정보(Identified) : 개념-살아있는 특정 개인에 관한 정보 활용가능 범위-사전적이고 구체적인 동의를 받은 범위 내 활용
가명정보(Pseudonymized) : 개념-추가정보 사용 없이는 특정 개인을 알아볼 수 없게 조치한 정보 - 통계작성, 연구, 공익적 기록 보존 목적의 특수 목적에서만 동의 없이 활용 가능
익명정보(Anonymized) : 개념-다른 정보를 결합해도 더 이상 개인을 알아볼 수 없도록 조치한(논리적으로 복원 불가능하다고 계산된) 정보 - 개인정보가 아니라 제한없이 자유 활용
전문가에게 인증을 받아야 익명정보가 됨.
특이정보 : 관측된 데이터의 범위에서 많이 벗어난 아주 작은 값이나 아주 큰 값 - 가명처리된 데이터 내 특이정보는 다른 정보와 쉽게 결합하여 개인을 알아 볼 수 있으니 추가 가명처리 필요 (ex. 유명인)
개인정보보호법
법 체계
상위법우선의법칙 : 충돌되면 상위법이 우선
특별법우선의법칙 : 특별법이 우선 적용
신법우선의법칙 : 신구법이 충돌시 신법 우선 적용
가이드라인 : 비식별조치가이드라인(익명, 충돌이 있었음) -> 가가명정보처리가이드라인(가명/익명)
데이터 3법의 개정 의의
1. 모호했던 개인정보 판단 기준 명확화 : 익명화된 정보는 더이상 개인정보가 아니다(입수 가능성, 식별에 소요되는 시간/비용/기술 등을 고려)
2. 가명정보 개념을 도입, 데이터 결합 근거 마련
3. 개인정보 처리자의 책임 강화
4. 유사/중복 규정을 정비 및 추진체계 효율화
기업 내에서 분석/보고해도 가명/익명처리를 해야 함.
전화번호부의 n줄에 대해서는 n개의 소유권이 있어서 그 정보로 수익이 발생하면 n명이 나누어야 함.
개인보호 원칙(개인정보보호법 제3조)
1. 목적을 명확하게 하고 목적에 따라 최소한의 개인정보만을 적법하고 정당하게 수집
2. 처리 목적에 따라 필요한 범위에서 적법하게 처리해야 함
3. 정확성, 완전성 및 최신성이 보장되도록
4. 안전하게 관리 5. 정보추체 권리 보장 6. 사생활 침해 최소화
7. 익명/가명 처리해도 수집목적을 달성하고 있는 경우 익명처리가 가능한 경우 익명으로
반출심사위원의 전원이 승인해야 반출 가능...
가명정보와 추가정보는 분리 보관, 접근권한 분리 등의 안전성 확보 조치를 해야 함
가명정보 결합 및 반출
신청 : 수요기관 -> 반출 : 키 관리기관(KISA) + 전문기관(결합 수행 NIA 등) -> 반출
민감정보 - 사상, 신념, 노동조합/정당 가입및탈퇴, 정치적 견해, 건강, 성생활, 유전정보, 범죄경력 등 -> 추가 신설 : 생체인식 정보, 인종민족 정보
마이데이터 - 개인 스스로가 자기 데이터의 사용 가능 범위를 정하고 데이터를 제공함 (가명화나 익명화를 반드시 할 필요가 있는 것은 아님)
범죄 수사와 개인정보보호 사이는 grey area가 있다...
내부에서만 분석할 때는 3가지 목적에 맞으면 가명정보를 그냥 사용해도 되지만 외부 반출할 때는 반드시 검수 받아야 함.
가명처리는 '개인정보의 일부를 삭제하거나 일부 또는 전체를 대체하는 방법 등으로 추가 정보 없이는 특정 개인을 알아볼 수 없도록' - 추가 정보 또는 다른 정보와의 결합 가능성을 고려할 필요 있음.
세부절차
(1) 사전준비 -> (2) 가명처리(대상선정->위험도측정->가명처리 수준 정의->가명처리) <-(부적정시)-> (3) 적정성 검토 및 추가 가명 처리 -(적정)-> (4)활용 및 사후관리
(위험도 측정 <- 처리 환경 검토(내부활용(CPO외부)/내부제공(회사에 제공)/제3자제공(회사가 제공-제3자가 불분명하면 안됨), 내부 통제수준 + 재식별 의도 및 능력 등)
(가명처리 수준 설정 - 가명처리 방법 및 수준, 보유 기간 정의)
(가명처리 - 내부자 검토 or 외부전문가 검토)
사후관리
가명처리 계획 수립이 정한 가명정보 보유기간이 경과한 경우 삭제 조치
조직체계
과거 - (CIO + 활용 조직)
현재 - (CIO(Chief of IT Officer) + CPO(Chief of Privacy Officer) + CDO(Chief of Data Officer) + 활용 조직)
위탁이나 제공할 때 재식별 금지에 관한 사항, 처리 유의 사항 등에 대한 계약서 작성. 분석목적과 관계 없는 사항은 제외
가명처리 검토 결과보고서 작성
식별정보 - 하나의 식별자 만으로 외부 연계로 개인을 특정하게 알 수 있는 식별자
식별가능정보 - 가명정보를 처리하는 입장에서 개인을 알아볼 수 있는 정
특이정보 - 극단값, 특이값
항목별로 처리수준 정의
가명처리는 최대한 적게 하는 대신 식별이 되지 않도록...
식별정보는 key가 필요하다면 암호화해서 key로 사용하거나 아예 삭제.
식별가능정보나 준식별자는 rounding
민감정보는 지우거나 그대로 두거나
특이값은 추가로 가명처리
결합 및 반출
가명처리의 결합 및 반출 절차
key가 같은 서로 다른 데이터 A와 B의 ID (준식별자 + 일반정보(민감정보 포함) )를 key를 기준으로 결합할 때
각각 결합 대상정보+암호화된 결합키를 결합키관리기관(eg. KISA)로 보냄
결합대상정보 + 일련번호 -> 결합 전문기관(ex. NIA)
결합키 + 일련번호 -> 결합키 관리기관(ex. KISA)
결합 전문기관이 결합키 관리기관과 일련번호를 비교해서 결합키와 결합대상정보를 결합
-> key에 해당하는 정보가 A에는 있고 B에는 없거나, 반대거나 둘 다 있을 수 있음. -> 둘 다 있는 common set만 선택
세부절차
1단계 1. 사전준비 -> 2. 가명처리 -> 3 결합신청.
2단계 1. 결합키 생성(결합키관리기관 및 결합전문기관과 협의해 SHA-224 이상 해시 알고리즘으로 암호화, 동일한 인코딩 필요) 2. 정보전달 3. 결합률 확인(결합이 잘 되는지? 잘 안 나오면 결합 포기)
3단계 1. 추가가명처리(결합신청자는 결합정보를 결합전문기관 내 공간에서 반출을 위한 추가 가명/익명처리 조치 -> 왜? A-key + A-일반정보가 A 입장에서는 결합 데이터의 Key가 될 수 있기 때문에 -> 결합의 품질이 크게 떨어지게 됨)
4. 가명정보 안전한 관리
가명정보의 관리적 + 물리적 + 기술적 보호조치
관리적 보호조치 - 관리책임자 지정, 재식별 금지, 재제공&재위탁 금지, 재식별 위험 발생시 통지
기술적 보호조치 - 추가 정보 분리 보관, 접근 권한 분리(전보&퇴직 등 인사이동 시 즉시 시스템 접근 권한 말소, 접근권한 부여/변동/말소 기록을 최소 3년간 기록, 비밀번호 작성규칙,... )
5! 개인정보 가명/익명 처리 기법
가명정보 : 원래의 상태로 복원하기 위한 추가 정보의 사용/결합 없이는 특정 개인을 알아볼 수 없는 정보
익명정보 : 시간/비용/기술 등을 합리적으로 고려할 때 다른 정보를 사용해도 더 이상 개인을 알아볼 수 없는정보. 개인정보보호법이 적용되지 않는 정보.
1. 삭제기술 - ex 이름 지우기
-1) 마스킹 - 정보 일부 혹은 전부를 대체하여 식별하지 못하도록
종류 대체, 스크램블링(뒤섞기), 암호화, 데이터 블러링(원본에 노이즈 추가), 삭제
컬럼삭제(직접식별자나 식별가능성이 높은 간접식별자를 삭제), 부분삭제(컬럼의 일부를 삭제 ex 주소 일부 삭제), 레코드삭제(이상값에 해당하는 특정 레코드를 삭제), 식별자 전부 삭제(식별성이 있는 요소를 전부 삭제)
2. 총계처리 - 통계적으로 처리 기법. -> 삭제를 하는게 차라리 낫다.
3. 일반화 기술 - 일반 라운딩(반올림, 올림, 내림), 상하단 코딩(정규분포 특성을 가진 데이터에서 양 끝에 치우친 정보는 적은 수의 분포를 가져서 식별성을 가질 수 있으므로 양 끝단의 정보를 범주화함), 로컬일반화(이상치에 대해서만 일반화)
4. 암호화 - 동형암호화(평문에 대한 연산 결과와 암호문에 대한 연산 결과가 같은 값을 가져 암호화된 개인정보를 풀어보지 않고도 통계분석이 가능한 기술!)
5. 무작위화 기술 - 순열(치환), 잡은 추가, 부분 총계
- 최근 새로운 방법으로 인기있는 방법
k-익명성 : 동일한 속성을 가지는 레코드(동질집합) 수가 최소 k개 이상 존재하도록 하는 프라이버시 보호모델 - 특정 개인 식별 확률 = 1/k - 연결공격을 방어하기 위해 제안. 일반적으로 k>5라면 privacy 안전 -> 전문가가 판단
l-다양성 : 동질집합의 민감정보가 최소 L개의 다양한 속성을 갖도록 하여 k-익명성의 취약점(동질성/배경지식 공격)을 보완한 프라이버시 보호모델 - 동질집합에 대해 추론이 가능해도 민감정보의 다양성을 통해 식별 가능성을 최소화
t-근접성 : 쏠림 공격, 유사성 공격을 보완하기 위한 모델
K-익명성 사례 - 의료데이터 + 선거인명부의 같은 항목을 비교해 찾아냄.
-> 동일한 데이터에 해당하는 레코드가 k개 이상이면 k-익명성 만족. but k개의 레코드의 일반정보(민감정보)가 모두 동일하다면 취약성+ -> 일반정보의 가짓수 = L이라고 해서 L이 클수록 안전 => l-다양성
t-근접성 : 쏠림공격 - K도 L도 만족해도 분포간의 유사도로 인해 찾을 수 있음. -> 분포간의 거리를 좁혀야 함. 거리가 가까우면 t는 작다. 멀면 t가 크다
가명정보 : identify 어려움. 가능할수도 있다.
익명정보 : identify 논리적으로 불가능.
근거 : 익명정보라는 판단은 전문가가 k,l, t 값으로 정한다
민감정보 X -> k 값만 제시
민감정보 O -> 각 민감정보 당 k, l, t를 제시.
전문가가 제시한 k, l, t를 만족하면 법적으로 익명정보 보장.
헷갈릴 땐 이렇게 생각해보자
경찰에게 알려줬을 때 -> 식별자 - 바로 식별 가능 / 준식별자 - 찾는 데 도움이 됨 / 일반정보(+민감정보) - 도움 안됨
즉, 개인을 특정할 수 있는 단서가 될 수 있는 정보가 식별자
식별자 : 이름, 주민번호, 휴대전화, 주소, 차량번호
준식별자 : 성별, 직업, 나이, 주거형태
일반정보(민감정보) : 월카드사용액, (연봉), (신용등급), 주거래은행, (대출금액), (보유재산)
식별자 중 1대1 대응이 되는 정보 하나만 남겨 암호화(SHA-256)하여 key로 삼고 나머지는 각각 가명화 -> 빈도 분석을 통해 찾은 특이정보는 재식별 가능성이 높아서 추가 가명처리 함 -> 일련번호, key, 식별자의 set으로 추가정보로 만들어 별도 보관
*****내가 아는 누군가를 찾을 때 몇개의 식별자로 찾을 수 있다면 가명정보, 동일한 record가 k개 이상 있어서 그 정보만으로는 찾을 수 없다면 익명 정보*****
가명/익명 처리 보고서 작성
'프로그래밍 > 공부' 카테고리의 다른 글
컴퓨터 일반 요약 공부 - Part1. -2- (0) | 2021.09.16 |
---|---|
[데베시] 2강 (0) | 2021.09.16 |
[컴퓨터보안] 2강 - 2장 Cryptographic Tools (0) | 2021.09.13 |
[컴퓨터보안] 1강 - 1장 Computer Security (0) | 2021.09.12 |
[데베시] 정리 1차시 (0) | 2021.09.07 |