진박사의 일상

빅데이터 가명익명조치기술 전문 교육 2일차 요약 본문

프로그래밍/공부

빅데이터 가명익명조치기술 전문 교육 2일차 요약

진박사. 2021. 9. 22. 16:16

가명처리
KISA 송부키 생성 
-> 식별자와 key만 남김 -> 결합률 알 수 있음
->
가명처리 과정
금융정보가명처리
병원정보가명처리
-> 결합


익명처리
식별자 중에서 분석에 꼭 필요한 경우 아니면 제거
준 식별자 중 분석에 불필요한 것은 제거 - 준식별자가 증가하면 Population Uniqueness Issue(식별자가 같은 record가 특정 하나가 될 확률이 커짐)가 발생
민감정보가 포함된 경우 I-다양성과 T-근접성 반드시 적용
변환에 이슈가 되는 record 삭제하는 것도 유효

ARX
SEX, AGE, LOC -> Quasi-identifying
SEX(둘중 하나) -> Hierarchy wizard -> Use masking -> (*)으로
AGE(크기가 있음) -> Hierarchy wizard -> Use Interval(간격) -> range 0~20(bottom coding)과 65~100(top coding) 아웃라이어 처리 -> interval(0,5 -> 5세간격) -> new level을 추가해서 size2로 하면 10세간격
leveling 하는 이유 => 혹시 k익명성을 만족하지 못한다면 더 높은 레벨로 그루핑
LOC -> Hierarchy wizard -> Use Ordering -> 가까운 순으로 order 정렬을 하고 -> 그루핑을 함. 1레벨 2레벨...

-> Privacy models를 k=2인 2-Anonymity로

익명정보화
민감정보(Sensitive)를 추가하면 l-diversity까지 해야함.

Expand Transformation으로 추가해서 더 정보량을 늘릴 수 있음


ARIX-Risk


Chi-square 검정의 
(실제값-예상값) 이 +인 것과 -인것을 기준으로 그루핑

 

 


정리는 나중에...