大数据隐私Project可选课题

可选课题

Privacy Detection

隐私数据检测

方法:

  • 预定义隐私元素(PII);识别特征内容
  • 隐私数据检测及其分类

挑战:

  • 现有工作需要人工标记,需要大量训练数据,粒度较粗、未考虑主观性,缺乏可解释性
  • 缺乏隐私定义标准(和上面可解释性放到一起就是隐私概念的数学化/建模)、跨模态的数据隐私

目标:

  • 细粒度、个性化、可解释的隐私定义标准、保护方案

Privacy Desensitization

(!!TODO)

数据脱敏问题

传统方法:

  • 通过人工配置和正则表达式来实现

新场景数据脱敏:

  • 文本、图片、表格(k-匿名等方法)、视频

Efficient Privacy Preserving Computation

高效的安全多方计算

类似于 bizarine 问题,可能需要限制 Adversaries 的数量

  • 安全性(可以出结果)
  • 可验证性

现行方法:

  • 同态加密
  • 性能 bottleneck:代数结构优化、硬件加速

Privacy Preserving Data Tracing

Privacy Preserving Machine Learning

隐私保护的机器学习,典型方法:同台加密(效率低)、联邦学习。

难点:纵向联邦学习(纵向属性缺失,相较于横向联邦来说每个独立个体不能进行学习)

Attacking on Machine Learning Model

(!!TODO) 机器学习过程中的攻击(训练时攻击、使用模型时的攻击)

Privacy Preserving Data…

(!TODO) 数据隐私评估

场景:

数据不可见、质量可见

Privacy of Synthetic Data

(!TODO)

  • 对 Synthetic Data Machine 进行评估?
    -

Biometric Data Preserve

生物数据的隐私保护

(!!TODO)

Other Topics

(!TODO)

机器学习模型的遗忘

Forgetting in Machine Learning

机器学习模型的可解释性

课程笔记

接上节课末尾

保护隐私的方法:

  • 不给、给假的、给不准的、给生成的

建立框架

  • Privacy Definition, Utility Metric, Adversaries Model(攻击者建模)

K-anonymize (K-匿名)

隐去一些直观上的敏感信息后,剩余信息仍然具备 identify 实体的功能。

分类

  • Identifier attributes (primary key?)
  • Quasi-identifier attributes (semi primary key sets?)
  • Confidential

K-Anonymity Definition

  • QI-cluster
    • all the tuples with identical combination of quasi-identifier attribute values
  • K-anonymity property
    -

Attack on K-Anonymity

P 在同一 QI-cluster 中相同,K 匿名无效化

I-Diversity


本博客所有文章除特别声明外,均采用 CC BY-SA 4.0 协议 ,转载请注明出处!