15万张粪便照片被打包出售:你的健康数据正成为AI训练燃料
2026/05/17 15:58阅读量 10
一款名为PoopCheck的肠胃健康App在Reddit上试图出售15万张用户粪便照片及关联的健康数据,用于AI训练。事件揭示了消费级健康App普遍存在的隐私缺口——在“隐私第一”的承诺下,用户上传的高度敏感数据可能被货币化。类似案例还包括Flo经期数据泄露、BetterHelp出售心理记录、23andMe基因数据面临破产拍卖,均暴露了知情同意制度的失效与数据再识别的技术风险。
事件概述
一款名为PoopCheck的肠胃健康App,宣称“隐私第一”“绝不收集数据”,却通过用户自愿分享的粪便照片积累了超过15万张图像数据库。该App由Soft All Things LLC开发,创始人之一Marco在Reddit的r/DHExchange板块发帖公开出售这批数据,称其“极为稀缺”,对机器学习训练和癌症研究有价值,但尚未定价。
核心信息
- 数据细节:每张图片均关联用户报告的数据点(如进食时间、排便感受、气味、咖啡/酒精摄入等),以及AI分析结果(布里斯托尔分级、是否健康、是否有血液/粘液、排便量等),每条记录通过“externalIndividualID”字段与特定用户绑定,还包含年龄、性别、身高、体重及乳糖不耐受、肠易激综合征等敏感健康状况。
- 商业模式:数据集分两档——AI自动标注版和人工精标版,后者更贵。记者以AI训练为由申请1万条数据时,对方未拒绝。
- 隐私矛盾:App商店页面明确写道“隐私第一”“绝不收集数据”,但用户公开分享的照片已被打包用于交易。截至2026年5月14日,社区内已有151317张“共享粪便”,标题如“像橡皮泥一样”“有点担心”。
行业警示:并非孤例
- Flo经期App:曾承诺不分享健康数据,却通过SDK将用户记录传输给Facebook、Google等广告平台,最终在2025年面临5950万美元和解。
- BetterHelp心理咨询平台:收集抑郁状态、自杀念头等信息,将超200万用户数据共享给社交媒体用于精准广告,2023年被FTC罚款780万美元。
- 23andMe基因数据:用户将唾液样本寄送后,公司2025年申请破产,基因数据库沦为清算资产,FTC虽要求收购方遵守隐私政策,但破产法框架下保护前景不明。
值得关注:知情同意与数据不可逆风险
- 知情同意缺失:用户上传数据时通常只看到一份无人阅读的协议,而非真正的知情告知。即使数据经过“去识别化”,通过再识别攻击(仅需15个数据点即可识别美国个人)仍可还原身份,而PoopCheck数据每条附带的字段远超15个,且未做充分去识别处理。
- 数据不可删除:一旦用于训练大模型,模型可能记忆并再现训练数据,外科手术式移除个人数据几乎不可能,除非从头重训整个模型。
- 监管空白:美国缺乏综合性联邦数据隐私法律,HIPAA仅覆盖医疗机构,消费级健康App几乎不受约束。FTC 2024年声明称“欺骗性数据收集就是违法,不管是否打着AI旗号”。
结论
用户的身体信息,在足够大的数据量面前,已成为可货币化的资产。免费App的生存压力、AI训练数据的结构性需求,共同驱动健康数据黑市。普通用户应在下载前了解App商业模式,仔细阅读服务协议中关于“数据使用”和“第三方许可”的条款,尤其警惕“sell”“license”“third party”等关键词。
