نشر Theguardian.com نتائج من دراسة أجرتها جامعتان بارزتان: جامعة UCLouvain في بلجيكا و Imperial College London: يؤكد العلماء أن هناك العديد من الطرق لربط أي بيانات مجهولة بأشخاص حقيقيين.
على سبيل المثال ، سيتم الكشف عن البيانات ذات 15 سمة ديموغرافية بنسبة 99.98٪ من سكان ماساتشوستس. " وبالنسبة إلى المجموعات السكانية الصغيرة ، يكون هذا الإجراء أبسط: على سبيل المثال ، إذا كنا نتحدث عن بلدة صغيرة ، فعندئذ "لن يكون من الصعب تحديد سكان ميناء Harwich ، ماساتشوستس ، حيث يعيش أقل من 2000 شخص."
البيانات "مجهولة المصدر" تكمن وراء العديد من العمليات: من البحوث الطبية الحديثة إلى التوصيات الشخصية وتقنيات الذكاء الاصطناعي. لسوء الحظ ، وفقًا للدراسة ، من المستحيل تقريبًا إخفاء هوية البيانات في أي مجموعات بيانات معقدة.
يجب إزالة جميع المعلومات الشخصية القابلة للتعريف بالكامل من مجموعة البيانات المجهولة الهوية ، بحيث تبقى البيانات المفيدة فقط التي يمكن للباحثين العمل دون خوف من انتهاك الخصوصية. على سبيل المثال ، يمكن للمستشفى إزالة أسماء وعناوين ومواعيد ميلاد المرضى من مجموعة من السجلات الطبية على أمل أن يتمكن الباحثون من استخدام بقية البيانات لاكتشاف العلاقات المخفية بين الحالات.
ولكن في الممارسة العملية ، يمكن إلغاء تحديد هوية البيانات بطرق مختلفة. في عام 2008 ، تمت إعادة تعريف مجموعة بيانات تصنيف أفلام Netflix المجهولة من خلال مقارنة التصنيفات مع البيانات الموجودة على موقع IMDb. تم الكشف عن عناوين سائقي سيارات الأجرة في نيويورك بناءً على مجموعة بيانات مجهولة من الرحلات الفردية في جميع أنحاء المدينة. ويمكن تحديد بيانات الفواتير الطبية مجهولة المصدر التي اقترحتها وزارة الصحة الأسترالية عن طريق الإحالة المرجعية مع "حقائق واقعية" ، مثل أعياد الميلاد للأم والطفل ، أو الأم والعديد من الأطفال.
صمم باحثون من جامعة لوفان الكاثوليكية البلجيكية (UCLouvain) والكلية الإمبراطورية في لندن نموذجًا لتقييم سهولة التعرّف على هوية أي مجموعة بيانات تعسفية. على سبيل المثال ، سيتم الكشف عن البيانات ذات 15 سمة ديموغرافية بنسبة 99.98٪ من سكان ماساتشوستس. " وبالنسبة إلى المجموعات السكانية الصغيرة ، يكون هذا الإجراء أبسط: على سبيل المثال ، إذا كنا نتحدث عن بلدة صغيرة ، فعندئذ "لن يكون من الصعب تحديد سكان ميناء Harwich ، ماساتشوستس ، حيث يعيش أقل من 2000 شخص."
على الرغم من ذلك ، يقوم وسطاء البيانات مثل Experian ببيع مجموعات البيانات "غير المحددة" التي تحتوي على مزيد من المعلومات حول كل شخص. أشار الباحثون إلى البيانات التي تم بيعها لشركة البرمجيات Alteryx - وهي تحتوي على 248 سمة لـ 120 مليون أسرة أمريكية.
يجادل الباحثون بأن نتائجهم تثبت عدم وجود جهود لإخفاء الهوية للامتثال للمتطلبات القانونية ، مثل الناتج القومي الإجمالي (التنظيم العام لحماية البيانات).
" نتائجنا تدحض الادعاءات بأن استعادة معلومات تحديد الهوية أمر مستحيل ... "
" بعد ذلك ، يشككون في أهمية طرق إزالة الهوية الحالية لمعايير إخفاء الهوية من قوانين حماية البيانات الحديثة مثل GDPR و CCPA (قانون خصوصية المستهلك في كاليفورنيا) ، ويؤكدون الحاجة ، من وجهة نظر قانونية وتنظيمية ، إلى تجاوز نموذج إلغاء تحديد الهوية "أطلق سراحه ونسي " .
قد تفي المقاربات الأخرى لمعالجة مجموعات البيانات الضخمة بمعايير حماية المعلومات الحالية. تؤدي الخصوصية المتمايزة ، التي تمارسها شركات مثل Apple و Uber ، إلى تعمد تعميق كل وحدة من المعلومات التي يتم حسابها عبر مجموعة البيانات بأكملها ، وبالتالي تتداخل مع تحديد الهوية من خلال توفير معلومات غير صحيحة تقنيًا عن كل شخص.
لا يسمح تشفير الشكل الثابت بقراءة البيانات ، لكن لا يزال من الممكن معالجتها. سيتم تشفير النتائج أيضًا ، لكن يمكن لوحدة التحكم في البيانات فك تشفيرها. وفي النهاية ، سوف نأتي إلى مجموعات البيانات الاصطناعية ، مما يعني تدريب الذكاء الاصطناعى على معلومات حقيقية يمكن تحديدها ، على أساسها سيتم إنشاء وحدات بيانات مزيفة جديدة تكون متطابقة إحصائياً ، ولكنها غير مرتبطة بأشخاص محددين.