هذه المقالة جزء من سلسلة Case Locomizer ، انظر أيضًا
مرحبا

في الآونة الأخيرة ،
نشرت صحيفة نيويورك تايمز مقالة مثيرة حول كيفية تتبع المستخدمين من خلال مجموعات البيانات المجهولة المتاحة تجاريا مع إحداثيات تحركاتهم ، وهنا ،
على حبري ، جمعت ترجمتها المجانية مع إضافات من مؤلف كتاب غير معروف للشركة عددًا كبيرًا من التعليقات ذات درجات متفاوتة من الاهتمام.
لقد حدث أن كنت على مدار العامين ونصف العام الماضيين
رائدين تقنيين في
مشروع المعلومات الجغرافية المنخرط في مهمة استخراج المعرفة مباشرة من مجموعات البيانات التجارية هذه بالضبط. لكن تعليقاتي مع طلب وضع الذعر جانبا جمعت عددا كبيرا من السلبيات. حسنا اذن في قولك حول عدم وجود جنون العظمة وليس عن حقيقة أنك لا تتبع ، هناك قدر معين من الحقيقة.
ولكن هناك بعض الحقيقة على الجانب الآخر من المرآة السوداء ، وربما أكثر من ذلك بكثير. أو مثيرة للاهتمام.
لذلك ، اسمحوا لي أن أخبرك بالتفصيل كيف نتبع (وما إذا كنا نتبع بمعنى التجسس) أنت (وعما إذا كنت شخصيا) ، وما نوع المعرفة حول المستخدم التي يمكن الحصول عليها دون امتلاك أي سياق آخر بخلاف إحداثيات تحركاته بالضبط. جمعت من
محطات المشترك المحمول . بدون
الصحافة المفرطة
والشراهة ، من وجهة نظر أخصائي تقني لديه بعض الخبرة الحقيقية في حل المهام الوهمية للعملاء الخياليين ، بما في ذلك ليس فقط وكالات الإعلان المختلفة ، Coca-Cola و Guinness ، ولكن أيضًا ، على سبيل المثال ، الأمم المتحدة. ومع
وميض .
ما هو أكثر من ذلك! في نهاية هذه السلسلة من المقالات ، أود أن أشارك الأدوات التي طورناها لمدة عامين ونصف حتى تتمكن من إجراء البحوث بنفسك إذا اشتريت (أو حصلت) مجموعة بيانات مناسبة. حتى الآن ، حسب علمي ، لم يقم أحد بإتاحة هذه الأدوات للعامة. على الأقل ، عندما بحثنا قبل عامين ، لم يتم العثور على شيء ، وكان علينا أن نكتب أنفسنا. كان الطريق إلى إجراء حسابات سريعة صعباً وطويلاً ، أما الجزء الثاني فسيتمحور حوله.
هكذا. جدول محتويات هذا السبب
- تشريح مجموعة بيانات مجهولة
- مشاكل دقة الإحداثيات في الشريط الأوسط
- الاستدلال لتنظيف البيانات من الضوضاء والحطام
- أي نوع من "المعرفة" هذا؟
- نقاط الاهتمام
- قضايا استخراج المعرفة
- سجل اهتمامات المستخدم
المكافأة:
تشريح مجموعة بيانات مجهولة
خذ المزود التجاري
Tamoco وشاهد الملفات التي
تشحنها . على سبيل المثال ، إليك مجموعة بيانات حقيقية من بلد المملكة المتحدة لبريطانيا العظمى وأيرلندا الشمالية ، التاريخ هو 4 ديسمبر 2019:
sdk_ts,device_id,latitude,longitude,accuracy,country,device_type,device_make,device_model,device_language,device_os,device_os_version,device_hw_version,device_screen_width,device_screen_height,device_battery,altitude,inv_id,trigger_type,app_account_id 1575390011,d75f97488c430502046fdb4ebfcc0ffd,51.516766,-0.1279744,10,GB,,,SM-G950W,en-CA,,,,0,0,0,0,4260328,GEO_FENCE_ENTER,115 1575414847,d75f97488c430502046fdb4ebfcc0ffd,51.516766,-0.1279821,10,GB,,,SM-G950W,en-CA,,,,0,0,0,0,4260328,GEO_FENCE_ENTER,115 1575424373,7e3323b382ddaafb9f774af95631cc44,51.51379,-0.0999953,7.6,GB,,,SM-G925F,en-GB,,,,0,0,0,0,31572218,GEO_FENCE_ENTER,115 1575417663,90165d78553fb37b0d62500733b39d11,53.724384,-6.879851,11,IE,aaid,,SM-A605FN,,android,9,,0,0,0,138,0,UNKNOWN_TRIGGER,229 1575417977,b6f2375275a21c40e03e4c6ea9ea4da0,52.75558,-7.9915,5,IE,idfa,,iPhone7.1,,ios,12.4.3,,0,0,0,122,0,UNKNOWN_TRIGGER,229
إليك ما نراه في حقول مجموعة البيانات هذه:
- sdk_ts - طابع زمني في يونكس إيبوك ،
- device_id - معرّف الجهاز مجهول الهوية (محطة المشتركين في الأجهزة المحمولة ، مثل الهاتف الذكي أو الكمبيوتر اللوحي) ،
- خطوط الطول / الطول - الإحداثيات الجغرافية ،
- دقة - دقة الإحداثيات الأفقية ، متر ،
- بلد - بلد
- الحقول المتبقية هي القمامة التي لا تحمل أي حمل دلالي خاص.
لماذا القمامة على الفور؟
لسوء الحظ ، فإن مثل هذا الحقل الذي يبدو مفيدًا للارتفاع لا معنى له ، لأن الارتفاع مترجم بشكل سيئ إلى أرقام أرضية المبنى ، ويمكن القضاء على الطيران بالطائرة بدونه (لكننا سنتحدث عن هذا لاحقًا).
على عكس الصحفيين من المقالات المشار إليها في البداية ، ليس لدينا أي سياق إضافي حول المستخدمين ، ونحن لا نفترض افتراضات لا أساس لها "افتراضيًا" ، مثل "كان في البنتاغون - وهذا يعني أنه يعمل في البنتاغون. نحن لسنا أيضًا نوعًا من فيس بوك يعرف كل شيء عنك أخبرته عن نفسك (ويخبر المستخدم العادي الكثير عن نفسك) ، بالإضافة إلى الرسم البياني الاجتماعي بالكامل. اشترينا بيانات أولية ، ونحن لا نصدقها.
لذلك من السياق لا يوجد سوى
لغة المستخدم - يمكن أن تساعد في تحديد السياح الأجانب ، ولكن هذا غير دقيق.
حسنًا ، بالإضافة إلى الإحداثيات والوقت ، هناك أيضًا طراز للهاتف - من الناحية النظرية ، يفتح إمكانية المعالجة الفردية لأصحاب الأجهزة المختلفة على iOS و Andriod. في التعليقات على مقالة من مدونة الشركات تلك ، اقترح البعض الذهاب لوقف مع الهواتف المحمولة باهظة الثمن ، وتتبعها عن طريق تحديد الموقع الجغرافي ... هم ، كما تعلمون ، ولكن مثل هذا النموذج التجاري للمكاتب العادية التي يمكن أن تحمل تكلفة شراء البيانات سيكون غير مربح إلى حد ما :)
من المهم أن نفهم أن البيانات الواردة من المورد تأتي خامًا ، أي مأخوذة من الأجهزة ولا تتم معالجتها بأي طريقة ، باستثناء ، ربما ، استبدال الجهاز الحقيقي_عن تجزئة وفقًا لمتطلبات الناتج المحلي الإجمالي (مستقرة ، سيتم تقديم الجهاز نفسه بين مقالب شهرية مختلفة على قدم المساواة).
كل مورد لديه مجموعة الحقول الخاصة به وتنسيقه ، لكن لكل فرد إحداثيات ودقة
ووقت و device_id ، وقد أخذت Tamoco على سبيل المثال الأكثر متوسطًا. وما الذي يمكن أن تفترضه حول قيام المستخدم بالنظر في صف من البيانات الخام إذا كان الشخص لا يتعامل مع التلميحات وروايات الحظ على القهوة؟
ما لم تكن حقيقة أنه ربما في الوقت المحدد قريبة من الإحداثيات المشار إليها. بتعبير أدق ، تم تحديد ذلك من قِبل بعض المكتبات من مجموعة تطوير البرامج (SDK) الخاصة بشخص ما والتي تقوم بجمع الموقع الجغرافي في التطبيق على محطة المشتركين وتحميل هذه البيانات إلى المجمع. يبدو لها أنه كان هناك ، لكن القرار النهائي ، سواء تصدقها أو لا تصدقها ، اتخذ من قبلنا ، وهو بعد الحقيقة بشدة.
مشاكل دقة الإحداثيات في الشريط الأوسط
GPS هو شيء رائع. في الآونة الأخيرة كان هناك
مقال ممتاز حول قدراته ، تأكد من قراءة ، إن لم يكن بالفعل.
هذا فقط كل الأمثلة الرائعة التي توضح الحالات المثالية ، والتي ، للأسف ، لا تنطبق على مجموعات البيانات التجارية.
أولاً ، إن محطات المشتركين المتنقلة من مجموعات البيانات التجارية ليست أجهزة استقبال GPS محترفة على الإطلاق ، وهي مصممة لخدمة غرض واحد ، وهي مصنوعة على قاعدة عناصر أكثر ملاءمة بكثير ، مع مكبرات صوت جيدة وهوائيات كبيرة. الهاتف الذكي هو الهاتف الذكي - أي أرخص المكونات معبأة في علبة صغيرة بهوائيات صغيرة تعمل بفضل الحيل التكنولوجية البرية في عدة نطاقات في وقت واحد ، والتي يكون GPS بعيدًا عن النطاق الرئيسي.
ثانياً ، البيئة الحضرية هي أرض وعرة جدًا. فكر بنفسك - إذا رميت الضاحية الأمريكية ذات الطابق الواحد ، فإن أي شارع عصري في المدينة هو واد عميق بجدران شديدة الانحدار ، ليس فقط لأن الأفق غير مرئي ، ولكن قطعة من السماء فوق رأسك تكون صغيرة جدًا. وللدقة العادية ، يجب أن يكون لديك 4 أقمار صناعية في خط الرؤية المباشرة في نفس الوقت ، وأكثر من ذلك بشكل أفضل. من أجل الاهتمام ، أخرج بطريقة ما إلى فناء المبنى الشاهق واعرف عدد الأقمار الصناعية التي تراها ذكية. (على الأرجح ، ستحتاج إلى نظام أندرويد ذي جذر و / أو نوع من تعقب GPS مدفوع.)
ثالثًا ، يتحرك المستخدم العادي باستمرار ، ولا ينتظر على الفور لعدة دقائق ، إلى أن يلتقط جهاز المشترك المحمول الخاص به العدد المطلوب من الأقمار الصناعية ، ويذهب أو يذهب ، يتحول ، وتتغير الرؤية باستمرار.
رابعًا ، لا يحمل المستخدم الهاتف في يديه دائمًا. في جيبه أو محفظتك أو حقيبة الظهر ، يمكنه الاستلقاء جانباً أو على أي حال ، ولن يمسك بأي شيء على الإطلاق.
خامسًا ، يمكن أن يكون أي مبنى مصنوع من الخرسانة المسلحة
قفصًا فاراديًا كلاسيكيًا أو مجموعة
متدرجة ، أو مرآة ذات خصائص غير خطية مثيرة للاهتمام ، حيث يمكن لكل منهما تضخيم الإشارة وقمعها بسبب التداخل على مسافة ما حولها. أو انعكس بزاوية غير متوقعة ، مرحلة التحول ، وما إلى ذلك. كل هذا يتوقف على درجة المعدن في الجدران الخرسانية.
سادسا ، السيارات حولها مصنوعة أيضا من المعدن.
سابعًا ، في العادة ، لا يتم تحديد موقع GPS داخل المبنى ، بل وأكثر من ذلك في المترو.

كل هذه العوامل تجعل GPS في المدينة غير موثوق بها للغاية ، ويتعين على الشركات المصنعة لمحطات المشتركين في الأجهزة المحمولة (وكذلك مزودي خدمات الموقع لأنظمة تشغيل الهواتف المحمولة) الخروج باستخدام العديد من
تقنيات GPS Assisted .
والأكثر شيوعًا هي التثليث في محطات القاعدة الخلوية وشبكات WiFi (وحتى تقنية Bluetooth).
كل هذه السيارات المضحكة من Google و Yandex مزودة بكاميرات تعمل على التقاط صور بانورامية للمشاهد في الشوارع ، في الواقع ، تقوم بشكل أساسي بجمع معلومات حول CellID وأسماء الشبكات ومستويات إشارات أجهزة التوجيه والصور - وهكذا ، تساهل عابر. بالإضافة إلى ذلك ، تقوم HERE Maps بجمع هذه المعلومات بشكل جماعي - وفي البلدان المتقدمة ، Apple ، وعشرات المكاتب الأصغر. حسنًا ، تعمل المكتبات التي يتم توصيلها في تطبيقات الهاتف المحمول وتزويد بيانات تحديد الموقع الجغرافي باستمرار بنفس الشيء تمامًا ، على سبيل المثال ، مثل أي عنصر واجهة مستخدم تقريبًا يعرض خريطة.
السؤال الرئيسي هنا هو بالضبط.
على عكس GPS ، فإن LBS سيء في استخدامه. 20 مترًا لـ LTE في الحالة المثالية (بشكل عام - ما يصل إلى بضعة كيلومترات) ، وفيما يتعلق بشبكة Wi-Fi ، هنا تعمل أنماط الاتجاهات لأجهزة التوجيه وشبكات الشبكات الممتدة المزودة بوحدات إعادة التكرار والخصائص الفيزيائية لإشارة التردد 2.4 و 5 GHz على تقليل الموثوقية في الهواء الطلق تصل إلى 150 متر أو أكثر.
وهذه هي القفزات المستمرة للمستخدم إلى الجانب الآخر من الشارع أو التقاطع ، أو حتى نصف الربع من المكان الذي يوجد فيه بالفعل - إذا كان جهاز التوجيه في الطابق الخامس ، على سبيل المثال ، وحول الممر الخانق من الأبراج العالية ، فلن تكون هناك إشارة ليتم القبض عليك عند المدخل ، لكنه سوف يمسك تمامًا في نهاية هذا المضيق.
أخيرًا ، يخطئ العديد من الموردين بميزة سيئة أخرى. إذا لم يكن من الممكن تحديد الموضع بدقة مقبولة ، فسيتم نقل المستخدم عن بُعد إلى مركز منطقة
جغرافية معينة - أي إلى مركز المضلع المقابل لرمز بريدي معين أو منطقة إدارية ، تحددها علامات غير مباشرة ، وستكون الخريطة مليئة بمثل هذه "النقاط الساخنة" مع آلاف الإشارات.

موسكو ، الكرملين ، مجموعة بيانات صغيرة من نوفمبر 2019عند النقطة ذات الإحداثيات
(55.75270 ؛ 37.61720) المحددة في الرسم التوضيحي بعلامة
، هناك 208776 إشارة على الفور. هذه هي النقاط التي لم يتم تحديدها بالدقة الواجبة والوقوع في "مركز" السور الجغرافي المقابل لساحة مجلس الشيوخ ، بل هي أيضًا "مركز" الكرملين.
إلى جانبها ، فإن الإحداثيات التالية "ساخنة" جدًا:
(55.75222; 37.61556) 193 (55.75111; 37.61537) 53 (55.74988; 37.61701) 45 (55.74988; 37.61700) 36
وفي جميع النقاط الأخرى من هذه الصورة - إشارة واحدة بالضبط.
والأسوأ من ذلك ، أن "مراكز المناطق" هذه في كل طبقة من طبقات الخرائط مختلفة ، وإذا حاولت Apple و Google نقلها من المباني السكنية (في الولايات المتحدة كانت هناك سوابق سيئة مع الدعاوى القضائية) ، فلن يكلف أحد عناء نقل النقطة من المبنى غير السكني.
تحديد الموقف داخل مركز تجاري كبير بمساحة آلاف الأمتار المربعة هو ألم منفصل. GPS لا يصطاد ، والشبكة الخلوية للمركز بأكمله هي نفسها عادة ، ومن أجل فهم أي من مئات المتاجر التي زارها المستخدم ، تحتاج أيضًا إلى اكتشاف الأرضية بطريقة أو بأخرى. حظا سعيدا في ذلك.
في الواقع ، حتى إذا كان هناك حقل ارتفاع ، فليس من الواضح دائمًا أي من العناصر الجيولوجية التي تم حسابها (وليس بالضرورة
WGS84 ) ، ويعرف FIG مدى ارتفاع الطوابق في المبنى لحسابنا بأنفسنا. وكم هناك؟ في البلدان الآسيوية ، بسبب الخرافات ، على سبيل المثال ، لا يوجد فقط 13 ، ولكن أيضًا 4 طوابق. من الصعب العثور على مثل هذه المعلومات ، ومع المعالجة الجماعية ، لن تؤتي ثمارها عملاً.
لذلك ، بغض النظر عن مدى عدم رغبتنا في ذلك ، يتعين علينا استخدام مجموعات البيانات الخام المتطورة
الاستدلال لتنظيف البيانات من الضوضاء والحطام
لكن أولاً ، سوف أخبرك بمريضنا.
مريضنا مجهول ، واسمه الآلاف ، أو أفضل ، الملايين ، لأن عملائنا يدفعون مقابل الإحصاءات التي يتم جمعها بشكل جماعي. شخص معين لا يصنع الطقس لـ Coca-Cola ، حتى لو كان يشتري شاحنة صودا في وقت واحد. يحتاج التجار إلى أنماط واتجاهات مشتركة ، بالإضافة إلى صورة لكيفية إعدادهم بمرور الوقت. من المهم لمالكي شبكات الحانات في لندن معرفة الطقس والوقت من اليوم ، حيث سيكون لديهم تدفق من الزوار في الحانات الموجودة على الزاوية بالقرب من محطة المترو ، والتي - بجانب دور السينما ، وهم في حالة سكر تمامًا إذا جاءت هذه العينات من الآلاف من المجهولين
فاسيلي Poupkine معينة من ريازان ، أم لا.
الشيء الرئيسي هو أن هناك الكثير ، وأنها ذات صلة. نحن نعمل مع السكان .
لذلك ، على سبيل المثال ، المستخدمون الذين يسافرون بالسيارة والمستخدمين سيرًا على الأقدام هم مستخدمون لقيم مختلفة. بالنسبة إلى الأول ، كلما كانت دائرة الرؤية أضيق ، زادت سرعة الحركة ، ولن ينتبهوا إلى الملصق. ولكن إذا كانوا يقفون في ازدحام مروري ، أو عند إشارة مرور طويلة ، فلماذا لا. مثل المستخدمين الذين يسافرون على الحافلة ، والذين يتجولون ، هذا هو المهنة الرئيسية (إذا لم تكن غبية في شبكتهم الاجتماعية المفضلة في هذا الوقت).
من المهم أيضًا فصل المستخدمين الذين يعملون في geofence المستهدف - يجب فصل بائع المتجر عن زوار المتجر الذي نبحث عنه. بتعبير أدق ، مجموع سكان بائعي جميع متاجر شبكة البيع بالتجزئة من إجمالي سكان المشترين.
وكل هذا يعني أننا نحتاج إلى أن تكون المسارات عالية الجودة بالطرق التالية:
• دون دقة منخفضة من الإحداثيات ،
• بدون تحديد الموقع الجغرافي خلل:
- النقل عن بعد نصف الربع إلى الخلف والظهر ،
- يقفز عبر الطريق ،
- خارج المناطق الساخنة
• مصنفة حسب نوع النزوح:
- سيرا على الأقدام
- بالسيارة
- في الحافلة
- على دراجة أو دراجة بخارية ،
- على شينكانسن أو على متن الطائرة ...
• دون المستخدمين في غير محله في geofence ،
• بدون مسارات مجزأة ، قطع الدوائر بشكل لا نهاية له على مساحة صغيرة (من أين أتت ، ليس واضحًا تمامًا ، لكنها كافية لفصلها في فئة مشكلة منفصلة - على الأرجح ، هذه كلها أنواع من الأقفال مع أجهزة إنذار GSM أو أجهزة مراقبة الأطفال - كما أنها تجمع الموقع الجغرافي ).
وإذا كانت الحالة الأولى تافهة - تكرّر على مجموعة البيانات وتخلص من جميع النقاط التي يكون مجال الدقة فيها أقل من 10 أمتار ، فإن الباقي مجرد مجموعة من المشاكل.
أنت نفسك يمكن تخمين أي منها. على سبيل المثال ، كيفية التمييز بين أحد المشاة ينتظر عند موقف الحافلات من سائق يقف في ازدحام حركة المرور المجاورة؟
علينا أن نجعل بعض الافتراضات ، وأن نبني نماذج رياضية لكل مرشح من هذا القبيل ، مليء بالافتراضات المختلفة. في بعض الأحيان تكون الافتراضات قوية جدًا من حيث إسقاط جزء كبير من السكان.
على سبيل المثال ، يعمل بائع منفذ في أحد مراكز التسوق ، حيث يعمل في نوبة عمل كل يومين. إذا كان هذا غير مناسب في أيام الأسبوع ، فمن المحتمل أن يتم استهدافه في عطلة نهاية الأسبوع لمسرح سينمائي في مركز التسوق نفسه. لكن النكتة هي أن الجدول القياسي من الاثنين إلى الجمعة ويوم عطلة لا ينطبق عليه ، ويجب أن يعمل المصنف بطريقة ما ، أو يطرده تمامًا من المعادلة.
في أي حال ، تم تصميم مرشح مع مجموعة من الإعدادات باستخدام
نهج ارشادي لكل من النماذج.
نقوم بجمع إحصائيات كبيرة ، والعثور على أنماط غير مرغوب فيها فيها ، وصياغة المهمة ، وتصحيحها بشكل تفاعلي ، وكتابة معالجة منفصلة ، ثم تضمينها في معالجة مجموعة البيانات - إذا كنا متأكدين من أنها تتطلب مثل هذا الإعداد.
هناك عدد من الخوارزميات الجاهزة. على سبيل المثال ، لتحديد النقاط الساخنة ، يمكنك استخدام الفلتر الكلاسيكي حسب تردد الإشارة على الشبكة.
لكن المصنف وفقًا لأنواع الحركة ، الذي يعمل وفقًا لمبدأ
الإطار المنزلق وماكينة الحالة (عن طريق التجربة والخطأ ، قضينا ما يقرب من نصف عام على تطويره) ، متطور لدرجة أنه من الخطأ بالفعل تسميته "مرشح".
بالإضافة إلى ذلك ، يكتب بعض الموردين عددًا غير مسؤول من النقاط لكل مسار - إما يقاربون النقاط الوسيطة على الفواصل الزمنية بين القياسات ، أو يحاولون ببساطة إزالتها كل بضعة أمتار ، لكن يتم تلقي عدة آلاف من الإشارات عند المشي لكل كيلومتر. من الواضح أن هذا كثير للغاية ، ولكي لا نغرق في الحجم ، فنحن مضطرون لتخفيف المسارات باستخدام مجريات الأمور الصعبة الأخرى مع النوافذ المنزلقة والرياضيات المعقدة لحساب المسافة من جميع نقاط المسارات إلى
الأقطار الوسطى .
لذلك ، فإننا نسمي عملية فرض سلسلة من الاستدلال على مجموعة البيانات الأصلية عن طريق إثراء البيانات الخام . ونستخرج المعرفة بالفعل من البيانات المخصبة مسبقًا.
وهنا مشكلة مع أي استدلال: ترتيب التطبيق يؤثر بشكل كبير على النتيجة. لذلك ، تبين أن عملية المعالجة في كل مرة تكون فريدة ، ولا تتكرر بشكل جيد للغاية حتى على البيانات من نفس المورد في نفس المنطقة ، ولكن بعد ستة أشهر.
وهناك شيء آخر - لا يمكنك مزج البيانات الأولية من موردين مختلفين في مشروع واحد ، حتى لو قمت بإحضارها إلى قاسم مشترك. ولكن إذا تمت معالجة كل مجموعة بيانات خام بشكل مستقل عن طريق خوارزمية مناسبة لها ، فيمكن بالفعل دمج الإشارات المخصبة (بدون ضوضاء) في مصدر واحد. لم نعثر على المستخدمين المكررة في بيانات الموردين المختلفين.
في أي حال ، يمكن دائمًا استخراج بعض المعرفة من مجموعة البيانات المخصبة إذا حاولت.
أي نوع من "المعرفة" هذا؟
سؤال رائع
- نحن بحاجة إلى العثور على جميع المستخدمين من Ust-Perduysk الذين يرغبون في سرقة الذرة الطازجة من حقل المزرعة الجماعية في نهاية أغسطس.
- عفواً؟
"حسنا ، هذا هو حقل الذرة." أغسطس من العام الماضي.
- نحن عن "سرقة" ...
- حدد بطريقة ما ، أنت خبراء!
- حسنا. أي شيء آخر؟
- يجب أن يدخن بال مول.
- (لنفسي) لماذا Pall Mall ... رغم ذلك ، لا يهمني ، لسنا مهتمين. إذا ظهروا ، فسنجد: D (بصوت عالٍ ، بحزم) فقط إذا أعطيت المعلومات التي قاموا بشرائها.لقد استمعت إلى حوار مع عميل كروي في فراغ ، حتى لو لم يكن حقيقيًا من حيث الكيانات "العيش في Ust-Perduysk" و "حقل الذرة" و "سرقة" والعلامة التجارية المحددة للسجائر ، لكنها أصيلة تمامًا في جوهرها. يتم تعيين المهام بهذه الطريقة - تحتاج إلى العثور على مجموعة معينة من السكان ، موصوفة من حيث geofence وسلوك المستخدم ، مثل مكان الإقامة ، وزيارة فئات معينة من الأماكن في وقت معين ، إلخ. نطاق هذه المهام واسع جدًا ، وقد تكون مجموعة المعلمات غريبة تمامًا.
ولكن إذا كان هناك نوع من أنواع
matmodel ، ثم تطبيق الأساليب الإحصائية على مجموعة كبيرة من البيانات المخصبة (أي عالية الجودة ، وبدون الشذوذ) ، فمن الممكن اشتقاق عدد مناسب من السكان. ستكون جميع التقديرات احتمالية. لا يمكننا أن نقول بشكل لا لبس فيه أن مستخدمًا واحدًا يعيش بالتأكيد في Ust-Perduysk ويسرق الذرة كل شهر أغسطس ، ولكن إذا كان هناك ما لا يقل عن ألف منهم ، فسوف نجد لهم احتمال 90 ٪. ربما يمكننا أيضًا التدخين ، ولكن فيما يتعلق بماركة السجائر ، من المحتمل أن يكون هناك حاجة لسياق إضافي ، وإذا قدم العميل ذلك ، فسنجد الأشخاص المناسبين بينهم - لكننا لا نضمن الدقة.
لكن مثل هذه المهام مع السياق نادرة بالفعل ، وعادة ما نقوم بالبحث على أساس مجموعة معيارية من نماذج الرياضيات المصححة والمختبرة التي تقوم بتحليل السكان بشكل عام في قطاعات مثل:
- الذين يعيشون في geofence / العمل في geofence ،
- التوزيع حسب مستوى دخل الأسرة ،
- سائقي السيارات
- عشاق لزيارة المطاعم والمقاهي ،
- محبي التسوق،
- عشاق الرياضة
- أمهات مع أطفال صغار ،
- رحلة عمل
- السياح الاجانب ...
لكل فئة (أي ما مجموعه بضعة آلاف) ، يتم بناء عملية المعالجة وفقًا للقالب من عمليات محددة مسبقًا مع مجموعة من الإعدادات ، ويتم تحديدها وفقًا لمتطلبات العميل المحددة.
تم تطوير العمليات على النحو التالي: يكتب عالم البيانات النموذج في شكل ورق أبيض ، ثم يتم برمجته وتصحيحه على مجموعات بيانات Python القياسية ، وفي النهاية ستتم المعالجة في Spark (نكتب بلغة Java ، لكن يمكن إجراؤها أيضًا في Scala) ، والتي قمت بتحسينها.
(نعم ، شيء من هذا القبيل في الميم الشهير حول رسم بومة ، ومع ذلك ، سيكون أكثر تفصيلاً في الجزء الثاني من قصتي.)يتم جمع قوالب لمشاريع محددة من عملاء محددين بأنفسهم من قبل محلل بيانات شخصي مدربين. إذا كنت تريد طرح سؤال عليه - فاكتب keskiy في التعليقات ، وستجيبك جينا. بالمناسبة ، يقوم بإعداد العرض التقديمي المرئي النهائي في شكل خريطة حرارة أو جدول Excel كبير جميل ، لأن العملاء ، كقاعدة عامة ، لا يفهمون العديد من الميجابايت من موطئ قدم من الأرقام.عند اكتمال القالب ، يتم تحميل مجموعة البيانات على S3 على Amazon Web Services ، واستخدام السحر (الذي سأصفه بالتفصيل في المقالة الثالثة من هذه السلسلة) ، تتم معالجته في خدمة EMR.ما هو مهم - نحن لا نتولى أبدًا مهمة تحديد شخص معين أو العثور عليه ، لأن أيا من نماذجنا الرياضية لا تعمل على عينات صغيرة. الطبيعة الإحصائية للغاية لجميع الاستدلال لدينا تمنعنا من العمل مع سياق نقطة ، علاوة على ذلك ، فإننا نتجاهل عمدا المستخدمين الذين تجاوزوا النسبة المئوية 95 ، لأن التطابق الجيد هو علامة مزعجة على وجود علامة.على خريطة الحرارة ، يعطي هؤلاء المستخدمون نقطة ساخنة خاصة. سأقدم مثالًا قد يبدو قصصًا ، لكنه حقيقي تمامًا.أنا نفسي مرة واحدة عن غير قصد تسخين مضلع على خريطة الحرارة.: . , , WB, Warner Bros., . , . .
- , , — , device_id, — , . . , .
-, .
— , . . «, -, .» -.
. POI.
Points of Interest
, — , , - … .
, , . , . «77 »:
• 77-1 • 77-8 o 77-8-6 77-8-6-90 McDonalds • 77-8-6-90-1 MacAuto 77-8-6-91 Burger King 77-8-6-92 Pasta Hut
- وهلم جرا.في كل تسوية من هذه "المؤسسات" يمكن أن يكون هناك من واحد إلى عدة آلاف ، ولكل منها تحتاج إلى صيانة وتحديث دليل مع الإحداثيات ، ومجموعة كاملة من الفئات المناسبة. إن مركز التسوق المكون من ثلاثة طوابق مع مئات المحلات التجارية وقاعة الطعام والسينما هو المكان الذي تتركز فيه العديد من النقاط المهمة في وقت واحد ، مع العديد من الفئات المكررة ، ولكن عنوان واحد ، مع الأخذ بعين الاعتبار حقيقة أن النقاط مفتوحة وإغلاق ، والمهمة الآلية الضعيفة للحفاظ على مثل هذه القاعدة تقع على عاتق الباحث.مع الأخذ في الاعتبار حقيقة أنه يمكن طلب السكان على الفور على مستوى المحافظة ، أو حتى في البلد ، يمكن تقدير حجم قاعدة النقاط المهمة لمشروع واحد بملايين النقاط وعشرات الفئات. لكن عليك أولاً أن تأخذها. ومن الجيد أن يتم تطوير البلد ، أو مع مجتمع نشط من رسامي الخرائط OSM. ليس دائما ، لذلك في بعض الأحيان عليك أن تركض.وإذا طلب شخص ما حسابًا على مجموعة بيانات تاريخية ، فيجب عليك العثور على مرجع POI ، ذي الصلة قبل عامين ، وهذه ليست المهمة التي أريد القيام بها على الإطلاق. حسنا ، إذا كان لدينا بالفعل. يجب عليك تجميع أرشيف لقواعد البيانات هذه بشكل مستمر ، فجأة سيكون شخص آخر في متناول يدي.إذا كان لديك اهتمام مفاجئ بالحفاظ على قاعدة POI ، فيمكنك طرح تعليقات منسق المشروع Eugene mitra_kun .حسنًا ، دعنا نفترض أننا وجدنا أو اشترينا بنجاح من بعض دليل GIS المحلي ، قاعدة بيانات POI للمنطقة لمشروعنا المقبل ، وقمنا بتصنيف الفئات (التي قد يختلف المورد جذريًا في المؤسسة عن بلدنا). سنحتاج الآن إلى أخذ مجموعة البيانات المخصّصة الخاصة بنا ، هذه القاعدة ، وحساب شرائح السكان التي نحتاجها.قضايا استخراج المعرفة
يمكنك تجربة الطريقة المبتكرة للمراسلين من صحيفة نيويورك تايمز - "كنت في البنتاغون خلال ساعات العمل ، مما يعني أنها موظف في البنتاغون". لكن هذا المسار مليء بالآثار المختلفة.ما هو "وقت العمل"؟ لقد ذكرت بالفعل فكرة خاطئة مفادها أن جدول العمل 5/2 مناسب للجميع ، ولكن يوم عمل لمدة 8 ساعات بين 9 و 18 صحيح أيضًا فقط على العوالق المكتبية. يوفر هذا ، في أحسن الأحوال ، تغطية لنحو نصف السكان المستهدفين (تقييمنا العملي ، والذي تم استخلاصه من الممارسة). بالإضافة إلى جداول "يومين في اليوم" المذكورة ، يوجد آخرون بالإضافة إلى نوبات مختلفة من الصباح والليل ، حيث تتوافق ساعات العمل مع وقت نوم ممثل نموذجي للسكان.يعد الوضع في وسط المدن الكبيرة مثل لندن أو نيويورك أو طوكيو أكثر إثارة للاهتمام: فهناك العديد من المباني المختلطة ذات المكاتب والفنادق والشقق ، ومن السهل تقسيم السكان الذين "يعيشون" في مثل هذه الأحياء (أي ، ، ينامون - في الليل) و "العمل" (أي ، أنهم في النهار مع ، ربما ، استراحة الغداء) أمر صعب للغاية. ونحن ، كما أكدت مرارا وتكرارا ، ليس لدينا سياق إضافي. فقط الإحداثيات والوقت.حتما ، سيتعين التضحية بجزء كبير من السكان حتى لا يعقد الاستدلال التصنيفي المتطور بالفعل. لذلك ، يجب أن تحتوي مجموعة البيانات الأولية على حجم كافٍ حتى أنه حتى عند التخلص من معظمها ، فإن الخصائص المميزة للقوانين الإحصائية للمجموعات الكبيرة تستمر في العمل عليها.من المثير للاهتمام التعامل مع كل مجموعة فرعية غير نمطية يدويًا ، ولكن هذه عملية طويلة وغير مجففة ، لذلك نتحدث بصدق عن الآثار التي تنشأ ، ونحقق نتائج على المستخدمين غير المعياريين الذين لا يتناسبون مع نموذج الأغلبية. لذلك ، لا تعمل الإعلانات المصممة للمستهلك بكميات كبيرة على نحو فعال لنصف الجمهور كما لو كان من الممكن استهدافها لجميع السكان.حسنا ، مواقع متعددة الطوابق. في نفس عامل المكتب في الطوابق المختلفة ، يمكن تحديد موقع النقاط المهمة من الفئات المستهدفة لمشروع واحد. على سبيل المثال ، مكتب طب الأسنان ، شركة تأمين ، آلة اللياقة البدنية. وفي أي فئة يجب الاعتماد على زيارة لمدة ساعتين لنوع من المستهلكين ، إذا حدث ذلك ، على سبيل المثال ، في 29 أغسطس؟ هل قام (أو هي) بمعالجة أسنانه ، وإبرام عقد CASCO ، أم أنه اشترى عضوية في صالة الألعاب الرياضية في نهاية الشهر؟ ليس لدينا أي سياق ، ويمكننا الاطلاع على البيانات لأشهر أخرى من أجل الكشف على الأقل عن عضوية الصالة الرياضية للزيارات المنتظمة ، ولكن غالبًا ما يكون الطلب صارمًا في أي أغسطس فقط دون سبتمبر ، وهذا كله. نحن نفترض أنه مع كل الاحتمالات تكون جميع الخيارات الثلاثة صحيحة ، ونأخذ في الاعتبار سرعة معينة لكل فئة من هذه الفئات.سجل اهتمامات المستخدم
لسوء الحظ ، ليس لدي الحق في التحدث بالتفصيل عن الرياضيات وراء حساب السرعة ، لأن هذه هي الدراية الحاصلة على براءة اختراع والتي بنيت عليها أعمالنا. نحن نستخدم نموذجًا مختلفًا عن جميع ممثلي الصناعة الآخرين ، والذي جاء من المتطلبات البيولوجية (مؤسس المشروع حاصل على درجة الدكتوراه في علم الأحياء) ، وتم اختباره تجريبياً على مجموعات من الكائنات الحية المختلفة ، من ثقافات الخلايا إلى الفئران ، ثم تم تعديلها من أجل سلوك الإنسان.إذا بدون تفاصيل ، فعند تخصيص سيارة إسعاف لأي زيارة واحدة للسياق الجغرافي المستهدف ، نأخذ في الاعتبار الاهتمام الذي يوليه ممثل السكان لجميع نقاط الاهتمام المتاحة من الفئة المحددة. لنفترض أن حبيب مقدس ، إذا كان لسبب ما غير مرتبط بمطعم معين ، سيزور المقداكي بشكل أساسي ، لكنه يتفوق على ملك البرجر. وفقًا لذلك ، مع معدل إيجابي في فئة "مطاعم الوجبات السريعة" ، سيكون معدل إيجابي أكبر في فئة "McDonalds" ، التي تفوق المعدل السلبي الأصغر في فئة "Burger King".بالنسبة لمستخدم واحد محدد ، فإن "نقاط الخبرة الإجمالية" لا معنى لها ، وقد تبدو عشوائية ، ولكن عندما يتراكم ملايين المستخدمين ، يحدث السحر الإحصائي - مقدار النقاط على مستوى السكان ضمن فاصل الثقة يبدأ بالفعل في عكس صورة اهتمامات هؤلاء السكان في جميع النقاط المهمة للفئات المحددة. لفهم كيف يحدث هذا بالضبط ، تحتاج إلى قراءة الأطروحة المقابلة - أنا لست متخصصًا في علم الأحياء ولا يمكنني الحكم عليها احترافيًا - لكن الحملات الإعلانية التي أجراها عملاؤنا مع مراعاة اهتمامات السكان تعطي نتائج أفضل بكثير من الطرق التقليدية ، المستخدمة في الإعلان والتسويق التقليدية.والأكثر إثارة للاهتمام ، عندما لا نقوم فقط بحساب المبالغ ، ولكن نغطي الخريطة بأكملها بشبكة موحدة وحساب فئات السرعة للإشارات التي تؤخذ في الاعتبار في كل مضلع من هذه الشبكة بناءً على اهتمامات المستخدمين الذين يمتلكون الإشارة المسجلة. في الصورة التي تجذب الانتباه ، يظهر أحدها في بداية المقال ، ولكن في الواقع ، فإن نتيجة مشروع واحد هي عشرات ، أو حتى مئات من هذه الخرائط - لكل فئة مستهدفة وشريحة من السكان.أو - لا يحدث شيء جيد إذا كانت مجموعة البيانات صغيرة جدًا أو صاخبة أو غير دقيقة أو لم يتم تجميع قاعدة النقاط المهمة بشكل صحيح. نظرًا لوجود استدلال ونماذج غير كاملة ، يجب أن تكون البيانات كبيرة بدرجة كافية حتى تكون النتيجة موثوقة.لكن البيانات الكبيرة ليست في الحقيقة حول الحجم.وما هو عليه ، وكيف تنشأ أثناء المعالجة ، سيتم مناقشتها في الجزء التالي. لا تقم بالتبديل ، خلال يومين أتحدث عن كيفية قيامنا ببناء ناقل آلي في سحابة Amazon من نموذج أولي تم تجميعه على ركبتي ، وتعلمت كيفية حساب تيرابايت من البيانات الخام في دقائق بدلاً من أسابيع. ستكون هذه مقالة أكثر تقنية.
هؤلاء هم هؤلاء الرجال.شكرا وسؤال موجز
بدون ملاحظات الزملاء العظماء - المهندسين على البيانات الضخمة ، لما كانت هذه المقالة واضحة جدًا:وبدون التغييرات التحريرية لنادي نوسكوفا وبولينا روسينوفا من فريق HUDWAY ، لم تكن لتخرج بسهولة القراءة. شكرا لك
الآن أسئلة وأجوبة سريعة للمراجعين.س: كم عدد النقاط في الساعة / اليوم / دقيقة للشخص "العادي"؟ هذا هو ، بشكل عام ، يمكننا التجميع بحسب device_id ونفهم أين كان الشخص أثناء النهار؟ هل يمكنني لصق البيانات بشكل مستمر لمدة أسبوع؟ج: لا يوجد متوسط واضح ، فقد يكون هناك نقاط من واحد إلى ملايين (مشكلة "الذيل الطويل" ؛ نزيل المستخدمين مع عدد النقاط تحت المئين الخامس و 95) ، وهذا يعتمد بشكل كبير على المورد. يمكنك التجميع ، الالتصاق معًا ، ولكن لا تحتوي سحابة النقطة الناتجة على أنماط واضحة "بالعين" ، إنها مجرد سحابة تم إلقاؤها عشوائيًا على الخريطة. بعد التخصيب ، تكون المسارات مرئية بالفعل ، لكنها عادةً ما تنكسر في أكثر الأماكن غير المتوقعة ولا تساعد كثيرًا.Q.هل من الممكن الانضمام للعائلات؟ ما 2-3 أجهزة تسير معًا لعدة أيام عطلة؟ قطع من الجيران؟A. ومن المشكوك فيه. من غير المحتمل أن يكون لدى أفراد الأسرة مجموعة متطابقة من التطبيقات على أجهزة المشتركين ، ومن غير المحتمل أن تتزامن أنماط الاستخدام تمامًا. حتى الآن ، لم تكن لدينا مثل هذه المهمة ، ولكن يمكنك المحاولة. إذا طلب منا شخص ما مثل هذه الدراسة ، بالطبع ، لا يمكننا قضاء وقت فراغ في اختبار فرضية.س: من وجهة نظر العمل ، هل من الممكن استهداف عملاء معينين؟ كيف؟
لا يوجد سوى بعض device_id ، لكن من الواضح أننا لا نعرف رقم الهاتف أو البريد. فقط إذا مر هذا المستخدم مرة أخرى في مكان ما باستخدام نفس device_id؟ هل هو ثابت؟ أم أنها شيء مثل بصمة الإصبع ويمكن أن تتغير من مزود البيانات؟أ. يعيّن الموفر device_id ، وهذا ليس ما هو مرئي ، على سبيل المثال ، في إعدادات الهاتف ، أي هناك إخفاء هوية مزدوج. ليس لدينا أي بيانات إلى جانب ما تم رسمه في تشريح مجموعة البيانات. داخل الموفر ، يظل كما هو بالنسبة لجهاز واحد ، ويمكنك لصق مجموعات البيانات الشهرية ، ومن المحتمل أن يظل الاستخدام كما هو.Q.مزود البيانات ، وضح بمزيد من التفاصيل. بمعنى ، هذه ليست مشغل خلية على الأبراج ، ولكن "شيء يعمل على الهاتف" يجمع مواقع في الخلفية ثم يستنزفها في مكان ما مع حزمة؟ إذا كان الهاتف قديمًا ، بدون الإنترنت ، فإن البلوتوث المضمن - هل سيقوم شخص ما بجمع هذه البيانات؟ إذا كنت على الطريق السريع في محطة وقود ، فلا توجد شبكة Wi-Fi في أي مكان ، فهل يمكنني جمع المعلومات؟A.هذه هي نفس المكتبة التي تعرض إعلاناتك في تطبيقاتك ، أو هي جزء منها ، مثل عرض الأماكن على الخريطة. إنه يعمل على هاتفك إذا سمحت للتطبيقات بجمع الموقع الجغرافي (أو تم تسجيل هذا الإذن في بيانها). يتم جمع المعلومات بشكل مستمر أثناء تشغيل التطبيق في الخلفية ، وعندما تكون الشبكة متوفرة ، يتم إرسال المعلومات المتراكمة بواسطة الحزمة إلى سحابة الشبكة الإعلانية أو مزود خدمة الخريطة ، ومن هناك يتم تجميعها بالفعل من قبل المجمعين.Q. أكثر قليلاً حول موفري البيانات حتى الآن. اتضح أن هناك أكثر من واحد. هل ما زالوا يجمعون فقط جزء من التدفق ، 10/20 / 40/70 ٪؟ هل تم كسرها بطريقة ما عبر الإقليم؟ يمكن أن تتداخل في الوقت / الموقع ، مشغل للهاتف المحمول ، أو أي شيء آخر؟ أو مجرد كمية غبية يمكن الإجابة ، لا استهداف؟A.نعم ، يوجد الكثير منهم ، لكننا لا نعرف عن الأسهم. شخص ما هو أفضل في بلد واحد ، شخص آخر في بلد آخر. عادة ما يخبر العملاء أنفسهم الذين يريدون معالجة بياناتهم. لم ننجح في لصق المستخدمين بشكل صحيح في مجموعات بيانات الموردين المختلفين في نفس المنطقة لنفس الفترة الزمنية. استهداف جميع الموردين هو نفسه - وفقًا لجغرافيا المنطقة. البلد ، الولاية ، المدينة ، إلخ ، ولكن التقاطعات بينهما ليست ملحوظة.إذا كانت لديك أسئلة أخرى ، فلا تتردد في طرحها في تعليقات Gene keskiy و Eugene mitra_kun . الرجال مشغولون للغاية ، لكنهم بالتأكيد سوف يجيبون على أسئلة مثيرة للاهتمام وذات مغزى حول معالجة بيانات المستخدم والحفاظ على قاعدة بيانات للغناء في غضون بضعة أيام.مع المشكلات الفنية ، أوصي بالانتظار حتى نهاية هذه السلسلة من المقالات.