
في الوقت الحاضر ، لا تفاجئنا البيانات الصحفية الصادرة عن شركات التكنولوجيا إلا قليلاً. تفاصيل الابتكارات إما تتدفق قبل بضعة أشهر أو ليست مثيرة للإعجاب. لكن في الآونة الأخيرة ، صادفنا العديد من المفاجآت الحقيقية. قبل بضعة أشهر من إصدار Switch ، قررت Nintendo أن مستقبل وحدات التحكم كان ماضيها وأعلنت
NES Classic .
وفوز شركة AlphaGo
من Google على البطل بين الأشخاص ثبط الخبراء الذين يعتقدون أنه لا يمكن الحصول على هذه النتائج في وقت لا يتجاوز عشر سنوات.
يمكن مقارنة
إعلان ديسمبر لمتجر Amazon Go للبيع بالتجزئة ، حيث يمكنك ببساطة شراء المنتجات من الرفوف والخروج ، بصدمة أخبار AlphaGo. عُرفت طريقة "الاستلام والمغادرة" لبعض الوقت باسم "مستقبل مبيعات التجزئة" وكانت "بضع سنوات فقط" من عصرنا. لقد عملت في قسم أبحاث الروبوتات في كالتيك ، وستانفورد ، وبيركلي لأكثر من عشر سنوات ، والآن أنا مسؤول عن شركة
ناشئة تصنع كاميرات أمنية للاستخدام في الهواء الطلق. كانت رؤية الكمبيوتر جزءًا كبيرًا من عملي. ولكن قبل بضعة أشهر فقط من الإعلان ، أخبرت شخصًا بثقة أن الأمر سيستغرق عدة سنوات أخرى لتطبيق النظام "يأخذ ويغادر". ولم أكن الوحيد الذي يعتقد ذلك - قبل شهرين فقط ، كان لدى
Planet Money حلقة حول هذا الموضوع.
لذلك عندما فاجأتنا أمازون فجأة بخلق مثل هذا الشيء ، كان السؤال الأول واضحًا: كيف ستعمل؟ في الفيديو الترويجي ، يندفعون بكلمات كبيرة مثل رؤية الكمبيوتر والتعلم العميق وتوليف المستشعر. ولكن ماذا يعني كل هذا وكيف تجمع حقًا كل هذه الأشياء؟
سأبدأ بالكشف عن المؤامرة: في الواقع ، لا أعرف ذلك. لم أشارك في تطوير المشروع ، ولم تتحدث الشركة عن كيفية عمله. ولكن ، بالنظر إلى خبرتي وعملي في مجال رؤية الكمبيوتر ، يمكنني إجراء بعض التخمينات المدعومة بالمعرفة. في جوهره ، يبدو Amazon Go مثل تطوير الذكاء الاصطناعي ، ورؤية الكمبيوتر وصنع القرار التلقائي ، مثل AlphaGo ، واختراقات مفاجئة في مجال الأجهزة الآلية. خلقت الاختراقات في الإحصاءات والحوسبة المتوازية على مدى السنوات الخمس الماضية معلما جديدا في مجال الذكاء الآلي.
هذا هو السبب في حدوث تطورات متطورة في الأمواج ، وبالتالي ، مما يسمح لشركة robomobile بأخذك إلى المتجر لشراء حزمة من الحليب ، فإنك تدمر التفاعل بين الناس في وقت أبكر بكثير مما كان يتخيله أي شخص.
عربة التسوق
لفهم كيفية عمل أنظمة Amazon Go البيئية بشكل أفضل ، تحتاج إلى تحديد مهمة. في حالة محل بقالة ، يجب على أمازون أن يجيب على سؤال واحد: ماذا يأخذ الزائر معه عندما يغادر المتجر؟ بمعنى آخر ، ماذا يوجد في عربة التسوق؟
في الواقع ، هناك طريقتان فقط للإجابة على السؤال. تحتاج أمازون إما إلى النظر في السلة عندما يغادر المستخدم ، أو تتبع ما يقع بالضبط في هذه السلة. الطريقة الأولى التي نسميها خط الخروج ، وهذه هي الطريقة التي تعمل بها معظم المتاجر الحديثة (تحقق من كل شيء يأخذه المستخدم معه). نهج آخر أسميه حساب شريط. بينما يراقب النادل جميع طلبات العملاء ، يمكن للشركات معرفة ما هو موجود في سلة التسوق ، وتتبع ما يدخل بالضبط في السلة أو يتركها. من الناحية المثالية ، ستعرف بالضبط ما هو موجود ، ولن تضطر إلى إجبار المستخدمين على إظهار مشترياتهم.
بالطبع ، Amazon Go ليس متجر بقالة عادي. لا يجب عليه فقط معرفة ما يوجد في كل سلة معينة ، ولكن أيضًا فهم من الذي يتقاضى المال مقابله. للشحن في عالم خالٍ من الصرافين ، تحتاج إلى تحديد المستخدم.
كيف ستتعامل أمازون مع هذا؟ كيف ستقوم الشركة بتتبع الأشخاص في المتجر وماذا يأخذون من الرفوف أو يعودون دون ارتكاب أخطاء؟ كل شيء يبدأ بالكاميرات. فهي غير مزعجة ورخيصة ، ويمكن إعدادها في كل مكان. تحدث أمازون عن ذلك من خلال ذكر رؤية الكمبيوتر في الفيديو. ولكن كيف يمكن معالجة الكاميرات التي تراها واستخدامها لتتبع المشترين وأفعالهم؟ هنا يأتي المصطلح الثاني ، التعلم العميق.
الخلايا العصبية
ولدت فكرة استخدام الكاميرات في عملية الشحن منذ فترة طويلة ، ولكن حتى وقت قريب ، ظلت مجرد فكرة.
حتى الآن ، عملت خوارزميات الرؤية من خلال العثور على الخصائص الملحوظة للصورة وجمعها في الأشياء. كان من الممكن استخراج الخطوط والزوايا والوجوه من الصورة. تمنحك أربعة خطوط وأربع زوايا في تركيبة معينة مربعًا (أو مستطيلًا). يمكن استخدام نفس المبادئ لتحديد وتتبع كائنات أكثر تعقيدًا باستخدام خصائص ومجموعات أكثر تعقيدًا. يعتمد تعقيد خوارزميات الرؤية على مدى تعقيد الخصائص والتقنيات المستخدمة للتعرف على مجموعات معينة من خصائص الأشياء.
لفترة طويلة ، اعتمد التقدم الأكثر إثارة للاهتمام في رؤية الكمبيوتر والتعلم الآلي على اختراع خصائص متزايدة التعقيد من قبل الباحثين. بدلاً من الخطوط والزوايا ، جاءت الموجات وطمس الغاوس ، والخصائص ذات الأسماء الباطنية مثل SIFT و SURF. لبعض الوقت ، كانت أفضل خاصية لتحديد شخص في الصورة تسمى HOG. ولكن سرعان ما أصبح من الواضح أن الإنشاء الدقيق للخصائص يدويًا يعتمد بسرعة على سقف قدراتها.
عملت الخوارزميات القائمة على التعرف على خصائص معينة بشكل جيد بشكل مدهش في التعرف على ما شاهدوه بالفعل. اعرض الخوارزمية صورة لحزمة من 6 علب من الكولا ، وستصبح خبيرًا عالميًا في التعرف على عبوات من 6 علب من الكولا. ولكن لم يتم تعميم هذه الخوارزميات ؛ كان من الصعب عليهم التعرف على الصودا بشكل عام ، أو عالم المشروبات الأوسع.
ومما زاد الطين بلة ، أن هذه الأنظمة كانت غير موثوقة ، وكان من الصعب جداً تحسينها. يتطلب تصحيح الأخطاء تعديلًا يدويًا دؤوبًا لمنطق العمل ، وفقط أطباء العلوم الذين يمكنهم فهم كيفية عمل الخوارزمية يمكنهم القيام بذلك. في حالة المتجر ، ربما لا تهتم إذا مزجت الخوارزمية زجاجة من الكولا مع زجاجة بيبسي ، لكنك ستقلق إذا قبلت الخوارزمية زجاجة نبيذ بقيمة 20 دولارًا لزجاجة صودا بقيمة 2 دولار.
تم تصميم فرص التعلم العميق اليوم بشكل متعمد للتخلص من البحث اليدوي وتحسين ميزات الصورة. بدلاً من محاولة العثور على الخصائص المميزة يدويًا ، فإنك تستخدم كميات هائلة من البيانات لتدريب الشبكة العصبية. من خلال الأمثلة على ما يجب أن تتعرف عليه ، تجد الشبكة العصبية الميزات نفسها. تتعلم الخلايا العصبية منخفضة المستوى التعرف على الأشياء البسيطة مثل الخطوط ، ويتم تمرير مخرجاتها إلى الخلايا العصبية التي تجمع بين هذه البدائية في أشياء أكثر تعقيدًا ، مثل الأشكال ، في العمارة الهرمية.
ليس من الضروري الإشارة إلى الميزات التي يجب أن تتعرف عليها الخلايا العصبية ؛ أثناء التدريب ، تظهر ببساطة من تلقاء نفسها. تحدد الخلايا العصبية أي الأنماط من الأفضل تطوير الحساسية. إذا حاولت إنشاء نظام يتعرف على الصودا ، فأنت تعرض عشرات الآلاف من صور الصودا ، وسوف تنتقل من الخطوط والمنحنيات إلى الأشكال ، ثم إلى الصناديق والزجاجات.
يعمل دماغنا بالطريقة نفسها تقريبًا ، وبالتالي ، يتم تصحيح الخطأ وفقًا للمخططات البشرية. على الأمثلة. إذا كانت شبكتك العصبية تخلط بين النبيذ والصودا ، فأنت بحاجة إلى إصلاحه من خلال إيجاد بضعة آلاف أخرى أو أمثلة أخرى ، وتدريبها عليها. ستكتشف بنفسها كيفية التمييز بين الأشياء.
برمجيات لمحاكاة عمل الخلايا العصبية موجودة منذ عدة عقود ، لكن استخدامها للرؤية الحاسوبية ظل طويلاً في المجال النظري. لمحاكاة رؤية الحيوانات ، يلزم وجود عشرات إلى مئات الطبقات من الخلايا العصبية ، يحتوي كل منها على عشرات الآلاف من الخلايا العصبية. ومع كل طبقة جديدة ، ينمو عدد الروابط بين الطبقات بشكل كبير. لتشغيل مثل هذه الشبكات يتطلب طاقة كمبيوتر ضخمة ، والتدريب - كميات كبيرة من البيانات.
لإنشاء شبكة عصبية تعمل في فترة زمنية معقولة ، من الضروري ضبط هيكلها لتقليل عدد الاتصالات الداخلية. ولكن بعد ذلك مطلوب الكثير من حصانا.

التعاون الحسابي
كان الاختراق التالي هو استخدام GPU كمبيوترات فائقة سطح المكتب. تتطلب محاكاة الشبكة العصبية جمع بيانات المدخلات وحساب بيانات المخرجات للعديد من الخلايا العصبية - وهذه العملية من السهل موازنتها. بدأت الساعات التي استغرقت أقوى وحدات المعالجة المركزية في العمل في غضون دقائق على متوسط يد وحدة معالجة الجرافيكس.
أتاحت الحوسبة المتوازية على وحدة معالجة الرسومات أخيرًا للباحثين الاستفادة من الاكتشاف القديم - بناء شبكة عصبية لمحاكاة الرؤية. تذكر أنه حتى شبكة بسيطة تتكون من عدة مئات الآلاف من الخلايا العصبية يمكن أن يكون لها مليارات الاتصالات. كلهم بحاجة إلى محاكاة ، ما لم يكن هناك بعض الاختصارات لهذه المركبات للعمل.
لحسن الحظ ، يمكنك الغش قليلاً لإنشاء شبكات رؤية - لدينا أمثلة مدهشة للشبكات العصبية المحسنة للرؤية في رؤوسنا. علم الأحياء العصبي يميز القشرة البصرية للثدييات منذ عقود ، والتي كانت بمثابة مصدر إلهام. لذلك ولدت
الشبكة العصبية التلافيفية (SNS). على مدى السنوات القليلة الماضية ، أصبحت واحدة من أكثر الأدوات شعبية وقوية في مجال رؤية الكمبيوتر.
الالتفاف مفهوم رياضي مذهل ، وهو تفسير بسيط يتجاوز قدراتي. واحدة من ملونة ، ولكن من وجهة نظر فنية خاطئة تمامًا ، فإن طرق تخيلها هي أن تأخذ وظيفة رياضية واحدة وتحريكها فوق أخرى ، مع ملاحظة النتيجة.
في نظام الحسابات القومية ، كما هو الحال في القشرة البصرية ، هناك عصبونات حساسة لخصائص معينة (مثل الأنف) ، ويتم توزيعها عبر مجال الرؤية. يرتبط ناتج هذه الخلايا العصبية كما لو أننا أخذنا العصبون الوحيد الحساس للأعصاب ووجهناهم عبر مجال الرؤية بأكمله. والنتيجة هي إخراج يحتوي على معلومات الموقع في صورة الأنف. هذا ، بالطبع ، لا يقتصر على الأنف - يتم استخدام التأثير لإنشاء علامات مكانية حيث توجد ميزات معينة على الصور. يتم تغذية هذه العلاقات المكانية إلى الطبقات العليا من الشبكة ، ويتم دمجها فيها للتعرف على الأنماط والأشياء.
أصبح نظام SNA وحيًا في مجال رؤية الكمبيوتر. إنها مفيدة للغاية في التعرف على الأشياء المعممة: أنت تدرب نظام الحسابات القومية ليس على التعرف على سيارة أو شخص معين ، ولكن على السيارات أو الأشخاص بشكل عام. حتى أنهم جعلوا أحد الرسوم المتحركة XKCD الشهيرة غير ذي صلة.

وبسبب الطبيعة المكانية لهيكلها ، فإنها تتناسب جيدًا مع موازاة وحدة معالجة الرسومات. يمكن محاكاة الخلايا العصبية المختلفة التي تلاحظ أجزاء مختلفة من الصورة بشكل مستقل تمامًا. فجأة أصبح من الممكن التعرف بسرعة وبتكلفة زهيدة على الأشخاص والأماكن والأشياء بدقة مذهلة.
أدى الانفجار المتزامن لشعبية الهواتف المحمولة والشبكة إلى وصول مئات الملايين من الأشخاص إلى الإنترنت وتحميل مليارات الصور على خدمات مثل
Facebook و Google ، مما أدى عن غير قصد إلى إنشاء مجموعات ضخمة لخوارزميات التدريب.
التطورات الأخيرة المتطورة تذهب أبعد من ذلك. أنشأ الباحثون
شبكة عصبية متكررة (RNS) مع ذاكرة مدمجة. بدلاً من نقل الاتصالات إلى الطبقة التالية ، فإنه يستخدم اتصالات داخلية لإنشاء ذاكرة للقراءة فقط. إذا كنت على دراية بالمنطق الرقمي ، فيمكنك أن تتخيل المحفزات على أنها تشبيه. هذا يعني أنه يمكنك تدريب الشبكات بطبقة مرئية واحدة "تنظر" إلى الصورة وتنقل كل ما تراه إلى الذاكرة ، حتى تتمكن الشبكة من التعرف على الإجراءات على الفيديو.
وبعد هذه التطورات ، لديك فجأة خوارزميات يمكنها التعرف على الأشخاص والأشياء والأفعال بدقة عالية للغاية. بعبارة أخرى ، يمكنك تدريب الخوارزميات للتعرف على شخص ما ، ومعرفة مكان المنتج من المتجر على الصورة عند نقله ، والتعرف على الوقت الذي يضعه فيه الشخص أو يزيله من على الرف. ما عليك سوى القليل من GPU. وما مدى ملاءمة أن واحدة من أكبر مجموعات GPU المتاحة عند الطلب تنتمي إلى Amazon - إنها خدمة السحابة القوية والمربحة للغاية من AWS.
هل كسرنا سر Amazon Go من خلال الجمع بين الكاميرات الرخيصة وخوارزميات الدماغ وجيش من أجهزة الكمبيوتر؟ ليس في الحقيقة ، لأنه يجب حل مشكلة أخرى. زاوية عرض الكاميرات محدودة - فكيف يمكن للشركات تغطيتها في جميع أنحاء المتجر؟ ماذا لو وقف العميل بين الكاميرا والرف؟
للقيام بذلك ، تأكد من عرض أي منطقة على كاميرات متعددة. لكن هذا يثير سؤالًا آخر - كيف يمكن دمج بيانات الإدخال الخاصة بعدة كاميرات في صورة متماسكة لما يحدث؟
تركيب الطعام
لهذا سنعود في 1960s. ثم واجه مهندسو وكالة ناسا مشكلة كبيرة - كان لديهم العديد من أدوات التنقل المختلفة ، من الجيروسكوبات إلى تتبع النجوم ، وكانوا بحاجة إلى تقليل جميع القياسات إلى أفضل تقدير واحد لموقع المركبة الفضائية.
واجه Amazon Go مشكلة مماثلة. لكي تعمل هذه الفكرة بأكملها ، من الضروري دمج الملاحظات من عدة كاميرات مختلفة لفترات زمنية مختلفة في معلومات واحدة متماسكة حول عربة التسوق. الصيد هو أن العالم هو في الأساس مكان غير محدد ، لذا كان القرار هو قبول عدم اليقين هذا. بدلاً من محاولة تحديد كل شيء بأقصى قدر من الدقة ، تستخدم النماذج الناجحة نهجًا احتماليًا.
في وكالة ناسا ، كان لديها خوارزمية تسمى
مرشح كالمان ، والتي استخدموها لمراعاة أخطاء كل أداة ومجموعة من القياسات في أفضل تقدير ممكن. يعتمد مرشح كالمان على
صيغة Bayes .
في الجوهر ، صيغة بايز هي علاقة رياضية تربط بين ملاحظة الحدث واحتمال حدوثه ، وتمنحك احتمالية وقوع الحدث حقًا. والنتيجة هي كما يلي: اعتقادنا بأن إحدى الحالات المحتملة صحيحة (احتمال خلفي) يساوي قوة إيماننا في هذه الحالة قبل الملاحظة (احتمال مسبق) ، مضروبًا في دعم هذه الحالة مع البيانات التي تم الحصول عليها من أجهزة الاستشعار.
العودة إلى مثال النبيذ والصودا: على سبيل المثال ، أفادت شبكة عصبية أن العميل أخذ النبيذ. تخبرنا صيغة Bayes أن الاحتمال الذي أخذه بالفعل يساوي احتمال أنه سيأخذ النبيذ ، مضروبًا في احتمال أن الكاميرا تشير بشكل صحيح إلى حقيقة تناول النبيذ.
الأمازون له ميزتان كبيرتان عند استخدام مخطط احتمالي قائم على بايزي. أولاً ، يمكن للشركة أن تنظر في احتمالات مسبقة ، لأنها تعرف تاريخ المشتريات السابقة للعديد من العملاء. هذا يعني أنه إذا كان عميل Amazon Go يشتري القهوة والكب كيك كل يوم ثلاثاء ، فحتى قبل أن يذهب إلى الرفوف المناسبة ، يمكن أن يزيد المتجر بالفعل من احتمال عمليات الشراء هذه. هذه طريقة طبيعية لاستخدام كمية كبيرة من بيانات المستخدم التي تمتلكها الشركة بالفعل.
الميزة الكبرى الثانية هي أن ترجمة كل شيء إلى لغة احتمالية تسمح لك بإضافة قياسات متعددة من أجهزة استشعار متعددة على مدى فترات زمنية متعددة. بافتراض استقلالية الملاحظات ، يمكنك ببساطة مضاعفة الاحتمالات. أيضا ، يمكن استخدام الاحتمال الخلفي لحدث كدليل لحدث آخر.

على سبيل المثال ، دع عدة كاميرات ترى رفًا واحدًا. بعضها أقرب ، والبعض الآخر أبعد. تعتقد العديد من الكاميرات أن العميل أخذ صودا رخيصة من الرف ، ويعتقد المرء أنه أخذ منتجًا باهظ الثمن ، والآخر لم ير أي شيء ، والآخر يعتقد أنه كان يقطف أنفه. وماذا الآن؟
يمكن أن يأتي Amazon بمنطق معقد لهذه الحالة ، والذي سيتبع منه الكاميرا التي يمكن الوثوق بها. هل كان أقرب وأفضل رؤية الكاميرا ، التي اعتقدت أن العميل قد أخذ صودا باهظة الثمن؟ هل تم حظر المشتري بواسطة كاميرا شهدت قطفًا في الأنف؟ لكنك تحتاج فقط إلى المصداقية. استنادًا إلى عدد أخطاء كل كاميرا ، اعتمادًا على موقعها ونظرة عامة عنها ، تخبرنا صيغة Bayes كيفية الجمع بين جميع بيانات الإدخال من أجل فهم ما هو احتمال أن يأخذ المستخدم صودا رخيصة أو باهظة الثمن أو لم يأخذ شيئًا.
في الواقع ، بما أنك انتقلت إلى عالم الاحتمالات الرائع ، تسمح لك صيغة Bayes بدمج المدخلات مع أنواع مختلفة تمامًا من أجهزة الاستشعار.
لذلك ،
قدمت أمازون
طلبات براءات الاختراع لاستخدام أجهزة استشعار RFID للدفع تلقائيًا مقابل المشتريات. يتم وضع أجهزة استشعار RFID السلبية على البضائع ، ثم قراءتها بواسطة الماسحات الضوئية الموجودة في المتجر. هذه التكنولوجيا هي مرشح ممتاز لإنشاء متجر آلي ، لأنها رخيصة وواسعة الانتشار اليوم. وبما أنه يسمح بالمسح عن بُعد ، يمكن استخدامه بدلاً من أمين الصندوق. ضع الماسحة الضوئية حيث يذهب العملاء ، وسترى ما هو موجود في سلة التسوق الخاصة بهم ، دون الحاجة إلى الحصول على البضائع وتقديمها إلى الصراف. عند مشاهدة مقطع فيديو ترويجي ، لاحظت أن جميع السلع معبأة مسبقًا - طعام معلب وعبوات رقائق ورقائق بلاستيكية مع طعام. هذه المنتجات ليس لديها المزيد من الأرباح فحسب ، بل تسمح لك أيضًا بوضع علامة على كل عنصر.
لكن استخدام RFID وحده له عيوبه.
لن يكون من الممكن التمييز بين مشتري وآخر. ترى أن المتجر يترك مجموعة من المشروبات الغازية والرقائق والسندويتشات ، وتفهم أن هذه عملية شراء ، ولكن من اشترى؟ بالإضافة إلى ذلك ، قد تتسبب RFID في حدوث أخطاء. إذا مر عميلان بجوار الماسح الضوئي ، يمكنك مسح مشتريات كليهما ، ولا تعرف من طلب ماذا.تساعد التقديرات الاحتمالية المستندة إلى صيغة Bayes على التعامل مع مثل هذه المشاكل. يمكن للأمازون أن تعطي احتمالات حسب الموقع ومجموعات التسوق المحتملة لمئات المشترين. يشبه الموقف تفسير متعدد العالم لميكانيكا الكم: في كل مرة بعد إجراء من العملاء ، يقوم المتجر بإنشاء "عالم" جديد مع هذا الإجراء وتتبعه (تحديث احتمالية هذا العالم وفقًا لـ Bayes).دعنا نعود إلى الكاميرات ومثال الصودا: استنادًا إلى RFID ، يمكن لـ Amazon استخدام المسح الضوئي لتأكيد أو دحض الكاميرات ، دون الحاجة إلى تطوير أي منطق خاص.والكرز على الكعكة. كما هو الحال مع التعلم الآلي للشبكات العصبية ، يتم تحسين الدرجات الاحتمالية بمزيد من البيانات. كما هو الحال مع الإحصاءات ، كلما زادت القياسات التي تحصل عليها ، كان ذلك أفضل. تعمل كل مجموعة بيانات جديدة على تحسين دقة النظام وإدراكه من قبل المستخدم.وتفخر أمازون بتقديم ... عشاءك
قد لا يكون الوصف دقيقًا ، وبالتأكيد لن نكتشف ذلك حتى تكشف أمازون عن بطاقاتها ، لكن صيغة Bayes تساعد على إكمال صورة واقعية إلى حد ما لكيفية عمل هذا النظام الجديد.عند دخول المتجر ، يمكنك تمرير هاتفك الذكي على الماسح الضوئي. تتتبع الخوارزميات التي تعتمد على الكاميرا مع التعرف على الصور والتدريب المتعمق أثناء التسوق. في كل مرة تأخذ فيها عنصرًا أو تعيده ، تتعرف الكاميرات على هذا الإجراء. يتم دمج الملاحظات من العديد من الكاميرات باستخدام صيغة بايزي ، وتعطي معلومات حول ما أخذته. يراقب النظام جميع المجموعات الممكنة للبضائع التي أخذتها. في كل مرة تمر فيها بباب أو إطار ، يتم مسحك بحثًا عن علامات RFID ، مما يسمح للنظام بتقليل قائمة التركيبات. عندما تغادر المتجر ، يبحث النظام في قائمة ما يعتقد أنه لديك ، ويختار التخمين على الأرجح ، ويخصم المبلغ اللازم من حسابك.أصبح كل هذا ممكنًا مع تطوير التعلم العميق والحوسبة السحابية والتقييمات الاحتمالية. لم يكن بالإمكان عمل Amazon Go حتى قبل خمس سنوات ، ولكن اليوم جميع المكونات متاحة بالفعل. وتندمج نفس التركيبة حاليًا في قلب تطوير أنظمة الروبوت والذكاء الاصطناعي وأنظمة ترجمة النصوص وغير ذلك الكثير. اليوم من المثير للاهتمام العمل في مجال تدريب الكمبيوتر. وعلى الرغم من أنني مهتم جدًا بمعرفة ما ينتظرنا أيضًا ، آمل أن أستمتع قريبًا بزيارة المتجر ، حيث يمكنك فقط استلام البضائع والمغادرة.