12 جديد Azure Media Services الذكاء الاصطناعي

تتمثل مهمة Microsoft في منح كل شخص وكل مؤسسة على هذا الكوكب الفرصة لتحقيق المزيد. تعد صناعة الإعلام مثالًا رائعًا لترجمة هذه المهمة إلى واقع ملموس. نحن نعيش في عصر يتم فيه إنشاء المزيد والمزيد من المحتوى ، بطرق أكبر وأكثر على الأجهزة. في IBC 2019 ، شاركنا أحدث الابتكارات التي نعمل عليها حاليًا وتحدثنا عن الكيفية التي يمكن بها المساعدة في تحويل عملية الوسائط الخاصة بك.

التفاصيل تحت خفض!

هذه الصفحة موجودة على موقعنا.

يقدم Video Indexer دعمًا للرسوم المتحركة والمحتوى متعدد اللغات


في العام الماضي في IBC ، جعلنا مفهرس الفيديو Azure Media Services الحائز على الجوائز متاحًا للجمهور ، وهذا العام أصبح أفضل. يستخرج "مفهرس الفيديو" تلقائيًا المعلومات والبيانات الوصفية من ملفات الوسائط ، مثل الكلمات المنطوقة ، والوجوه ، والعواطف ، والسمات ، والعلامات التجارية ، ولا تحتاج إلى أن تكون خبيرًا في التعلم الآلي لاستخدامها.

تتضمن أحدث عروضنا إصدارات أولية من ميزتين شائعتين ومتمايزتين - التعرف على الشخصيات المتحركة ونسخ الكلام متعدد اللغات ، بالإضافة إلى العديد من الإضافات إلى الطرز الحالية المتاحة اليوم في Video Indexer.

التعرف على الشخصيات المتحركة



يعد محتوى الرسوم المتحركة والرسوم المتحركة أحد أكثر أنواع المحتوى شيوعًا ، ولكن نماذج رؤية الماكينة القياسية التي تم إنشاؤها للتعرف على الوجوه البشرية لا تعمل بشكل جيد للغاية ، خاصةً إذا كانت هناك شخصيات في المحتوى بدون ميزات بشرية. في إصدار المعاينة الجديد ، تم دمج Video Indexer مع خدمة Azure Custom Vision من Microsoft ، مما ينشئ مجموعة جديدة من الطرز التي تكشف عن الرسوم المتحركة وتجميعها تلقائيًا وتجعل من السهل تمييزها والتعرف عليها باستخدام نماذج رؤية الجهاز المخصص المدمجة.

يتم دمج النماذج في ناقل واحد ، مما يسمح لأي شخص باستخدام هذه الخدمة دون أي معرفة في مجال التعلم الآلي. تتوفر النتائج من خلال مدخل Video Indexer ، الذي لا يحتاج إلى رمز ، أو من خلال واجهة برمجة تطبيقات REST للتكامل السريع في التطبيقات الخاصة بك.

أنشأنا هذه النماذج للعمل مع الشخصيات المتحركة مع بعض المستهلكين الذين قدموا محتوى متحركًا حقيقيًا للتدريب والاختبار. تم وصف قيمة الوظيفة الجديدة جيدًا بواسطة Andy Gutteridge ، كبير مديري تقنية الاستوديو وشبكات ما بعد الإنتاج Viacom International Media Networks ، الذي كان أحد مزودي البيانات: "تتيح إضافة ميزة قوية للكشف عن محتوى الرسوم المتحركة المستندة إلى الذكاء الاصطناعي من العثور على البيانات الشخصية للشخصيات وفهرستها بسرعة وكفاءة المحتوى.

والأهم من ذلك ، أنها ستمنح فرقنا الإبداعية الفرصة للعثور على المحتوى المناسب على الفور ، وتقليل الوقت الذي تقضيه في إدارة الوسائط ، والسماح لنا بالتركيز على الإبداع ".

يمكنك البدء في استكشاف التعرف على الأحرف المتحركة من صفحة الوثائق .

تحديد ونسخ المحتوى بعدة لغات


تحتوي بعض موارد الوسائط ، مثل الأخبار وسجلات الأحداث والمقابلات ، على تسجيلات للأشخاص الذين يتحدثون بلغات مختلفة. تتطلب معظم الخيارات الموجودة لترجمة الكلام إلى نص إشارة أولية إلى لغة التعرف على الصوت ، مما يجعل من الصعب نسخ مقاطع الفيديو متعددة اللغات.

تستخدم ميزتنا الجديدة لتحديد اللغة المنطوقة تلقائيًا لأنواع مختلفة من المحتوى تقنية التعلم الآلي لتحديد اللغات الموجودة في موارد الوسائط. بعد الاكتشاف ، يخضع كل مقطع لغة تلقائيًا لعملية النسخ باللغة المقابلة ، ثم يتم دمج كل الأجزاء في ملف نسخ واحد يتكون من عدة لغات.



يتوفر فك التشفير الناتج كجزء من إخراج JSON Video Indexer وفي شكل ملفات ذات ترجمة. يتكامل فك تشفير المخرجات أيضًا مع Azure Search ، والذي يسمح لك بالبحث الفوري عن مقاطع اللغة المختلفة في مقاطع الفيديو. بالإضافة إلى ذلك ، يتوفر النسخ متعدد اللغات عند العمل مع مدخل Video Indexer ، بحيث يمكنك عرض النص واللغة المحددة بواسطة الوقت أو الذهاب إلى أماكن محددة في الفيديو لكل لغة ومشاهدة النسخ متعدد اللغات في شكل توقيعات أثناء تشغيل الفيديو. يمكنك أيضًا ترجمة النص الناتج إلى أي من اللغات المتاحة البالغ عددها 54 من خلال البوابة وواجهة برمجة التطبيقات.

اقرأ المزيد حول ميزة التعرف على المحتوى متعدد اللغات الجديدة واستخدامها في "مفهرس الفيديو" في الوثائق .

نماذج إضافية محدثة ومحسنة


نضيف أيضًا نماذج جديدة إلى مفهرس الفيديو ونعمل على تحسين النماذج الحالية ، بما في ذلك الموضحة أدناه.

استرداد الكيانات المرتبطة بالأشخاص والأماكن


قمنا بتوسيع قدراتنا الحالية لاكتشاف العلامة التجارية لتشمل الأسماء والمواقع المعروفة ، مثل برج إيفل في باريس وبيج بن في لندن. عندما تظهر في فك التشفير الذي تم إنشاؤه أو على الشاشة باستخدام التعرف الضوئي على الأحرف (OCR) ، تتم إضافة المعلومات المقابلة. باستخدام هذه الميزة الجديدة ، يمكنك البحث في جميع الأشخاص والأماكن والعلامات التجارية التي تظهر في الفيديو وعرض معلومات عنها ، بما في ذلك الفواصل الزمنية والأوصاف والروابط إلى محرك بحث Bing للحصول على مزيد من المعلومات.



محرر نموذج الكشف


تضيف هذه الميزة الجديدة مجموعة من "العلامات" إلى البيانات الأولية المرفقة بالإطارات الفردية في تفاصيل JSON لتمثيل نوع التحرير الخاص بها (على سبيل المثال ، الإطار العريض ، الإطار المتوسط ​​، الصورة عن قرب ، الصورة عن قرب ، لقطاتتان ، عدة أشخاص ، في الهواء الطلق ، في الداخل ، وما إلى ذلك). تكون خصائص نوع الإطار مفيدة عند تحرير الفيديو للمقاطع والمقاطع ، وكذلك عند البحث عن نمط إطار محدد لأغراض فنية.


تعرف على المزيد حول اكتشاف نوع الإطار في Video Indexer.

المتقدمة IPTC رسم الخرائط التفصيل


يحدد نموذج اكتشاف السمات موضوع الفيديو استنادًا إلى النسخ والتعرف البصري على الأحرف (OCR) والمشاهير الذين تم اكتشافهم ، حتى إذا لم يتم تحديد الموضوع بوضوح. نطابق هذه الموضوعات المكتشفة مع أربعة مجالات تصنيف: ويكيبيديا ، بنج ، IPTC ، و IAB. يسمح لنا هذا التحسين بتضمين تصنيف IPTC من المستوى الثاني.
يعد الاستفادة من هذه التحسينات سهلاً مثل إعادة قراءة مكتبة Video Indexer الحالية.

وظائف البث المباشر الجديد


في إصدار المعاينة من Azure Media Services ، نقدم أيضًا ميزتين جديدتين للبث المباشر.

تنقل عملية النسخ في الوقت الفعلي AI البث المباشر إلى المستوى التالي


باستخدام Azure Media Services للبث المباشر ، يمكنك الآن الحصول على دفق إخراج يتضمن مسار نص تم إنشاؤه تلقائيًا بالإضافة إلى محتوى الصوت والفيديو. يتم إنشاء النص عن طريق نسخ الصوت في الوقت الحقيقي على أساس الذكاء الاصطناعي. يتم تطبيق الأساليب المخصصة قبل وبعد تحويل الكلام إلى نص لتحسين النتائج. يتم حزم مسار النص في IMSC1 أو TTML أو WebVTT ، اعتمادًا على ما إذا كان يأتي في DASH أو HLS CMAF أو HLS TS.

تشفير خطي في الوقت الفعلي لقنوات OTT 24/7


باستخدام API v3 الخاصة بنا ، يمكنك إنشاء قنوات باستخدام تقنية OTT (الأحدث) وإدارة البث المباشر وإدارته عليها ، واستخدام جميع ميزات Azure Media Services الأخرى ، مثل الفيديو المباشر عند الطلب (VOD ، الفيديو حسب الطلب) ، التغليف وإدارة الحقوق الرقمية (DRM).
لمعاينة هذه الميزات ، تفضل بزيارة صفحة مجتمع Azure Media Services .



حزمة ميزات الجيل الجديد


دعم الصوت وصف المسار


غالبًا ما يشتمل بث المحتوى على قنوات البث على مسار صوتي يحتوي على تفسيرات شفهية لما يحدث على الشاشة بالإضافة إلى الإشارة الصوتية العادية. هذا يجعل البرامج في متناول المشاهدين ضعاف البصر ، خاصةً إذا كان المحتوى مرئيًا في الغالب. تسمح لك وظيفة الوصف الصوتي الجديدة بتعليق أحد المسارات الصوتية كمسار وصف صوتي (AD ، وصف صوتي) ، بحيث يمكن للاعبين جعل مسار AD متاحًا للمشاهدين.

إدراج بيانات التعريف ID3


غالبًا ما تستخدم شركات البث بيانات وصفية قائمة على أساس الوقت مضمنة في الفيديو لنقل إشارة حول إدراج إعلانات أو أحداث بيانات وصفية مخصصة في مشغل المشغل. بالإضافة إلى أوضاع إشارات SCTE-35 ، نحن ندعم أيضًا ID3v2 وأنظمة المستخدم الأخرى المحددة من قبل مطور التطبيق ليستخدمها تطبيق العميل.

يعرض شركاء Microsoft Azure حلولًا شاملة


Bitmovin يقدم ترميز الفيديو Bitmovin ومشغل فيديو Bitmovin لمايكروسوفت أزور. يمكن للعملاء الآن استخدام حلول التشفير والتشغيل هذه على Azure والاستفادة من الميزات المتقدمة مثل الترميز ثلاثي المراحل ودعم برامج الترميز AV1 / VC والعناوين الفرعية متعددة اللغات وتحليلات الفيديو المدمجة مسبقًا لجودة الخدمة والإعلان وتتبع الفيديو.

Evergent تعرض منهاج إدارة دورة حياة المستخدم على أزور. كمزود رائد لحلول إدارة الإيرادات ودورة حياة العملاء ، تعمل Evergent على الاستفادة من Azure AI لمساعدة مزودي الترفيه المتميزين على تحسين مشاركة العملاء والاحتفاظ بهم عن طريق إنشاء حزم خدمات مستهدفة وعروض في الأوقات الحرجة من دورة حياتهم.

ستعرض Haivision خدمة توجيه الوسائط المتعددة الذكية المستندة إلى مجموعة النظراء ، SRT Hub ، والتي تساعد العملاء على تحويل تدفق العمل من البداية إلى النهاية باستخدام Azure Data Box Edge وتحويل مسارات العمل باستخدام Hublets من Avid و Telestream و Wowza و Cinegy و Make.tv.

قامت SES بتطوير مجموعة خدمات الوسائط فئة البث المستندة إلى Azure لعملائها من خدمات الوسائط المستندة إلى الأقمار الصناعية والمدارة. ستعرض SES حلولًا لخدمات التشغيل المدارة بالكامل ، بما في ذلك التشغيل الرئيسي ، والتشغيل المحلي ، واكتشاف الإعلانات واستبدالها ، والترميز عالي الجودة 24 × 7 في الوقت الحقيقي على Azure.

يوفر SyncWords على أدوات وتكنولوجيا Azure السحابية المريحة لإنشاء التواقيع. ستسهل هذه العروض على المؤسسات الإعلامية إضافة ترجمات تلقائيًا ، بما في ذلك بلغة أجنبية ، إلى مهام سير العمل في معالجة الفيديو في الوقت الفعلي وغير متصل على Azure.
قامت شركة Tata Elxsi ، وهي شركة عالمية لخدمات التكنولوجيا ، بدمج نظام OTT SaaS TEPlay الخاص بها مع Azure Media Services لتقديم محتوى OTT من السحابة. كما قامت Tata Elxsi بترحيل حل QoE الخاص بـ Falcon Eye ، وتوفير التحليلات ومقاييس القرار ، إلى Microsoft Azure.

توفر Verizon Media نظامها المتدفق متاحًا على Azure كنسخة تجريبية. Verizon Media Platform هو حل OTT على مستوى المؤسسات يشمل إدارة الحقوق الرقمية ، وإدراج الإعلانات ، وجلسات مخصصة شخصية ، واستبدال المحتوى الديناميكي ، وتسليم الفيديو. يعمل التكامل على تبسيط مهام سير العمل والدعم العالمي وإمكانية التوسع ، ويمنحك إمكانية الوصول إلى عدد من الميزات الفريدة في Azure.

Source: https://habr.com/ru/post/ar469031/


All Articles