تتمثل مهمتنا في Microsoft في تمكين كل شخص ومنظمة على هذا الكوكب من تحقيق المزيد. تمثل صناعة الإعلام هذه المهمة. نحن نعيش في عصر يتم فيه إنشاء المزيد من المحتوى واستهلاكه بطرق أكثر وعلى أجهزة أكثر من أي وقت مضى. في IBC 2019 ، سُرنا بمشاركة أحدث الابتكارات التي نعمل عليها وكيف يمكنهم المساعدة في تحويل مهام سير العمل في الوسائط. تابع القراءة لمعرفة المزيد.
هذا المقال
في مدونتنايضيف Video Indexer دعمًا للرسوم المتحركة والمحتوى متعدد اللغات
لقد جعلنا
Azor Media Services Video Indexer الحائز على الجوائز متاحًا بشكل عام في IBC العام الماضي ، وهذا العام أصبح أفضل. يقوم Video Indexer تلقائيًا باستخراج الرؤى والبيانات الوصفية مثل الكلمات المنطوقة والوجوه والعواطف والموضوعات والعلامات التجارية من ملفات الوسائط ، دون الحاجة إلى أن تكون خبيرًا في التعلم الآلي. تتضمن أحدث إعلاناتنا معاينات لمقدمين متطلبين للغاية ومتميزين للتعرف على الأحرف المتحركة ونسخ الكلام متعدد اللغات ، بالإضافة إلى العديد من الإضافات إلى الطرز الحالية المتاحة اليوم في Video Indexer.
التعرف على الحروف المتحركة
يعد المحتوى المتحرك أو الرسوم المتحركة أحد أكثر أنواع المحتوى شيوعًا ، لكن نماذج رؤية AI القياسية المصممة لوجوه بشرية لا تعمل بشكل جيد معهم ، خاصةً إذا كان للمحتوى أحرف بدون ميزات بشرية. في حل المعاينة الجديد ، تتعاون Video Indexer مع خدمة Azure Custom Vision من Microsoft لتوفير مجموعة جديدة من الطرز التي تكشف عن الرسوم المتحركة وتجميعها تلقائيًا وتتيح للعملاء وضع علامات عليها والتعرف عليها بسهولة من خلال نماذج الرؤية المخصصة المدمجة. يتم دمج هذه النماذج في خط أنابيب واحد ، والذي يسمح لأي شخص باستخدام الخدمة دون أي مهارات التعلم الآلي السابقة. تتوفر النتائج من خلال بوابة Video Indexer بدون كود أو واجهة برمجة تطبيقات REST لسهولة الاندماج في التطبيقات الخاصة بك.

لقد صممنا نماذج الشخصيات المتحركة هذه بالتعاون مع عملاء محددين ساهموا في محتوى رسوم متحركة حقيقي للتدريب والاختبار. تم توضيح قيمة الوظيفة الجديدة بشكل جيد بواسطة Andy Gutteridge ، مدير أول ، استوديو وتكنولوجيا ما بعد الإنتاج في Viacom International Media Networks ، والتي كانت واحدة من المساهمين في البيانات: "إضافة الكشف المتحرك الموثوق به المستند إلى AI ستمكننا من اكتشاف واصفار بيانات التعريف الشخصية من مكتبة المحتوى الخاصة بنا بسرعة وكفاءة. والأهم من ذلك ، أنها ستمنح فرقنا الإبداعية القدرة على العثور على المحتوى الذي يريدونه على الفور ، وتقليل الوقت الذي يقضونه في إدارة الوسائط والسماح لهم بالتركيز على التصميم ".
للبدء في التعرف على الأحرف المتحركة ، يرجى
زيارة صفحة الوثائق الخاصة بنا .
تحديد متعدد اللغات والنسخ
تحتوي بعض أصول الوسائط ، مثل الأخبار والشؤون الجارية والمقابلات ، على صوت مع مكبرات صوت باستخدام لغات مختلفة. تتطلب معظم إمكانات الكلام إلى النص تحديد لغة التعرف على الصوت مسبقًا ، وهو ما يشكل عقبة أمام نقل مقاطع الفيديو متعددة اللغات. يعمل تعريف اللغة المنطوقة التلقائي الجديد الخاص بنا للحصول على محتوى متعدد على الاستفادة من تقنية التعلم الآلي لتحديد اللغات المختلفة المستخدمة في مادة الوسائط. بمجرد اكتشافه ، يخضع كل مقطع لغوي لعملية نسخ تلقائي باللغة المحددة ، ويتم دمج جميع القطاعات معًا في ملف نسخ واحد يتكون من لغات متعددة.

يتوفر النسخ الناتج كجزء من إخراج Video Indexer JSON وملفات التسمية التوضيحية المغلقة. تم دمج نص الإخراج أيضًا مع Azure Search ، مما يتيح لك البحث على الفور عبر مقاطع الفيديو عن مقاطع اللغة المختلفة. علاوة على ذلك ، يتوفر النسخ متعدد اللغات كجزء من تجربة مدخل "مفهرس الفيديو" حتى تتمكن من عرض النص واللغة المحددة مع مرور الوقت ، أو الانتقال إلى الأماكن المحددة في الفيديو لكل لغة ومشاهدة النسخ متعدد اللغات كتعليقات كما لعبت الفيديو. يمكنك أيضًا ترجمة الإخراج إلى 54 لغة مختلفة عبر البوابة وواجهة برمجة التطبيقات.
اقرأ المزيد حول الخيار متعدد اللغات الجديد وكيفية استخدامه في Video Indexer
في وثائقنا .
نماذج إضافية محدثة ومحسنة
نقوم أيضًا بإضافة نماذج جديدة وتحسينها داخل Video Indexer ، بما في ذلك:
استخراج الأفراد والمواقع الكيانات
لقد وسعنا قدراتنا الحالية لاكتشاف العلامات التجارية لتشمل أيضًا أسماء ومواقع معروفة ، مثل برج إيفل في باريس أو بيغ بن في لندن. عندما تظهر هذه في النص الذي تم إنشاؤه أو على الشاشة عبر التعرف الضوئي على الأحرف (OCR) ، يتم إنشاء رؤية محددة. باستخدام هذه الإمكانية الجديدة ، يمكنك مراجعة جميع الأشخاص والمواقع والعلامات التجارية التي ظهرت في الفيديو والبحث عنها ، بالإضافة إلى الأطر الزمنية والوصف وارتباط بمحرك بحث Bing للحصول على مزيد من المعلومات.

نموذج الكشف عن إطلاق النار
تضيف هذه الميزة الجديدة مجموعة من "العلامات" في البيانات الوصفية المرفقة برصاصة فردية في الرؤى JSON لتمثيل نوع التحرير الخاص بها (مثل اللقطة العريضة ، اللقطة المتوسطة ، اللقطة ، الإغلاق عن قرب الشديد ، اللقطتان ، عدة أشخاص ، في الهواء الطلق والداخلية ، وما إلى ذلك). هذه الخصائص من نوع اللقطات تكون مفيدة عند تحرير مقاطع الفيديو إلى مقاطع ومقاطع فيديو وكذلك عند البحث عن نمط معين من اللقطات لأغراض فنية.
استكشف واقرأ المزيد حول اكتشاف نوع اللقطة الافتتاحية في Video Indexer.
توسيع التفاصيل من IPTC التعيين
يحدد نموذج الاستدلال الخاص بالموضوع موضوع مقاطع الفيديو استنادًا إلى النسخ والتعرف البصري على الأحرف (OCR) والمشاهير الذين تم اكتشافهم حتى إذا لم يتم ذكر الموضوع بشكل صريح. نقوم بتعيين هذه الموضوعات المستخلصة إلى أربعة تصنيفات مختلفة: ويكيبيديا ، بنج ، IPTC ، و IAB. مع هذا التحسين ، ندرج الآن تصنيف IPTC من المستوى الثاني.
ميزة الاستفادة من هذه التحسينات سهلة مثل إعادة فهرسة مكتبة Video Indexer الحالية.
وظائف البث المباشر الجديدة
نعرض أيضًا قدرتين جديدتين من البث المباشر في المعاينة إلى Azure Media Services.
النسخ المباشر يشحن الأحداث المباشرة الخاصة بك مع الذكاء الاصطناعى
باستخدام Azure Media Services لدفق حدث مباشر ، يمكنك الآن الحصول على دفق إخراج يتضمن مسار نص تم إنشاؤه تلقائيًا بالإضافة إلى محتوى الفيديو والصوت. يتم إنشاء هذا المسار النصي باستخدام النسخ المباشر المستند إلى AI للصوت الخاص بتغذية المساهمة. يتم تطبيق الأساليب المخصصة قبل وبعد تحويل الكلام إلى نص من أجل تحسين تجربة المستخدم النهائي. يتم حزم المسار النصي في IMSC1 أو TTML أو WebVTT ، اعتمادًا على ما إذا كنت تقوم بالتوصيل في DASH أو HLS CMAF أو HLS TS.
ترميز خطي مباشر لقنوات 24/7 (OTT) العلوية
باستخدام واجهات برمجة التطبيقات v3 الخاصة بنا ، يمكنك إنشاء وإدارة وقنوات البث المباشر لخدمات OTT والاستفادة من جميع الميزات الأخرى لخدمات Azure Media Services مثل الفيديو حسب الطلب (VOD) والتعبئة وإدارة الحقوق الرقمية (DRM).
لتجربة ميزات المعاينة هذه ، يرجى زيارة صفحة
مجتمع خدمات الوسائط Azure .

ميزات التعبئة والتغليف الجديدة
دعم مسارات وصف الصوت
يحتوي محتوى البث غالبًا على مسار صوتي يحتوي على تفسيرات شفهية للإجراء الذي يظهر على الشاشة بالإضافة إلى صوت البرنامج العادي. هذا يجعل البرمجة في متناول المشاهدين ضعاف البصر ، خاصةً إذا كان المحتوى مرئيًا للغاية. تُمكِّن
ميزة الوصف الصوتي الجديدة العميل من التعليق على أحد المقاطع الصوتية ليكون مسار الوصف الصوتي (AD) ، والذي بدوره يمكن أن يستخدمه اللاعبون لجعل مسار الإعلانات قابلًا للاكتشاف بواسطة المشاهدين.
ID3 بيانات التعريف الإدراج
للإشارة إلى إدراج إعلانات أو أحداث بيانات تعريف مخصصة على مشغل عميل ، تستخدم هيئات البث غالبًا البيانات الوصفية المضمنة في الفيديو. بالإضافة إلى أوضاع تشوير SCTE-35 ،
نحن ندعم أيضًا ID3v2 أو المخططات المخصصة الأخرى المعرّفة من قِبل مطور التطبيق ليستخدمها تطبيق العميل.
يوضح شركاء Microsoft Azure حلولًا شاملة
تقوم Bitmovin بإصدار برنامج Bitmovin Video Encoding ومشغل فيديو Bitmovin على Microsoft Azure. يمكن للعملاء الآن استخدام حلول الترميز واللاعبين هذه على وظائف Azure والاستفادة من الوظائف المتقدمة مثل الترميز ثلاثي الممرات ودعم ترميز AV1 / VVC والتعليقات التوضيحية المغلقة متعددة اللغات وتحليلات الفيديو المدمجة مسبقًا لجودة الخدمة والإعلان وتتبع الفيديو.
Evergent تعرض منهاج إدارة دورة حياة المستخدم على أزور. كمزود رائد لحلول إدارة الإيرادات ودورة حياة العملاء ، تعمل Evergent على الاستفادة من Azure AI لتمكين مزودي خدمات الترفيه المتميزة من تحسين اكتساب العملاء والاحتفاظ بهم عن طريق إنشاء حزم مستهدفة وعروض في النقاط الحرجة في دورة حياة العميل.
ستعرض Haivision خدمتها السحابية الذكية لتوجيه الوسائط ، SRT Hub ، التي تساعد العملاء على تحويل مهام سير العمل من البداية إلى النهاية بدءًا من استيعابهم باستخدام
Azure Data Box Edge وتحول سير عمل الوسائط باستخدام Hublets من Avid و Telestream و Wowza و Cinegy و Make.tv .
قامت
SES بتطوير مجموعة من خدمات الوسائط للبث على Azure من أجل اتصالها عبر الأقمار الصناعية وعملائها من خدمات الوسائط المدارة. ستعرض SES حلولًا لخدمات التشغيل المدارة بالكامل ، بما في ذلك التشغيل الرئيسي والتشغيل المترجم واكتشاف الإعلانات واستبدالها وترميز مباشر متعدد القنوات عالي الجودة على مدار 24 ساعة طوال أيام الأسبوع على Azure.
تعمل SyncWords على توفير تقنية أتمتة التسمية التوضيحية وأدوات سهلة الاستخدام قائمة على السحابة على Azure. ستسهل هذه العروض للمؤسسات الإعلامية من إضافة إمكانات الترجمة التوضيحية المغلقة والترجمة الفورية بلغات أجنبية إلى مهام سير العمل الخاصة بمعالجة الفيديو في الوقت الفعلي وغير المتصل على Azure.
قامت شركة خدمات التصميم والتقنية العالمية
Tata Elxsi بدمج TEPlay ، منصة OTT SaaS الخاصة بها ، مع Azure Media Services لتقديم محتوى OTT من السحابة. جلبت شركة Tata Elxsi أيضًا FalconEye ، وهو حل مراقبة جودة التجربة (QoE) الذي يركز على المقاييس والتحليلات القابلة للتنفيذ ، إلى Microsoft Azure.
توفر Verizon Media نظامها الأساسي المتدفق بشكل تجريبي على Azure. Verizon Media Platform هو حل OTT مُدار على مستوى المؤسسات ، بما في ذلك إدارة الحقوق الرقمية ، وإدراج الإعلانات ، وجلسات شخصية فردية ، واستبدال المحتوى الديناميكي ، وتسليم الفيديو. يوفر التكامل سيرًا عملًا مبسطًا ودعمًا عالميًا وحجمًا ، والوصول إلى مجموعة من القدرات الفريدة المتاحة على أزور.