🧑🏻‍🤝‍🧑🏻 🚒 👃🏻 Inovasi baru AI-powered Azure Media Services 💛 🔑 🏰

Di Microsoft, misi kami adalah memberdayakan setiap orang dan organisasi di planet ini untuk mencapai lebih banyak. Industri media mencontohkan misi ini. Kita hidup di zaman di mana lebih banyak konten dibuat dan dikonsumsi dengan lebih banyak cara dan pada lebih banyak perangkat daripada sebelumnya. Di IBC 2019, kami senang berbagi inovasi terbaru yang telah kami kerjakan dan bagaimana mereka dapat membantu mengubah alur kerja media Anda. Baca terus untuk mengetahui lebih lanjut.

Artikel ini di blog kami .

Video Indexer menambahkan dukungan untuk konten animasi dan multibahasa

Kami membuat Pengindeks Video Azure Media Services pemenang penghargaan kami secara umum tersedia di IBC tahun lalu, dan tahun ini semakin baik. Video Indexer secara otomatis mengekstraksi wawasan dan metadata seperti kata-kata yang diucapkan, wajah, emosi, topik, dan merek dari file media, tanpa Anda perlu menjadi pakar pembelajaran mesin. Pengumuman terbaru kami mencakup pratinjau untuk dua kemampuan yang sangat diminta dan berbeda untuk pengenalan karakter animasi dan transkripsi pidato multibahasa, serta beberapa tambahan untuk model yang ada saat ini tersedia di Video Indexer.

Pengenalan karakter animasi

Konten atau kartun animasi adalah salah satu jenis konten yang paling populer, tetapi model penglihatan AI standar yang dibuat untuk wajah manusia tidak bekerja dengan baik pada mereka, terutama jika konten tersebut memiliki karakter tanpa fitur manusia. Dalam solusi pratinjau baru ini, Video Indexer bergabung dengan layanan Azure Custom Vision dari Microsoft untuk menyediakan serangkaian model baru yang secara otomatis mendeteksi dan mengelompokkan karakter animasi dan memungkinkan pelanggan untuk menandai dan mengenalinya dengan mudah melalui model visi kustom terintegrasi. Model-model ini diintegrasikan ke dalam satu saluran pipa, yang memungkinkan siapa saja untuk menggunakan layanan ini tanpa keterampilan pembelajaran mesin sebelumnya. Hasilnya tersedia melalui portal Video Indexer tanpa kode atau REST API untuk memudahkan integrasi ke dalam aplikasi Anda sendiri.

Kami membangun model karakter animasi ini bekerja sama dengan pelanggan terpilih yang menyumbangkan konten animasi nyata untuk pelatihan dan pengujian. Nilai fungsionalitas baru diartikulasikan dengan baik oleh Andy Gutteridge, Direktur Senior, Studio & Teknologi Pasca Produksi di Viacom International Media Networks, yang merupakan salah satu kontributor data: "Penambahan deteksi animasi berbasis AI yang andal akan memungkinkan kami untuk temukan dan katalog metadata karakter dari perpustakaan konten kami dengan cepat dan efisien. Yang paling penting, ini akan memberi tim kreatif kita kekuatan untuk menemukan konten yang mereka inginkan secara instan, meminimalkan waktu yang dihabiskan untuk manajemen media dan memungkinkan mereka untuk fokus pada materi kreatif. "

Untuk memulai dengan pengenalan karakter animasi, silakan kunjungi halaman dokumentasi kami .

Identifikasi dan transkripsi multibahasa

Beberapa aset media seperti berita, berita terkini, dan wawancara berisi audio dengan speaker menggunakan bahasa yang berbeda. Sebagian besar kemampuan bicara-ke-teks yang ada memerlukan bahasa pengenalan audio yang harus ditentukan terlebih dahulu, yang merupakan hambatan untuk menyalin video multibahasa. Identifikasi bahasa lisan otomatis kami yang baru untuk berbagai konten memanfaatkan teknologi pembelajaran mesin untuk mengidentifikasi berbagai bahasa yang digunakan dalam aset media. Setelah terdeteksi, setiap segmen bahasa menjalani proses transkripsi otomatis dalam bahasa yang diidentifikasi, dan semua segmen diintegrasikan kembali menjadi satu file transkripsi yang terdiri dari beberapa bahasa.

Transkripsi yang dihasilkan tersedia baik sebagai bagian dari output JSON Video Indexer dan sebagai file teks tertutup. Transkrip keluaran juga terintegrasi dengan Azure Search, memungkinkan Anda untuk segera mencari di seluruh video untuk segmen bahasa yang berbeda. Selanjutnya, transkripsi multi-bahasa tersedia sebagai bagian dari pengalaman portal Video Indexer sehingga Anda dapat melihat transkrip dan bahasa yang diidentifikasi berdasarkan waktu, atau melompat ke tempat-tempat tertentu dalam video untuk setiap bahasa dan melihat transkripsi multi-bahasa sebagai keterangan. saat video diputar. Anda juga dapat menerjemahkan output bolak-balik ke 54 bahasa yang berbeda melalui portal dan API.

Baca lebih lanjut tentang opsi multibahasa baru dan cara menggunakannya dalam Video Indexer di dokumentasi kami .

Model diperbarui dan ditingkatkan tambahan

Kami juga menambahkan model-model baru dan meningkatkan yang ada dalam Video Indexer, termasuk:

Ekstraksi orang dan entitas lokasi

Kami telah memperluas kemampuan deteksi merek kami saat ini untuk juga memasukkan nama dan lokasi terkenal, seperti Menara Eiffel di Paris atau Big Ben di London. Ketika ini muncul dalam transkrip yang dihasilkan atau di layar melalui optical character recognition (OCR), wawasan khusus dibuat. Dengan kemampuan baru ini, Anda dapat meninjau dan mencari oleh semua orang, lokasi, dan merek yang muncul dalam video, beserta kerangka waktu, deskripsi, dan tautan ke mesin pencari Bing kami untuk informasi lebih lanjut.

Model deteksi tembakan editorial

Fitur baru ini menambahkan satu set "tag" dalam metadata yang dilampirkan pada bidikan individual di JSON wawasan untuk mewakili jenis editorialnya (seperti bidikan lebar, bidikan menengah, close up, close up ekstrim, dua shot, banyak orang, luar ruang dan di dalam ruangan, dll.). Karakteristik tipe pemotretan ini berguna saat mengedit video ke dalam klip dan trailer serta ketika mencari gaya pemotretan tertentu untuk tujuan artistik.

Jelajahi dan baca lebih lanjut tentang deteksi jenis bidikan editorial di Video Indexer.

Memperluas rincian pemetaan IPTC

Model pendugaan topik kami menentukan topik video berdasarkan transkripsi, pengenalan karakter optis (OCR), dan mendeteksi selebritas meskipun topik tersebut tidak secara eksplisit dinyatakan. Kami memetakan topik-topik yang disimpulkan ini pada empat taksonomi berbeda: Wikipedia, Bing, IPTC, dan IAB. Dengan peningkatan ini, kami sekarang menyertakan taksonomi IPTC tingkat-2.

Keuntungan tambahan dari peningkatan ini semudah mengindeks ulang pustaka Pengindeks Video Anda saat ini.

Fungsionalitas streaming langsung baru

Kami juga memperkenalkan dua kemampuan streaming langsung baru dalam pratinjau ke Azure Media Services.

Transkripsi langsung supercharges acara langsung Anda dengan AI

Menggunakan Layanan Media Azure untuk melakukan streaming acara langsung, Anda sekarang bisa mendapatkan aliran output yang mencakup trek teks yang dihasilkan secara otomatis selain konten video dan audio. Trek teks ini dibuat menggunakan transkripsi langsung berbasis audio dari umpan kontribusi. Metode khusus diterapkan sebelum dan sesudah konversi percakapan-ke-teks untuk meningkatkan pengalaman pengguna akhir. Trek teks dikemas ke IMSC1, TTML, atau WebVTT, tergantung pada apakah Anda mengirim dalam DASH, HLS CMAF, atau HLS TS.

Pengkodean linear langsung untuk saluran 24/7 over-the-top (OTT)

Menggunakan API v3 kami, Anda dapat membuat, mengelola, dan mengalirkan saluran langsung untuk layanan OTT dan memanfaatkan semua fitur lain dari Layanan Media Azure seperti video langsung saat diminta (VOD), pengemasan, dan manajemen hak digital (DRM).

Untuk mencoba fitur pratinjau ini, silakan kunjungi halaman Komunitas Layanan Media Azure .

Fitur kemasan baru

Dukungan untuk trek deskripsi audio

Konten siaran sering memiliki trek audio yang berisi penjelasan verbal tentang tindakan di layar selain audio program normal. Ini membuat pemrograman lebih mudah diakses oleh pengunjung yang memiliki gangguan penglihatan, terutama jika kontennya sangat visual. Fitur deskripsi audio yang baru memungkinkan pelanggan untuk membubuhi keterangan salah satu trek audio menjadi trek deskripsi audio (AD), yang pada gilirannya dapat digunakan oleh pemain untuk membuat trek AD dapat ditemukan oleh pemirsa.

Penyisipan metadata ID3

Untuk memberi sinyal penyisipan iklan atau peristiwa metadata khusus pada pemutar klien, penyiar sering menggunakan metadata berjangka waktu yang tertanam dalam video. Selain mode pensinyalan SCTE-35, kami sekarang juga mendukung ID3v2 atau skema khusus lainnya yang ditentukan oleh pengembang aplikasi untuk digunakan oleh aplikasi klien.

Mitra Microsoft Azure menunjukkan solusi ujung ke ujung

Bitmovin memulai Bitoding Video Encoding dan Bitmovin Video Player di Microsoft Azure. Pelanggan sekarang dapat menggunakan solusi penyandian dan pemutar ini pada Azure dan memanfaatkan fungsionalitas tingkat lanjut seperti penyandian 3-pass, dukungan codec AV1 / VVC, teks tertutup multi-bahasa, dan analitik video pra-terintegrasi untuk QoS, iklan, dan pelacakan video.

Evergent menunjukkan Platform Manajemen Siklus Hidup Pengguna di Azure. Sebagai penyedia terkemuka solusi pendapatan dan manajemen siklus hidup pelanggan, Evergent memanfaatkan Azure AI untuk memungkinkan penyedia layanan hiburan premium untuk meningkatkan akuisisi dan retensi pelanggan dengan menghasilkan paket dan penawaran yang ditargetkan pada titik-titik kritis dalam siklus hidup pelanggan.

Haivision akan menampilkan layanan cloud perutean media yang cerdas, SRT Hub, yang membantu pelanggan mengubah alur kerja ujung ke ujung yang dimulai dengan menggunakan Azure Data Box Edge dan transformasi alur kerja media menggunakan Hublets dari Avid, Telestream, Wowza dan Cinegy, dan Make.tv .

SES telah mengembangkan serangkaian layanan media tingkat siaran di Azure untuk konektivitas satelit dan pelanggan layanan media yang dikelola. SES akan menunjukkan solusi untuk layanan playout yang dikelola sepenuhnya, termasuk main playout, playout lokal dan deteksi dan penggantian iklan, dan penyandian langsung multichannel 24x7 berkualitas tinggi di Azure.

SyncWords membuat teknologi otomasi teks dan alat berbasis cloud yang ramah pengguna tersedia di Azure. Penawaran ini akan memudahkan organisasi media untuk menambahkan kapitulasi tertutup otomatis dan kapabilitas subtitle bahasa asing ke alur kerja pemrosesan video real-time dan offline mereka di Azure.

Perusahaan desain dan teknologi global, Tata Elxsi, telah mengintegrasikan TEPlay, platform SaT OTT-nya, dengan Azure Media Services untuk mengirimkan konten OTT dari cloud. Tata Elxsi juga membawa FalconEye, solusi pemantauan kualitas pengalamannya (QoE) yang berfokus pada metrik dan analitik yang dapat ditindaklanjuti, ke Microsoft Azure.

Verizon Media membuat platform streaming tersedia dalam versi beta di Azure. Verizon Media Platform adalah solusi OTT yang dikelola kelas perusahaan termasuk DRM, penyisipan iklan, sesi pribadi satu-ke-satu, penggantian konten dinamis, dan pengiriman video. Integrasi ini membawa alur kerja yang disederhanakan, dukungan dan skala global, dan akses ke berbagai kemampuan unik yang tersedia di Azure.

Inovasi baru AI-powered Azure Media Services