Keuntungan utama di pasar IoT adalah biaya. Oleh karena itu, prioritas diberikan pada komponen yang murah tetapi tidak dapat diandalkan. Perangkat yang tidak dapat diandalkan memecah, membuat kesalahan, membekukan dan membutuhkan pemeliharaan. Bukan kebiasaan untuk berbicara tentang tidak dapat diandalkan di konferensi, tapi ini adalah persis apa yang laporan
Stanislav Elizarov (
elstas ) tentang InoThings ++ didedikasikan untuk - bagaimana semuanya tidak bekerja.

Di bawah potongan, kami akan membahas metode untuk mengkompensasi ketidakpercayaan peralatan, saluran komunikasi dan personel yang menggunakan perangkat lunak; masalah toleransi kesalahan dan solusinya; faktor manusia; pita listrik dan kaus kaki sebagai alat universal untuk memperbaiki pesawat ruang angkasa dan transmisi data dengan truk.
Tentang pembicara :
Stanislav Elizarov terlibat dalam departemen infrastruktur jaringan di perusahaan STRIZH, yang memproduksi meter, sensor, stasiun pangkalan LTE, dan juga mengumpulkan bacaan di mana sistem komunikasi lainnya tidak berfungsi.
Ketidakamanan
"Jika sesuatu tidak berfungsi, maka itu sudah usang."
Ini adalah kutipan dari filsuf Kanada
Marshall McLuhan , yang secara akurat menggambarkan keadaan seni. Semuanya menolak: komputer membeku, smartphone melambat, elevator berhenti di antara lantai, pesawat ruang angkasa tersesat, dan orang-orang membuat kesalahan.
Kesalahan pertama
Topik keandalan, terutama bagiannya, adalah toleransi kesalahan, sebesar keamanan. Huruf S dalam istilah IoT bertanggung jawab atas
Keamanan , dan huruf R bertanggung jawab atas
Keandalan - keandalan.
Jika kita berbicara tentang keandalan dan kesalahan, maka mari kita ingat
Johann Gutenberg . Secara resmi, ia adalah printer pertama, dan menurut Ilf dan Petrov, ia adalah
printer pertama , karena ia membuat banyak kesalahan dalam Alkitabnya.

Teknologi Gutenberg telah mengalami kemajuan, pasar buku telah berkembang, volume meningkat, dan dengan mereka kesalahan. 50 tahun setelah buku pertama dicetak,
Gabriel Pierry muncul dengan Errata - daftar kesalahan ketik di akhir buku. Itu trik yang bagus, karena mengetik ulang bets besar tidak nyaman dan tidak menguntungkan secara ekonomi. Jika pembaca memperhatikan kesalahan ketik, ia hanya membuka daftar kesalahan dan melihat koreksi kritis. Pemimpin kesalahan ketik adalah Thomas Aquinas dan Sum of Theology-nya - 180 halaman kesalahan dalam kemarahan resmi.
Errat modern diproduksi oleh produsen besi. Pada gambar di bawah,
kesalahan resmi chip
CC1101 paling populer, yang masih berlaku. Dalam daftar kesalahan, chip terkadang tidak menerima sesuatu, kadang-kadang mengirimkan sesuatu yang salah, dan kadang-kadang PLL tidak selalu berfungsi. Ini bukan apa yang Anda harapkan dari prosesor massal yang telah ada selama beberapa dekade.

Contoh lain adalah mikroprosesor
MSP430 , dibangun di atas seperangkat instruksi. Mikroprosesor kira-kira sama dengan
PDP-11 , di mana Kernigan dan Ritchie mengembangkan Unix. Ini bukan Errat Thomas Aquinas, tetapi pabrikan menawarkan kepada kami
27 halaman kesalahan , banyak di antaranya bahkan dia sendiri tidak tahu bagaimana menyelesaikannya.
Ini persis apa yang tidak jelas di Internet. Kami membaca lembar data dari chip murah dan melihat bahwa semuanya baik-baik saja dan semuanya berfungsi, sampai kami membuka halaman terakhir dengan daftar kesalahan.

Faktor manusia
Dengan zat besi, lebih atau kurang jelas, kesalahan dijelaskan dan direproduksi, tetapi sumber kesalahan terbesar dalam sistem IoT adalah
manusia .
Pada 13 Januari 2018, semua penduduk Gavaev
menerima peringatan di ponsel
tentang ancaman rudal dan bahwa mereka perlu bersembunyi di tempat perlindungan bom.

Tidak jelas siapa yang sebenarnya salah: operator atau orang yang mendesain antarmuka. Tetapi jika Anda melihat gambarnya, jawabannya menunjukkan dirinya sendiri. Apa yang harus ditekan untuk memicu ujian, bukan pertempuran, peringatan ancaman rudal? Jika Anda tidak tahu jawabannya, maka Anda salah.

Jawaban yang benarAlarm Palsu BMD
Operator menekan tombol yang salah, dan surat massal dimulai. Sistem tidak memiliki parameter apa pun yang memungkinkan untuk mencegah atau mengkonfirmasi pengiriman: "Apakah Anda yakin ingin memperingatkan tentang ancaman rudal?" Butuh 30 menit bagi karyawan pusat untuk menyadari apa yang telah terjadi dan mengirim pesan yang menyatakan bahwa serangan itu salah.
Manusia adalah sistem yang andal
Mengapa kita tidak melihat kesalahan ini dan tidak berpikir ada sesuatu yang salah? Karena pria itu sendiri memperbaiki semua kesalahan.
Kami terbiasa memperbaiki bug.
Jika kami merasa komputer tidak berfungsi dengan baik, kami akan menyalakannya kembali. Jika kita melihat bahwa komunikasi seluler telah hilang, maka kita sedang mencari tempat di mana ia menangkap. Jika mesin tidak berfungsi, kami memperbaikinya.
Foto di bawah ini menunjukkan pengetahuan manusia yang bisa Anda banggakan. Tiga orang menggantung di
Apollo 13 antara Bumi dan Bulan dan mampu menyelesaikan tugas non-sepele mendorong filter persegi menjadi lubang bundar. Selain filter persegi, misinya juga kurang beruntung: ledakan tabung oksigen, kekurangan air, kerusakan mesin. Tim berusaha bertahan dengan bantuan kaus kaki, pita listrik, dan paket dari jas.

Man, seperti yang mereka katakan di NASA, adalah sistem cadangan yang sangat bagus dan banyak diperbaiki. Memecahkan masalah pada pesawat ruang angkasa menggunakan pita listrik dan kaus kaki bisa disebut hampir dapat diandalkan: itu dilakukan dalam waktu singkat, itu akan bekerja dengan jaminan dan orang-orang akan kembali hidup, tetapi ini tidak dapat diizinkan dalam produksi.
Masalah toleransi kesalahan
Masalah toleransi kesalahan untuk Internet hal sangat penting karena jumlah perangkat meningkat. Menurut perusahaan konsultan
McKinsey , pada 2013, 10 miliar perangkat IoT beroperasi di dunia, dan pada 2020 jumlah ini akan meningkat menjadi 30 miliar.

Kami tidak dapat secara fisik memperbaiki semua penghitung ini - tidak akan ada cukup waktu. Sistem yang dirancang untuk dilayani oleh orang-orang tidak akan membantu kami, sebaliknya, kami akan memperbaikinya.
Pada tahun 2018,
berita muncul di media dan jurnal ilmiah bahwa orang Cina telah mencakup
100.000 sensor dari 2 saluran dengan total panjang 1.400 km. Sebanyak 130 jenis sensor: air, angin, kamera. Dari sudut pandang biaya operasional, sistem ini benar-benar membawa malapetaka: berapa banyak orang yang Anda butuhkan untuk menghapus kamera atau menghilangkan hambatan? Seluruh staf hanya akan sibuk dengan membersihkan dan memelihara sistem - tidak terlalu otonom.
Oleh karena itu, saya ingin berbicara sedikit tentang
toleransi kesalahan , tentang memastikan pengoperasian sistem. Dengan contoh-contoh sederhana, saya akan berbicara tentang trik yang akan membantu dalam waktu singkat untuk mendapatkan solusi kerja yang terjamin untuk menghadirkan produk kepada investor, dan kemudian berpikir tentang cara meningkatkan keandalan secara bertahap. Trik ini cukup fleksibel dan akan selalu membantu. Satu-satunya hal yang mereka sangat tidak dianjurkan untuk digunakan dalam produksi, karena mereka seperti filter itu.
Bayangkan: saatnya akan tiba ketika investor akan datang kepada Anda untuk laporan proyek, dan Anda perlu menunjukkan produk yang berfungsi. Di mana untuk memulai, agar tidak mengacaukannya?
Penyederhanaan
Pada gambar di bawah adalah dua perangkat yang tidak terhubung. Di sebelah kiri adalah mainan yang disebut
"penyortir" : masukkan bulat menjadi bulat, dan persegi ke persegi. Seorang anak berusia satu tahun akan belajar menggunakan mainan dalam 2-3 upaya, karena tidak mungkin membuat kesalahan dengan "perangkat" - sebuah segitiga tidak akan masuk ke dalam kotak.

Gagasan yang sama diusulkan oleh perusahaan Harris, yang memproduksi stasiun radio militer. Gambar di sebelah kanan adalah
Harris Falcon 3 , keajaiban teknik. Lihat antarmuka, semuanya berbeda. Dalam keadaan pertempuran, dalam kondisi di mana tidak ada waktu untuk berpikir, operator secara fisik tidak akan dapat melakukan sesuatu yang salah. Kabel daya tidak akan masuk ke konektor dari antena, dan dengan bust sederhana, operator radio akan menghubungkan semua sistem, bahkan tidak termasuk otak. Ini adalah cara sederhana dan bekerja untuk mencegah kesalahan dan mengurangi kemungkinannya. Anda akan mengatakan:
- Dan jika kita memiliki presentasi besok. Apakah kita perlu menyolder semua antarmuka? Kami melakukan semua yang sama di sana: 4 port usb, 5 port ethernet, kami pasti akan membuat kesalahan.Tidak ada pertanyaan, penyederhanaan juga berfungsi di sini - tutup semuanya. Jika Anda memiliki 4 port usb dan salah satunya dijamin berfungsi, tinggalkan dan tutup sisanya. Misalnya dengan pita listrik - serasa seperti astronot.
Penyederhanaan tidak hanya membuat antarmuka di mana kesalahan tidak mungkin, tetapi juga menghapus semuanya berlebihan. Di sinilah keandalan dimulai.
Kami menciptakan perangkat sederhana - prototipe, siap untuk ditampilkan. Apa selanjutnya Selanjutnya, pikirkan redundansi.
Redundansi
Perangkat Internet of Things bekerja berdasarkan
teori informasi : ada sumber sinyal, penerima, encoder, modulator, media propagasi, dan sumber kesalahan yang mengganggu dan mengubah situasi nyata. Cara yang baik untuk mengurangi gangguan adalah dengan
menambahkan redundansi , dengan bantuan yang kami dapat mendeteksi situasi kritis dan meratakan efeknya: memberi tahu operator atau memperbaiki kesalahan.

Contoh redundansi adalah jaringan STRIZH. Sebagian besar perangkat di jaringan ditransmisikan tanpa konfirmasi: perangkat memancarkan sinyal, dan stasiun pangkalan menerimanya.
Bayangkan situasinya. Kami memiliki zona interferensi di mana probabilitas pengiriman pesan ke stasiun pangkalan adalah 90%, dan pada presentasi itu diwajibkan untuk menunjukkan tidak lebih dari 1% kehilangan. Tampaknya ada banyak pekerjaan: untuk memperbaiki protokol, mengurangi jangkauan, tetapi solusi cepat dan sederhana adalah redundansi. Di sebelah stasiun yang menerima sinyal dengan probabilitas pengiriman 0,9, tempatkan sinyal kedua, dengan probabilitas pengiriman yang sama, dan probabilitas kegagalan kedua stasiun pada saat yang sama adalah 0,01.
Teorema multiplikasi probabilitas berlaku di sini: probabilitas kegagalan setiap stasiun secara individual adalah 0,1, dan kegagalan keduanya hanya 1%, dengan ketentuan bahwa stasiun basis independen. Di area ini, akan ada kemungkinan penerimaan tertinggi di antara stasiun pangkalan.

Cara lain untuk menunjukkan prinsip redundansi adalah
Watchdog Timer . Ini adalah perangkat fisik yang terintegrasi oleh sebagian besar produsen prosesor. Jika Watchdog Timer tidak menerima sinyal dari komputer setelah periode waktu tertentu, perangkat akan menyalakan kembali komputer.

Menggunakan WT meningkatkan bukan keandalan, tetapi
ketersediaan . Komputer mendeteksi masalah, mengambil tindakan kontrol dan menyalakan kembali komputer. Sangat menyukai NASA dan
tahu banyak cara berbeda untuk menggunakan Timer Watchdog.
Di bawah ini adalah contoh dari Watchdog Timer multi-tahap: ketika peristiwa-peristiwa tertentu terjadi, ia mengirimkan
NMI - gangguan perangkat keras yang akan diperlukan untuk bekerja pada prosesor. Ketika suatu peristiwa terjadi, Watchdog memberi tahu komputer: "Cobalah untuk reboot sendiri, jika tidak matikan daya." Jika timer pertama tidak berfungsi, maka timer kedua akan berfungsi.

Redundansi bekerja dengan baik di dalam sistem operasi. BTS kami terstruktur seperti ini. Ini terdiri dari berbagai
modul dan
independen . Otonomi modul mencegah kesalahan dari satu modul ke modul lainnya - βkumpulanβ dengan kesalahan dibuat, yang kami blokir. Yang lebih tinggi dalam hierarki adalah
seperangkat pengawas : skrip yang memantau situasi berdasarkan parameter tertentu. Misalnya, bahwa prosesnya ada di sistem operasi, itu bukan Zombie dan tidak mengalir dari memori. Elemen root adalah
penjadwal , misalnya, cron.

Struktur hierarkis menciptakan parameter yang baik untuk ketersediaan sistem: jika modul jatuh, pengawas melihat dan reboot, ada beberapa redundansi dalam modul, beberapa modul melakukan fungsi yang lain.
Transisi ke sistem referensi lain
Metode favorit saya dan paling populer di kalangan matematikawan. Jika diketahui dalam kondisi apa peralatan beroperasi, maka dalam kondisi ini perlu dilakukan pilot. Saya akan menunjukkan kepada Anda dengan contoh.
Contoh No. 1 . Kami menciptakan perangkat yang berfungsi dengan baik pada suhu kamar, dan mereka memberi tahu kami:
- Kami menunjukkan proyek di Far North. Sekarang ada β40, tetapi membuatnya bekerja.Kami berjalan di Internet dan mencari solusi:
- Kami membutuhkan kuarsa dan flash drive termostabil yang tidak akan gagal di β40.Waktu hampir habis, sumber daya semakin kecil, dan ada lebih banyak kepanikan. Kami berpikir bahwa proyek ini gagal, tetapi kami akan diselamatkan oleh transisi ke sistem referensi di mana stasiun induk beroperasi. Kami menempatkan perangkat di dalam kotak tempat pemanas dan relai termal berada. Mereka adalah orang yang cukup stabil dan bekerja hampir selalu. Ketika dingin di luar - kotak memanas dan perangkat bekerja dalam kondisi normal - kami beralih ke sistem referensi di mana kami tahu dan menggunakan solusi.
Contoh No. 2 . Transisi ke bingkai bergerak. Bayangkan kita mengumpulkan data kontainer dari kereta. Solusi standar pertama adalah menggunakan modem gsm. Metode ini tidak cocok: untuk objek yang bergerak cepat, Anda harus menggunakan perangkat LTE atau 5G yang melakukan pekerjaan yang baik dengan Doppler, yang mahal. Jika kereta bergerak melintasi Rusia, maka ketika tiba di stasiun kereta api, semua modem akan terhubung ke stasiun dan itu hanya akan crash karena kemacetan jaringan.
Solusi: transisi ke kerangka acuan tetap. Mari kita ingat relativitas gerakan: kita menempatkan stasiun pangkalan di dalam kereta dan itu tidak bergerak relatif terhadap kereta yang bergerak. Stasiun akan mengumpulkan informasi dari semua sensor dan mentransmisikan lebih lanjut menggunakan gateway, satelit atau modem LTE.
Pendekatan ini meningkatkan keandalan, membantu menyelesaikan tugas-tugas yang mustahil dan mengatur
jaringan yang toleran terhadap penundaan -
jaringan yang tahan terhadap kerusakan . Untuk beberapa alasan, mereka tidak menyukai pendekatan di Rusia, tetapi mereka secara aktif mempromosikan divisi
Riset Disney dari perusahaan yang sama. Mereka tidak memiliki Internet barang, tetapi Internet mainan -
Internet Mainan . Perusahaan khawatir anak-anak Afrika tidak menonton kartun Disney. Melakukan jaringan data, memasang menara, menarik serat di Afrika itu mahal, tetapi mereka tetap mencurinya, jadi mereka pergi ke arah lain dan menggunakan gagasan
Richard Hamming :
Transmisi jarak jauh sama dengan transmisi dalam waktu, mis. Penyimpanan. Jika Anda tidak dapat mengirim, simpan informasi dan transfer ke penerima.
Disney
melakukan hal itu : mereka melengkapi stasiun bus dan bus dengan sistem router Wi-Fi termurah dan satu set hard drive. Bus berhenti di stasiun, dengan cepat mengunggah satu set film Disney melalui Wi-Fi ke drive, dan drive menyala. Dia datang ke satu desa, ke desa lain, dan mengunggah film di setiap desa - anak-anak Afrika puas. Ini, yang disebut
Mul-Networks - bagal murah yang bergerak lambat, bekerja buruk dengan Doppler, tetapi mengirimkan informasi ke semua titik.

Perkembangan serupa di Disney ada untuk mengirim email - surat akan tiba kepada Anda dengan bus. Teknologi yang sangat lucu, tetapi Amazon, misalnya, menyukainya.
Amazon memiliki layanan untuk mengangkut
exabytes data - satu juta terabyte. Jika Anda memiliki pusat data besar dan Anda berpikir untuk pindah ke Amazon, karena semuanya sudah ada di sana, maka di Amerika mereka dapat membawa truk seperti itu kepada Anda dan mengangkut data Anda. Jika penundaan tidak penting bagi Anda, maka ini adalah cara yang baik: kecepatan transfer data dari urutan puluhan atau ratusan Gb / s. Selain truk, Amazon dapat mengirimi Anda tas dengan hard drive - bola salju.

Kami menyadari bahwa keandalan itu penting karena orang dan teknologi gagal. Keandalan harus dianggap keamanan. Untuk presentasi pilot, nyalakan Watchdog, tambahkan redundansi dan sederhanakan sehingga Anda tidak dapat membuat kesalahan. Pikirkan tentang bagaimana memasuki kondisi di mana sistem dijamin bekerja. Dan sekarang mari kita beralih ke metode terakhir, yang berbeda dari yang lain, dan teknisi sering mengabaikannya.
Kecantikan
Mereka akan sangat memaafkan Anda jika prototipe Anda terlihat cantik. Jika selama presentasi ada yang tidak beres dan semuanya gagal, Anda akan mendengar: βYa, semuanya telah rusak, tetapi Anda memiliki produk yang sangat keren. Saya pikir Anda perlu melakukan upaya lain untuk meningkatkan. " Prinsipnya berlaku untuk Tesla: perusahaan memiliki masalah dengan pengiriman, autopilot, kecelakaan, tetapi semua orang menyukainya, karena mobil memiliki desain yang keren. Untuk ini, mereka semua memaafkan mereka.

Kesimpulan
Masa depan Internet sesuatu tidak
aman : IoT ditujukan untuk pasar massal, dan untuk pasar massal faktor penentu adalah harganya. Jadi Internet akan terdiri dari banyak
perangkat murah dan tidak dapat diandalkan . Dengan meningkatnya jumlah perangkat, jumlah kegagalan akan meningkat. Kami hanya tidak memiliki cukup tangan untuk memperbaiki semua kesalahan. Oleh karena itu, satu-satunya cara -
perangkat harus secara independen berurusan dengan konsekuensi dari kegagalan . Ini adalah sistem otonom yang harus belajar memperbaiki diri.
Saya akan menyarankan Anda menangani topik keandalan dan belajar bagaimana menunjukkan pilot dengan cara yang keren menggunakan tiga metode:
sederhanakan semua yang Anda bisa,
tambahkan redundansi dan
ciptakan kondisi di mana pilot dijamin dapat bekerja. Jangan lupa bahwa kita semua adalah orang dan
dibimbing bukan oleh logika, tetapi oleh perasaan , jadi ciptakan
proyek yang indah .
Tidak ada buku atau set artikel tentang keandalan. Untuk mempelajari lebih dalam topik ini, mulailah dengan artikel tentang
pengoperasian, keandalan, keselamatan , dan kemudian pelajari pengalaman
Laboratorium Jet Propulsion NASA . Mereka menciptakan Voyager dan Curiosity dan
mereka tahu segalanya tentang keandalan . Dapatkan inspirasi dari yang hebat.
Sedikit lebih dari satu bulan tersisa sebelum InoThings ++ Internet of Developers Conference berikutnya, yang akan berlangsung pada 4 April. Kami akan menyiapkan program yang akan mencakup semua aspek dunia Internet hal: pengembangan perangkat keras dan perangkat lunak untuk perangkat, keamanan bagi pengguna, cara untuk mentransfer informasi antara perangkat dan "server" dan pengujian, pengoperasian, dan perubahan proses bisnis mereka di bawah pengaruh teknologi IoT. Tetapi mungkin laporan Anda tidak cukup untuk mencakup semua topik - kirim aplikasi Anda sebelum 1 Maret.