Babylon Health, yang modalnya diperkirakan $ 2 miliar, menawarkan layanan chatbot yang memberikan saran medis berdasarkan gejala yang diuraikan. Ini telah digunakan 1,7 juta kali. Namun, para ahli khawatir itu tidak bekerja persis seperti yang dijanjikan dalam iklan.
Hamish Fraser pertama kali bertemu Babylon Health pada tahun 2017, ketika ia dan seorang rekannya untuk sebuah
artikel di Wired membantu memeriksa keakuratan diagnosis beberapa sistem AI berbasis gejala yang dirancang untuk memberikan saran kepada siapa pun yang menggunakan ponsel pintar. Di antara pesaing dengan pengenalan penyakit umum, termasuk asma dan herpes zoster, Babylon Health Symptom Checker adalah yang terburuk. Fraser, yang kemudian bekerja sebagai inspektur informatika kesehatan di Universitas Leeds di Inggris, menyimpulkan bahwa perusahaan perlu secara serius meningkatkan layanan mereka agar tidak meninggalkan pasar.
"Pada saat itu, aku tidak punya prasangka untuk salah satu dari mereka, dan aku tidak tahu satu pun, jadi aku tidak punya tujuan untuk membalas dendam dengan seseorang, dan aku berpikir: Nda, ini bukan hasil yang sangat baik, - kata Fraser, sekarang bekerja di Brown University. "Kupikir mereka akan menghilang." Tapi betapa salahnya saya. "
Sejak rilis artikel itu, banyak yang telah berubah. Sejak awal 2018, Babylon Health yang berbasis di London telah tumbuh dari 300 karyawan menjadi hampir 1.500. Perusahaan ini bernilai $ 2 miliar, dan mengklaim "menyediakan layanan medis yang terjangkau dan terjangkau untuk setiap orang di planet ini." Di Inggris, Babylon Health melakukan praktik medis terbesar kelima di bawah pengawasan sistem kesehatan nasional, terutama didanai oleh pemerintah, yang memungkinkan pasien yang tinggal di dekat London dan Birmingham untuk melakukan obrolan video dengan dokter, atau datang ke klinik sesuai kebutuhan. Perusahaan tersebut mengklaim telah memproses lebih dari 700.000 konsultasi pasien digital dengan dokter, dan berencana untuk memberikan layanan serupa di
kota-kota Inggris lainnya di masa depan.
Babylon Health berjanji untuk menghemat uang pada layanan medis yang semakin mahal, menggunakan AI untuk menyaring pasien, sehingga waktu dan sumber daya hanya diberikan kepada orang-orang yang benar-benar membutuhkan bantuan medis. Babylon Health, baik di Inggris maupun di luar negeri, mengatakan program skrining gejalanya telah digunakan lebih dari 1,7 juta kali di tempat-tempat seperti Inggris, Uni Eropa, Kanada, Asia Tenggara dan Arab Saudi. Segera Babel Kesehatan berencana untuk memperluas lebih banyak lagi, dan memasuki AS dan Cina.
Ekspansi yang cepat dapat menjadi masalah karena "teknologi tersebut - dan tidak hanya program pengujian gejala, tetapi juga intervensi digital lainnya - dapat dengan cepat dipromosikan dan diubah," kata David Vaughn, yang memberi kuliah tentang penggunaan AI dalam perawatan kesehatan di Universitas Manchester di Inggris, dan bekerja dengan Fraser untuk menguji sistem semacam itu untuk sebuah artikel. "Namun, mereka berpotensi membuat perbedaan besar," kata Vaughn, dan khususnya, Babylon Health adalah "contoh perusahaan yang telah berhasil mencapai sangat banyak dengan sangat cepat."
Perkembangan peristiwa yang begitu pesat menimbulkan pertanyaan dari para ahli yang mengklaim bahwa Babylon Health bergegas masuk ke pasar tanpa bukti yang memadai tentang kesehatan produk-produknya. Sejauh ini, belum ada evaluasi ahli dari layanan mereka, dengan pengujian acak dan kelompok kontrol - metode yang merupakan standar emas dalam ilmu kedokteran - yang akan menunjukkan seberapa baik AI mengatasi pasien nyata dalam kondisi nyata. Namun, program pengujian gejala Babylon Health telah memengaruhi ribuan orang setiap hari - menerima persetujuan dari regulator pemerintah di negara tempat ia menawarkan layanan.
"Mereka berhasil mendapatkan persetujuan dari sistem perawatan kesehatan nasional tanpa menguji produk pada pasien sungguhan, tanpa melalui tes pihak ketiga - dan itu tidak menghentikan regulator," kata Margaret McCartney, dokter umum dari Glasgow, Skotlandia, dan
kritikus pada Babylon Health . "Sepertinya luar biasa bagiku."
Babylon Health mengklaim untuk memenuhi persyaratan sistem perawatan kesehatan nasional, dan di semua negara tempat layanan beroperasi, memenuhi semua persyaratan peraturan. Perusahaan juga mengklaim merekrut peneliti universitas untuk mengatur uji coba kontrol acak. "Kami telah mengambil langkah-langkah penting untuk menguji dan memvalidasi keamanan dan efektivitas teknologi ini," kata Keith Grimes, Direktur Inovasi Klinis, Babylon Health. "Hanya saja tidak dalam bentuk uji klinis."
Memanggil Dokter Chatbot
Pemeriksa gejala Babylon Health terlihat seperti chatbot yang digunakan pengguna untuk mengobrol melalui aplikasi atau situs web. Ketika pengguna memasukkan gejala utama mereka dalam bentuk kalimat atau frasa pendek, pemeriksa gejala mengajukan pertanyaan terkait kemungkinan adanya gejala terkait. Akibatnya, program pemeriksaan gejala mengidentifikasi kemungkinan penyebab dan merekomendasikan tindakan lebih lanjut - cadangan untuk konsultasi pada video dengan terapis atau kunjungan ke rumah sakit.

Teknologi yang mendasari program uji gejala dikenal sebagai grafik pengetahuan dan bekerja seperti ensiklopedia digital kedokteran, di mana hubungan berbagai penyakit, gejala dan kondisi ditandai. Hubungan ini diwakili oleh jutaan titik referensi dari ratusan sumber medis, dan terus diperbarui. Program pemeriksaan gejala juga dapat mengelola catatan rekam medis - termasuk data yang dikumpulkan saat pengguna bekerja dengan program - untuk mengidentifikasi kemungkinan hubungan antara penyakit pengguna yang berbeda.
Grafik pengetahuan dapat disesuaikan dengan menambahkan data untuk membantu menilai kemungkinan berbagai penyakit pada populasi tertentu dan wilayah geografis.
Babylon Health menciptakan "model kedokteran yang dapat diterapkan tidak hanya di Inggris dan AS, tetapi secara global," kata Saurabh Johri, seorang ilmuwan senior di Babylon Health. Dia mengatakan model harus disesuaikan untuk "mencerminkan kekhasan penyakit setempat - sehingga jika seorang pasien mengeluh muntah, demam dan diare di London, maka dia lebih kecil kemungkinannya menderita malaria daripada jika dia tinggal di Rwanda."
Banyak perusahaan medis lainnya menggunakan teknologi pembelajaran mesin, yang populer di bidang kecerdasan buatan, dan opsinya, seperti pembelajaran yang mendalam, untuk melatih perangkat lunak untuk menganalisis data pasien untuk menentukan gejala dan membuat diagnosa. Memilah-milah data medis mentah dalam jumlah besar, sistem seperti itu kadang-kadang dapat melatih perangkat lunak untuk menemukan pola dan hubungan tersembunyi seperti antara titik-titik referensi dalam data yang terkadang terlewatkan oleh orang dan pengetahuan medis kita. Pendekatan Babylon Health tidak seperti itu - perkiraan AI-nya secara langsung mencerminkan pengetahuan medis dan pemahaman manusia saat ini tentang hubungan antara gejala dan penyebabnya, tidak bergantung pada yang menjanjikan, tetapi
kadang-kadang kinerja mesin yang
tidak dapat dijelaskan .
Sejauh ini, Babylon Health telah menggunakan pembelajaran mendalam untuk menafsirkan pesan obrolan pasien dengan chatbot. AI juga menggunakan pembelajaran mendalam untuk mempercepat pencarian data yang menuntut komputasi di kolom pengetahuan, di mana Anda perlu memeriksa semua kemungkinan kombinasi gejala, penyakit, dan faktor risiko yang sesuai untuk kasus tertentu. Tetapi secara umum, Babylon Health AI bekerja terutama melalui pengetahuan medis yang dikumpulkan oleh orang-orang, tidak mempercayai mesin untuk bekerja membangun hubungan logis.

Mungkin ada keuntungan dari pendekatan ini. Salah satu kelemahan pembelajaran mesin dan dalam adalah bahwa mereka membutuhkan sejumlah besar data pelatihan yang relevan dan kekuatan pemrosesan untuk mempelajari pola. Bergantung pada negara dan sistem perawatan kesehatan, tidak selalu mudah untuk mengakses semua data medis yang relevan yang diperlukan untuk mempelajari perangkat lunak komputer. Kelemahan lain dari pendekatan ini adalah opacity. Teknologi pembelajaran mesin seringkali tidak membiarkan para ahli manusia memahami dengan tepat bagaimana perangkat lunak menghubungkan titik referensi yang berbeda dalam data.
Pendekatan Kesehatan Babel dengan transparansi lebih baik. Perusahaan menggunakan model yang memungkinkan dokter dan pemrogram penuh waktu untuk "mengintip di bawah tenda," kata Johri, dan memahami bagaimana program pengujian gejala sampai pada kesimpulan apa pun.
Hasilnya diragukan
Terlepas dari semua manfaatnya, Babylon Health belum terbukti menjadi model dengan perilaku yang bertanggung jawab. Perusahaan itu
berusaha membungkam kritik dengan
litigasi , dan
ditegur oleh regulator Inggris karena iklan "menyesatkan". Dalam sebuah wawancara dengan Wired UK dan Forbes, mantan karyawan perusahaan menggambarkan situasi di mana budaya perusahaan bertentangan dengan kebutuhan untuk pengujian yang ketat terhadap keamanan dan efektivitas AI dalam perawatan kesehatan. Forbes menulis: "Wawancara dengan karyawan saat ini dan mantan karyawan Babylon Health dan dokter independen menunjukkan kekhawatiran yang meluas bahwa perusahaan cepat meluncurkan perangkat lunak yang tidak diuji secara menyeluruh, dan kemudian membesar-besarkan efektivitasnya" (perusahaan menyatakan
protes keras terhadap pernyataan ini).
Babel Kesehatan juga terlibat dalam debat publik, membuat pernyataan bahwa beberapa kritikus kemudian disebut menyesatkan. Pada 27 Juni 2018, perusahaan itu menjadi perhatian media, mengatakan selama
siaran langsung di Royal College of Medicine di London bahwa AI-nya mampu mendiagnosis penyakit umum yang tidak lebih buruk daripada terapis manusia. Pernyataan ini didasarkan pada
studi perusahaan yang membandingkan AI dengan diagnosa yang dilakukan oleh tujuh dokter. Juga dalam penelitian ini, program uji gejala diuji pada bagian pertanyaan dari ujian yang dilakukan untuk mendapatkan dokter umum di Inggris, ujian untuk keanggotaan Royal College of General Practitioners, dan catatan sejarah dari studi independen 2015 yang mengevaluasi beberapa program verifikasi gejala.
Namun, tak lama kemudian, para ilmuwan dan organisasi medis mulai menunjukkan keprihatinan.
Royal College of General Practitioners ,
British Association of Physicians dan
Royal College of Physicians telah mengeluarkan pernyataan yang menantang tuduhan Babylon Health, sementara Royal College of Physicians telah mengorganisir presentasi perusahaan dan membantu melakukan penelitian. Untuk mulai dengan, dalam penelitian ini, AI hanya diuji pada bagian dari pertanyaan untuk ujian, dan program tidak diuji pada orang sungguhan dalam pengaturan klinis.
Fraser dan Vaughn, para peneliti yang membantu Wired UK menguji program skrining gejala pada 2017, juga memiliki pertanyaan untuk penelitian ini karena melibatkan sejumlah kecil dokter dan tidak diperiksa oleh para ahli independen. Pasangan itu memutuskan untuk mempelajari studi ini lebih dekat. Dalam sebuah
laporan yang diterbitkan di majalah The Lancet pada tahun 2018, mereka menyimpulkan bahwa penelitian Babylon Health tidak memberikan bukti konklusif bahwa program skrining gejala mereka โmampu melakukan yang lebih baik daripada dokter dalam situasi realistis apa pun, dan lebih besar kemungkinannya bahwa itu akan jauh lebih buruk. "
Temuan ini secara langsung mempengaruhi pasien nyata. "Jika program skrining gejala Anda menyarankan Anda untuk tinggal di rumah dan tidak pergi ke dokter, keputusan seperti itu memiliki konsekuensi dalam kasus-kasus di mana bantuan yang diperlukan ditunda atau tidak diberikan," kata Enrico Coeira, direktur Centre for Medical Informatics di McUyra University di Sydney, Australia , dan penulis karya 2018 yang diterbitkan di majalah Lancet.
Bahkan sebelum gelombang kritik, Babylon Health memulai negosiasi awal dengan Stanford University untuk melakukan penelitian percontohan tambahan, kata Megan Mahoney, Stanford Clinical Researcher, co-author 2018 Babylon Health.
โTampaknya, AI dapat memiliki potensi tertentu,โ kata Mahoney, menjelaskan bahwa โkami memiliki tanggung jawab nyata untuk mencapai tingkat kekakuan baru dalam menilai potensi ini, karena AI dapat sangat berguna untuk mendukung dan menambah layanan medisโ .
Mahoney menggambarkan Kesehatan Babel tahun 2018 sebagai "sangat baik untuk penelitian internal." Terlepas dari optimismenya, dia memperingatkan bahwa dia tidak akan pernah berani mengintegrasikan AI ini ke dalam layanan kesehatan nyata atau praktik medis, hanya berdasarkan hasil penelitian ini.
Ketika majalah Undark bertanya tentang perselisihan tentang karya ini, Babylon Health menanggapi dengan pernyataan yang menyatakan, antara lain: "Beberapa media mungkin telah salah mengartikan pernyataan kami, tetapi kami tetap dengan hasil awal kami dan bukti ilmiah." Di sana juga dinyatakan bahwa pekerjaan tahun 2018 adalah "pendahuluan", dan membandingkan AI perusahaan dengan "sampel kecil dokter". Babylon Health juga merujuk pada kesimpulan penelitian: "Dibutuhkan lebih banyak penelitian menggunakan kelompok-kelompok orang nyata yang lebih besar untuk membandingkan efektivitas sistem ini dengan dokter manusia."
Perhitungan: obat-obatan abad XXI
Bahkan Babylon Health mengakui bahwa penelitian pendahuluan tidak memenuhi standar emas penelitian medis. Namun, ini tidak menghentikan perusahaan - atau regulator - dari memberikan pasien akses ke program pengujian gejala.
Pendekatan ini sebanding dengan uji coba manusia terhadap obat baru tanpa pengujian yang ketat, kata Isaac Cohan, seorang peneliti ilmu komputer biomedis di Harvard Medical School. Dan dia menambahkan bahwa perhitungannya "dapat dianggap sebagai obat abad XXI - jadi mari kita perlakukan mereka dengan tanggung jawab yang sama."
Jika Babylon Health menyelenggarakan uji kontrol acak, maka, menurut Fraser, itu akan melakukan banyak hal untuk membangun kepercayaan dalam ekspansi di pasar Amerika dan Asia. Perusahaan berencana untuk mengirim protokol pengujian ke majalah dengan tinjauan pendahuluan awal dari artikel dalam beberapa bulan mendatang, kata Johri, menambahkan: "Kami akan melakukan tes ini di Inggris, dan kami juga membahas masalah ini dengan mitra di Cina dan Amerika Serikat."
Peraturan saat ini dari Badan Pengawasan Obat dan Makanan AS merekomendasikan keringanan hukuman dalam program skrining gejala berbasis AI karena risiko yang terkait dengannya lebih rendah daripada layanan kesehatan lainnya. Manajemen "memutuskan untuk merilis program pengujian gejala - dan layanan serupa - dari pengawasan untuk mendorong inovasi," kata Fraser. "Namun, mereka tampaknya memiliki kesempatan untuk mengatur area ini lebih banyak jika mereka mau."
Sejauh ini, beberapa ahli independen terus khawatir tentang versi saat ini dari program skrining gejala Kesehatan Babylon. Pada awal September, seorang konsultan independen untuk sistem kesehatan nasional Inggris, sering mengkritik Babylon Health di Twitter dengan nama samaran
Dr. Murphy ,
menunjukkan adanya kemungkinan
bias seksual dalam program skrining gejala Kesehatan Babylon.
Seorang wanita perokok berusia 59 tahun yang mengeluhkan nyeri dada dan pusing mendadak, program pengujian gejala mendiagnosis depresi atau serangan panik sebagai kemungkinan diagnosis. Untuk pasien yang sama, yang profilnya menunjukkan jenis kelamin laki-laki, program gejala juga menunjukkan kemungkinan masalah jantung yang serius, merekomendasikan kunjungan ke rumah sakit atau memanggil ambulans.
Alih-alih berdebat dengan tuduhan ini, seperti sebelumnya, Babylon Health memilih nada komunikasi yang mendamaikan untuk
jawaban di Twitter . Dalam
posting blog berikutnya
, Babylon Health mengakui bias dalam perawatan kesehatan, sambil mengadvokasi efektivitas program pemeriksaan gejala.
Ini tidak meyakinkan Dr. Murphy ingin perusahaan bekerja pada masalah potensial dengan AI-nya: "Yang paling berbahaya dari semua dokter adalah seseorang yang tidak melihat kesalahan mereka atau tidak belajar dari mereka."