Tahun ajaran baru telah tiba. Siswa menerima jadwal kelas dan mulai berpikir tentang ~~minuman keras-gadis-gitar-~~ sesi di masa depan. Menulis kursus, diploma, artikel, dan disertasi sudah dekat. Dan itu berarti bahwa analisis teks untuk pinjaman, laporan audit, dan sakit kepala lainnya untuk siswa dan administrator akan datang. Dan ratusan ribu orang (tanpa lelucon - kami menghitung!) Sudah punya pertanyaan logis - bagaimana menipu "Anti-plagiarisme". Dalam kasus kami, hampir semua metode penipuan entah bagaimana terhubung dengan distorsi teks. Kami telah mengajarkan Anti-Plagiarisme untuk mendeteksi teks "terdistorsi" dengan menerjemahkan dari Bahasa Inggris ke Bahasa Rusia (kami menulis tentang ini di artikel pertama blog perusahaan kami ). Hari ini kita akan berbicara tentang cara mendeteksi cara yang paling efektif, meskipun memakan waktu, untuk mengubah teks - parafrase.

Dari Rusia ke Rusia, atau omong-omong

Dari sudut pandang orang biasa, parafrase (pengutipan ulang) adalah penulisan ulang teks dengan kata lain (paling sering dalam bahasa Anda sendiri). Ketika parafrase, mereka mencoba untuk menjaga makna teks sumber sebanyak mungkin, sambil menghilangkan teks itu sendiri dari kemiripan formal dengan aslinya. Secara umum, semua parafrase mematuhi aturan tertentu yang paling sering digunakan orang, tanpa menyadarinya dalam laporan ini (lihat, misalnya, Alberto Barrón-Cedeño ).

Mari kita melihat lebih dekat pada cerita terkenal “Mumu” [seperti dalam judul artikel, ia juga menampilkan seekor anjing, manusia, dan perahu :-)], apa yang dapat dilakukan dengan teks sehingga maknanya dipertahankan dan kalimatnya terlihat berbeda.

1. Hal pertama yang terlintas dalam pikiran adalah mengganti sebagian besar kata dengan sinonim. Ini adalah hal paling sederhana yang dapat Anda lakukan dengan teks. Ini tidak mengubah artinya, tetapi teks pada pandangan pertama akan berubah. Trik ini digunakan oleh program synonymizer. Pada saat yang sama, mereka mengganti kata-kata, tidak memperhitungkan konteksnya, tetapi hanya memilih kata dari daftar sinonim, oleh karena itu kalimat yang diproses oleh program seperti itu seringkali terlihat agak canggung. PerIphrase juga merujuk pada metode ini parafrase - penunjukan deskriptif objek berdasarkan menyoroti beberapa kualitas, atribut, fitur, misalnya, "planet biru" bukan "Bumi", "bandit satu-bersenjata" alih-alih "mesin slot", dll.

Asli	Mengutip
Wanita itu mulai memanggilnya dengan suara penuh kasih sayang.	Wanita bangsawan itu mulai memanggilnya dengan suara sopan.

2. Mengganti beberapa bagian pembicaraan dengan yang lain juga memungkinkan Anda untuk mengubah struktur kalimat. Misalnya, sangat sering mengganti kata kerja dengan kata benda dan sebaliknya.

Asli	Mengutip
Suatu hari di musim panas yang indah, wanita itu, dengan para snugglernya, berjalan mengitari ruang tamu.	Wanita itu berjalan dengan implan pada hari musim panas yang indah.

3. Cara sederhana lain untuk mengubah struktur teks adalah dengan hanya membagi kalimat menjadi lebih sederhana, atau sebaliknya, menggabungkannya menjadi yang panjang.

Asli	Mengutip
Gerasim sedikit kagum, tetapi dia memanggil Mumu, mengangkatnya dari tanah dan menyerahkannya kepada Stepan.	Gerasim sedikit terkejut, tetapi kemudian dia memanggil Mumu. Dia mengambilnya dari tanah dan menyerahkannya ke Stepan.

4. Pada dasarnya dan pada mulanya, kalimat diubah dengan suara pasif.

Asli	Mengutip
Wanita itu memerintahkan untuk memanggil tabib yang lebih tua.	Engraftment yang lebih tua disebut nyonya.

Ini hanya tipuan biasa. Jelas, parafrase yang baik sangat sulit dideteksi. Terkadang ini hanya mungkin untuk spesialis dengan pengetahuan yang mendalam di bidang subjek teks. Tetapi untuk tugas yang sedang kami selesaikan, ini tidak diperlukan. Setelah semua, pengubahan kata dalam membutuhkan usaha yang cukup besar, dan karenanya banyak waktu. Kemungkinan besar, akan lebih mudah bagi siswa untuk menulis karyanya daripada menghabiskan waktu dengan serius memparafrasekan teks orang lain, yang, terlepas dari biayanya, dapat dideteksi selama verifikasi.

Oleh karena itu, tujuan kami adalah parafrase yang relatif sederhana yang dapat dilakukan oleh "sumsum tulang belakang", yaitu tanpa pengeluaran besar dari upaya mental dan waktu.

Intinya, parafrase adalah "saudara perempuan" terjemahan ke bahasa lain. Kata-kata berubah, tetapi artinya tetap. Kita dapat mengatakan bahwa parafrase teks berbahasa Rusia sebenarnya adalah terjemahan dari bahasa Rusia ke bahasa Rusia.

Itulah mengapa algoritma pendeteksian parafrase ternyata merupakan “kerabat dekat” dari algoritma pendeteksian peminjaman transfer . Jadi, bagaimana proses mendeteksi pinjaman dalam kasus ini:

1. Dokumen yang diperiksa dalam bahasa Rusia diterima di pintu masuk.

2. ~~Mesin menerjemahkan teks Rusia ke dalam bahasa Inggris.~~

3. Ada pencarian kandidat untuk sumber-sumber pinjaman dari koleksi dokumen ~~berbahasa~~ Rusia ~~berbahasa Inggris yang~~ diindeks.

4. Perbandingan dibuat untuk setiap kandidat yang ditemukan dengan ~~versi bahasa Inggris dari~~ dokumen yang sedang diperiksa, ~~dan~~ definisi batas-batas fragmen yang dipinjam adalah om.

5. Perbatasan fragmen ditransfer ke versi Rusia dari dokumen yang sedang diperiksa. Setelah menyelesaikan proses, laporan verifikasi dihasilkan.

Perbedaan penting adalah bahwa parameter algoritma dikonfigurasikan pada data lain dan mempertimbangkan spesifikasi bahasa Rusia. Dengan demikian, kami mempertahankan strategi penyetelan dengan fokus pada akurasi, mengorbankan kelengkapan. Tugas kita adalah untuk meminimalkan jumlah kesalahan positif, bahkan jika dengan mengorbankan "beberapa tujuan".

Tuning dari "Penjahit Tinggi"

Parafrase tentu saja merupakan cara yang melelahkan untuk mengubah teks. Namun, tidak semua metode penulisan ulang sama-sama berguna membuat teks tidak dapat dikenali. Mencoba mengurangi waktu yang dihabiskan, penulis menggunakan cara paling sederhana untuk memodifikasi teks, yang dideteksi oleh algoritma sistem dan tidak membawa hasil apa pun. Oleh karena itu, setelah upaya pertama yang gagal untuk melebih-lebihkan orisinalitas, teks mulai " disesuaikan ". Cara kerjanya: berbagai kombinasi metode digunakan, dan setelah masing-masing kombinasi tersebut, teks yang dimodifikasi dimuat ke dalam sistem untuk memeriksa seberapa sukses pengulangan kata-kata itu dan apakah pengguna bisa mendapatkan persentase orisinalitas yang dihargai. Hasilnya adalah rangkaian teks, yang masing-masing telah diulang dengan berbagai tingkat keparahan. Mengambil rantai semacam itu adalah tugas rekayasa yang cukup sederhana. Studi kami tentang "rantai" tersebut mengungkapkan (pada saat yang sama mengkonfirmasikan hasil dari Alberto Barrón-Cedeño yang sama ) metode modifikasi yang paling sering dan menyediakan materi yang kaya untuk mempelajari algoritma baru.

Mari kita lakukan percobaan kecil. Ambil kutipan kecil dari kisah Turgenev yang telah disebutkan:

Satu jam setelah semua alarm ini, pintu lemari terbuka dan Gerasim muncul. Dia mengenakan kaftan yang meriah; dia memimpin Mumu dengan seutas tali. Eroshka melangkah ke samping dan membiarkannya lewat. Gerasim pergi ke gerbang. Anak-anak dan semua orang di halaman mengawasinya dengan mata mereka, diam-diam. Dia bahkan tidak berbalik; Dia memakai topinya hanya di jalan. Gavrila mengirim Eroshka yang sama sebagai pengamat. Eroshka melihat dari jauh bahwa ia memasuki kedai minum bersama anjing itu, dan mulai menunggu pembebasannya

Mari kita coba mengelabui "Anti-plagiarisme". Pertama, mari kita coba synonymizer otomatis untuk teks. Program semacam itu tidak berbeda dalam kualitas ~~kecerdasan~~ khusus - mereka hanya mengambil kata-kata dan menggantinya dengan sinonim dari kamus, tidak memperhitungkan konteksnya. Oleh karena itu, teks yang diproses oleh program semacam itu seringkali terlihat agak canggung. Inilah yang terjadi setelah memproses salah satu dari program ini:

Beberapa waktu setelah kegelisahan ini, pintu kandang diselesaikan, dan Gerasim memperkenalkan dirinya. Dia mengenakan kaftan khusyuk; seseorang menuntun Mumu dalam seutas tali. Eroshka melangkah ke samping dan meninggalkannya untuk pergi. Gerasim bergegas ke gerbang. Anak-anak dan semua mantan tanpa kecuali di halaman mengawasinya pergi tanpa mengucapkan sepatah kata pun. Termasuk dia tidak berbalik: dia hanya mengenakan hiasan kepala di jalan. Gavrila mengirim Eroshka yang sama sebagai pengamat. Eroshka melihat dari jauh bahwa seseorang telah memasuki kedai bersama dengan anjing itu, dan mulai menunggu pembebasannya

Perhatikan bahwa setidaknya satu kata diganti dalam setiap kalimat. Perubahan kecil yang tampak seperti itu sudah cukup bagi "Anti-Plagiarisme" untuk berhenti membandingkan kalimat yang ditulis ulang dengan yang asli.

Sekarang mari kita coba membandingkan pasangan kalimat dari teks sumber dan ditulis ulang menggunakan algoritma kami. Untuk ini, kita akan menggunakan ukuran cosinus kesamaan . Seperti dalam algoritma deteksi untuk pinjaman yang dapat ditransfer , setiap kalimat direpresentasikan sebagai vektor berdimensi besar. Dengan mengukur cosinus sudut antara sepasang vektor tersebut, kita dapat menyimpulkan bagaimana vektor-vektor ini “mirip” satu sama lain, dan, dengan demikian, seberapa mirip kalimat yang sesuai dengan vektor-vektor ini.

Inilah yang terjadi setelah membandingkan kalimat dengan algoritma kami:

Untuk kejelasan, kami menggambarkan nilai cosinus dalam bentuk skala termal. Artinya, "lebih panas" warna antara pasangan kalimat, semakin besar nilai kosinus dan semakin mirip kalimat dari pasangan ini dipertimbangkan. Perhatikan bahwa nilai-nilai kosinus terkecil diterima oleh kalimat di mana substitusi sinonim sangat tidak cocok dengan konteksnya. Sebagai contoh, "begitu" dan "dengan cara ini" memang sangat sering sinonim, namun, dalam konteks ini, penggantian seperti itu sama sekali tidak pada tempatnya.

Sekarang mari kita coba diri kita sendiri dalam peran para pembuat sinonim dan menulis ulang teks dengan makna yang sama. Namun tidak seperti program ini, semua perubahan kami konsisten secara tata bahasa dan sangat sesuai dengan konteksnya. Inilah yang kami dapatkan:

Dan dalam hal ini, algoritma memberikan peringkat kesamaan yang cukup tinggi untuk sebagian besar kalimat. Kalimat-kalimat, yang menerima peringkat rendah, mengalami transformasi yang cukup mendalam: di dalamnya struktur tata bahasanya sangat berubah. Bahkan seseorang tidak akan langsung menjawab apakah proposal ini serupa, dengan cepat mengalir melalui mata mereka.

Dan sekarang apa yang harus dilakukan dengan semua ini?

Secara alami, cara terbaik untuk memahami apakah suatu algoritma baru berfungsi atau tidak adalah dengan menyelidiki kualitas kerjanya pada data nyata. Oleh karena itu, kami menempatkan modul pendeteksi paraphrase baru ke dalam produksi dan menjalankan permintaan nyata melaluinya (walaupun belum menunjukkan hasilnya kepada pengguna). Karya-karya diperiksa baik oleh algoritma pencarian pinjaman saat ini - "perbandingan kata demi kata", dan oleh algoritma baru - "deteksi parafrase". Lalu kami membandingkan sekitar 10 ribu laporan tentang pemeriksaan pekerjaan yang diunduh yang dibuat oleh kedua algoritma. Hasilnya menarik.

Grafik ini menunjukkan distribusi persentase pinjaman untuk kedua algoritma. Dapat dilihat bahwa "deteksi parafrase" rata-rata pinjaman 10 persen lebih banyak daripada "perbandingan kata demi kata."

Dalam grafik kedua, perbedaan absolut antara persentase pinjaman dari algoritma yang diusulkan dan yang sekarang diplot pada sumbu horizontal. Perbedaan yang lebih besar dari 0 berarti bahwa "penemuan parafrase" ditemukan lebih dari "perbandingan kata demi kata."

Kesimpulan

Parafrase sebagai cara mendistorsi teks sebenarnya digunakan ketika menulis bekerja;
Jumlah "positif" belum tumbuh secara radikal, algoritma menemukan teks yang benar-benar diulang;
Seperti dalam kasus pinjaman yang dapat ditransfer, sistem Anti-Plagiarisme menerima modul baru - sistem pendeteksian parafrase;
Dan tentu saja, klasik kami dibuat dengan pikiran Anda sendiri!

Arsitektur algoritma pendeteksian parafrase dan hasil pertama dari karya tersebut ditunjukkan pada lokakarya Cendekia Besar tentang analisis data ilmiah, yang tahun ini diadakan sebagai bagian dari salah satu konferensi utama tentang pembelajaran mesin - KDD 2018 .

Modul deteksi parafrase digunakan pada produksi dan sudah digunakan oleh guru dan siswa ketika memeriksa teks untuk meminjam.

Artikel ini ditulis bersama dengan Rita_Kuznetsova , Oleg_Bakhteev , Kamil Safin dan chernasty . Gambar asli untuk membuat ilustrasi input diambil dari sini: demotivators.cc .

"Tiga di atas kapal, kemiskinan dan anjing," atau bagaimana Antiplagiarisme mencari parafrase

Dari Rusia ke Rusia, atau omong-omong

Tuning dari "Penjahit Tinggi"

Dan sekarang apa yang harus dilakukan dengan semua ini?

Kesimpulan

More articles: