Jadi sistem tidak berjalan

Tahun ajaran terakhir, April. Siswa semakin sering mulai menghadiri pemikiran bahwa akan diperlukan untuk melakukan tesis. Untuk melakukannya adalah, dalam arti, untuk mencari cara untuk memasak sesuatu dengan cepat yang setidaknya akan selaras dengan topik yang, tampaknya, telah disetujui oleh penyelia. Dan, ya, Anda membutuhkan setidaknya 80 halaman, Anda juga harus mematuhi semua jenis GOST ... Jelas, Anda tidak punya waktu untuk mengetik begitu banyak teks yang terhubung sendiri (dan mereka bahkan bisa masuk ke esensi pekerjaan, yah, itu!). Jelas - Anda harus mengambil pekerjaan yang sudah selesai dipertahankan, pekerjaan yang berkualitas, diuji dan disetujui. Situasinya akrab bagi kita semua. Satu-satunya pertanyaan yang tetap terbuka adalah bagaimana memastikan bahwa pekerjaan itu diuji untuk peminjaman ... Pencarian internet dan komunikasi dengan rekan kerja yang malang menuntun siswa ke pilihan berikut untuk menyelesaikan masalah:

  • Tulis karya sendiri;
  • Untuk mengulangi teks (mahal dan sulit);
  • Mengecoh sistem dengan "solusi teknis."



Mari kita lihat apa putaran teknisnya, bagaimana kita menangkapnya dan mengapa penggunaannya bukan ide yang baik ...

Pengubahan ulang dapat membantu menularkan teks orang lain sebagai milik Anda jika dilakukan dengan baik. Namun, pengubahan ulang yang berkualitas tinggi dalam dirinya sendiri adalah proses yang sangat melelahkan di mana siswa kemungkinan besar tidak memiliki waktu dan uang. Cara-cara pengubahan kata yang sederhana (misalnya, sinonimisasi) akan memberikan hasil yang tidak hanya akan terdeteksi oleh sistem Anti-Plagiarisme, tetapi juga, kemungkinan besar, akan menghibur penyelia dan komite sertifikasi.


Dengan demikian, kami sampai pada cara yang paling kreatif dan paling populer di kalangan siswa - solusi teknis - transformasi dokumen, yang, tanpa mengubah tampilan dokumen asli, mengubah teks yang diekstraksi oleh sistem pemeriksaan .


Dari sudut pandang bekerja dengan putaran teknis (selanjutnya kami akan menyebutnya hanya "putaran"), sistem Antiplagiarisme memiliki dua tugas:

  • Deteksi bypass potensial dan pemberitahuan pengguna tentang mereka;
  • Menghapus teks yang diperiksa dari perayapan.

Skema umum putaran pemrosesan dapat dijelaskan sebagai berikut:

  • Deteksi bypass, menyimpan informasi tentang mereka;
  • Menghapus teks yang diekstrak dari perayapan;
  • Definisi "kecurigaan" dari dokumen berdasarkan jalan memutar;
  • Menampilkan informasi tentang kecurigaan kepada pengguna, tampilan jalan memutar yang ditemukan.

Beginilah tampilannya dalam praktik.
Dokumen dalam format docx:



Memeriksa dokumen tanpa fungsionalitas pendeteksian merangkak:



Dokumen ini memiliki orisinalitas seratus persen.


Kami memeriksa dokumen dengan fungsi deteksi bypass diaktifkan dan melihat bahwa orisinalitas turun menjadi 0.



Selain itu, sistem menandai dokumen sebagai "Mencurigakan" dan menunjukkan kepada pengguna di mana dan bypass yang terdeteksi:



Karena tujuan penyelesaian teknis adalah untuk meningkatkan keaslian suatu dokumen, menarik untuk mengklasifikasikannya berdasarkan bagaimana pengaruhnya terhadap verifikasi dokumen. Berdasarkan pada fakta bahwa elemen utama dari pengecekan dokumen untuk dipinjam adalah kata-kata dokumen, pemecahan masalah dapat dibagi menjadi beberapa tipe berikut sesuai dengan pengaruhnya terhadap kata-kata dokumen yang diekstraksi:

  • Ubah kata (kata dalam teks yang diekstraksi berbeda dari kata yang ditampilkan dalam dokumen sumber);
  • Menambahkan kata (kata tersebut tidak terlihat dalam dokumen sumber, muncul dalam teks dokumen yang diekstraksi);
  • Menghapus kata (kata tersebut terlihat di dokumen sumber, bukan di teks dokumen yang diekstraksi);
  • Memecah kata (dalam dokumen asli, kata tersebut ditampilkan secara normal, dalam teks yang sembuh dibagi menjadi dua atau lebih bagian);
  • Menggabungkan kata-kata (beberapa kata ditampilkan dalam dokumen sumber, mereka digabungkan menjadi satu kata dalam teks yang diekstraksi).

Mari kita lihat solusi apa yang kita hadapi. Mari kita mulai dari yang sederhana dan menuju yang paling menarik.


Perayapan Teks


Bypass jenis ini sama sekali tidak terikat dengan format dokumen, mereka mengubah nilai string kata-kata sehingga mereka terus terlihat identik dengan kata-kata aslinya.


Omoglif


Salah satu solusi pertama yang kami rekam adalah mengganti huruf dengan omoglyphs - karakter yang secara visual mirip dengan huruf aslinya dan memiliki arti yang berbeda. Omoglyphia telah digunakan sejak awal keberadaan sistem Anti-Plagiarisme , dan terlepas dari kenyataan bahwa kami telah menangkapnya sejak lama, kami masih menghadapi jalan memutar yang serupa dalam pekerjaan siswa.



Omoglyph mudah ditemukan dan dibersihkan ketika bahasa setiap kata diketahui. Kita dapat menentukan secara akurat bahasa dari setiap kata teks, bahkan ketika teks tersebut mengandung beberapa bahasa dan sejumlah besar "sampah" (homoglyph dan karakter tambahan lainnya). Bagaimana topik untuk artikel terpisah. Memiliki bahasa kata dan daftar kemungkinan homoglyphs untuk bahasa tersebut, kami mengembalikan huruf-huruf bahasa asli dan menyimpan informasi tentang homoglyphs yang ditemukan.


Karakter yang tidak dapat dicetak


Cara lain untuk mengubah nilai string kata tanpa mengubah tampilan secara signifikan adalah dengan menggunakan karakter Unicode yang tidak terlihat atau lemah. Penyisipan karakter tersebut dalam kata mengubah makna string kata tersebut, sementara secara praktis tidak mengubah tampilan.


Banyak dari karakter ini berada dalam kategori Unicode "Other, Control" dan "Mark, Nonspacing . "


Sistem hanya menghapus karakter-karakter ini dan, ketika ada banyak dari mereka, memberi tahu pengguna tentang kecurigaan dokumen, menampilkan karakter-karakter yang tidak dapat dihapus dalam laporan.


Penanganan masalah pdf


Seperti yang kami katakan sebelumnya , format kunci untuk memproses dokumen adalah pdf. Kami mengonversi semua jenis dokumen lain ke pdf, sehingga logika dasar pemrosesan dokumen kami menjadi satu untuk semua format yang didukung. Dengan demikian, solusi yang dapat diimplementasikan dalam dokumen pdf menarik bagi kami.


Teks kecil


Solusi yang salah satu yang pertama terlintas dalam pikiran adalah membuat sesuatu yang kecil dan tidak terlihat. Teks yang diperoleh tidak terlihat saat melihat dokumen asli, tetapi diambil oleh sistem. Implementasinya sangat sederhana - atur ukuran font minimum untuk teks, ubah warna teks. Menangkap bypass jenis ini juga sesederhana - cukup periksa ukuran font teks dan dimensi geometris dari masing-masing kata. Karena ukurannya yang kecil, siswa sering menambahkan seluruh paragraf dari teks tersembunyi tersebut ke halaman:



Tampilan upaya perayapan yang terdeteksi:



Ubah warna teks ke latar belakang


Terlepas dari kenyataan bahwa metode ini sering digunakan dalam kombinasi dengan yang sebelumnya, penggunaannya yang independen lebih menarik. Faktanya adalah bahwa bagi kita untuk mendeteksi dan menghapus bypass, cukup untuk menentukan bahwa setidaknya satu parameter kata / simbol memiliki nilai "mencurigakan". Dan, jika definisi ukuran kata yang kecil sepele, maka definisi teks yang warnanya cocok dengan latar belakang adalah prosedur yang lebih rumit.


Mendeteksi teks yang tidak terlihat rumit oleh keadaan berikut:

  • Tidak selalu mungkin untuk mendapatkan warna karakter tertentu dari pdf;
  • Latar belakang kata mungkin tidak putih. Selain itu, kata tersebut mungkin ada di latar belakang gambar;
  • Kata-kata dan simbol bisa saling bertabrakan.

Untuk menghilangkan dua kesulitan pertama, "tembus pandang" teks ditentukan dengan menganalisis gambar yang diberikan dari halaman dokumen:

  • Tentukan area halaman yang mengandung kata;
  • Kami menghitung varian dari wilayah yang diperoleh. Jika variansnya di bawah ambang tertentu - di wilayah yang dianalisis kami memiliki warna yang seragam, tidak ada huruf yang terlihat. Oleh karena itu, ada upaya untuk mem-bypass sistem.

Kata-kata dan simbol disembunyikan satu demi satu


Karakter yang tidak terlihat tidak dapat dideteksi dengan menganalisis area di mana mereka berada jika karakter ini tersembunyi di belakang karakter "terlihat" lainnya. Oleh karena itu, untuk mendeteksi karakter "tersembunyi" seperti itu, kami memiliki prosedur terpisah yang menganalisis persimpangan area simbol dan menandai karakter yang sebagian besar tumpang tindih oleh orang lain.



Terpintas Bypass:



Teks sebagai Gambar


Apa yang akan terjadi jika kita mengambil dan mengganti bagian teks dengan gambar yang mengandung teks ini? Dengan akurasi yang tepat, semuanya akan terlihat seolah-olah tidak ada yang berubah dalam dokumen, tetapi ketika Anda mengekstrak lapisan teks, tentu saja, kata-kata dari gambar tidak akan diekstraksi. Untuk menutup celah ini, kami menggunakan pengenalan teks optik.


Penanganan masalah menggunakan fitur konversi docx ke pdf


Mengkonversi dokumen ke pdf bukanlah tugas yang sepele. Anda dapat membaca tentang bagaimana kami memilih solusi yang paling cocok untuk kami di sini . Sayangnya, bahkan pilihan terbaik yang kami analisis tidak sempurna mengkonversi dokumen ke pdf. Beberapa "fitur" konversi secara aktif digunakan ketika mencoba untuk memotong sistem.


Formula


Rumus dan sejumlah objek lain yang mengandung teks "hilang" setelah konversi ke pdf. Dengan demikian, Anda dapat mencoba menyembunyikan seluruh paragraf teks, atau, misalnya, setiap kata kedua dalam teks:



Saat mengonversi ke pdf, kami mendapatkan hasil berikut:



Untuk mendeteksi dan membersihkan ini dan solusi lain, dipertajam oleh fitur konversi docx ke pdf, kami menganalisis dan membersihkan file sumber docx. Secara khusus, jika sejumlah besar formula ditemukan dalam dokumen, kami menggantinya dengan teks biasa, yang akan disimpan ketika dokumen dikonversi ke pdf. Selain itu, kami mengingat posisi formula yang kami proses, dan jika perlu, memberi tahu pengguna tentang kecurigaan dokumen yang sedang diperiksa dan menyorot teks yang kami kembalikan dari formula.


Skala, spasi intersymbol / garis kecil


Saat mengonversi ke pdf, sejumlah properti teks tidak diperhitungkan: skala, simbol dan spasi baris. Ini memungkinkan Anda untuk menambahkan teks yang tidak terlihat dalam dokumen sumber (misalnya, memiliki skala yang sangat kecil), yang dalam pdf menjadi teks normal yang tidak menonjol. Implementasi bypass (docx):



Hasil konversi ke pdf (kami mengubah warnanya sendiri):



Satu-satunya cara untuk menangkap teks ini adalah menemukannya di docx dan menyimpan informasi tentangnya. Jika kami menemukan banyak teks seperti itu dalam dokumen, kami menandai dokumen tersebut mencurigakan dan menunjukkan kepada pengguna di mana kami menemukan teks dengan atribut mencurigakan dalam dokumen.


Memecah kata menjadi beberapa bagian


Kasus khusus yang menarik untuk menerapkan properti yang dijelaskan dalam paragraf sebelumnya adalah menambahkan spasi ke kata dan menyembunyikannya. Dalam dokumen asli, kata tersebut akan terlihat normal, digabungkan, dan setelah mengonversi dokumen menjadi pdf, kata tersebut akan dibagi menjadi dua bagian, karena ruang menjadi berukuran penuh. Kami menangkap tipuan serupa dengan telinga kami dalam cara yang sama seperti pada paragraf sebelumnya. Implementasi bypass (docx):



Hasil konversi ke pdf:



Tampilan jalan memutar:



Di bawah pohon berangan tua, dalam terang hari, aku mengkhianati kamu, dan kamu aku ...


Kami berbicara tentang dasar, tetapi tidak berarti semua cara teknis untuk mengimplementasikan solusi. Tentu saja, kita tidak mungkin bisa membuat pertahanan mutlak. Namun demikian, kami terus meningkatkan sistem kami, meninggalkan semakin sedikit peluang untuk "menipu" itu. Dalam sesi ini, kami mencoba untuk menutup celah yang dapat dideteksi terutama dengan cepat - seringkali dari saat celah ditemukan hingga ditutup pada prod, hanya beberapa hari berlalu. Itulah mengapa ini sedikit lucu dan, pada saat yang sama, sedih membaca iklan "janji" perusahaan yang siap membantu siswa meningkatkan orisinalitas pekerjaan mereka dan memberikan jaminan untuk pekerjaan mereka, kadang-kadang mencapai 30 hari. Mahasiswa, Anda akan dikhianati! Dalam kasus terbaik, "jaminan" ini dapat mengembalikan biaya layanan dari perusahaan perayap kepada Anda, tetapi itu tidak akan membantu dengan cara apa pun dengan ijazah yang gagal dan potensi pengusiran dari universitas ...



Buat dengan pikiran Anda sendiri!

Source: https://habr.com/ru/post/id480580/


All Articles