Web Semantik dan Data Tertaut. Koreksi dan penambahan

Saya ingin menyajikan kepada publik sebuah fragmen dari buku yang baru dirilis ini:

Pemodelan ontologis perusahaan: metode dan teknologi [Teks]: monograf / [S. V. Gorshkov, S. S. Kralin, O. I. Mushtak dan lainnya; editor eksekutif S. V. Gorshkov]. - Yekaterinburg: Rumah Penerbitan Universitas Ural, 2019 .-- 234 hal .: Ill., Tab.; 20 cm - Auth. ditunjukkan di bagian belakang tit. s - Bibliogr. di akhir bab. - ISBN 978-5-7996-2580-1: 200 salinan.

Sampul buku dan tulang belakang


Tujuan perhitungan fragmen ini di Habré adalah tiga kali lipat:


  • Kumpulkan pertanyaan dan komentar untuk memperhitungkannya saat memasukkan teks ini dalam bentuk revisi di publikasi lain.
  • Untuk membuat tambahan yang tidak terlalu kompatibel dengan format monograf tercetak: catatan topikal (di bawahnya berada di bawah spoiler) dan hyperlink; serta melakukan koreksi (di bawahnya tidak disorot dengan cara apa pun).
  • Banyak penganut Semantic Web dan Linked Data masih percaya bahwa lingkaran mereka sangat sempit, terutama karena masyarakat umum masih belum dijelaskan dengan cara yang baik tentang apa Semantic Web dan Data Linked. Penulis fragmen, meskipun ia termasuk dalam lingkaran ini, tidak menganut pendapat seperti itu, tetapi, bagaimanapun, menganggap dirinya berkewajiban untuk melakukan upaya lain.

Konten paragraf


Web semantik
Data yang Ditautkan
RDF
RDFS
SPARQL
Burung hantu
Menautkan Data Perusahaan
Menghubungkan Data Perusahaan
Sastra


Web semantik


Evolusi Internet dapat direpresentasikan sebagai berikut (atau berbicara tentang segmennya, dibentuk dalam urutan berikut):


  1. Dokumen di Internet . Teknologi utama - Gopher, FTP, dll.
    Internet adalah jaringan global untuk berbagi sumber daya lokal.
  2. Dokumen internet . Teknologi utamanya adalah HTML dan HTTP.
    Sifat sumber daya yang terpapar memperhitungkan fitur media transmisi mereka.
  3. Data di Internet . Teknologi utama - REST dan SOAP API, XHR, dll.
    Dapat dikatakan bahwa tidak hanya orang menjadi konsumen sumber daya.
  4. Data internet . Teknologi utama adalah teknologi Data Tertaut.
    Fase keempat ini, yang diprediksi oleh Berners-Lee, pencipta teknologi utama kedua dan direktur W3C, disebut Semantic Web; Teknologi Linked Data dirancang untuk membuat data web tidak hanya dapat dibaca oleh mesin, tetapi juga "dapat dibaca oleh mesin".

Apakah Semantic Web Dead?

Mesin pencari cukup berhasil memaksa situs web untuk menggunakan RDFa dan JSON-LD dan mereka sendiri menggunakan teknologi yang serupa dengan yang dijelaskan di bawah ini (Grafik Pengetahuan Google, Grafik Pengetahuan Bing, dll.).


Apa yang menghalangi penggunaan yang lebih luas dan lebih dalam dari teknologi ini di web? Penulis tidak dapat menjawab pertanyaan ini, tetapi dapat berbicara berdasarkan pengalaman pribadi. Tugas-tugas yang akan diselesaikan "di luar kotak" dalam konteks timbulnya web semantik adalah, tetapi tidak terlalu luas, dan mereka yang menghadapi tugas-tugas ini tidak memiliki cara paksaan terhadap mereka yang mampu memberikan solusi. Penyediaan independen solusi untuk yang terakhir ini bertentangan dengan model bisnis mereka.


Namun, teknologi Data Terkait telah menyebar di luar web massal; Buku ini, pada kenyataannya, dikhususkan untuk aplikasi ini, dan komunitas Data Tertaut saat ini berharap bahwa teknologi ini akan menjadi lebih luas di lingkungan perusahaan dengan menangkap (atau menyatakan) tren Gartner seperti Grafik Pengetahuan dan Kain Data.


Periodisasi yang diberikan pertama kali diusulkan, tampaknya, dalam brosur 2011 ini: F. Bauer, M. Kaltenböck. Data Terbuka Tertaut: Yang Penting. Panduan Mulai Cepat untuk Pembuat Keputusan .


Semantic Web lebih merupakan visi sistemik dari Internet masa depan daripada tren spontan atau lobi tertentu, meskipun ia dapat memperhitungkan yang terakhir ini. Misalnya, karakteristik penting dari apa yang disebut Web 2.0 adalah "konten yang dibuat pengguna". Rekomendasi Ontologi Anotasi Web W3C dan inisiatif seperti Solid diminta untuk mempertimbangkannya.


Dari berikut ini, pembaca akan melihat korespondensi konsep-konsep kunci dari tahap kedua dan keempat:


  • Mitra URL adalah URI,
  • Setara HTML adalah RDF,
  • Hyperlink HTML mirip dengan kemunculan URI dalam dokumen RDF.

Data yang Ditautkan


Berners-Lee mendefinisikan Linked Data sebagai web semantik yang dibuat dengan baik: seperangkat pendekatan dan teknologi untuk mencapai tujuan utamanya. Prinsip-prinsip dasar Linked Data Berners-Lee memilih yang berikut ini.


Prinsip 1 Menggunakan URI ( Uniform Resource Identifier ) untuk memberi nama entitas.


URI adalah pengidentifikasi entitas global yang bertentangan dengan pengidentifikasi rekaman string lokal. Selanjutnya, prinsip ini paling baik diungkapkan dalam slogan Google Knowledge Graph " hal, bukan string ".


Prinsip 2 Menggunakan URI dalam skema HTTP sehingga mereka dapat di-referensi.


Beralih ke URI, seharusnya dimungkinkan untuk mendapatkan tanda di belakang penanda ini (di sini analogi dengan nama operator " * " dalam C jelas); lebih tepatnya, untuk mendapatkan gambaran tentang hal ini - tergantung pada nilai header Accept: HTTP. Mungkin dengan munculnya era AR / VR, itu akan mungkin untuk mendapatkan sumber daya itu sendiri, untuk saat ini, kemungkinan besar, itu akan menjadi dokumen RDF yang merupakan hasil dari mengeksekusi permintaan DESCRIBE SPARQL.


Prinsip 3 Menggunakan standar W3C - terutama RDF (S) dan SPARQL - khususnya, ketika URI melakukan dereferencing.


“Lapisan” terpisah ini dari tumpukan teknologi Linked Data, juga dikenal sebagai Web Lapisan Kue Semantik , akan dijelaskan di bawah ini.


Prinsip 4 Penggunaan referensi ke URI lain saat menjelaskan entitas.


RDF memungkinkan Anda untuk membatasi diri pada deskripsi verbal sumber daya dalam bahasa alami, dan prinsip keempat mendorong hal ini untuk tidak dilakukan. Dengan ketaatan umum dari prinsip pertama, menjadi mungkin, ketika menggambarkan sumber daya, untuk merujuk kepada orang lain, termasuk "orang asing," yang mengapa data disebut terkait. Bahkan, hampir tidak terhindarkan untuk menggunakan URI yang disebutkan dalam kamus RDFS.


RDF


RDF (Resource Description Framework) adalah formalisme untuk menggambarkan entitas terkait.


Pernyataan bentuk "objek-predikat-objek", yang disebut kembar tiga, dibuat tentang entitas dan hubungan mereka. Dalam kasus paling sederhana, subjek, predikat, dan objek adalah URI. URI yang sama dapat berada di posisi yang berbeda di kembar tiga yang berbeda: menjadi subjek, predikat, dan objek; dengan demikian, kembar tiga membentuk semacam grafik yang disebut grafik RDF.


Subjek dan objek bisa bukan hanya URI, tetapi juga disebut node kosong , dan objek juga bisa berupa literal . Literal adalah contoh tipe primitif yang terdiri dari representasi string dan deklarasi tipe.


Contoh penulisan literal (dalam sintaks Turtle, lihat di bawah): "5.0"^^xsd:float dan "five"^^xsd:string . Literal dengan rdf:langString juga dapat diberikan dengan tag bahasa, di Turtle ditulis seperti ini: "five"@en dan ""@ru .


Node kosong adalah sumber daya “anonim” tanpa pengidentifikasi global, yang, bagaimanapun, dapat diklaim; semacam variabel eksistensial.


Jadi (ini, sebenarnya, adalah inti dari RDF):


  • subjek adalah URI atau simpul kosong,
  • predikat adalah URI,
  • Objek adalah URI, simpul kosong, atau literal.

Mengapa predikat tidak dapat menjadi node kosong?

Alasan yang mungkin adalah keinginan untuk secara informal memahami dan menerjemahkan ke dalam bahasa logika tingkat pertama predikat triplet spo sebagai sesuatu seperti p(s,o)dimana p- predikat sdan oApakah konstanta. Jejak pemahaman ini ada dalam dokumen " LBase: Semantik untuk Bahasa Web Semantik ", yang memiliki status catatan kelompok kerja W3C. Dengan pemahaman ini, triplet sp [] , di mana [] adalah simpul kosong, akan diterjemahkan sebagai  adaxp(s,x)dimana xApakah variabel, tetapi bagaimana menerjemahkan s [] o ? Memiliki status rekomendasi W3C, dokumen Semantik RDF 1.1 menawarkan metode terjemahan yang berbeda, tetapi masih tidak mempertimbangkan kemungkinan predikat sebagai node kosong.


Namun, Manu Sporny diizinkan .


RDF adalah model abstrak. RDF dapat ditulis (serial) dalam berbagai sintaksis: RDF / XML , Turtle (paling bisa dibaca manusia), JSON-LD , HDT (biner).


RDF yang sama dapat diserialisasi dalam RDF / XML dengan berbagai cara, oleh karena itu, misalnya, XML yang dihasilkan tidak ada gunanya untuk divalidasi dengan XSD atau mencoba untuk mengambil data menggunakan XPath. Demikian juga, JSON-LD tidak mungkin memuaskan keinginan pengembang Javascript biasa untuk bekerja dengan RDF menggunakan titik Javascript dan notasi kurung siku (meskipun JSON-LD bergerak ke arah itu, menyarankan mekanisme pembingkaian ).


Kebanyakan sintaksis menawarkan cara untuk mempersingkat URI yang panjang. Misalnya, deklarasi @prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> di Turtle akan memungkinkan Anda untuk menulis alih-alih <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> just rdf:type .


RDFS


RDFS (RDF Schema) adalah kamus pemodelan dasar yang memperkenalkan konsep properti dan kelas dan properti seperti rdf:type , rdfs:subClassOf , rdfs:domain dan rdfs:range . Menggunakan kamus RDFS, misalnya, ekspresi yang valid berikut dapat ditulis:


 rdf:type rdf:type rdf:Property . rdf:Property rdf:type rdfs:Class . rdfs:Class rdfs:subClassOf rdfs:Resource . rdfs:subClassOf rdfs:domain rdfs:Class . rdfs:domain rdfs:domain rdf:Property . rdfs:domain rdfs:range rdfs:Class . rdfs:label rdfs:range rdfs:Literal . 

RDFS adalah kamus deskripsi dan pemodelan, tetapi ini bukan bahasa pembatasan (meskipun spesifikasi resmi meninggalkan kemungkinan penggunaan tersebut). Kata "Skema" tidak harus dipahami dalam arti yang sama seperti pada ungkapan "Skema XML". Sebagai contoh :author rdfs:range foaf:Person berarti rdf:type semua nilai dari :author properti :author adalah foaf:Person , tetapi tidak berarti bahwa ini harus dikatakan terlebih dahulu.


SPARQL


SPARQL (SPARQL Protocol dan RDF Query Language) adalah bahasa permintaan untuk data RDF. Dalam kasus sederhana, kueri SPARQL adalah sekumpulan sampel yang digunakan untuk membandingkan kembar tiga grafik. Variabel dapat ditemukan dalam sampel di posisi subyek, predikat, dan objek.


Kueri akan mengembalikan nilai-nilai variabel yang, ketika diganti menjadi sampel, dapat menghasilkan subgraph dari grafik RDF yang diinterogasi (subset dari tripletnya). Variabel dengan nama yang sama dalam sampel triplet yang berbeda harus memiliki nilai yang sama.


Misalnya, dalam set tujuh aksioma RDFS di atas, permintaan berikut akan mengembalikan rdfs:domain dan rdfs:range sebagai nilai ?s dan ?p masing-masing:


 SELECT * WHERE { ?s ?p rdfs:Class . ?p ?p rdf:Property . } 

Perlu dicatat bahwa SPARQL bersifat deklaratif dan bukan bahasa untuk menggambarkan grafik traversal (namun, beberapa repositori RDF menawarkan cara untuk menyesuaikan rencana eksekusi permintaan). Oleh karena itu, beberapa tugas grafik standar, misalnya, menemukan jalur terpendek, tidak dapat diselesaikan pada SPARQL, termasuk menggunakan mekanisme jalur properti (tetapi, sekali lagi, masing-masing repositori RDF menawarkan ekstensi khusus untuk menyelesaikan masalah ini).


SPARQL tidak berbagi anggapan keterbukaan dunia dan mengikuti pendekatan "negasi sebagai kegagalan", konstruksi seperti FILTER NOT EXISTS {…} dimungkinkan di dalamnya. Distribusi data diperhitungkan menggunakan mekanisme kueri gabungan .


Titik akses SPARQL - toko RDF yang mampu menangani permintaan SPARQL - tidak memiliki mitra langsung dari tahap kedua (lihat bagian awal bagian ini). Dapat disamakan dengan database berdasarkan pada konten halaman HTML yang dihasilkan, tetapi dapat diakses secara eksternal. Titik akses SPARQL analog dengan titik akses API dari tahap ketiga, tetapi dengan dua perbedaan utama. Pertama, dimungkinkan untuk menggabungkan beberapa pertanyaan "atom" menjadi satu (yang dianggap sebagai karakteristik utama GraphQL), dan kedua, API semacam itu sepenuhnya didokumentasikan sendiri (yang merupakan apa yang coba dicapai oleh HATEOAS).


Ucapan polemik

RDF adalah cara untuk mempublikasikan data di web, sehingga repositori RDF harus dianggap sebagai DBMS yang terdokumentasi. Benar, karena RDF adalah grafik, bukan pohon, mereka juga berubah menjadi grafik. Sungguh menakjubkan apa yang terjadi. Siapa sangka ada orang pintar yang menerapkan node kosong. Codd tidak berhasil .


Ada cara yang kurang berfungsi penuh untuk mengatur akses ke data RDF, misalnya, Linked Data Fragments (LDF) dan Linked Data Platform (LDP).


Burung hantu


OWL (Web Ontology Language) - formalisme representasi pengetahuan, versi sintaksis dari logika deskriptif  mathcalSROIQ(D)(di mana-mana di bawah ini lebih tepat untuk mengatakan OWL 2, versi OWL pertama didasarkan  mathcalSHOIN(D))


Kelas sesuai dengan konsep logika deskriptif di OWL, properti sesuai dengan peran, individu mempertahankan nama sebelumnya. Aksioma juga disebut aksioma.


Misalnya, dalam apa yang disebut sintaks Manchester untuk menulis OWL, kita sudah mengetahui aksioma  mathsfInduk equiv mathsfManusia sqcap exist mathsfhasParent mathsf.Humanakan ditulis seperti ini:


 Class: Human Class: Parent EquivalentClass: Human and (inverse hasParent) some Human ObjectProperty: hasParent 

Ada sintaks lain untuk menulis OWL, misalnya, sintaks fungsional yang digunakan dalam spesifikasi resmi, dan OWL / XML . Selain itu, OWL dapat diserialisasi dengan sintaks RDF abstrak dan kemudian ke salah satu sintaksis spesifik.


OWL sehubungan dengan RDF bertindak dalam dua hal. Di satu sisi, ini dapat dianggap sebagai semacam kamus yang memperluas RDFS. Di sisi lain, ini adalah formalisme yang lebih kuat, yang RDF hanyalah format serialisasi. Tidak semua konstruksi dasar OWL dapat ditulis menggunakan triplet RDF tunggal.


Bergantung pada subset konstruksi OWL mana yang diizinkan untuk digunakan, mereka berbicara tentang apa yang disebut profil OWL . Yang terstandarisasi dan paling terkenal adalah OWL EL, OWL RL dan OWL QL. Pilihan profil mempengaruhi kompleksitas komputasi dari tugas-tugas tipikal. Satu set lengkap pencocokan desain OWL  mathcalSROIQ(D), yang disebut OWL DL. Terkadang mereka juga berbicara tentang OWL Full, di mana OWL konstruk diizinkan untuk digunakan dengan kebebasan penuh yang melekat dalam RDF, tanpa batasan semantik dan komputasi  mathcalSROIQ(D). Misalnya, sesuatu dapat berupa kelas dan properti. OWL Full tidak dapat dipecahkan.


Prinsip-prinsip kunci untuk melampirkan efek ke OWL adalah penerimaan asumsi dunia terbuka ( OWA ) dan penolakan terhadap anggapan asumsi nama unik ( UNA ). Di bawah ini kita akan melihat apa prinsip-prinsip ini dapat mengarah dan berkenalan dengan beberapa konstruksi OWL.


Biarkan ontologi berisi fragmen berikut (dalam sintaks Manchester):


 Class: manyChildren EquivalentTo: Human that hasChild min 3 Individual: John Types: Human Facts: hasChild Alice, hasChild Bob, hasChild Carol 

Akankah mengikuti dari atas bahwa Yohanes besar? Penolakan dari UNA akan memaksa mesin output untuk menjawab pertanyaan ini secara negatif, karena Alice dan Bob mungkin adalah orang yang sama. Agar hal-hal berikut terjadi, Anda perlu menambahkan aksioma berikut:


 DifferentIndividuals: Alice, Bob, Carol, John 

Biarkan sekarang fragmen ontologi memiliki bentuk berikut (John dinyatakan besar, tetapi ia hanya memiliki dua anak yang ditunjukkan):


 Class: manyChildren EquivalentTo: Human that hasChild min 3 Individual: John Types: Human, manyChildren Facts: hasChild Alice, hasChild Bob DifferentIndividuals: Alice, Bob, Carol, John 

Apakah ontologi ini tidak konsisten (yang dapat ditafsirkan sebagai bukti data tidak valid)? Adopsi OWA akan memaksa mesin output untuk merespons dalam negatif: "di suatu tempat" lain (dalam ontologi lain) dapat dikatakan bahwa Carol juga anak John.


Untuk mengecualikan kemungkinan ini, kami menambahkan fakta baru tentang John:


 Individual: John Facts: hasChild Alice, hasChild Bob, not hasChild Carol 

Untuk mengecualikan penampilan anak-anak lain, kami mengatakan bahwa semua nilai properti "punya anak" adalah orang-orang, yang kami hanya punya empat:


 ObjectProperty: hasChild Domain: Human haracteristics: Irreflexive Class: Human EquivalentTo: { Alice, Bill, Carol, John } 

Sekarang ontologi akan menjadi kontroversial, yang mesin output tidak akan gagal melapor. Aksioma terakhir, dalam arti tertentu, kita “menutup” dunia, dan mencatat bagaimana kemungkinan bahwa Yohanes adalah seorang anak bagi dirinya sendiri dikecualikan.


Menautkan Data Perusahaan


Serangkaian pendekatan dan teknologi Data Tertaut pada awalnya dimaksudkan untuk menerbitkan data di web. Penggunaannya dalam lingkungan perusahaan menghadapi sejumlah kesulitan.


Sebagai contoh, dalam lingkungan perusahaan yang tertutup, kekuatan deduktif OWL, berdasarkan adopsi OWA dan penolakan UNA, keputusan karena sifat web yang terbuka dan terdistribusi, terlalu lemah. Dan di sini output berikut dimungkinkan.


  • Pemberdayaan semantik OWL, yang melibatkan pengabaian OWA dan adopsi UNA, implementasi mesin output yang sesuai. - Dengan cara ini penyimpanan Stardog RDF.
  • Pengabaian kemampuan deduktif OWL yang mendukung mesin aturan. - Stardog mendukung SWRL ; Jena dan GraphDB menawarkan bahasa aturan mereka sendiri .
  • Penolakan kemungkinan deduktif OWL, gunakan untuk pemodelan satu atau yang lain dekat dengan RDFS. - Lihat lebih lanjut tentang ini nanti.

Masalah lain adalah perhatian yang lebih signifikan bahwa di dunia korporat dimungkinkan untuk mengabdikan masalah kualitas data, dan kurangnya alat validasi data pada tumpukan Data Linked. Outputnya adalah sebagai berikut.


  • Sekali lagi, penggunaan konstruksi OWL dengan semantik dunia tertutup dan keunikan nama di hadapan mesin output yang sesuai untuk validasi.
  • Menggunakan SHACL , standar setelah daftar lapisan Kue Lapisan Web Semantik diperbaiki (namun, itu juga dapat digunakan sebagai mesin aturan), atau ShEx .
  • Kesadaran bahwa semuanya pada akhirnya dilakukan oleh kueri SPARQL, penciptaan mekanisme sederhana kita sendiri untuk validasi data yang menggunakannya.

Namun, bahkan penolakan lengkap terhadap kapabilitas deduktif dan alat validasi membuat tumpukan Data Tertaut tidak tertandingi dalam tugas yang mirip lansekap dengan tugas integrasi data yang dibuka dan didistribusikan web.


Bagaimana dengan sistem informasi perusahaan reguler?

Di sini saya akan menjelaskan reaksi awal khas dari peserta pengembangan untuk menunjukkan bagaimana tumpukan ini terlihat dari sudut pandang TI tradisional (mengingatkan perumpamaan tentang gajah):


  • Business Analyst : RDF adalah sesuatu seperti model logis yang disimpan secara langsung.
  • Analis Sistem : RDF adalah EAV , dengan hanya sekelompok indeks dan bahasa permintaan yang nyaman.
  • Pengembang : well, itu semua dalam semangat konsep model kaya dan kode rendah, saya membacanya baru-baru ini.
  • Manajer Proyek : ya itu meruntuhkan tumpukan !

Praktek menunjukkan bahwa tumpukan paling sering digunakan dalam tugas-tugas yang berkaitan dengan distribusi dan heterogenitas data, misalnya, ketika membangun sistem kelas MDM (Master Data Management) atau DWH (Data Warehouse). Tugas semacam itu tersedia di industri apa pun.


Adapun aplikasi spesifik industri, teknologi Data Tertaut saat ini yang paling populer di industri berikut.


  • teknologi biomedis (di mana popularitas mereka tampaknya terkait dengan kompleksitas area subjek);

relevan

Suatu hari, di "Boiling Point", konferensi " Association of Ontologies." Dari teori ke aplikasi praktis . "


  • pembuatan dan pengoperasian produk-produk kompleks (rekayasa skala besar, produksi minyak dan gas; paling sering kita berbicara tentang standar ISO 15926 );

relevan

Di sini, alasannya adalah kompleksitas area subjek, ketika, misalnya, pada tahap hulu, jika kita berbicara tentang industri minyak dan gas, akuntansi yang sederhana perlu memiliki beberapa fungsi CAD.


Pada 2008, sebuah konferensi instalasi perwakilan yang diselenggarakan oleh Chevron diadakan.


ISO 15926 pada akhirnya tampaknya agak berat untuk industri minyak dan gas (dan menemukan aplikasi yang lebih banyak di bidang teknik mesin). Hanya Statoil (Equinor) yang duduk di atasnya secara menyeluruh, di Norwegia seluruh ekosistem telah terbentuk di sekitarnya. Yang lain mencoba melakukan sesuatu sendiri. Misalnya, menurut desas-desus, Kementerian Energi dalam negeri bermaksud untuk membuat "model ontologis konseptual dari bahan bakar dan kompleks energi", yang serupa, tampaknya, diciptakan untuk industri tenaga listrik .


  • organisasi keuangan (bahkan XBRL dapat dianggap sebagai hibrida dari SDMX dan ontologi RDF Data Cube);

relevan

Pada awal tahun, LinkedIn aktif mengecam penulis dengan lowongan untuk hampir semua raksasa industri keuangan, yang namanya dia kenal: Goldman Sachs, JPMorgan Chase dan / atau Morgan Stanley, Wells Fargo, SWIFT / Visa / Mastercard, Bank of America, Citigroup, Fed Deutsche Bank. Ngomong-ngomong, di Konferensi Grafik Pengetahuan, lembaga keuangan menempati seluruh pagi hari pertama .


Di HeadHunter, hanya Sberbank menemukan sesuatu yang menarik, itu tentang "penyimpanan EAV dengan model data seperti RDF".


Mungkin, perbedaan tingkat cinta untuk teknologi yang sesuai dari lembaga keuangan domestik dan Barat adalah karena sifat transnasional dari kegiatan yang terakhir. Rupanya, integrasi lintas batas negara memerlukan solusi organisasi dan teknis yang berbeda secara kualitatif.


  • sistem tanya jawab yang memiliki aplikasi komersial (IBM Watson, Apple Siri, Google Knowledge Graph);

relevan

Omong-omong, pencipta Siri Thomas Gruber adalah penulis definisi ontologi (dalam arti IT) sebagai "spesifikasi konseptualisasi". Menurut pendapat saya, pengaturan ulang kata-kata dalam definisi ini tidak mengubah artinya, yang, mungkin, menunjukkan bahwa kata itu tidak ada di sana.


  • publikasi data terstruktur (dengan alasan yang bagus ini sudah dapat dikaitkan dengan Data Terbuka Tertaut).

relevan

Penggemar besar Data Tertaut - yang disebut GLAM: Galeri, Perpustakaan, Arsip, dan Museum. Cukuplah untuk mengatakan bahwa untuk menggantikan MARC21, Library of Congress mempromosikan BIBFRAME , yang memberikan dasar bagi masa depan deskripsi bibliografi dan, tentu saja, didasarkan pada RDF.


Seringkali, sebagai contoh proyek yang sukses di bidang Linked Open Data, Wikidata adalah sejenis versi Wikipedia yang dapat dibaca mesin, yang isinya, berbeda dengan DBPedia, tidak dihasilkan dengan mengimpor dari kotak info artikel, tetapi dibuat lebih atau kurang secara manual (dan kemudian menjadi sumber informasi untuk hal yang sama) kotak info).


Kami juga menyarankan agar Anda membiasakan diri dengan daftar pengguna toko RDF Stardog di situs web Stardog di bagian Pelanggan.


Namun, dalam Siklus Gartner Hype 2016 untuk Teknologi-Teknologi Berkembang Perusahaan Taksonomi dan Manajemen Ontologi ditempatkan di tengah-tengah penurunan ke lembah kekecewaan dengan prospek mencapai "dataran tinggi produktivitas" tidak lebih awal dari 10 tahun kemudian.


Menghubungkan Data Perusahaan


Sedikit sejarah

Dari minat historis, dia membawa ke meja perkiraan Gartner dari berbagai tahun tentang teknologi yang menarik bagi kita.


TahunTeknologiLaporkanPosisiBertahun-tahun ke dataran tinggi
2001Web semantikTeknologi yang munculPemicu inovasi5-10
2006Web Semantik PerusahaanTeknologi yang munculPuncak harapan yang meningkat5-10
2012Web semantikData besarPuncak harapan yang meningkat> 10
2015Data yang DitautkanAnalisis Lanjutan dan Ilmu DataKekecewaan5-10
2016Manajemen ontologi perusahaanTeknologi yang munculKekecewaan> 10
2018Grafik pengetahuanTeknologi yang munculPemicu inovasi5-10

Namun, sudah ada dalam "Hype Cycle ..." tahun 2018, tren naik lainnya muncul - Grafik Pengetahuan. Ada reinkarnasi tertentu: DBMS grafis, yang mengalihkan perhatian pengguna dan kekuatan pengembang, di bawah pengaruh permintaan dari yang sebelumnya dan kebiasaan yang terakhir, mulai memperoleh kontur dan posisi pendahulunya-pesaing mereka.


Hampir setiap grafik DBMS sekarang menyatakan dirinya sebagai platform yang cocok untuk membangun "grafik pengetahuan" perusahaan ("data tertaut" kadang-kadang digantikan oleh "data yang terhubung"), tetapi bagaimana bisa dibenarkan klaim seperti itu?


Database grafik masih asemantic, data dalam grafik DBMS masih sama dengan data silo. URI , RDF- RDF-. — LPG, .


, . , SQL.


, RDF- LPG. , Blazegraph: RDF*, RDF LPG.


RDF- LPG : « RDF-» . Knowledge Graphs Data Fabric , , . , , , , . : Data Fabric — , , NoETL, Knowledge Graph — , , Data Fabric done right.


Sastra


  1. Halpin, H., Monnin, A. (eds.) (2014) Philosophical Engineering: Toward a Philosophy of the Web
  2. Allemang, D., Hendler, J. (2011) Semantic Web for the Working Ontologist (2nd ed.)
  3. Staab, S., Studer, R. (eds.) (2009) Handbook on Ontologies (2nd ed.)
  4. Wood, D. (ed.). (2011) Linking Enterprise Data
  5. Uschold M. (2018) Demystifying OWL for the Enterprise
  6. Keet, M. (2018) An Introduction to Ontology Engineering

Source: https://habr.com/ru/post/id455008/


All Articles