Prispevek na spletnih straneh podjetja Ontotext – podjetje se osredotoča na rešitve za oblikovanje grafov znanja (angl. Knowledge graph) – pojasnjuje, kaj graf znanja dejansko je: graf znanja je zbirka medsebojno povezanih opisov konceptov, entitet, razmerij in dogodkov, ki zagotavlja kontekstualizirane podatke prek povezovanja in semantičnih metapodatkov. V prispevku so razložene ključne značilnosti grafov znanja, kot so njihova funkcija kot podatkovne baze, grafi in baze znanja, ter njihova izrazitost, učinkovitost, interoperabilnost in standardizacija s pomočjo okvirnega standarda za izmenjavo podatkov (angl. Resource Description Framework – RDF). Prispevek prav tako razlikuje med tem, kaj graf znanja ni, in navajajo primere velikih grafov znanja, kot so Google Knowledge Graph in DBpedia, ter opisuje, kako grafi znanja izboljšajo analizo besedil in se uporabljajo v različnih panogah.
Podroben povzetek spletne strani je prikazan v nadaljevanju:
1. Srce grafa znanja: Model znanja
Osrednji element grafa znanja je model znanja, ki ga Ontotext opisuje kot “zbirko medsebojno povezanih opisov konceptov, entitet, razmerij in dogodkov.” Bistveno je, da ti opisi:
- “imajo formalno semantiko, ki ljudem in računalnikom omogoča učinkovito in nedvoumno obdelavo”;
- “prispevajo drug k drugemu in tvorijo omrežje, kjer vsaka entiteta predstavlja del opisa entitet, povezanih z njo”;
- “različni podatki so povezani in opisani s semantičnimi metapodatki v skladu z modelom znanja.”
Grafi znanja podatke umestijo v kontekst s pomočjo povezovanja in semantičnih metapodatkov, kar zagotavlja ogrodje za integracijo, poenotenje, analitiko in skupno rabo podatkov.
2. Ključne značilnosti in primerjava z drugimi vzorci
Grafi znanja združujejo lastnosti več vzorcev upravljanja podatkov:
- Zbirka podatkov: omogoča raziskovanje podatkov z uporabo strukturiranih poizvedb.
- Graf: podatke je mogoče analizirati kot katero koli drugo mrežno podatkovno strukturo.
- Baza znanja: vsebujejo formalno semantiko, ki se lahko uporablja za interpretacijo podatkov in sklepanje novih dejstev.
Ontotext poudarja, da so grafi znanja, predstavljeni v RDF (Resource Description Framework), “najboljše ogrodje za integracijo, poenotenje, povezovanje in ponovno uporabo podatkov”, ker združujejo:
- Izraznost: standardi Semantic Web stack (RDF(S) in OWL) omogočajo tekočo reprezentacijo različnih vrst podatkov in vsebin.
- Učinkovitost: specifikacije so zasnovane za učinkovito upravljanje grafov z milijardami dejstev in lastnosti.
- Interoperabilnost: obstaja vrsta specifikacij za serializacijo podatkov, dostop (SPARQL Protocol) in upravljanje.
- Standardizacija: vse je standardizirano preko procesa skupnosti W3C.
3. Ontologije in formalna semantika
Ontologije so “hrbtenica formalne semantike grafa znanja” in se lahko obravnavajo kot “podatkovna shema grafa”. Služijo kot formalna pogodba med razvijalci in uporabniki glede pomena podatkov. Zagotavljajo skupno razumevanje podatkov in njihovih pomenov.
Instrumenti za reprezentacijo in modeliranje, ki se uporabljajo pri formalni semantiki, vključujejo:
- Razredi: klasifikacija entitet (npr. Oseba, Organizacija, Lokacija).
- Tipi razmerij: označevanje razmerij med entitetami (npr. prijatelj, sorodnik, konkurent) z možnostjo formalnih definicij (npr. inverzna razmerja, tranzitivnost).
- Kategorije: povezovanje entitet s kategorijami, ki opisujejo semantiko (npr. ”Veliki štirje svetovalci”, ”Knjige o Afriki”).
- Prosto besedilni opisi: besedilni opisi, ki pojasnjujejo zasnovo in izboljšujejo iskanje.
4. Kaj NI graf znanja?
Pomembno je razumeti, kaj ni graf znanja:
- Vsak graf RDF ni graf znanja: Grafična reprezentacija podatkov je koristna, vendar ni vedno potrebe po zajemanju semantičnega znanja podatkov. Na primer, statistični podatki v RDF niso nujno graf znanja, če ne vzpostavljajo semantičnih povezav med opisanimi entitetami. Bistvene so povezave in sam graf, ne le uporabljeni jezik za reprezentacijo.
- Vsaka baza znanja ni graf znanja: Ključna značilnost grafa znanja je, da morajo biti opisi entitet medsebojno povezani (“definicija ene entitete vključuje drugo entiteto. To povezovanje je način, kako se graf oblikuje.”). Baze znanja brez formalne strukture in semantike (npr. Q&A “baza znanja” o programskem izdelku) niso grafi znanja.
5. Primeri velikih grafov znanja
Članek navaja več pomembnih primerov:
- Google Knowledge Graph: Google je izraz populariziral leta 2012, vendar so tehnične podrobnosti omejene.
- DBPedia: Projekt, ki izkorišča strukturo Wikipedia infopolj za ustvarjanje ogromnega nabora podatkov in ontologije z enciklopedično pokritostjo. Je osrčje gibanja Open Linked Data.
- Geonames: Vsebuje 25 milijonov geografskih entitet.
- Wordnet: Leksikalna baza podatkov za angleški jezik, ki zagotavlja definicije in sopomenke, pogosto uporabljena za izboljšanje NLP in iskalnih aplikacij.
- FactForge: Ontotextov lastni graf znanja, ki združuje podatke iz zgoraj omenjenih grafov znanja in specializiranih ontologij, kot je Financial Industry Business Ontology.
6. Grafi znanja in zbirke podatkov RDF
Prehod od “Velikih podatkov” k “Pametnim podatkom” je poudaril potrebo po podatkovnem modelu, ki odraža kompleksno razumevanje informacij. Zbirke podatkov RDF (triplestores), kot je Ontotextov GraphDB, so ključne, saj “lahko gladko integrirajo heterogene podatke iz več virov in shranijo stotine milijard dejstev o katerem koli zamislivem konceptu.” Struktura grafa RDF je robustna in prilagodljiva.
Ključna moč grafov znanja se pokaže, ko se lastniški podatki pretvorijo v trojke RDF in se povežejo z odprtim globalnim znanjem. Zbirke podatkov RDF imajo tudi sposobnost sklepanja, kjer “je mogoče ustvariti novo znanje iz že obstoječih dejstev,” kar izboljša ustreznost iskalnih rezultatov. Nadaljnjo moč prinaša uporaba tehnik rudarjenja besedila za ekstrakcijo dejstev iz prostega besedila in njihovo dodajanje v graf znanja.
7. Pomoč grafov znanja pri analizi besedila
Grafi znanja bistveno pomagajo sodobnim tehnologijam za analizo besedila:
- “Veliki grafi zagotavljajo ozadje, človeško podobno ozaveščenost o konceptih in entitetah, da omogočijo natančnejšo interpretacijo besedila.”
- Rezultati analize so “semantične oznake (opombe), ki povezujejo reference v besedilu s specifičnimi koncepti v grafu,” kar omogoča boljše iskanje in nadaljnjo analitiko.
- “Dejstva, ekstrahirana iz besedila, se lahko dodajo, da obogatijo graf znanja, kar ga naredi veliko bolj dragocenega za analizo, vizualizacijo in poročanje.”
Platforma Ontotext implementira to interakcijo za rešitve, kot so označevanje vsebine, klasifikacija in priporočila.
8. Uporaba grafov znanja
Grafi znanja se uporabljajo za različne storitve, ki so bogate s podatki in informacijami, vključno z:
- Inteligentna ponovna uporaba vsebine in paketov
- Odzivna in kontekstno zavedna priporočila vsebine
- Odkrivanje zdravil, podprto z grafom znanja
- Semantično iskanje
- Inteligentna analiza naložbenega trga
- Odkrivanje informacij v regulativnih dokumentih
- Napredna analitika varnosti zdravil
Na splošno prispevek poudarja, da so grafi znanja bistvenega pomena za preoblikovanje heterogenih, nepovezanih podatkov v smiselno, kontekstualizirano in strojno berljivo znanje, ki poganja napredne aplikacije in umetno inteligenco.
Zelo poučen prispevek na temo oblikovanja grafov znanja, ki ga za svoje potrebe oblikujejo napredna podjetja in ki temelji na modernih tehnologijah.
URL: https://www.ontotext.com/knowledgehub/fundamentals/what-is-a-knowledge-graph/