19. července 2009

Everything is Miscellaneous

Nejprve jsem se podíval na wiki stránku s videem týkajícím se sémantického webu a nalezl jsem přednášku Everything is miscellaneous, kterou v rámci Google TechTalks přednesl roku 2007 David Weinberger. Vychází z jeho stejnojmenné knihy.

Mezi přednáškami zařazenými do série Google TechTalks se kupodivu objevují také ne-technicky zaměřené. Tato je jedna z nich. Dotýká se mých oblíbených oblastí jako je filosofie jazyka nebo informační architektura.

Hlavní otázkou, kterou se zde David Weinberger zabývá, je způsob, jakým dělíme skutečnost. Neexistuje totiž právě jedno správné rozdělení skutečnosti. Platón v Phaedrovi píše, že skutečnost je třeba rozdělovat v kloubech a spojích; podobně jako dobrý řezník krájí maso u šlach, namísto toho, aby se snažil zlomit kosti v půlce.

To koresponduje s tím, co lze najít v esejích Umberta Eca o jazyce a vnímání Kant and the platypus, kde píše o tom, že skutečnost má určité zrno. Je nesmyslné považovat za jednotku věci, které nejsou v jednom zrně (např. prasečí rypák a zároveň oháňku).

Zrna tvořící jazykovou realitu, kterou uvažuje Eco, jsou jednotkami (atomy), pro něž má smysl mít samostatné označení slovem. A jak je zřejmé z příkladu kuchařské speciality prasečí rypák + oháňka, tyto jednotky mají pouze několik smysluplných způsobů shlukování.

Další potíž, která se váže k těmto prvkům fyzické skutečnosti, spočívá v tom, že je lze zařadit pouze na 1 místo. Například knihu pojednávající o fyzice a chemie, nemůžeme zařadit mezi knihy o fyzice a zároveň knihy o chemii. Naopak, na jednom místě nemůžou být současně 2 fyzické objekty.

Tento problém lze částečně vyřešit tak, že knihu o fyzice a chemii nahradíme 2 ukazateli, vedoucí k jejímu fyzickému umístění, z nichž jeden zařadíme mezi ostatní ukazatele na knihy o fyzice, druhý k těm o chemii. Namísto ukazatelů lze říkat metadata. Vznikají tak sekundární dokumenty (jako bibliografie) pro organizaci fyzických dokumentů primárních.

Nevýhodou právě jednoho umístění však netrpí digitální data. Ty umožňují prostřednictvím jednoduchých ukazatelů – hyperlinků – zařazení do mnoha kategorií současně. Tím mohou vznikat složité polyhierarchické struktury.

Důležitým bodem Weinbergovy přednášky bylo tvrzení, že v případě, kdy jak data (obsah), tak i metadata (popis), jsou digitální, ztrácí se rozdíl mezi nimi. Protože díky plnotextovému vyhledávání lze najít žádanou informaci jak podle metadat (jména autora), tak podle úryvku nebo citátu, který obsahuje. Jako nové významy pro výrazy data a metadata lze použít:

  • data
    to, co hledáme
  • metadata
    to, co známe a pomocí čehož hledáme

Změnou prošlo také uspořádání jednotek skutečnosti. Zatímco původně uspořádání jednotek vlastnili (ovládali) lidé, kteří vlastnili jednotky samé (např. rozložení oblečení v obchodě), nyní jsou to uživatelé (tedy všichni), kteří vlastní uspořádání. Díky taggování, facetové klasifikaci nebo personalizaci vyhledávání jsou to uživatelé, kteří vytvářejí svá vlastní uspořádání, hierarchické stromy reflektující jejich vlastní hlediska.

S tím, jak si lidé vytvářejí vlastní kategorie, přichází otázka definice takové kategorie. Definice je podle Willarda Var Orman Quina něco, díky čemuž se lze obejít bez definovaného. Můžeme se však obejít bez definice kategorie, nahradíme-li jí prototypem - typickým zástupcem (např. Jiří Paroubek je typický zástupce kategorie Čechů). Podle podobnosti jednotky vůči prototypu pak usuzujeme na její příslušnost ke kategorii. Tohle příjemně voní Wittgensteinem, myšlenkami Umberta Eca a dokonce JavaScriptem a prototypální dědičností.

Celkovým trendem, který Weinberger zmiňuje, je externalizace znalostí. Ty byly externalizovány nejprve v knihách a dokumentech, později ve zvukových nahrávkách či videu. Nyní však následuje externalizace významu, a tu jsem konečně poznal, proč je tato přednáška zařazena mezi videa o sémantickém webu. Koncepty (významy, zrna skutečnosti) jsou externalizovány jako webové zdroje reprezentující tyto entity. Například zde je zachycen koncept neidentifikovatelných létajících objektů. Ten je kupodivu zařazen mezi strojírenství, s čímž by nemusel každý uživatel souhlasit.

Objevuje se otázka, jak půjde propojit sémantický web externalizovaných významů a jejich uspořádání ovládané uživateli. Zatím to vypadá, že organizace konceptů vytvářejících sémantickou síť je vlastněna producenty těchto konceptů (jako v případě PSH je NTK).