xtallica

31. října 2009

Bookmarklet pro adresy z katalogu Alephu

Zkoušeli jste někdy někomu posílat odkaz na knihu, kterou jste si našli v katalogu vaší knihovny (např. Národní technické knihovny, Národní knihovny, knihoven Univerzity Karlovy)? A zjistili jste, že mu odkaz nefunguje?

Pravděpodobně ne.:-)

Problém je v tom, že URL adresy jsou v katalogu Alephu dynamicky generovány a pro každého uživatele tedy budou jiné. Na pomoc přichází bookmarklet pro vytváření krátkého (a funkčního) odkazu na bibliografické záznamy v katalozích knihovního systému Aleph. Tento skript nejprve vytvoří stabilní URL adresu pro daný bibliografický záznam, kterou poté zkrátí pomocí JSON-P API služby bit.ly (kterou mimochodem podle Terms of service nesmějí používat děti pod 13 let).

Tady je: Zkrátit odkaz z Alephu

Použití:

Získání záložky:
- Přetáhněte odkaz Zkrátit odkaz z Alephu do lišty záložek.
- Nebo na odkaz Zkrátit odkaz z Alephu klikněte pravým tlačítkem myši a zvolte Přidat stránku do záložek nebo podobnou volbu ve vašem prohlížeči.
Použití záložky:
- Na stránce bibliografického záznamu v katalogu Alephu klikněte na záložku Zkrátit odkaz z Alephu.

Problémy:

Ozkoušeno pouze ve Firefoxu 3+ (Ubuntu, Windows) a IE7. U ostatních konfigurací lze v dobré víře předpokládat, že bude vše fungovat víceméně tak, jak má.
Není prováděna žádná kontrola, zdali jde opravdu o stránku bibliografického záznamu v knihovním katalogu Aleph. Nad ostatními stránkami může bookmarklet zobrazovat všelijaké zajímavé výsledky.
Zobrazení vytvořeného odkazu není zrovna cool.
Vyzkoušeno přibližně nad 10 katalogy Alephu. Lze však předpokládat, že bude fungovat nad jakoukoli instalací, protože všechny mají přibližně stejnou obsahovou strukturu.

Při vytváření bookmarkletu jsem postupně dospěl k tomu, že je zapotřebí si dávat na některé věci pozor. A to:

Jednořádkové komentáře ("//"). Protože se ve finální fázi skript převede do jednoho řádku, pak efektivně jakýkoli jednořádkový komentář zakomentuje větší část kódu, než jste si mysleli. Ostatně není vhodné, aby výsledek obsahoval jakékoli komentáře (tj. ani víceřádkové), takže je záhodno použít minifikaci například pomocí JSMin.
Vzhledem k tomu, že bude skript vložen přímo do HTML atributu, je zapotřebí si dávat pozor na uvozovky. Pokud je například vložen do <a href="javascript:(function(){...}())", pak je třeba, aby se ve skriptu nevyskytovaly dvojité uvozovky nebo byly řádně escapovány.

Nakonec přidávám verzi, která (podobně jako v ruské ruletě) v 1 ze 6 případů vytvoří odkaz ve skutečnosti vedoucí na jedno nezapomenutelné video:

Zkrátit odkaz z Alephu

19. července 2009

Everything is Miscellaneous

Nejprve jsem se podíval na wiki stránku s videem týkajícím se sémantického webu a nalezl jsem přednášku Everything is miscellaneous, kterou v rámci Google TechTalks přednesl roku 2007 David Weinberger. Vychází z jeho stejnojmenné knihy.

Mezi přednáškami zařazenými do série Google TechTalks se kupodivu objevují také ne-technicky zaměřené. Tato je jedna z nich. Dotýká se mých oblíbených oblastí jako je filosofie jazyka nebo informační architektura.

Hlavní otázkou, kterou se zde David Weinberger zabývá, je způsob, jakým dělíme skutečnost. Neexistuje totiž právě jedno správné rozdělení skutečnosti. Platón v Phaedrovi píše, že skutečnost je třeba rozdělovat v kloubech a spojích; podobně jako dobrý řezník krájí maso u šlach, namísto toho, aby se snažil zlomit kosti v půlce.

To koresponduje s tím, co lze najít v esejích Umberta Eca o jazyce a vnímání Kant and the platypus, kde píše o tom, že skutečnost má určité zrno. Je nesmyslné považovat za jednotku věci, které nejsou v jednom zrně (např. prasečí rypák a zároveň oháňku).

Zrna tvořící jazykovou realitu, kterou uvažuje Eco, jsou jednotkami (atomy), pro něž má smysl mít samostatné označení slovem. A jak je zřejmé z příkladu kuchařské speciality prasečí rypák + oháňka, tyto jednotky mají pouze několik smysluplných způsobů shlukování.

Další potíž, která se váže k těmto prvkům fyzické skutečnosti, spočívá v tom, že je lze zařadit pouze na 1 místo. Například knihu pojednávající o fyzice a chemie, nemůžeme zařadit mezi knihy o fyzice a zároveň knihy o chemii. Naopak, na jednom místě nemůžou být současně 2 fyzické objekty.

Tento problém lze částečně vyřešit tak, že knihu o fyzice a chemii nahradíme 2 ukazateli, vedoucí k jejímu fyzickému umístění, z nichž jeden zařadíme mezi ostatní ukazatele na knihy o fyzice, druhý k těm o chemii. Namísto ukazatelů lze říkat metadata. Vznikají tak sekundární dokumenty (jako bibliografie) pro organizaci fyzických dokumentů primárních.

Nevýhodou právě jednoho umístění však netrpí digitální data. Ty umožňují prostřednictvím jednoduchých ukazatelů – hyperlinků – zařazení do mnoha kategorií současně. Tím mohou vznikat složité polyhierarchické struktury.

Důležitým bodem Weinbergovy přednášky bylo tvrzení, že v případě, kdy jak data (obsah), tak i metadata (popis), jsou digitální, ztrácí se rozdíl mezi nimi. Protože díky plnotextovému vyhledávání lze najít žádanou informaci jak podle metadat (jména autora), tak podle úryvku nebo citátu, který obsahuje. Jako nové významy pro výrazy data a metadata lze použít:

data
to, co hledáme
metadata
to, co známe a pomocí čehož hledáme

Změnou prošlo také uspořádání jednotek skutečnosti. Zatímco původně uspořádání jednotek vlastnili (ovládali) lidé, kteří vlastnili jednotky samé (např. rozložení oblečení v obchodě), nyní jsou to uživatelé (tedy všichni), kteří vlastní uspořádání. Díky taggování, facetové klasifikaci nebo personalizaci vyhledávání jsou to uživatelé, kteří vytvářejí svá vlastní uspořádání, hierarchické stromy reflektující jejich vlastní hlediska.

S tím, jak si lidé vytvářejí vlastní kategorie, přichází otázka definice takové kategorie. Definice je podle Willarda Var Orman Quina něco, díky čemuž se lze obejít bez definovaného. Můžeme se však obejít bez definice kategorie, nahradíme-li jí prototypem - typickým zástupcem (např. Jiří Paroubek je typický zástupce kategorie Čechů). Podle podobnosti jednotky vůči prototypu pak usuzujeme na její příslušnost ke kategorii. Tohle příjemně voní Wittgensteinem, myšlenkami Umberta Eca a dokonce JavaScriptem a prototypální dědičností.

Celkovým trendem, který Weinberger zmiňuje, je externalizace znalostí. Ty byly externalizovány nejprve v knihách a dokumentech, později ve zvukových nahrávkách či videu. Nyní však následuje externalizace významu, a tu jsem konečně poznal, proč je tato přednáška zařazena mezi videa o sémantickém webu. Koncepty (významy, zrna skutečnosti) jsou externalizovány jako webové zdroje reprezentující tyto entity. Například zde je zachycen koncept neidentifikovatelných létajících objektů. Ten je kupodivu zařazen mezi strojírenství, s čímž by nemusel každý uživatel souhlasit.

Objevuje se otázka, jak půjde propojit sémantický web externalizovaných významů a jejich uspořádání ovládané uživateli. Zatím to vypadá, že organizace konceptů vytvářejících sémantickou síť je vlastněna producenty těchto konceptů (jako v případě PSH je NTK).

29. května 2009

Řešení místo strašení

Předvolební propagace ODS se opírá o slogan Řešení místo strašení. Tím však ODS odradila podstatnou část voličů, kteří mají rádi duchařské příběhy a hollywoodské teenagerské horory. Zatímco předseda ČSSD je moc dobrý vypravěč strašidelných historek, jediným strašidlem povoleným v ODS je neviditelná ruka trhu.

Také by bylo pěkné, kdyby na kandidátní listině ČSSD byl třeba Drákula. Když ne Drákula, tak aspoň Karel Gott. Bohužel je vidět, že to Jiří Paroubek se strašením nemyslí vážně, protože namísto ježibab verbuje do své strašidelné bandy blondýny.

Také se mu nepodařilo přesvědčit spolustraníky, aby svou ústřednu přestěhovali z Lidového domu do rozpadajícího se hradu. Sice občany republiky děsí z billboardů svým záludným úšklebkem, ale i tak je zřejmé, že to tento kluk z plakátu nikdy nikam nedotáhne.

25. května 2009

Jakou má web verzi?

Jedni říkají, že používají web 2.0, jiní zase web 3.0. Buď musí the elders of the internet používat nějaký pochybný DVCS, nebo je web krásně dopředně i zpětně kompatibilní.

Mnoho technologií, které jsou řazeny do balíčku webu 3.0 (RDF, OWL nebo SPARQL) bylo sice vytvořeno během posledních 10 let, avšak funkce, které plní, byly v plánu už v raném návrhu webu Timem Berners-Lee. Proto by se daly považovat spíše za patche nebo service-packy.

Podobně jako sémantické technologie byl web již od svého početí v hlavě Tima Berners-Lee zamýšlen jako univerzální technologie, která zprostředkovává obsah přístupný všem uživatelům bez ohledu na jejich schopnosti, vybavení nebo postižení. Tato vize byla ignorována pomocí rozličných hejblat zrobených z Flashe či JavaScriptu, dokud se neobjevil další service pack jménem WCAG. V současnosti by většina web-developerů měla mít v hlavě nainstalovanou 2. verzi tohoto service packu.

Aktivity konsorcia W3C se vůbec dají považovat za postupné patchování webu, kdy lepší standard pomáhá odstranit bugy webu. Díky standardizaci existují solidní základy pro značkovací jazyky (HTML, XML) i skriptovací jazyky (JavaScript neboli ECMAScript). Jejich specifikace procházely časem postupným debuggováním, takže se na ně lze nyní spolehnout.

Nejošklivější bug, který si beztrestně bugruje po současném webu, je Internet Explorer 6. Snad časem i on bude zcela debuggován, ale to se jen tak nestane, dokud budou lidé, kteří si myslí, že internet je tamto modré éčko.

11. dubna 2009

Hodní hackeři a zlí hackeři

Existuje mnoho sporů o tom, zdali slovo hacker označuje zlého zločince nebo hodného pána, který pomáhá babičkám odvirovat počítač.

Občas se objevuje rozlišení na hackery a crackery. Crackeři se odlišují tím, že jí hodně krekrů; jako například c00k13 m0n5t3r.

Běžní lidé obvykle hackery hází do jednoho pytle, takže jsem se rozhodl, že je čas to napravit, a sepsal jsem pár bodů, jak rozlišit hodného a zlého hackera.

Hodní hackeři jezdí na kolečkových bruslích, zlí na skateboardu (zdroj).
Hodní hackeři píšou tmavým písmem na světlé pozadí, kdežto zlí mají ve svém textovém editoru světlé písmo na tmavém pozadí. Nejzkaženější hackeři však píšou černým písmem na černém pozadí.
Hodní hackeři programují v Pythonu, zlí v COBOLu, C++ a podobných složitých jazycích.
Hodní hackeři se podepisují Jan Novák, zlí j4n n0v4k.
Hodní hackeři používají to, co je užitečné; zlí hackeři to, co je složité (viz 3.).
Hodní hackeři mají blond vlasy (jako elfové), zlí hackeři mají vlasy černé nebo je vůbec nemají (jako skřeti).
Hodní hackeři nosí červený kloubouk, zlí hackeři a nosí klobouk černý.

Doufám, že těchto pár bodů vám pomůže, až se příště setkáte s hackerem a nebudete vědět, jestli se na něj dá spolehnout.

Pro další studium doporučuji zdroj autoritativních informací o hackerech, který představuje hraný dokument Nebezpečná síť.

7. března 2009

Brzy bude jaro, brzy bude jaro, brzy bude...

Brzy bude jaro. A Velikonoce. A podobně. Zatím si můžete pověsit na plochu tuto naivní tapetu, která byla (jako obvykle) vytvořena ve výborném programu Inkscape.

Pro rozlišení 1280*800px klikněte na obrázek.

12. února 2009

Zvykněte si na informační přehlcení

Každý druhý text z oblasti informační vědy začíná tvrzením, že jsme informačně zahlcení. Informační specialisté jsou však cvičeni v tajemném umění vyhledávání informací. Takže si za přehlcenost z části můžou sami. Ostatní tolik informací nenajdou!

Clay Shirky říká, že problémem není informační přehlcení, ale selhání filtrů. Nadbytek informací je prostý fakt, a to již nějakých 500 let od vynálezu knihtisku. Dříve však v roli informačních filtrů působili vydavatelé. Úspěch jejich podnikání závisel na tom, aby vybrali jen ty texty, které se vyplatí a budou se dobře prodávat. Brali na sebe riziko neúspěchu publikace.

Internet tento model změnil. Publikování na internetu je snadné a takřka zadarmo. Nulové náklady vedou k nulové zodpovědnosti za kvalitu obsahu. Přesto content is the king (isn't it?).

Právě kvůli povaze internetu potřebujeme speciální filtry. Shirky navrhuje využít proti této slabině silnou stránku internetu: kolektivní inteligenci sítí uživatelů. Centrálně klasifikovaný obsah (jako je katalogizace v knihovnách) na internetu vzhledem k objemu dostupných informací nefunguje. Ale co kdyby byl každý takový malý katalogizátor?

Tento princip se uplatňuje v tzv. folksonomiích (oproti tradičním taxonomiím), což jsou systémy, které agregují tagy (klíčová slova) nebo hodnocení, které přiřadili uživatelé k určitým informačním zdrojům. Někdy se nazývají systémy sdílených záložek (bookmarks). Mluvíme např. o delicious nebo Digg. Jedná se o systémy kolaborativního filtrování, které spoluprácí tisíců uživatelů vytvářejí metadatový obraz internetu.

Shirky je ale starý provokatér a velká huba, a tak není divu, že se našli i tací, kteří s ním nesouhlasili. Z řady profesionálních vědců se ozval biolog David Crotty. Podle něj je informační přehlcení velice reálné. A není způsobeno nízkou kvalitou obsahu. Najít si kvalitní informace už umíme. Problém je v tom, že jich nacházíme mnoho. Crotty to ilustroval příkladem ze své praxe, kdy pro svou specializaci každý týden najde 10 kvalitních a vysoce relevantních textů. Má ale čas přečíst jenom 8 z nich. Toto je opravdovější informační zahlcení.

A musím říct, že souhlasím spíše s Crottym (potýkám se totiž s podobným problémem jako on ;-)). Informační přehlcení není o tom, že je problém najít perlu mezi terabajty informačního svinstva, ale spíše o tom, že takových perel produkujeme zatraceně hodně. Proč?

Civilizace pokročila na takový stupeň vývoje, kdy všichni máme mnohem více volného času, žijeme déle a máme bokem dost peněz na to, abychom si mohli dovolit platit pár milionů vědců. Podmínky pro vytváření vědomostí nikdy nebyly lepší. Před pár sty lety se takový vědec dožil půlky toho co dnes. Také se musel nějak živit, protože podpora výzkumu nebyla tak úplně v módě.

Stejně jako v případě internetu a folksonomií se našla přirozená reakce. Dělba práce na mikroúrovni: specializace. Je jasné, že pokud zúžím oblast svého zájmu, najdu relevantních informací méně (zato hodně nadrelevantních). Specializace v některých případech pokročila takřka na atomickou úroveň, kdy se jemnější rozdělení práce zdá nemožné. Trpí tím komunikace, která pro vzájemné porozumění vyžaduje částečné překryvy znalostí. A přesto se zdá, že doposud nejsme specializováni natolik, abychom se vyhnuli nadbytku velice relevantních a hodnotných informací.