ZADÁNÍ / Just click on it
• V Google sheets pomocí Xpath vytvořte dynamický seznam
– Top 48 fitness veci z heureky
– Název
– Cenové rozpětí
– Hodnocení
– Pozor na reklamy a TOP
– V úkolu nasdílejte i tabulku
• Vyzkoušejte si jeden z nástrojů:
– https://demo.geneea.com/
– Nalezněte delší článek a vložte jej do toolu
– Myslíte, že byste tool někdy reálně využili?
– Napište něco, co vás zaujalo
• http://voyant-tools.org/
– Nahrajte do toolu delší dokument (5 stránek +)
– Myslíte, že byste tool někdy reálně využili?
– Napište něco, co vás zaujalo
ŘEŠENÍ
Dynamický seznam
K tvorbě dynamického seznamu jsem přistupovala následovně. Nejdříve jsem si do prohlížeče Google nainstalovala doplněk XPath Helper. Poté jsem si rozklikla stránky Heureky s kategorií produktů Sporttestery, ze kterých chceme vytvořit dynamický seznam. Po spuštění doplňku, přidržením klávesy Shift a pohybování kurzoru myši lze vybrat různé části na struktuře stránky. Nejdříve jsem vybrala název.

Aby se nám označili všechny produkty na stránce, je nutné v kódu smazat [1]. Poté jsem redukovala XPath kód. Zpočátku se mi redukce nedařila a celý proces probíhal „pokus omyl“. Ve výsledku jsem se dostala k = //h3[@class=’c-product__title‘]. Celý proces jsem opakovala i u cenového rozpětí a hodnocení = //a[@class=’c-product__price‘]/span a //div[@class=’c-rating-widget u-color-highlight‘]. Jedinou vyjímkou bylo následné zkopírování URL adresy s dalšími 24 produkty, aby jich ve výsledku bylo žádaných 48. Ano, šlo by to udělat zaráz. Což si naštěstí uvědomuji nyní, byť s odstupem času. (Říkala jsem si, zda úkol předělat na pár kliknutí, dospěla jsem však k závěru, že tímto způsobem a sebereflexí se člověk přeci jen něco více přiučí a hlavně si chyby zapamtuje. V budoucnu se jich tak vyvaruji).


V Google Sheet jsem začala vytvářet dynamický seznam. Pro lepší přehled jsem si URL adresy a XPathy vložila do vedlejších buněk a zvolila tak způsob odkazování na buňky. Jelikož tento příspěvek sepisuji později, oproti vytvoření souboru, všimla jsem si naprosté zbytečnosti a to udávání až 6x URL adres, namísto 2x… To samé viz. předchozí odstavec. Nicméně na funkčnost toto nemělo v danou chvíli vliv. Mohla jsem se tak dát do tvoření dynamického seznamu.

Do Sheetu jsem zadala funkci = IMPORTXML. URL a dotaz_xpath jsem již zvolila kliknutím na příslušné předpřipravené buňky. Jak si lze na první pohled všimnout, hodnocení s procenty poodskočilo do vedlejšího sloupce. Zároveň tam, kde žádná hodnocení nebyla nezůstaly volné buňky, tímto se hodnoty posunuly výše, což je opravdu velký problém. V případě počtu 48 top produktů máme v seznamu i Jak vybrat sporttester, nepodařilo se mi však přijít na to, jak by bylo možné tyto data odstranit. Dynamický seznam není dokonalý.


Geneea a Voyant Tools
O těchto nástrojích jsem nikdy dříve neslyšela. Nástroj Geneea dokáže analyzovat textová data a poskytnout uživateli přehledná shrnutí viz. tags, IPTC media topics, entities cloud. Další záložky uvádějí podrobnější informace. Myslím si, že bych tento nástroj někdy určitě využila. Zaujala mě především jednoduchost při analýze a také rychlost výstupu. Dokáže sumarizovat text do několika pojmů a klíčových slov, extrahuje specifika jako jsou čísla, jména, produkt, … Jedno z využití, které mě napadá a ke kterému se i zřejmě tento nástroj používá je průzkum trhu nebo také pomoc při automatizaci procesů zákaznické podpory. Řekla bych, že je to takový ChatGPT se specializací.
Voyant tools je obdobný nástroj. Překvapila mě možnost zobrazení výsledků při pouhém vložení URL adresy. Určitě plánuji tuto aplikaci také někdy využít.



