Ovako izgledaju komentari navijača nakon utakmice

Hajde da danas napravimo oblak riječi (engl. Word Cloud). Oblak riječi služi za vizualizaciju najčešćih riječi koji se pojavljuju u nekom tekstu. Obično se upotrebljavaju za opisivanje metapodataka o ključnim riječima na web stranicama ili za vizualizaciju teksta slobodnog oblika. Važne riječi istaknute su većim fontom ili jačom bojom.

Danas ima više različnih platformi gdje se može uz plaćanje obaviti kvalitetan oblak riječi. Međutim, nema prevelike svrhe od toga ako prethodno ne pripremimo tekst definirajući svoj cilj. Drugim riječima – što očekujemo od oblaka riječi? Svaki tekst može se lingvistički posložiti i revidirati kako bismo si napravili vizual teksta s rezultatom koji nas zanima.

Lingvistička obrada teksta

Eto na primjer, za ovu priliku uzeli smo skup stotinjak nasumce odabranih komentara čitatelja na jednom portalu ispod članka o nogometnoj utakmici između Dinama i Hajduka. Zanimaju nas retorika i verbalni sukob navijača iz dvaju tabora, odnosno rječnik koji se upotrebljava u tim komentarima. No da bismo razlučili karakteristiku komentara trebalo je lingvističkim postupkom pročistiti tekst od dijelova rečenica koje ne odražavaju nikakav poseban karakter komentiranja. To je samo jedna vrsta moguće pripreme za vizualizaciju. Izdvojili smo riječi poput pomoćnih glagola biti, zatim prijedloge, veznike, čestice i sl. Uz to gdjegdje je trebalo izdvojiti i nepotrebne brojeve, priloge, suvišne zamjenice, riječi koje se slučajno ponove dvaput ili s tipfelerom pa su nerazumljive. Dakle, bilo je tu puno rudarskog posla jer teško je pronaći strojno učenje AI koje bi to uradilo kako treba umjesto vlastitih ruku.

Tako na gornjoj slici imamo oblak riječi s pročišćenim tekstom koji odražavaju stvarni karakter komentara, a na donjoj slici vizualizirane su baš sve upotrijebljene riječi. Dakle u drugoj slici imamo word cloud koji nam puno ne govori, jer su u prvom planu riječi koji bi se našle i u bilo kojem drugom tekstu.

Usput, radi ilustracije alata koji sve to odrađuje, evo kako to izgleda s programskim kodom.

import matplotlib.pyplot as plt

from wordcloud import WordCloud

# Read text from file

with open(‘komentari_index.txt’, ‘r’, encoding=’utf-8′) as file:

    text = file.read()

# Create word cloud

wc = WordCloud(width=800, height=400, background_color=’white’).generate(text)

# Plot

plt.figure(figsize=(10, 5))

plt.imshow(wc, interpolation=’bilinear’)

plt.axis(‘off’)

plt.show()

print(‘Wordcloud generated from komentari_index.txt’)

Otkrijmo trendove i – zabavimo se

Dobro došli na ovaj blog, gdje brojevi otkrivaju priče, riječi unose red u kaos, a podatci postaju više od obične hrpe znamenki. Naša misija? Otkrivati trendove, istraživati fenomene, analizirati podatke i tražiti istinu skrivenu u zaboravljenim ili namjerno prešućenim događajima.

U svijetu prepunom lažnih informacija i zbunjujućih podataka ovdje nastojimo dati precizne analize koje razotkrivaju logiku iza naizgled nerazumljivih stvari. I usput se zabaviti aktualnim temama! (Jozo Renić)

Povežimo se…