Završni rad (preddiplomski studij): Postupak čišćenja web stranica u svrhu dubinske analize teksta

Autor:
Krišto, Ivan
Mentor:
Dalbelo-Bašić, Bojana
Na ovim stranicama mogu se pogledati materijali napravljeni u okviru navedenog rada.
Ključne riječi:
HTML, web stranice, uklanjanje šuma, automatsko čišćenje, dubinska analiza teksta, boilerplate removal
Sažetak:

Za razliku od tradicionalnih tekstovnih dokumenata, web stranice tipično sadržavaju

veliku količinu informacija koje se ne odnose izravno na njihov sadržaj,

poput promidžbenih poruka, navigacijskih uputa, i sl. U kontekstu dubinske

analize teksta i računalno-lingvističke obrade, takve informacije predstavljaju neželjeni

šum.

U okviru rada proučeni su postupci za automatsko čišćenje dokumenata u

HTML-u od nepotrebnog sadržaja, razvijena programska implementacija postupka

pogodna za ugradnju u pobirač dokumenata s web sjedišta te provodeno

eksperimentalno vrednovanje postupka.

Dokumenti:
  1. Tekst rada: zavrsni_rad-ik42696.pdf
Zapis stvoren:
2011-10-27 00:50:22
Zapis zaključan:
nije
Pristup javan:
postavka studenta DA, postavka mentora NE
Ovaj rad nije zaključan. Stranice radova studenata za koje postoji definiran mentor ili izravni voditelj samo mentor odnosno izravni voditelj mogu zaključati čime potvrđuju vjerodostojnost unesenih podataka. Ako stranica nije zaključana, to znači da se navedeni podatci još uvijek mijenjaju odnosno da nitko od službenog osoblja ustanove nije provjerio ove podatke.