Estrarre parole chiave con KeyBert

Qualche anno fa, quando eravamo agli albori di modelli e dataset, estrarre le keyword da un documento era alquanto complicato: ricordo decine di righe di codice che ho scritto, usando Word2Vec, calcolandomi da solo le cosine similarity e con risultati non sempre confortanti.

Ora l’AI si è democratizzata, certi task allora complessi sono diventati banali, basta richiedere il modello giusto e richiamarlo. Può farlo chiunque.

Dovendo fare qualcosa con le keyword predominanti di certi testi, ho fatto una ricerca su google e, in 5 minuti avevo il codice funzionante: il tempo maggiore l’ho perso a scegliere il modello che mi soddisfava di più e a decidere quali stopwords bloccare per l’italiano.

Ecco il codice qualora dovesse interessarvi:

import sys
from keybert import KeyBERT
doc = ' '.join(sys.stdin)
it_stop_words=[
    "a", "ai", "al", "alla", "allo", "allora", "altre", "altri",
    "altro", "anche", "ancora", "avere", "aveva", "avevano", "ben",
    "buono", "che", "chi", "con", "cosa", "cui", "da", "del", "della","dello",
    "dentro", "deve", "devo", "di", "due", "e","ecco", "far", "fare", "fine",
    "fino", "forse", "fra", "giu", "ha", "hai", "hanno", "ho",
    "il", "indietro", "invece", "io", "la", "le", "lei", "lo", "loro",
    "lui", "lungo", "ma", "me", "meglio", "molta", "molti", "molto",
    "nei", "nella", "no", "noi", "nostro", "nove", "nuovi", "nuovo",
    "o", "oltre", "ora", "otto", "peggio", "per", "però", "più", "poi", "poco",
    "primo", "qua", "quarto", "quasi", "quattro", "quello",
    "questo", "qui", "quindi", "quinto", "sara", "secondo", "sei",
    "sembra", "sembrava", "senza", "sette", "sia", "siamo", "siete",
    "solo", "sono", "sopra", "soprattutto", "sotto", "su", "sul", "sulla",
    "tanto", "te", "tempo", "terzo", "tra", "tre", "triplo", "ultimo",
    "un","una","uno","va","vai","vi","voi","vostro" 
    ]
kw_model = KeyBERT(model='paraphrase-multilingual-mpnet-base-v2')
keywords = kw_model.extract_keywords(doc, keyphrase_ngram_range=(1, 3), stop_words=it_stop_words)
print (keywords)

Il codice come vedete fa molto poco: richiede Keybert, unisce l’input proveniente da Stdin, definisce le stop-words desiderate per l’italiano, chiama il modello. Ho richiesto di avere combinazioni da una a tre parole.

Per usarlo basta, una volta installata l’unica dipendenza, fare:

cat testo_da_analizzare.txt | python3 keybert-it.py

L’output a schermo è una lista con le frasi/keyword più confidenti e la relativa confidenza.

Ho deviato però dal discorso, che è la democratizzazione dell’AI: se da un lato gli addetti ai lavori ora si trovano spesso facilitati nell’utilizzo di tecnologie che prima comportavano molto più lavoro, oggi anche chi non ha nessuna competenza di AI può utilizzare con grande facilità anche modelli potentissimi.

Questo è un bene o un male? Da grandi poteri, derivano grandi responsabilità. E queste cose danno senz’altro un certo potere in mano a chiunque. C’è però da dire che non mi risulta che noi addetti ai lavori abbiamo mai studiato etica, quindi su quel piano siamo uguali ad un totale esordiente.

Voi che ne pensate?

Apple iPad con chip A16: display Liquid Retina da 11'', 128 GB, Wi Fi 6, fotocamera frontale e posteriore da 12MP, Touch ID, autonomia di un giorno intero di batteria — Rosa

(475833)

369,00 € (a partire da 26 Giugno 2025 17:44 GMT +02:00 - )

TP-Link Archer NX200 Router 5G Wi-Fi 6 AX1800 Mbps con SIM, Dual Band, Plug & Play, Porta Gigabit WAN/LAN, 4K-QAM, Beamforming, 8 × 5G/LTE, 2 × Wi-Fi Antenne Interne, EasyMesh, HomeShield

(44512671)

248,78 € (a partire da 26 Giugno 2025 17:44 GMT +02:00 - )

Amazon Basics Mouse ottico nero con USB e 3 pulsanti per Windows e Mac OS X

(46585951)

5,71 € (a partire da 26 Giugno 2025 17:44 GMT +02:00 - )

Samsung Galaxy Tab S6 Lite (2024), S Pen, Tablet, 10.4 Pollici Touchscreen LCD TFT, Wi-Fi, RAM 4 GB, 128 GB espandibili, Batteria 7040 mAh, Tablet Android 14 Oxford Gray [Versione italiana] 2024

(445528)

195,17 € (a partire da 26 Giugno 2025 17:44 GMT +02:00 - )

Apple iPad Pro 11'': Chip M4 Progettato per Apple Intelligence, display Ultra Retina XDR, 256GB, fotocamera frontale e posteriore da 12MP, Wi-Fi 6E, un giorno intero di batteria – Argento

(455240)

999,00 € (a partire da 26 Giugno 2025 17:44 GMT +02:00 - )

Dic, 2021