Clustering methods have typically found their application when dealing with continuous data. However, in many modern applications data consist of multiple categorical variables with no natural ordering. In the heuristic framework the problem of clustering these data is tackled by introducing suitable distances. In this work, we develop a model-based approach for clustering categorical data with nominal scale. Our approach is based on a mixture of distributions defined via the Hamming distance between categorical vectors. Maximum likelihood inference is delivered through an expectation-maximization algorithm. A simulation study is carried out to illustrate the proposed approach.

Le tecniche di clustering trovano normalmente la loro applicazione su variabili continue. Tuttavia, in molti contesti applicativi, i dati sono categorici senza un ordine naturale. All’interno del framework euristico, la clusterizzazione di questi dati avviene grazie all’utilizzo di metriche adeguate. In questo lavoro, proponiamo un approccio probabilistico per la clusterizzazione di dati categorici nominali. Il nostro approccio si basa su una mistura di distribuzioni derivate dal concetto di distanza di Hamming. Proponiamo l’utilzzo di un algoritmo EM per la stima di massima verosimiglianza dei parameteri del modello. L’approccio è validato su datasetsimulati.

(2021). Clustering categorical data via Hamming distance . Retrieved from http://hdl.handle.net/10446/194006

Clustering categorical data via Hamming distance

Argiento, R.;Paci, L.
2021

Abstract

Le tecniche di clustering trovano normalmente la loro applicazione su variabili continue. Tuttavia, in molti contesti applicativi, i dati sono categorici senza un ordine naturale. All’interno del framework euristico, la clusterizzazione di questi dati avviene grazie all’utilizzo di metriche adeguate. In questo lavoro, proponiamo un approccio probabilistico per la clusterizzazione di dati categorici nominali. Il nostro approccio si basa su una mistura di distribuzioni derivate dal concetto di distanza di Hamming. Proponiamo l’utilzzo di un algoritmo EM per la stima di massima verosimiglianza dei parameteri del modello. L’approccio è validato su datasetsimulati.
Filippi-Mazzola, E.; Argiento, R.; Paci, L.
File allegato/i alla scheda:
File Dimensione del file Formato  
SIS_2021_edoardo.pdf

Solo gestori di archivio

Versione: publisher's version - versione editoriale
Licenza: Licenza default Aisberg
Dimensione del file 5.73 MB
Formato Adobe PDF
5.73 MB Adobe PDF   Visualizza/Apri
Pubblicazioni consigliate

Caricamento pubblicazioni consigliate

Aisberg ©2008 Servizi bibliotecari, Università degli studi di Bergamo | Terms of use/Condizioni di utilizzo

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10446/194006
Citazioni
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact