O problema k -medoids é um problema de agrupamento semelhante ao k -means. O nome foi cunhado por Leonard Kaufman e Peter J. Rousseeuw no seu algoritmo PAM (Partitioning Around Medoids). [1] Ambos os algoritmos k -means e k -medoids são particionais (quebrando o conjunto de dados em grupos) e tentam minimizar a distância entre os pontos rotulados como pertencentes a um cluster e um ponto designado como o centro desse cluster. Em contraste com o algoritmo k -means, k -medoids escolhe pontos de dados reais como centros ( medoids ou exemplares) e, assim, permite maior interpretabilidade dos centros de cluster do que o k -means, onde o centro de um cluster não é necessariamente um dos pontos de dados de entrada (é a média entre os pontos no cluster). Além disso, k -medoides podem ser usados com medidas de dissimilaridade arbitrárias, enquanto k -means geralmente requer distância euclidiana para soluções eficientes. Como k -medoids minimiza uma soma de dissimilaridades aos pares em vez de uma soma de distâncias euclidianas ao quadrado, é mais robusto a ruído e outliers (anomalias) do que k -means .
k-medoides é uma técnica clássica de particionamento para agrupamento de dados que divide o conjunto de dados de n objetos em k clusters, onde o número k de clusters, a priori, assume-se conhecer ( o que implica que o programador deve especificar k antes da execução de um algorítmos k-medoides). O quão bom é o valor de k pode ser obtido com métodos como o método silhouete
O medoide de um cluster é definido como o objeto no cluster cuja dissimilaridade média para todos os objetos no cluster é mínima, ou seja, é um ponto localizado mais centralmente no cluster.