Métricas de avaliação para algoritmos de clustering

Avaliar a qualidade do seu modelo é uma das considerações mais importantes ao implantar qualquer algoritmo de aprendizado de máquina .

Para problemas de aprendizagem supervisionada, isso é fácil. Já existem rótulos para cada exemplo, então o profissional pode testar o desempenho do modelo em um conjunto de avaliação reservado.

Não temos esse luxo quando lidamos com dados não rotulados em contextos de aprendizagem não supervisionados. Não há nada para testar, já que não há verdade – a ideia de testar nesta arena é uma premissa falha.

Isso não significa que avaliar o modelo seja uma causa perdida. Numerosas métricas examinam a qualidade dos resultados do agrupamento quando os dados rotulados não estão disponíveis. Essas métricas podem dar ao praticante uma visão de como os clusters podem mudar dependendo da seleção do algoritmo e da tendência natural dos dados se agruparem.

Uma palavra de advertência

Antes de lançar essas métricas, entenda que elas não medem a validade das previsões do modelo. Lembre-se de que não temos uma maneira razoável de determinar a validade das previsões do cluster.

Em vez disso, as métricas avaliam o desempenho comparativo dos modelos entre si em termos de alguma métrica heurística.

Para ilustrar o ponto, pense no que aconteceria se você fosse solicitado a agrupar 100 bandas diferentes. Você pode chegar a algum agrupamento funky onde os Beatles, Black Sabbath e Sex Pistols estão todos no mesmo agrupamento. Outra pessoa surge com um agrupamento diferente que coloca os Beatles com Simon e Garfunkel, Black Sabbath com Led Zeppelin e Sex Pistols com Black Flag. Talvez não haja verdade, mas temos alguma intuição de que o segundo agrupamento é melhor porque coloca cada banda em um agrupamento de bandas “mais perto” de seu próprio som.

Tudo isso quer dizer que não estamos medindo a veracidade de nossos clusters. Estamos apenas interessados ​​em saber qual algoritmo pode criar clusters em que os pontos são mais semelhantes, conforme medido por nossa métrica.

Nesse ponto, tome cuidado para não aplicar essas métricas a dados com estruturas incorporadas que podem tornar sua métrica inútil. Se sua métrica assume convexidade, mas os dados são naturalmente não convexos, então a métrica é inútil para esse algoritmo.

Dito isso, vamos dar uma olhada em algumas das medidas internas que você pode implantar em algoritmos de agrupamento para medir a qualidade relativa de diferentes modelos.

Índice Davies-Bouldin

O índice DB é calculado pela seguinte fórmula:

onde n é o número de clusters e σi é a distância média de todos os pontos no cluster i do centroide do cluster ci .

O índice DB captura a intuição de que os clusters que são (1) bem espaçados uns dos outros e (2) muito densos são provavelmente um “bom” clustering. Isso ocorre porque a declaração ‘max’ da medida seleciona repetidamente os valores onde o ponto médio está mais distante de seu centróide e onde os centróides estão mais próximos. À medida que o índice do banco de dados diminui, o clustering é considerado “melhor”.

Índice de Dunn

A fórmula para o Índice Dunn é a seguinte:

onde i , j e k são índices para clusters, d mede a distância entre clusters e d ‘ mede a diferença dentro do cluster.

O Índice Dunn captura a mesma ideia do Índice DB: fica melhor quando os clusters são bem espaçados e densos. Mas o Índice de Dunn aumenta conforme o desempenho melhora.

O que difere é a forma como esse problema é abordado. Enquanto o índice DB considera a dispersão e separação de todos os clusters, o Índice de Dunn considera apenas os piores casos no clustering: os clusters que estão mais próximos e o único cluster mais disperso. Dependendo da sua aplicação, a mudança no objetivo pode introduzir problemas inesperados.

É você quem decide com qual das duas abordagens trabalhar.

Coeficiente de silhueta

O coeficiente de silhueta é medido assim:

onde a (i) é a distância média do ponto i de todos os outros pontos em seu cluster e b (i) é o menor distância média de i para todos os pontos em qualquer outro cluster. Para esclarecer, b (i) é encontrado medindo a distância média de i de cada ponto no cluster A, a distância média de i de cada ponto no cluster B, e pegando o menor valor resultante.

O coeficiente da silhueta nos diz o quão bem atribuído é cada ponto individual. Se S (i) estiver próximo de 0, está bem no ponto de inflexão entre dois grupos. Se estiver mais próximo de -1, seria melhor atribuí-lo ao outro cluster. Se S (i) estiver próximo de 1, então o ponto está bem atribuído e pode ser interpretado como pertencente a um agrupamento “apropriado”.

O Coeficiente Silhouette é uma medida de distância muito intuitiva e sofisticada. Sua queda é que pode ser extremamente caro computar em todos os n pontos. Isso ocorre porque devemos calcular a distância de i de todos os outros n – 1 pontos para cada i , o que leva a uma complexidade de O (n2) .

Muitos profissionais se recusarão a essa avaliação cautelosa e darão de ombros, dizendo que é menos do que NP. No entanto, para conjuntos de dados muito grandes, essas complexidades de tempo podem se tornar incontroláveis.

Esses são apenas três dos métodos mais populares para avaliar a qualidade do cluster. Há uma variedade de outras técnicas, mas elas o ajudarão muito por conta própria. Eles certamente fornecerão mais informações sobre a precisão do seu modelo do que confiança cega.

História original aqui.

– – – – – – – – – – – – – – – – – – – –

Leia mais artigos de ciência de dados em OpenDataScience.com , incluindo tutoriais e guias do nível iniciante ao avançado! Assine nosso boletim informativo semanal aqui e receba as últimas notícias todas as quintas-feiras.