Cómo utilizamos los datos para sugerir etiquetas para su historia

Aquí, en Medium, imaginamos que las etiquetas serán fundamentales para organizar y conectar ideas. Siga las etiquetas que le interesan y Medium le ayudará a ofrecerle el contenido adecuado. Para hacer eso, nos gustaría que tantos escritores como sea posible etiqueten sus publicaciones. Para los escritores, nos encantaría ayudarlos a encontrar su audiencia.

Entonces, ¿cómo podemos utilizar los datos para mejorar la forma en que se utilizan las etiquetas?

Nuestra solución: sugerir etiquetas.

¿Qué son las sugerencias de etiquetas?

Justo cuando está a punto de publicar su borrador, le sugeriremos un par de etiquetas para que las utilice según lo que haya escrito. Nuestro objetivo no es solo aumentar la cantidad de publicaciones etiquetadas en Medium, sino también ayudar a los usuarios a descubrir las etiquetas adecuadas para usar.

Examinemos las etiquetas sugeridas para ver algunos extractos de los artículos del NY Times.

Kanye West se declaró a sí mismo “la estrella de rock viva más grande del planeta” en el festival británico de Glastonbury. Pero eso no impidió que un bromista invadiera la actuación del rapero y lo eclipsara.

Esto se debe a que la popularidad de Trump (su apoyo en algunas encuestas ahora es el doble que el de sus competidores más cercanos) se basa en su estilo sin restricciones, en lugar de en sus posiciones, que han demostrado ser muy fungibles.

Reddit, el popular sitio de noticias de la comunidad, formalizó un nuevo conjunto de pautas que tienen como objetivo restringir parte del contenido subido de tono y potencialmente ofensivo publicado en el sitio.

Cómo funciona

Descripción general

En nuestro algoritmo, usamos lo que se llama un enfoque de vecinos más cercanos. Esto significa que para su publicación consideramos las etiquetas de las publicaciones que son más similares a lo que redactó. Luego, agregamos estas etiquetas y las clasificamos según una puntuación de etiqueta calculada en función de la similitud.

Aquí hay una visualización simplificada:

Para utilizar este método de vecinos más cercanos, necesitamos encontrar una forma de comparar publicaciones. Podemos hacer esto representando las publicaciones como vectores en un espacio de alta dimensión y luego cuantificando qué tan similares son dos publicaciones calculando una métrica de distancia.

Vectorización de publicaciones

Al vectorizar publicaciones, usamos algo llamado tf-idf. tf es la abreviatura de frecuencia de términos y mide la frecuencia con la que aparece una determinada palabra en un documento. idf, o frecuencia inversa de documentos, mide qué tan especial es una determinada palabra en una colección de documentos.

Por lo tanto, tf-idf es un producto de estas dos estadísticas.

Refleja la importancia de una palabra para una publicación determinada en una colección de publicaciones. Por ejemplo, consideremos una publicación escrita sobre baloncesto. La palabra “layup” tendrá un valor tf-idf alto porque no solo ocurre con frecuencia, sino que también es un término muy específico del baloncesto. Por otro lado, “pasar” tiene varios significados y se puede usar en diferentes contextos, por lo que puede que no tenga un valor tf-idf alto.

En nuestro algoritmo de sugerencias de etiquetas, usamos vectores tf-idf para representar el contenido de una publicación.

Definición de una métrica de distancia

Con nuestros vectores de publicaciones tf-idf, podemos medir la distancia entre dos publicaciones usando la similitud de coseno. La similitud del coseno es el coseno del ángulo entre dos vectores. Un par de vectores de poste apuntando en la misma dirección tendrán una similitud de coseno de 1, mientras que los vectores que apuntan en direcciones opuestas tendrán una similitud de coseno de 0. ¡Ahora tenemos una forma de calcular la similitud de posteos!

Encontrar a los vecinos más cercanos

Una vez que un escritor redacta el borrador de una nueva publicación, se nos proporciona un nuevo vector de publicación. Lo bueno de usar vectores tf-idf es que son vectores unitarios. Esto nos permite calcular fácilmente las similitudes de coseno haciendo un producto escalar simple. Al representar la colección completa de publicaciones como una matriz con n filas (cada fila representa un vector de publicación), podemos hacer un producto escalar con el nuevo vector de publicación y obtendremos una n -vector dimensional de similitudes de coseno.

¡Ahora podemos buscar los valores más grandes en este vector de similitud de coseno para encontrar nuestros vecinos más cercanos! Finalmente, agregaremos las etiquetas de estos vecinos más cercanos para determinar cuáles sugerir.

Tenga en cuenta que nuestras sugerencias de etiquetas son solo sugerencias . No dude en utilizar sus propias etiquetas cuando sea necesario.

¡Gracias por leer! Espero que hayas disfrutado de esta publicación sobre cómo sugerimos etiquetas mágicamente. Si lo hizo, recuerde hacer clic en recomendar.