Qualitätsrisiko mit Lieferantensegmentierung verwalten

von Anshul Bansal

Eine der vielseitigsten und interpretierbarsten Techniken des maschinellen Lernens, die einem Datenwissenschaftler zur Verfügung stehen, ist Clustering . Für Uneingeweihte ist Clustering eine statistische Analyse, mit der Entitäten basierend auf latenten Informationen in den Daten in verschiedene Gruppen unterteilt werden sollen. Es wird aus verschiedenen Gründen in vielen Domänen verwendet und bietet zahlreiche wertvolle Anwendungsfälle für das Clustering im Unternehmen. In diesem Blog möchte ich über meine jüngsten Erfahrungen mit der Anwendung von Clustering auf ein Problem sprechen, mit dem jedes Produktunternehmen konfrontiert ist: das Risiko der Lieferantenqualität.

(Für diesen Beitrag sind keine fortgeschrittenen Kenntnisse im Clustering erforderlich. Wenn Sie jedoch mit dem Konzept noch nicht vertraut sind oder nach einer guten, nicht technischen Erklärung suchen, die Sie mit anderen teilen können, wird Ihnen möglicherweise der Blog-Beitrag meines Kollegen gefallen, in dem eine unterhaltsame Anwendung beschrieben wird von Clustering im Golf.)

Was ist das Lieferantenrisiko?

Die heutigen Lieferketten umfassen häufig ein kompliziertes, globales Netzwerk von Anbietern. Obwohl ihre Größe ihnen viele Vorteile bietet, sind diese Logistiknetzwerke oft so effizient, dass sie selbst für geringfügige Störungen anfällig sind. Lieferantenrisiko ist das Verlustpotenzial eines Unternehmens, wenn einer oder mehrere seiner Lieferanten ihren Verpflichtungen nicht nachkommen.

Es gibt verschiedene Arten von Risiken, die sich auf die Lieferanten eines Unternehmens auswirken können (z. B. rechtliche, politische und ökologische). Wir haben uns jedoch in dieser Studie auf das Qualitätsrisiko konzentriert. Das Qualitätsrisiko ist mit Produktfehlern und Servicefehlern verbunden, die den Produktverkauf und den Ruf der Marke beeinträchtigen können.

Wie können Sie es verwalten?

Angesichts der Größe moderner Lieferketten ist es schwierig, alle im Auge zu behalten. Ein Großteil des Risikomanagements versucht zu bestimmen, welche Lieferanten genauer beobachtet werden sollen als andere. Eine gute Möglichkeit, diese Entscheidung zu treffen, ist die Verwendung der Segmentierung .

Segmentierung wird häufig in Geschäftskontexten verwendet und ist der Prozess der Aufteilung einer Reihe von Entitäten (in diesem Fall Lieferanten) in verschiedene Gruppen, wobei Gruppen so erstellt werden, dass jedes Mitglied tendenziell ähnliche Merkmale aufweist. Die Segmentierung wird in der Industrie häufig verwendet, um SRM-Frameworks (Supplier Relationship Management) zu erstellen, mit denen Unternehmen ihre Ressourcen strategisch zuweisen und Aktionspläne für jedes ihrer Lieferantensegmente anpassen können. Beispielsweise kann ein Unternehmen entscheiden, mehr Zeit und Geld für Beziehungen mit hohem Risiko aufzuwenden, während es Qualitätsprüfungen für Lieferanten mit geringem Risiko automatisieren kann. (Dieser Artikel enthält einige interessante Details.)

Obwohl es verschiedene auf Geschäftsregeln ausgerichtete Segmentierungsansätze gibt, ist Clustering häufig eine überzeugende Alternative. Es kann große Mengen historischer Daten verarbeiten, reduziert den Aufwand von Fachexperten und ist vielseitiger als herkömmliche Geschäftsansätze.

Erstellen eines Cluster-basierten SRM-Modells

Es gibt mehrere Schritte zum Erstellen eines Clustering-Modells für das Lieferantenrisikomanagement.

Problemumfang

Viele datenwissenschaftliche Probleme beinhalten das Durchsuchen enormer Informationsmengen, von denen nur einige relevant und von hoher Qualität sind. Infolgedessen wird das effektive Scoping der Daten zu einem entscheidenden Bestandteil eines Analyseprojekts.

Wie jeder Datenwissenschaftler bestätigen kann, kann das Scoping von Projekt zu Projekt erheblich variieren, aber drei wichtige Tipps kommen in den Sinn:

Die Daten unseres Problems betrafen hauptsächlich die Ergebnisse regelmäßiger Produktqualitätstests. Dazu gehörten die Testergebnisse jedes Produkts und alle während des Tests selbst festgestellten Mängel. Der Datensatz umfasste zehn Jahre und mehrere Produktkategorien.

Unter Berücksichtigung der oben genannten drei Tipps haben wir unser Problem anhand der folgenden Kriterien festgelegt:

Feature Engineering

Stellen Sie sich vor, Sie sind ein Künstler, der Landschaften malt. Natürlich müssen Sie für Ihre Arbeit in die Natur reisen, was bedeutet, dass die Anzahl der Farben, die Sie mitnehmen können, um die Essenz Ihres Motivs zu erfassen, begrenzt ist. In einer solchen Situation ist es wichtig, das richtige Set auszuwählen. Ihre Kunst kann nur so lebendig sein wie die Farben, mit denen sie erstellt wurde.

Beim Clustering sind Farben die Merkmale, die das Modell antreiben, und das resultierende Gemälde ist die Menge eindeutiger Segmente, die das Modell generiert. Die von Ihnen erstellten Funktionen müssen verschiedene Aspekte der Erfassung der Cluster charakterisieren.

Wir haben lange und gründlich darüber nachgedacht, wie unsere Daten die Lieferantenleistung beschreiben können, und eine Liste von Funktionen erstellt, die in die folgenden Kategorien eingeteilt werden können:

Erste Funktionsauswahl

Brainstorming-Funktionen sind großartig, aber zu viele Ergebnisse führen zu Clustern, die schwer zu interpretieren sind und sich nicht gut auf die größere Bevölkerung übertragen lassen. Sobald Sie eine vollständige Funktionsliste haben, müssen Sie diese wahrscheinlich ein wenig reduzieren (obwohl Sie diesen Funktionsumfang nicht als abgeschlossen betrachten – Sie möchten sehen, wie die Daten nach dem Clustering aussehen).

Vier gute Kriterien, die bei der Auswahl von Features berücksichtigt werden müssen, sind:


Explorative Analyse und Modellauswahl

Sobald wir eine Reihe interessanter Funktionen hatten, bestand der nächste Schritt darin, eine explorative Datenanalyse (EDA) durchzuführen, um festzustellen, wie gut die Daten geclustert werden können. Die erste Frage von EDA in diesem Zusammenhang besteht darin, die optimale Anzahl von Clustern für die Daten zu ermitteln. (Während einige Clustering-Algorithmen automatisch die entsprechende Anzahl von Clustern bestimmen, ist der Erfolg nicht immer garantiert und hängt von der Verteilung der Daten ab. In diesem Beitrag konzentrieren wir uns auf Methoden, bei denen Sie die Anzahl der Cluster angeben müssen.)

Die Ellbogenmethode schlägt vor, die Anzahl der Cluster durch Hinzufügen von Clustern auszuwählen, bis eine neue den geringfügigen Anstieg der erklärten prozentualen Varianz verringert (ein Maß für die Kompaktheit). Im Gegensatz dazu schlägt die Silhouette-Methode vor, die Anzahl der Cluster auszuwählen, die die durchschnittliche Trennung zwischen den Clustern maximiert. In unserem Fall zeigten beide Ansätze, dass die Clusteranzahl der Daten im Bereich von vier bis sechs liegt.

Nachdem Sie eine Reihe von Clustern ausgewählt haben, müssen Sie ein vorläufiges Clustering-Modell ausführen (verwenden Sie eine Ihnen vertraute Technik – k-means ist einfach, wenn Sie sich nicht sicher sind). Sobald ein vorläufiges Modell ausgewählt ist, gruppieren Sie die Daten und visualisieren Sie die Ergebnisse. Wir empfehlen die Verwendung einer Dimensionsreduktionstechnik (z. B. T-SNE, PCA), um die Cluster in zwei Dimensionen zu visualisieren.

Das folgende Diagramm ergab sich aus der Verwendung des k-means-Algorithmus mit sechs Clustern und der anschließenden Visualisierung der Ergebnisse mit T-SNE:

Überprüfen Sie als Nächstes Ihr Diagramm visuell, um die Wirksamkeit der anfänglichen Clusterbildung zu beurteilen. In unserer obigen Darstellung stellt beispielsweise jeder Punkt einen eindeutigen Lieferanten dar, wobei seine Position im 2D-Raster seine Ähnlichkeit mit anderen Lieferanten darstellt, basierend auf einer Zusammenführung der dem Modell zugeführten Merkmale. Die Punkte werden basierend auf ihrer vorläufigen Clusterzuordnung farbig dargestellt. Es ist leicht zu erkennen, dass es verschiedene Inseln gibt, auf denen sich gleichfarbige Punkte versammeln. Dies zeigt, dass unser Funktionsumfang Lieferanten anhand des Risikoverhaltens unterscheiden kann, genau wie wir es möchten. (Es gibt einige Punkte, die kontraintuitive Clusterzuweisungen zu haben scheinen. Dies könnte jedoch nur auf die Wahrscheinlichkeitscharakteristik von T-SNE zurückzuführen sein.)

Eine endgültige Lösung

Wenn die Segmentierungslösung ein Mittel zum Zweck ist (möglicherweise möchten Sie unabhängige Vorhersagemodelle für jedes Ihrer zugrunde liegenden Segmente erstellen), besteht der Entwurf einer Clusterlösung (wie die Anzahl der Features oder Cluster) in der Regel aus mehr Statistiken -Gefahren. In vielen Fällen ist die Segmentierung jedoch das Ende selbst. In diesem Fall ist die Interpretierbarkeit und Handlungsfähigkeit des Modells für den Endbenutzer von größter Bedeutung, und sein Design wird zu einem subjektiveren Prozess.

Folglich umfasst die nächste Phase mehrere Iterationen der Merkmalsauswahl und der Algorithmusauswahl, um zu einer wertvollen Lösung zu gelangen. Die Kandidatenmodelle erfordern eine sorgfältige Prüfung durch Fachexperten und müssen das Feedback der Endbenutzer berücksichtigen, um die Ergebnisse so intuitiv und umsetzbar wie möglich zu gestalten.

Berücksichtigen Sie im Zweifelsfall die folgenden zwei Faktoren, wenn Sie eine mögliche Lösung bewerten:

Nachdem wir verschiedene Arten von Algorithmen ausprobiert hatten (siehe eine Liste der Clustering-Methoden von scikit-learn hier), haben wir uns auf die Partitionierung um Medoide (PAM) konzentriert. Es ist k-means sehr ähnlich, aber die Zentren seiner Cluster (die titelgebenden Medoide ) sind tatsächliche Datenpunkte, was es für Ausreißer robuster macht und möglicherweise die Interpretation für Endbenutzer erleichtert.

Die endgültige Lösung aus unserer Studie ist nachstehend zusammengefasst:

Wir haben sechs Cluster identifiziert, die wir (nach Gesprächen mit Fachexperten) in drei große Risikostufen eingeteilt haben:

Schließlich ist keine Lösung ohne gute Visualisierungen vollständig. Ein Datenwissenschaftler kann umfassende, interaktive Tools für Beziehungsmanager erstellen, die Hochrisikosegmente beleuchten, Änderungen im Risikoverhalten verfolgen, Übersichten auf hoher Ebene bereitstellen und es Benutzern ermöglichen, zugrunde liegende Muster zu untersuchen.

Hier ein Blick auf die von uns erstellten Dashboards:


Schlussfolgerung

In diesem Blog haben wir diskutiert, wie Segmentierung ein effektiver Weg ist, um Qualitätsrisiken zu managen, und wie Clustering verwendet werden kann, um solche Segmentierungsschemata zu erstellen. Wir haben uns mit Problem-Scoping, Feature- und Modellauswahl und dem, was eine gute Clustering-Lösung ausmacht, befasst.

Dies ist nur eine der vielen Möglichkeiten, mit denen Clustering verwendet werden kann, um alltägliche Geschäftsentscheidungen datengesteuerter zu gestalten. Wenn es andere nützliche Techniken gibt, die Sie für ähnliche Projekte verwenden, schalten Sie unten den Ton aus!

_________________________________________________________________

Wenn Ihnen dieser Blog-Beitrag gefallen hat, lesen Sie mehr über unsere Arbeit und folgen Sie uns in den sozialen Medien ( Twitter , und Facebook ) oder besuchen Sie uns für unsere kostenlose monatliche Akademie-Webinare .