Salience - Bewertung im Google NLP

Das Salience-Scoring verwendet Google in der NLP, um die Wichtigkeit von Entitäten in Bezug auf andere Entitäten im Dokument zu bestimmen.
Salience - Bewertung im Google NLP Google

Für das Google Natural Language Processing (NLP) werden zur maschinellen Bewertung und Verarbeitung von Entitäten innerhalb eines Textes deren Wichtigkeit über den Salience-Wert bestimmt.

Dabei kann die Summe der Salience Werte aller Entitäten innerhalb eines bewerteten Dokuments nicht 1 überschreiten. Wichtig dabei ist auch zu verstehen, dass bereits die Reihenfolge der Entitäten innerhalb eines einzigen Satzes eine Auswirkung auf deren Salience Wert hat.

Nehmen wir zum Beispiel folgenden Satz: „Meinen Kaffee kaufe ich in der Bäckerei.” und vergleichen wir ihn mit dem Satz „Die Bäckerei verkauft mir meinen Kaffee.”, so ist der Inhalt nahezu identisch. Doch Google bewertet beide Sätze völlig unterschiedlich. Wenn man beide Sätze einzeln durch die Google NLP API bewerten lässt, findet die API in beiden Sätzen zwei Entitäten: „Kaffee” und „Bäckerei”, bewertet diese Entitäten in beiden Sätzen aber mit unterschiedliche Werten.

Salience-Wert für Meinen Kaffee kaufe ich in der Bäckerei
Salience-Wert für Die Bäckerei verkauft mir meinen Kaffee

Durch die Änderung Reihenfolge der erkannten Entitäten innerhalb des Satzes wird die Reihenfolge der Wichtigkeit der Entität innerhalb des betrachteten Dokumentes völlig geändert. Die Werte sind aber trotzdem nicht gleich, weil Google ja versucht, natürliche Sprache zu erkennen. Das heißt, die simple Änderung der Reihenfolge innerhalb des Textes muss nicht zwingend eine Verbesserung des Textes an sich ergeben. Grammatikalisch richtig sollte der Text schon sein und zudem eher dem natürlichen Sprachgebrauch entsprechen (Natural Language) und sich nicht irgendwie verbogen anhören.

Das wird vor allem deutlich, wenn man sich zusätzlich noch den Sentiment-Wert des Textes oder Satzes anschaut.

Bock auf eine digitale Lösung?