25.01.2018 | Fachartikel, iSYS Corporate News

Neuer Fachartikel in HMD: „Erkennung von Duplikaten in Big Data am Fallbeispiel der digitalen Musiknutzung“

„Erkennung von Duplikaten in Big Data am Fallbeispiel der digitalen Musiknutzung“, so lautet der Titel des Fachartikels, welcher in der Ausgabe 1/2018 der Fachzeitschrift HMD – Praxis der Wirtschafsinformatik erschienen ist. Autoren des Artikels sind Tobias Lindner, Dr. Markus Grimm (CIO der Gema), Dr. Nikolai Bauer sowie Prof. Dr. Peter Mandl, Geschäftsführer der iSYS Software GmbH und Professor für Wirtschaftsinformatik an der Hochschule München.

 

Die Forschungsarbeit wurde im Rahmen des durch die GEMA (Gesellschaft für musikalische Aufführungs- und mechanische Vervielfältigungsrechte) und durch das CCWI (Competence Center Wirtschaftsinformatik) der Hochschule München initiierten Forschungsprojekts MPI (=Massively parallel Processing of Internet events) durchgeführt. Das Projekt beschäftigt sich mit der massiv parallelen Verarbeitung von Musiknutzungsdaten.

Die Beschreibung von Musikwerken ist heute nicht international genormt und daher kommt es vor allem in der Online-Musiknutzung häufig vor, dass Musikwerke in Online-Plattformen wie Spotify und Apple Music unterschiedlich gespeichert sind. Die Abrechnung von Musiknutzungen ist bei den zuständigen Verwertungsgesellschaften zwar schon seit längerem digitalisiert, aber die Feststellung der Eindeutigkeit von Musikwerken ist nicht ohne weiteres möglich. Dazu bedarf es effizienter Algorithmen zur Objektidentifikation. In dieser Arbeit wird ein Vergleich verschiedener Algorithmen wie Damerau-Levenshtein, Jaro-Winkler, Smith-Waterman u. a. zur Objektidentifikation bei Musikwerken durchgeführt. Da es sich um sehr rechenintensive Algorithmen handelt, haben wir die Algorithmen für eine Massenverarbeitung in einem Apache Hadoop-Cluster unter Nutzung von MapReduce adaptiert. Über einen umfangreichen Vergleichsdatensatz, der mit Apache HBase verteilt gespeichert wurde, haben wir die wichtigsten Algorithmen auf die Qualität der Duplikatserkennung und auf ihre Leistung hin untersucht. Es hat sich gezeigt, dass die sehr häufig verwendete Levenshtein-Distanz nicht am besten abschneidet. Durch den Einsatz anderer Algorithmen, beispielsweise der Jaro-Winkler-Distanz sind bessere Ergebnisse erzielbar und zwar sowohl bei der Zuordnungsqualität als auch bei der Verarbeitungsgeschwindigkeit.

 

Weitere Informationen:

HMD – Praxis der Wirtschaftsinformation