Herausforderungen in Bezug auf Supervised Learning
Damit die Maschine Zusammenhänge verlässlich erkennt, müssen die Daten gut aufbereitet sein. Denn fehlerhafte Daten oder eine unzureichende Aufbereitung dieser stellen eine große Herausforderung dar. Unsupervised Learning „kompensiert“ das dadurch, dass ein Mensch die Ergebnisse interpretiert, die Parameter adjustiert und neu berechnet. Da dies aber vorrangig manuell geschieht, zieht das einen hohen Zeit- und Kostenaufwand nach sich. Probleme in den Daten bzw. eine fehlende Aufbereitung dieser ist jedoch nicht nur eine Herausforderung für Supervised Learning, sondern auch für alle anderen Lernverfahren. Deep Learning kann dieses Problem in Teilen durch extrem viel Rechenzeit und Datenmenge kompensieren aber auch bei diesem Verfahren helfen gut aufbereitete Daten natürlich. Hier greift das Prinzip „Garbage In – Garbage Out“, denn der Output hängt maßgeblich von den hinein gegebenen Daten ab.
Gibt es Dopplungen, fehlende Inhalte oder fehlende Verknüpfungen im Datensatz, weiß die KI nichts damit anzufangen. Gleiches gilt, wenn sich die Testdaten vom Trainingsdatensatz unterscheiden. Die Maschine darf nämlich nicht zu genau auf die Trainingsdaten angelernt sein. Sonst tritt der Effekt des sogenannten Overfitting ein: Nur, wenn ein Daten-Input exakt mit den vorgegebenen Variablen übereinstimmt, kann er in die entsprechende Kategorie eingeordnet werden. Auch mit dieser Herausforderung ist nicht ausschließlich das Supervised Learning konfrontiert. So ist auch Deep Learning nicht gefeit vor diesem Effekt.
Des Weiteren sind vielfältige Daten wichtig, damit die Maschine möglichst viele unterschiedliche Szenarien bewerten kann. Wenn sie beispielsweise lernen soll, Menschen und Tiere auf Bildern zu unterscheiden, sollten als Tiere nicht nur Hunde, sondern auch Giraffen, Elefanten oder Gorillas zu sehen sein. Die Datenwissenschaftler benötigen also genügend Wissen über die verschiedenen Objektklassen, um sie für die KI klar herauszuheben.
Das Reinforcement Learning ist ebenfalls von den genannten Problemen betroffen, aufgrund der Art des Lernens teilweise sogar noch um ein Vielfaches stärker.