Datensätze

In dieser Lektion werdet ihr… 

  • mehr über die verschiedenen Arten von Datensätzen erfahren. 
  • mit der Planung eures Datensatzes beginnen. 

Schlüsselbegriffe

  • Datensätze – Informationen, die verwendet werden, um einer KI beizubringen, wie sie Muster erkennt und Ergebnisse/Ereignisse vorhersagt entsprechend ihrer Klasse zuzuordnen 
  • Mikrocontroller – ein kleiner Computer auf einem einzigen integrierten Chip. Dieser Chip wird in größeren Computern und anderen Systemen wie bspw. Elektrogeräten, Fahrzeugen und Robotern verwendet
  • Klasse – ein Label (Kennzeichnung), das einem KI-Modell zugewiesen wird, damit es lernt, Eingaben entsprechend ihrer Klasse zuzuordnen 
  • Sensor – ein Gerät, mit dem Veränderungen in der Umgebung erkannt werden. Zudem werden die durch den Sensor gesammelten Daten innerhalb eines elektronischen Systems überwacht 

Damit euer KI-Modell später etwas klassifizieren kann, müsst ihr zunächst einmal einen Datensatz planen. Doch was macht einen „guten“ Datensatz eigentlich aus? Hier ein paar sehr wichtige Punkte, die ihr unbedingt beachten solltet: 

Um euer KI-Modell zu trainieren, benötigt ihr eine Menge Daten. Je mehr Beispieldaten ihr eurem Modell gebt, desto besser ist seine Leistung. Die Daten sollten zwischen den verschiedenen Klassen oder Labels balanciert sein. Achtet darauf, dass ihr für jede Klasse ungefähr gleich viele Beispiele habt. Damit verhindert ihr, dass eine Klasse gegenüber der anderen bevorzugt wird. 

Denkt bitte daran, einen Teil eurer gesammelten Trainingsbeispiele für den Test eures trainierten KI-Modells aufzuheben. Für den Test eures KI-Modells braucht ihr nämlich Daten, die nicht bereits für das Training eingesetzt wurden. Ihr sollt damit herauszufinden, ob euer Modell genug gelernt hat, um Vorhersagen mithilfe seines Beispiels zu treffen, das es noch gar nicht kennt. Dazu legt ihr zwei Ordner auf eurem Computer an (ein Ordner mit dem Namen „Trainingsdaten“ und ein mit dem Namen „Testdaten“). Die meisten Beispieldaten sollten für das Training eures Modells verwendet werden. Einen kleinen Teil der Daten (ca. 10 bis 20 %) legt ihr für den sogenannten Genauigkeitstest zurücklegen. 

Achtet bitte darauf, verschiedene Beispiele anzuwenden. Angenommen, ihr entwickelt ein KI-Modell, das erkennen soll, ob jemand eine Mund-Nasen-Bedeckung trägt. Dazu solltet ihr Bilder sammeln, die verschiedene Beispiele abbilden: 

  • Verschiedene Arten und Farben von Mund-Nasen-Bedeckungen 
  • Unterschiedliche Menschen – Geschlecht, Herkunft, Alter 
  • Verschiedene Bildhintergründe – drinnen, draußen, hell, dunkel 
  • Unterschiedliche Kopfhaltung 
  • Unterschiedliche Kopfhaltung im Bild – nah, fern, links, rechts 

Bildquelle: A Tiny CNN Architecture for Medical Face Mask Detection for Resource-Constrained Endpoints von Puranjay Mohan, Aditya Jyoti Paul, und Abhay Chirani 

Was passiert, wenn ihr euer Modell für die Masken-Klasse nur mit Bildern von weißen Männern mit blauen OP-Masken trainieren würdet? Was geschieht, wenn eine Frau mit einer etwas dunkleren Hautfarbe, die eine lilafarbene Maske trägt, euer Modell nutzt? Wie sieht die Klassifizierung dann eurer Meinung nach aus? Würde das Modell dann noch funktionieren? 

Und selbstverständlich muss ein Datensatz die richtige Art von Daten haben. KI-Modelle können mit Zahlen, Text, Bildern und Tönen trainiert werden. Achtet darauf, dass ihr die richtige Datenart für euer Projekt aussucht! 

 Indem ihr darüber entscheidet, welche Art von Informationen in eurem Datensatz ist, habt ihr einen sehr großen Einfluss auf das KI-Modell! Achtet unbedingt darauf, dass ihr eine große Menge verschiedener Daten und die richtige Datenart verwendet. Andernfalls besteht die Gefahr, dass euer KI-Modell nicht sonderlich genau ist. Was höchstwahrscheinlich auch dazu führt, dass es falsche Vorhersagen und Entscheidungen trifft. Nehmt euch bitte genügend Zeit für die Sammlung der Daten. Damit sorgt ihr dafür, dass euch ein gutes KI-Modell gelingt, das zudem aus einem „gesunden“ Datensatz besteht. 

Zur Erinnerung: Es gibt drei Methoden, um Daten für das Training eines KI-Modells zu sammeln:

Sollte sich euer Projekt direkt auf eure Community beziehen, so ist diese wohl der ideale Anlaufpunkt für die Daten, die ihr braucht. Bitte achtet unbedingt darauf, die Erlaubnis für die Nutzung dieser Community-Daten zu haben! 

Macht euch Gedanken darüber, wie ihr die Daten in eurer Community sammeln könnt. Möchtet ihr Fotos machen? Bittet ihr die Mitglieder eurer Community um Fotos? Ihr könnt auch in der Community unterwegs sein und Töne aufnehmen. Durch eine Umfrage könnt ihr ebenso an die Informationen kommen, die ihr für euren Datensatz benötigt. Ein anderer Weg, an Daten zu gelangen, sind Interviews mit Community-Mitgliedern. 

Braucht euer Modell für das Training aktuelle und dauerhafte Daten, kann es sinnvoll sein, externe Hardware zu verwenden, die mit Sensoren ausgestattet ist. Hierzu gibt es viele Alternativen. Allerdings empfehlen wir euch folgenden Mikrocontroller diese sind nämlich nicht so teuer und auch leicht erhältlich.  

 

Jeder dieser Mikrocontroller weist seine eigenen Funktionen auf. Möglicherweise müsst ihr verschiedene Programmiersprachen anwenden, damit ihr die Controller für euer Projekt überhaupt nutzen könnt. Für einige Tools, wie bspw. App Inventor und Scratch, gibt es Erweiterungen, die ihr hinzufügen könnt. So könnt ihr diese Tools zusammen mit den Mikrocontrollern verwenden. Alle drei Geräte verfügen über KI-Funktionen, die ihr unbedingt ausprobieren solltet! 

Ihr könnt auch Umweltdaten sammeln, die die Wasser- oder Luftqualität erfassen. Um Daten für das KI-Modell zu sammeln, könnt ihr ebenfalls die Sensoren in eurem Smartphone verwenden. Das Mikrofon auf eurem Smartphone reicht zur Sammlung von Tondaten völlig aus. Für den Anschluss an kleine Mikrocontroller gibt es viele kostengünstige Sensoren, mit denen ihr euer Projekt mit Daten versorgen könnt. Dies sind ein paar Beispiele für Sensoren, die ihr nutzen könnt: 

Falls ihr sehr viele Daten benötigt, um ein gutes KI-Modell zu entwickeln, solltet ihr euch öffentliche Datensätze genauer ansehen. Hierzu gibt es jede Menge Datensätze, die auf Webseiten wie bspw. Kaggle zugänglich sind. Diese Seiten können euch schnell mit einer großen Menge an Daten versorgen. Achtet aber bitte unbedingt darauf, dass die Daten die Kriterien für einen „gesunden“ Datensatz erfüllen. Es kann auch sein, dass ihr ein paar Änderungen an den Daten vornehmen müsst, um sie für euer Projekt nutzen zu können. Tools wie Teachable Machine brauchen beispielsweise quadratische Bilder. Möglicherweise müsst ihr daher die Bilder des Datensatzes so bearbeiten, dass sie die richtige Größe für das Tool haben, das ihr für euer Projekt einsetzt. 

Aktivität: Plant euren Datensatz

Dafür braucht ihr: 

  • Etwas zum Schreiben 
  • Papier zum Schreiben oder das Arbeitsblatt 

Aufgabe:

  1. Legt fest, welche Daten ihr sammeln möchtet.
    Entscheidet, welche Art von Informationen ihr benötigt, um euer KI-Modell zu trainieren. Macht euch Gedanken über die Arten von Daten (Töne, Bilder, Text, Zahlen) 
  2. Entscheidet, wo ihr die Daten für euren Datensatz sammelt. Werdet ihr die Daten über die Community, Sensoren oder öffentliche Datensätze sammeln? 
  3. Auf welche Weise werdet ihr die Daten sammeln? Schreibt eure Antwort auf Frage 2 ausführlicher auf. 
  4. Entscheidet, welche Klassen oder Labels euer KI-Modell haben wird. Was soll euer Modell vorhersagen? Welche Kategorien benötigt ihr für diese Vorhersagen? Bitte denkt daran, dass ihr für jede Klasse, die ihr hinzufügt, Beispiele braucht. 
  5. Setzt eine bestimmte Anzahl von Beispielen für jede Klasse fest. Es sollten mindestens 50 Beispiele pro Klasse sein. 

Nachdem ihr mit der Planung eures Datensatzes begonnen habt, benötigt ihr die folgenden Zusatzinformationen: 

  • Beginnt mit einer Umfrage oder Fragen, falls ihr beabsichtigt, Daten aus der Community zu sammeln. 
  • Für Daten, die ihr über Sensoren sammelt, solltet ihr euch eine Liste der benötigten Sensoren machen. 
  • Für Daten aus öffentlichen Datensätzen: Schreibt euch Datensätze auf, die ihr verwenden könntet. 

Zusatz-Material

Hardware und Sensoren 

In diesem Video erhaltet ihr nützliche Informationen über die Mikrocontroller-Hardware, die wir für Projekte mit Sensoren empfehlen: Sparkfun Workshop: Microcontrollers and Machine Learning 

Eine umfassende Liste von Sensoren findet ihr in diesem Wikipedia-Artikel. 

 

Öffentliche Datensätze 

Solltet ihr euch für öffentliche Datensätze entscheiden, dann könnten folgende Webseiten weiterhelfen: 

  • Kaggle (sehr gut für Bilder) 
  • Dataset Search von Google 
  • Datensätze der UN. Ein Tipp: Versucht, nach eurem Land oder Thema zu filtern. 
  • Tutorial zur Sammlung von Daten über öffentliche Datensätze auf Kaggle. 

Technovation Challenge

Bewertungskriterien für den internationalen Wettbewerb

Am Ende der Technovation-Saison wird die App oder KI-Erfindung anhand von bestimmten Kriterien in verschiedenen Kategorien von einer Jury bewertet. Diese Lektion hilft euch, Punkte im Bereich ausgewählte Technologie“ im Demo-Video zu sammeln. Hier könnt ihr den Bewertungsbogen einsehen.