Datenbank-Technologie von Crate.io für IIoT-Projekte

Echtzeit-Erfassung großer Datenmengen und verschiedener Formate, Daten-Analyse in kürzester Zeit und die möglichst demokratische Bereitstellung der Daten im Unternehmen. Das Industrial IoT (IIoT) stellt hohe Anforderungen an Leistung und Skalierbarkeit der Datenbank-Infrastruktur. Was bedeutet das jedoch im Detail für die IT-Spezialisten, die für die Bereitstellung der passenden Infrastruktur und die Entwicklung entsprechender Anwendungen zuständig sind? Herkömmliche Systeme sind hier schnell überfordert, Parallelverarbeitung ist gefragt.

Christian Lutz, Mitgründer und Geschäftsführer, Crate.io GmbH, Berlin

Inhaltsverzeichnis

1. Große Datenmengen im Industrial IoT
2. Das relationale Modell hat zu viel Overhead
3. Mehr Leistung mit Parallelverarbeitung

In den meisten Unternehmen ist das Standardwerkzeug für die Speicherung von Daten aller Art ein relationales Datenbanksystem (RDBMS). Es legt Daten in strukturierten Tabellen ab, die in eindeutigen Beziehungen zueinander stehen. Für Datenabrufe und die Verwaltung der Tabellen wird die Structured Query Language (SQL) benutzt. Dieses Datenbankmodell ist leistungsfähig genug für die Verwaltung etwa von kaufmännischen Daten, stößt im Industrial IoT aber an Grenzen.

Zwar gibt es hier auch Relationen, beispielsweise zwischen einem Sensor und den von ihm erzeugten Datenpunkten. Doch bei IIoT-Anwendungen geht es in erster Linie darum, sehr große Datenmengen nach Möglichkeit in Echtzeit zu verarbeiten, um weitere Auswertungen anzuschließen. Dabei werden verschiedene Quellen eingebunden, die in der Regel auch unterschiedliche Datenformate besitzen.

Große Datenmengen im Industrial IoT

IIoT-Projekte haben hohe Anforderungen an die Datenverarbeitung. Dezentrale Standorte mit oft mehreren hundert Maschinen, Automaten oder Fertigungsstrecken sowie Energienetze und Fahrzeugflotten erzeugen kontinuierlich massive Datenmengen. Sensoren senden jeweils Daten im Sekunden- oder Millisekunden-Takt. Dabei hat jeder gesendete Datensatz eine gewisse Größe. Er besteht meist nicht nur aus dem eigentlichen Messergebnis, sondern besitzt oft Metadaten wie einen Zeitstempel oder Geodaten zur Ermittlung des Maschinenstandorts. Die entstehenden Datenmengen sind riesig. So kann bereits ein einzelner Messfühler pro Tag mehrere Megabyte erzeugen. Das summiert sich in einer Fertigungsanlage bis in die Größenordnung von Gigabytes.

In den meisten Fällen handelt es sich dabei um Zeitreihendaten: Unzählige Einzelwerte, die zunächst in Zeitintervallen betrachtet und auf Maximal- oder Minimalwertabweichungen hin untersucht werden. Ein Beispiel: Ein Temperatursensor überträgt häufig permanent fast gleiche Daten. Interessant werden sie häufig erst dann, wenn es Abweichungen gibt. Sie weisen auf Zustandsänderungen hin, die ausgewertet werden müssen. Hinzu kommen im Industrial IoT häufig noch sehr unterschiedliche Datenformate aus anderen Quellen, etwa den ERP-Systemen, unstrukturierte Daten aller Art wie beispielsweise Audio- und Bild-Dateien, Binary Large Objects (BLOB), Geo-Datentypen und relationale Daten wie JSON-docs (JavaScript Object Notation). Kurz: Die Anforderungen an die Datenspeicherung übersteigen im Industrial IoT das von herkömmlicher Datenverarbeitung gewohnte deutlich.

Das relationale Modell hat zu viel Overhead

Daraus folgt, dass die Wahl der Datenbanktechnologie einen entscheidenden Einfluss auf den Erfolg des Projektes hat. Dabei ist es kaum möglich, mit Anwendungen für das Industrial IoT auf der bestehenden Datenbank-Infrastruktur aufzusetzen. Sie ist zumeist an die Anforderungen von Softwaresystemen wie Warenwirtschaft, ERP oder Buchhaltung angepasst. Die im IIoT typischen Datenmengen bringen herkömmliche SQL-Datenbanken wie Microsoft SQL Server oder Oracle DB rasch an ihre Grenzen. Das relationale Modell passt nur teilweise zu den Anforderungen des Industrial IoT. Die Auflösung der Relationen kostet zu viel Zeit, das gesamte Modell erzeugt zu viel Overhead und ist nur begrenzt skalierbar.

Viele Unternehmen ziehen nun zwei unterschiedliche Arten von Datenbanktechnologien in Betracht: Zeitreihen-Datenbanken (Time Series Databases, TSDB) und NoSQL-Systeme. Eine TSDB ist ein Datenbanksystem, das für die Speicherung von Datenreihen optimiert ist. Dies geschieht beispielsweise durch schnelle Zugriffe mittels In-Memory-Verarbeitung und Zusatzfunktionen, die vor allem die Aggregierung, Auswertung und Visualisierung der Daten unterstützen. Doch für Anwendungen im Industrial IoT greift das zu kurz. Um Veränderungen im Zeitverlauf interpretieren zu können, sind komplexe Analysen, Datenmodelländerungen, gleichzeitiges Lesen und Schreiben sowie die Einbindung von externen Daten notwendig.

Eine zweite Möglichkeit ist die NoSQL-Datenbanktechnologie, manchmal auch als „Not only SQL“ bezeichnet. Damit sind nicht-relationale Datenbanksysteme gemeint, von denen es unterschiedliche Varianten gibt. Ihre Gemeinsamkeit: Sie verarbeiten Transaktionen besonders performant, weil sie auf Relationen und vordefinierte Schemata verzichten. Doch im Industrial IoT sind Relationen durchaus bedeutend, beispielsweise Joins, Aggregationen und individuell definierte, analytische Funktionen – schließlich geht es darum, Daten miteinander ins Verhältnis zu setzen.

Mehr Leistung mit Parallelverarbeitung

Besser für das IIoT geeignet ist die Shared-Nothing-Architektur. Dahinter verbirgt sich ein verteiltes SQL-Datenbanksystem wie CrateDB, bei dem die einzelnen Knoten ihre Aufgaben unabhängig und eigenständig erfüllen. So entsteht eine parallele Datenbank, bei der alle Anfragen auf mehrere Knoten verteilt werden. Jeder greift auf seine eigenen Ressourcen zurück und nutzt Betriebssystem, Prozessorleistung und Arbeitsspeicher unabhängig von den anderen Knoten. Dadurch lässt sich das System sehr einfach skalieren: Wird mehr Rechenleistung benötigt, werden Knoten zugeschaltet. Auch sehr komplexe Relationen und große Datenmengen können so performant bearbeitet werden.

Vollständig transparente und offene ANSI-SQL-Schnittstellen garantieren eine weitgehende Integration mit dem inzwischen umfangreichen Ecosystem an IIoT-Anwendungen. Gleichzeitig können IT-Experten das vorhandene SQL-Know-how weiter nutzen und müssen nicht extra eine proprietäre NoSQL-Sprache lernen. Durch Cloud Computing entsteht weiterer Mehrwert. CrateDB beispielsweise ist als Database-as-a-Service voll in die Cloud integriert.

Da die meisten Anbieter ihre IoT-Plattform in der Cloud betreiben, ist die Integration in jedes IoT-Projekt einfach. Das ermöglicht unter anderem die dezentrale Erfassung der Datenmengen sowie die flexible Dimensionierung der benötigten Ressourcen. Deren Verwaltung obliegt dabei dem Dienstleister. Der Nutzer einer Datenbank muss sich nicht um das Hinzuschalten von Knoten kümmern, er verfügt immer über die optimale Rechenleistung. (jg)

Details zur Datenbank-Lösung von Crate.io (engl.)

Kontakt:

Crate.io GmbH
Lobeckstraße 36–40
10969 Berlin
Tel.: +49 30 120895–580
E-Mail: office@crate.io
Website: www.crate.io

Christian Lutz ist Mitgründer und Geschäftsführer von Crate.io

PLUS

Der Autor

Christian Lutz ist Mitgründer und Geschäftsführer von Crate.io. Seit über 15 Jahren ist er als erfolgreicher Serial-Entrepreneur und Operational-Manager mit umfangreichen Kenntnissen in den Bereichen Telekommunikation, (mobiles) Internet, Software, Medien und Konsumgüter tätig.

Zurück zur Startseite