Hadoop Real World Solutions Cookbook


Author: Jonathan R. Owens,Brian Femiano,Jon Lentz
Publisher: Packt Publishing Ltd
ISBN: 1849519129
Category: Computers
Page: 316
View: 4508
DOWNLOAD NOW »
Helping developers become more comfortable and proficient with solving problems in the Hadoop space. People will become more familiar with a wide variety of Hadoop related tools and best practices for implementation. Hadoop Real-World Solutions Cookbook will teach readers how to build solutions using tools such as Apache Hive, Pig, MapReduce, Mahout, Giraph, HDFS, Accumulo, Redis, and Ganglia. Hadoop Real-World Solutions Cookbook provides in depth explanations and code examples. Each chapter contains a set of recipes that pose, then solve, technical challenges, and can be completed in any order. A recipe breaks a single problem down into discrete steps that are easy to follow. The book covers (un)loading to and from HDFS, graph analytics with Giraph, batch data analysis using Hive, Pig, and MapReduce, machine learning approaches with Mahout, debugging and troubleshooting MapReduce, and columnar storage and retrieval of structured data using Apache Accumulo. Hadoop Real-World Solutions Cookbook will give readers the examples they need to apply Hadoop technology to their own problems.

Hadoop Real-World Solutions Cookbook


Author: Tanmay Deshpande
Publisher: Packt Publishing Ltd
ISBN: 1784398004
Category: Computers
Page: 290
View: 9433
DOWNLOAD NOW »
Over 90 hands-on recipes to help you learn and master the intricacies of Apache Hadoop 2.X, YARN, Hive, Pig, Oozie, Flume, Sqoop, Apache Spark, and Mahout About This Book Implement outstanding Machine Learning use cases on your own analytics models and processes. Solutions to common problems when working with the Hadoop ecosystem. Step-by-step implementation of end-to-end big data use cases. Who This Book Is For Readers who have a basic knowledge of big data systems and want to advance their knowledge with hands-on recipes. What You Will Learn Installing and maintaining Hadoop 2.X cluster and its ecosystem. Write advanced Map Reduce programs and understand design patterns. Advanced Data Analysis using the Hive, Pig, and Map Reduce programs. Import and export data from various sources using Sqoop and Flume. Data storage in various file formats such as Text, Sequential, Parquet, ORC, and RC Files. Machine learning principles with libraries such as Mahout Batch and Stream data processing using Apache Spark In Detail Big data is the current requirement. Most organizations produce huge amount of data every day. With the arrival of Hadoop-like tools, it has become easier for everyone to solve big data problems with great efficiency and at minimal cost. Grasping Machine Learning techniques will help you greatly in building predictive models and using this data to make the right decisions for your organization. Hadoop Real World Solutions Cookbook gives readers insights into learning and mastering big data via recipes. The book not only clarifies most big data tools in the market but also provides best practices for using them. The book provides recipes that are based on the latest versions of Apache Hadoop 2.X, YARN, Hive, Pig, Sqoop, Flume, Apache Spark, Mahout and many more such ecosystem tools. This real-world-solution cookbook is packed with handy recipes you can apply to your own everyday issues. Each chapter provides in-depth recipes that can be referenced easily. This book provides detailed practices on the latest technologies such as YARN and Apache Spark. Readers will be able to consider themselves as big data experts on completion of this book. This guide is an invaluable tutorial if you are planning to implement a big data warehouse for your business. Style and approach An easy-to-follow guide that walks you through world of big data. Each tool in the Hadoop ecosystem is explained in detail and the recipes are placed in such a manner that readers can implement them sequentially. Plenty of reference links are provided for advanced reading.

Hadoop Real-World Solutions Cookbook Second Edition


Author: Tanmay Deshpande
Publisher: Packt Publishing
ISBN: 9781784395506
Category: Computers
Page: 290
View: 8719
DOWNLOAD NOW »
Over 90 hands-on recipes to help you learn and master the intricacies of Apache Hadoop 2.X, YARN, Hive, Pig, Oozie, Flume, Sqoop, Apache Spark, and MahoutAbout This Book- Implement outstanding Machine Learning use cases on your own analytics models and processes.- Solutions to common problems when working with the Hadoop ecosystem.- Step-by-step implementation of end-to-end big data use cases.Who This Book Is ForReaders who have a basic knowledge of big data systems and want to advance their knowledge with hands-on recipes.What You Will Learn- Installing and maintaining Hadoop 2.X cluster and its ecosystem.- Write advanced Map Reduce programs and understand design patterns.- Advanced Data Analysis using the Hive, Pig, and Map Reduce programs.- Import and export data from various sources using Sqoop and Flume.- Data storage in various file formats such as Text, Sequential, Parquet, ORC, and RC Files.- Machine learning principles with libraries such as Mahout- Batch and Stream data processing using Apache SparkIn DetailBig data is the current requirement. Most organizations produce huge amount of data every day. With the arrival of Hadoop-like tools, it has become easier for everyone to solve big data problems with great efficiency and at minimal cost. Grasping Machine Learning techniques will help you greatly in building predictive models and using this data to make the right decisions for your organization.Hadoop Real World Solutions Cookbook gives readers insights into learning and mastering big data via recipes. The book not only clarifies most big data tools in the market but also provides best practices for using them. The book provides recipes that are based on the latest versions of Apache Hadoop 2.X, YARN, Hive, Pig, Sqoop, Flume, Apache Spark, Mahout and many more such ecosystem tools. This real-world-solution cookbook is packed with handy recipes you can apply to your own everyday issues. Each chapter provides in-depth recipes that can be referenced easily. This book provides detailed practices on the latest technologies such as YARN and Apache Spark. Readers will be able to consider themselves as big data experts on completion of this book.This guide is an invaluable tutorial if you are planning to implement a big data warehouse for your business.Style and approachAn easy-to-follow guide that walks you through world of big data. Each tool in the Hadoop ecosystem is explained in detail and the recipes are placed in such a manner that readers can implement them sequentially. Plenty of reference links are provided for advanced reading.

Hadoop: Data Processing and Modelling


Author: Garry Turkington,Tanmay Deshpande,Sandeep Karanth
Publisher: Packt Publishing Ltd
ISBN: 1787120457
Category: Computers
Page: 979
View: 387
DOWNLOAD NOW »
Unlock the power of your data with Hadoop 2.X ecosystem and its data warehousing techniques across large data sets About This Book Conquer the mountain of data using Hadoop 2.X tools The authors succeed in creating a context for Hadoop and its ecosystem Hands-on examples and recipes giving the bigger picture and helping you to master Hadoop 2.X data processing platforms Overcome the challenging data processing problems using this exhaustive course with Hadoop 2.X Who This Book Is For This course is for Java developers, who know scripting, wanting a career shift to Hadoop - Big Data segment of the IT industry. So if you are a novice in Hadoop or an expert, this book will make you reach the most advanced level in Hadoop 2.X. What You Will Learn Best practices for setup and configuration of Hadoop clusters, tailoring the system to the problem at hand Integration with relational databases, using Hive for SQL queries and Sqoop for data transfer Installing and maintaining Hadoop 2.X cluster and its ecosystem Advanced Data Analysis using the Hive, Pig, and Map Reduce programs Machine learning principles with libraries such as Mahout and Batch and Stream data processing using Apache Spark Understand the changes involved in the process in the move from Hadoop 1.0 to Hadoop 2.0 Dive into YARN and Storm and use YARN to integrate Storm with Hadoop Deploy Hadoop on Amazon Elastic MapReduce and Discover HDFS replacements and learn about HDFS Federation In Detail As Marc Andreessen has said “Data is eating the world,” which can be witnessed today being the age of Big Data, businesses are producing data in huge volumes every day and this rise in tide of data need to be organized and analyzed in a more secured way. With proper and effective use of Hadoop, you can build new-improved models, and based on that you will be able to make the right decisions. The first module, Hadoop beginners Guide will walk you through on understanding Hadoop with very detailed instructions and how to go about using it. Commands are explained using sections called “What just happened” for more clarity and understanding. The second module, Hadoop Real World Solutions Cookbook, 2nd edition, is an essential tutorial to effectively implement a big data warehouse in your business, where you get detailed practices on the latest technologies such as YARN and Spark. Big data has become a key basis of competition and the new waves of productivity growth. Hence, once you get familiar with the basics and implement the end-to-end big data use cases, you will start exploring the third module, Mastering Hadoop. So, now the question is if you need to broaden your Hadoop skill set to the next level after you nail the basics and the advance concepts, then this course is indispensable. When you finish this course, you will be able to tackle the real-world scenarios and become a big data expert using the tools and the knowledge based on the various step-by-step tutorials and recipes. Style and approach This course has covered everything right from the basic concepts of Hadoop till you master the advance mechanisms to become a big data expert. The goal here is to help you learn the basic essentials using the step-by-step tutorials and from there moving toward the recipes with various real-world solutions for you. It covers all the important aspects of Hadoop from system designing and configuring Hadoop, machine learning principles with various libraries with chapters illustrated with code fragments and schematic diagrams. This is a compendious course to explore Hadoop from the basics to the most advanced techniques available in Hadoop 2.X.

Hadoop Backup and Recovery Solutions


Author: Gaurav Barot,Chintan Mehta,Amij Patel
Publisher: Packt Publishing Ltd
ISBN: 1783289058
Category: Computers
Page: 206
View: 7233
DOWNLOAD NOW »
Hadoop offers distributed processing of large datasets across clusters and is designed to scale up from a single server to thousands of machines, with a very high degree of fault tolerance. It enables computing solutions that are scalable, cost-effective, flexible, and fault tolerant to back up very large data sets from hardware failures. Starting off with the basics of Hadoop administration, this book becomes increasingly exciting with the best strategies of backing up distributed storage databases. You will gradually learn about the backup and recovery principles, discover the common failure points in Hadoop, and facts about backing up Hive metadata. A deep dive into the interesting world of Apache HBase will show you different ways of backing up data and will compare them. Going forward, you'll learn the methods of defining recovery strategies for various causes of failures, failover recoveries, corruption, working drives, and metadata. Also covered are the concepts of Hadoop matrix and MapReduce. Finally, you'll explore troubleshooting strategies and techniques to resolve failures.

Big Data

Die Revolution, die unser Leben verändern wird
Author: Viktor Mayer-Schönberger,Viktor; Cukier Mayer-Schönberger
Publisher: Redline Wirtschaft
ISBN: 3864144590
Category: Political Science
Page: 288
View: 3937
DOWNLOAD NOW »
Ob Kaufverhalten, Grippewellen oder welche Farbe am ehesten verrät, ob ein Gebrauchtwagen in einem guten Zustand ist – noch nie gab es eine solche Menge an Daten und noch nie bot sich die Chance, durch Recherche und Kombination in der Daten¬flut blitzschnell Zusammenhänge zu entschlüsseln. Big Data bedeutet nichts weniger als eine Revolution für Gesellschaft, Wirtschaft und Politik. Es wird die Weise, wie wir über Gesundheit, Erziehung, Innovation und vieles mehr denken, völlig umkrempeln. Und Vorhersagen möglich machen, die bisher undenkbar waren. Die Experten Viktor Mayer-Schönberger und Kenneth Cukier beschreiben in ihrem Buch, was Big Data ist, welche Möglichkeiten sich eröffnen, vor welchen Umwälzungen wir alle stehen – und verschweigen auch die dunkle Seite wie das Ausspähen von persönlichen Daten und den drohenden Verlust der Privatsphäre nicht.

Hadoop Blueprints


Author: Anurag Shrivastava,Tanmay Deshpande
Publisher: Packt Publishing Ltd
ISBN: 1783980311
Category: Computers
Page: 316
View: 747
DOWNLOAD NOW »
Use Hadoop to solve business problems by learning from a rich set of real-life case studies About This Book Solve real-world business problems using Hadoop and other Big Data technologies Build efficient data lakes in Hadoop, and develop systems for various business cases like improving marketing campaigns, fraud detection, and more Power packed with six case studies to get you going with Hadoop for Business Intelligence Who This Book Is For If you are interested in building efficient business solutions using Hadoop, this is the book for you This book assumes that you have basic knowledge of Hadoop, Java, and any scripting language. What You Will Learn Learn about the evolution of Hadoop as the big data platform Understand the basics of Hadoop architecture Build a 360 degree view of your customer using Sqoop and Hive Build and run classification models on Hadoop using BigML Use Spark and Hadoop to build a fraud detection system Develop a churn detection system using Java and MapReduce Build an IoT-based data collection and visualization system Get to grips with building a Hadoop-based Data Lake for large enterprises Learn about the coexistence of NoSQL and In-Memory databases in the Hadoop ecosystem In Detail If you have a basic understanding of Hadoop and want to put your knowledge to use to build fantastic Big Data solutions for business, then this book is for you. Build six real-life, end-to-end solutions using the tools in the Hadoop ecosystem, and take your knowledge of Hadoop to the next level. Start off by understanding various business problems which can be solved using Hadoop. You will also get acquainted with the common architectural patterns which are used to build Hadoop-based solutions. Build a 360-degree view of the customer by working with different types of data, and build an efficient fraud detection system for a financial institution. You will also develop a system in Hadoop to improve the effectiveness of marketing campaigns. Build a churn detection system for a telecom company, develop an Internet of Things (IoT) system to monitor the environment in a factory, and build a data lake – all making use of the concepts and techniques mentioned in this book. The book covers other technologies and frameworks like Apache Spark, Hive, Sqoop, and more, and how they can be used in conjunction with Hadoop. You will be able to try out the solutions explained in the book and use the knowledge gained to extend them further in your own problem space. Style and approach This is an example-driven book where each chapter covers a single business problem and describes its solution by explaining the structure of a dataset and tools required to process it. Every project is demonstrated with a step-by-step approach, and explained in a very easy-to-understand manner.

Machine Learning with Spark


Author: Nick Pentreath
Publisher: Packt Publishing Ltd
ISBN: 1783288523
Category: Computers
Page: 338
View: 9970
DOWNLOAD NOW »
If you are a Scala, Java, or Python developer with an interest in machine learning and data analysis and are eager to learn how to apply common machine learning techniques at scale using the Spark framework, this is the book for you. While it may be useful to have a basic understanding of Spark, no previous experience is required.

Spring im Einsatz


Author: Craig Walls
Publisher: Carl Hanser Verlag GmbH Co KG
ISBN: 3446463232
Category: Computers
Page: 559
View: 3024
DOWNLOAD NOW »
- Erstellen reaktiver Anwendungen - Spring MVC für Webanwendungen und RESTful Web Services - Sicherheit für Anwendungen mit Spring Security - Behandelt Spring 5.0 Diese vollständig aktualisierte Ausgabe des Bestsellers »Spring in Action« enthält alle Spring-5.0-Updates, neue Beispiele für reaktive Programmierung, Spring WebFlux und Microservices. Ebenfalls enthalten sind die neuesten Best-Practice-Methoden für Spring einschließlich Spring Boot. Das Spring Framework erleichtert Java-Entwicklern die Arbeit. Neue Features in Spring 5 übertragen den produktivitätsorientierten Ansatz auf Microservices, reaktive Entwicklung und andere moderne Anwendungskonzepte. Da Spring Boot nun vollständig integriert ist, können Sie auch komplexe Projekte sofort beginnen und müssen dafür nur minimalen Konfigurationscode schreiben. Das aktualisierte WebFlux-Framework unterstützt dabei reaktive Anwendungen, die sofort einsatzbereit sind. Das Buch führt Sie durch die Kernfunktionen von Spring, die Craig Walls in seinem berühmten klaren Stil erklärt. Erstellen Sie Schritt für Schritt eine sichere, datenbankgestützte Webanwendung. Auf dem Weg dorthin lernen Sie reaktive Programmierung, Microservices, Service Discovery, RESTful APIs und die Bereitstellung (Deployment) von Spring-Anwendungen kennen und bekommen außerdem zahlreiche Experten-Tipps. Ganz gleich, ob Sie Spring gerade entdecken oder auf die Version 5 migrieren – dieser Klassiker hilft Ihnen dabei! AUS DEM INHALT // Erste Schritte mit Spring/Webanwendungen entwickeln/Mit Daten arbeiten/ Zugriffskontrolle mit Spring Security/Mit Konfigurationseigenschaften arbeiten/REST-Dienste erstellen und konsumieren/Nachrichten asynchron senden/Spring integrieren/Einführung in Reactor/Reaktive APIs entwickeln/Daten reaktiv persistent speichern/Service-Discovery/Konfiguration verwalten/Fehler und Latenzzeiten behandeln/Mit Spring Boot Actuator arbeiten/Spring verwalten/Spring mit JMX überwachen/Spring bereitstellen/Bootstrapping von Spring-Anwendungen

R in a Nutshell


Author: Joseph Adler
Publisher: O'Reilly Germany
ISBN: 3897216507
Category: Computers
Page: 768
View: 7486
DOWNLOAD NOW »
Wozu sollte man R lernen? Da gibt es viele Gründe: Weil man damit natürlich ganz andere Möglichkeiten hat als mit einer Tabellenkalkulation wie Excel, aber auch mehr Spielraum als mit gängiger Statistiksoftware wie SPSS und SAS. Anders als bei diesen Programmen hat man nämlich direkten Zugriff auf dieselbe, vollwertige Programmiersprache, mit der die fertigen Analyse- und Visualisierungsmethoden realisiert sind – so lassen sich nahtlos eigene Algorithmen integrieren und komplexe Arbeitsabläufe realisieren. Und nicht zuletzt, weil R offen gegenüber beliebigen Datenquellen ist, von der einfachen Textdatei über binäre Fremdformate bis hin zu den ganz großen relationalen Datenbanken. Zudem ist R Open Source und erobert momentan von der universitären Welt aus die professionelle Statistik. R kann viel. Und Sie können viel mit R machen – wenn Sie wissen, wie es geht. Willkommen in der R-Welt: Installieren Sie R und stöbern Sie in Ihrem gut bestückten Werkzeugkasten: Sie haben eine Konsole und eine grafische Benutzeroberfläche, unzählige vordefinierte Analyse- und Visualisierungsoperationen – und Pakete, Pakete, Pakete. Für quasi jeden statistischen Anwendungsbereich können Sie sich aus dem reichen Schatz der R-Community bedienen. Sprechen Sie R! Sie müssen Syntax und Grammatik von R nicht lernen – wie im Auslandsurlaub kommen Sie auch hier gut mit ein paar aufgeschnappten Brocken aus. Aber es lohnt sich: Wenn Sie wissen, was es mit R-Objekten auf sich hat, wie Sie eigene Funktionen schreiben und Ihre eigenen Pakete schnüren, sind Sie bei der Analyse Ihrer Daten noch flexibler und effektiver. Datenanalyse und Statistik in der Praxis: Anhand unzähliger Beispiele aus Medizin, Wirtschaft, Sport und Bioinformatik lernen Sie, wie Sie Daten aufbereiten, mithilfe der Grafikfunktionen des lattice-Pakets darstellen, statistische Tests durchführen und Modelle anpassen. Danach werden Ihnen Ihre Daten nichts mehr verheimlichen.

Datenintensive Anwendungen designen

Konzepte für zuverlässige, skalierbare und wartbare Systeme
Author: Martin Kleppmann
Publisher: O'Reilly
ISBN: 3960101848
Category: Computers
Page: 652
View: 1686
DOWNLOAD NOW »
Daten stehen heute im Mittelpunkt vieler Herausforderungen im Systemdesign. Dabei sind komplexe Fragen wie Skalierbarkeit, Konsistenz, Zuverlässigkeit, Effizienz und Wartbarkeit zu klären. Darüber hinaus verfügen wir über eine überwältigende Vielfalt an Tools, einschließlich relationaler Datenbanken, NoSQL-Datenspeicher, Stream-und Batchprocessing und Message Broker. Aber was verbirgt sich hinter diesen Schlagworten? Und was ist die richtige Wahl für Ihre Anwendung? In diesem praktischen und umfassenden Leitfaden unterstützt Sie der Autor Martin Kleppmann bei der Navigation durch dieses schwierige Terrain, indem er die Vor-und Nachteile verschiedener Technologien zur Verarbeitung und Speicherung von Daten aufzeigt. Software verändert sich ständig, die Grundprinzipien bleiben aber gleich. Mit diesem Buch lernen Softwareentwickler und -architekten, wie sie die Konzepte in der Praxis umsetzen und wie sie Daten in modernen Anwendungen optimal nutzen können. Inspizieren Sie die Systeme, die Sie bereits verwenden, und erfahren Sie, wie Sie sie effektiver nutzen können Treffen Sie fundierte Entscheidungen, indem Sie die Stärken und Schwächen verschiedener Tools kennenlernen Steuern Sie die notwenigen Kompromisse in Bezug auf Konsistenz, Skalierbarkeit, Fehlertoleranz und Komplexität Machen Sie sich vertraut mit dem Stand der Forschung zu verteilten Systemen, auf denen moderne Datenbanken aufbauen Werfen Sie einen Blick hinter die Kulissen der wichtigsten Onlinedienste und lernen Sie von deren Architekturen

Programmieren mit Scala


Author: Dean Wampler,Alex Payne
Publisher: O'Reilly Germany
ISBN: 3897216485
Category: Computers
Page: 480
View: 7545
DOWNLOAD NOW »
Sie ist elegant, schlank, modern und flexibel: Die Rede ist von Scala, der neuen Programmiersprache für die Java Virtual Machine (JVM). Sie vereint die Vorzüge funktionaler und objektorientierter Programmierung, ist typsicherer als Java, lässt sich nahtlos in die Java-Welt integrieren – und eine in Scala entwickelte Anwendung benötigt oft nur einen Bruchteil der Codezeilen ihres Java-Pendants. Kein Wunder, dass immer mehr Firmen, deren große, geschäftskritische Anwendungen auf Java basieren, auf Scala umsteigen, um ihre Produktivität und die Skalierbarkeit ihrer Software zu erhöhen. Das wollen Sie auch? Dann lassen Sie sich von den Scala-Profis Dean Wampler und Alex Payne zeigen, wie es geht. Ihre Werkzeugkiste: Schon bevor Sie loslegen, sind Sie weiter, als Sie denken: Sie können Ihre Java-Programme weiter verwenden, Java-Bibliotheken nutzen, Java von Scala aus aufrufen und Scala von Java aus. Auch Ihre bevorzugten Entwicklungswerkzeuge wie NetBeans, IntelliJ IDEA oder Eclipse stehen Ihnen weiter zur Verfügung, dazu Kommandozeilen-Tools, Plugins für Editoren, Werkzeuge von Drittanbietern – und natürlich Ihre Programmiererfahrung. In Programmieren mit Scala erfahren Sie, wie Sie sich all das zunutze machen. Das Hybridmodell: Die Paradigmen "funktional" und "objektorientiert" sind keine Gegensätze, sondern ergänzen sich unter dem Scala-Dach zu einem sehr produktiven Ganzen. Nutzen Sie die Vorteile funktionaler Programmierung, wann immer sich das anbietet – und seien Sie so frei, auf die guten alten Seiteneffekte zu bauen, wenn Sie das für nötig halten. Futter für die Profis: Skalierbare Nebenläufigkeit mit Aktoren, Aufzucht und Pflege von XML mit Scala, Domainspezifische Sprachen, Tipps zum richtigen Anwendungsdesign – das sind nur ein paar der fortgeschrittenen Themen, in die Sie mit den beiden Autoren eintauchen. Danach sind Sie auch Profi im Programmieren mit Scala.

Learning Apache Flink


Author: Tanmay Deshpande
Publisher: Packt Publishing Ltd
ISBN: 1786467267
Category: Computers
Page: 280
View: 6431
DOWNLOAD NOW »
Discover the definitive guide to crafting lightning-fast data processing for distributed systems with Apache Flink About This Book Build your expertize in processing real-time data with Apache Flink and its ecosystem Gain insights into the working of all components of Apache Flink such as FlinkML, Gelly, and Table API filled with real world use cases Exploit Apache Flink's capabilities like distributed data streaming, in-memory processing, pipelining and iteration operators to improve performance. Solve real world big-data problems with real time in-memory and disk-based processing capabilities of Apache Flink. Who This Book Is For Big data developers who are looking to process batch and real-time data on distributed systems. Basic knowledge of Hadoop and big data is assumed. Reasonable knowledge of Java or Scala is expected. What You Will Learn Learn how to build end to end real time analytics projects Integrate with existing big data stack and utilize existing infrastructure Build predictive analytics applications using FlinkML Use graph library to perform graph querying and search. Understand Flink's - "Streaming First" architecture to implementing real streaming applications Learn Flink Logging and Monitoring best practices in order to efficiently design your data pipelines Explore the detailed processes to deploy Flink cluster on Amazon Web Services(AWS) and Google Cloud Platform (GCP). In Detail With the advent of massive computer systems, organizations in different domains generate large amounts of data on a real-time basis. The latest entrant to big data processing, Apache Flink, is designed to process continuous streams of data at a lightning fast pace. This book will be your definitive guide to batch and stream data processing with Apache Flink. The book begins with introducing the Apache Flink ecosystem, setting it up and using the DataSet and DataStream API for processing batch and streaming datasets. Bringing the power of SQL to Flink, this book will then explore the Table API for querying and manipulating data. In the latter half of the book, readers will get to learn the remaining ecosystem of Apache Flink to achieve complex tasks such as event processing, machine learning, and graph processing. The final part of the book would consist of topics such as scaling Flink solutions, performance optimization and integrating Flink with other tools such as ElasticSearch. Whether you want to dive deeper into Apache Flink, or want to investigate how to get more out of this powerful technology, you'll find everything you need inside. Style and approach This book is a comprehensive guide that covers advanced features of the Apache Flink, and communicates them with a practical understanding of the underlying concepts for how, when, and why to use them.

Einführung in Apache Solr


Author: Markus Klose,Daniel Wrigley
Publisher: O'Reilly Germany
ISBN: 3955614220
Category: Computers
Page: 336
View: 6745
DOWNLOAD NOW »
Eine leistungsfähige Volltextsuche ist heute auf Websites, in Online-Shops oder auch im Unternehmen nicht mehr Kür, sondern Pflicht. Gefragt ist eine flexible Suchtechnologie, die auf unterschiedlichsten Systemen genutzt werden kann. Hier kommt Apache Solr ins Spiel: Dieser Open-Source-Suchserver bietet Entwicklern auf Basis von Standard-Webtechnologien eine mächtige und dabei einfach zu integrierende und zu benutzende Search Engine. Einführung in Apache Solr bietet einen fundierten Einstieg in die Suchtechnologie: Der Leser wird in die Lage versetzt, eine individuelle Suchlösung auf Basis von Apache Solr aufzusetzen. Beschrieben wird, aus welchen Komponenten Solr sich zusammensetzt, wie die Indexierung konfiguriert und manipuliert werden kann und welche Einstellungsmöglichkeiten es für die Suche gibt. Mit zahlreichen Beispielkonfigurationen, Tipps und Pitfalls aus der Praxis der Autoren

Kubernetes in Action

Anwendungen in Kubernetes-Clustern bereitstellen und verwalten
Author: Marko Lukša
Publisher: Carl Hanser Verlag GmbH Co KG
ISBN: 3446458247
Category: Computers
Page: 670
View: 6647
DOWNLOAD NOW »
Mit Kubernetes große Container-Infrastrukturen ausfallsicher verwalten Nach einer Einführung in die typischen Problemstellungen, mit denen Softwareentwickler und Administratoren konfrontiert sind, und wie diese mit Kubernetes gelöst werden können, lernen Sie in einem ersten Beispielprojekt die praktische Umsetzung. Es wird gezeigt, wie eine einfache in einem Container laufende Web-Applikation über ein Kubernetes-Cluster verwaltet werden kann. Im zweiten Teil des Buches lernen Sie die zu Grunde liegenden Konzepte kennen, deren Verständnis unbedingt notwendig ist, um große Container-Cluster mit Kubernetes zu betreiben. Im letzten Teil wird die Funktionsweise von Kubernetes beschrieben und auf weiterführende Aspekte eingegangen. Hier wird außerdem das erworbene Wissen aus den ersten beiden Teilen zusammengeführt, damit Sie den vollen Nutzen aus der Kubernetes-Plattform ziehen können.

Neo4j 2.0

Eine Graphdatenbank für alle
Author: Michael Hunger
Publisher: entwickler.Press
ISBN: 9783868021288
Category:
Page: 140
View: 9861
DOWNLOAD NOW »


Datenanalyse mit Python

Auswertung von Daten mit Pandas, NumPy und IPython
Author: Wes McKinney
Publisher: O'Reilly
ISBN: 3960102143
Category: Computers
Page: 542
View: 4027
DOWNLOAD NOW »
Erfahren Sie alles über das Manipulieren, Bereinigen, Verarbeiten und Aufbereiten von Datensätzen mit Python: Aktualisiert auf Python 3.6, zeigt Ihnen dieses konsequent praxisbezogene Buch anhand konkreter Fallbeispiele, wie Sie eine Vielzahl von typischen Datenanalyse-Problemen effektiv lösen. Gleichzeitig lernen Sie die neuesten Versionen von pandas, NumPy, IPython und Jupyter kennen. Geschrieben von Wes McKinney, dem Begründer des pandas-Projekts, bietet Datenanalyse mit Python einen praktischen Einstieg in die Data-Science-Tools von Python. Das Buch eignet sich sowohl für Datenanalysten, für die Python Neuland ist, als auch für Python-Programmierer, die sich in Data Science und Scientific Computing einarbeiten wollen. Daten und zugehöriges Material des Buchs sind auf GitHub verfügbar. Aus dem Inhalt: Nutzen Sie die IPython-Shell und Jupyter Notebook für das explorative Computing Lernen Sie Grundfunktionen und fortgeschrittene Features von NumPy kennen Setzen Sie die Datenanalyse-Tools der pandasBibliothek ein Verwenden Sie flexible Werkzeuge zum Laden, Bereinigen, Transformieren, Zusammenführen und Umformen von Daten Erstellen Sie interformative Visualisierungen mit matplotlib Wenden Sie die GroupBy-Mechanismen von pandas an, um Datensätzen zurechtzuschneiden, umzugestalten und zusammenzufassen Analysieren und manipulieren Sie verschiedenste Zeitreihen-Daten Für diese aktualisierte 2. Auflage wurde der gesamte Code an Python 3.6 und die neuesten Versionen der pandas-Bibliothek angepasst. Neu in dieser Auflage: Informationen zu fortgeschrittenen pandas-Tools sowie eine kurze Einführung in statsmodels und scikit-learn.

Data Science für Dummies


Author: Lillian Pierson
Publisher: John Wiley & Sons
ISBN: 352780675X
Category: Mathematics
Page: 382
View: 9826
DOWNLOAD NOW »
Daten, Daten, Daten? Sie haben schon Kenntnisse in Excel und Statistik, wissen aber noch nicht, wie all die Datensätze helfen sollen, bessere Entscheidungen zu treffen? Von Lillian Pierson bekommen Sie das dafür notwendige Handwerkszeug: Bauen Sie Ihre Kenntnisse in Statistik, Programmierung und Visualisierung aus. Nutzen Sie Python, R, SQL, Excel und KNIME. Zahlreiche Beispiele veranschaulichen die vorgestellten Methoden und Techniken. So können Sie die Erkenntnisse dieses Buches auf Ihre Daten übertragen und aus deren Analyse unmittelbare Schlüsse und Konsequenzen ziehen.

Einführung in Python


Author: Mark Lutz,David Ascher,Dinu C. Gherman
Publisher: O'Reilly Germany
ISBN: 3897214881
Category: Python (Computer program language)
Page: 624
View: 2713
DOWNLOAD NOW »


Master Data Management

Strategie, Organisation, Architektur
Author: Rolf Scheuch,Tom Gansor,Colette Ziller
Publisher: dpunkt.verlag
ISBN: 3864911664
Category: Computers
Page: 492
View: 4755
DOWNLOAD NOW »
Unternehmensdaten und deren Qualität und Verfügbarkeit werden mehr und mehr zu einem kritischen Erfolgsfaktor. Master Data Management (MDM) sorgt durch die strukturierte Bewirtschaftung und Qualitätssicherung für Orientierung und Übersicht im Datendschungel. Dieses Buch beschreibt MDM aus betriebswirtschaftlicher und technischer Sicht. Der Nutzen, das Einsatzgebiet und die Positionierung werden analysiert, um die Planung, Konzeption und Umsetzung solcher Lösungen zu realisieren. Auch auf die verschiedenen heute gängigen Ansätze mit ihren jeweiligen Stärken und Schwächen wird eingegangen.