Data Scientist tegen Data Engineer, wat is het verschil?

Dataspecialisten en data-ingenieurs zijn weliswaar nieuwe functietitels, maar belangrijke functies zijn er al een tijdje. Traditioneel wordt iedereen die gegevens analyseert een "data-analist" genoemd en wordt hij een "Business Intelligence (BI) Developer", die een backend-platform creëert om data-analyse te ondersteunen.

Met de komst van big data zijn er nieuwe gegevens ontstaan ​​in bedrijven en onderzoekscentra - datawetenschappers en data-ingenieurs.

Hier is een kort overzicht van de rol van Data Analyst, BI Programmer, Data Specialist en Data Engineer.

Data-analist

Gegevensanalisten zijn ervaren professionals met de mogelijkheid om gegevens in hun organisatie op te vragen en te verwerken, om gegevens te rapporteren, samen te vatten en te visualiseren. Ze weten hoe ze bestaande tools en technieken moeten gebruiken om problemen op te lossen en mensen in het hele bedrijf te helpen specifieke vragen te begrijpen met behulp van ad-hocrapporten en schema's.

Van hen wordt echter niet verwacht dat ze zich bezighouden met big data-analyse, en meestal wordt niet verwacht dat ze wiskundige of onderzoeksgegevens hebben om nieuwe algoritmen voor specifieke problemen te ontwikkelen.

Vaardigheden en tools: gegevensanalisten moeten basiskennis hebben van enkele basisvaardigheden: statistieken, gegevensverzameling, gegevensvisualisatie, gegevens zoeken, Microsoft Excel, SPSS, SPSS Modeler, SAS, SAS Miner, SQL, Microsoft Access, Tableau, SSAS.

Business Intelligence-ontwikkelaars

Business Intelligence Manufacturers zijn dataprofessionals die een nauwere relatie hebben met interne belanghebbenden om de rapportagebehoeften te begrijpen en vervolgens vereisten te verzamelen, BI- en bedrijfsrapportageoplossingen te creëren. Ze moeten nieuwe en bestaande databases, ETL-pakketten, kubussen, dashboards en analyserapporten ontwerpen, ontwikkelen en onderhouden.

Bovendien werken ze met cross- en multidimensionale databases en moeten ze uitgebreide vaardigheden hebben in het ontwikkelen van SQL om gegevens uit verschillende bronnen te integreren. Ze gebruiken al deze vaardigheden om aan de zelfbedieningsbehoeften van de onderneming te voldoen. Over het algemeen wordt niet verwacht dat een BI Producer data-analyse uitvoert.

Vaardigheden en tools: ETL, rapportverwerking, OLAP, kubussen, webintelligentie, bedrijfsobjectontwerp, Tableau, dashboardtools, SQL, SSAS, SSIS.

Informatie-ingenieur

Data-ingenieurs zijn data-specialisten die een 'big data'-infrastructuur voorbereiden die wordt geanalyseerd door data-specialisten. Het zijn software-ingenieurs die big data ontwerpen, bouwen, integreren en beheren vanuit verschillende bronnen. Vervolgens schrijven ze complexe query's, zorgen ze ervoor dat ze gemakkelijk toegankelijk zijn, soepel werken en hun doel is om de prestaties van het big data-ecosysteem van het bedrijf te optimaliseren.

Ze kunnen ook enkele ETL-programma's (Extract, Transform and Load) uitvoeren op grote datasets en grote databases maken die door datawetenschappers kunnen worden gebruikt voor rapportage of analyse. . Omdat Data Engineers meer gericht zijn op ontwerp en architectuur, verwachten ze meestal ook geen machine learning of analyse voor big data.

Vaardigheden en tools: Hadoop, MapReduce, Hive, Pig, MySQL, MongoDB, Cassandra, Data Flow, NoSQL, SQL, Programming.

Data wetenschapper

Data Scientist 21st Century Alchemist: Iemand die ruwe data omzet in verfijnde concepten. Datawetenschappers gebruiken analytische benaderingen om belangrijke problemen in de statistiek, machine learning en het bedrijfsleven op te lossen. Hun belangrijkste taak is om organisaties te helpen grote hoeveelheden big data om te zetten in waardevolle en effectieve inzichten.

In feite is data science geen compleet nieuwe richting, maar het kan worden gezien als een geavanceerd niveau van data-analyse dat wordt gecontroleerd en geautomatiseerd door machine learning en computerwetenschappen. Met andere woorden, datawetenschappers beschikken over sterke programmeervaardigheden, nieuwe algoritmen, big data-verwerking en domeinkennis, naast data-analyse, in vergelijking met "data-analisten". wordt verwacht.

Daarnaast wordt van Data Scientists verwacht dat ze de bevindingen van hun bevindingen interpreteren en vrijelijk delen met interessante verhalen over hoe ze te visualiseren, datatoepassingen te creëren of hun data (zakelijke) problemen op te lossen.

Probleemoplossende vaardigheden van gegevenswetenschappers vereisen inzicht in zowel traditionele als nieuwe technieken voor gegevensanalyse voor het bouwen van statistische modellen of het identificeren van patronen in gegevens. Voorbeelden zijn het maken van een verwijzingssysteem, beursvoorspelling, patiëntgebaseerde diagnose of het vinden van valse transacties.

Gegevens kunnen soms aan wetenschappers in het algemeen worden verstrekt als er geen zakelijk probleem is. In dit geval wordt van een nieuwsgierige gegevenswetenschapper verwacht dat hij de informatie bestudeert, de vragen vindt die u nodig heeft en interessante bevindingen levert! Dit is moeilijk, omdat sterke experts op het gebied van data-analyse erg gepassioneerd zijn over data-analyse, dataverzameling, statistieken en verschillende methoden in big data-infrastructuur. moet veel kennis hebben.

Ze moeten ervaring hebben met het werken met verschillende gegevenssets van verschillende groottes en vormen en hun algoritmen voor grootschalige gegevens effectief en efficiënt gebruiken, wat meestal betekent dat ze op de hoogte zijn van de nieuwste technologieën. Daarom is het belangrijk om de basis van informatica en programmeren te kennen, inclusief talen en database (grote / kleine) technologieën.

Vaardigheden en tools: Python, R, Scala, Apache Spark, Hadoop, tools en algoritmen voor het zoeken van gegevens, machine learning, statistieken.

MUORO - Genie voor gegevens en analyse muoro.io