UrbanistaCH_Button

The Blog


Datensatz herunterladen

Ein aggregiertes Dataset, das aus der World Values Survey berechnet wird und die kulturelle Nähe von Ländern über zwei Dimensionen und für verschiedene Zeiträume misst. Ein kleiner, aber interessanter Datensatz. Dieser wird wahrscheinlich wertvoller für diejenigen sein, die sich an Machine Learning-Projekten versuchen möchten. Wenn Sie an ML-Projekt arbeiten, müssen Sie Datensätze bereinigen, um eine Spalte mithilfe von Informationen aus den anderen Spalten eines Datensatzes vorherzusagen. Eigentlich braucht eine solche Aktion viel Zeit, wenn man es selbst macht. Unsere interaktiven, geführten Projekte bei Dataquest sollen Ihnen helfen, ein Data Science-Portfolio aufzubauen, um Arbeitgebern Ihre Fähigkeiten zu demonstrieren und einen Job in Daten zu erhalten. Wenn Sie interessiert sind, können Sie sich anmelden und kostenlos mit dem Lernen beginnen! Amazon stellt große Datensätze auf seiner Amazon Web Services-Plattform zur Verfügung. Sie können die Daten herunterladen und auf Ihrem eigenen Computer bearbeiten oder die Daten in der Cloud mit EC2 und Hadoop über EMR analysieren. Verwenden Sie diese Websites, auf die Sie sich bei der Arbeit an datenzentrierten Projekten verlassen können. Ein Großteil davon ist kostenlos verfügbar – entweder durch einen Testzeitraum oder durch einen völlig offenen Zugang. Es ist die einfachste Gelegenheit, Erfahrungen zu sammeln, also jetzt sind Sie an der Reihe, einfach nur zu knacken und alles richtig zu machen.

UCI Machine Learning Repository ist eindeutig das bekannteste Daten-Repository. Es ist in der Regel der erste Ort zu gehen, wenn Sie nach Datensätzen im Zusammenhang mit Machine Learning-Repositorys suchen. Die Datensätze umfassen eine Vielzahl von Datensätzen, von beliebten Datensätzen wie Iris und Titanic Survival bis hin zu aktuellen Beiträgen wie luftqualität und GPS-Trajektorien. Das Repository enthält mehr als 350 Datensätze mit Bezeichnungen wie Domäne, der Zweck des Problems (Klassifizierung / Regression). Sie können diese Filter verwenden, um gute Datasets für Ihre Bedürfnisse zu identifizieren. Brauchen Sie mehr? Schauen Sie sich unsere Liste der kostenlosen Data Mining-Tools an. Ein weiterer großartiger Ort, um kostenlose Datensätze zu finden. Insgesamt ist Kaggle die multifunktionale Website oder es ist besser, sie als bekannte „Data-Science-Community“ zu bezeichnen, die nicht nur eine Vielzahl von extern geteilten interessanten Datensätzen bietet, sondern auch Materialien für den Erwerb neuer Kenntnisse und praktische Fähigkeiten. Indem Benutzer Code mit anderen teilen können, bietet Kaggle bewährte Methoden für das Lernen im Datenbereich. Erstaunliche Combo, nicht wahr? Das UCI Machine Learning Repository ist eine der ältesten Datenquellen im Web. Obwohl die Datensätze vom Benutzer beigesteuert werden und somit unterschiedliche Dokumentations- und Sauberkeitsniveaus aufweisen, ist die überwiegende Mehrheit sauber und bereit für maschinelles Lernen.

UCI ist eine große erste Station bei der Suche nach interessanten Datensätzen. Quantopian ist eine Website, auf der Sie Aktienhandelsalgorithmen entwickeln, testen und optimieren können. Um Ihnen dabei zu helfen, bietet Ihnen die Website Zugriff auf kostenlose Minuten-für-Minute-Aktienkursdaten, die Sie verwenden können, um einen Aktienkursvorhersagealgorithmus zu erstellen. Diese Datensätze könnten interessanter sein, da weniger (oder keine) Visualisierungen noch online verfügbar sind, und sie können zu interessanten Erkenntnissen führen. Laden Sie die Liste der Variablen und Länder im Dataset herunter. Wenn Sie ein Data Science-Projekt erstellen, ist es sehr üblich, einen Datensatz herunterzuladen und dann zu verarbeiten. Andere Daten pro Land und Jahr können von Gapminder heruntergeladen werden, wie Z. B. Stromerzeugung pro Person, Alkoholkonsum, Flugunfälle und klassischere Maßnahmen wie bip.

Sie können möglicherweise mehrere Indikatoren kombinieren. Sie müssen jedoch eine Nuance über diese Website im Auge behalten. Es gibt eine schlechte Materialkuration, was bedeutet, dass Sie das, was verfügbar ist, sortieren müssen, um Daten zu finden, die bereinigen und aktuell sind.