有哪些好的数据分析、大数据、数据挖掘的网站或数据学习网站?

网站推荐 2年前 (2022) 作者:
113 0 0

 

接下来我要推荐的是一个完整的学习路线图,不仅仅包括了学习目标,同时也附带了学习网站以及资料,基本上可以在20周内学完。

为什么这次我没有列举网站,因为如果只是简单的列举学习网站,我可以列举100个以上,真不夸张。

python的学习网站得有10个以上吧,统计学再来10个,数据可视化10个,机器学习我能列出来几十个!

但是这样没用,因为根本无法形成系统的学习路线,小白看了一大堆网站往往直接被劝退了。

所以我非常推崇学习路线图,这一周学习A,接下来学习B,承上启下,循序渐进的进行学习才是最合理的方式。

大纲-数据分析学习路线图(方法+目标+资料+网站)

数学分析很多人学不下去的原因有很多,但主要的就是数据分析需要掌握的知识很多,又很杂,其他原因请对号入座:

  • 对要学习的主题缺乏明确性
  • 没有单一的资源/平台可以很好地学习有关数据科学的一切。
  • 互联网上有大量资源,但很难去选择最适合自己的
  • 很容易迷失在细节中
  • 很难把控学习进度

这篇文章结合了medium的一个帖子,目的就是让小白可以更好的规划自己的数据分析学习。切记,时间划分要结合自己的背景和经验。

!每个分类主题都包含了免费的学习资料

基础很差的同学,可以考虑知乎开设的这门数据分析课,跟着学几天,看自己到底读不对数据分析感兴趣,毕竟兴趣是最好的老师。

 

第 1 周到第 3 周——Python 编程

学习数据科学的第一步是熟悉编程语言。根据最近的 Kaggle 调查,大约 80% 的人主要在工作中使用 Python。如果你是编程新手,那么强烈建议你直接用 Python。

在 Kaggle 中可以找到最好的 Python 入门课程之一。以下是课程链接。完成本入门课程大约需要 5 个小时。

kaggle.com/learn/python

你在数据科学项目中所做的几乎所有事情都涉及编程。从数据收集、数据读取、数据分析、提取特征、构建模型、评估性能和部署,每一步都必须用到编程技能。

强烈建议你花足够的时间熟悉 Python 的各种功能。python不像C++或者Java那么复杂,它相对来说很容易。对于很少或没有编码经验的人来说,大约 2 到 3 周会比较好。

学习python时要关注的关键主题是,

  • 基本语法
  • 集合数据类型 Collection
  • 控制流 if/while等
  • 循环和迭代
  • 函数和 lambda 函数

我也写了一个python的入学回答,有兴趣也可以参考一下: 毫无基础的人如何入门 Python ?

第 4 周到第 6 周——处理数据

任何数据科学项目的第一步都是从数据的角度理解问题。你获得的数据永远不会是完美的。你也可以把这一步理解为数据清洗。能够处理数据最重要的 Python 库是 Pandas

Pandas 库提供了很多功能,可以让数据分析变得非常简单。如果你是 Python 或 Pandas 的新手,请从 PyData 的这个简单的 10 分钟教程开始。

pandas.pydata.org/docs/

一旦你熟悉了基本的功能,那么这里是 Kaggle 的一个短期课程,最好的学习方式就是实践,处理数据集来学习 Pandas可以让你很快的入门。

kaggle.com/learn/pandas

Pandas 这种工具必须得多用,用的越多越熟练。你可以在 Kaggle 上选择一个有趣的数据集,每个数据集都有很多有趣的问题,你可以试着用学到的技巧去处理数据并获得这些问题的答案。

挑选一个有趣的数据集很重要,它可以让你保持足够高的兴趣,这对学习有很大帮助。

例如,如果你对房价感兴趣,则选择房价数据集。列出一系列的问题。比如说:

  • 房产的平均价格是多少?
  • 房产的平均年龄是多少?
  • 随着房产的老化,它会影响整体价格吗?
  • 哪些因素推动房价上涨?

为了处理以上的问题,你需要以下的pandas知识:

  • 创建、读取和写入数据
  • 选择和分配
  • 聚合和分组
  • 处理缺失数据
  • 合并来自不同来源的数据
  • 摘要、交叉表和数据透视功能

数据集的选择可以从易到难,从小到大,直到把所有的pandas基础功能都达到非常熟悉的程度。

第 7 周到第 9 周——使用数组

NumPy 是一个能够高效处理数组的库。很多时候,我们需要处理可能是多维的数组。NumPy 有助于提高计算速度并有效利用内存。它支持许多数学函数操作。不仅如此,它还被用于许多其他 Python 包,如 Pandas、Matplotlib、scikit-learn 等。

如果你是一个新手,那么下面的文章将有助于更好地理解 NumPy、执行的操作、流行的功能以及输入到结果的可视化表示。

numpy.org/devdocs/user/

zhuanlan.zhihu.com/p/39

在许多数据科学项目中,我们会处理数值数据。非数值数据通常也会转换为数值数据。比如说,性别有男和女,那么直接处理男和女是很麻烦的,在这种情况下,我们通常用会01来指代男和女。

因此,学习使用 NumPy 对任何热衷于进入数据科学的人来说都是至关重要的。了解 NumPy 的关键主题是,

  • 创建 1、2 和 3 维数组
  • 索引、切片、连接和拆分
  • 迭代和操作
  • 排序、搜索和过滤
  • 数学和统计运算

第 10 周——学习数据可视化

这个很好理解,图表更方便人们去理解一个结论,它既直观又能包含足够多的信息量。

有哪些好的数据分析、大数据、数据挖掘的网站或数据学习网站?

人类更擅长从视觉数据中识别模式和趋势。数据的可视化是数据分析中必须的一步。

Python有许多支持可视化的包和库,python的话我建议以下两个就足够了。

  • Matplotlib——高度可定制的
  • Seaborn — 不是可定制的,但构建视觉效果非常简单快捷,是数据分析的好选择

matplotlib官方教程:matplotlib.org.cn/

Seaborn官方教程:seaborn.apachecn.org/#

第 11 周到第 12 周——统计学

统计学应用会用于数据科学项目的每个阶段。描述性统计有助于更好地理解数据并对其进行总结以便于理解。

推论统计对于提取无法通过其他方式识别的见解非常有用。

学习统计学时要理解的一件重要事情是。这不是一个可以在几周学完的东西,因为统计学的内容一个4年的本科+3年的硕士可能都学不完。

你的目标应该是学习到足够启动的知识,用到什么学什么!!!。以下的基础知识一定要学:

  • 描述性和推论性统计概念
  • 数据分布类型
  • 中心极限定理和误差范围
  • 置信区间和置信水平
  • 因果关系
  • 统计检验

可汗学院的以下课程是数据科学统计学入门的好课程

khanacademy.org/math/st

当然书籍也是我推荐的,因为统计这部分真的非常需要系统化,就下面这本书,非常建议看一遍:

有哪些好的数据分析、大数据、数据挖掘的网站或数据学习网站?

第 13 周到第 15 周——学习 SQL

SQL 是数据科学从业者所需的最重要技能之一

我发现很多数据分析相关职业平时的大部分工作其实就是使用sql,就算是叫SQL工程师其实也没啥错,可想而知,sql的重要性。

菜鸟的sql教程就不错,可以作为入门课程:

runoob.com/sql/sql-tuto

进阶版本的sql学习课程可以参考kaggle的这门课程:

kaggle.com/learn/advanc

下面是一些经常使用的 SQL 知识,

  • 选择分布在不同表中的数据
  • 过滤所需的数据集
  • 将数据聚合到所需的粒度
  • 使用 Rank() 和 Row_Num() 从特定序列中选择记录
  • 将复杂查询分解为子查询

第 16 周到第 20 周——学习数据分析和特征工程

接下来的重头戏数据分析和特征工程。在任何数据科学项目中,超过半数的时间都将花在数据分析上。在处理预测问题时,特征工程有助于提高准确性。

我在这里推荐一个coursera上面的课程,是由南大的教授出品的:

coursera.org/learn/pyth

推荐理由是中文课程,方便大家理解。

数据分析和特征工程技能不能仅仅通过网上课程来学习。课程学到的都是概念,只有通过不停的在数据上练习才能正儿八经的掌握这些知识。

那么实际项目我非常建议大家试试这个《a collection of data science take home challenge》,这里面包含了20道真实的数据分析面试题,既有数据还有题目。在github还有很多完整的解答方法,非常建议大家都熟练掌握。

总结:

虽然我没有一个个的列举网站或者学习资料,但实际上每个小标题里都有2-3个学习资料链接,加起来也有20个左右,我建议大家跟着这个学习路线图来试着学习一下,从最简单的python编程开始,到最后的真实数据面试题目挑战,我相信大家可以在半年左右的时间内基本的掌握这门技术。

当然了,半年时间对于大多数人还是挺难的,特别是不知道自己到底适不适合学习数据分析的同学,我建议想要简单了解数据分析流程的同学,可以试着听一下知乎出品的这门数据分析课程,0.1元,买不了吃亏买不了上当。

 

注: 本文参考文章来源为medium。

 

文章由:知乎作者:编写

暂无评论

暂无评论...
版权声明:本文内容由互联网用户自发贡献或者转载,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 210093010@qq.com 举报,一经查实,本站将立刻删除。