�x���¹�������ֱ�ӳ���
�gӭ���R�ЈD�W(w��ng) Ո | ע��

���] Hadoop��(g��u)����(sh��)��(j��)�}�쌍�`

���ߣ���ѩӭ��
�����磺���A��W(xu��)����������r�g��2017-07-01
�_���� 32�_ 퓔�(sh��)�� 434
�� �D �r:¥58.9(6.6��) ���r  ¥89.0 ��䛺�ɿ������T�r
����ُ��܇ �ղ�
�_������ ȫ�����]
?�½������س���
������Ǖ�����>
�I�^����Ʒ����߀�I��

Hadoop��(g��u)����(sh��)��(j��)�}�쌍�` ���(qu��n)��Ϣ

Hadoop��(g��u)����(sh��)��(j��)�}�쌍�` ������ɫ

�����v�������еĴ�(sh��)��(j��)�ֲ�ʽ�惦��Ӌ��ƽ�_Hadoop���O(sh��)Ӌ���F(xi��n)��(sh��)��(j��)�}���������y(t��ng)��(sh��)��(j��)�}�콨ģ�cSQL�_�l(f��)�ĺ������c��(sh��)��(j��)���g(sh��)��Y(ji��)�ϣ���������Ч�ؽ����ɔU(ku��)չ�Ĕ�(sh��)��(j��)�}�켰�䑪(y��ng)��ϵ�y(t��ng)�� ������(n��i)�ݰ�����(sh��)��(j��)�}�졢Hadoop�������B(t��i)Ȧ�����P(gu��n)������ʹ��Sqoop���P(gu��n)ϵ��(sh��)��(j��)��ȫ����������ȡ��(sh��)��(j��)��ʹ��HIVE�M(j��n)�Д�(sh��)��(j��)�D(zhu��n)�Q���b�d̎����ʹ��Oozie�{(di��o)�����I(y��)�����Ԉ�(zh��)�У�ʹ��Impala�M(j��n)�п���“(li��n)�C(j��)��(sh��)��(j��)������ʹ��Hue����(sh��)��(j��)��ҕ�����Լ���(sh��)��(j��)�}���еĝu׃�S��SCD���������I����ɫ���ݾS�����ӴξS�����˻��S�ȡ��o�Œ����Œ������t�����Œ����۷e�Ķ����ȳ�Ҋ���}��Hadoop�ϵ�̎������ �����m�ϔ�(sh��)��(j��)�����T����(sh��)��(j��)���g(sh��)�ˆT��Hadoop���g(sh��)�ˆT����(sh��)��(j��)�}�켼�g(sh��)�ˆT��Ҳ�m�ϸߵ�ԺУ����Ӗ(x��n)�C(j��)��(g��u)���P(gu��n)���I(y��)�Ď����̌W(xu��)������

Hadoop��(g��u)����(sh��)��(j��)�}�쌍�` ��(n��i)�ݺ���

������13������Ҫ��(n��i)�ݰ�����(sh��)��(j��)�}����Hadoop�������B(t��i)Ȧ�����P(gu��n)������ʹ��Sqoop���P(gu��n)ϵ��(sh��)��(j��)��ȫ����������ȡ��(sh��)��(j��)��ʹ��Hive�M(j��n)�Д�(sh��)��(j��)�D(zhu��n)�Q���b�d̎����ʹ��Oozie�{(di��o)�����I(y��)�����Ԉ�(zh��)����ʹ��Impala�M(j��n)�п���“(li��n)�C(j��)��(sh��)��(j��)������ʹ��Hue����(sh��)��(j��)��ҕ�����Լ���(sh��)��(j��)�}���еĝu׃�S��SCD���������I����ɫ���ݾS�����ӴξS�ȡ��˻��S�����o�Œ����Œ������t�����Œ����۷e�Ķ����ȳ�Ҋ���}��Hadoop�ϵ�̎���ȡ������m�ϔ�(sh��)��(j��)�����T����(sh��)��(j��)���g(sh��)�ˆT��Hadoop���g(sh��)�ˆT����(sh��)��(j��)�}�켼�g(sh��)�ˆT��Ҳ�m�ϸߵ�ԺУ����Ӗ(x��n)�W(xu��)У���P(gu��n)���I(y��)�Ď����̌W(xu��)������

Hadoop��(g��u)����(sh��)��(j��)�}�쌍�` Ŀ�

Ŀ � ��1�� ��(sh��)��(j��)�}�캆�� 1.1 ʲô�ǔ�(sh��)��(j��)�}�� 1 1.1.1 ��(sh��)��(j��)�}��Ķ��x 1 1.1.2 ������(sh��)��(j��)�}���ԭ�� 3 1.2 ������ϵ�y(t��ng)�c������ϵ�y(t��ng) 5 1.2.1 ������ϵ�y(t��ng) 5 1.2.2 ������ϵ�y(t��ng) 8 1.2.3 ������ϵ�y(t��ng)�ͷ�����ϵ�y(t��ng)���� 9 1.3 ��(sh��)��(j��)�}��ܘ�(g��u) 10 1.3.1 �����ܘ�(g��u) 10 1.3.2 ��Ҫ��(sh��)��(j��)�}��ܘ�(g��u) 12 1.3.3 ������(sh��)��(j��)�惦 16 1.4 ��ȡ-�D(zhu��n)�Q-�b�d 17 1.4.1 ��(sh��)��(j��)��ȡ 17 1.4.2 ��(sh��)��(j��)�D(zhu��n)�Q 19 1.4.3 ��(sh��)��(j��)�b�d 20 1.4.4 �_�l(f��)ETLϵ�y(t��ng)�ķ��� 21 1.4.5 ��ҊETL���� 21 1.5 ��(sh��)��(j��)�}������ 22 1.5.1 �������� 22 1.5.2 ��(sh��)��(j��)���� 23 1.6 С�Y(ji��) 24 ��2�� ��(sh��)��(j��)�}���O(sh��)Ӌ���A(ch��) 2.1 �P(gu��n)ϵ��(sh��)��(j��)ģ�� 25 2.1.1 �P(gu��n)ϵ��(sh��)��(j��)ģ���еĽY(ji��)��(g��u) 25 2.1.2 �P(gu��n)ϵ������ 28 2.1.3 Ҏ(gu��)���� 30 2.1.4 �P(gu��n)ϵ��(sh��)��(j��)ģ���c��(sh��)��(j��)�}�� 33 2.2 �S�Ȕ�(sh��)��(j��)ģ�� 34 2.2.1 �S�Ȕ�(sh��)��(j��)ģ�ͽ�ģ�^�� 35 2.2.2 �S��Ҏ(gu��)���� 36 2.2.3 �S�Ȕ�(sh��)��(j��)ģ�͵����c 37 2.2.4 ����ģʽ 38 2.2.5 ѩ��ģʽ 40 2.3 Data Vaultģ�� 42 2.3.1 Data Vaultģ�ͺ��� 42 2.3.2 Data Vaultģ�͵ĽM�ɲ��� 43 2.3.3 Data Vaultģ�͵����c 44 2.3.4 Data Vaultģ�͵Ę�(g��u)�� 44 2.3.5 Data Vaultģ�͌��� 46 2.4 ��(sh��)��(j��)���� 49 2.4.1 ��(sh��)��(j��)���еĸ��� 50 2.4.2 ��(sh��)��(j��)�����c��(sh��)��(j��)�}��ą^(q��)�e 50 2.4.3 ��(sh��)��(j��)�����O(sh��)Ӌ 50 2.5 ��(sh��)��(j��)�}�쌍ʩ���E 51 2.6 С�Y(ji��) 54 ��3�� Hadoop���B(t��i)Ȧ�c��(sh��)��(j��)�}�� 3.1 ��(sh��)��(j��)���x 55 3.2 Hadoop���� 56 3.2.1 Hadoop�Ę�(g��u)�� 57 3.2.2 Hadoop����Ҫ���c 58 3.2.3 Hadoop�ܘ�(g��u) 58 3.3 Hadoop�����M�� 59 3.3.1 HDFS 60 3.3.2 MapReduce 65 3.3.3 YARN 72 3.4 Hadoop���B(t��i)Ȧ�������M�� 77 3.5 Hadoop�c��(sh��)��(j��)�}�� 81 3.5.1 �P(gu��n)ϵ��(sh��)��(j��)��ĿɔU(ku��)չ��ƿ�i 82 3.5.2 CAP��Փ 84 3.5.3 Hadoop��(sh��)��(j��)�}�칤�� 85 3.6 С�Y(ji��) 88 ��4�� ���bHadoop 4.1 Hadoop��Ҫ�l(f��)�а汾 89 4.1.1 Cloudera Distribution for Hadoop��CDH�� 89 4.1.2 Hortonworks Data Platform��HDP�� 90 4.1.3 MapR Hadoop 90 4.2 ���bApache Hadoop 91 4.2.1 ���b�h(hu��n)�� 91 4.2.2 ���bǰ��(zh��n)�� 92 4.2.3 ���b����Hadoop 93 4.2.4 ���b������ 97 4.2.5 ��ʼ�����\(y��n)�� 97 4.3 ����HDFS Federation 99 4.4 �x�����bCDH��������ķ���(w��) 104 4.4.1 CDH���b���� 104 4.4.2 ���b�h(hu��n)�� 106 4.4.3 ���b���� 106 4.4.4 Cloudera Manager�S���C���� 114 4.5 С�Y(ji��) 115 ��5�� Kettle�cHadoop 5.1 Kettle���� 117 5.2 Kettle�B��Hadoop 119 5.2.1 �B��HDFS 119 5.2.2 �B��Hive 124 5.3 ��(d��o)����(d��o)��Hadoop��Ⱥ��(sh��)��(j��) 128 5.3.1 �є�(sh��)��(j��)��HDFS��ȡ��RDBMS 128 5.3.2 ��Hive�팧(d��o)�딵(sh��)��(j��) 132 5.4 ��(zh��)��Hive��HiveQL�Z�� 134 5.5 MapReduce�D(zhu��n)�Qʾ�� 135 5.6 Kettle�ύSpark���I(y��) 143 5.6.1 ���bSpark 143 5.6.2 ����Kettle��Spark��Ⱥ�ύ���I(y��) 146 5.7 С�Y(ji��) 149 ��6�� ������(sh��)��(j��)�}��ʾ��ģ�� 6.1 �I(y��)��(w��)���� 150 6.2 Hive���P(gu��n)���� 152 6.2.1 �x���ļ���ʽ 152 6.2.2 ֧���м����� 159 6.2.3 Hive�„�(w��)֧�ֵ����� 164 6.3 Hive����� 164 6.4 ��Hive���b�d��(sh��)��(j��) 169 6.5 ������(sh��)��(j��)��� 174 6.6 �b�d���ھS�Ȕ�(sh��)��(j��) 179 6.7 С�Y(ji��) 180 ��7�� ��(sh��)��(j��)��ȡ 7.1 ߉݋��(sh��)��(j��)ӳ�� 182 7.2 ��(sh��)��(j��)��ȡ��ʽ 185 7.3 ��(d��o)�����ı��ļ� 191 7.4 �ֲ�ʽ��ԃ 196 7.5 ʹ��Sqoop��ȡ��(sh��)��(j��) 200 7.5.1 Sqoop���� 200 7.5.2 CDH 5.7.0�е�Sqoop 203 7.5.3 ʹ��Sqoop��ȡ��(sh��)��(j��) 203 7.5.4 Sqoop��(y��u)�� 207 7.6 С�Y(ji��) 208 ��8�� ��(sh��)��(j��)�D(zhu��n)�Q�c�b�d 8.1 ��(sh��)��(j��)��ϴ 210 8.2 Hive���� 214 8.2.1 Hive���wϵ�Y(ji��)��(g��u) 215 8.2.2 Hive�Ĺ������� 216 8.2.3 Hive����(w��)�� 218 8.2.4 Hive�͑��� 221 8.3 ��ʼ�b�d 231 8.4 �����b�d 236 8.5 Hive��(y��u)�� 246 8.6 С�Y(ji��) 254 ��9�� �����Ԅӈ�(zh��)��ETL���I(y��) 9.1 crontab 256 9.2 Oozie���� 260 9.2.1 Oozie���wϵ�Y(ji��)��(g��u) 260 9.2.2 CDH 5.7.0�е�Oozie 262 9.3 ���������b�d������ 262 9.4 �����f(xi��)�{(di��o)�����I(y��)�����Ԅӈ�(zh��)�й����� 271 9.5 Oozie��(y��u)�� 275 9.6 С�Y(ji��) 276 ��10�� �S�ȱ����g(sh��) 10.1 ������ 278 10.2 �S���Ӽ� 285 10.3 ��ɫ���ݾS�� 292 10.4 �ӴξS�� 298 10.4.1 �̶���ȵČӴ� 299 10.4.2 �f�w 302 10.4.3 ��·���Ӵ� 310 10.4.4 ����R�ČӴ� 312 10.5 �˻��S�� 313 10.6 �s헾S�� 316 10.7 �S�Ⱥϲ� 323 10.8 �ֶξS�� 329 10.9 С�Y(ji��) 335 ��11�� �Œ������g(sh��) 11.1 �Œ������� 336 11.2 ���ڿ��� 337 11.3 �۷e���� 343 11.4 �o�Œ����Œ��� 349 11.5 �t�����Œ� 354 11.6 �۷e���� 360 11.7 С�Y(ji��) 366 ��12�� “(li��n)�C(j��)����̎�� 12.1 “(li��n)�C(j��)����̎������ 367 12.1.1 ���� 367 12.1.2 ��� 368 12.1.3 ���� 371 12.2 Impala���� 371 12.3 Hive��SparkSQL��Impala���^ 377 12.3.1 Spark SQL���� 377 12.3.2 Hive��Spark SQL��Impala���^ 379 12.3.3 Hive��Spark SQL��Impala���܌��� 382 12.4 “(li��n)�C(j��)����̎�팍�� 387 12.5 Apache Kylin�cOLAP 399 12.5.1 Apache Kylin�ܘ�(g��u) 399 12.5.2 Apache Kylin���b 401 12.6 С�Y(ji��) 407 ��13�� ��(sh��)��(j��)��ҕ�� 13.1 ��(sh��)��(j��)��ҕ������ 408 13.2 Hue���� 410 13.2.1 Hue���ܿ����A(y��)�[ 411 13.2.2 ����Ԫ��(sh��)��(j��)�惦 412 13.3 Zeppelin���� 415 13.3.1 Zeppelin�ܘ�(g��u) 415 13.3.2 Zeppelin���b���� 416 13.3.3 ��Zeppelin������MySQL���g�� 421 13.4 Hue��Zeppelin���^ 425 13.5 ��(sh��)��(j��)��ҕ������ 426 13.6 С�Y(ji��) 434
չ�_ȫ��

Hadoop��(g��u)����(sh��)��(j��)�}�쌍�` ���ߺ���

��ѩӭ �����I(y��)���Ї����|(zh��)��W(xu��)Ӌ��C(j��)���I(y��)���߼����̎�������20�ꔵ(sh��)��(j��)������(sh��)��(j��)�}�����P(gu��n)���g(sh��)��(j��ng)򞡣���Ⱥ�š�ڱ����F(xi��n)���̘I(y��)��Ϣ���g(sh��)���޹�˾�������ھ�������Ϣ���g(sh��)����(w��)���޹�˾���A��Ӌ�㼼�g(sh��)�о�����������(y��u)ؐ�ھ��W(w��ng)�j(lu��)�Ƽ����޹�˾����(d��n)��DBA����(sh��)��(j��)�ܘ�(g��u)����šλ��

��Ʒ�uՓ(0�l)
���o�uՓ����
�������]
��݋���]
����픲�
�ЈD�W(w��ng)
�ھ��ͷ�