© Copyright 2015 EMC Corporation. All rights reserved. 1
by user
Comments
Transcript
© Copyright 2015 EMC Corporation. All rights reserved. 1
© Copyright 2015 EMC Corporation. All rights reserved. 1 КОРПОРАТИВНОЕ "ОЗЕРО ДАННЫХ" НА СИСТЕМАХ EMC ISILON - ЭТО ПРОСТО!!!! МИХАИЛ ВЛАДИМИРОВ, ТЕХНИЧЕСКИЙ КОНСУЛЬТАНТ © Copyright 2015 EMC Corporation. All rights reserved. 2 21 ОКТЯБРЯ 2015 ГОД СПЕЦИАЛЬНЫЙ ВЫПУСК ГАЗЕТЫ ☺ © Copyright 2015 EMC Corporation. All rights reserved. 21 ОКТЯБРЯ 2015 ГОД? ОЖИДАНИЕ © Copyright 2015 EMC Corporation. All rights reserved. РЕАЛЬНОСТЬ НЕ УГАДАЛИ… © Copyright 2015 EMC Corporation. All rights reserved. РОСТ НЕСТРУКТУРИРОВАННЫХ ДАННЫХ Всего емкость % неструктурированных данных 80% 74% 67% 2013 2015 2017 37 EB 71 EB 133 EB Source: IDC Structured Versus Unstructured Data © Copyright 2015 EMC Corporation. All rights reserved. НОВЫЕ ИСТОЧНИКИ ДАННЫХ… Интернет вещей Тёмные данные © Copyright 2015 EMC Corporation. All rights reserved. Смартфоны Датчики Социальные сети Научные исследования Видеонаблюдение Медицинские изображения Новый подход к работе с данными 1980 Сегодня Оптимизация данных под расчёт Оптимизация расчётов под данные Compute Compute Data Compute Изолированные данные Data Data Compute Data © Copyright 2015 EMC Corporation. All rights reserved. Размер & сложность Единый пул данных ИТ ДЕПАРТАМЕНТ СОПРОВОЖДАЕТ ДВЕ РАЗЛИЧНЫЕ ПЛАТФОРМЫ Традиционные системы Стабильные и надёжные платформы для традиционных задач Source: Gartner © Copyright 2015 EMC Corporation. All rights reserved. Новый тип платформ Пластичная платформа для мгновенных изменений задач и требований Различные модели управления Домашний любимец Ферма PLATFORM 2 PLATFORM 3 © Copyright 2015 EMC Corporation. All rights reserved. МУЛЬТИ-ПРОТОКОЛЬНЫЙ ДОСТУП Общие файловые ресурсы ФАЙЛЫ Аналитика ФАЙЛЫ HPC-вычисления Резервное копирование/ архивирование © Copyright 2015 EMC Corporation. All rights reserved. Мобильные устройства Облачные приложения ФУНКЦИИ КОРПОРАТИВНОГО КЛАССА ЗАЩИТА ДАННЫХ БЕЗОПАСНОСТЬ ДАННЫХ © Copyright 2015 EMC Corporation. All rights reserved. Фундамент для «озера данных» УПРАВЛЕНИЕ ДАННЫМИ УПРАВЛЕНИЕ ПРОИЗВОДИТЕЛЬНОСТЬЮ ДАННЫЕ – ЭТО НОВАЯ НЕФТЬ… • Полный взгляд на данные • Взаимодополняющая экосистема инструментов • Безопасность данных - это не дополнительный, а основной функционал • Многогранный доступ к информации …А АНАЛИТИКА БОЛЬШИХ ДАННЫХ – НОВЫЙ ДВИГАТЕЛЬ © Copyright 2015 EMC Corporation. All rights reserved. 100 ПетаБайт 24,480 ДИСКОВ 351 ПАЛЛЕТА 8 ГРУЗОВИКОВ © Copyright 2015 EMC Corporation. All rights reserved. EMC Isilon Основные компоненты решения NFS/SMB HTTP Rest FTP HDFS для Hadoop Серверы Оборудование Уровень клиента/приложения © Copyright 2015 EMC Corporation. All rights reserved. Уровень передачи данных Одна файловая система/один том Клиенты Операционная среда OneFS Уровень связи внутри кластеров EMC ISILON Производительность СТРОИТЕЛЬНЫЕ БЛОКИ S-Series Задачи требовательные к операциям ввода/вывода Линейный рост производительности и ёмкости X-Series Гибкость и производительность для потоковых нагрузок NL-Series HD-Series Большой объем и низкая стоимость хранения Ёмкость © Copyright 2015 EMC Corporation. All rights reserved. Архивная платформа высокой плотности Простота и удобство использования ОДНА ФАЙЛОВАЯ СИСТЕМА Один том, одна файловая система – Каталоги и файлы распределяются между узлами кластера Автоматизация: – БЕЗ ручного вмешательства – БЕЗ повторной настройки – БЕЗ точек монтирования серверов или клиентов и без изменения приложений – БЕЗ миграции данных – БЕЗ RAID © Copyright 2015 EMC Corporation. All rights reserved. Высокая масштабируемость Уровень масштабируемости выше, чем у традиционных СХД Isilon масштабируется с 16 ТБ до 50 ПБ в кластере с одной файловой системой и одним томом Масштабирование менее чем за 60 секунд без простоев © Copyright 2015 EMC Corporation. All rights reserved. OneFS линейный рост производительности A Nodes Гибкий выбор Linear I/O Performance © Copyright 2015 EMC Corporation. All rights reserved. Эффективность – единая ФС, полезная емкость более 80% © Copyright 2015 EMC Corporation. All rights reserved. НЕПРЕВЗОЙДЕННАЯ ЗАЩИТА И ДОСТУПНОСТЬ ДАННЫХ С Сзащитой по схеме схемеN+2, N+1 защитой по 100% N+3 и N+4 100%обеспечивается данные полностьюдаже доступны ная доступность при даже при отказе нескольких отказе одного диска дисков узлов илиили узла По мере увеличения количества узлов в кластере Isilon ускоряется восстановление избыточности данных на дисках © Copyright 2015 EMC Corporation. All rights reserved. 100% СБОЙ 100% 100% 100% 100% 100% СБОЙ 100% УНИКАЛЬНАЯ ИНТЕГРАЦИЯ С ВЕДУЩИМ ПО © Copyright 2015 EMC Corporation. All rights reserved. Structured vs. Unstructured Традиционные базы данных SQL: структурированная схема на запись row keys color shape timestamp row first red square HH:MM:SS row second blue round HH:MM:SS 1 Создание фиксированной схемы на запись 2 Загрузка данных 3 Запрос данных select ROW KEY, COLOR from … where ... Невозможно добавлять данные до того, как была row создана схема Для изменения схемы необходимо пересоздать всю таблицу При больших объёмах процесс пересоздания может занимать дни © Copyright 2015 EMC Corporation. All rights reserved. ... Structured vs. Unstructured Hadoop MapReduce – определяется только схема на чтение 1 Загрузка данных напрямую в HDFS 2 Запросы - map - shuffle - reduce © Copyright 2015 EMC Corporation. All rights reserved. file.csv & other.txt Плохие парни будут говорит, как надо делать © Copyright 2015 EMC Corporation. All rights reserved. Традиционная реализация Hadoop с агрегирующим уровнем NFS Compute Data Name node Node node Web Click data reply reply Decision Support Databases HTTP file node copy3 copy2 info file node copy2 copy3 info Landing Zone Servers CIFS FTP info HDFS node file info copy3 copy2 NFS OLAP EDW node file file Step 1: Данные копируются в Промежуточную СХД (RAID 10? RAID6?) © Copyright 2015 EMC Corporation. All rights reserved. Step 2: Данные копируются в кластер 3x Mirroring? 3X node file info copy2 copy3 MAP Reduce MAP Reduce MAP Reduce MAP Reduce MAP Reduce MAP Reduce MAP Reduce MAP Reduce MAP Reduce Step 3: Обработка запросов Хадупа Альтернативный подход © Copyright 2015 EMC Corporation. All rights reserved. HDFS: Интеграция между Isilon и Hadoop NFS Web Click data Hadoop Cluster Step 2: Запускаем расчёты Decision Support Databases OLAP info name node name node name node EDW Step 1: Первоначальная информация записывается на Isilon/Hadoop Cluster © Copyright 2015 EMC Corporation. All rights reserved. MAP Reduce MAP Reduce MAP Reduce MAP Reduce data node SMB, NFS, HTTP, FTP, HDFS node info node info node info node name node Isilon HDFS: Интеграция Isilon и vHadoop Node reply NameNode Data NFS SMB Apache SMB NFS © Copyright 2015 EMC Corporation. All rights reserved. name node name node name node data node SMB, NFS, HTTP, FTP, SWIFT name node HDFS IDC - ТЕСТИРОВАНИЕ ПРОИЗВОДИТЕЛЬНОСТИ Runtime [s] 1,5x faster 3000 2500 2,6x faster 2000 1,5x faster 1500 Isilon DAS Cluster 1000 Isilon: 4x x410 Nodes + 7 Compute Nodes 500 DAS: 7x (Compute+DAS Nodes) 0 TeraGen TeraSort TeraValidate https://www.emc.com/collateral/analyst-reports/isd707-ar-idc-isilon-scale-out-datalakefoundation.pdf © Copyright 2015 EMC Corporation. All rights reserved. ESG ТЕСТИРОВАНИЕ ПРОИЗВОДИТЕЛЬНОСТИ © Copyright 2015 EMC Corporation. All rights reserved. РЕШЕНИЕ ПРОБЛЕМ ИМПОРТА/ЭКСПОРТА ДАННЫХ Результаты89.3 Минуты! Традиционный Hadoop+ DAS 20:50 17:32 Виртуальный Hadoop + Isilon 30:18 20:50 Преимущества • • Без перемещения данных Идеально для виртуализации Terasort Test on 1TB 18:51 © Copyright 2015 EMC Corporation. All rights reserved. MB/s Per Node Compute Min TTR Min DAS Isilon Benefit 55.00 30.18 89.30 85.00 18.51 18.51 55% -39% -79% Человеческие методы работы в Hadoop = © Copyright 2015 EMC Corporation. All rights reserved. Что же такое Pivotal HAWQ ? Массировано параллельный Hadoop с SQL Query HAWQ Мастер Parser Query Optimizer Local TM Dispatch Query Executor PXF JDBC/ODBC Network Interconnect SQL 1 Parser конвертирует запрос SQL 2 PXF указывает на файл в HDFS для обработки запроса 3 Вычислительный узел обрабатывает свою часть запроса © Copyright 2015 EMC Corporation. All rights reserved. HAWQ Вычислитель HAWQ Segment Host HAWQ Segment Host Query Executor Query Executor Query Executor PXF PXF PXF Files Высокоуровневая архитектура Уровень вычисления HAWQ Master Уровень хранения Name Node HAWQ Segment HAWQ Segment Job Tracker Task Tracker Data Node HDFS Ethernet © Copyright 2015 EMC Corporation. All rights reserved. Дистрибутивы Hadoop - Список совместимости https://support.emc.com/docu44518_Isilon-Supportability-and-Compatibility-Guide.pdf?language=en_US © Copyright 2015 EMC Corporation. All rights reserved. Бизнес Аналитика с EMC Isilon – Это просто !!!! Три простых шага: Делай раз: Бесплатная триальная комьюнити версия Pivotal PHD или Cloudera CDH, чтобы ощутить силу Hadoop (https://network.pivotal.io/products/pivotal-hd) Делай два: Hadoop Starter Kit (HSK), чтобы получить подробные инструкции как развернуть Хадуп за час на ISILON и платформе Vmware (https://community.emc.com/docs/DOC-26892) Делай три: Виртуальный EMC Isilon – доступен для свободного скачивания http://emc.com/getisilon + бесплатная триальная лицензия HDFS (необходимо запросить в EMC) © Copyright 2015 EMC Corporation. All rights reserved. Заключение Консолидация от аналитики до облака vHadoop Преимущества – – – – – Универсальный доступ (NFS, SMB, SWIFT, HDFS) Производительность Эффективность Отказоустойчивость Масштабируемость © Copyright 2015 EMC Corporation. All rights reserved. © Copyright 2015 EMC Corporation. All rights reserved.