Необходимо зарегистрироваться, чтобы получить доступ к полным текстам статей и выпусков журналов!
- Название статьи
- ПРОЕКТИРОВАНИЕ ХРАНИЛИЩА ДАННЫХ ДЛЯ РЕШЕНИЯ ЗАДАЧ BIG DATA
- Авторы
- Голов Николай Игоревич ngolov@hse.ru, преподаватель кафедры "Бизнес-аналитика", Национальный исследовательский университет «Высшая школа экономики», Москва, Россия
Кравченко Татьяна Константиновна tkravchenko@hse.ru, д-р эконом. наук; профессор, заведующая кафедрой "Бизнес-аналитика", Национальный исследовательский университет «Высшая школа экономики», Москва, Россия
- В разделе
- ИННОВАЦИОННЫЕ ТЕХНОЛОГИИ В РЕШЕНИИ ЗАДАЧ УПРАВЛЕНИЯ
- Ключевые слова
- хранилище данных / ETL / Big Data
- Год
- 2014 номер журнала 1 Страницы 56 - 61
- Индекс УДК
- 681.3
- Код EDN
- Код DOI
- Тип статьи
- Научная статья
- Аннотация
- Показана проблема обработки Больших данных (Big Data), характеризующихся большим объемом, скоростью прироста информации и необходимостью обработки различных типов структурированных и полуструктурированных данных, которая в настоящее время является весьма актуальной. Приведены результаты научных исследований в части выбора методологии и программно-аппаратной платформы для построения хранилища данных, где объектом исследования выступает крупная интернет-компания. Обоснован выбор методологии построения хранилищ данных Anchor Modeling и СУБД HP Vertica как наиболее эффективного сочетания для построения Big Data хранилища. Предложено сочетание технологии СУБД Vertica и методологии Anchor Modeling, которые были применены на практике, что позволило построить хранилище данных, способное решать задачи анализа Big Data для одного из крупнейших интернет-порталов Рунета.
- Полный текст статьи
- Необходимо зарегистрироваться, чтобы получить доступ к полным текстам статей и выпусков журналов!
- Список цитируемой литературы
-
Моррисон Алан и др. Большие Данные: как извлечь из них информацию (рус.). Технологический прогноз. // Ежеквартальный журнал. Российское издание. 2010. Вып. 3. PricewaterhouseCoopers (17 декабря 2010).
Рейтинг порталов Рунета по количеству уникальных пользователей http://www.liveinternet.ru/rating/ru/
Choosing a MPP database is incredibly hard, http://dataddict.wordpress.com/2013/05/14/choosing-a-mpp-database-is-incredibly-hard/
Antony Rowstron, Dushyanth Narayanan, Austin Donnelly, Greg O'Shea, Andrew Douglas. Nobody ever got fired for using Hadoop on a cluster. HotCDP 2012, http://research.microsoft.com/apps/pubs/default.aspx?id=163083
MongoDB - The Leading NoSQL Database. http://www.mongodb.com/leading-nosql-database
HP Vertica, первый запущенный проект в РФ, опыт полтора года реальной эксплуатации. http://habrahabr.ru/post/190740/
Ralph Kimball, Margy Ross, Warren Thornthwaite, Joy Mundy, Bob Becker. The Data Warehouse Lifecycle Toolkit, 2nd edition. WILEY. Kimball Group. 2008.
William H. Inmon, Derek Strauss, Genia Neushloss. DW 2.0: The Architecture for the Next Generation of Data Warehousing. 2008.
Современные подходы к архитектуре хранилищ данных. Модель Data Vault. http://www.remmag.ru/admin/upload_data/remmag/10-3/ /Lanit.pdf
Anchor Modeling. http://www.anchormodeling.com/?page_id=2
Ross Margy, Kimball Ralph. Slowly Changing Dimensions Are Not Always as Easy as 1, 2, 3. Intelligent Enterprise. (March 1, 2005).
- Купить