Хранилища данных. Интеграция. Аналитика

Всё что нужно и ничего лишнего.

Fork me on GitHub

dwwiki: Курс ЦБ в рублях.

Суббота, 10 декабря 2016 года.

ВалютаКурс1 день30 дней360 дней
USD63.30- 0.09- 0.59- 7.53
GBP79.63- 0.45+ 0.31-27.69
EUR67.21- 1.04- 4.14-11.02

Лондонский золотой фиксинг:

Пятница, 9 декабря 2016 года.

USD / oz1 день30 дней360 дней
PM: 1,163.60 -7.45-117.80+102.10

Подробнее...

Мы строим Хранилища данных, ETL, отчетность, BI.
Стараемся, чтобы было надёжно, и приносило реальную пользу.

Используем инструменты с открытым исходным кодом, но работаем и с тем, что уже есть - Oracle, Informatica, Business Objects, Pentaho и так далее. Собственные разработки также распространяются с открытым исходным кодом.

BI, Отчетность, Аналитика

Как дать пользователю самому решить, что он увидит, и главное, как ему самому сделать отчеты, как он хочет?

Представляю скромное решение для аналитики и отчетности - dwwiki - то чего мне не хватало уже много лет.
Подробнее...

ETL, Интеграция

ETL - это система кровообращения. Неудачное решение разрушает все остальные звенья, как в живом организме.

При создании интеграционных решений мы следуем философии UNIX: используем серию компактных специализированных инструментов, которые хорошо соединяются вместе, и не строим монолитных "продуктов". Все компоненты следуют общим принципам, так, что вся система остается управляемой, какую бы хитроумную логику обработки она не использовала.

DWH, Архитектура и модель данных

Архитектура данных аналитической системы - это:

  1. Модель данных - то, с чем работают пользователи.
  2. База данных или несколько баз данных для отчетности - Data Marts.
  3. Склад "сырых" данных - SQL-база, плоские файлы для Hadoop, или и то и другое - Data Lakes.

Все три пункта требуют внимания. Но начинать, на мой взгляд, следует с модели данных для пользователя, и идти дальше шаг за шагом. Если нет нужных данных на выходе, какой смысл строить всё остальное? Модель данных, в свою очередь, должна быть простой и ясной, насколько это возможно. Человеку вообще свойственно излишне усложнять простые системы. Здесь нужно:

Чтобы пояснить это на примере, я начал цикл статей Бухгалтерский учёт простым языком. Буду пополнять по мере сил. Эта тема на самом деле покрывает очень широкий спектр задач по моделированию данных.

Документация

Чёрная Дыра. Модель данных, ETL-процессы, бизнес-требования - это очень много текста, еще больше потраченного времени.

Проходит два года, и никто не знает, зачем здесь пересчитывается вот эта таблица, кому она нужна, и что от неё зависит.

Выход в том, чтобы:

  1. Избавиться от лишних документов.
  2. Интегрировать документацию вместе с отчётностью.

Это не так сложно, как кажется. Лучше это увидеть, чем писать документацию, как писать документацию.

Модель данных тестовой базы системы dwwiki даст некоторое представление, о чём я говорю.

Стоимость

Q: Сколько может стоить хранилище данных?

A: Не более чем это нужно для дела, то есть для основного бизнеса. Длинные вложения не требуются. Следуем принципу разумной достаточности.

Q: Это доступно только большим корпорациям?

A: Уже нет. Есть облачные сервисы, есть способы держать всё у себя, или комбинировать. Большое железо нужно только тогда, когда нет никаких сомнений, что оно полностью себя окупает. Машина с 1GB памяти и диском в 80GB дает удивительные результаты. Ну, если не надо считать геном человека или лайки на фейсбуке в секунду.

Q: Нужно ли оно вообще?

Более чем раньше, так как очень много источников данных. Путаница растёт. Собирают всё, как обычно, пользователи в Excel. От этого невозможно избавиться полностью, но можно сильно облегчить им работу.


Надеюсь, чтение этих страниц будет стоить потраченного времени.

Искренне Ваш,

Даниил Климов,
DW Works
info@dwworks.ru


Карта сайта
О нас

Версия для печати


© 2014-2016 DW Works LLC