Хранилища данных. Интеграция. Аналитика

Всё что нужно и ничего лишнего.

Fork me on GitHub

dwwiki: Курс ЦБ в рублях.

Четверг, 23 ноября 2017 года.

ВалютаКурс1 день30 дней360 дней
USD59.01- 0.45+ 1.54- 5.61
GBP78.17- 0.63+ 2.47- 2.19
EUR69.40- 0.42+ 1.85+ 0.97

Лондонский золотой фиксинг:

Среда, 22 ноября 2017 года.

USD / oz1 день30 дней360 дней
PM: 1,286.95 +3.65 +12.05 +99.25

Подробнее...

Мы строим Хранилища данных, ETL, отчетность, BI.
Стараемся, чтобы было надёжно, и приносило реальную пользу.

Используем инструменты с открытым исходным кодом, но работаем и с тем, что уже есть - Oracle, Informatica, Business Objects, Pentaho и так далее. Собственные разработки также распространяются с открытым исходным кодом.

BI, Отчетность, Аналитика

Как дать пользователю самому решить, что он увидит, и главное, как ему самому сделать отчеты, как он хочет?

Представляю скромное решение для аналитики и отчетности - dwwiki - то чего мне не хватало уже много лет.
Подробнее...

ETL, Интеграция

ETL - это система кровообращения. Неудачное решение разрушает все остальные звенья, как в живом организме.

При создании интеграционных решений мы следуем философии UNIX: используем серию компактных специализированных инструментов, которые хорошо соединяются вместе, и не строим монолитных "продуктов". Все компоненты следуют общим принципам, так, что вся система остается управляемой, какую бы хитроумную логику обработки она не использовала.

DWH, Архитектура и модель данных

Архитектура данных аналитической системы - это:

  1. Модель данных - то, с чем работают пользователи.
  2. База данных или несколько баз данных для отчетности - Data Marts.
  3. Склад "сырых" данных - SQL-базы, плоские файлы внутри файловой системы Hadoop, или и то и другое - Data Lakes.

Все три пункта требуют внимания. Начинать обычно следует с модели данных для пользователя, а дальше идти шаг за шагом. Если нет нужных данных на выходе, нет смысла строить всё остальное. Модель данных, в свою очередь, должна быть простой и ясной, насколько это возможно. Человеку вообще свойственно излишне усложнять простые системы. Здесь нужно:

Документация

Чёрная Дыра. Модель данных, ETL-процессы, бизнес-требования - это очень много текста, еще больше потраченного времени.

Проходит два года, и никто не знает, зачем здесь пересчитывается вот эта таблица, кому она нужна, и что от неё зависит.

Выход в том, чтобы:

  1. Избавиться от лишних документов.
  2. Интегрировать документацию вместе с отчётностью.

Это не так сложно, как кажется. Лучше это увидеть, чем писать документацию, как писать документацию.

Модель данных тестовой базы системы dwwiki даст некоторое представление, о чём я говорю.

Стоимость

Q: Сколько может стоить хранилище данных?

A: Не более чем это имеет смысл для основного бизнеса. Длинные большие вложения не требуются. Дорогостоящих лицензий не нужно. Как правило, никаких лицензий не нужно. Сейчас не требуются даже вложения в технику. Ее можно арендовать, или покупать свою небольшими частями. Большая часть расходов уходит на работы. Здесь можно оптимизировать расходы, следуя правилу "разделяй и властвуй" - простая работа стоит недорого или ее делают сами пользователи. Сложная и дорогая - ограничивается в объеме и не расползается.

Q: Это доступно только большим корпорациям?

A: Уже нет. Есть облачные сервисы, есть способы держать всё у себя, или комбинировать. Большое железо нужно только тогда, когда нет никаких сомнений, что оно полностью себя окупает. Машина с 1GB памяти и диском в 80GB дает удивительные результаты. Конечно, если не надо считать геном человека или лайки на фейсбуке в секунду.

Q: Нужно ли оно вообще?

Более чем раньше, так как очень много источников данных. Путаница растёт. А собирают всё, как обычно, в Excel. От этого невозможно избавиться полностью, но можно сильно облегчить эту работу.


Надеюсь, чтение этих страниц будет стоить потраченного времени.

Искренне Ваш,

Даниил Климов,
DW Works
info@dwworks.ru


Карта сайта
О нас

Версия для печати


© 2014-2016 DW Works LLC