Специализированных решений для хранения ключ/значений достаточно много, достаточно взглянуть на страницу wikipedia NoSQL. С учетом того, что подход NoSQL относительно нов, по сравнению с реляционными базами данных, с каждым днем он набирает все больше и больше сторонников. К сожалению, не всегда есть возможность выделить отдельный сервер или установить необходимое программное обеспечения для работы с NoSQL базами данных. Но в то же время, базы данных MySQL доступны практически у любого хостинг-провайдера, есть сборки mysql не требующие установки, руководств и советов по mysql можно найти значительно больше, чем для любой другой базы данных. Попытки найти некий баланс привели к созданию небольшой библиотеки KVLite2.
суббота, 25 февраля 2012 г.
четверг, 23 февраля 2012 г.
Архитектура Disco
Краткое описание Disco - MapReduce системы на базе Erlang и Python было дано в одном из предыдущих постов. Несколько слов об архитектуре.
Disco основана на архитектура главный-ведомый (master-slave).
Disco основана на архитектура главный-ведомый (master-slave).
вторник, 21 февраля 2012 г.
Статья о Google MapReduce & Hadoop
Интересная статья о технологиях, позволяющих организовать распределенное хранение и параллельную обработку больших объемов данных в крупномасштабных кластерных системах на базе технологий Google File System (GFS), Hadoop File System (HDFS), Google BigTable, HBase, модели программирования MapReduce, Apache Hadoop, Microsoft Dryad, Chubby, ZooKeeper.
Речь идет о петабайтах данных, для хранения и обработки которых необходимы значительные вычислительные ресурсы. В качестве таких ресурсов рассматриваются кластерные системы, состоящие из тысяч серверов. В подобных распределенных системах остро стоят вопросы обеспечения отказоустойчивости и бесперебойного функционирования сервисов хранения и обработки данных. В таких системах важной проблемой является создание высокоуровневой модели программирования процессов обработки данных. В статье приводится описание оригинальных технологий Google, а также проводится параллель с существующими open source проектами - аналогами данных технологий, Apache Hadoop. Материал статьи подготовлен в рамках Всероссийского конкурсного отбора обзорно-аналитических статей по приоритетному направлению "Информационно-телекоммуникационные системы".
Новые технологии распределенного хранения и обработки больших массивов данных. О.В. Сухорослов. Институт системного анализа РАН
Теги:
architecture,
cluster,
google,
hadoop,
mapreduce
воскресенье, 19 февраля 2012 г.
Disco - mapreduce для распределенных вычислений
Disco - это реализация технологии MapReduce для распределенный вычислений. Disco поддерживает выполнение параллельных вычислений большого объема данных, сохраненных на обычных компьютерах, включенных в кластер, реализуя идеи Google MapReduce, описанные в документе MapReduce: Simplified Data Processing on Large Clusters. Это делает Disco отличным решением для анализа и обработки больших объемов данных, не требующем дополнительных знаний в таких сложных распределенных технологиях как протоколы коммуникации, балансировка нагрузки, блокировка, распределения задач, отказоустойчивость.
среда, 15 февраля 2012 г.
Дата-центр Tulip Telecom India
Tulip Telecom India разместила на youtube видео о их новом дата-центре. Согласно информации от IBM этот крупнейший в Индии и третий по величине в мире дата-центр был построен за 9 месяцев. Это очень хороший показатель.
- Общая площадь дата-центра 900,000 кв. м.
- Дизайн соответствует Tier-3 спецификации (TIA-942 стандарт) (*).
- Питание 66кВ с мощность 40 МВА со 100% резервированием
- Независимые внешние интерконнекты с различными интернет сервис провайдерам
- Изолированные помещения для установки серверов по 10,000 кв. м. на секцию
- Высокая энергоэффективность - PUE ~1.9 (**)
- 80,000 кв.м. выделено под офисные помещения
- Автоматизированная система управления зданием
- Общая площадь дата-центра 900,000 кв. м.
- Дизайн соответствует Tier-3 спецификации (TIA-942 стандарт) (*).
- Питание 66кВ с мощность 40 МВА со 100% резервированием
- Независимые внешние интерконнекты с различными интернет сервис провайдерам
- Изолированные помещения для установки серверов по 10,000 кв. м. на секцию
- Высокая энергоэффективность - PUE ~1.9 (**)
- 80,000 кв.м. выделено под офисные помещения
- Автоматизированная система управления зданием
Теги:
data center
понедельник, 13 февраля 2012 г.
Книга "Introduction to Computing"
Девид Эванс (David Evans), донент Университета Вирджиния по вычислительным системам опубликовал в Интернет свою книгу - Introduction to Computing. Explorations in Language, Logic, and Machines. В полном объеме книга доступна для скачивания в PDF формате, ее можно прочесть в онлайн, для любителей бумажных книг она доступна для заказа через Amazon или CreateSpace.
Данная книга является вводной частью в вычислительные системы. Но может быть интерестна не только новичкам. Осноная идея книги показать различные информационные процессы через описания процедур. Какова цена реализации решения для различных подходов? Рассматриваются вопросы, что может быть расчитано, а что нет.
Данная книга является вводной частью в вычислительные системы. Но может быть интерестна не только новичкам. Осноная идея книги показать различные информационные процессы через описания процедур. Какова цена реализации решения для различных подходов? Рассматриваются вопросы, что может быть расчитано, а что нет.
вторник, 7 февраля 2012 г.
Визуализация данных с помощью graphviz
В многих случаях информация намного лучше воспринимается, когда она представлена графически. Для случаев построения сложных схем, графическое представление информации - необходимое условие. Кто-то для этого использует PowerPoint, кто-то Visio, кто-то Dia. Не очень удобным является подход поддержки в актуальном виде схем, созданных с помощью этих приложений - требуется постоянное вовлечение человека. И как часто это бывает схемы или диаграммы часто не отображают реальную картину состояния дел. Graphviz позволяет решить некоторые из этих вопросов.
Graphviz - это открытое программное обеспечения для построение графов. Принцип работы достаточно прост: подготавливается описание графа в текстовом виде, далее с помощью утилит graphviz граф может быть преобразован в различные форматы от текстового представления до PDF документов. В основном работа выполняется в командной строке, но на сайте, в разделе Ресурсы можно найти много GUI приложений как платных так и бесплатных. Там же можно найти примеры использования graphviz в различных отраслях и сферах: инжиниринг, био-информатика, описание интерфейсов, программы искусственного интеллекта.
Graphviz - это открытое программное обеспечения для построение графов. Принцип работы достаточно прост: подготавливается описание графа в текстовом виде, далее с помощью утилит graphviz граф может быть преобразован в различные форматы от текстового представления до PDF документов. В основном работа выполняется в командной строке, но на сайте, в разделе Ресурсы можно найти много GUI приложений как платных так и бесплатных. Там же можно найти примеры использования graphviz в различных отраслях и сферах: инжиниринг, био-информатика, описание интерфейсов, программы искусственного интеллекта.
Теги:
data,
flow,
graphviz,
process,
visualization
пятница, 3 февраля 2012 г.
Описание сложных типов данных для потоков
Потоки играют важную роль в обмене информации между процессами. Единицей переноса информации в потоках являются пакеты. Описание структур пакетов позволяется без анализа кода процесса связывать процессы между собой. Простые структуры данных (без вложений) содержащиеся в пакетах можно описать достаточно просто. Для каждого параметра определить имя, тип и описание. Для случаев, когда данные переданные в потоках имеют сложную, иерархическую структуру для их описания требуется определенный синтаксис.
Теги:
description,
json,
packet,
pyflowctrl,
scheme,
structure
Подписаться на:
Сообщения (Atom)









