воскресенье, 31 июля 2011 г.

Обработка текста, часть первая

В продолжении темы работы с текстовыми файлами стоит рассмотреть несколько подходов обработки структурированных текстовых данных. Наиболее известные форматы представления данных: HTML, XML, JSON, - форматы, использующие специальную разметку. Для многих из них существуют специальные библиотеки для парсинга и обработки. Существую также форматы, в которых данные не содержат разметки, а представлены в виде некоторой текстовой структуры. К таким данным относятся лог-файлы, вывод аварийных сообщений, дампы системы, статистические отчеты в текстовом формате, результаты мониторинга и многое другое.

вторник, 26 июля 2011 г.

html2txt: очистка html документа от тегов

Для случаев, когда необходимо очистить html документов от тегов и сформировать тестовый документ, можно использовать небольшую функцию html2txt. В качестве параметра передается содержимое html документа, на выходе получаем текст очищенный от тегов.

суббота, 23 июля 2011 г.

Расчет контрольных сумм файлов

Контрольные суммы файлов используются для проверки целостности файлов, сравнения файлов на неэквивалентность. Расчет контрольных сумм выполняется на основе специальных хеш-функций, на вход которых передают исходные данные произвольной длины, на выходе получают битовую строку фиксированной длины - хеш-кодом, соответствующей исходным данным. В общем случае однозначного соответствия между исходными данными и хеш-кодом нет в силу того, что количество значений хеш-функций меньше, чем вариантов входного массива.

пятница, 22 июля 2011 г.

Работа с текстовыми файлами небольшого объема

В одном из предыдущих постов “Работа с текстовыми файлами” рассматривался подход открытия больших текстовых файлов. Для случаев, когда текстовых файлов много, а объем их относительно не велик (скажем, до 500кб), использовать процесс для чтения файлов из упомянутого выше поста не совсем удобно. Для этого лучше воспользоваться процессом FileReader

среда, 20 июля 2011 г.

Вывод списка файлов из директорий

Работая с большим числом файлов время от времени возникает необходимость получения список всех файлов из определенной директории с учетом вложенности их в поддиректории. Для этих целей в pyflowctrl добавлен новый процесс TreeWalker

вторник, 5 июля 2011 г.

Использование JSON при работе с Google Data Protocol

По умолчанию, для Google Data Protocol используется формат Atom. Если в запросе параметр alt не указан, то формат результата будет представлен именно в этом формате. Для того, чтобы получить результат в формате JSON необходимо указать это в запросе через параметр alt=json. Например, для получения данных календаря Google Developer в формате JSON запрос будет выглядеть следующим образом:

http://www.google.com/calendar/feeds/developer-calendar@google.com/public/full?alt=json

пятница, 1 июля 2011 г.

Google авторизация на базе ClientLogin

Когда приложению необходимо получить доступ к не публичным данным, расположенных в облаке Google, необходимо пройти авторизацию. Google API поддерживает протоколы: OAuth 1.0, OAuth 2.0, AuthSub или ClientLogin. OAuth 2.0 является рекомендованным протоколом авторизации. В качестве примера, реализуем авторизацию на основании ClientLogin решения. Основная причина этому - простая реализация протокола и возможность использования уже наработанных решений по работе с HTTP методами.