В продолжении темы работы с текстовыми файлами стоит рассмотреть несколько подходов обработки структурированных текстовых данных. Наиболее известные форматы представления данных: HTML, XML, JSON, - форматы, использующие специальную разметку. Для многих из них существуют специальные библиотеки для парсинга и обработки. Существую также форматы, в которых данные не содержат разметки, а представлены в виде некоторой текстовой структуры. К таким данным относятся лог-файлы, вывод аварийных сообщений, дампы системы, статистические отчеты в текстовом формате, результаты мониторинга и многое другое.
воскресенье, 31 июля 2011 г.
вторник, 26 июля 2011 г.
html2txt: очистка html документа от тегов
Для случаев, когда необходимо очистить html документов от тегов и сформировать тестовый документ, можно использовать небольшую функцию html2txt. В качестве параметра передается содержимое html документа, на выходе получаем текст очищенный от тегов.
Теги:
conversion,
html,
python,
text
суббота, 23 июля 2011 г.
Расчет контрольных сумм файлов
Контрольные суммы файлов используются для проверки целостности файлов, сравнения файлов на неэквивалентность. Расчет контрольных сумм выполняется на основе специальных хеш-функций, на вход которых передают исходные данные произвольной длины, на выходе получают битовую строку фиксированной длины - хеш-кодом, соответствующей исходным данным. В общем случае однозначного соответствия между исходными данными и хеш-кодом нет в силу того, что количество значений хеш-функций меньше, чем вариантов входного массива.
пятница, 22 июля 2011 г.
Работа с текстовыми файлами небольшого объема
В одном из предыдущих постов “Работа с текстовыми файлами” рассматривался подход открытия больших текстовых файлов. Для случаев, когда текстовых файлов много, а объем их относительно не велик (скажем, до 500кб), использовать процесс для чтения файлов из упомянутого выше поста не совсем удобно. Для этого лучше воспользоваться процессом FileReader
Теги:
file,
pyflowctrl,
python,
reader
среда, 20 июля 2011 г.
Вывод списка файлов из директорий
Работая с большим числом файлов время от времени возникает необходимость получения список всех файлов из определенной директории с учетом вложенности их в поддиректории. Для этих целей в pyflowctrl добавлен новый процесс TreeWalker
вторник, 5 июля 2011 г.
Использование JSON при работе с Google Data Protocol
По умолчанию, для Google Data Protocol используется формат Atom. Если в запросе параметр alt не указан, то формат результата будет представлен именно в этом формате. Для того, чтобы получить результат в формате JSON необходимо указать это в запросе через параметр alt=json. Например, для получения данных календаря Google Developer в формате JSON запрос будет выглядеть следующим образом:
http://www.google.com/calendar/feeds/developer-calendar@google.com/public/full?alt=json
http://www.google.com/calendar/feeds/developer-calendar@google.com/public/full?alt=json
пятница, 1 июля 2011 г.
Google авторизация на базе ClientLogin
Когда приложению необходимо получить доступ к не публичным данным, расположенных в облаке Google, необходимо пройти авторизацию. Google API поддерживает протоколы: OAuth 1.0, OAuth 2.0, AuthSub или ClientLogin. OAuth 2.0 является рекомендованным протоколом авторизации. В качестве примера, реализуем авторизацию на основании ClientLogin решения. Основная причина этому - простая реализация протокола и возможность использования уже наработанных решений по работе с HTTP методами.
Теги:
authorization,
clientlogin,
google,
pyflowctrl,
python
Подписаться на:
Сообщения (Atom)








