Разбор слова по составу. 2 класс — Республикалық білім порталы
Краткосрочное планирование открытого урока по русскому языку
Сквозная тема: Моя школа.
Школа: начальная школа сад №31
Дата:. ФИО учителя: Байдуллаева Ж
Класс: 2 « _» класс. Количество присутствующих: —
отсутствующих: —
Лексическая тема: История школьных вещей.
Тема урока: Разбор слова по составу. (Повторение).
Цели обучения, которые достигаются на данном уроке (ссылка на учебную программу):
2.1.1.1 определять с помощью учителя опорные слова, фиксировать их; отвечать на закрытые вопросы.
2.2.3.1 формулировать вопросы с опорой на ключевые слова, отвечать на вопросы по содержанию прочитанного
2.3.8.2 определять значимые части слова, выделять корень в слове и подбирать однокоренные слова.
Развитие
навыков: 1.1 Понимание содержания информации/ сообщения
2.3 Формулирование вопросов и ответов
3.8 Соблюдение грамматических норм.
Критерии успеха (Предполагаемый результат): Все учащиеся смогут:
Повторить значимые части слова.
Большинство учащихся смогут:
Определять опорные слова и отвечать на закрытые вопросы самостоятельно.
Находить информацию по двум источникам.
Выделять значимые части слова.
Подбирать однокоренные слова.
Подбирать слова к схемам.
Некоторые учащиеся смогут:.
Составить и разыграть ситуации общения.
Записать рекомендации учащимся.
Языковая
цель Основные термины и словосочетания:
Состав слова, части слова, приставка, корень, суффикс, окончание, одноко-
ренные слова, родственные слова, вопрос, текст, стихо-
творение, предложение, упражнение, ответ.
Используемый язык для диалога/письма на уроке:
Вопросы для обсуждения:
Какое значение может иметь слово “состав”?
-А как вы думаете,что же такое Словообразование?
Что вы знаете о происхождении линейки?
Привитие
ценностей Ценности, основанные на национальной идее «Мәңгілік ел»: казахстанский патриотизм и гражданская ответственность; уважение; сотрудничество; труд и творчество; открытость; образование в течение всей жизни.
Межпредметные
связи – литература
– самопознание
– трудовое обучение
Навыки
использования ИКТ На данном уроке учащиеся не используют ИКТ
Предварительные
знания Звуки и буквы, гласные и согласные звуки, печатные и рукописные буквы,
алфавитные названия букв, слог, язык – средство человеческого общения,
высказывание, текст, языковые и неязыковые средства общения, устная и
письменная речь, предложение, прописная буква в начале предложения и в
именах собственных, сила голоса и темп речи, алфавитный порядок слов,
перенос слов, ударные и безударные гласные, мягкий знак на конце и в се-
редине слов, твердые и мягкие согласные, правописание жи-ши, ча-ща, чу-
щу, чк, чн, нщ, рщ, шн, звонкие и глухие согласные, звук [й], разделитель-
ный Ь, состав слова, окончание, корень, приставка, суффикс, родственные
и однокоренные слова.
Ход урока
Этапы урока, t Запланированная деятельность на уроке
Ресурсы
Начало урока
0-4 Создание положительного эмоционального настроя
Громко прозвенел звонок,
Начинается урок.
Наши ушки на макушке,
Глазки широко открыты,
Слушаем, запоминаем,
Ни минутки не теряем!
— Я рада видеть всех вас на уроке. Давайте, друзья, улыбнемся друг другу! Улыбки подарим гостям! К уроку готовы? Я рада! Желаю успехов всем нам!
5-10 мин Актуализация знаний. Целеполагание.
Цель: ввод ситуации для открытия и постановки целей
урока.
(П, И)
На доске: Р, С, М, Л, О, С, Ц, Т, А, Н, Х, В, Щ
Учитель просит учащихся убрать не парные согласные и прочитать главное слово нашего урока.
Какое значение может иметь слово “состав”?
1. Железнодорожный состав.
2. Состав – структура, строение.
Но мы на уроке русского языка. Состав чего мы можем изучать?
Тема нашего урока – состав слова. (Учитель открывает тему урока на доске)
Какие задачи поставим перед собой и будем решать на уроке?
Ученик: Повторим все, что знаем о частях слова.
Постановка задач:
-Скажите, это урок новых знаний или урок повторения?
• Что вы должены знать ?
• Алгоритм разбора слов по составу.
• Как находить корень, суффикс, приставку слова.
• Что вы должены уметь?
• Разбирать слова по составу.
Критерии успеха Учащиеся с помощью учителя формулируют тему урока.
Середина урока
11-20 мин
21-22 мин Работа по теме урока.
Цель: выполнение практических заданий.
(К, И) Минутка чистописания
Ученики пишут запись слова «состав» с соблюдением высоты,ширины и наклона прописных и строчных букв,их соединений.
Учитель:
— Сегодня у нас необыкновенный урок. Это будет урок — приключение, полное неожиданностей. Мы отправимся в путешествие к планетам знаний в галактику Словообразования.
-А как вы думаете,что же такое Словообразование?
-Что он изучает?
— Из чего же состоят слова?(из корней,приставок,суффиксов,окончаний)
-Слова сделаны из своего « строительного материала»,»строительные блоки» для слов называются МОРФЕМАМИ.
Дети берутся за руки .
В космосе так здорово!
Звёзды и планеты
В чёрной невесомости
Медленно плывут!
В космосе так здорово!
Острые ракеты
На огромной скорости
Мчатся там и тут!
1 планета –планета Корней
В гости к — Корней Корнеевичу.
— Как вы думаете, с какая морфема живет на этой планете? ( появляется Корень с заданиями)
Корней Корнеевич предлагает конверт с заданиями и вопросами
1)- Что такое корень? Как правильно выделить в слове корень?
2)– Посмотрите на эти необычные деревья. Какие слова могли бы «вырасти» на них? (На доске изображены деревья, в корнях которых даны слова лес, сад,ход,рыба,дом.) Ребята работают в группах..
— Напишите эти слова. (Две группы работают на задней стороне доски) Сколько веток «выросло» на вашем дереве? Давайте проверим ребят у доски
. (Д, К) Пальчиковая физминутка.
На моей руке пять пальцев,
Пять хватальцев, пять держальцев.
Чтоб строгать и чтоб пилить,
Чтобы брать и чтоб дарить.
Их не трудно сосчитать:
Раз, два, три, четыре, пять.
(Сплести пальцы рук, соединить ладони и стиснуть их как можно сильнее.
Потом опустить руки и слегка потрясти ими.)
Работа по учебнику.
(К, И) Упр. 15.
Ученики находят лишнее слово (линь) и объясняют
свой выбор; выписывают однокоренные слова; выделяют корень.
— Молодцы, ребята! Вы так хорошо справились с заданием. А нам пора двигаться дальше.
Тетрадь
Запись буквы Сс
Запись слова «состав»
Изображение деревьев
Учебник
23-26 мин
Дети берутся за руки ,читают стих о космосе
Планета Приставок.
В гости к приставке . (появляется Приставка с заданиями в конверте )
— Расскажите, что вы знаете о приставке как части слова?
Выполнение заданий в парах С взаимопроверкой
Работа по теме урока
Цель: выполнение практических заданий.
Работа с учебником
(Г) упр 17. учащиеся подбирают слова к схемам.
— Молодцы, ребята! Вы так хорошо справились с заданием. А нам пора двигаться дальше.
Конверт с заданиями
Задания для
парных работ
карточки.
Учебник
26-35 мин Планета Суффиксов.(появляется Суффикс с конвертом заданий)
— Расскажите, что вы знаете о суффиксах. Какую «стро¬ительную» работу они выполняют? (Образуют новые слова: придают словам различные смысловые оттенки. )
(П.И.)
(Д, К) Физминутка для глаз. Буратино
Предложить детям закрыть глаза и посмотреть на кончик своего носа. Учитель медленно считает до 8. Дети должны представить, что их носик начинает расти, они продолжают с закрытыми глазами следить за кончиком носа. Затем, не открывая глаз, с обратным счетом от 8 до 1, ребята следят за уменьшением.
(Дети закрывают глаза ладонями, держат их так до тех
пор, пока не почувствуют глазами тепло от рук.)
Раз, два, три, четыре, пять – можно глазки открывать!
— Отлично! Вы так хорошо справились с заданием. А нам пора двигаться дальше на планету Окончаний.
Планета Окончаний. Встреча с Окончанием
-Расскажите что вы знаете об окончаниях?
Задание:
-Догадайся , какие окончания пропущены.Выдели окончания.
ХИТРЫЕ САНКИ
Мои санк едут сам ,
Без мотор , без кон ,
То и дел мои санк
Убегают от мен .
(П) Учащиеся выбирают правильный порядок разбора
слов по составу. Упр. 21.
Объясняют, почему нужно выполнять разбор слова по порядку. ,
(И) Подобрать к соответствующей схеме слово и записать в тетради.
Прощаются с Окончанием, благодарят за интересные задания, возвращаются в класс.
Самостоятельная работа на карточках
Физминутка
Тетрадь
Учебник
Критерии успеха Учащиеся составляют новые слова из частей данных слов;
записывают их и разбирают по составу .
(К, И) Учащиеся рассказывают по схеме о частях слова.
Конец урока
36-37 мин
-Я поздравляю вас с окончанием путешествия.Вы проявили себя знающими и любознательными путешественниками,хорошо работали на уроке.
— А теперь подведём итог нашего урока.
— Над чем мы сегодня работали? Что повторяли сегодня на уроке?
— Чтобы разобрать слово по составу, нужно выделить,?
— Что понравилось на уроке?
38-40 Цель: оценка уровня усвоения навыка по теме.
Итог урока. Рефлексия.
Итог урока
На доску вывешиваются маршрут полёта по галактике.
— если вам все понравилось давайте украсим нашу галактику звездами,так как скоро 16 декабря день Независимости РК вся наша страна будет праздновать этот знаменательный день,так пусть же и на нашей вселенной тоже будет отражатся праздничная атмосфера.
— Если вам все было по плечу на уроке выберите зелёную звезду.
— Если вам было все понятно выберите голубую звездочку
— А если вам на уроке было немного трудно ,то выберите красную звёздочку.
Звездочки.
Критерии успеха
Дифференциация
Оценивание
Здоровье и соблюдение техники безопасности
Способные учащиеся строят свои высказывания, а менее способным учитель оказывает поддержку,задавая наводящие вопросы Формативное оценивание.
— Взаимооценивание при работе в паре, группе, классом.
— Результаты наблюдения учителем качества ответов учащихся на уроке.
Определение уровня усвоения навыка по теме . Физминутка для глаз. Буратино
Предложить детям закрыть глаза и посмотреть на кончик своего носа. Учитель медленно считает до 8. Дети должны представить, что их носик начинает расти, они продолжают с закрытыми глазами следить за кончиком носа. Затем, не открывая глаз, с обратным счетом от 8 до 1, ребята следят за уменьшением.
(Дети закрывают глаза ладонями, держат их так до тех
пор, пока не почувствуют глазами тепло от рук. )
Раз, два, три, четыре, пять – можно глазки открывать!
Урок русского языка по теме «Разбор слова по составу». 2-й класс
Цель урока: формировать представление обучающихся о частях слова (корень, окончание, приставка, суффикс, основа слова).
Задачи.
Образовательные:
Обобщить знания обучающихся о частях слова.
Формировать умения самостоятельно работать с дополнительной литературой.
Развивающие:
Развивать монологическую речь посредством обогащения и усложнения словарного запаса.
Развивать познавательный интерес, мышление при помощи умения анализировать, сравнивать, обобщать и систематизировать.
Воспитательные:
Воспитывать у обучающихся любовь к русскому языку.
Воспитывать уважение друг к другу, чувство поддержки и взаимопомощи.
Оборудование:
- ноутбук;
- мультимедийный проектор;
- презентация Microsoft Power Point;
- Учебник “Русский язык” С.
- Раздаточный дидактический материал;
- толковый словарь.
Ход урока
I. Организационный момент.
Слайд 1. Презентация
Цель: психологический настрой обучающихся на учебное занятие.
1. Вступительное слово учителя.
Прозвенел и смолк звонок!
Начинается урок!
Все ль на месте?
Все ль в порядке?
Книжка, ручка и тетрадки!
Есть у нас девиз такой,
Все, что надо, под рукой!
Целеполагание.
Цель: формирование умений ставить цель работы. Мотивация обучающихся.
- Запись в тетради (число, классная работа).
- Мотивация обучающихся.
Детский писатель Роман Сеф заметил:
“Кто ничего не изучает,
Тот вечно хнычет и скучает”.
И чтобы наш урок был познавательным и интересным, необходимо приложить всё своё старание.
II. Основная часть урока.
1. Минутка чистописания.
Слайд 2
У. Отгадайте, что это за буква?
В этой букве нет угла,
Оттого она кругла.
До того она кругла,
Покатиться бы могла.
— Правильно, это буква О.
-Давайте пропишем дорожку с буквой О в соединениях с другими буквами в своих тетрадках.
— Как вы думаете, какое соединение будет следующим?
Ооа Ооб Оов …
Пропишите соединения с буквой О, не нарушая закономерности.
Ооа Ооб Оов Оог Оод Оое
Отг…дайте, м…л…дцы,
Как з…вут нас? (…гурцы).
(Работа с сигнальными карточками, объяснение “опасных мест” в словах).
2. Словарная работа
Слайд 3
У. Есть гласные – коварные.
А в чём коварство их?
А в том, что ударение –
Это не для них.
Трудные учить слова
Помогает нам игра.
— Повторяем словарь, отгадывая загадки и записывая в тетради словарные слова.
С использованием компьютера происходит проверка словаря. (Отдельные ученики отрабатывают по компьютеру написание словарных слов).
Слайд 4-15
1. Что за чудо – длинный дом!
Пассажиров много в нем.
Носит обувь из резины
И питается бензином. (Автобус)
2. Это что за зверь такой
Пробежал по мостовой,
На ногах его — резина,
А питается бензином?
Он рычит, клубится пыль.
Что за зверь? … (Автомобиль)
3. Какой последний день недели? (Воскресенье)
4. Вот жилище горожан:
В кухне есть плита и кран,
Ванна есть и туалет,
Мебель в комнате, паркет.
Заходи в нее, живи,
Только слово назови. (Квартира)
5. Морозы и вьюга,
И снег на дворе,
К нам в гости
Приходит зима в . .. (Декабре)
6. Куда бежит – сама не знает.
В степи ровна,
В лесу плутает,
Споткнется у порога.
Что это? … (Дорога)
7. Не шит, не кроен,
А весь в рубцах;
Без счету одежек,
А все без застежек. (Капуста)
8. Черный Ивашка,
Деревянная рубашка,
Где носом пройдет —
Там заметку кладет. (Карандаш)
9. Кто на льду меня догонит?
Мы бежим вперегонки!
И несут меня не кони,
А блестящие … (Коньки)
10. Деревянная дорога,
Вверх идет она отлого,
Что ни шаг – то овраг.
Лежит на спине — никому не нужна,
Прислони к стене — пригодится она! (Лестница)
11. Я землю копала —
Ничуть не устала.
Кто мной копал,
Тот и устал. (Лопата)
12. Очень любят дети
Холодок в пакете.
Холодок, холодок,
Дай лизнуть тебя разок! (Мороженое)
Словарь: автобус, автомобиль, воскресенье, квартира, декабрь, дорога, капуста, карандаш, коньки, лестница, лопата, мороженое.
Знакомство с новым словарным словом “Слово о слове”. Слайд 16
У. Чтобы узнать новое словарное слово надо отгадать загадку.
Она удобна и легка,
Её название недлинно,
В хозяйстве служит нам века,
Есть в слове этом имя ЗИНА.
Из прутьев, лыка их плетут,
Скажите, как её зовут? (Корзина)
Работа с толковым словарём. (Индивидуально)
— Прочитайте значение этого слова.
Фонетический разбор слова:
Корзина – 3 слога, 7 букв, 7 звуков.
[к ] – согл., парн., глух., тв.
[а] – гласн., безуд.
[р] – согл., непарн., звонк., тв.
[з’] – согл., парн., звонк., мягк.
[и] – гласн., уд.
[н] – согл., непарн., звонк., тв.
[а] – гласн., безуд.
3. Физминутка. Зрительная гимнастика для глаз.
Мы писали, мы писали,
Наши глазки так устали.
Вместе сделаем зарядку –
Будет всё у нас в порядке.
4. Работа по теме урока. Освоение новых знаний.
У. Урок сегодня необычный,
Но для тебя вполне привычный,
Придётся думать головой,
Вопрос услышать непростой.
— Какие части слова вы знаете?
Стр.165 “Тайны языка” чтение статьи.
Упр.№1, разбор слов по составу (на доске и в тетрадях).
Стр.165 “Подсказка”.
Слайд 17-20
Алгоритм разбора слова
— Каким способом образовано слово подводный? (Приставочно-суффиксальным)
— Каким способом образовано слово пчеловод? (Способом сложения, это сложное слово)
5. Работа по учебнику.
Слайд 21
Стр.166 №2 – комментированное письмо.
Разбор слов по составу.
— Спиши, соотнеси слова со схемами.
6. Закрепление знаний учащихся.
Слайд 22-25
— Выпишите однокоренные слова, выделите корень. (Слайд 22)
Проплясали по снегам
Снежные метели.
Снегири снеговикам
Песню просвистели.
У заснеженной реки
В снежном переулке
Звонко носятся снежки,
Режут снег снегурки. (С. Погореловский)
— Распределите слова в два столбика. (Cлайд 23)
— Найдите лишнее слово в каждом столбике. (Cлайд 24)
— Соотнесите слово и схему. (Cлайд 25)
8. Физминутка.
“Зима”
Мы зимой в снежки играем, мы играем. имитация
лепки снежков;
По сугробам мы шагаем, мы шагаем. шагаем, высоко
поднимая колени;
И на лыжах мы бежим, мы бежим. пружинистые
движения на на месте, широкие взмахи руками, руки
согнуты в локтях;
На коньках по льду скользим, мы скользим. плавные пружинистые движения руки согнуты в локтях;
И снегурку лепим мы, лепим мы. соответствующие движения;
Гостью-зиму любим мы, любим мы. развести руки в поклоне и поставить на пояс.
9. Творческое задание (по выбору).
Подбор и запись однокоренных слов по вариантам с корнем: -снег, -мороз.
В 1. “Пишу сам(а)”.
Задание: написать мини-сочинение по теме “Волшебница-зима”, используя данные слова.
В 2. Задание: записанные слова разобрать по составу.
III. Итог урока.
Рефлексия.
Слайд 26
У. Урок приблизился к концу,
А я у вас спросить хочу:
— Что нового вы узнали на уроке?
— Что вам больше всего понравилось?
Домашнее задание (ситуация выбора).
- Стр. 166, упр. 4.
- Придумать и записать 10 слов на тему “Зимние забавы”, разобрать их по составу.
Уроку нашему настал конец,
А кто работал —
“Молодец!”.
Анализ текста с помощью Python · vipinajayakumar
Я ненавижу анализировать файлы, но это то, что мне приходилось делать в начале почти каждого проекта. Разбор не простой, и может стать камнем преткновения для новичков. Однако, как только вы освоитесь с разбором файлов, вам больше не придется беспокоиться об этой части проблемы. Вот почему я рекомендую новичкам освоиться с разбором файлов на раннем этапе обучения программированию. Эта статья предназначена для начинающих пользователей Python, которым интересно научиться анализировать текстовые файлы.
В этой статье я познакомлю вас со своей системой разбора файлов. Я кратко коснусь парсинга файлов в стандартных форматах, но хочу сосредоточиться на парсинге сложных текстовых файлов. Что я подразумеваю под комплексом? Что ж, к этому мы еще вернемся, юный падаван.
Для справки: набор слайдов, который я использую для презентации по этой теме, доступен здесь. Весь код и образцы текста, которые я использую, доступны в моем репозитории Github здесь.
Сначала разберемся, в чем проблема. Зачем нам вообще нужно разбирать файлы? В воображаемом мире, где все данные существуют в одном и том же формате, можно было бы ожидать, что все программы будут вводить и выводить эти данные. Не было бы необходимости анализировать файлы. Однако мы живем в мире, где существует большое разнообразие форматов данных. Некоторые форматы данных лучше подходят для разных приложений. Можно ожидать, что отдельная программа будет обслуживать только некоторые из этих форматов данных. Итак, неизбежно возникает необходимость конвертировать данные из одного формата в другой для использования разными программами. Иногда данные даже не в стандартном формате, что немного усложняет задачу.
Итак, что такое синтаксический анализ?
- Анализ
- Разобрать (строку или текст) на логические синтаксические компоненты.
Мне не нравится приведенное выше определение из Оксфордского словаря. Итак, вот мое альтернативное определение.
- Анализ
- Преобразование данных определенного формата в более удобный формат.
Имея в виду это определение, мы можем представить, что наш ввод может быть в любом формате. Итак, первый шаг при столкновении с любой проблемой синтаксического анализа — понять формат входных данных. Если повезет, будет документация, описывающая формат данных. Если нет, возможно, вам придется самостоятельно расшифровать формат данных. Это всегда весело.
Как только вы поймете входные данные, следующим шагом будет определение более удобного формата. Ну, это полностью зависит от того, как вы планируете использовать данные. Если программа, в которую вы хотите передать данные, ожидает формат CSV, то это ваш конечный продукт. Для дальнейшего анализа данных я настоятельно рекомендую считать данные в pandas DataFrame
.
Если вы аналитик данных Python, то, скорее всего, вы знакомы с pandas. Это пакет Python, который предоставляет DataFrame
и другие функции для невероятно мощного анализа данных с минимальными усилиями. Это абстракция поверх Numpy, которая предоставляет многомерные массивы, подобные Matlab. DataFrame
— это двумерный массив, но он может иметь несколько индексов строк и столбцов, которые pandas называет MultiIndex
, что по существу позволяет хранить многомерные данные. Операции в стиле SQL или базы данных можно легко выполнять с помощью pandas (сравнение с SQL). Pandas также поставляется с набором инструментов ввода-вывода, который включает функции для работы с CSV, MS Excel, JSON, HDF5 и другими форматами данных.
Хотя мы хотели бы считывать данные в многофункциональную структуру данных, такую как pandas DataFrame
, было бы очень неэффективно создавать пустой DataFrame
и напрямую записывать в него данные. DataFrame
— это сложная структура данных, и запись чего-то в DataFrame
поэлементно требует больших вычислительных ресурсов. Гораздо быстрее читать данные в примитивный тип данных, такой как list
или dict
. Как только список или словарь создан, pandas позволяет нам легко преобразовать его в DataFrame
, как вы увидите позже. На изображении ниже показан стандартный процесс разбора любого файла.
Если ваши данные имеют стандартный или достаточно близкий формат, то, вероятно, уже существует пакет, который можно использовать для чтения данных с минимальными усилиями.
Допустим, у нас есть файл CSV, data.txt:
a,b,c 1,2,3 4,5,6 7,8,9
Вы легко справитесь с этим с пандами.
123 | импортировать панд как pd df = pd.read_csv('data.txt') df |
а б в 0 1 2 3 1 4 5 6 2 7 8 9
Python невероятен, когда дело доходит до работы со строками. Стоит усвоить все распространенные строковые операции. Мы можем использовать эти методы для извлечения данных из строки, как вы можете видеть в простом примере ниже.
1 2 3 4 5 6 7 8 9101112131415161718192021 | my_string = 'Имена: Ромео, Джульетта' # разделить строку на ':' step_0 = my_string.split(':') # получаем первый фрагмент списка шаг_1 = шаг_0[1] # разделить строку на ',' step_2 = step_1.split(',') # удаляем пробелы в начале и конце каждого элемента списка step_3 = [name. strip() для имени в step_2] # делаем все вышеперечисленные операции за один раз one_go = [name.strip() для имени в my_string.split(':')[1].split(',')] для idx, элемент в перечислении ([шаг_0, шаг_1, шаг_2, шаг_3]): print("Шаг {}: {}".format(idx, элемент)) print("Окончательный результат за один раз: {}".format(one_go)) |
Шаг 0: ['Имена', 'Ромео, Джульетта'] Шаг 1: Ромео, Джульетта Шаг 2: ['Ромео', 'Джульетта'] Шаг 3: ['Ромео', 'Джульетта'] Окончательный результат за один раз: ['Ромео', 'Джульетта']
Как вы видели в предыдущих двух разделах, если проблема синтаксического анализа проста, мы могли бы просто использовать существующий анализатор или некоторые строковые методы. Однако жизнь не всегда так проста. Как нам разобрать сложный текстовый файл?
Шаг 1. Разберитесь с форматом ввода
123 | с файлом open('sample.txt'): file_contents = файл. чтение() print(file_contents) |
Образец текста В викторине приняли участие ученики Ривердейл Хай и Хогвартса. Ниже приводится запись их результатов. Школа = Средняя школа Ривердейла Оценка = 1 Номер студента, имя 0, Фиби 1, Рэйчел Номер студента, Балл 0, 3 1, 7 Оценка = 2 Номер студента, имя 0, Анджела 1, Тристан 2, Аврора Номер студента, Балл 0, 6 1, 3 2, 9Школа = Хогвартс Оценка = 1 Номер студента, имя 0, Джинни 1, Луна Номер студента, Балл 0, 8 1, 7 Оценка = 2 Номер студента, имя 0, Гарри 1, Гермиона Номер студента, Балл 0, 5 1, 10 Оценка = 3 Номер студента, имя 0, Фред 1, Джордж Номер студента, Балл 0, 0 1, 0
Довольно сложный входной файл! Фу! Данные, которые он содержит, довольно просты, как вы можете видеть ниже:
Name Score. Номер учащегося класса школы Хогвартс 1 0 Джинни 8 1 Луна 7 2 0 Гарри 5 1 Гермиона 10 3 0 Фред 0 1 Джордж 0 Ривердейл Хай 1 0 Фиби 3 1 Рэйчел 7 2 0 Анжела 6 1 Тристан 3 2 Аврора 9
Образец текста похож на CSV, поскольку в нем используются запятые для разделения некоторой информации. В верхней части файла есть заголовок и некоторые метаданные. Есть пять переменных: школа, класс, номер ученика, имя и балл. Ключами являются школа, класс и номер ученика. Имя и Оценка являются полями. Для данной школы, класса, номера учащегося есть имя и оценка. Другими словами, школа, класс и номер учащегося вместе образуют составной ключ.
Данные представлены в иерархическом формате. Сначала объявляется школа, затем класс. Затем следуют две таблицы, содержащие имя и балл для каждого номера учащегося. Затем увеличивается оценка. Далее следует еще один набор таблиц. Затем картина повторяется для другой школы. Обратите внимание, что количество учащихся в классе или количество классов в школе не являются постоянными, что немного усложняет файл. Это всего лишь небольшой набор данных. Вы можете легко представить, что это массивный файл с множеством школ, классов и учеников.
Само собой разумеется, что формат данных исключительно плохой. Я сделал это намеренно. Если вы понимаете, как с этим обращаться, вам будет намного проще освоить более простые форматы. Нередко встречаются такие файлы, если приходится иметь дело с большим количеством устаревших систем. В прошлом, когда эти системы разрабатывались, возможно, не требовалось, чтобы вывод данных был машиночитаемым. Однако в настоящее время все должно быть машиночитаемым!
Шаг 2: Импортируйте необходимые пакеты
Нам понадобится модуль регулярных выражений и пакет pandas. Итак, давайте продолжим и импортируем их.
12 | импорт повторно import pandas as pd |
Шаг 3: определение регулярных выражений
На последнем шаге мы импортировали re, модуль регулярных выражений. Что это такое?
Ранее мы видели, как использовать строковые методы для извлечения данных из текста. Однако при синтаксическом анализе сложных файлов мы можем столкнуться с большим количеством зачистки, разделения, нарезки и многого другого, и код может выглядеть довольно нечитаемым. Вот тут-то и появляются регулярные выражения. По сути, это крошечный язык, встроенный в Python, который позволяет вам сказать, какой строковый шаблон вы ищете. Кстати, это не уникально для Python (дом на дереве).
Вам не нужно становиться мастером регулярных выражений. Однако некоторые базовые знания о регулярных выражениях могут оказаться очень полезными в вашей карьере программиста. В этой статье я научу вас только самым основам, но я призываю вас продолжить изучение. Я также рекомендую regexper для визуализации регулярных выражений. regex101 — еще один отличный ресурс для тестирования вашего регулярного выражения.
Нам понадобятся три регулярных выражения. Первый, как показано ниже, поможет нам идентифицировать школу. Его регулярное выражение равно Школа = (.*)\n
. Что означают символы?
-
.
: Любой символ -
*
: 0 или более предыдущего выражения -
(.*)
: Помещение части регулярного выражения в круглые скобки позволяет сгруппировать эту часть выражения. Итак, в данном случае сгруппированная часть — это название школы. -
\n
: Символ новой строки в конце строки
Затем нам нужно регулярное выражение для оценки. Его регулярное выражение равно Оценка = (\d+)\n
. Это очень похоже на предыдущее выражение. Новые символы:
-
\d
: сокращение от [0-9] . -
+
: 1 или более предыдущих выражений
Наконец, нам нужно регулярное выражение, чтобы определить, является ли таблица, которая следует за выражением в текстовом файле, таблицей имен или рейтингов. Его регулярное выражение: (Name|Score)
. Новый символ:
-
|
: Логическое или утверждение, поэтому в данном случае это означает «Имя» или «Оценка».
Нам также необходимо понять несколько функций регулярных выражений:
-
re.compile(pattern)
: скомпилировать шаблон регулярного выражения вRegexObject.
RegexObject
имеет следующие методы:
-
match(string)
: если начало строки совпадает с регулярным выражением, вернуть соответствующий экземплярMatchObject
. В противном случае вернутьНет
. -
search(string)
: Просканировать строку в поисках места, где это регулярное выражение произвело совпадение, и вернуть соответствующий экземплярMatchObject
. ВозвращаетNone
, если совпадений нет.
MatchObject
всегда имеет логическое значение True
. Таким образом, мы можем просто использовать оператор if
для выявления положительных совпадений. Он имеет следующий метод:
-
group()
: Возвращает одну или несколько подгрупп совпадения. На группы можно ссылаться по их индексу.group(0)
возвращает полное совпадение.group(1)
возвращает первую подгруппу в скобках и так далее. Используемые нами регулярные выражения имеют только одну группу. Легкий! Однако что, если групп было несколько? Было бы трудно запомнить, к какому номеру принадлежит группа. Специальное расширение Python позволяет нам называть группы и ссылаться на них по имени. Мы можем указать имя внутри группы в скобках(...)
вот так:(?P<имя>...)
.
Сначала определим все регулярные выражения. Обязательно используйте необработанные строки для регулярного выражения, т. е. используйте индекс r
перед каждым шаблоном.
1234567 | # настроить регулярные выражения # используйте https://regexper.com, чтобы визуализировать их, если это необходимо rx_dict = { 'школа': re.compile(r'School = (?P |
Шаг 4: Напишите синтаксический анализатор строк
Затем мы можем определить функцию, которая проверяет соответствие регулярным выражениям.
1 2 3 4 5 6 7 8 910111213 | по определению _parse_line (строка): """ Выполните поиск регулярных выражений по всем определенным регулярным выражениям и вернуть ключ и результат сопоставления первого совпадающего регулярного выражения """ для ключа, rx в rx_dict.items(): совпадение = rx.search(строка) если совпадают: ключ возврата, совпадение # если совпадений нет возврат Нет, Нет |
Шаг 5: Напишите синтаксический анализатор файлов
Наконец, для основного события у нас есть функция синтаксического анализа файлов. Он довольно большой, но комментарии в коде должны помочь вам понять логику.
1 2 3 4 5 6 7 8 | def parse_file (путь к файлу): """ Разобрать текст по указанному пути к файлу Параметры ---------- путь к файлу: ул Путь к файлу для file_object для анализа Возвращает ------- данные: pd. DataFrame Проанализированные данные """ data = [] # создаем пустой список для сбора данных # открываем файл и читаем его построчно с открытым (путь к файлу, 'r') как файл_объект: строка = файл_объект.readline() пока строка: # в каждой строке проверяем совпадение с регулярным выражением ключ, совпадение = _parse_line (строка) # извлечь название школы если ключ == 'школа': школа = match.group('школа') # степень извлечения если ключ == 'оценка': оценка = match.group('оценка') класс = инт (класс) # идентифицируем заголовок таблицы если ключ == 'name_score': # извлечь тип таблицы, т. е. имя или счет value_type = match.group('name_score') строка = файл_объект.readline() # читать каждую строку таблицы до пустой строки в то время как line. strip(): # извлечь число и значение число, значение = line.strip().split(',') значение = значение.strip() # создать словарь, содержащий эту строку данных строка = { «Школа»: школа, «Оценка»: оценка, «Номер студента»: номер, тип_значения: значение } # добавляем словарь в список данных data.append(строка) строка = файл_объект.readline() строка = файл_объект.readline() # создать pandas DataFrame из списка диктов данные = pd.DataFrame(данные) # установить номер школы, класса и ученика в качестве индекса data.set_index(['Школа', 'Оценка', 'Номер ученика'], inplace=True) # объединить df, чтобы удалить nans данные = данные.группа(уровень=данные.индекс.имена).первый() # обновить Score с float до integer data = data. apply(pd.to_numeric, errors='игнорировать') вернуть данные |
Шаг 6: Проверка синтаксического анализатора
Мы можем использовать наш синтаксический анализатор для нашего образца текста следующим образом:
1234 | , если __name__ == '__main__': путь к файлу = 'sample.txt' данные = разбор (путь к файлу) печать(данные) |
Имя Оценка Номер учащегося класса школы Хогвартс 1 0 Джинни 8 1 Луна 7 2 0 Гарри 5 1 Гермиона 10 3 0 Фред 0 1 Джордж 0 Ривердейл Хай 1 0 Фиби 3 1 Рэйчел 7 2 0 Анжела 6 1 Тристан 3 2 Аврора 9
Это все хорошо, и вы можете увидеть, сравнив ввод и вывод на глаз, что парсер работает правильно. Тем не менее, лучше всего всегда писать юнит-тесты, чтобы убедиться, что ваш код делает то, что вы хотели. Всякий раз, когда вы пишете синтаксический анализатор, убедитесь, что он хорошо протестирован. У меня возникли проблемы с моими коллегами из-за использования парсеров без тестирования. Эй! Также стоит отметить, что это не обязательно должен быть последний шаг. Действительно, многие программисты проповедуют разработку через тестирование. Я не включил сюда набор тестов, так как хотел, чтобы это руководство было кратким.
Я разбирал текстовые файлы в течение года и со временем усовершенствовал свой метод. Тем не менее, я провел дополнительное исследование, чтобы выяснить, есть ли лучшее решение. Действительно, я должен поблагодарить различных членов сообщества, которые посоветовали мне оптимизировать мой код. Сообщество также предложило несколько различных способов разбора текстового файла. Некоторые из них были умными и захватывающими. Мой личный фаворит был этот. Я представил свой пример проблемы и решения на следующих форумах:
- Сообщение Reddit
- Пост переполнения стека
- Сообщение о проверке кода
Если ваша проблема еще более сложна и регулярные выражения не решают ее, то следующим шагом будет рассмотрение разбора библиотек. Вот несколько мест, с которых можно начать:
- Анализ ужасных вещей с помощью Python: Лекция Эрика Роуза о PyCon, в которой рассматриваются плюсы и минусы различных библиотек синтаксического анализа.
- Синтаксический анализ в Python: инструменты и библиотеки: Инструменты и библиотеки, позволяющие создавать парсеры, когда регулярных выражений недостаточно.
Теперь, когда вы понимаете, насколько сложным и утомительным может быть анализ текстовых файлов, если вы когда-нибудь окажетесь в привилегированном положении при выборе формата файла, выбирайте его с осторожностью. Вот лучшие практики Стэнфорда для форматов файлов.
Я бы солгал, если бы сказал, что был в восторге от моего метода синтаксического анализа, но я не знаю другого способа быстрого анализа текстового файла, который так же удобен для новичков, как тот, что я представил выше. Если вы знаете лучшее решение, я весь внимание! Надеюсь, я дал вам хорошую отправную точку для разбора файла в Python! Я провел пару месяцев, пробуя множество разных методов и написав какой-то безумно нечитаемый код, прежде чем наконец понял это, и теперь я не думаю дважды о разборе файла. Итак, я надеюсь, что смог сэкономить вам немного времени. Получайте удовольствие от разбора текста с помощью Python!
Анализ текста с помощью PowerShell (1/3)
Стив Ли
18 января 2019 г. 2 1
Это первый пост в серии из трех частей.
- Часть 1 :
- Полезные методы класса String
- Введение в регулярные выражения
- Командлет Select-String
- Часть 2:
- Оператор -split
- Оператор -match
- Оператор switch
- Класс регулярных выражений
- Часть 3:
- Реальный мир, полный и немного увеличенный, пример синтаксического анализатора на основе коммутатора
В моем рабочем процессе регулярно возникает задача анализа текста. Это может быть получение маркера из одной строки текста или преобразование текстового вывода собственных инструментов в структурированные объекты, чтобы я мог использовать возможности PowerShell.
Я всегда стремлюсь создать структуру как можно раньше в конвейере, чтобы позже я мог рассуждать о содержимом как о свойствах объектов, а не как тексте по некоторому смещению в строке. Это также помогает при сортировке, поскольку свойства могут иметь правильный тип, поэтому числа, даты и т. д. сортируются как таковые, а не как текст.
Пользователю PowerShell доступно несколько вариантов, и здесь я привожу обзор наиболее распространенных из них.
Это не текст о том, как создать высокопроизводительный синтаксический анализатор для языка со структурированной грамматикой EBNF. Для этого есть инструменты получше, например ANTLR.
Методы .Net для строки
class Любое рассмотрение синтаксического анализа строки в PowerShell было бы неполным, если бы в нем не упоминались методы для строка
класс.
Есть несколько методов, которые я использую чаще других при разборе строк:
Имя | Описание |
---|---|
Подстрока (int startIndex) | Извлекает подстроку из этого экземпляра. Подстрока начинается с указанной позиции символа и продолжается до конца строки. |
Подстрока (int startIndex, int length) | Извлекает подстроку из этого экземпляра. Подстрока начинается с указанной позиции символа и имеет указанную длину. |
IndexOf(строковое значение) | Сообщает отсчитываемый от нуля индекс первого вхождения указанной строки в данном экземпляре. |
IndexOf(строковое значение, int startIndex) | Сообщает отсчитываемый от нуля индекс первого вхождения указанной строки в данном экземпляре. Поиск начинается с указанной позиции символа. |
LastIndexOf(строковое значение) | Сообщает отсчитываемый от нуля индекс последнего вхождения указанной строки в данном экземпляре. Часто используется вместе с Подстрока . |
LastIndexOf (строковое значение, int startIndex) | Сообщает отсчитываемую от нуля позицию индекса последнего вхождения указанной строки в этом экземпляре. Поиск начинается с указанной позиции символа и продолжается в обратном направлении к началу строки. |
Это небольшая часть доступных функций. Возможно, вам стоит потратить время на изучение класса string, так как он очень важен в PowerShell. Документы находятся здесь.
Например, это может быть полезно, когда у нас есть очень большие входные данные, разделенные запятыми, с 15 столбцами, и нас интересует только третий столбец с конца. Если бы мы использовали оператор -split ','
, мы бы создали 15 новых строк и массив для каждой строки. С другой стороны, использование LastIndexOf
во входной строке несколько раз, а затем SubString
для получения интересующего значения происходит быстрее и приводит только к одной новой строке.
функция parseThirdFromEnd([string]$line){ $i = $line.LastIndexOf(",") # получить последний разделитель $i = $line.LastIndexOf(",", $i - 1) # получаем предпоследний разделитель, а также конец интересующего нас столбца $j = $line. LastIndexOf(",", $i - 1) # получаем разделитель перед нужным столбцом $j++ # далее вперед после разделителя $line.SubString($j,$i-$j) # получаем текст искомого столбца }
В этом примере я игнорирую тот факт, что IndexOf
и LastIndexOf
возвращают -1, если они не могут найти текст для поиска. Из опыта я также знаю, что легко испортить арифметику индекса.
Таким образом, хотя использование этих методов может повысить производительность, они также более подвержены ошибкам и требуют гораздо больше ввода. Я бы прибегал к этому только тогда, когда знаю, что входные данные очень велики, а производительность является проблемой. Так что это не рекомендация и не отправная точка, а то, к чему можно прибегнуть.
В редких случаях я пишу весь синтаксический анализатор на C#. Примером этого является модуль, обертывающий систему контроля версий Perforce, где инструмент командной строки может выводить словари Python. Это двоичный формат, и вариант использования был достаточно сложным, поэтому мне было удобнее использовать язык реализации, проверяемый компилятором.
Регулярные выражения
Почти все параметры синтаксического анализа в PowerShell используют регулярные выражения, поэтому я начну с краткого введения некоторых концепций регулярных выражений, которые будут использоваться позже в этих сообщениях.
Регулярные выражения очень полезно знать при написании простых синтаксических анализаторов, поскольку они позволяют нам выражать интересующие шаблоны и захватывать текст, соответствующий этим шаблонам.
Это очень богатый язык, но вы можете продвинуться довольно далеко, изучив несколько ключевых частей. Я считаю, что сайт Regular-expressions.info является хорошим онлайн-ресурсом для получения дополнительной информации. Он не написан непосредственно для реализации регулярного выражения .net, но большая часть информации действительна для разных реализаций.
Регулярное выражение | Описание |
---|---|
* | Ноль или более предшествующих символов. a* соответствует пустой строке, a , aa и т. д., но не b . |
+ | Один или несколько предшествующих символов. a+ соответствует a , aa и т. д., но не пустой строке или b . |
. | Соответствует любому символу |
[акс1] | Любой из a , x , 1 |
| соответствует любому из a , b , c , d |
\ш | Метасимвол \w используется для поиска символа слова. Словесный символ — это символ от az, AZ, 0-9., включая символ _ (подчеркивание). Он также соответствует вариантам таких символов, как ??? и ??? . |
\Вт | Инверсия \w . Соответствует любому символу, не являющемуся словом |
\с | Метасимвол \s используется для поиска пробела |
\С | Инверсия \s . Соответствует любому непробельному символу |
\д | Совпадает с цифрами |
\D | Инверсия \d . Соответствует не цифрам |
\б | Соответствует границе слова, то есть положению между словом и пробелом. |
\Б | Инверсия \b . . er\B соответствует er в глаголе , но не # начало строки
\s+ # один или несколько пробелов
(\d+) # захватить одну или несколько цифр в первой группе (индекс 1)
, # запятая
(.+) # захватить один или несколько символов любого типа во второй группе (индекс 2) |