Từ có 5 chữ cái với i d s ở giữa năm 2022

Chương này trình bày việc sử dụng package stringr để đánh giá và xử lý các giá trị ký tự [“chuỗi”].

  1. Các hàm kết hợp, thiết lập thứ tự, phân tách, sắp xếp - str_c[], str_glue[], str_order[], str_split[]

  2. Làm sạch và chuẩn hóa

    • Các hàm điều chỉnh độ dài ký tự - str_pad[], str_trunc[], str_wrap[]
    • Các hàm thay đổi chữ hoa/chữ thường - str_to_upper[], str_to_title[], str_to_lower[], str_to_sentence[]
  3. Các hàm đánh giá và trích xuất vị trí - str_length[], str_sub[], word[]

  4. Các hàm làm việc với patterns

    • Phát hiện và định vị - str_detect[], str_subset[], str_match[], str_extract[]
    • Sửa đổi và thay thế - str_sub[], str_replace_all[]
  5. Biểu thức chính quy [“regex”]

Để dễ hiển thị, hầu hết các code ví dụ đều mô phỏng trên một vectơ ngắn dạng ký tự đã được xác định, tuy nhiên chúng có thể dễ dàng áp dụng trên một cột trong bộ dữ liệu.

Package stringr vignette đã cung cấp nhiều ý tưởng cho chương này.

Chuẩn bị

Gọi packages

Cài đặt hoặc gọi package stringr và các packages tidyverse khác.

# install/load packages
pacman::p_load[
  stringr,    # many functions for handling strings
  tidyverse,  # for optional data manipulation
  tools]      # alternative for converting to title case

Nhập dữ liệu

Để bắt đầu, chúng ta nhập bộ dữ liệu có tên linelist đã làm sạch bao gồm các trường hợp từ vụ dịch Ebola mô phỏng. Để tiện theo dõi, bấm để tải dữ liệu linelist “đã được làm sạch” [dưới dạng tệp .rds]. Nhập dữ liệu bằng hàm import[] từ package rio [nó xử lý nhiều loại tệp như .xlsx, .csv, .rds - xem thêm chương Nhập xuất dữ liệu để biết thêm chi tiết].

# import case linelist 
linelist 

Chủ Đề